Moduł oferowany także w ramach programów studiów:
Informacje ogólne:
Nazwa:
Interfejs głosowy
Tok studiów:
2019/2020
Kod:
RIAK-2-203-DH-s
Wydział:
Inżynierii Mechanicznej i Robotyki
Poziom studiów:
Studia II stopnia
Specjalność:
Drgania i Hałas w Technice i Środowisku
Kierunek:
Inżynieria Akustyczna
Semestr:
2
Profil:
Ogólnoakademicki (A)
Język wykładowy:
Polski
Forma studiów:
Stacjonarne
Prowadzący moduł:
dr inż. Gałka Jakub (jgalka@agh.edu.pl)
Treści programowe zapewniające uzyskanie efektów uczenia się dla modułu zajęć

Kurs przedstawia najważniejsze aspekty współczesnych systemów głosowych tj. zastosowania, standardy przemysłowe, głębokie uczenie maszynowe i sieci neuronowe w kontekście ASR, TTS i NLP.

Opis efektów uczenia się dla modułu zajęć
Kod MEU Student, który zaliczył moduł zajęć zna i rozumie/potrafi/jest gotów do Powiązania z KEU Sposób weryfikacji i oceny efektów uczenia się osiągniętych przez studenta w ramach poszczególnych form zajęć i dla całego modułu zajęć
Wiedza: zna i rozumie
M_W001 Posiada wiedzę niezbędną do analizy, zaprojektowania i implementacji systemów komunikacji głosowej człowieka z maszyną. Zna obowiązujące standardy przemysłowe oraz zasady projektowania systemów. Aktywność na zajęciach,
Udział w dyskusji,
Wykonanie projektu
Umiejętności: potrafi
M_U001 Efektem kształcenia jest umiejętność analizy i projektowania systemów interakcji człowieka z maszyną za pomocą mowy. Znajomość przemysłowych standardów służących do budowy głosowych systemów interaktywnych oraz zasady prawidłowego projektowania tego typu rozwiązań. IAK2A_U09, IAK2A_U03, IAK2A_U05, IAK2A_U11 Aktywność na zajęciach,
Projekt,
Sprawozdanie,
Udział w dyskusji,
Zaangażowanie w pracę zespołu,
Wykonanie projektu
M_U002 Potrafi wykonać działającą implementację stworzonego przez siebie projektu systemu komunikacji człowieka z maszyną. IAK2A_U09, IAK2A_U15, IAK2A_U03, IAK2A_U05 Aktywność na zajęciach,
Sprawozdanie,
Studium przypadków ,
Wykonanie projektu
Kompetencje społeczne: jest gotów do
M_K001 Potrafi ocenić wpływ stosowanych technologii na rzeczywistość społeczną i gospodarczą. IAK2A_K03, IAK2A_K01, IAK2A_K04 Prezentacja,
Aktywność na zajęciach,
Projekt,
Udział w dyskusji
Liczba godzin zajęć w ramach poszczególnych form zajęć:
SUMA (godz.)
Wykład
Ćwicz. aud
Ćwicz. lab
Ćw. proj.
Konw.
Zaj. sem.
Zaj. prakt
Zaj. terenowe
Zaj. warsztatowe
Prace kontr. przejść.
Lektorat
28 14 0 0 14 0 0 0 0 0 0 0
Matryca kierunkowych efektów uczenia się w odniesieniu do form zajęć i sposobu zaliczenia, które pozwalają na ich uzyskanie
Kod MEU Student, który zaliczył moduł zajęć zna i rozumie/potrafi/jest gotów do Forma zajęć dydaktycznych
Wykład
Ćwicz. aud
Ćwicz. lab
Ćw. proj.
Konw.
Zaj. sem.
Zaj. prakt
Zaj. terenowe
Zaj. warsztatowe
Prace kontr. przejść.
Lektorat
Wiedza
M_W001 Posiada wiedzę niezbędną do analizy, zaprojektowania i implementacji systemów komunikacji głosowej człowieka z maszyną. Zna obowiązujące standardy przemysłowe oraz zasady projektowania systemów. + - - - - - - - - - -
Umiejętności
M_U001 Efektem kształcenia jest umiejętność analizy i projektowania systemów interakcji człowieka z maszyną za pomocą mowy. Znajomość przemysłowych standardów służących do budowy głosowych systemów interaktywnych oraz zasady prawidłowego projektowania tego typu rozwiązań. + - - + - - - - - - -
M_U002 Potrafi wykonać działającą implementację stworzonego przez siebie projektu systemu komunikacji człowieka z maszyną. - - - + - - - - - - -
Kompetencje społeczne
M_K001 Potrafi ocenić wpływ stosowanych technologii na rzeczywistość społeczną i gospodarczą. + - - - - - - - - - -
Nakład pracy studenta (bilans punktów ECTS)
Forma aktywności studenta Obciążenie studenta
Sumaryczne obciążenie pracą studenta 75 godz
Punkty ECTS za moduł 3 ECTS
Udział w zajęciach dydaktycznych/praktyka 28 godz
przygotowanie projektu, prezentacji, pracy pisemnej, sprawozdania 30 godz
Samodzielne studiowanie tematyki zajęć 13 godz
Dodatkowe godziny kontaktowe 4 godz
Szczegółowe treści kształcenia w ramach poszczególnych form zajęć (szczegółowy program wykładów i pozostałych zajęć)
Wykład (14h):

Zagadnienia poruszane w czasie wykładów:

 • Systemy IVR (Interactive Voice Response). Podstawy działania systemów IVR, reguły projektowania, prototypowanie i testowanie systemów IVR.
 • Standardy: Voice XML, SRGS (Speech Recognition Grammar Specification), SISR (Semantic Interpretaction for Speech recognition), MRCP (Media Resource Control Protocol)
 • Systemy dialogowe języka mówionego. Generacja i rozumienie języka naturalnego.
 • Przetwarzanie języka naturalnego (NLP), modelowanie gramatyki i semantyki języka naturalnego. Zastosowanie głębokiego uczenia maszynowego.
 • Głębokie uczenie maszynowe w rozpoznawaniu i syntezy mowy – przegląd metod.

Ćwiczenia projektowe (14h):

W czasie zajęć projektowane będą prototypy interfejsów głosowych wykorzystujących wiedzę uzyskaną w czasie wykładu. Projekty będą realizacją przykładowych własnych interfejsów głosowych lub systemów dialogowych, lub ich komponentów technologicznych.

Pozostałe informacje
Metody i techniki kształcenia:
 • Wykład: Treści prezentowane na wykładzie są przekazywane w formie prezentacji multimedialnej w połączeniu z klasycznym wykładem tablicowym wzbogaconymi o pokazy odnoszące się do prezentowanych zagadnień.
 • Ćwiczenia projektowe: Studenci wykonują zadany projekt samodzielnie, bez większej ingerencji prowadzącego. Ma to wykształcić poczucie odpowiedzialności za pracę w grupie oraz odpowiedzialności za podejmowane decyzje.
Warunki i sposób zaliczenia poszczególnych form zajęć, w tym zasady zaliczeń poprawkowych, a także warunki dopuszczenia do egzaminu:

Ćwiczenia projektowe
Zaliczenie uzyskuje się na podstawie realizacji projektu. Ocena wystawiona będzie na podstawie:
– raportu z ukończenia projektu (30%)
– jakości projektu (40%)
– systematyczności w realizacji projektu. (30%)

Zasady udziału w zajęciach:
 • Wykład:
  – Obecność obowiązkowa: Nie
  – Zasady udziału w zajęciach: Studenci uczestniczą w zajęciach poznając kolejne treści nauczania zgodnie z syllabusem przedmiotu. Studenci winni na bieżąco zadawać pytania i wyjaśniać wątpliwości. Rejestracja audiowizualna wykładu wymaga zgody prowadzącego.
 • Ćwiczenia projektowe:
  – Obecność obowiązkowa: Tak
  – Zasady udziału w zajęciach: Studenci wykonują prace praktyczne mające na celu uzyskanie kompetencji zakładanych przez syllabus. Ocenie podlega sposób wykonania projektu oraz efekt końcowy.
Sposób obliczania oceny końcowej:

Ocena końcowa równa się ocenie końcowej z ćwiczeń projektowych.

Sposób i tryb wyrównywania zaległości powstałych wskutek nieobecności studenta na zajęciach:

Zaległości student odrabia samodzielnie a efekty tej pracy raportuje do prowadzącego zajęcia.

Wymagania wstępne i dodatkowe, z uwzględnieniem sekwencyjności modułów :

Znajomość podstaw technologii mowy, umiejętność programowania (Matlab, Python).

Zalecana literatura i pomoce naukowe:

Literatura:
B. Ziółko, M. Ziółko, “Przetwarzanie mowy”. Wydawnictwa AGH, 2011.
L. Rabiner and B. H. Juang, “Fundamentals of speech recognition”. New Jersey: PTR Prentice-Hall, Inc., 1993.
D. Jurafsky and J. H. Martin, “Speech and Language Processing, 2nd Edition”. New Jersey: Prentice-Hall, Inc., 2008.
C. D. Manning, “Foundations of Statistical Natural Language Processing”. MIT Press.
Cambridge, MA, 1999.
J. N. Holmes, “Speech Synthesis and Recognition”. London: Taylor and Francis, 2001.
J. R. Lewis, “Practical Speech User Interface Design”, Boca Raton: CRC Press, 2011.
K. Jokinen, “Constructive Dialogue Modelling”, John Wiley & Sons, 2009.

Standardy i rekomendacje:
The Voice Browser Working Group, http://www.w3.org/Voice/
Media Resource Control Protocol, http://tools.ietf.org/html/rfc4463

Publikacje naukowe osób prowadzących zajęcia związane z tematyką modułu:

Playback attack detection for text-dependent speaker verification over telephone channels
J Gałka, M Grzywacz, R Samborski Speech Communication 67, 143-153

Audio Replay Attack Detection Using High-Frequency Features
M Witkowski, S Kacprzak, P Zelasko, K Kowalczyk, J Gałka Interspeech 2017, 27-31

Inertial motion sensing glove for sign language gesture acquisition and recognition
J Gałka, M Mąsior, M Zaborski, K Barczewska IEEE Sensors Journal 16 (16), 6310-6316

Automatic speech recognition system dedicated for Polish M Ziółko, J Gałka, B Ziółko, T Jadczyk, D Skurzok, M Masior Interspeech Twelfth Annual Conference of the International Speech Communication Association 2011

Perceptual wavelet decomposition for speech segmentation M Ziółko, J Gałka, B Ziółko, T Drwiȩga
Interspeech Eleventh Annual Conference of the International Speech Communication Association 2010

Voice authentication embedded solution for secured access control J Gałka, M Mąsior, M Salasa
IEEE Transactions on Consumer Electronics 60 (4), 653-661

System supporting speaker identification in emergency call center J Gałka, J Grzybowska, M Igras, P Jaciów, K Wajda, M Witkowski Interspeech – Sixteenth annual conference of the international speech communication association 2015

Informacje dodatkowe:

Brak