Moduł oferowany także w ramach programów studiów:
Informacje ogólne:
Nazwa:
Technologia mowy
Tok studiów:
2019/2020
Kod:
RIAK-1-504-s
Wydział:
Inżynierii Mechanicznej i Robotyki
Poziom studiów:
Studia I stopnia
Specjalność:
-
Kierunek:
Inżynieria Akustyczna
Semestr:
5
Profil:
Ogólnoakademicki (A)
Język wykładowy:
Polski
Forma studiów:
Stacjonarne
Prowadzący moduł:
dr inż. Gałka Jakub (jgalka@agh.edu.pl)
Treści programowe zapewniające uzyskanie efektów uczenia się dla modułu zajęć

Moduł omawia akustykę mowy, metody przetwarzania, rozpoznawania i syntezy mowy i języka naturalnego, w tym metody oparte o uczenie głębokie, oraz współczesne zastosowania technologii mowy.

Opis efektów uczenia się dla modułu zajęć
Kod MEU Student, który zaliczył moduł zajęć zna i rozumie/potrafi/jest gotów do Powiązania z KEU Sposób weryfikacji i oceny efektów uczenia się osiągniętych przez studenta w ramach poszczególnych form zajęć i dla całego modułu zajęć
Wiedza: zna i rozumie
M_W001 Znajomość zakresu technologii mowy, tła historycznego, fizjologii i akustyki mowy, znajomość metod i algorytmów przetwarzania mowy, oraz istniejących narzędzi przetwarzania mowy. IAK1A_W18, IAK1A_W13, IAK1A_W09, IAK1A_W16, IAK1A_W11, IAK1A_W20 Udział w dyskusji,
Aktywność na zajęciach,
Kolokwium,
Prezentacja,
Sprawozdanie,
Wykonanie ćwiczeń
Umiejętności: potrafi
M_U001 Samodzielnie implementować algorytmy wykorzystywane w technologii mowy IAK1A_U21, IAK1A_U09 Projekt,
Sprawozdanie,
Wykonanie projektu,
Wykonanie ćwiczeń laboratoryjnych
M_U002 Projektowanie nowych zastosowań technologii mowy. IAK1A_U21 Kolokwium,
Sprawozdanie,
Wykonanie ćwiczeń laboratoryjnych
Kompetencje społeczne: jest gotów do
M_K001 Prezentować działanie i skuteczność technologii mowy IAK1A_K06 Prezentacja
Liczba godzin zajęć w ramach poszczególnych form zajęć:
SUMA (godz.)
Wykład
Ćwicz. aud
Ćwicz. lab
Ćw. proj.
Konw.
Zaj. sem.
Zaj. prakt
Zaj. terenowe
Zaj. warsztatowe
Prace kontr. przejść.
Lektorat
78 26 26 26 0 0 0 0 0 0 0 0
Matryca kierunkowych efektów uczenia się w odniesieniu do form zajęć i sposobu zaliczenia, które pozwalają na ich uzyskanie
Kod MEU Student, który zaliczył moduł zajęć zna i rozumie/potrafi/jest gotów do Forma zajęć dydaktycznych
Wykład
Ćwicz. aud
Ćwicz. lab
Ćw. proj.
Konw.
Zaj. sem.
Zaj. prakt
Zaj. terenowe
Zaj. warsztatowe
Prace kontr. przejść.
Lektorat
Wiedza
M_W001 Znajomość zakresu technologii mowy, tła historycznego, fizjologii i akustyki mowy, znajomość metod i algorytmów przetwarzania mowy, oraz istniejących narzędzi przetwarzania mowy. + + - - - - - - - - -
Umiejętności
M_U001 Samodzielnie implementować algorytmy wykorzystywane w technologii mowy - - + - - - - - - - -
M_U002 Projektowanie nowych zastosowań technologii mowy. + + - - - - - - - - -
Kompetencje społeczne
M_K001 Prezentować działanie i skuteczność technologii mowy - + - - - - - - - - -
Nakład pracy studenta (bilans punktów ECTS)
Forma aktywności studenta Obciążenie studenta
Sumaryczne obciążenie pracą studenta 175 godz
Punkty ECTS za moduł 6 ECTS
Udział w zajęciach dydaktycznych/praktyka 78 godz
Przygotowanie do zajęć 20 godz
przygotowanie projektu, prezentacji, pracy pisemnej, sprawozdania 15 godz
Samodzielne studiowanie tematyki zajęć 60 godz
Egzamin lub kolokwium zaliczeniowe 2 godz
Szczegółowe treści kształcenia w ramach poszczególnych form zajęć (szczegółowy program wykładów i pozostałych zajęć)
Wykład (26h):

Zagadnienia wykładów:
1. Wprowadzenie i historia technologii mowy.
2. Fizjologia mowy i elementy psychoakustyki. Elementy fonetyki języka polskiego. Właściwości fizyczne sygnału mowy.
3. Przetwarzanie wstępne sygnału mowy.
4. Metody parametryzacji mowy – F0, formanty, MFCC.
5. Kodowanie, kompresja i transmisja mowy.
6. Elementy uczenia maszynowego stosowane w technologiach mowy.
7. Reguła Bayesa, GMM, sztuczne sieci neuronowe.
8. Głębokie sieci neuronowe w technologii mowy i języka.
9. Biometria głosu, rozpoznawanie i identyfikacja mówcy – technologia i zastosowania.
10. Przetwarzanie i rozumienie języka naturalnego.
11. Sztuczna inteligencja, interfejs głosowy i systemy dialogowe – projektowanie i UX systemów głosowych.
12. Istniejące systemy i przyszłość technologii mowy.

Ćwiczenia audytoryjne (26h):

Zagadnienia poruszane na ćwiczeniach audytoryjnych.
1. Przetwarzanie sygnału mowy: próbkowanie dźwięku, rozdzielczość, JND, dynamika,
2. Parametryzacja sygnału mowy: MFCC, F0, formanty.
3. Uczenie maszynowe: Elementy statystyki matematycznej, modelowanie statystyczne.
4. Klasyfikator Bayesa, klasyfikacja statystyczna i GMM.
5. Sieć neuronowa i algorytm gradient descent.
6. Model n-gramowy i modele semantyczne, wektoryzacja tekstu, word-embeddings.
7. Przedstawienie propozycji komercjalizacji technologii mowy przez studentów.

Ćwiczenia laboratoryjne (26h):

Ćwiczenia laboratoryjne:
1. Wprowadzenie w podstawowe narzędzia programistyczne – język Python
2. Akwizycja i analiza sygnału w języku Python
3. Analiza podstawowych ekstraktorów cech z sygnału mowy – MFCC
4. Modelowanie bazujące na sygnale mowy – Gaussian Mixture Models
5. Projekt I – Zaprojektowanie własnego systemu rozpoznawania mowy o ograniczonym słownictwie
6. Projekt I – Walidacja systemu rozpoznawania mowy
7. Projekt I – Ocena systemu na zbiorze ewaluacyjnym
8. Projektowanie interfejsów głosowych – case study
9. SRGS/ABNF – systemy definiowania gramatyk, wprowadzenie w API systemów udostępnianych do projektów
10. Projekt II – Planowanie i implementacja interfejsu głosowego
11. Projekt II – Rozwój projektu / Testowanie
12. Projekt II – Rozwój projektu / Testowanie
13. Projekt II – Przygotowanie e-portfolio
14. Projekt II – Demo-Day: “Obrona projektów”

Zajęcia laboratoryjne będą się odbywały z wykorzystaniem metody e-portfolio, opracowanej w ramach projektu POWR.03.04.00-00-D002/16.

Pozostałe informacje
Metody i techniki kształcenia:
  • Wykład: Treści prezentowane na wykładzie są przekazywane w formie prezentacji multimedialnej w połączeniu z klasycznym wykładem tablicowym wzbogaconymi o pokazy odnoszące się do prezentowanych zagadnień.
  • Ćwiczenia audytoryjne: Podczas zajęć audytoryjnych studenci na tablicy rozwiązują zadane wcześniej problemy. Prowadzący na bieżąco dokonuje stosowanych wyjaśnień i moderuje dyskusję z grupą nad danym problemem.
  • Ćwiczenia laboratoryjne: W trakcie zajęć laboratoryjnych studenci samodzielnie rozwiązują zadany problem praktyczny, dobierając odpowiednie narzędzia. Prowadzący stymuluje grupę do refleksji nad problemem, tak by otrzymane wyniki miały wysoką wartość merytoryczną.
Warunki i sposób zaliczenia poszczególnych form zajęć, w tym zasady zaliczeń poprawkowych, a także warunki dopuszczenia do egzaminu:

Ćwiczenia audytoryjne
Warunkiem uzyskania zaliczenia jest uzyskanie pozytywnej oceny z dwóch kolokwiów pisemnych planowanych w połowie oraz na końcu semestru. Zakres materiału zaliczeniowego obowiązuje materiał z wykładów oraz z ćwiczeń. Przewidziany jest dodatkowy termin poprawkowy obejmujacy 1 lub oba kolokwia.

Ćwiczenia laboratoryjne
Warunkiem uzyskania zaliczenia i pozytywnej oceny jest zrealizowanie ćwiczeń laboratoryjnych oraz zrealizowanie i przedstawienie prezentacji końcowej projektu laboratoryjnego.

W przypadku obu form zajęć udokumentowana aktywność na zajęciach stanowi o możliwości podniesienia oceny.

Zasady udziału w zajęciach:
  • Wykład:
    – Obecność obowiązkowa: Nie
    – Zasady udziału w zajęciach: Studenci uczestniczą w zajęciach poznając kolejne treści nauczania zgodnie z syllabusem przedmiotu. Studenci winni na bieżąco zadawać pytania i wyjaśniać wątpliwości. Rejestracja audiowizualna wykładu wymaga zgody prowadzącego.
  • Ćwiczenia audytoryjne:
    – Obecność obowiązkowa: Tak
    – Zasady udziału w zajęciach: Studenci przystępując do ćwiczeń są zobowiązani do przygotowania się w zakresie wskazanym każdorazowo przez prowadzącego (np. w formie zestawów zadań). Ocena pracy studenta może bazować na wypowiedziach ustnych lub pisemnych w formie kolokwium, co zgodnie z regulaminem studiów AGH przekłada się na ocenę końcową z tej formy zajęć.
  • Ćwiczenia laboratoryjne:
    – Obecność obowiązkowa: Tak
    – Zasady udziału w zajęciach: Studenci wykonują ćwiczenia laboratoryjne zgodnie z materiałami udostępnionymi przez prowadzącego. Student jest zobowiązany do przygotowania się w przedmiocie wykonywanego ćwiczenia, co może zostać zweryfikowane kolokwium w formie ustnej lub pisemnej. Zaliczenie zajęć odbywa się na podstawie zaprezentowania rozwiązania postawionego problemu. Zaliczenie modułu jest możliwe po zaliczeniu wszystkich zajęć laboratoryjnych.
Sposób obliczania oceny końcowej:

Ocena końcowa obliczana jest jako średnia ocen uzyskanych z ćwiczeń laboratoryjnych (50%) i oceny ze sprawdzianów obejmujących materiał wykładów i ćwiczeń audytoryjnych oraz aktywności na zajęciach (50%).

Sposób i tryb wyrównywania zaległości powstałych wskutek nieobecności studenta na zajęciach:

Nie przewidziano dodatkowych terminów ćwiczeń laboratoryjnych ani ćwiczeń audytoryjnych. Student zobowiązany jest zrealizować materiał samodzielnie i sprawozdać efekty realizacji prowadzącemu ćwiczenia.

Wymagania wstępne i dodatkowe, z uwzględnieniem sekwencyjności modułów :

Student powinien umieć programować oraz posiadać wiedzę o przetwarzaniu sygnałów, statystyce i probabilistyce.

Zalecana literatura i pomoce naukowe:

1. B. Ziółko, M. Ziółko, “Przetwarzanie mowy”. Wydawnictwa AGH, 2011.
2. D. Jurafsky and J. H. Martin, “Speech and Language Processing, 2nd Edition”. New Jersey: Prentice-Hall, Inc., 2008.
3. S. Young, “Large vocabulary continuous speech recognition: a review”. IEEE Signal Processing Magazine, vol. 13(5), pp. 45–57, 1996.
4. L. Rabiner and B. H. Juang, “Fundamentals of speech recognition”. New Jersey: PTR Prentice-Hall, Inc., 1993.
5. C. D. Manning, “Foundations of Statistical Natural Language Processing”. MIT Press. Cambridge, MA, 1999.
6. J. N. Holmes, “Speech Synthesis and Recognition”. London: Taylor and Francis, 2001.

Publikacje naukowe osób prowadzących zajęcia związane z tematyką modułu:

Audio replay attack detection using high-frequency features / Marcin WITKOWSKI, Stanisław KACPRZAK, Piotr ŻELASKO, Konrad KOWALCZYK, Jakub GAŁKA // W: INTERSPEECH 2017 : situated interaction : 20-24 August 2017

Playback attack detection for text-dependent speaker verification over telephone channels / Jakub GAŁKA, Marcin Grzywacz, Rafał SAMBORSKI // Speech Communication ; ISSN 0167-6393. — 2015 vol. 67, s. 143–153.

Caller identification by voice / Marcin WITKOWSKI, Magdalena IGRAS, Joanna GRZYBOWSKA, Paweł Jaciów, Jakub GAŁKA, Mariusz ZIÓŁKO // W: 2014 XXII annual Pacific Voice Conference (PVC) [Dokument elektroniczny] : Kraków, Poland, 11–13 April 2014

Voice authentication embedded solution for secured access control / Jakub GAŁKA, Mariusz MĄSIOR, Michał Salasa // IEEE Transactions on Consumer Electronics ; ISSN 0098-3063. — 2014 vol. 60 iss. 4, s. 653–661.

SARMATA 2.0 automatic Polish language speech recognition system / Bartosz ZIÓŁKO, Tomasz JADCZYK, Dawid SKURZOK, Piotr ŻELASKO, Jakub GAŁKA, Tomasz PĘDZIMĄŻ, Ireneusz GAWLIK, Szymon PAŁKA // W: INTERSPEECH 2015 : speech beyond speech : towards a better understanding of the most important biosignal : September 6–10, 2015, Dresden, Germany

System supporting speaker identification in emergency call center / Jakub GAŁKA, Joanna GRZYBOWSKA, Magdalena IGRAS, Paweł Jaciów, Kamil Wajda, Marcin WITKOWSKI, Mariusz ZIÓŁKO // W: INTERSPEECH 2015 : speech beyond speech : towards a better understanding of the most important biosignal : September 6–10, 2015, Dresden, Germany

Informacje dodatkowe:

Brak