Moduł oferowany także w ramach programów studiów:
Informacje ogólne:
Nazwa:
Przetwarzanie mowy i języka metodami głębokiego uczenia maszynowego
Tok studiów:
2019/2020
Kod:
ZSDA-3-0189-s
Wydział:
Szkoła Doktorska AGH
Poziom studiów:
Studia III stopnia
Specjalność:
-
Kierunek:
Szkoła Doktorska AGH
Semestr:
0
Profil:
Ogólnoakademicki (A)
Język wykładowy:
Polski
Forma studiów:
Stacjonarne
Prowadzący moduł:
dr inż. Gałka Jakub (jgalka@agh.edu.pl)
Dyscypliny:
informatyka techniczna i telekomunikacja
Treści programowe zapewniające uzyskanie efektów uczenia się dla modułu zajęć

UWAGA! Przedmiot niedostępny w r. akademickim 2019/2020.
Przedmiot ma na celu przybliżenie najnowszych metod, trendów i wyzwań w dziedzinie przetwarzania sygnału mowy i języka naturalnego za pomocą głębokiego uczenia maszynowego. Omówione zostaną najważniejsze architektury sieci głębokich, w kontekście ich zastosowań do rozwiązywania konkretnych problemów obejmujących automatyczne rozpoznawanie mowy, syntezę mowy, konwersję głosu, biometrię głosową, przetwarzanie i rozumienie języka naturalnego.

Opis efektów uczenia się dla modułu zajęć
Kod MEU Student, który zaliczył moduł zajęć zna i rozumie/potrafi/jest gotów do Powiązania z KEU Sposób weryfikacji i oceny efektów uczenia się osiągniętych przez studenta w ramach poszczególnych form zajęć i dla całego modułu zajęć
Wiedza: zna i rozumie
M_W001 Student zna i rozumie współczesne metody i techniki przetwarzania mowy i języka za pomocą głębokiego uczenia maszynowego wraz z ich zastosowaniami. Zna podstawowe wyzwania technologiczne i kierunki prowadzonych w tym zakresie badań. SDA3A_W02, SDA3A_W01 Kolokwium
Umiejętności: potrafi
M_U001 Student potrafi zidentyfikować i opisać problem badawczy lub rozwojowy w zakresie przetwarzania mowy i jezyka naturalnego. Potrafi zaproponować innowacyjne rozwiązanie w zakresie przetwarzania mowy i języka za pomocą najnowszych metod głębokiego uczenia maszynowego. Potrafi korzystać z właściwych narzędzi do realizacji prac badawczo-rozwojowych obejmujących biblioteki programowe, bazy danych, infrastrukturę sprzętową oraz właściwy aparat matematyczny. Potrafi konstruować innowacyjne rozwiązania praktyczne oparte o zastosowanie technologię przetwarzania mowy i języka. SDA3A_U01 Projekt
M_U002 Student potrafi prezentować efekty swojej pracy badawczo-rozwojowej w sposób komunikatywny, precyzyjny i interesujący. Potrafi stawiać pytania problemowe i uczestniczyć w dyskusji naukowej dotyczącej technologii przetwarzania mowy i języka. SDA3A_U04, SDA3A_U02 Prezentacja
Kompetencje społeczne: jest gotów do
M_K001 Student ma kompetencje w zakresie komunikowania szans i zagrożeń wynikających z rozwijania technologii i ze stosowania metod przetwarzania mowy i języka. Potrafi rozpoznawać korzyści płynące z praktycznego zastosowania omawianej technologii. Rozumie wpływ i konsekwencje zastosowania metod przetwarzania mowy i języka dla rzeczywistości społeczno-ekonomicznej. SDA3A_K02 Udział w dyskusji
Liczba godzin zajęć w ramach poszczególnych form zajęć:
SUMA (godz.)
Wykład
Ćwicz. aud
Ćwicz. lab
Ćw. proj.
Konw.
Zaj. sem.
Zaj. prakt
Zaj. terenowe
Zaj. warsztatowe
Prace kontr. przejść.
Lektorat
30 15 0 0 15 0 0 0 0 0 0 0
Matryca kierunkowych efektów uczenia się w odniesieniu do form zajęć i sposobu zaliczenia, które pozwalają na ich uzyskanie
Kod MEU Student, który zaliczył moduł zajęć zna i rozumie/potrafi/jest gotów do Forma zajęć dydaktycznych
Wykład
Ćwicz. aud
Ćwicz. lab
Ćw. proj.
Konw.
Zaj. sem.
Zaj. prakt
Zaj. terenowe
Zaj. warsztatowe
Prace kontr. przejść.
Lektorat
Wiedza
M_W001 Student zna i rozumie współczesne metody i techniki przetwarzania mowy i języka za pomocą głębokiego uczenia maszynowego wraz z ich zastosowaniami. Zna podstawowe wyzwania technologiczne i kierunki prowadzonych w tym zakresie badań. + - - - - - - - - - -
Umiejętności
M_U001 Student potrafi zidentyfikować i opisać problem badawczy lub rozwojowy w zakresie przetwarzania mowy i jezyka naturalnego. Potrafi zaproponować innowacyjne rozwiązanie w zakresie przetwarzania mowy i języka za pomocą najnowszych metod głębokiego uczenia maszynowego. Potrafi korzystać z właściwych narzędzi do realizacji prac badawczo-rozwojowych obejmujących biblioteki programowe, bazy danych, infrastrukturę sprzętową oraz właściwy aparat matematyczny. Potrafi konstruować innowacyjne rozwiązania praktyczne oparte o zastosowanie technologię przetwarzania mowy i języka. - - - + - - - - - - -
M_U002 Student potrafi prezentować efekty swojej pracy badawczo-rozwojowej w sposób komunikatywny, precyzyjny i interesujący. Potrafi stawiać pytania problemowe i uczestniczyć w dyskusji naukowej dotyczącej technologii przetwarzania mowy i języka. - - - - - - - - - - -
Kompetencje społeczne
M_K001 Student ma kompetencje w zakresie komunikowania szans i zagrożeń wynikających z rozwijania technologii i ze stosowania metod przetwarzania mowy i języka. Potrafi rozpoznawać korzyści płynące z praktycznego zastosowania omawianej technologii. Rozumie wpływ i konsekwencje zastosowania metod przetwarzania mowy i języka dla rzeczywistości społeczno-ekonomicznej. + - - + - - - - - - -
Nakład pracy studenta (bilans punktów ECTS)
Forma aktywności studenta Obciążenie studenta
Sumaryczne obciążenie pracą studenta 79 godz
Punkty ECTS za moduł 3 ECTS
Udział w zajęciach dydaktycznych/praktyka 30 godz
Przygotowanie do zajęć 10 godz
przygotowanie projektu, prezentacji, pracy pisemnej, sprawozdania 25 godz
Samodzielne studiowanie tematyki zajęć 10 godz
Egzamin lub kolokwium zaliczeniowe 2 godz
Dodatkowe godziny kontaktowe 2 godz
Szczegółowe treści kształcenia w ramach poszczególnych form zajęć (szczegółowy program wykładów i pozostałych zajęć)
Wykład (15h):
Przetwarzanie mowy i języka metodami głębokiego uczenia maszynowego

  1. Podstawowe architektury sieci i narzędzia stosowane w przetwarzaniu mowy i języka.
  2. ASR – Automatyczne rozpoznawanie mowy, funkcjonalności ASR, omówienie najważniejszych architektur z uwzględnieniem sieci rekurencyjnych i splotowych.
  3. Synteza mowy, funkcjonalność TTS, techniki syntezy, omówienie rozwiązań pośredniej i bezpośredniej syntezy, przykłady najważniejszych architektur (WaveNet, Tacotron, WaveGlow). Konwersja głosu na przykładzie architektury GAN.
  4. Biometria głosu, omówienie podstawowych funkcjonalności i cech systemów biometrii głosu, przedstawienie modelu X-Vector oraz najnowszych trendów modelowania głosu (speaker embeddings). Detekcja atakóœ na systemy biometrii głosu (spoofing recognition).
  5. Przetwarzanie i rozumienie języka naturalnego (NLP), podstawowe problemy (zadania) NLP i NLU, modelowanie języka (word2vec, BERT, GPT-2)
  6. Wyzwania i najnowsze trendy w technologii mowy i języka. Przegląd problematyki w oparciu o najnowsze doniesienia konferencyjne i publikacyjne, dyskusja.
  7. Prezentacje projektów i dyskusja

Ćwiczenia projektowe (15h):
Przetwarzanie mowy i języka metodami głębokiego uczenia maszynowego

Zajęcia mają na celu zdefiniowanie problemu badawczo-rozwojowego i zrealizowanie związanego z nim mini-projektu.

Proponowane zagadnienia badawczo-rozwojowe:

  • Nowy model biometiri głosu o szerokim kontekście czasowym
  • Wielokanałowy system wykrywania hasła kluczowego dla systemów wielomikrofonowych
  • Poprawa jakości mowy
  • Porównanie dostępnych modeli / architektur ASR
  • Detekcja ataków biometrycznych
  • Automat dialogowy
  • Generator tekstów w wybranej domenie językowej
  • Serwis API dla wybranego modelu / funkcjonalności
  • walidacja praktyczna wybranego algorytmu prezentowanego w najnowszych publikacjach naukowych
  • inne zagadnienia.

Pozostałe informacje
Metody i techniki kształcenia:
  • Wykład: * Prezentacje studium przypadków * Dyskusja, burza mózgów * Zajęcia warsztatowe
  • Ćwiczenia projektowe: Realizacja w oparciu o wybrane z poniższych elementy metod i technik, zależnie od podjętego problemu badawczo-rozwojowego: * Realizacja projektu z zastosowaniem zwinnych metodyk zarządzania (Agile) * środowisko Python Notebook Jupyter * Git * wykorzystanie dostępnych modeli lub API, * wykorzystanie referencyjnych implementacji i baz danych, * projektowanie i walidacja nowych rozwiązań, * udział w konkursie (Kaggle, IEEE, Odyssey, etc.), * przygotowanie artykułu lub publikacji.
Warunki i sposób zaliczenia poszczególnych form zajęć, w tym zasady zaliczeń poprawkowych, a także warunki dopuszczenia do egzaminu:
  • Zaliczenie zajęć Wykładowych na podstawie pisemnego kolokwium końcowego z zakresu prezentowanego na Wykładzie. Przewidziany jest jeden termin poprawkowy.
  • Zaliczenie zajęć projektowych, na podstawie oceny zrealizowanego projektu uwgzlędniającej faktyczny stopień zrealizowania założeń projektu (50%) i prezentację końcową (50%).
Zasady udziału w zajęciach:
  • Wykład:
    – Obecność obowiązkowa: Nie
    – Zasady udziału w zajęciach: Studenci uczestniczą w zajęciach poznając kolejne treści nauczania zgodnie z syllabusem przedmiotu. Studenci winni na bieżąco zadawać pytania i wyjaśniać wątpliwości. Rejestracja wykładu wymaga zgody prowadzącego.
  • Ćwiczenia projektowe:
    – Obecność obowiązkowa: Tak
    – Zasady udziału w zajęciach: W ramach ćwiczeń projektowych studenci w grupach realizują projekt praktyczny dotyczący wybranego zagadnienia problemowego.
Sposób obliczania oceny końcowej:

Ocena końcowa jest wyznaczana jako ocena średnia z oceny projektu i kolokwium końcowego, zaokrąglana w kierunku wyższej wartości ze skali ocen przewidzianej regulaminem studiów.

Sposób i tryb wyrównywania zaległości powstałych wskutek nieobecności studenta na zajęciach:

Student uzupełnia wiedzę w oparciu o dostarczone materiały wykładowe i opcjonalne dodatkowe konsultacje z prowadzącym w uzgodnionym terminie.

Wymagania wstępne i dodatkowe, z uwzględnieniem sekwencyjności modułów :
  • znajomość języka Python lub Matlab
  • znajomość podstaw algebry liniowej, teorii informacji, DSP i statystyki
Zalecana literatura i pomoce naukowe:
  • Dan Jurafsky and James H. Martin, Speech and Language Processing (3rd ed. (draft))
  • Dokumentacja bibliotek: Scikit-learn, PyTorch, TensorFlow, Keras
Publikacje naukowe osób prowadzących zajęcia związane z tematyką modułu:

Voice conversion using deep adversarial learning / Hubert Siuzdak, Jakub GAŁKA // W: Human language technologies as a challenge for computer science and linguistics – 2019 / eds. Zygmunt Vetulani, Patrick Paroubek. — Poznań : Wydawnictwo Nauka i Innowacje, 2019. — ISBN: 978-83-65988-30-0. — S. 40–43.

System for multimodal data acquisition for human action recognition / Filip MALAWSKI, Jakub GAŁKA // Multimedia Tools and Applications ; ISSN 1380-7501. — 2018 vol. 77 iss. 18, s. 23825–23850

Audio replay attack detection using high-frequency features / Marcin WITKOWSKI, Stanisław KACPRZAK, Piotr ŻELASKO, Konrad KOWALCZYK, Jakub GAŁKA // W: INTERSPEECH 2017 : situated interaction : 20-24 August 2017

A system and a method for detecting recorded biometric information / Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie ; wynalazca: GAŁKA Jakub, Grzywacz Marcin, SAMBORSKI Rafał. — Int.Cl.: H04L 9/00\textsuperscript{(2006.01)}. — European Patent Office. — Opis zgłoszeniowy wynalazku ; EP 3016314 A1

Acquisition of multimodal data corpus for automatic sign language processing — Rejestracja multimedialnego korpusu danych dla automatycznego przetwarzania języka migowego / Jakub GAŁKA, Przemysław Węgrzynowicz, Mariusz MĄSIOR // Studia Informatica ; ISSN 1642-0489.

SARMATA 2.0 automatic Polish language speech recognition system / Bartosz ZIÓŁKO, Tomasz JADCZYK, Dawid SKURZOK, Piotr ŻELASKO, Jakub GAŁKA, Tomasz PĘDZIMĄŻ, Ireneusz GAWLIK, Szymon PAŁKA // W: INTERSPEECH 2015 : speech beyond speech : towards a better understanding of the most important biosignal : September 6–10, 2015, Dresden, Germany

Playback attack detection for text-dependent speaker verification over telephone channels / Jakub GAŁKA, Marcin Grzywacz, Rafał SAMBORSKI // Speech Communication ; ISSN 0167-6393. — 2015 vol. 67, s. 143–153. — Bibliogr. s. 152–153

Informacje dodatkowe:

brak