Module also offered within study programmes:
General information:
Annual:
2017/2018
Code:
HUX-1-503-s
Name:
Modelling in data mining
Faculty of:
Humanities
Study level:
First-cycle studies
Specialty:
-
Field of study:
Social Informatics
Semester:
5
Profile of education:
Practical (P)
Lecture language:
Polish
Form and type of study:
Full-time studies
Course homepage:
 
Responsible teacher:
Gałka Jakub (jgalka@agh.edu.pl)
Academic teachers:
Gałka Jakub (jgalka@agh.edu.pl)
Module summary

Description of learning outcomes for module
MLO code Student after module completion has the knowledge/ knows how to/is able to Connections with FLO Method of learning outcomes verification (form of completion)
Social competence
M_K001 Student potrafi wyciągać wnioski przeprowadzanych analiz i modelowania i odnosić je na rzeczywistość społeczno-gospodarczą. UX1P_K05
M_K002 Student rozumie ograniczenia stosowania modeli, jako uproszczenia rzeczywistości. UX1P_K03 Test,
Participation in a discussion
M_K003 Student zna wagę praktyczną stosowania modeli systemów i procesów w kontekście społecznym i gospodarczym. UX1P_K01 Participation in a discussion
Skills
M_U001 Student potrafi za pomocą narzędzi komputerowych zdefiniować, dopasować oraz wykorzystać opracowany model dla przyjętego zbioru danych. UX1P_U04 Test,
Execution of exercises
M_U002 Student potrafi ocenić ograniczenia przyjętego modelu oraz oszacować zakres jego stosowalności. UX1P_U03 Examination,
Test
M_U003 Student na podstawie znajomości charakteru danych lub procesu potrafi dobrać odpowiednią metodę ich modelowania UX1P_U01 Examination,
Test,
Execution of exercises
Knowledge
M_W001 Student zna narzędzia informatyczne stosowane do modelowania danych i procesów. UX1P_W09 Test
M_W002 Student zna typowe obszary zastosowań różnych metod modelowania danych i procesów. UX1P_W03 Examination,
Test
M_W003 Student zna pojęcie modelu i modelowania oraz różne rodzaje metod modelowania danych i procesów, zasady ich działania oraz właściwości UX1P_W01 Examination
FLO matrix in relation to forms of classes
MLO code Student after module completion has the knowledge/ knows how to/is able to Form of classes
Lecture
Audit. classes
Lab. classes
Project classes
Conv. seminar
Seminar classes
Pract. classes
Zaj. terenowe
Zaj. warsztatowe
Others
E-learning
Social competence
M_K001 Student potrafi wyciągać wnioski przeprowadzanych analiz i modelowania i odnosić je na rzeczywistość społeczno-gospodarczą. + - - + - - - - - - -
M_K002 Student rozumie ograniczenia stosowania modeli, jako uproszczenia rzeczywistości. + - - + - - - - - - -
M_K003 Student zna wagę praktyczną stosowania modeli systemów i procesów w kontekście społecznym i gospodarczym. + - - + - - - - - - -
Skills
M_U001 Student potrafi za pomocą narzędzi komputerowych zdefiniować, dopasować oraz wykorzystać opracowany model dla przyjętego zbioru danych. + - - + - - - - - - -
M_U002 Student potrafi ocenić ograniczenia przyjętego modelu oraz oszacować zakres jego stosowalności. + - - + - - - - - - -
M_U003 Student na podstawie znajomości charakteru danych lub procesu potrafi dobrać odpowiednią metodę ich modelowania + - - + - - - - - - -
Knowledge
M_W001 Student zna narzędzia informatyczne stosowane do modelowania danych i procesów. + - - + - - - - - - -
M_W002 Student zna typowe obszary zastosowań różnych metod modelowania danych i procesów. + - - + - - - - - - -
M_W003 Student zna pojęcie modelu i modelowania oraz różne rodzaje metod modelowania danych i procesów, zasady ich działania oraz właściwości + - - + - - - - - - -
Module content
Lectures:

1. Definicje modelowania danych i modelowania procesów
2. Zastosowania metod modelowania danych
3. Wielowymiarowe i wielorakie zmienne losowe – wybrane właściwości
4. Regresja liniowa, logistyczna i wieloraka – definicje, właściwości i zastosowania
5. Statystyczne modele generatywne
a. Mikstury Gaussa (GMM), definicja modelu
b. Estymacja parametrów modelu
c. Kryterium Maximum Likelihood, algorytm Expectation Maximization
d. Kryterium Maximum A-Posteriori
e. Kryteria informacyjne: Bayesa, entropii, informacji wspólnej, Akaike
6. Modelowanie procesów
a. Parametryzacja i modelowanie szeregów czasowych
b. Reguła Bellmana, problem najkrótszej ścieżki
c. Nieliniowe dopasowanie czasowe
d. Proces Markowa – definicja i właściwości, elementy systemów kolejkowych
e. Niejawne modele Markowa (HMM) i ich zastosowania
f. Algorytm Viterbiego
g. Estymacja parametrów HMM
h. Losowe pola Markowa
i. Dynamiczne sieci Bayesa
7. Modelowanie nieparametryczne
a. Histogramy i okna Parzena
b. Drzewa regresji
c. Krzywe sklejane, metody jądrowe

Project classes:

1. Definicje modelowania danych i modelowania procesów
2. Zastosowania metod modelowania danych
3. Wielowymiarowe i wielorakie zmienne losowe – wybrane właściwości
4. Regresja liniowa, logistyczna i wieloraka – definicje, właściwości i zastosowania
5. Statystyczne modele generatywne
a. Mikstury Gaussa (GMM), definicja modelu
b. Estymacja parametrów modelu
c. Kryterium Maximum Likelihood, algorytm Expectation Maximization
d. Kryterium Maximum A-Posteriori
e. Kryteria informacyjne: Bayesa, entropii, informacji wspólnej, Akaike
6. Modelowanie procesów
a. Parametryzacja i modelowanie szeregów czasowych
b. Reguła Bellmana, problem najkrótszej ścieżki
c. Nieliniowe dopasowanie czasowe
d. Proces Markowa – definicja i właściwości, elementy systemów kolejkowych
e. Niejawne modele Markowa (HMM) i ich zastosowania
f. Algorytm Viterbiego
g. Estymacja parametrów HMM
h. Losowe pola Markowa
i. Dynamiczne sieci Bayesa
7. Modelowanie nieparametryczne
a. Histogramy i okna Parzena
b. Drzewa regresji
c. Krzywe sklejane, metody jądrowe

Student workload (ECTS credits balance)
Student activity form Student workload
Summary student workload 131 h
Module ECTS credits 5 ECTS
Participation in lectures 30 h
Participation in laboratory classes 30 h
Contact hours 6 h
Examination or Final test 2 h
Realization of independently performed tasks 35 h
Preparation for classes 28 h
Additional information
Method of calculating the final grade:

Egzamin 60%
Kolokwium 40%:wykonanie ćwiczeń praktycznych 80%, udział w dyskusji 20%

Prerequisites and additional requirements:

• Znajomość podstawowych zagadnień analizy statystycznej
• Znajomość metod wielowymiarowej analizy danych
• Umiejętność posługiwania się w podstawowym zakresie wybranym skryptowym językiem programowania (np. Python, R, Matlab)

Recommended literature and teaching resources:

• J. Koronacki, J. Ćwik, Statystyczne systemy uczące się, Wydanie 2., Wyd. Exit, 2008
• M. Krzyśko, W. Wołyński, T. Górecki, M. Skorzybut, „Systemy uczące się”, WNT, Warszawa 2008
• Amir D. Aczel, „Statystyka w zarządzaniu”, Wydawnictwo Naukowe PWN, Warszawa 2000
• B. Ziółko, M. Ziółko, „Przetwarzanie mowy”, Wydawnictwa AGH, Kraków 2011
• R. Duda, P. Hart, D. Stork, “Pattern Classification”, 2nd ed., Wiley 2000

Scientific publications of module course instructors related to the topic of the module:

M. MĄSIOR, M. IGRAS, M. ZIÓŁKO, S. KACPRZAK: Baza danych nagrań mowy dla analizy porównawczej rożnojęzycznych fonemów — Database of speech recordings for comparative analysis of multi-language phonemes. Studia Informatica; ISSN 0208-7286 – 2013 vol. 34 no. 2B, s. 79–87.
2. B. ZIÓŁKO, W. Kozłowski, M. ZIÓŁKO, R. SAMBORSKI, D. Sierra, J. GAŁKA: Hybrid Wavelet-Fourier-HMM speaker recognition. International Journal of Hybrid Information Technology; ISSN 1738-9968 — 2011 vol. 4 no. 4, s. 25–41.

Doświadczenie zawodowe pozaakademickie:
Dr inż. Jakub Gałka jest szefem działu R&D w VoicePIN.com Sp. z o.o. oraz współzałożycielem spin-off’a Techmo Sp. z o.o. Jest członkiem Stowarzyszenia Top500 Innovators i absolwentem szkoleń na temat innowacyjności w Stanford University.
W swojej pracy naukowej zajmuje się rozwijaniem technologii przetwarzania mowy a także systemami biometrycznymi, analizą danych i uczeniem maszynowym. Prowadzi projekty badawczo-rozwojowe oraz zajmuje się wdrażaniem nowych technologii w praktyce gospodarczej (pierwsze w Polsce wdrożenie biometrii głosowej w bankowości mobilnej). Jest autorem oraz recenzentem publikacji naukowych w czasopismach z listy filadelfijskiej. Zdobywca krajowych i międzynarodowych nagród za działalność wynalazczą. Wspiera i rozwija działalność innowacyjną w środowisku akademickim i start-up’owym Krakowa. Jest laureatem Top10 Startup Alley na Tech Crunch Disrupt w San Francisco oraz zwycięzcą Tech Crunch Meetup Kraków 2015 (z VoicePIN.com).

Additional information:

None