Module also offered within study programmes:
General information:
Name:
Data exploration
Course of study:
2018/2019
Code:
HUX-1-502-s
Faculty of:
Humanities
Study level:
First-cycle studies
Specialty:
-
Field of study:
Social Informatics
Semester:
5
Profile of education:
Practical (P)
Lecture language:
Polish
Form and type of study:
Full-time studies
Course homepage:
 
Responsible teacher:
dr hab. inż. Kowalski Piotr Andrzej (pkowal@agh.edu.pl)
Academic teachers:
dr hab. inż. Kowalski Piotr Andrzej (pkowal@agh.edu.pl)
Module summary

Celem zajęć jest zapoznanie studentów z podstawowymi metodami eksploracyjnej analizy danych oraz przykładami ich użycia w rozmaitych zagadnieniach aplikacyjnych.

Description of learning outcomes for module
MLO code Student after module completion has the knowledge/ knows how to/is able to Connections with FLO Method of learning outcomes verification (form of completion)
Social competence
M_K001 Student potrafi argumentować racje wynikające z eksploracji danych UX1P_K05 Activity during classes,
Test,
Participation in a discussion
M_K002 Student potrafi precyzyjnie i zrozumiale komunikować wyniki analizy danych, ma potrzebę rozwijania zdolności komunikacyjnych całe życie. UX1P_K04 Examination,
Test,
Participation in a discussion
M_K006 Student ma świadomość biznesowych i społecznych obszarów zastosowań metod eksploracji danych UX1P_K01 Activity during classes
Skills
M_U001 Student potrafi w praktyce zastosować wybrane metody do klasyfikacji i klasteryzacji danych UX1P_U05 Test,
Execution of exercises
M_U002 Student potrafi wybrać odpowiednią dla zadanego problemu metodę analizy danych UX1P_U01 Examination,
Test,
Execution of exercises
M_U003 Student potrafi wyciągać wnioski na podstawie klasyfikacji i klasteryzacji danych różnymi metodami. UX1P_U09 Test,
Execution of exercises
Knowledge
M_W003 Student zna istotę analizy danych w kontekście Big Data UX1P_W03 Examination,
Test
M_W004 Student zna zalety i ograniczenia metod klasyfikacji i klasteryzacji danych UX1P_W09 Examination,
Test
M_W005 Student zna rodzaje metod klasyfikacji i klasteryzacji danych UX1P_W01 Examination,
Test
FLO matrix in relation to forms of classes
MLO code Student after module completion has the knowledge/ knows how to/is able to Form of classes
Lecture
Audit. classes
Lab. classes
Project classes
Conv. seminar
Seminar classes
Pract. classes
Zaj. terenowe
Zaj. warsztatowe
Others
E-learning
Social competence
M_K001 Student potrafi argumentować racje wynikające z eksploracji danych - - - + - - - - - - -
M_K002 Student potrafi precyzyjnie i zrozumiale komunikować wyniki analizy danych, ma potrzebę rozwijania zdolności komunikacyjnych całe życie. + - - + - - - - - - -
M_K006 Student ma świadomość biznesowych i społecznych obszarów zastosowań metod eksploracji danych - - - + - - - - - - -
Skills
M_U001 Student potrafi w praktyce zastosować wybrane metody do klasyfikacji i klasteryzacji danych + - - + - - - - - - -
M_U002 Student potrafi wybrać odpowiednią dla zadanego problemu metodę analizy danych + - - + - - - - - - -
M_U003 Student potrafi wyciągać wnioski na podstawie klasyfikacji i klasteryzacji danych różnymi metodami. - - - + - - - - - - -
Knowledge
M_W003 Student zna istotę analizy danych w kontekście Big Data + - - + - - - - - - -
M_W004 Student zna zalety i ograniczenia metod klasyfikacji i klasteryzacji danych + - - + - - - - - - -
M_W005 Student zna rodzaje metod klasyfikacji i klasteryzacji danych + - - + - - - - - - -
Module content
Lectures:
Eksploracja danych

1. Zagadnienia wstępne i omówienie założeń przedmiotu
2. Zastosowania praktyczne metod eksploracji danych
3. Teoria klasyfikacji, reguła Bayesa, dyskryminator Fischera, miary podobieństwa
4. Klasyfikacja danych z nauczycielem
- Kryteria i metody oceny jakości systemów klasyfikacji, przekleństwo wymiarowości
- Klasyfikatory minimalnoodległościowe (NN, kNN)
- Drzewa decyzyjne
- Klasyfikator Bayesa,
- Metody dyskryminacyjne
- Sztuczne sieci neuronowe
5. Zaawansowane metody automatycznego grupowania danych (clustering)
- Kryteria i metody oceny jakości systemów grupowania danych
- Analiza składowych głównych (SVD, PCA)
- Algorytm k-Means
- Reguły asocjacyjne
6. Zaawansowane metody redukcji wymiarowości i przetwarzania cech
- Wizualizacja danych wielowymiarowych
- Metody normalizacji parametrów (standaryzacja, normalizacja, rzutowanie)
- Skalowanie wielowymiarowe (MDS)
7. Podstawy analizy dużych zbiorów danych – Big Data

Project classes:
Eksploracja danych

1. Zagadnienia wstępne i omówienie założeń przedmiotu
2. Zastosowania praktyczne metod eksploracji danych
3. Teoria klasyfikacji, reguła Bayesa, dyskryminator Fischera, miary podobieństwa
4. Klasyfikacja danych z nauczycielem
- Kryteria i metody oceny jakości systemów klasyfikacji, metoda testów krzyżowych, przekleństwo wymiarowości
- Klasyfikatory minimalnoodległościowe (NN, kNN)
- Drzewa decyzyjne
- Klasyfikator Bayesa
- Metody dyskryminacyjne
- Sztuczne sieci neuronowe
5. Zaawansowane metody automatycznego grupowania danych (clustering)
- Kryteria i metody oceny jakości systemów grupowania danych
- Analiza składowych głównych (SVD, PCA)
- Metody hierarchiczne (HAC)
- Algorytm k-Means
6. Zaawansowane metody redukcji wymiarowości i przetwarzania cech
- Wizualizacja danych wielowymiarowych
- Metody normalizacji parametrów (standaryzacja, normalizacja, rzutowanie)
- Analiza składowych niezależnych (ICA)
- Skalowanie wielowymiarowe (MDS)
7. Podstawy analizy dużych zbiorów danych – Big Data

Student workload (ECTS credits balance)
Student activity form Student workload
Summary student workload 158 h
Module ECTS credits 6 ECTS
Participation in lectures 30 h
Participation in project classes 30 h
Contact hours 6 h
Examination or Final test 2 h
Realization of independently performed tasks 40 h
Preparation for classes 50 h
Additional information
Method of calculating the final grade:

Egzamin 60%,
Zaliczenie pozostałych form przedmiotu 40%.

Prerequisites and additional requirements:

• Znajomość podstawowych zagadnień analizy statystycznej
• Znajomość zagadnień wielowymiarowej analizy danych
• Umiejętność posługiwania się w podstawowym zakresie wybranym skryptowym językiem programowania (np. Python)

Recommended literature and teaching resources:

• D. Larose, „Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych”, Wydawnictwo Naukowe PWN, 2013
• D. Larose, „Metody i modele eksploracji danych / Daniel T. Larose ; z jęz. ang. przeł. Anna Wilbik.”
• Amir D. Aczel, „Statystyka w zarządzaniu”, Wydawnictwo Naukowe PWN, Warszawa 2000J. Koronacki, J. Ćwik, Statystyczne systemy uczące się, Wydanie 2., Wyd. Exit, 2008
• M. Krzyśko, W. Wołyński, T. Górecki, M. Skorzybut, „Systemy uczące się”, WNT, Warszawa 2008
• R. Duda, P. Hart, D. Stork, “Pattern Classification”, 2nd ed., Wiley 2000
• V. Mayer-Schönberger, K. Cukier, „Big Data. Rewolucja, która zmieni nasze myślenie, pracę i życie”, MT Biznes 2014

Scientific publications of module course instructors related to the topic of the module:

P. A. Kowalski and M. Kusy. “Sensitivity Analysis for Probabilistic Neural Network
Structure Reduction”. IEEE Transactions on Neural Networks and Learning Systems
(2017). doi: 10.1109/TNNLS.2017.2688482.
P. A. Kowalski and P. Kulczycki. “Interval probabilistic neural network”. Neural Computing
and Applications vol. 28. no. 4 (2017), pp. 817–834. doi: 10.1007/s00521-015
2109-3.
P. A. Kowalski and S. Łukasik. “Training neural networks with krill herd algorithm”.
Neural Processing Letters vol. 44. no. 1 (2016), pp. 5–17. doi: 10.1007/s11063-015
9463-0.
M. Kusy and P. A. Kowalski. “Weighted Probabilistic Neural Network”. Information
Sciences (2017).

Additional information:

Dopuszczalna jest jedna nieobecność na zajęciach laboratoryjnych i projektowych. Zajęcia można odrobić – w miarę dostępności miejsc – w innej grupie projektowej/laboratoryjnej. Student zobligowany jest w najkrótszym możliwym terminie zgłosić się do prowadzącego zajęcia w celu ustalenia terminu odrobienia zajęć

W przypadku niemożliwości odrobienia zajęć lub większej liczby nieobecności istnieje możliwość uzupełnienia nieobecności w formie indywidualnego zadania domowego.

Student który bez usprawiedliwienia opuścił więcej niż 50% zajęć i jego cząstkowe wyniki w nauce były negatywne może zostać pozbawiony przez prowadzącego zajęcia możliwości wyrównania zaległości. Od takiej decyzji prowadzącego zajęcia student może się odwołać do prowadzącego przedmiot i/lub Dziekana.