Module also offered within study programmes:
General information:
Name:
Data Analysis
Course of study:
2017/2018
Code:
JFT-2-057-s
Faculty of:
Physics and Applied Computer Science
Study level:
Second-cycle studies
Specialty:
-
Field of study:
Technical Physics
Semester:
0
Profile of education:
Academic (A)
Lecture language:
Polish
Form and type of study:
Full-time studies
Course homepage:
 
Responsible teacher:
prof. dr hab. inż. Kulczycki Piotr (kulczycki@agh.edu.pl)
Academic teachers:
dr inż. Łukasik Szymon (slukasik@agh.edu.pl)
prof. dr hab. inż. Kulczycki Piotr (kulczycki@agh.edu.pl)
Module summary

Tematyka modułu obejmuje współczesne metody przetwarzania danych. Szczegółowo rozważane są
procedury wykrywania elementów nietypowych (odosobnionych), grupowania (klasteryzacji) i
klasyfikacji.

Description of learning outcomes for module
MLO code Student after module completion has the knowledge/ knows how to/is able to Connections with FLO Method of learning outcomes verification (form of completion)
Social competence
M_K001 Praca zespołowa. FT2A_K04 Activity during classes
M_K002 Profesjonalność i etyka. FT2A_K05, FT2A_K03, FT2A_K03, FT2A_K01, FT2A_K01 Activity during classes
M_K003 Konieczność ustawicznego samokształcenia. FT2A_K01, FT2A_K01 Activity during classes
Skills
M_U001 Stosowanie procedur analizy danych. FT2A_U11 Test
M_U002 Wykorzystanie procedur analizy danych do praktycznych zagadnień pozyskiwania wiedzy z danych. FT2A_U02, FT2A_U02 Test
M_U003 Pozyskiwanie informacji ze źródeł różnego typuoraz prezentacja zagadnienia badawczego iuzyskanych wyników. FT2A_U02, FT2A_U02, FT2A_U09 Test
Knowledge
M_W001 Poszerzenie wiedzy z zakresu statystyki matematycznej. FT2A_W07, FT2A_W07, FT2A_W02, FT2A_W02 Test
M_W002 Istota i uwarunkowania procesu pozyskiwaniawiedzy z danych. FT2A_W07, FT2A_W04, FT2A_W07, FT2A_W04 Test
M_W003 Znajomość procedur analizy danych. FT2A_W07, FT2A_W04, FT2A_W07, FT2A_W04 Test
FLO matrix in relation to forms of classes
MLO code Student after module completion has the knowledge/ knows how to/is able to Form of classes
Lecture
Audit. classes
Lab. classes
Project classes
Conv. seminar
Seminar classes
Pract. classes
Zaj. terenowe
Zaj. warsztatowe
Others
E-learning
Social competence
M_K001 Praca zespołowa. - - + - - - - - - - -
M_K002 Profesjonalność i etyka. + - - - - - - - - - -
M_K003 Konieczność ustawicznego samokształcenia. + - - - - - - - - - -
Skills
M_U001 Stosowanie procedur analizy danych. + - + - - - - - - - -
M_U002 Wykorzystanie procedur analizy danych do praktycznych zagadnień pozyskiwania wiedzy z danych. + - + - - - - - - - -
M_U003 Pozyskiwanie informacji ze źródeł różnego typuoraz prezentacja zagadnienia badawczego iuzyskanych wyników. - - + - - - - - - - -
Knowledge
M_W001 Poszerzenie wiedzy z zakresu statystyki matematycznej. + - - - - - - - - - -
M_W002 Istota i uwarunkowania procesu pozyskiwaniawiedzy z danych. + - - - - - - - - - -
M_W003 Znajomość procedur analizy danych. + - + - - - - - - - -
Module content
Lectures:
  1. Wprowadzenie

    Przedmiot analizy danych; związek ze statystyką matematyczną.
    Główne fazy procesu analizy danych.

  2. Pojęcia podstawowe

    Typy danych.
    Miary podobieństwa.
    Wstępne przetwarzanie danych: czyszczenie, obsługa brakujących atrybutów, standaryzacja.

  3. Wykrywanie elementów odosobnionych (nietypowych)

    Nieparametryczny test istotności.
    Elementy oddalone.

  4. Grupowanie (klasteryzacja)

    Algorytmy k-średnich i k-medoidów.
    Metody hierarchiczne.

  5. Klasyfikacja

    Algorytm k-najbliższych sąsiadów.
    Drzewa decyzyjne.

  6. Zastosowania

    Przykładowe aplikacje w zagadnieniach wykrywania uszkodzeń w systemach dynamicznych, a także wyznaczenia strategii marketingowej operatora telefonii komórkowej.
    Ewaluacja procesu analizy danych.

  7. Tematy opcjonalne

    Redukcja wymiaru danych.
    Duże (liczne) zbiory danych.
    Strumienie danych.

Laboratory classes:
Laboratorium

Zajęcia wprowadzające.
Wykrywanie elementów odosobnionych (nietypowych).
Grupowanie (klasteryzacja).
Klasyfikacja.
Procedury analizy danych w Internecie.
Temat opcjonalny: redukcja wymiaru danych.
Zajęcia zaliczeniowe.

Student workload (ECTS credits balance)
Student activity form Student workload
Summary student workload 90 h
Module ECTS credits 3 ECTS
Participation in lectures 20 h
Participation in laboratory classes 20 h
Preparation for classes 20 h
Realization of independently performed tasks 15 h
Preparation of a report, presentation, written work, etc. 15 h
Additional information
Method of calculating the final grade:

Zaliczenie modułu na podstawie zaliczenia laboratorium. Możliwe jest podwyższenie oceny na podstawie aktywności na wykładach.

Prerequisites and additional requirements:

Wiedza z zakresu matematyki na poziomie nabytym na studiach I stopnia, zwłaszcza z zakresu statystyki matematycznej.
Umiejętność użytkowania sprzętu komputerowego.

Recommended literature and teaching resources:

Larose D.T., Odkrywanie wiedzy z danych; wprowadzenie do eksploracji danych, PWN, 2006.
Larose D.T., Odkrywanie wiedzy z danych; metody i modele eksploracji danych, PWN, 2008.
Krzyśko M., Wołyński W., Górecki T., Skorzybut M., Systemy uczące się; rozpoznawanie wzorców, analiza skupień i redukcja wymiarowości, WNT, 2008.
- Literatura uzupełniająca:
Kulczycki P., Hryniewicz O., Kacprzyk J. (red.), Techniki informacyjne w badaniach systemowych, WNT, 2007.

Scientific publications of module course instructors related to the topic of the module:

- Książka:
1. P. Kulczycki, „Estymatory jądrowe w analizie systemowej”, WNT, Warszawa, 2005.
- Wybrane publikacje w czasopismach z listy JCR:
1. P. Kulczycki, P.A. Kowalski, „Bayes classification of imprecise information of interval type”, Control and Cybernetics, vol. 40, nr 1, ss. 101-123, 2011.
2. P. Kulczycki, M. Charytanowicz, P.A. Kowalski, S. Łukasik, „The Complete Gradient Clustering Algorithm: Properties in Practical Applications”, Journal of Applied Statistics, vol. 39, nr 6, ss. 1211-1224, 2012.
3. P. Kulczycki, S. Łukasik, „An Algorithm for Reducing Dimension and Size of Sample for Data Exploration Procedures”, International Journal of Applied Mathematics and Computer Science, vol. 24, nr 1, ss. 133-149, 2014.
4. P. Kulczycki, P.A. Kowalski, „Bayes Classification for Nonstationary Patterns”, International Journal of Computational Methods, vol. 12, nr 2, ID 1550008 (19 stron), 2015.
5. P. Kulczycki, D. Kruszewski, „Identification of Atypical Elements by Transforming Task to Supervised Form with Fuzzy and Intuitionistic Fuzzy Evaluations”, Applied Soft Computing, vol. 60, ss. 623-633, 2017.
6. P. Kulczycki, M. Charytanowicz, P.A. Kowalski, S. Łukasik, „Identification of Atypical (Rare) Elements – A Conditional, Distribution-Free Approach”, IMA Journal of Mathematical Control and Information, vol. 35, nr 3, ss. 923-937, 2018.

Additional information:

Nieobecności (także usprawiedliwione) na zajęciach z laboratorium wymagają odrobienia w formie i terminie uzgodnionych z prowadzącym. Połowa zajęć nieusprawiedliwionych skutkuje brakiem zaliczenia.