Module also offered within study programmes:
General information:
Name:
Data Mining
Course of study:
2018/2019
Code:
JIS-2-201-GK-s
Faculty of:
Physics and Applied Computer Science
Study level:
Second-cycle studies
Specialty:
Grafika komputerowa i przetwarzanie obrazów
Field of study:
Applied Computer Science
Semester:
2
Profile of education:
Academic (A)
Lecture language:
Polish
Form and type of study:
Full-time studies
Course homepage:
 
Responsible teacher:
prof. dr hab. inż. Kulczycki Piotr (kulczycki@agh.edu.pl)
Academic teachers:
dr inż. Łukasik Szymon (slukasik@agh.edu.pl)
prof. dr hab. inż. Kulczycki Piotr (kulczycki@agh.edu.pl)
Module summary

Tematyka obejmuje współczesne metody pozyskiwania wiedzy z danych. Szczegółowo rozważane są procedury wykrywania elementów nietypowych (odosobnionych), grupowania (klasteryzacji) i klasyfikacji.

Description of learning outcomes for module
MLO code Student after module completion has the knowledge/ knows how to/is able to Connections with FLO Method of learning outcomes verification (form of completion)
Social competence
M_K001 Praca zespołowa. IS2A_K02 Activity during classes
M_K002 Profesjonalność i etyka. IS2A_K03, IS2A_K02 Activity during classes
M_K003 Konieczność ustawicznego samokształcenia. IS2A_K01 Activity during classes
Skills
M_U001 Stosowanie procedur analizy i eksploracji danych. IS2A_U02 Oral answer
M_U002 Wykorzystanie procedur eksploracji danych do praktycznych zagadnień pozyskiwania wiedzy z danych. IS2A_U02, IS2A_U04 Oral answer
M_U003 Pozyskiwanie informacji ze źródeł różnego typu oraz prezentacja zagadnienia badawczego i uzyskanych wyników. IS2A_U01, IS2A_U02, IS2A_U08 Oral answer
Knowledge
M_W001 Poszerzenie wiedzy z zakresu statystyki matematycznej. IS2A_W01 Oral answer
M_W002 Istota i uwarunkowania procesu pozyskiwania wiedzy z danych. IS2A_W01 Oral answer
M_W003 Znajomość procedur analizy i eksploracji danych. IS2A_W01 Oral answer
FLO matrix in relation to forms of classes
MLO code Student after module completion has the knowledge/ knows how to/is able to Form of classes
Lecture
Audit. classes
Lab. classes
Project classes
Conv. seminar
Seminar classes
Pract. classes
Zaj. terenowe
Zaj. warsztatowe
Others
E-learning
Social competence
M_K001 Praca zespołowa. - - + + - - - - - - -
M_K002 Profesjonalność i etyka. + - - - - - - - - - -
M_K003 Konieczność ustawicznego samokształcenia. + - - + - - - - - - -
Skills
M_U001 Stosowanie procedur analizy i eksploracji danych. + - + + - - - - - - -
M_U002 Wykorzystanie procedur eksploracji danych do praktycznych zagadnień pozyskiwania wiedzy z danych. + - + + - - - - - - -
M_U003 Pozyskiwanie informacji ze źródeł różnego typu oraz prezentacja zagadnienia badawczego i uzyskanych wyników. - - + + - - - - - - -
Knowledge
M_W001 Poszerzenie wiedzy z zakresu statystyki matematycznej. + - + - - - - - - - -
M_W002 Istota i uwarunkowania procesu pozyskiwania wiedzy z danych. + - - + - - - - - - -
M_W003 Znajomość procedur analizy i eksploracji danych. + - + + - - - - - - -
Module content
Lectures:
  1. Wprowadzenie

    Przedmiot analizy i eksploracji danych; pozyskiwanie wiedzy z danych.
    Związek analizy danych ze statystyką matematyczną.
    Główne fazy procesu eksploracji danych.

  2. Preliminaria matematyczne

    Repetytorium podstawowych pojęć probablistyki.
    Statystyczne estymatory jądrowe.

  3. Pojęcia wstępne

    Typy danych.
    Miary podobieństwa.
    Wstępne przetwarzanie danych: czyszczenie, obsługa brakujących atrybutów, standaryzacja.

  4. Wykrywanie elementów odosobnionych (nietypowych)

    Nieparametryczny test istotności.
    Elementy oddalone.

  5. Grupowanie (klasteryzacja)

    Procedury częstotliwościowe.
    Algorytmy k-średnich i k-medoidów.
    Metody hierarchiczne.

  6. Klasyfikacja

    Ujęcie bayesowskie.
    Algorytm k-najbliższych sąsiadów.
    Drzewa decyzyjne.

  7. Zastosowania

    Przykładowe aplikacje w zagadnieniach wykrywania uszkodzeń w systemach dynamicznych, a także wyznaczenia strategii marketingowej operatora telefonii komórkowej.
    Ewaluacja procesu eksploracji danych.

  8. Tematy opcjonalne

    Redukcja wymiaru danych.
    Duże (liczne) zbiory danych.
    Strumienie danych.
    Reguły asocjacyjne.

Laboratory classes:
Laboratorium

Zajęcia wprowadzające.
Wykrywanie elementów odosobnionych (nietypowych).
Grupowanie (klasteryzacja).
Klasyfikacja.
Procedury analizy danych w Internecie.
Temat opcjonalny: redukcja wymiaru danych.
Zajęcia zaliczeniowe.

Project classes:
Projekt

Opracowanie zagadnień zgodnych z tematyką wykładu, według indywidualnych ustaleń.
Sprawdzian wiadomości z przedmiotu.

Student workload (ECTS credits balance)
Student activity form Student workload
Summary student workload 154 h
Module ECTS credits 6 ECTS
Participation in lectures 30 h
Participation in laboratory classes 22 h
Participation in project classes 20 h
Preparation for classes 25 h
Realization of independently performed tasks 25 h
Preparation of a report, presentation, written work, etc. 15 h
Completion of a project 15 h
Examination or Final test 2 h
Additional information
Method of calculating the final grade:

Ocena końcowa jest średnią ważoną oceny z egzaminu (ze współczynnikiem 0,5), projektu (współczynnik 0,25) i laboratorium komputerowego (współczynnik 0,25). Ćwiartki zaokrąglane są “w dół”: n,25 → n,0; n,75 → n,5.

Prerequisites and additional requirements:

Wiedza z zakresu matematyki na poziomie nabytym na studiach I stopnia, zwłaszcza z zakresu statystyki matematycznej.
Umiejętność użytkowania sprzętu komputerowego.

Recommended literature and teaching resources:

Larose D.T., Odkrywanie wiedzy z danych; wprowadzenie do eksploracji danych, PWN, 2006.
Larose D.T., Odkrywanie wiedzy z danych; metody i modele eksploracji danych, PWN, 2008.
Krzyśko M., Wołyński W., Górecki T., Skorzybut M., Systemy uczące się; rozpoznawanie wzorców, analiza skupień i redukcja wymiarowości, WNT, 2008.
Kulczycki P., Estymatory jądrowe w analizie systemowej, WNT, 2005.
- Literatura uzupełniająca:
Kulczycki P., Hryniewicz O., Kacprzyk J. (red.), Techniki informacyjne w badaniach systemowych, WNT, 2007.
Morzy T., Eksploracja danych; Metody i algorytmy, PWN, 2013.
Hand D., Mannila H., Smyth P., Eksploracja danych, WNT, 2005.

Scientific publications of module course instructors related to the topic of the module:

- Książka:
1. P. Kulczycki, „Estymatory jądrowe w analizie systemowej”, WNT, Warszawa, 2005.
- Wybrane publikacje w czasopismach z listy JCR:
1. P. Kulczycki, P.A. Kowalski, „Bayes classification of imprecise information of interval type”, Control and Cybernetics, vol. 40, nr 1, ss. 101-123, 2011.
2. P. Kulczycki, M. Charytanowicz, P.A. Kowalski, S. Łukasik, „The Complete Gradient Clustering Algorithm: Properties in Practical Applications”, Journal of Applied Statistics, vol. 39, nr 6, ss. 1211-1224, 2012.
3. P. Kulczycki, S. Łukasik, „An Algorithm for Reducing Dimension and Size of Sample for Data Exploration Procedures”, International Journal of Applied Mathematics and Computer Science, vol. 24, nr 1, ss. 133-149, 2014.
4. P. Kulczycki, P.A. Kowalski, „Bayes Classification for Nonstationary Patterns”, International Journal of Computational Methods, vol. 12, nr 2, ID 1550008 (19 stron), 2015.
5. P. Kulczycki, D. Kruszewski, „Identification of Atypical Elements by Transforming Task to Supervised Form with Fuzzy and Intuitionistic Fuzzy Evaluations”, Applied Soft Computing, vol. 60, ss. 623-633, 2017.
6. P. Kulczycki, M. Charytanowicz, P.A. Kowalski, S. Łukasik, „Identification of Atypical (Rare) Elements – A Conditional, Distribution-Free Approach”, IMA Journal of Mathematical Control and Information, w druku, 2018.

Additional information:

Warunki i sposób zaliczenia poszczególnych form zajęć, w tym zasady zaliczeń poprawkowych:

Laboratorium komputerowe: zaliczenie wszystkich kolokwiów na ocenę co najmniej 3,0. Ocena końcowa
jest średnią z tych ocen (ćwiartki zaokrąglane są “w dół”: n,25 → n,0; n,75 → n,5).
Projekt: każda grupa projektowa powinna uzgodnić z prowadzącym temat i zakres prac nie później niż
20 grudnia, następnie przedłożyć uzyskane wyniki badań w celu dopuszczenia do prezentacji. Zajęcia
prezentacyjne odbędą się w 3 uzgodnionych terminach po około 6 godzin – każda grupa powinna
przedstawić swoje wyniki na wybranym z nich i czynnie uczestniczyć w całych zajęciach tego terminu.
Końcowa ocena obejmuje wartość merytryczną wykonanych badań oraz jakość prezentacji.

Warunek dopuszczenia do egzaminu: zaliczenie projektu i laboratorium komputerowego.

Sposób i tryb wyrównywania zaległości powstałych wskutek nieobecności
studenta na zajęciach:

Ćwiczenia laboratoryjne: wszystkie nieobecności muszą być odrobione w formie i terminach
uzgodnionych z prowadzącym. Połowa nieobecności (także usprawiedliwionych) skutkuje brakiem
zaliczenia bez możliwości poprawek.
Projekt: konsultacje w godzinach podanych przez prowadzącego. Nie ma możliwości odrobienia zajęć
prezentacyjnych poza trzema uzgodnionymi terminami.

Informacje dodatkowe
Nie są przepisywane poszczególne formy zajęć (projekt, laboratorium komputerowe) z poprzedniego
roku lub innych wydziałów oraz uczelni. Przedmiot może być zaliczony na podstawie zajęć z innych
wydziałów lub uczelni, jeżeli ich łączny wymiar godzinowy jest nie mniejszy niż 72 godziny, a ostateczna
ocena nie mniejsza niż 4,0.