Module also offered within study programmes:
General information:
Name:
Data Mining
Course of study:
2016/2017
Code:
JIS-2-201-SW-s
Faculty of:
Physics and Applied Computer Science
Study level:
Second-cycle studies
Specialty:
Systemy wbudowane i rekonfigurowalne
Field of study:
Applied Computer Science
Semester:
2
Profile of education:
Academic (A)
Lecture language:
Polish
Form and type of study:
Full-time studies
Course homepage:
 
Responsible teacher:
prof. dr hab. inż. Kulczycki Piotr (kulczycki@agh.edu.pl)
Academic teachers:
dr inż. Łukasik Szymon (slukasik@agh.edu.pl)
prof. dr hab. inż. Kulczycki Piotr (kulczycki@agh.edu.pl)
Module summary

Tematyka modułu obejmuje procedury pozyskiwania wiedzy z baz danych. Szczegółowo rozważane są algorytmy wykrywania elementów odosobnionych (nietypowych), grupowania (klasteryzacji) i klasyfikacji.

Description of learning outcomes for module
MLO code Student after module completion has the knowledge/ knows how to/is able to Connections with FLO Method of learning outcomes verification (form of completion)
Social competence
M_K001 Praca zespołowa. IS2A_K03, IS2A_K02 Activity during classes
M_K002 Profesjonalność i etyka. IS2A_K05, IS2A_K06, IS2A_K07 Activity during classes
M_K003 Konieczność ustawicznego samokształcenia. IS2A_K01 Activity during classes
Skills
M_U001 Stosowanie procedur analizy i eksploracji danych. IS2A_U05 Oral answer
M_U002 Wykorzystanie procedur eksploracji danych do praktycznych zagadnień pozyskiwania wiedzy z danych. IS2A_U07, IS2A_U03, IS2A_U04 Oral answer
M_U003 Pozyskiwanie informacji ze źródeł różnego typu oraz prezentacja zagadnienia badawczego i uzyskanych wyników. IS2A_U02, IS2A_U01, IS2A_U21 Oral answer
Knowledge
M_W001 Poszerzenie wiedzy z zakresu statystyki matematycznej. IS2A_W01 Oral answer
M_W002 Istota i uwarunkowania procesu pozyskiwania wiedzy z danych. IS2A_W04 Oral answer
M_W003 Znajomość procedur analizy i eksploracji danych. IS2A_W03, IS2A_W02 Oral answer
FLO matrix in relation to forms of classes
MLO code Student after module completion has the knowledge/ knows how to/is able to Form of classes
Lecture
Audit. classes
Lab. classes
Project classes
Conv. seminar
Seminar classes
Pract. classes
Zaj. terenowe
Zaj. warsztatowe
Others
E-learning
Social competence
M_K001 Praca zespołowa. - - + + - - - - - - -
M_K002 Profesjonalność i etyka. + - - - - - - - - - -
M_K003 Konieczność ustawicznego samokształcenia. + - - + - - - - - - -
Skills
M_U001 Stosowanie procedur analizy i eksploracji danych. + - + + - - - - - - -
M_U002 Wykorzystanie procedur eksploracji danych do praktycznych zagadnień pozyskiwania wiedzy z danych. + - - + - - - - - - -
M_U003 Pozyskiwanie informacji ze źródeł różnego typu oraz prezentacja zagadnienia badawczego i uzyskanych wyników. - - + + - - - - - - -
Knowledge
M_W001 Poszerzenie wiedzy z zakresu statystyki matematycznej. + - + - - - - - - - -
M_W002 Istota i uwarunkowania procesu pozyskiwania wiedzy z danych. + - - + - - - - - - -
M_W003 Znajomość procedur analizy i eksploracji danych. + - + + - - - - - - -
Module content
Lectures:
  1. Wprowadzenie

    Przedmiot analizy i eksploracji danych; pozyskiwanie wiedzy z danych.
    Związek analizy danych ze statystyką matematyczną.
    Główne fazy procesu eksploracji danych.

  2. Preliminaria matematyczne

    Repetytorium podstawowych pojęć probablistyki.
    Statystyczne estymatory jądrowe.

  3. Pojęcia wstępne

    Typy danych.
    Miary podobieństwa.
    Wstępne przetwarzanie danych: czyszczenie, obsługa brakujących atrybutów, standaryzacja.

  4. Wykrywanie elementów odosobnionych (nietypowych)

    Nieparametryczny test istotności.
    Elementy oddalone.

  5. Grupowanie (klasteryzacja)

    Procedura oparta na metodyce estymatorów jądrowych.
    Algorytmy k-średnich i k-centroidów.
    Metody hierarchiczne.

  6. Klasyfikacja

    Ujęcie bayesowskie.
    Algorytm k-najbliższych sąsiadów.
    Drzewa decyzyjne.

  7. Zastosowania

    Przykładowe aplikacje w zagadnieniach wykrywania uszkodzeń w systemach dynamicznych, a także wyznaczenia strategii marketingowej operatora telefonii komórkowej.
    Ewaluacja procesu eksploracji danych.

  8. Tematy opcjonalne

    Redukcja wymiaru danych; analiza składowych głównych.
    Reguły asocjacyjne.
    Szeregi czasowe; predykcja.
    Specyfika dużych zbiorów danych.

Laboratory classes:
Laboratorium

Zajęcia wprowadzające.
Wykrywanie elementów odosobnionych (nietypowych).
Grupowanie (klasteryzacja).
Klasyfikacja.
Procedury analizy danych w Internecie.
Temat opcjonalny: redukcja wymiaru danych.
Zajęcia zaliczeniowe.

Project classes:
Projekt

Opracowanie zagadnień zgodnych z tematyką wykładu, według indywidualnych ustaleń.
Sprawdzian wiadomości z przedmiotu.

Student workload (ECTS credits balance)
Student activity form Student workload
Summary student workload 142 h
Module ECTS credits 5 ECTS
Participation in lectures 30 h
Participation in laboratory classes 22 h
Participation in project classes 20 h
Preparation for classes 25 h
Realization of independently performed tasks 15 h
Preparation of a report, presentation, written work, etc. 15 h
Completion of a project 15 h
Additional information
Method of calculating the final grade:

Zaliczenie projektu końcowego.
Zdanie ustnego sprawdzianu wiadomości z przedmiotu.
Przy spełnieniu powyższych warunków, ocena ustalana jest na podstawie projektu końcowego i ustnego
sprawdzianu, przy uwzględnieniu ocen z laboratorium i projektu.

Prerequisites and additional requirements:

Wiedza z zakresu matematyki na poziomie nabytym na studiach I stopnia, zwłaszcza z zakresu statystyki matematycznej.
Umiejętność użytkowania sprzętu komputerowego.

Recommended literature and teaching resources:

Larose D.T., Odkrywanie wiedzy z danych; wprowadzenie do eksploracji danych, PWN, 2006.
Larose D.T., Odkrywanie wiedzy z danych; metody i modele eksploracji danych, PWN, 2008.
Krzyśko M., Wołyński W., Górecki T., Skorzybut M., Systemy uczące się; rozpoznawanie wzorców, analiza skupień i redukcja wymiarowości, WNT, 2008.
Kulczycki P., Estymatory jądrowe w analizie systemowej, WNT, 2005.
- Literatura uzupełniająca:
Kulczycki P., Hryniewicz O., Kacprzyk J. (red.), Techniki informacyjne w badaniach systemowych, WNT, 2007.
Morzy T., Eksploracja danych; Metody i algorytmy, PWN, 2013.
Hand D., Mannila H., Smyth P., Eksploracja danych, WNT, 2005.

Scientific publications of module course instructors related to the topic of the module:

Kulczycki P., Estymatory jądrowe w analizie systemowej, WNT, 2005.
Kulczycki P., Hryniewicz O., Kacprzyk J. (red.), Techniki informacyjne w badaniach systemowych, WNT,
2007.
Łukasik S., Algorytm redukcji wymiaru i liczebności próby dla celów procedur eksploatacyjnej analizy
danych, WPK, 2013.
Znaczna ilość artykułów naukowych i innych publikacji tematycznych.

Additional information:

Nieobecności (także usprawiedliwione) na zajęciach z laboratorium oraz projektu wymagają odrobienia
w formie i terminie uzgodnionych z prowadzącym. Połowa zajęć nieusprawiedliwionych skutkuje
brakiem zaliczenia.