Moduł oferowany także w ramach programów studiów:
Informacje ogólne:
Nazwa:
Eksploracja danych
Tok studiów:
2018/2019
Kod:
JIS-2-201-SW-s
Wydział:
Fizyki i Informatyki Stosowanej
Poziom studiów:
Studia II stopnia
Specjalność:
Systemy wbudowane i rekonfigurowalne
Kierunek:
Informatyka Stosowana
Semestr:
2
Profil kształcenia:
Ogólnoakademicki (A)
Język wykładowy:
Polski
Forma i tryb studiów:
Stacjonarne
Strona www:
 
Osoba odpowiedzialna:
prof. dr hab. inż. Kulczycki Piotr (kulczycki@agh.edu.pl)
Osoby prowadzące:
dr inż. Łukasik Szymon (slukasik@agh.edu.pl)
prof. dr hab. inż. Kulczycki Piotr (kulczycki@agh.edu.pl)
Krótka charakterystyka modułu

Tematyka obejmuje współczesne metody pozyskiwania wiedzy z danych. Szczegółowo rozważane są procedury wykrywania elementów nietypowych (odosobnionych), grupowania (klasteryzacji) i klasyfikacji.

Opis efektów kształcenia dla modułu zajęć
Kod EKM Student, który zaliczył moduł zajęć wie/umie/potrafi Powiązania z EKK Sposób weryfikacji efektów kształcenia (forma zaliczeń)
Wiedza
M_W001 Poszerzenie wiedzy z zakresu statystyki matematycznej. IS2A_W01 Odpowiedź ustna
M_W002 Istota i uwarunkowania procesu pozyskiwania wiedzy z danych. IS2A_W01 Odpowiedź ustna
M_W003 Znajomość procedur analizy i eksploracji danych. IS2A_W01 Odpowiedź ustna
Umiejętności
M_U001 Stosowanie procedur analizy i eksploracji danych. IS2A_U02 Odpowiedź ustna
M_U002 Wykorzystanie procedur eksploracji danych do praktycznych zagadnień pozyskiwania wiedzy z danych. IS2A_U02, IS2A_U04 Odpowiedź ustna
M_U003 Pozyskiwanie informacji ze źródeł różnego typu oraz prezentacja zagadnienia badawczego i uzyskanych wyników. IS2A_U01, IS2A_U02, IS2A_U08 Odpowiedź ustna
Kompetencje społeczne
M_K001 Praca zespołowa. IS2A_K02 Aktywność na zajęciach
M_K002 Profesjonalność i etyka. IS2A_K03, IS2A_K02 Aktywność na zajęciach
M_K003 Konieczność ustawicznego samokształcenia. IS2A_K01 Aktywność na zajęciach
Matryca efektów kształcenia w odniesieniu do form zajęć
Kod EKM Student, który zaliczył moduł zajęć wie/umie/potrafi Forma zajęć
Wykład
Ćwicz. aud
Ćwicz. lab
Ćw. proj.
Konw.
Zaj. sem.
Zaj. prakt
Zaj. terenowe
Zaj. warsztatowe
Inne
E-learning
Wiedza
M_W001 Poszerzenie wiedzy z zakresu statystyki matematycznej. + - + - - - - - - - -
M_W002 Istota i uwarunkowania procesu pozyskiwania wiedzy z danych. + - - + - - - - - - -
M_W003 Znajomość procedur analizy i eksploracji danych. + - + + - - - - - - -
Umiejętności
M_U001 Stosowanie procedur analizy i eksploracji danych. + - + + - - - - - - -
M_U002 Wykorzystanie procedur eksploracji danych do praktycznych zagadnień pozyskiwania wiedzy z danych. + - + + - - - - - - -
M_U003 Pozyskiwanie informacji ze źródeł różnego typu oraz prezentacja zagadnienia badawczego i uzyskanych wyników. - - + + - - - - - - -
Kompetencje społeczne
M_K001 Praca zespołowa. - - + + - - - - - - -
M_K002 Profesjonalność i etyka. + - - - - - - - - - -
M_K003 Konieczność ustawicznego samokształcenia. + - - + - - - - - - -
Treść modułu zajęć (program wykładów i pozostałych zajęć)
Wykład:
  1. Wprowadzenie

    Przedmiot analizy i eksploracji danych; pozyskiwanie wiedzy z danych.
    Związek analizy danych ze statystyką matematyczną.
    Główne fazy procesu eksploracji danych.

  2. Preliminaria matematyczne

    Repetytorium podstawowych pojęć probablistyki.
    Statystyczne estymatory jądrowe.

  3. Pojęcia wstępne

    Typy danych.
    Miary podobieństwa.
    Wstępne przetwarzanie danych: czyszczenie, obsługa brakujących atrybutów, standaryzacja.

  4. Wykrywanie elementów odosobnionych (nietypowych)

    Nieparametryczny test istotności.
    Elementy oddalone.

  5. Grupowanie (klasteryzacja)

    Procedury częstotliwościowe.
    Algorytmy k-średnich i k-medoidów.
    Metody hierarchiczne.

  6. Klasyfikacja

    Ujęcie bayesowskie.
    Algorytm k-najbliższych sąsiadów.
    Drzewa decyzyjne.

  7. Zastosowania

    Przykładowe aplikacje w zagadnieniach wykrywania uszkodzeń w systemach dynamicznych, a także wyznaczenia strategii marketingowej operatora telefonii komórkowej.
    Ewaluacja procesu eksploracji danych.

  8. Tematy opcjonalne

    Redukcja wymiaru danych.
    Duże (liczne) zbiory danych.
    Strumienie danych.
    Reguły asocjacyjne.

Ćwiczenia laboratoryjne:
Laboratorium

Zajęcia wprowadzające.
Wykrywanie elementów odosobnionych (nietypowych).
Grupowanie (klasteryzacja).
Klasyfikacja.
Procedury analizy danych w Internecie.
Temat opcjonalny: redukcja wymiaru danych.
Zajęcia zaliczeniowe.

Ćwiczenia projektowe:
Projekt

Opracowanie zagadnień zgodnych z tematyką wykładu, według indywidualnych ustaleń.
Sprawdzian wiadomości z przedmiotu.

Nakład pracy studenta (bilans punktów ECTS)
Forma aktywności studenta Obciążenie studenta
Sumaryczne obciążenie pracą studenta 154 godz
Punkty ECTS za moduł 6 ECTS
Udział w wykładach 30 godz
Udział w ćwiczeniach laboratoryjnych 22 godz
Udział w ćwiczeniach projektowych 20 godz
Przygotowanie do zajęć 25 godz
Samodzielne studiowanie tematyki zajęć 25 godz
Przygotowanie sprawozdania, pracy pisemnej, prezentacji, itp. 15 godz
Wykonanie projektu 15 godz
Egzamin lub kolokwium zaliczeniowe 2 godz
Pozostałe informacje
Sposób obliczania oceny końcowej:

Ocena końcowa jest średnią ważoną oceny z egzaminu (ze współczynnikiem 0,5), projektu (współczynnik 0,25) i laboratorium komputerowego (współczynnik 0,25). Ćwiartki zaokrąglane są “w dół”: n,25 → n,0; n,75 → n,5.

Wymagania wstępne i dodatkowe:

Wiedza z zakresu matematyki na poziomie nabytym na studiach I stopnia, zwłaszcza z zakresu statystyki matematycznej.
Umiejętność użytkowania sprzętu komputerowego.

Zalecana literatura i pomoce naukowe:

Larose D.T., Odkrywanie wiedzy z danych; wprowadzenie do eksploracji danych, PWN, 2006.
Larose D.T., Odkrywanie wiedzy z danych; metody i modele eksploracji danych, PWN, 2008.
Krzyśko M., Wołyński W., Górecki T., Skorzybut M., Systemy uczące się; rozpoznawanie wzorców, analiza skupień i redukcja wymiarowości, WNT, 2008.
Kulczycki P., Estymatory jądrowe w analizie systemowej, WNT, 2005.
- Literatura uzupełniająca:
Kulczycki P., Hryniewicz O., Kacprzyk J. (red.), Techniki informacyjne w badaniach systemowych, WNT, 2007.
Morzy T., Eksploracja danych; Metody i algorytmy, PWN, 2013.
Hand D., Mannila H., Smyth P., Eksploracja danych, WNT, 2005.

Publikacje naukowe osób prowadzących zajęcia związane z tematyką modułu:

- Książka:
1. P. Kulczycki, „Estymatory jądrowe w analizie systemowej”, WNT, Warszawa, 2005.
- Wybrane publikacje w czasopismach z listy JCR:
1. P. Kulczycki, P.A. Kowalski, „Bayes classification of imprecise information of interval type”, Control and Cybernetics, vol. 40, nr 1, ss. 101-123, 2011.
2. P. Kulczycki, M. Charytanowicz, P.A. Kowalski, S. Łukasik, „The Complete Gradient Clustering Algorithm: Properties in Practical Applications”, Journal of Applied Statistics, vol. 39, nr 6, ss. 1211-1224, 2012.
3. P. Kulczycki, S. Łukasik, „An Algorithm for Reducing Dimension and Size of Sample for Data Exploration Procedures”, International Journal of Applied Mathematics and Computer Science, vol. 24, nr 1, ss. 133-149, 2014.
4. P. Kulczycki, P.A. Kowalski, „Bayes Classification for Nonstationary Patterns”, International Journal of Computational Methods, vol. 12, nr 2, ID 1550008 (19 stron), 2015.
5. P. Kulczycki, D. Kruszewski, „Identification of Atypical Elements by Transforming Task to Supervised Form with Fuzzy and Intuitionistic Fuzzy Evaluations”, Applied Soft Computing, vol. 60, ss. 623-633, 2017.
6. P. Kulczycki, M. Charytanowicz, P.A. Kowalski, S. Łukasik, „Identification of Atypical (Rare) Elements – A Conditional, Distribution-Free Approach”, IMA Journal of Mathematical Control and Information, w druku, 2018.

Informacje dodatkowe:

Warunki i sposób zaliczenia poszczególnych form zajęć, w tym zasady zaliczeń poprawkowych:

Laboratorium komputerowe: zaliczenie wszystkich kolokwiów na ocenę co najmniej 3,0. Ocena końcowa
jest średnią z tych ocen (ćwiartki zaokrąglane są “w dół”: n,25 → n,0; n,75 → n,5).
Projekt: każda grupa projektowa powinna uzgodnić z prowadzącym temat i zakres prac nie później niż
20 grudnia, następnie przedłożyć uzyskane wyniki badań w celu dopuszczenia do prezentacji. Zajęcia
prezentacyjne odbędą się w 3 uzgodnionych terminach po około 6 godzin – każda grupa powinna
przedstawić swoje wyniki na wybranym z nich i czynnie uczestniczyć w całych zajęciach tego terminu.
Końcowa ocena obejmuje wartość merytryczną wykonanych badań oraz jakość prezentacji.

Warunek dopuszczenia do egzaminu: zaliczenie projektu i laboratorium komputerowego.

Sposób i tryb wyrównywania zaległości powstałych wskutek nieobecności
studenta na zajęciach:

Ćwiczenia laboratoryjne: wszystkie nieobecności muszą być odrobione w formie i terminach
uzgodnionych z prowadzącym. Połowa nieobecności (także usprawiedliwionych) skutkuje brakiem
zaliczenia bez możliwości poprawek.
Projekt: konsultacje w godzinach podanych przez prowadzącego. Nie ma możliwości odrobienia zajęć
prezentacyjnych poza trzema uzgodnionymi terminami.

Informacje dodatkowe
Nie są przepisywane poszczególne formy zajęć (projekt, laboratorium komputerowe) z poprzedniego
roku lub innych wydziałów oraz uczelni. Przedmiot może być zaliczony na podstawie zajęć z innych
wydziałów lub uczelni, jeżeli ich łączny wymiar godzinowy jest nie mniejszy niż 72 godziny, a ostateczna
ocena nie mniejsza niż 4,0.