Module also offered within study programmes:
General information:
Name:
Data mining
Course of study:
2019/2020
Code:
ITEI-2-206-s
Faculty of:
Computer Science, Electronics and Telecommunications
Study level:
Second-cycle studies
Specialty:
-
Field of study:
ICT studies
Semester:
2
Profile of education:
Academic (A)
Lecture language:
Polski i Angielski
Form and type of study:
Full-time studies
Course homepage:
 
Responsible teacher:
dr inż. Janowski Lucjan (janowski@kt.agh.edu.pl)
Module summary

Celem modułu jest nauczenie się analizy danych. Od poprawnego postawienia problemu, poprzez zebranie, walidację i ocenę danych po modelowanie zjawiska oraz przedstawienie raportu końcowego.

Description of learning outcomes for module
MLO code Student after module completion has the knowledge/ knows how to/is able to Connections with FLO Method of learning outcomes verification (form of completion)
Social competence: is able to
M_K001 Rozumie dane w sposób kreatywny, poddaje w wątpliwości otrzymane wyniki i tworzy nowe sposoby testowania ich. TEI2A_K02 Project
Skills: he can
M_U001 Potrafi przedstawić otrzymane analizy w sposób zwięzły i dokładny. Posiada umiejętność dokładnego opisania założeń i ograniczeń proponowanej metodologii analizy danych bez wchodzenia w szczegóły samej metody. TEI2A_U02 Project
M_U002 Potrafi analizować dane z założeniem konkretnego celu, na przykład optymalizacja jakości sieci. TEI2A_U05 Project
M_U003 Potrafi podjąć dyskusję wyjaśniającą metodologię otrzymania wyników analizy danych. Umie uzasadnić, dlaczego dana metoda jest lepsza w tym przypadku. TEI2A_U02 Project
M_U004 Ma pogłębioną wiedzę o problemach pozyskiwania danych oraz ich wiarygodności, w szczególności o potrzebie weryfikacji i rozumienia kryteriów filtrowania danych oraz o potrzebie odrzucania części danych lub osobnych analiz dla wybranych wartości lub grup. TEI2A_U01 Project
M_U005 Umie poprawnie zweryfikować otrzymany model. Rozumie czym różni się błąd otrzymany dla danych uczących i testowych. TEI2A_U05 Project
Knowledge: he knows and understands
M_W001 Rozumie problematykę zarządzania projektami analizy danych TEI2A_W01 Project
M_W002 Ma poszerzoną wiedzę z zakresu przygotowania i zarządzania danymi w projekcie analizy danych TEI2A_W01 Project
M_W003 Ma wiedzę o różnych technikach analizy danych TEI2A_W01 Project
Number of hours for each form of classes:
Sum (hours)
Lecture
Audit. classes
Lab. classes
Project classes
Conv. seminar
Seminar classes
Pract. classes
Zaj. terenowe
Zaj. warsztatowe
Prace kontr. przejść.
Lektorat
60 30 0 15 15 0 0 0 0 0 0 0
FLO matrix in relation to forms of classes
MLO code Student after module completion has the knowledge/ knows how to/is able to Form of classes
Lecture
Audit. classes
Lab. classes
Project classes
Conv. seminar
Seminar classes
Pract. classes
Zaj. terenowe
Zaj. warsztatowe
Prace kontr. przejść.
Lektorat
Social competence
M_K001 Rozumie dane w sposób kreatywny, poddaje w wątpliwości otrzymane wyniki i tworzy nowe sposoby testowania ich. - - - + - - - - - - -
Skills
M_U001 Potrafi przedstawić otrzymane analizy w sposób zwięzły i dokładny. Posiada umiejętność dokładnego opisania założeń i ograniczeń proponowanej metodologii analizy danych bez wchodzenia w szczegóły samej metody. - - + + - - - - - - -
M_U002 Potrafi analizować dane z założeniem konkretnego celu, na przykład optymalizacja jakości sieci. - - + + - - - - - - -
M_U003 Potrafi podjąć dyskusję wyjaśniającą metodologię otrzymania wyników analizy danych. Umie uzasadnić, dlaczego dana metoda jest lepsza w tym przypadku. - - + + - - - - - - -
M_U004 Ma pogłębioną wiedzę o problemach pozyskiwania danych oraz ich wiarygodności, w szczególności o potrzebie weryfikacji i rozumienia kryteriów filtrowania danych oraz o potrzebie odrzucania części danych lub osobnych analiz dla wybranych wartości lub grup. - - - + - - - - - - -
M_U005 Umie poprawnie zweryfikować otrzymany model. Rozumie czym różni się błąd otrzymany dla danych uczących i testowych. - - + + - - - - - - -
Knowledge
M_W001 Rozumie problematykę zarządzania projektami analizy danych + - - - - - - - - - -
M_W002 Ma poszerzoną wiedzę z zakresu przygotowania i zarządzania danymi w projekcie analizy danych + - - - - - - - - - -
M_W003 Ma wiedzę o różnych technikach analizy danych + - - - - - - - - - -
Student workload (ECTS credits balance)
Student activity form Student workload
Summary student workload 100 h
Module ECTS credits 4 ECTS
Udział w zajęciach dydaktycznych/praktyka 60 h
Preparation for classes 10 h
przygotowanie projektu, prezentacji, pracy pisemnej, sprawozdania 30 h
Module content
Lectures (30h):
Podstawowe techniki i problemy analizy danych

1. Wstęp. Opis teorii analizy danych.
2. Dlaczego należy traktować pewne dane jako losowe, przypomnienie wiedzy zdobytej na przedmiotach związanych z prawdopodobieństwem i statystyką.Opis różnych typów danych. Przedstawienie statystyk odpowiednich dla konkretnych typów danych.
3. Wczytywanie danych. Dane technicznie poprawne. Uzupełnianie danych brakujących. Wykrywanie danych błędnych i odstających.
4. Jak odsiać proso od ziarna, walidacja i prezentacja danych. Czy można ufać danym, kiedy należy odrzucać pewne wyniki. Wybielanie danych. Problemy z wizualizacją różnych typów danych.Różne typy wykresów, wykres pudełkowy, potrzeba poszukiwania wartości odstających.
5. Siła twojego hasła, problemy regresyjne. Regresja wielowymiarowa, nieliniowa taka jak sieci neuronowe. Dane uczące i testowe. Weryfikacja modelu. Przeuczenie modelu. Problem danych rzeczywistych.
6. Czy ten mail to spam? Problemy klasyfikacji. Metody klasyfikacji. Regresja logistyczna, wieloraka, SVM (Maszyny Wektorów Nośnych), drzewo decyzyjne.
7. Czy nauczyciel jest potrzebny? Algorytmy z nauczycielem i bez, redukcja wymiarowości PCA (Analiza Czynników Głównych), ICA (Analiza Czynników Niezależnych), Klasteryzacja.
8. Selekcja modelu oraz zmiennych. Metody pozwalające ocenić jakość modelu z wykorzystaniem walidacji oraz weryfikacji.
9. Weryfikacja i walidacja modelu
10. Duże hurtownie danych. Przygotowanie analizy, próbkowanie danych. Realne problemy w rzeczywistych implementacjach. Trenowanie modeli na dużych zbiorach danych. Siła prostych modeli.
11. Prezentacja projektów

Laboratory classes (15h):
Ćwiczenia laboratoryjne mają na celu zapoznanie z oprogramowaniem R i różnymi technikami analizy danych

1. Regresja. Opracowanie wybranych danych z wykorzystaniem metod regresji.
2. Klasyfikacja.Stworzenie modelu klasyfikującego wybrane cechy zbioru danych.
3. Redukcja wymiarowości.Analiza wysoko wymiarowego zbioru danych z wykorzystaniem redukcji wymiarów.
4. Zbyt optymistyczne szacowanie błędu. Analiza przykładowych danych obrazujących błędy wynikające ze stosowania niewłaściwych technik analizy danych.
5. Testy zgodności Przykładowe porównanie zbiorów danych.
6. Czyszczenie danych.Wykrywanie wartości odstających i nieprawidłowych dla przykładowych danych.
7. Planowanie eksperymentu.Zaplanowanie eksperymentu wielowymiarowego.

Project classes (15h):
Projekt

W ramach projektu studenci przeprowadzają kompleksową analizę danych dla wybranego problemu. Analiza ta zawiera wszystkie niezbędne elementy, od wczytywania, czyszczenia oraz przygotowania danych po propozycję modelu oraz jego walidację. Końcowym wynikiem projektu będzie raport lub działająca strona/serwis.

Additional information
Teaching methods and techniques:
  • Lectures: Treści prezentowane na wykładzie są przekazywane w formie prezentacji multimedialnej w połączeniu z klasycznym wykładem tablicowym wzbogaconymi o pokazy odnoszące się do prezentowanych zagadnień.
  • Laboratory classes: W trakcie zajęć laboratoryjnych studenci samodzielnie rozwiązują zadany problem praktyczny, dobierając odpowiednie narzędzia. Prowadzący stymuluje grupę do refleksji nad problemem, tak by otrzymane wyniki miały wysoką wartość merytoryczną.
  • Project classes: Studenci wykonują zadany projekt samodzielnie, bez większej ingerencji prowadzącego. Ma to wykształcić poczucie odpowiedzialności za pracę w grupie oraz odpowiedzialności za podejmowane decyzje.
Warunki i sposób zaliczenia poszczególnych form zajęć, w tym zasady zaliczeń poprawkowych, a także warunki dopuszczenia do egzaminu:

1. Do zaliczenia przedmiotu konieczne jest otrzymanie co najmniej oceny dostatecznej (3,0) z projektu i laboratorium.
2. Zaliczenie laboratorium jest wystawiana na podstawie pliku zawierającego przykładowe analizy z wykorzystaniem różnych narzędzi.
3. Ocena z projektu jest wystawiana na podstawie publicznej prezentacji wyników oraz udostępnionego linku do wizualizacji, który jest wystawiony na stronie projektu.

Participation rules in classes:
  • Lectures:
    – Attendance is mandatory: No
    – Participation rules in classes: Studenci uczestniczą w zajęciach poznając kolejne treści nauczania zgodnie z syllabusem przedmiotu. Studenci winni na bieżąco zadawać pytania i wyjaśniać wątpliwości. Rejestracja audiowizualna wykładu wymaga zgody prowadzącego.
  • Laboratory classes:
    – Attendance is mandatory: Yes
    – Participation rules in classes: Studenci wykonują ćwiczenia laboratoryjne zgodnie z materiałami udostępnionymi przez prowadzącego. Student jest zobowiązany do przygotowania się w przedmiocie wykonywanego ćwiczenia, co może zostać zweryfikowane kolokwium w formie ustnej lub pisemnej. Zaliczenie zajęć odbywa się na podstawie zaprezentowania rozwiązania postawionego problemu. Zaliczenie modułu jest możliwe po zaliczeniu wszystkich zajęć laboratoryjnych.
  • Project classes:
    – Attendance is mandatory: Yes
    – Participation rules in classes: Studenci wykonują prace praktyczne mające na celu uzyskanie kompetencji zakładanych przez syllabus. Ocenie podlega sposób wykonania projektu oraz efekt końcowy.
Method of calculating the final grade:

Ocena końcowa to średnia z ocen z projektu i laboratorium w zaokrągleniu w górę.

Sposób i tryb wyrównywania zaległości powstałych wskutek nieobecności studenta na zajęciach:

Plik laboratoryjny musi być uzupełniony.

Prerequisites and additional requirements:

Wiedza z podstaw statystyki matematycznej,rachunku prawdopodobieństwa.

Recommended literature and teaching resources:

1. Bishop M. Christopher, Pattern Recognition and Machine Learning (Information Science and Statistics), Springer, 2007.
2. Hand David, Mannila Heikki, Smyth Padhraic: Eksploracja Danych, Wydawnictwo Naukowo Techniczne, 2005.
3. Jarman K. H., The Art of Data Analysis, Wiley 2013.

Scientific publications of module course instructors related to the topic of the module:

1. K Rusek, P Guzik, Two-stage neural network regression of eye location in face images Multimedia Tools and Applications, 1-14
2. A Matiolański, P Guzik Automated optimization of object detection classifier using genetic algorithm Multimedia Communications, Services and Security, 158-164
3. L Janowski, P Romaniak, Z Papir Content driven QoE assessment for video frame rate and frame resolution reduction Multimedia tools and applications 61 (3), 769-786
4. L Janowski, M Pinson The Accuracy of Subjects in a Quality Experiment: A Theoretical Subject Model Multimedia, IEEE Transactions on 17 (12), 2210-2224
5. L. Janowski and Z. Papir, “Modeling subjective tests of quality of experience with a Generalized Linear Model,” 2009 International Workshop on Quality of Multimedia Experience, San Diego, CA, 2009, pp. 35-40.
6. Lucjan Janowski, Piotr Kozłowski, Remigiusz Baran, Piotr Romaniak, Andrzej Glowacz, Tomasz Rusc, Quality assessment for a visual and automatic license plate recognition, Multimedia Tools and Applications, January 2014, Volume 68, Issue 1, pp 23–40

Additional information:

Limit przyjęć na kurs to 30 osób.