Module also offered within study programmes:
General information:
Name:
Data exploration
Course of study:
2015/2016
Code:
BIT-2-103-OB-s
Faculty of:
Geology, Geophysics and Environmental Protection
Study level:
Second-cycle studies
Specialty:
Software and Data Bases in Geology
Field of study:
Applied Computer Science
Semester:
1
Profile of education:
Academic (A)
Lecture language:
Polish
Form and type of study:
Full-time studies
Course homepage:
 
Responsible teacher:
prof. dr hab. inż. Walanus Adam (a@adamwalanus.pl)
Academic teachers:
dr inż. Chuchro Monika (chuchro@geol.agh.edu.pl)
prof. dr hab. inż. Walanus Adam (a@adamwalanus.pl)
Module summary

Description of learning outcomes for module
MLO code Student after module completion has the knowledge/ knows how to/is able to Connections with FLO Method of learning outcomes verification (form of completion)
Social competence
M_K001 rozumie potrzebę uczenia się przez całe życie i nadążania za nowymi rozwiązaniami z zakresu analizy danych w bazach danych IT2A_K01 Activity during classes,
Execution of exercises
M_K002 potrafi odpowiednio określić priorytety służące realizacji określonego przez siebie lub innych zadania IT2A_K04 Activity during classes,
Execution of exercises
M_K003 potrafi współdziałać i pracować w grupie przyjmując w niej różne role IT2A_K03 Execution of a project
Skills
M_U001 potrafi pozyskiwać informacje z literatury, baz danych oraz innych właściwie dobranych źródeł, także w języku angielskim z zakresu eksploracji danych; potrafi integrować uzyskane informacje, dokonywać ich interpretacji i krytycznej oceny, a także wyciągać wnioski oraz formułować i wyczerpująco uzasadniać opinie IT2A_U01 Execution of a project
M_U002 potrafi przygotować i przedstawić prezentację ustną, dotyczącą szczegółowych zagadnień z zakresu metod pozyskiwania wiedzy z baz danych IT2A_U04 Execution of a project
M_U003 potrafi samodzielnie dokonać eksploracyjnej analizy danych w aspekcie pozyskania wiedzy z danych z wykorzystaniem poznanych w trakcie zajęć narzędzi (STATISTICA i inne pakiety obliczeniowe) IT2A_U09, IT2A_U10 Activity during classes,
Execution of exercises
M_U004 potrafi dokonać identyfikacji i sformułować specyfikację złożonych zadań z zakresu pozyskiwania wiedzy z danych IT2A_U17 Activity during classes,
Execution of exercises
M_U005 potrafi ocenić przydatność metod i narzędzi służących do rozwiązania zadania z zakresu eksploracji danych i wykorzystać je do rozwiązania postawionego zadania IT2A_U19, IT2A_U18 Execution of a project
Knowledge
M_W001 ma pogłębioną wiedzę z zakresu probabilistyki i statystyki w tym zagadnień związanych z analizą regresji i szeregów czasowych IT2A_W01 Test
M_W002 zna podstawowe metody, techniki i narzędzia stosowane w zagadnieniach dotyczących analizy danych zapisanych w bazach danych, w tym algorytmy indukcji reguł, klasyfikacji i analizy skupień IT2A_W07 Test
M_W003 ma podbudowaną teoretycznie szczegółową wiedzę związaną z zagadnieniami eksploracji danych jak: analiza asocjacji, czy eksploracji tekstu i stron WWW IT2A_W04 Test
M_W004 ma wiedzę o trendach rozwojowych i najistotniejszych nowych osiągnięciach z zakresu odkrywania wiedzy w danych IT2A_W05 Test
FLO matrix in relation to forms of classes
MLO code Student after module completion has the knowledge/ knows how to/is able to Form of classes
Lecture
Audit. classes
Lab. classes
Project classes
Conv. seminar
Seminar classes
Pract. classes
Zaj. terenowe
Zaj. warsztatowe
Others
E-learning
Social competence
M_K001 rozumie potrzebę uczenia się przez całe życie i nadążania za nowymi rozwiązaniami z zakresu analizy danych w bazach danych - - - - - - + - - - -
M_K002 potrafi odpowiednio określić priorytety służące realizacji określonego przez siebie lub innych zadania - - - - - - + - - - -
M_K003 potrafi współdziałać i pracować w grupie przyjmując w niej różne role - - - - - - + - - - -
Skills
M_U001 potrafi pozyskiwać informacje z literatury, baz danych oraz innych właściwie dobranych źródeł, także w języku angielskim z zakresu eksploracji danych; potrafi integrować uzyskane informacje, dokonywać ich interpretacji i krytycznej oceny, a także wyciągać wnioski oraz formułować i wyczerpująco uzasadniać opinie - - - - - - + - - - -
M_U002 potrafi przygotować i przedstawić prezentację ustną, dotyczącą szczegółowych zagadnień z zakresu metod pozyskiwania wiedzy z baz danych - - - - - - + - - - -
M_U003 potrafi samodzielnie dokonać eksploracyjnej analizy danych w aspekcie pozyskania wiedzy z danych z wykorzystaniem poznanych w trakcie zajęć narzędzi (STATISTICA i inne pakiety obliczeniowe) - - - - - - + - - - -
M_U004 potrafi dokonać identyfikacji i sformułować specyfikację złożonych zadań z zakresu pozyskiwania wiedzy z danych - - - - - - + - - - -
M_U005 potrafi ocenić przydatność metod i narzędzi służących do rozwiązania zadania z zakresu eksploracji danych i wykorzystać je do rozwiązania postawionego zadania - - - - - - + - - - -
Knowledge
M_W001 ma pogłębioną wiedzę z zakresu probabilistyki i statystyki w tym zagadnień związanych z analizą regresji i szeregów czasowych + - - - - - - - - - -
M_W002 zna podstawowe metody, techniki i narzędzia stosowane w zagadnieniach dotyczących analizy danych zapisanych w bazach danych, w tym algorytmy indukcji reguł, klasyfikacji i analizy skupień + - - - - - - - - - -
M_W003 ma podbudowaną teoretycznie szczegółową wiedzę związaną z zagadnieniami eksploracji danych jak: analiza asocjacji, czy eksploracji tekstu i stron WWW + - - - - - - - - - -
M_W004 ma wiedzę o trendach rozwojowych i najistotniejszych nowych osiągnięciach z zakresu odkrywania wiedzy w danych + - - - - - - - - - -
Module content
Lectures:

1. Wprowadzenie do Eksploracji Danych (ED) I.
2. Wprowadzenie do ED II: przebieg procesu ED, przykłady zastosowań, typy zadań ED. Repetytorium z probabilistyki i statystyki: podstawy probabilistyki, twierdzenie Bayesa, parametry charakterystyczne wektora losowego, estymacja punktowa i przedziałowa, testowanie hipotez statystycznych.
3. Przygotowanie i wstępna obróbka danych: postacie danych, wczytywanie danych, ocena jakości, filtrowanie oraz czyszczenie danych, konsolidacja danych, przekształcenia danych.
4. Dobór, eliminacja i redukcja liczby zmiennych: metoda analizy macierzy współczynników korelacji, metoda eliminacji zmiennych oparta o statystykę chi-kwadrat, analiza składowych głównych (PCA)
5. Klasyfikacja I: wprowadzenie, metoda k-najbliższych sąsiadów, przestrzenie metryczne, cechy metod i modeli klasyfikacyjnych,. drzewa klasyfikacyjne
6. Klasyfikacja II:, liniowe funkcje dyskryminacyjne, logistyczne funkcje dyskryminacyjne, klasyfikacja za pomocą sztucznych sieci neuronowych, klasyfikacja bayesowska, techniki modyfikacji oraz ewaluacji klasyfikatorów, ocena jakości klasyfikatora, polepszanie klasyfikatorów.
7. Regresja: wprowadzenie, regresja liniowa i nieliniowa, ewaluacja modelu regresyjnego
8. Analiza szeregów czasowych.
9. Analiza skupień: wprowadzenie, metoda k-średnich, metody hierarchiczne, sieci Kohonena, grupowanie probabilistyczne – algorytm EM.
10. Zaawansowane metody klasteryzacji dla bardzo dużych zbiorów danych – algorytm BIRCH, Grupowanie oparte na gęstości .
11. Analiza asocjacji I: wprowadzenie, algorytm A-Priori, ocena jakości reguł asocjacyjnych.
12. Analiza asocjacji II: algorytm FP-Growth, wielopoziomowe reguły asocjacyjne.
13. Eksploracja zasobów internetowych – podział metod ze względu na rodzaj opracowywanych danych. Wykorzystanie robotów internetowych. Indeksowanie i wyszukiwanie danych na podstawie słów kluczowych. Reprezentacja dokumentu w postaci wektora – indeks odwrócony. Ranking stron – algorytm PageRank, HITS
14. Inne zagadnienia ED: eksploracja tekstu i sieci WWW, analiza przeżycia.
15. Przykłady eksploracyjnej analizy danych.

Practical classes:

1. Studenci poznają narzędzia eksploracji danych wchodzące w skład programu Statistica oraz innych pakietów do data mining’u
2. Studenci samodzielnie wykonują projekt polegający na eksploracyjnej analizie wybranego zbioru danych.

Student workload (ECTS credits balance)
Student activity form Student workload
Summary student workload 146 h
Module ECTS credits 5 ECTS
Participation in lectures 28 h
Realization of independently performed tasks 30 h
Preparation for classes 30 h
Participation in practical classes 28 h
Completion of a project 30 h
Additional information
Method of calculating the final grade:

Ocena końcowa (OK) to średnia ważona:
Ocena z ćwiczeń (OC) + ocena projektu (OP) + ocena z kolokwium z wykładu (OW)
OK = 0,4*OP + 0,3*OC + 0,3*OW
Ocenę z projektu może obniżyć niedotrzymanie terminu realizacji

Prerequisites and additional requirements:

Prerequisites and additional requirements not specified

Recommended literature and teaching resources:

1. Hand D., Mannila H., Smyth P., Eksploracja danych, WNT, Warszawa, 2005.
2. Larose D.T., Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, PWN, Warszawa, 2006.
3. Larose D.T., Odkrywanie wiedzy z danych. Metody i Modele eksploracji danych, PWN, Warszawa, 2008.
4. Stanisz A., Przystępny kurs statystyki : w oparciu o program STATISTICA PL na przykładach z medycyny, T.1-3, Statsoft, Kraków, 2006.
5. Cichosz P., Systemy uczące się, WNT, Warszawa, 2000.
6. Koronacki J., Ćwik J., Statystyczne systemy uczące się, WNT, Warszawa, 2005.
7. Brandt S., Analiza danych : metody statystyczne i obliczeniowe, PWN, Warszawa, 1998.
8. Hastie T., Tibshirani R., Friedman J., The elements of Statistical Learning, Springer, 2009.

Scientific publications of module course instructors related to the topic of the module:

Additional scientific publications not specified

Additional information:

udział „praktycznych” punktów ECTS: 3
udział „teoretycznych” punktów ECTS: 2