Moduł oferowany także w ramach programów studiów:
Informacje ogólne:
Nazwa:
Eksploracja Danych
Tok studiów:
2015/2016
Kod:
BIT-2-103-SG-s
Wydział:
Geologii, Geofizyki i Ochrony Środowiska
Poziom studiów:
Studia II stopnia
Specjalność:
Modelowania i systemy informatyczne w geofizyce
Kierunek:
Informatyka Stosowana
Semestr:
1
Profil kształcenia:
Ogólnoakademicki (A)
Język wykładowy:
Polski
Forma i tryb studiów:
Stacjonarne
Strona www:
 
Osoba odpowiedzialna:
prof. dr hab. inż. Walanus Adam (a@adamwalanus.pl)
Osoby prowadzące:
dr inż. Chuchro Monika (chuchro@geol.agh.edu.pl)
prof. dr hab. inż. Walanus Adam (a@adamwalanus.pl)
Krótka charakterystyka modułu

Opis efektów kształcenia dla modułu zajęć
Kod EKM Student, który zaliczył moduł zajęć wie/umie/potrafi Powiązania z EKK Sposób weryfikacji efektów kształcenia (forma zaliczeń)
Wiedza
M_W001 ma pogłębioną wiedzę z zakresu probabilistyki i statystyki w tym zagadnień związanych z analizą regresji i szeregów czasowych IT2A_W01 Kolokwium
M_W002 zna podstawowe metody, techniki i narzędzia stosowane w zagadnieniach dotyczących analizy danych zapisanych w bazach danych, w tym algorytmy indukcji reguł, klasyfikacji i analizy skupień IT2A_W07 Kolokwium
M_W003 ma podbudowaną teoretycznie szczegółową wiedzę związaną z zagadnieniami eksploracji danych jak: analiza asocjacji, czy eksploracji tekstu i stron WWW IT2A_W04 Kolokwium
M_W004 ma wiedzę o trendach rozwojowych i najistotniejszych nowych osiągnięciach z zakresu odkrywania wiedzy w danych IT2A_W05 Kolokwium
Umiejętności
M_U001 potrafi pozyskiwać informacje z literatury, baz danych oraz innych właściwie dobranych źródeł, także w języku angielskim z zakresu eksploracji danych; potrafi integrować uzyskane informacje, dokonywać ich interpretacji i krytycznej oceny, a także wyciągać wnioski oraz formułować i wyczerpująco uzasadniać opinie IT2A_U01 Wykonanie projektu
M_U002 potrafi przygotować i przedstawić prezentację ustną, dotyczącą szczegółowych zagadnień z zakresu metod pozyskiwania wiedzy z baz danych IT2A_U04 Wykonanie projektu
M_U003 potrafi samodzielnie dokonać eksploracyjnej analizy danych w aspekcie pozyskania wiedzy z danych z wykorzystaniem poznanych w trakcie zajęć narzędzi (STATISTICA i inne pakiety obliczeniowe) IT2A_U09, IT2A_U10 Aktywność na zajęciach,
Wykonanie ćwiczeń
M_U004 potrafi dokonać identyfikacji i sformułować specyfikację złożonych zadań z zakresu pozyskiwania wiedzy z danych IT2A_U17 Aktywność na zajęciach,
Wykonanie ćwiczeń
M_U005 potrafi ocenić przydatność metod i narzędzi służących do rozwiązania zadania z zakresu eksploracji danych i wykorzystać je do rozwiązania postawionego zadania IT2A_U19, IT2A_U18 Wykonanie projektu
Kompetencje społeczne
M_K001 rozumie potrzebę uczenia się przez całe życie i nadążania za nowymi rozwiązaniami z zakresu analizy danych w bazach danych IT2A_K01 Aktywność na zajęciach,
Wykonanie ćwiczeń
M_K002 potrafi odpowiednio określić priorytety służące realizacji określonego przez siebie lub innych zadania IT2A_K04 Aktywność na zajęciach,
Wykonanie ćwiczeń
M_K003 potrafi współdziałać i pracować w grupie przyjmując w niej różne role IT2A_K03 Wykonanie projektu
Matryca efektów kształcenia w odniesieniu do form zajęć
Kod EKM Student, który zaliczył moduł zajęć wie/umie/potrafi Forma zajęć
Wykład
Ćwicz. aud
Ćwicz. lab
Ćw. proj.
Konw.
Zaj. sem.
Zaj. prakt
Zaj. terenowe
Zaj. warsztatowe
Inne
E-learning
Wiedza
M_W001 ma pogłębioną wiedzę z zakresu probabilistyki i statystyki w tym zagadnień związanych z analizą regresji i szeregów czasowych + - - - - - - - - - -
M_W002 zna podstawowe metody, techniki i narzędzia stosowane w zagadnieniach dotyczących analizy danych zapisanych w bazach danych, w tym algorytmy indukcji reguł, klasyfikacji i analizy skupień + - - - - - - - - - -
M_W003 ma podbudowaną teoretycznie szczegółową wiedzę związaną z zagadnieniami eksploracji danych jak: analiza asocjacji, czy eksploracji tekstu i stron WWW + - - - - - - - - - -
M_W004 ma wiedzę o trendach rozwojowych i najistotniejszych nowych osiągnięciach z zakresu odkrywania wiedzy w danych + - - - - - - - - - -
Umiejętności
M_U001 potrafi pozyskiwać informacje z literatury, baz danych oraz innych właściwie dobranych źródeł, także w języku angielskim z zakresu eksploracji danych; potrafi integrować uzyskane informacje, dokonywać ich interpretacji i krytycznej oceny, a także wyciągać wnioski oraz formułować i wyczerpująco uzasadniać opinie - - - - - - + - - - -
M_U002 potrafi przygotować i przedstawić prezentację ustną, dotyczącą szczegółowych zagadnień z zakresu metod pozyskiwania wiedzy z baz danych - - - - - - + - - - -
M_U003 potrafi samodzielnie dokonać eksploracyjnej analizy danych w aspekcie pozyskania wiedzy z danych z wykorzystaniem poznanych w trakcie zajęć narzędzi (STATISTICA i inne pakiety obliczeniowe) - - - - - - + - - - -
M_U004 potrafi dokonać identyfikacji i sformułować specyfikację złożonych zadań z zakresu pozyskiwania wiedzy z danych - - - - - - + - - - -
M_U005 potrafi ocenić przydatność metod i narzędzi służących do rozwiązania zadania z zakresu eksploracji danych i wykorzystać je do rozwiązania postawionego zadania - - - - - - + - - - -
Kompetencje społeczne
M_K001 rozumie potrzebę uczenia się przez całe życie i nadążania za nowymi rozwiązaniami z zakresu analizy danych w bazach danych - - - - - - + - - - -
M_K002 potrafi odpowiednio określić priorytety służące realizacji określonego przez siebie lub innych zadania - - - - - - + - - - -
M_K003 potrafi współdziałać i pracować w grupie przyjmując w niej różne role - - - - - - + - - - -
Treść modułu zajęć (program wykładów i pozostałych zajęć)
Wykład:

1. Wprowadzenie do Eksploracji Danych (ED) I.
2. Wprowadzenie do ED II: przebieg procesu ED, przykłady zastosowań, typy zadań ED. Repetytorium z probabilistyki i statystyki: podstawy probabilistyki, twierdzenie Bayesa, parametry charakterystyczne wektora losowego, estymacja punktowa i przedziałowa, testowanie hipotez statystycznych.
3. Przygotowanie i wstępna obróbka danych: postacie danych, wczytywanie danych, ocena jakości, filtrowanie oraz czyszczenie danych, konsolidacja danych, przekształcenia danych.
4. Dobór, eliminacja i redukcja liczby zmiennych: metoda analizy macierzy współczynników korelacji, metoda eliminacji zmiennych oparta o statystykę chi-kwadrat, analiza składowych głównych (PCA)
5. Klasyfikacja I: wprowadzenie, metoda k-najbliższych sąsiadów, przestrzenie metryczne, cechy metod i modeli klasyfikacyjnych,. drzewa klasyfikacyjne
6. Klasyfikacja II:, liniowe funkcje dyskryminacyjne, logistyczne funkcje dyskryminacyjne, klasyfikacja za pomocą sztucznych sieci neuronowych, klasyfikacja bayesowska, techniki modyfikacji oraz ewaluacji klasyfikatorów, ocena jakości klasyfikatora, polepszanie klasyfikatorów.
7. Regresja: wprowadzenie, regresja liniowa i nieliniowa, ewaluacja modelu regresyjnego
8. Analiza szeregów czasowych.
9. Analiza skupień: wprowadzenie, metoda k-średnich, metody hierarchiczne, sieci Kohonena, grupowanie probabilistyczne – algorytm EM.
10. Zaawansowane metody klasteryzacji dla bardzo dużych zbiorów danych – algorytm BIRCH, Grupowanie oparte na gęstości .
11. Analiza asocjacji I: wprowadzenie, algorytm A-Priori, ocena jakości reguł asocjacyjnych.
12. Analiza asocjacji II: algorytm FP-Growth, wielopoziomowe reguły asocjacyjne.
13. Eksploracja zasobów internetowych – podział metod ze względu na rodzaj opracowywanych danych. Wykorzystanie robotów internetowych. Indeksowanie i wyszukiwanie danych na podstawie słów kluczowych. Reprezentacja dokumentu w postaci wektora – indeks odwrócony. Ranking stron – algorytm PageRank, HITS
14. Inne zagadnienia ED: eksploracja tekstu i sieci WWW, analiza przeżycia.
15. Przykłady eksploracyjnej analizy danych.

Zajęcia praktyczne:

1. Studenci poznają narzędzia eksploracji danych wchodzące w skład programu Statistica oraz innych pakietów do data mining’u
2. Studenci samodzielnie wykonują projekt polegający na eksploracyjnej analizie wybranego zbioru danych.

Nakład pracy studenta (bilans punktów ECTS)
Forma aktywności studenta Obciążenie studenta
Sumaryczne obciążenie pracą studenta 146 godz
Punkty ECTS za moduł 5 ECTS
Udział w wykładach 28 godz
Samodzielne studiowanie tematyki zajęć 30 godz
Przygotowanie do zajęć 30 godz
Udział w zajęciach praktycznych 28 godz
Wykonanie projektu 30 godz
Pozostałe informacje
Sposób obliczania oceny końcowej:

Ocena końcowa (OK) to średnia ważona:
Ocena z ćwiczeń (OC) + ocena projektu (OP) + ocena z kolokwium z wykładu (OW)
OK = 0,4*OP + 0,3*OC + 0,3*OW
Ocenę z projektu może obniżyć niedotrzymanie terminu realizacji

Wymagania wstępne i dodatkowe:

Nie podano wymagań wstępnych lub dodatkowych.

Zalecana literatura i pomoce naukowe:

1. Hand D., Mannila H., Smyth P., Eksploracja danych, WNT, Warszawa, 2005.
2. Larose D.T., Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, PWN, Warszawa, 2006.
3. Larose D.T., Odkrywanie wiedzy z danych. Metody i Modele eksploracji danych, PWN, Warszawa, 2008.
4. Stanisz A., Przystępny kurs statystyki : w oparciu o program STATISTICA PL na przykładach z medycyny, T.1-3, Statsoft, Kraków, 2006.
5. Cichosz P., Systemy uczące się, WNT, Warszawa, 2000.
6. Koronacki J., Ćwik J., Statystyczne systemy uczące się, WNT, Warszawa, 2005.
7. Brandt S., Analiza danych : metody statystyczne i obliczeniowe, PWN, Warszawa, 1998.
8. Hastie T., Tibshirani R., Friedman J., The elements of Statistical Learning, Springer, 2009.

Publikacje naukowe osób prowadzących zajęcia związane z tematyką modułu:

Nie podano dodatkowych publikacji

Informacje dodatkowe:

udział „praktycznych” punktów ECTS: 3
udział „teoretycznych” punktów ECTS: 2