Moduł oferowany także w ramach programów studiów:
Informacje ogólne:
Nazwa:
Eksploracja danych
Tok studiów:
2012/2013
Kod:
JIS-2-104-SW-s
Wydział:
Fizyki i Informatyki Stosowanej
Poziom studiów:
Studia II stopnia
Specjalność:
Systemy wbudowane i rekonfigurowalne
Kierunek:
Informatyka Stosowana
Semestr:
1
Profil kształcenia:
Ogólnoakademicki (A)
Język wykładowy:
Polski
Forma i tryb studiów:
Stacjonarne
Strona www:
 
Osoba odpowiedzialna:
dr inż. Krupińska Grażyna (grazyna@fis.agh.edu.pl)
Osoby prowadzące:
dr inż. Krupińska Grażyna (grazyna@fis.agh.edu.pl)
Krótka charakterystyka modułu

Opis efektów kształcenia dla modułu zajęć
Kod EKM Student, który zaliczył moduł zajęć wie/umie/potrafi Powiązania z EKK Sposób weryfikacji efektów kształcenia (forma zaliczeń)
Wiedza
M_W004 Student ma pogłębioną wiedzę z zakresu probabilistyki i statystyki w tym zagadnień związanych z analizą regresji i szeregów czasowych IS2A_W01, IS2A_W08 Kolokwium
M_W005 Student ma podbudowaną teoretycznie szczegółową wiedzę związaną z zagadnieniami eksploracji danych oraz zna zna podstawowe metody, techniki i narzędzia stosowane w zagadnieniach dotyczących analizy danych zapisanych w bazach danych. IS2A_W02, IS2A_W15, IS2A_W12, IS2A_W14, IS2A_W04, IS2A_W08 Kolokwium
M_W006 Student ma wiedzę o trendach rozwojowych i najistotniejszych nowych osiągnięciach z zakresu odkrywania wiedzy w danych. IS2A_W13, IS2A_W04 Kolokwium
Umiejętności
M_U006 Student potrafi pozyskiwać informacje z literatury, baz danych oraz innych właściwie dobranych źródeł, także w języku angielskim z zakresu eksploracji danych; potrafi integrować uzyskane informacje, dokonywać ich interpretacji i krytycznej oceny, a także wyciągać wnioski oraz formułować i wyczerpująco uzasadniać opinie IS2A_U01 Wykonanie projektu
M_U007 Student potrafi przygotować i przedstawić prezentację ustną, dotyczącą szczegółowych zagadnień z zakresu metod pozyskiwania wiedzy z baz danych IS2A_U09, IS2A_U02 Aktywność na zajęciach,
Wykonanie projektu
M_U008 Student potrafi dokonać identyfikacji i sformułować specyfikację złożonych zadań z zakresu pozyskiwania wiedzy z danych, samodzielnie dokonać eksploracyjnej analizy danych w aspekcie pozyskania wiedzy z danych z wykorzystaniem poznanych w trakcie zajęć narzędzi dokonując oceny przydatności znanych metod i narzędzi do rozwiązania postawionego zadania IS2A_U05, IS2A_U03, IS2A_U13, IS2A_U11, IS2A_U04, IS2A_U12, IS2A_U15 Wykonanie projektu,
Wykonanie ćwiczeń laboratoryjnych
Kompetencje społeczne
M_K002 Student rozumie potrzebę uczenia się przez całe życie i nadążania za nowymi rozwiązaniami z zakresu analizy danych w bazach danych IS2A_K01, IS2A_K02 Wykonanie ćwiczeń laboratoryjnych
M_K003 Student potrafi odpowiednio określić priorytety służące realizacji określonego przez siebie lub innych zadania; potrafi współdziałać i pracować w grupie przyjmując w niej różne role IS2A_K03, IS2A_K02 Wykonanie projektu,
Wykonanie ćwiczeń laboratoryjnych
Matryca efektów kształcenia w odniesieniu do form zajęć
Kod EKM Student, który zaliczył moduł zajęć wie/umie/potrafi Forma zajęć
Wykład
Ćwicz. audyt.
Ćwicz. lab.
Ćwicz. proj.
Konw.
Zaj. sem.
Zaj. prakt.
Zaj. terenowe
Zaj. warsztatowe
Inne
E-learning
Wiedza
M_W004 Student ma pogłębioną wiedzę z zakresu probabilistyki i statystyki w tym zagadnień związanych z analizą regresji i szeregów czasowych + - - - - - - - - - -
M_W005 Student ma podbudowaną teoretycznie szczegółową wiedzę związaną z zagadnieniami eksploracji danych oraz zna zna podstawowe metody, techniki i narzędzia stosowane w zagadnieniach dotyczących analizy danych zapisanych w bazach danych. + - - - - - - - - - -
M_W006 Student ma wiedzę o trendach rozwojowych i najistotniejszych nowych osiągnięciach z zakresu odkrywania wiedzy w danych. + - - - - - - - - - -
Umiejętności
M_U006 Student potrafi pozyskiwać informacje z literatury, baz danych oraz innych właściwie dobranych źródeł, także w języku angielskim z zakresu eksploracji danych; potrafi integrować uzyskane informacje, dokonywać ich interpretacji i krytycznej oceny, a także wyciągać wnioski oraz formułować i wyczerpująco uzasadniać opinie - - - + - - - - - - -
M_U007 Student potrafi przygotować i przedstawić prezentację ustną, dotyczącą szczegółowych zagadnień z zakresu metod pozyskiwania wiedzy z baz danych - - - + - - - - - - -
M_U008 Student potrafi dokonać identyfikacji i sformułować specyfikację złożonych zadań z zakresu pozyskiwania wiedzy z danych, samodzielnie dokonać eksploracyjnej analizy danych w aspekcie pozyskania wiedzy z danych z wykorzystaniem poznanych w trakcie zajęć narzędzi dokonując oceny przydatności znanych metod i narzędzi do rozwiązania postawionego zadania - - + + - - - - - - -
Kompetencje społeczne
M_K002 Student rozumie potrzebę uczenia się przez całe życie i nadążania za nowymi rozwiązaniami z zakresu analizy danych w bazach danych - - + - - - - - - - -
M_K003 Student potrafi odpowiednio określić priorytety służące realizacji określonego przez siebie lub innych zadania; potrafi współdziałać i pracować w grupie przyjmując w niej różne role - - + + - - - - - - -
Treść modułu zajęć (program wykładów i pozostałych zajęć)
Wykład:

1.Wprowadzenie do Eksploracji Danych (ED) I.
2.Wprowadzenie do ED II: przebieg procesu ED, przykłady zastosowań, typy zadań ED. Repetytorium z probabilistyki i statystyki: podstawy probabilistyki, twierdzenie Bayesa, parametry charakterystyczne wektora losowego, estymacja punktowa i przedziałowa, testowanie hipotez statystycznych.
3.Przygotowanie i wstępna obróbka danych: postacie danych, wczytywanie danych, ocena jakości, filtrowanie oraz czyszczenie danych, konsolidacja danych, przekształcenia danych.
4.Dobór, eliminacja i redukcja liczby zmiennych: metoda analizy macierzy współczynników korelacji, metoda eliminacji zmiennych oparta o statystykę chi-kwadrat, analiza składowych głównych (PCA)
5.Klasyfikacja I: wprowadzenie, metoda k-najbliższych sąsiadów, przestrzenie metryczne, cechy metod i modeli klasyfikacyjnych,. drzewa klasyfikacyjne
6.Klasyfikacja II:, liniowe funkcje dyskryminacyjne, logistyczne funkcje dyskryminacyjne, klasyfikacja za pomocą sztucznych sieci neuronowych, klasyfikacja bayesowska, techniki modyfikacji oraz ewaluacji klasyfikatorów, ocena jakości klasyfikatora, polepszanie klasyfikatorów.
7.Regresja: wprowadzenie, regresja liniowa i nieliniowa, ewaluacja modelu regresyjnego
8.Analiza szeregów czasowych.
9.Analiza skupień: wprowadzenie, metoda k-średnich, metody hierarchiczne, sieci Kohonena, grupowanie probabilistyczne – algorytm EM.
10.Zaawansowane metody klasteryzacji dla bardzo dużych zbiorów danych – algorytm BIRCH, Grupowanie oparte na gęstości .
11.Analiza asocjacji I: wprowadzenie, algorytm A-Priori, ocena jakości reguł asocjacyjnych.
12.Analiza asocjacji II: algorytm FP-Growth, wielopoziomowe reguły asocjacyjne.
13.Eksploracja zasobów internetowych – podział metod ze względu na rodzaj opracowywanych danych. Wykorzystanie robotów internetowych. Indeksowanie i wyszukiwanie danych na podstawie słów kluczowych. Reprezentacja dokumentu w postaci wektora – indeks odwrócony. Ranking stron – algorytm PageRank, HITS
14.Inne zagadnienia ED: eksploracja tekstu i sieci WWW, analiza przeżycia.
15.Przykłady eksploracyjnej analizy danych.

Ćwiczenia laboratoryjne:

Ćwiczenia odbywają się w laboratorium – studenci poznają narzędzia eksploracji danych wchodzące w skład programu Statistica oraz innych pakietów do data mining’u.

Efekt kształcenia:
- student potrafi samodzielnie dobrać odpowiednią do postawionego zadania metodę eksploracji danych, przeprowadzić ją, a następnie przedstawić oraz skomentować otrzymane wyniki.

Ćwiczenia projektowe:

Studenci samodzielnie wykonują projekt polegający na eksploracyjnej analizie wybranego zbioru danych.

Nakład pracy studenta (bilans punktów ECTS)
Forma aktywności studenta Obciążenie studenta
Sumaryczne obciążenie pracą studenta 150 godz
Punkty ECTS za moduł 5 ECTS
Udział w wykładach 30 godz
Samodzielne studiowanie tematyki zajęć 30 godz
Udział w ćwiczeniach laboratoryjnych 15 godz
Przygotowanie do zajęć 30 godz
Dodatkowe godziny kontaktowe z nauczycielem 15 godz
Wykonanie projektu 30 godz
Pozostałe informacje
Sposób obliczania oceny końcowej:

Ocena końcowa (OK) to średnia ważona:
Ocena z ćwiczeń laboratoryjnych (OL) + ocena projektu (OP) + ocena z kolokwium z wykładu (OW)
OK = 0,4*OP + 0,3*OL + 0,3*OW
Ocenę z projektu może obniżyć niedotrzymanie terminu realizacji

Wymagania wstępne i dodatkowe:

Nie podano wymagań wstępnych lub dodatkowych.

Zalecana literatura i pomoce naukowe:

1.Hand D., Mannila H., Smyth P., Eksploracja danych, WNT, Warszawa, 2005.
2.Larose D.T., Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, PWN, Warszawa, 2006.
3.Larose D.T., Odkrywanie wiedzy z danych. Metody i Modele eksploracji danych, PWN, Warszawa, 2008.
4.Stanisz A., Przystępny kurs statystyki : w oparciu o program STATISTICA PL na przykładach z medycyny, T.1-3, Statsoft, Kraków, 2006.
5.Cichosz P., Systemy uczące się, WNT, Warszawa, 2000.
6.Koronacki J., Ćwik J., Statystyczne systemy uczące się, WNT, Warszawa, 2005.
7.Brandt S., Analiza danych : metody statystyczne i obliczeniowe, PWN, Warszawa, 1998.
8.Hastie T., Tibshirani R., Friedman J., The elements of Statistical Learning, Springer, 2009.

Publikacje naukowe osób prowadzących zajęcia związane z tematyką modułu:

Nie podano dodatkowych publikacji

Informacje dodatkowe:

Sposób i tryb wyrównania zaległości powstałych wskutek nieobecności studenta na zajęciach:

ćwiczenia laboratoryjne: Nieobecność na ćwiczeniach wymaga od studenta samodzielnego opanowania przerabianego na tych zajęciach materiału.

Obecność na wykładzie: zgodnie z Regulaminem Studiów AGH.