Moduł oferowany także w ramach programów studiów:
Informacje ogólne:
Nazwa:
Eksploracja danych
Tok studiów:
2019/2020
Kod:
HIFS-1-406-s
Wydział:
Humanistyczny
Poziom studiów:
Studia I stopnia
Specjalność:
-
Kierunek:
Informatyka Społeczna
Semestr:
4
Profil:
Praktyczny (P)
Język wykładowy:
Polski
Forma studiów:
Stacjonarne
Strona www:
 
Prowadzący moduł:
dr hab. inż. Kowalski Piotr Andrzej (pkowal@agh.edu.pl)
Treści programowe zapewniające uzyskanie efektów uczenia się dla modułu zajęć

Zajęcia mają na celu zapoznać studentów z analizą danych w kontekście big data.

Opis efektów uczenia się dla modułu zajęć
Kod MEU Student, który zaliczył moduł zajęć zna i rozumie/potrafi/jest gotów do Powiązania z KEU Sposób weryfikacji i oceny efektów uczenia się osiągniętych przez studenta w ramach poszczególnych form zajęć i dla całego modułu zajęć
Wiedza: zna i rozumie
M_W001 Student zna istotę analizy danych w kontekście Big Data IFS1P_W03 Kolokwium,
Egzamin
M_W002 Student zna zalety i ograniczenia metod klasyfikacji i klasteryzacji danych IFS1P_W09 Kolokwium,
Egzamin
M_W003 Student zna rodzaje metod klasyfikacji i klasteryzacji danych IFS1P_W01 Kolokwium,
Egzamin
Umiejętności: potrafi
M_U001 Student potrafi w praktyce zastosować wybrane metody do klasyfikacji i klasteryzacji danych IFS1P_U05 Wykonanie ćwiczeń,
Kolokwium
M_U002 Student potrafi wybrać odpowiednią dla zadanego problemu metodę analizy danych IFS1P_U01 Wykonanie ćwiczeń,
Kolokwium,
Egzamin
M_U003 Student potrafi wyciągać wnioski na podstawie klasyfikacji i klasteryzacji danych różnymi metodami. IFS1P_U09 Wykonanie ćwiczeń,
Kolokwium
Kompetencje społeczne: jest gotów do
M_K001 Student potrafi argumentować racje wynikające z eksploracji danych IFS1P_K04 Udział w dyskusji,
Kolokwium,
Aktywność na zajęciach
M_K002 Student potrafi precyzyjnie i zrozumiale komunikować wyniki analizy danych, ma potrzebę rozwijania zdolności komunikacyjnych całe życie. IFS1P_K03 Udział w dyskusji,
Kolokwium,
Egzamin
M_K003 Student ma świadomość biznesowych i społecznych obszarów zastosowań metod eksploracji danych IFS1P_U13 Aktywność na zajęciach
Liczba godzin zajęć w ramach poszczególnych form zajęć:
SUMA (godz.)
Wykład
Ćwicz. aud
Ćwicz. lab
Ćw. proj.
Konw.
Zaj. sem.
Zaj. prakt
Zaj. terenowe
Zaj. warsztatowe
Prace kontr. przejść.
Lektorat
60 30 0 0 30 0 0 0 0 0 0 0
Matryca kierunkowych efektów uczenia się w odniesieniu do form zajęć i sposobu zaliczenia, które pozwalają na ich uzyskanie
Kod MEU Student, który zaliczył moduł zajęć zna i rozumie/potrafi/jest gotów do Forma zajęć dydaktycznych
Wykład
Ćwicz. aud
Ćwicz. lab
Ćw. proj.
Konw.
Zaj. sem.
Zaj. prakt
Zaj. terenowe
Zaj. warsztatowe
Prace kontr. przejść.
Lektorat
Wiedza
M_W001 Student zna istotę analizy danych w kontekście Big Data + - - + - - - - - - -
M_W002 Student zna zalety i ograniczenia metod klasyfikacji i klasteryzacji danych + - - + - - - - - - -
M_W003 Student zna rodzaje metod klasyfikacji i klasteryzacji danych + - - + - - - - - - -
Umiejętności
M_U001 Student potrafi w praktyce zastosować wybrane metody do klasyfikacji i klasteryzacji danych + - - + - - - - - - -
M_U002 Student potrafi wybrać odpowiednią dla zadanego problemu metodę analizy danych + - - + - - - - - - -
M_U003 Student potrafi wyciągać wnioski na podstawie klasyfikacji i klasteryzacji danych różnymi metodami. - - - + - - - - - - -
Kompetencje społeczne
M_K001 Student potrafi argumentować racje wynikające z eksploracji danych - - - + - - - - - - -
M_K002 Student potrafi precyzyjnie i zrozumiale komunikować wyniki analizy danych, ma potrzebę rozwijania zdolności komunikacyjnych całe życie. + - - + - - - - - - -
M_K003 Student ma świadomość biznesowych i społecznych obszarów zastosowań metod eksploracji danych - - - + - - - - - - -
Nakład pracy studenta (bilans punktów ECTS)
Forma aktywności studenta Obciążenie studenta
Sumaryczne obciążenie pracą studenta 147 godz
Punkty ECTS za moduł 5 ECTS
Udział w zajęciach dydaktycznych/praktyka 60 godz
Przygotowanie do zajęć 50 godz
Samodzielne studiowanie tematyki zajęć 30 godz
Egzamin lub kolokwium zaliczeniowe 2 godz
Dodatkowe godziny kontaktowe 5 godz
Szczegółowe treści kształcenia w ramach poszczególnych form zajęć (szczegółowy program wykładów i pozostałych zajęć)
Wykład (30h):
Eksploracja danych

1. Zagadnienia wstępne i omówienie założeń przedmiotu
2. Zastosowania praktyczne metod eksploracji danych
3. Teoria klasyfikacji, reguła Bayesa, dyskryminator Fischera, miary podobieństwa
4. Klasyfikacja danych z nauczycielem
a. Kryteria i metody oceny jakości systemów klasyfikacji, metoda testów krzyżowych, przekleństwo wymiarowości
b. Klasyfikatory minimalnoodległościowe (NN, kNN)
c. Drzewa decyzyjne, metoda random forest
d. Klasyfikator Bayesa, modele generatywne (GMM)
e. Metody dyskryminacyjne (LDA, SVM)
f. Sztuczne sieci neuronowe
g. Metody ewolucyjne
h. Metody głębokiego uczenia maszynowego (głębokie sieci neuronowe, sieci splotowe, DBM)
i. Klasyfikatory hybrydowe, fuzja klasyfikatorów, reguła boostingu
5. Zaawansowane metody automatycznego grupowania danych (clustering)
a. Kryteria i metody oceny jakości systemów grupowania danych
b. Analiza składowych głównych (SVD, PCA)
c. Metody hierarchiczne (HAC)
d. Algorytm k-Means
e. Reguły asocjacyjne (analiza koszykowa zależności)
6. Zaawansowane metody redukcji wymiarowości i przetwarzania cech
a. Wizualizacja danych wielowymiarowych
b. Metody normalizacji parametrów (standaryzacja, normalizacja, rzutowanie)
c. Analiza składowych niezależnych (ICA)
d. Metoda Random Projection
e. Automatyczna selekcja cech
f. Skalowanie wielowymiarowe (MDS)
7. Podstawy analizy dużych zbiorów danych – Big Data
a. definicje analizy Big Data
b. zastosowania praktyczne, cloud computing, Internet of Things
c. filozofia modelu Map Reduce
d. wydajność i niezawodność systemów analizy danych w kontekście Big Data
e. dostępne narzędzia informatyczne

Ćwiczenia projektowe (30h):
Eksploracja danych

1. Zagadnienia wstępne i omówienie założeń przedmiotu
2. Zastosowania praktyczne metod eksploracji danych
3. Teoria klasyfikacji, reguła Bayesa, dyskryminator Fischera, miary podobieństwa
4. Klasyfikacja danych z nauczycielem
a. Kryteria i metody oceny jakości systemów klasyfikacji, metoda testów krzyżowych, przekleństwo wymiarowości
b. Klasyfikatory minimalnoodległościowe (NN, kNN)
c. Drzewa decyzyjne, metoda random forest
d. Klasyfikator Bayesa, modele generatywne (GMM)
e. Metody dyskryminacyjne (LDA, SVM)
f. Sztuczne sieci neuronowe
g. Metody ewolucyjne
h. Metody głębokiego uczenia maszynowego (głębokie sieci neuronowe, sieci splotowe, DBM)
i. Klasyfikatory hybrydowe, fuzja klasyfikatorów, reguła boostingu
5. Zaawansowane metody automatycznego grupowania danych (clustering)
a. Kryteria i metody oceny jakości systemów grupowania danych
b. Analiza składowych głównych (SVD, PCA)
c. Metody hierarchiczne (HAC)
d. Algorytm k-Means
e. Reguły asocjacyjne (analiza koszykowa zależności)
6. Zaawansowane metody redukcji wymiarowości i przetwarzania cech
a. Wizualizacja danych wielowymiarowych
b. Metody normalizacji parametrów (standaryzacja, normalizacja, rzutowanie)
c. Analiza składowych niezależnych (ICA)
d. Metoda Random Projection
e. Automatyczna selekcja cech
f. Skalowanie wielowymiarowe (MDS)
7. Podstawy analizy dużych zbiorów danych – Big Data
a. definicje analizy Big Data
b. zastosowania praktyczne, cloud computing, Internet of Things
c. filozofia modelu Map Reduce
d. wydajność i niezawodność systemów analizy danych w kontekście Big Data
e. dostępne narzędzia informatyczne

Pozostałe informacje
Metody i techniki kształcenia:
  • Wykład: Treści prezentowane na wykładzie są przekazywane w formie prezentacji multimedialnej w połączeniu z klasycznym wykładem wzbogaconymi o przykłady odnoszące się do prezentowanych zagadnień.
  • Ćwiczenia projektowe: Studenci wykonują zadany projekt samodzielnie, bez większej ingerencji prowadzącego. Ma to wykształcić poczucie odpowiedzialności za pracę w grupie oraz odpowiedzialności za podejmowane decyzje.
Warunki i sposób zaliczenia poszczególnych form zajęć, w tym zasady zaliczeń poprawkowych, a także warunki dopuszczenia do egzaminu:

Przed przystąpieniem do egzaminu student musi uzyskać zaliczenie z ćwiczeń. W późniejszych terminach zasady nie ulegają zmianie.

Zasady udziału w zajęciach:
  • Wykład:
    – Obecność obowiązkowa: Nie
    – Zasady udziału w zajęciach: Studenci uczestniczą w zajęciach poznając kolejne treści nauczania zgodnie z syllabusem przedmiotu. Studenci winni na bieżąco zadawać pytania i wyjaśniać wątpliwości. Rejestracja audiowizualna wykładu wymaga zgody prowadzącego.
  • Ćwiczenia projektowe:
    – Obecność obowiązkowa: Tak
    – Zasady udziału w zajęciach: Studenci wykonują prace praktyczne mające na celu uzyskanie kompetencji zakładanych przez syllabus. Ocenie podlega sposób wykonania projektu oraz efekt końcowy.
Sposób obliczania oceny końcowej:

Egzamin 60%,
zaliczenie ćwiczeń 40%: kolokwium 50%, wykonanie ćwiczeń praktycznych 20%, aktywność w trakcie zajęć 10%, udział w dyskusji 20%

Sposób i tryb wyrównywania zaległości powstałych wskutek nieobecności studenta na zajęciach:

Zaległości student uzupełnia w porozumieniu z prowadzącym,

Wymagania wstępne i dodatkowe, z uwzględnieniem sekwencyjności modułów :

• Znajomość podstawowych zagadnień analizy statystycznej
• Znajomość zagadnień wielowymiarowej analizy danych
• Umiejętność posługiwania się w podstawowym zakresie wybranym skryptowym językiem programowania (np. Python)

Zalecana literatura i pomoce naukowe:

• D. Larose, „Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych”, Wydawnictwo Naukowe PWN, 2013
• D. Larose, „Metody i modele eksploracji danych / Daniel T. Larose ; z jęz. ang. przeł. Anna Wilbik.”
• Amir D. Aczel, „Statystyka w zarządzaniu”, Wydawnictwo Naukowe PWN, Warszawa 2000J. Koronacki, J. Ćwik, Statystyczne systemy uczące się, Wydanie 2., Wyd. Exit, 2008
• M. Krzyśko, W. Wołyński, T. Górecki, M. Skorzybut, „Systemy uczące się”, WNT, Warszawa 2008
• R. Duda, P. Hart, D. Stork, “Pattern Classification”, 2nd ed., Wiley 2000
• V. Mayer-Schönberger, K. Cukier, „Big Data. Rewolucja, która zmieni nasze myślenie, pracę i życie”, MT Biznes 2014

Publikacje naukowe osób prowadzących zajęcia związane z tematyką modułu:

1. J. Gałka, M. Grzywacz, R. Samborski: Playback attack detection for text-dependent speaker verification over telephone channels. Speech Communication 2015 vol. 67, s. 143–153.

Doświadczenie zawodowe pozaakademickie:
Dr inż. Jakub Gałka jest szefem działu R&D w VoicePIN.com Sp. z o.o. oraz współzałożycielem spin-off’a Techmo Sp. z o.o. Jest członkiem Stowarzyszenia Top500 Innovators i absolwentem szkoleń na temat innowacyjności w Stanford University.
W swojej pracy naukowej zajmuje się rozwijaniem technologii przetwarzania mowy a także systemami biometrycznymi, analizą danych i uczeniem maszynowym. Prowadzi projekty badawczo-rozwojowe oraz zajmuje się wdrażaniem nowych technologii w praktyce gospodarczej (pierwsze w Polsce wdrożenie biometrii głosowej w bankowości mobilnej). Jest autorem oraz recenzentem publikacji naukowych w czasopismach z listy filadelfijskiej. Zdobywca krajowych i międzynarodowych nagród za działalność wynalazczą. Wspiera i rozwija działalność innowacyjną w środowisku akademickim i start-up’owym Krakowa. Jest laureatem Top10 Startup Alley na Tech Crunch Disrupt w San Francisco oraz zwycięzcą Tech Crunch Meetup Kraków 2015 (z VoicePIN.com).

Informacje dodatkowe:

brak