Moduł oferowany także w ramach programów studiów:
Informacje ogólne:
Nazwa:
Data mining w zastosowaniach inżynierskich
Tok studiów:
2019/2020
Kod:
ZSDA-3-0230-s
Wydział:
Szkoła Doktorska AGH
Poziom studiów:
Studia III stopnia
Specjalność:
-
Kierunek:
Szkoła Doktorska AGH
Semestr:
0
Profil:
Ogólnoakademicki (A)
Język wykładowy:
Polski i Angielski
Forma studiów:
Stacjonarne
Strona www:
 
Prowadzący moduł:
dr hab. inż. Jakubowski Jacek (Jacek.Jakubowski@agh.edu.pl)
Dyscypliny:
inżynieria lądowa i transport, inżynieria środowiska, górnictwo i energetyka, nauki o Ziemi i środowisku, nauki o zarządzaniu i jakości
Treści programowe zapewniające uzyskanie efektów uczenia się dla modułu zajęć

Key concepts, approaches and methods of predictive data mining are presented and expounded on through project work and lab workshop. The practical part of the course does not require coding, instead is facilitated through the data science & machine learning platform Statistica and its data mining workflow interface.
The course will be offered from autumn 2020, in Polish or English.

Opis efektów uczenia się dla modułu zajęć
Kod MEU Student, który zaliczył moduł zajęć zna i rozumie/potrafi/jest gotów do Powiązania z KEU Sposób weryfikacji i oceny efektów uczenia się osiągniętych przez studenta w ramach poszczególnych form zajęć i dla całego modułu zajęć
Wiedza: zna i rozumie
M_W001 Student knows and understands the data mining process cycle, types of data mining problems, data mining workflow stages. SDA3A_W02, SDA3A_W01 Wynik testu zaliczeniowego,
Wykonanie ćwiczeń laboratoryjnych,
Wykonanie projektu,
Udział w dyskusji,
Aktywność na zajęciach
M_W002 Student knows characteristics of selected analytical model building methods and model evaluation criteria. SDA3A_W02, SDA3A_W01 Wynik testu zaliczeniowego,
Wykonanie ćwiczeń laboratoryjnych,
Wykonanie projektu,
Udział w dyskusji,
Aktywność na zajęciach
Umiejętności: potrafi
M_U001 Student can perform data cleansing, feature selection, model training, evaluation and deployment. SDA3A_U02, SDA3A_U01 Wynik testu zaliczeniowego,
Wykonanie ćwiczeń laboratoryjnych,
Wykonanie projektu,
Udział w dyskusji,
Aktywność na zajęciach
M_U002 Student can perform model evaluation and comparison for regression and classification problems. SDA3A_U02, SDA3A_U01 Wynik testu zaliczeniowego,
Wykonanie ćwiczeń laboratoryjnych,
Wykonanie projektu,
Udział w dyskusji,
Aktywność na zajęciach
Kompetencje społeczne: jest gotów do
M_K001 Is aware of his/her competencies in the area of advanced data analytics and paths of their further development. SDA3A_K01 Wynik testu zaliczeniowego,
Wykonanie ćwiczeń laboratoryjnych,
Wykonanie projektu,
Udział w dyskusji,
Aktywność na zajęciach
Liczba godzin zajęć w ramach poszczególnych form zajęć:
SUMA (godz.)
Wykład
Ćwicz. aud
Ćwicz. lab
Ćw. proj.
Konw.
Zaj. sem.
Zaj. prakt
Zaj. terenowe
Zaj. warsztatowe
Prace kontr. przejść.
Lektorat
45 15 0 15 15 0 0 0 0 0 0 0
Matryca kierunkowych efektów uczenia się w odniesieniu do form zajęć i sposobu zaliczenia, które pozwalają na ich uzyskanie
Kod MEU Student, który zaliczył moduł zajęć zna i rozumie/potrafi/jest gotów do Forma zajęć dydaktycznych
Wykład
Ćwicz. aud
Ćwicz. lab
Ćw. proj.
Konw.
Zaj. sem.
Zaj. prakt
Zaj. terenowe
Zaj. warsztatowe
Prace kontr. przejść.
Lektorat
Wiedza
M_W001 Student knows and understands the data mining process cycle, types of data mining problems, data mining workflow stages. + - + + - - - - - - -
M_W002 Student knows characteristics of selected analytical model building methods and model evaluation criteria. + - + + - - - - - - -
Umiejętności
M_U001 Student can perform data cleansing, feature selection, model training, evaluation and deployment. + - + + - - - - - - -
M_U002 Student can perform model evaluation and comparison for regression and classification problems. + - + + - - - - - - -
Kompetencje społeczne
M_K001 Is aware of his/her competencies in the area of advanced data analytics and paths of their further development. + - + + - - - - - - -
Nakład pracy studenta (bilans punktów ECTS)
Forma aktywności studenta Obciążenie studenta
Sumaryczne obciążenie pracą studenta 95 godz
Punkty ECTS za moduł 4 ECTS
Udział w zajęciach dydaktycznych/praktyka 45 godz
Przygotowanie do zajęć 25 godz
Samodzielne studiowanie tematyki zajęć 25 godz
Szczegółowe treści kształcenia w ramach poszczególnych form zajęć (szczegółowy program wykładów i pozostałych zajęć)
Wykład (15h):

• Advanced data analytics glossary: statistics, data mining, machine learning, artificial intelligence, exploratory data analysis, olap, etl, sql, data science, big data, structured and unstructured data, analytics in cloud, Tibco Statistica, Tibco Data Science.
• Data mining process cycle, data mining tasks (predictive data mining, regression and classification, unsupervised learning), data mining workflow, data preprocessing, feature selection methods, model training and evaluation, overfitting, cross-validation, model deployment.
• General overview of selected analytical methods: classification and regression trees, CHAID trees, boosted trees, random forests, neural networks, multivariate adaptive regression splines, support vector machines, naive Bayes, k-nearest neighbours, EM and k-means cluster analysis.

Ćwiczenia laboratoryjne (15h):

• Statistica data mining workspace, ribbon bar, R & Python, general options, node browser, node options, data miner recipes, data sources, visualization.
• Focus on two selected analytical methods (neural networks, CART trees or logistic regression), examples of regression and classification model building and evaluation.
• Data preprocessing: local datafiles, remote data sources, data cleansing, missingdata handling, data transformations, reduction of dimensions, categorization, combining groups/classes, random sampling,
• Feature selection and variable screening
• Model training, testing and validation,
• Model evaluation, goodness of fit, confusion matrix, ROC curve, lift chart
• Model deployment.

Ćwiczenia projektowe (15h):

Individual project assignment, execution and evaluation.

Pozostałe informacje
Metody i techniki kształcenia:
  • Wykład: The content presented at the lectures is provided in the form of a presentation or a classic lecture panel enriched with demonstrations and other forms of active participation of students.
  • Ćwiczenia laboratoryjne: Students perform experiments or solve practical problems independently under limited supervision of a tutor. Students learn the experimental methods or acquire other practical skills.
  • Ćwiczenia projektowe: Students carry out the project on their own without major intervention.
Warunki i sposób zaliczenia poszczególnych form zajęć, w tym zasady zaliczeń poprawkowych, a także warunki dopuszczenia do egzaminu:

A pass may be obtained at the primary date or at one resit date. The final test covering lecture and labs in the form of practical part (workshop) and/or a written test. Successful final test and project assessment are necessary for passing the course.

Zasady udziału w zajęciach:
  • Wykład:
    – Obecność obowiązkowa: Tak
    – Zasady udziału w zajęciach: Students participate in classes learning further content of teaching according to the syllabus of the subject. Students are encouraged and expected to ask questions. Audiovisual recording of the lectures or classes requires the teacher’s written consent.
  • Ćwiczenia laboratoryjne:
    – Obecność obowiązkowa: Tak
    – Zasady udziału w zajęciach: Students joining the classes should be prepared in the scope indicated by the teacher (eg in the form of task sets). Student’s work assessment can be based on oral or written statements.
  • Ćwiczenia projektowe:
    – Obecność obowiązkowa: Tak
    – Zasady udziału w zajęciach: Students perform practical work aimed at obtaining competences. The project implementation method and the final result are subject to evaluation.
Sposób obliczania oceny końcowej:

project (50%), labs and lecture (50%)

Sposób i tryb wyrównywania zaległości powstałych wskutek nieobecności studenta na zajęciach:

Justified absences at classes may be made up with a different group providing the material implemented at the classes is the same.

Wymagania wstępne i dodatkowe, z uwzględnieniem sekwencyjności modułów :

A course in statistics (or similar), typically provided by various BSc Eng. and MSc Eng. level programmes. Programing skills not required, however algorithmic thinking and practical understanding of data structures and types will be an advantage.

Zalecana literatura i pomoce naukowe:

1. Statistica 13, 2018, Tibco Software.
2. Koronacki J, Ćwik J, Statystyczne systemy uczące się, Wydawnictwo Naukowo Techniczne
3. Tadeusiewicz R, Rutkowski L, Szaleniec M, Horzyki A, Strzelecki M., Kompendium sieci neuronowych
4. Lula P., Jednokierunkowe sieci neuronowe w modelowaniu zjawisk ekonomicznych, Wydawnictwo AE w Krakowie
5. Jajuga: Statystyczna analiza wielowymiarowa. PWN
6. Gatnar H., Nieparametryczna metoda dyskryminacji i regresji, Wydawnictwo Naukowe PWN.
7. Kot S.M., Jakubowski J., Sokołowski A., Statystyka; Wyd Diffin, Warszawa 2011
8. Migut G., Demski T, Podlewski J., Sokołowski A. Harańczyk G.: Metody i zastosowania data mining i inne materiały StatSoft Polska
9. Braha D, Data mining for design and manufacturing. Methods and applications, Kluwer Academic Publishers
10. Berry M.J.A., Linoff G., Mastering data mining, John Willey & Sons
11. Cabena P., et al: Discovering Data Mining: From Concept to Implementation. Prentice Hall, NY
12. Hand D., MannilaH., Smyth P. Eksploracja danych. MIT Press, WNT
13. Larose D.T. Metody i modele eksploracji danych. PWN
14. Lasek M. Data mining. Zastosowania w analizach i ocenach klientów bankowych. BMiB, Warszawa
15. Seidman C. Zgłębianie i analiza danych w Microsoft SQL Server 2000. Microsoft
16. Weiss S.M, Indurkhya N., Predictive data mining. A practical guide, Morgan Kaufman Publishers
17. Hastie T, Tibshirani R., Friedman J., The Elements of Statistical Learning, Springer-Verlag
19. Han, J, Kamber, M, Data mining: Concepts and Techniques, Academic Press.
20. Friedman J., Multivariate Adaptive Regression Splines, Annals of Statistics, 19
21. Zastosowania statystyki i data mining w badaniach naukowych, red. nauk. Jacek JAKUBOWSKI, Janusz Wątroba, XXI konferencja StatSoft Polska
22. Zastosowania statystyki i data mining w badaniach naukowych; red. nauk. Jacek JAKUBOWSKI, Janusz Wątroba, StatSoft Polska 2016,
23. Zastosowania statystyki i data mining w badaniach naukowych oraz doskonalenie procesów produkcyjnych z wykorzystaniem analizy danych; red. nauk. Jacek JAKUBOWSKI; StatSoft Polska
24. Zastosowania statystyki i data mining w badaniach naukowych i innowacyjnych; red.nauk. Jacek JAKUBOWSKI; StatSoft Polska

Publikacje naukowe osób prowadzących zajęcia związane z tematyką modułu:

1. Multivariate linear regression and CART regression analysis of TBM performance at Abu Hamourphase-I tunel; J. JAKUBOWSKI, J.B. Stypulkowski, F.G. Bernardeau; Archives of Mining Sciences, 2017 vol. 62 no. 4, s. 825–841.
2. Descriptive statistical analysis of TBM performance at Abu Hamour Tunnel Phase I; J. Stypułkowski, F. Bernardeau, J. JAKUBOWSKI; Arabian Journal of Geosciences ; ISSN 1866-7511. 2018 v.11 iss. 9 art. no. 191
3. Empirical correlations within TBM operation data : a case study; F.G. Bernardeau, J.B. Stypułkowski, J. JAKUBOWSKI; ITA-AITES World Tunnel Congress, Dubai 2018
4. Predictive regression models of monthly seismic energy emissions induced by longwall mining //Jacek JAKUBOWSKI, Antoni Tajduś; Archives of Mining Sciences, 2014 vol. 59 no. 3, s. 705–720.
5. A predictive model of daily seismic activity induced by mining, developed with data mining methods// Jacek JAKUBOWSKI; Geoinformatica Polonica, 2014 [nr] 13, s. 7–19.
6. Platform for data integration and analysis, and publishing medical knowledge as done in a largehospital / Jacek JAKUBOWSKI, Lesław Kułach, Piotr Murawski, // W: Practical predictive analytics and decisioning systems for medicine : informatics accuracy and cost-effectiveness for healthcare administration and delivery including medical research / [eds.] Linda A. Winters-Miner, [et al.]. — Amsterdam, [etc.] : Academic Press, cop. 2015. — ISBN: 978-0-12-411643-6.
7. A Dedicated Set of Statistical Tools for Medical Research Applications (The Poland Medical Bundle); Jacek JAKUBOWSKI, Michał Kusy, Grzegorz Migut; In: Practical predictive analytics and decisioning systems for medicine; eds. Linda A. Winters-Miner et al., Academic Press, Amsterdam 2015. S. 697–725.
8. Zastosowania statystyki i data mining w badaniach naukowych, XXI konf.; red. nauk. JacekJAKUBOWSKI, Janusz Wątroba; XXI konferencja StatSoft Polska 2017
9. Zastosowania statystyki i data mining w badaniach naukowych XX konf.; red. nauk. Jacek JAKUBOWSKI, Janusz Wątroba; StatSoft Polska 2016, 136 s.
10. Zastosowania statystyki i data mining w badaniach naukowych oraz doskonalenie procesów produkcyjnych z wykorzystaniem analizy danych, XIX konf.; red. nauk. Jacek JAKUBOWSKI.; StatSoft Polska 2015, 213 s.
11. Zastosowania statystyki i data mining w badaniach naukowych i innowacyjnych, XVIII konf; red.nauk. Jacek JAKUBOWSKI; StatSoft Polska 2014. 124 s.
12. Zastosowania metod statystycznych w badaniach naukowych, [Cz.] 4; red. nauk. Jacek JAKUBOWSKI, Janusz Wątroba; Wydawnictwo StatSoft Polska, 2012, 476 s
13. Zastosowania metod statystycznych w badaniach naukowych, [Cz.] 5; red. nauk. Jacek JAKUBOWSKI; Wydawnictwo StatSoft Polska 2016, 179 s.
14. Predykcyjny model dobowej emisji energii sejsmicznej indukowanej eksploatacją górniczą; Jacek JAKUBOWSKI, Łukasz Lenart, Łukasz Ożóg; Przegląd Górniczy, 2014 t. 70 nr 3, s. 18–25.
15. Technika podziemnej eksploatacji … danych; Jacek JAKUBOWSKI; Wykład XXXVIII ZSMGiG, Karpacz 2015

Informacje dodatkowe:

Temporary policy and exceptions will be presented at the first lecture. Special circumstances of obtaining a pass will be presented by the tutors at the beginning of term. The course will be offered from autumn 2020, in Polish or English.