Moduł oferowany także w ramach programów studiów:
Informacje ogólne:
Nazwa:
Fundamentals of Data Science
Tok studiów:
2018/2019
Kod:
JFT-1-041-s
Wydział:
Fizyki i Informatyki Stosowanej
Poziom studiów:
Studia I stopnia
Specjalność:
-
Kierunek:
Fizyka Techniczna
Semestr:
0
Profil kształcenia:
Ogólnoakademicki (A)
Język wykładowy:
Angielski
Osoba odpowiedzialna:
dr inż. Łukasik Szymon (slukasik@agh.edu.pl)
Osoby prowadzące:
dr inż. Łukasik Szymon (slukasik@agh.edu.pl)
Krótka charakterystyka modułu

This course aims at presenting fundamental problems of contemporary data science, namely: data reduction, outlier detection, cluster analysis and classification along with their real-world instances.

Opis efektów kształcenia dla modułu zajęć
Kod EKM Student, który zaliczył moduł zajęć wie/umie/potrafi Powiązania z EKK Sposób weryfikacji efektów kształcenia (forma zaliczeń)
Wiedza
M_W001 Student has basic knowledge about procedures of data analysis Projekt,
Wykonanie ćwiczeń laboratoryjnych
M_W003 Student has elementary knowledge about practical issues related to the application of data mining procedures Wykonanie projektu,
Zaliczenie laboratorium
Umiejętności
M_U001 Student is able to select proper technique of data analysis and establish suitable parameters Wykonanie ćwiczeń laboratoryjnych,
Wykonanie projektu
M_U002 Student is able to apply basic procedures of data analysis and critically assess obtained results Wykonanie ćwiczeń laboratoryjnych,
Wykonanie projektu
Kompetencje społeczne
M_K001 The student is able to plan and perform work in a team that is responsible for creative activities Projekt,
Wykonanie projektu
Matryca efektów kształcenia w odniesieniu do form zajęć
Kod EKM Student, który zaliczył moduł zajęć wie/umie/potrafi Forma zajęć
Wykład
Ćwicz. aud
Ćwicz. lab
Ćw. proj.
Konw.
Zaj. sem.
Zaj. prakt
Zaj. terenowe
Zaj. warsztatowe
Inne
E-learning
Wiedza
M_W001 Student has basic knowledge about procedures of data analysis + - - - - - - - - - -
M_W003 Student has elementary knowledge about practical issues related to the application of data mining procedures + - - - - - - - - - -
Umiejętności
M_U001 Student is able to select proper technique of data analysis and establish suitable parameters - - + + - - - - - - -
M_U002 Student is able to apply basic procedures of data analysis and critically assess obtained results - - + + - - - - - - -
Kompetencje społeczne
M_K001 The student is able to plan and perform work in a team that is responsible for creative activities - - - + - - - - - - -
Treść modułu zajęć (program wykładów i pozostałych zajęć)
Wykład:

1. Introduction to Data Science – history and methodological background.
2. Typical workflow of data analysis.
3. Data preprocessing – data reduction, cleaning, handling missing elements.
4. Unsupervised learning – outlier detection and cluster analysis.
5. Classification and regression.
6. Recommender systems and text mining.
7. Big Data – brief overview of issues and computational methods.

Ćwiczenia laboratoryjne:

Laboratory exercises illustrating selected problems of data analysis:
1. Outlier detection
2. Data dimensionality reduction.
3. Cluster analysis.
4. Classification.
5. Recommender systems and text mining.

Ćwiczenia projektowe:

Individual projects aimed at familiarizing with real-world data science problems.

Nakład pracy studenta (bilans punktów ECTS)
Forma aktywności studenta Obciążenie studenta
Sumaryczne obciążenie pracą studenta 135 godz
Punkty ECTS za moduł 5 ECTS
Udział w wykładach 15 godz
Udział w ćwiczeniach laboratoryjnych 15 godz
Wykonanie projektu 30 godz
Przygotowanie sprawozdania, pracy pisemnej, prezentacji, itp. 15 godz
Udział w ćwiczeniach projektowych 15 godz
Dodatkowe godziny kontaktowe z nauczycielem 15 godz
Przygotowanie do zajęć 30 godz
Pozostałe informacje
Sposób obliczania oceny końcowej:

Weighted average of laboratory exercises’ final grade (weight 2/3) and project’s grade (weight 1/3).

Wymagania wstępne i dodatkowe:

Programming in one of the following programming languages: C/C++, Python, Java, MATLAB, R.

Zalecana literatura i pomoce naukowe:
  • Jiawei Han, Jian Pei,Micheline Kamber, “Data Mining: Concepts and Techniques”, Elsevier, 2011.
  • Jake VanderPlas, “Python Data Science Handbook: Essential Tools for Working with Data”. O’Reilly Media, 2016.
  • Hadley Wickham, “R for Data Science: Import, Tidy, Transform, Visualize, and Model Data”, O’Reilly Media, 2017.
  • Jeffrey Solka, Angel R. Martinez, “Exploratory Data Analysis with MATLAB”, Chapman & Hall, 2017.
  • UCI Machine Learning Repository, https://archive.ics.uci.edu/ml/
  • Kaggle Competitions, https://www.kaggle.com/competitions
Publikacje naukowe osób prowadzących zajęcia związane z tematyką modułu:
  • S. Łukasik, A. Moitinho, P.A. Kowalski, A. Falcão, R.A. Ribeiro, P. Kulczycki, „Survey of Object-Based Data Reduction Techniques in Observational Astronomy”, Open Physics, vol. 14, pp. 578-586, 2016.
  • D. Domańska, S. Łukasik, “Handling high-dimensional data in air pollution forecasting tasks", Ecological Informatics, vol. 34, pp. 70-91, 2016.
  • M. Charytanowicz, J. Niewczas, P. Kulczycki, P.A. Kowalski, S. Łukasik, “Discrimination of Wheat Grain Varieties Using X-Ray Images”, in: Information Technologies in Biomedicine, E. Pietka, P. Badura, J. Kawa, W. Wieclawek (eds.), Springer-Verlag, Berlin-Heidelberg, 2016, pp. 39-50.
  • P. Kulczycki, S. Łukasik, “An Algorithm for Reducing Dimension and Size of Sample for Data Exploration Procedures”, International Journal of Applied Mathematics and Computer Science, vol. 24, pp. 133-149,
  • P. Kulczycki, M. Charytanowicz, P.A. Kowalski, S. Łukasik, “Exemplary Applications of the Complete Gradient Clustering Algorithm in Bioinformatics, Management and Engineering”, in: „Issues and Challenges of Intelligent Systems and Computational Intelligence”, L.T. Kóczy, C. Pozna, J. Kacprzyk (eds.), Springer, pp. 119-132, 2014.
  • S. Łukasik, P. Kulczycki, “Using Topology Preservation Measures for Multidimensional Intelligent Data Analysis in the Reduced Feature Space”, Lecture Notes in Artificial Intelligence, vol. 7895, pp. 184-193, 2013.
  • S. Łukasik, M. Haręza, M. Kaczor, “Document content mining for authors’ identification task”, Technical Transactions: Automatic Control, vol. 1-AC, pp. 3-15, 2013.
  • P. Kulczycki, M. Charytanowicz, P.A. Kowalski, S. Łukasik, “The Complete Gradient Clustering Algorithm: Properties in Practical Applications”, Journal of Applied Statistics, vol. 39, pp. 1211-1224, 2012.
Informacje dodatkowe:

Laboratory classes are obligatory. One unjustified absence is allowed in the case of these classes. Absences (also justified) in laboratory classes need to be reworked in the form and time agreed with the instructor. Half of the unjustified classes result in a lack of credit. From that decision the student teacher may appeal to the instructor and/or the Dean.