Module also offered within study programmes:
General information:
Name:
Getting and processing busiess data
Course of study:
2017/2018
Code:
ZIE-2-208-s
Faculty of:
Management
Study level:
Second-cycle studies
Specialty:
-
Field of study:
Information Technology and Econometrics
Semester:
2
Profile of education:
Academic (A)
Lecture language:
Polish
Form and type of study:
Full-time studies
Course homepage:
 
Responsible teacher:
Gaweł Bartłomiej (bgawel@zarz.agh.edu.pl)
Academic teachers:
Module summary

Description of learning outcomes for module
MLO code Student after module completion has the knowledge/ knows how to/is able to Connections with FLO Method of learning outcomes verification (form of completion)
Social competence
M_K001 Jest przygotowany do samodzielnej pracy analitycznej i projektowej w przedsiębiorstwach, bankach, jednostkach samorządowych, instytucjach i organizacjach IE2A_K03 Activity during classes
Skills
M_U001 Analizuje dane w różnych układach IE2A_U09
M_U002 Projektuje narzędzia do przetwarzania i pozyskiwania dużych zbiorów danych IE2A_U02
M_U003 Umie korzystać z narzędzi informatycznych IE2A_U01 Activity during classes
Knowledge
M_W001 Rozumie pojęcia związane z pozyskiwaniem i przetwarzaniem dużych zbiorów danych IE2A_W11, IE2A_W03 Project
M_W002 Wyciąga wnioski w oparciu o wyniki analiz danych IE2A_W11, IE2A_W10 Project
M_W003 Identyfikuje narzędzia i metody przetwarzania dużych zbiorów danych IE2A_W05 Project
FLO matrix in relation to forms of classes
MLO code Student after module completion has the knowledge/ knows how to/is able to Form of classes
Lecture
Audit. classes
Lab. classes
Project classes
Conv. seminar
Seminar classes
Pract. classes
Zaj. terenowe
Zaj. warsztatowe
Others
E-learning
Social competence
M_K001 Jest przygotowany do samodzielnej pracy analitycznej i projektowej w przedsiębiorstwach, bankach, jednostkach samorządowych, instytucjach i organizacjach - - - - - - - - - - -
Skills
M_U001 Analizuje dane w różnych układach + - - + - - - - - - -
M_U002 Projektuje narzędzia do przetwarzania i pozyskiwania dużych zbiorów danych + - - + - - - - - - -
M_U003 Umie korzystać z narzędzi informatycznych + - - + - - - - - - -
Knowledge
M_W001 Rozumie pojęcia związane z pozyskiwaniem i przetwarzaniem dużych zbiorów danych + - - + - - - - - - -
M_W002 Wyciąga wnioski w oparciu o wyniki analiz danych + - - + - - - - - - -
M_W003 Identyfikuje narzędzia i metody przetwarzania dużych zbiorów danych + - - + - - - - - - -
Module content
Lectures:
WYKŁADY

Aby można było zbudować model, wpierw trzeba pozyskać do niego dane. Przyjmuje się, że budowa modelu to w 70% pozyskanie i przygotowanie danych, a w 30% budowa modelu. Celem przedmiotu jest prezentacja metody pozyskiwania danych w różnych formach. Przedmiot obejmuje pozyskiwanie danych ze stron WWW, interfejsów API, hurtowni danych, oraz danych przechowywanych w bazach NoSQL. W trakcie kursu przedstawione zostaną również podstawy czyszczenia i porządkowania danych.

WYKŁADY:
1. Log, model danych oparty na faktach.
2. Architektury systemy gromadzenia dużych ilości (np. architektura Y).
3. Serwery WWW, protokół http i jego rola protokołu w dostępie do danych i ich przetwarzaniu danych (XML i JSON – standardy zapisu danych i opisu danych,
4. Metody pozyskiwania i składowania danych (przetwarzanie wsadowe, a przetwarzanie strumieni danych).
5. Przegląd problematyki wstępnego przetwarzania danych,
6. Programowanie rozwiązań wykorzystujących platformy Big Data z uwzględnieniem m.in. serwerów WWW, Hadoop, HBase, Flume, Storm, Spark, Kafka oraz bazujących na użyciu środowiska R

Project classes:

1. Dostęp i wizualizacja dużych zbiorów txt z wykorzystaniem Data Wranglerów.
2. Budowa prostego systemu rekomendacyjnego w oparciu o zbiory danych w JSON lub XML.
3. Parsowanie strony HTML pod kątem uzyskania danych.
4. Przetwarzania dużych zbiorów danych z wykorzystaniem języka DAX.
5. Pozyskiwanie danych z WebAPI Narzędzia: R lub python
6. Stworzenie prostego systemu BIG DATA w oparciu o Handoop, MapReduce i Apache Thrift.

Student workload (ECTS credits balance)
Student activity form Student workload
Summary student workload 76 h
Module ECTS credits 3 ECTS
Participation in lectures 14 h
Participation in project classes 14 h
Completion of a project 48 h
Additional information
Method of calculating the final grade:

cena końcowa wystawiana jest przez prowadzącego wykład jako średnia oceny z zaliczenia ćwiczeń projektowych. Ocena z zaliczenia wystawiana jest na podstawie oceny umiejętności wykonania projektów cząstkowych.

Prerequisites and additional requirements:

brak

Recommended literature and teaching resources:

1. Flach Peter, Machine Learning, Cambridge University Press, 2012
2. Holmes, Alex, Hadoop in practice, Manning Publications,2013
3. Provost, Foster, Facett, Tom, Data Science for Business. What you need to know about data mining and data-analytic thinking, O’Reilly, 2013
4. zasoby stron m.in.: http://hadoop.apache.org/, http://spark.apache.org/, http://storm.apache.org/, http://kafka.apache.org/

Scientific publications of module course instructors related to the topic of the module:

Additional scientific publications not specified

Additional information:

None