Module also offered within study programmes:
General information:
Name:
Text mining
Course of study:
2018/2019
Code:
HUX-1-403-s
Faculty of:
Humanities
Study level:
First-cycle studies
Specialty:
-
Field of study:
Social Informatics
Semester:
4
Profile of education:
Practical (P)
Lecture language:
Polish
Form and type of study:
Full-time studies
Course homepage:
 
Responsible teacher:
dr inż. Ziółko Bartosz (bziolko@agh.edu.pl)
Academic teachers:
Skurzok Dawid (skurzok@agh.edu.pl)
dr inż. Ziółko Bartosz (bziolko@agh.edu.pl)
Module summary

Description of learning outcomes for module
MLO code Student after module completion has the knowledge/ knows how to/is able to Connections with FLO Method of learning outcomes verification (form of completion)
Social competence
M_K001 Student potrafi komunikować efekty działania algorytmów przetwarzania tekstu. UX1P_K03 Examination
M_K002 Student potrafi argumentować racje wynikające z wyniku działania algorytmu przetwarzania tekstu. UX1P_K05 Activity during classes,
Examination
Skills
M_U001 Student potrafi korzystać z podstawowych narzędzi do przetwarzania tekstu UX1P_U04 Examination
M_U002 Student potrafi napisać prosty program z wykorzystaniem algorytmów NLP UX1P_U05 Examination
M_U003 Student potrafi wybrać odpowiedni algorytm do rozwiązania danego problemu UX1P_U01 Activity during classes,
Examination
Knowledge
M_W001 Student zna podstawowe metody wykorzystywane w NPL UX1P_W01 Examination
M_W002 Student zna obszary zastosowań algorytmów przetwarzania tekstu UX1P_W03 Examination
M_W003 Student zna kryteria wyboru metod analizy tekstu UX1P_W04 Examination
FLO matrix in relation to forms of classes
MLO code Student after module completion has the knowledge/ knows how to/is able to Form of classes
Lecture
Audit. classes
Lab. classes
Project classes
Conv. seminar
Seminar classes
Pract. classes
Zaj. terenowe
Zaj. warsztatowe
Others
E-learning
Social competence
M_K001 Student potrafi komunikować efekty działania algorytmów przetwarzania tekstu. - - - + - - - - - - -
M_K002 Student potrafi argumentować racje wynikające z wyniku działania algorytmu przetwarzania tekstu. - - - + - - - - - - -
Skills
M_U001 Student potrafi korzystać z podstawowych narzędzi do przetwarzania tekstu - - - + - - - - - - -
M_U002 Student potrafi napisać prosty program z wykorzystaniem algorytmów NLP - - - + - - - - - - -
M_U003 Student potrafi wybrać odpowiedni algorytm do rozwiązania danego problemu - - - + - - - - - - -
Knowledge
M_W001 Student zna podstawowe metody wykorzystywane w NPL - - - + - - - - - - -
M_W002 Student zna obszary zastosowań algorytmów przetwarzania tekstu - - - + - - - - - - -
M_W003 Student zna kryteria wyboru metod analizy tekstu - - - + - - - - - - -
Module content
Project classes:

1. Wyszukiwanie i pobieranie danych tekstowych. Magazynowanie danych tekstowych. Podstawowe źródła danych.
2. Podstawowe metody NLP
a. Oznaczanie części mowy
b. Gramatyki formalne i parsowanie zdań
c. Słowosieć
d. Metody usuwania wieloznaczności słów
3. Modele oparte o zbiory słów
4. Modele wektorowe
5. Modelowanie kontekstu
6. Badanie częstotliwości słów
7. Ekstrakcja tematu
8. Analiza sentymentu
9. Identyfikacja autora
10. Wyszukiwanie plagiatów
11. Kategoryzacja tekstu
12. Identyfikacja języka

Student workload (ECTS credits balance)
Student activity form Student workload
Summary student workload 102 h
Module ECTS credits 4 ECTS
Participation in project classes 30 h
Contact hours 2 h
Examination or Final test 2 h
Preparation for classes 28 h
Realization of independently performed tasks 40 h
Additional information
Method of calculating the final grade:

Egzamin 90%, aktywny udział w zajęciach 10%

Prerequisites and additional requirements:

• Podstawowa znajomość języka Python

Recommended literature and teaching resources:

• Manning, Chris and Hinrich Schütze. Foundations of Statistical Natural Language Processing.
• Manning, Christopher D., Prabhakar Raghavan, and Hinrich Schuetze. Introduction to Information Retrieval

Scientific publications of module course instructors related to the topic of the module:

• B. Ziółko, D. Skurzok , “N-grams model for Polish”, Speech and Language Technologies, Book 2, InTech Publisher, 2011.
• B. Ziółko, D. Skurzok, J. Wicijowski, “Large Scale Calculations for Creating Polish Language Semantic and Syntactic Models”, Proceedings of Conference of the High Performance Computers’ Users, Zakopane, 2010.

Additional information:

None