Moduł oferowany także w ramach programów studiów:
Informacje ogólne:
Nazwa:
Text mining
Tok studiów:
2019/2020
Kod:
HIFS-1-508-s
Wydział:
Humanistyczny
Poziom studiów:
Studia I stopnia
Specjalność:
-
Kierunek:
Informatyka Społeczna
Semestr:
5
Profil:
Praktyczny (P)
Język wykładowy:
Polski
Forma studiów:
Stacjonarne
Strona www:
 
Prowadzący moduł:
dr inż. Ziółko Bartosz (bziolko@agh.edu.pl)
Treści programowe zapewniające uzyskanie efektów uczenia się dla modułu zajęć

Kurs ma na celu zapoznanie studentów z obszarami zastosowań algorytmów w przetwarzania tekstu.

Opis efektów uczenia się dla modułu zajęć
Kod MEU Student, który zaliczył moduł zajęć zna i rozumie/potrafi/jest gotów do Powiązania z KEU Sposób weryfikacji i oceny efektów uczenia się osiągniętych przez studenta w ramach poszczególnych form zajęć i dla całego modułu zajęć
Wiedza: zna i rozumie
M_W001 Student zna podstawowe metody wykorzystywane w NPL IFS1P_W01 Egzamin
M_W002 Student zna obszary zastosowań algorytmów przetwarzania tekstu IFS1P_W03 Egzamin
M_W003 Student zna kryteria wyboru metod analizy tekstu IFS1P_W04 Egzamin
Umiejętności: potrafi
M_U001 Student potrafi korzystać z podstawowych narzędzi do przetwarzania tekstu IFS1P_U04 Egzamin
M_U002 Student potrafi napisać prosty program z wykorzystaniem algorytmów NLP IFS1P_U05 Egzamin
M_U003 Student potrafi wybrać odpowiedni algorytm do rozwiązania danego problemu IFS1P_U01 Egzamin,
Aktywność na zajęciach
Kompetencje społeczne: jest gotów do
M_K001 Student potrafi komunikować efekty działania algorytmów przetwarzania tekstu. IFS1P_K02 Egzamin
M_K002 Student potrafi argumentować racje wynikające z wyniku działania algorytmu przetwarzania tekstu. IFS1P_K04 Egzamin,
Aktywność na zajęciach
Liczba godzin zajęć w ramach poszczególnych form zajęć:
SUMA (godz.)
Wykład
Ćwicz. aud
Ćwicz. lab
Ćw. proj.
Konw.
Zaj. sem.
Zaj. prakt
Zaj. terenowe
Zaj. warsztatowe
Prace kontr. przejść.
Lektorat
30 0 0 0 30 0 0 0 0 0 0 0
Matryca kierunkowych efektów uczenia się w odniesieniu do form zajęć i sposobu zaliczenia, które pozwalają na ich uzyskanie
Kod MEU Student, który zaliczył moduł zajęć zna i rozumie/potrafi/jest gotów do Forma zajęć dydaktycznych
Wykład
Ćwicz. aud
Ćwicz. lab
Ćw. proj.
Konw.
Zaj. sem.
Zaj. prakt
Zaj. terenowe
Zaj. warsztatowe
Prace kontr. przejść.
Lektorat
Wiedza
M_W001 Student zna podstawowe metody wykorzystywane w NPL - - - + - - - - - - -
M_W002 Student zna obszary zastosowań algorytmów przetwarzania tekstu - - - + - - - - - - -
M_W003 Student zna kryteria wyboru metod analizy tekstu - - - + - - - - - - -
Umiejętności
M_U001 Student potrafi korzystać z podstawowych narzędzi do przetwarzania tekstu - - - + - - - - - - -
M_U002 Student potrafi napisać prosty program z wykorzystaniem algorytmów NLP - - - + - - - - - - -
M_U003 Student potrafi wybrać odpowiedni algorytm do rozwiązania danego problemu - - - + - - - - - - -
Kompetencje społeczne
M_K001 Student potrafi komunikować efekty działania algorytmów przetwarzania tekstu. - - - + - - - - - - -
M_K002 Student potrafi argumentować racje wynikające z wyniku działania algorytmu przetwarzania tekstu. - - - + - - - - - - -
Nakład pracy studenta (bilans punktów ECTS)
Forma aktywności studenta Obciążenie studenta
Sumaryczne obciążenie pracą studenta 90 godz
Punkty ECTS za moduł 3 ECTS
Udział w zajęciach dydaktycznych/praktyka 30 godz
Przygotowanie do zajęć 28 godz
Samodzielne studiowanie tematyki zajęć 28 godz
Egzamin lub kolokwium zaliczeniowe 2 godz
Dodatkowe godziny kontaktowe 2 godz
Szczegółowe treści kształcenia w ramach poszczególnych form zajęć (szczegółowy program wykładów i pozostałych zajęć)
Ćwiczenia projektowe (30h):

1. Wyszukiwanie i pobieranie danych tekstowych. Magazynowanie danych tekstowych. Podstawowe źródła danych.
2. Podstawowe metody NLP
a. Oznaczanie części mowy
b. Gramatyki formalne i parsowanie zdań
c. Słowosieć
d. Metody usuwania wieloznaczności słów
3. Modele oparte o zbiory słów
4. Modele wektorowe
5. Modelowanie kontekstu
6. Badanie częstotliwości słów
7. Ekstrakcja tematu
8. Analiza sentymentu
9. Identyfikacja autora
10. Wyszukiwanie plagiatów
11. Kategoryzacja tekstu
12. Identyfikacja języka

Pozostałe informacje
Metody i techniki kształcenia:
  • Ćwiczenia projektowe: Studenci wykonują zadany projekt samodzielnie, bez większej ingerencji prowadzącego. Ma to wykształcić poczucie odpowiedzialności za pracę w grupie oraz odpowiedzialności za podejmowane decyzje.
Warunki i sposób zaliczenia poszczególnych form zajęć, w tym zasady zaliczeń poprawkowych, a także warunki dopuszczenia do egzaminu:

Zaliczenie kursu w formie kolokwium. W późniejszych terminach forma zaliczenia nie ulega zmianie.

Zasady udziału w zajęciach:
  • Ćwiczenia projektowe:
    – Obecność obowiązkowa: Tak
    – Zasady udziału w zajęciach: Studenci wykonują prace praktyczne mające na celu uzyskanie kompetencji zakładanych przez syllabus. Ocenie podlega sposób wykonania projektu oraz efekt końcowy.
Sposób obliczania oceny końcowej:

Egzamin 90%, aktywny udział w zajęciach 10%

Sposób i tryb wyrównywania zaległości powstałych wskutek nieobecności studenta na zajęciach:

Prowadzący zajęcia wyznacza literaturę i zagadnienia do samodzielnej analizy przez studenta. Materiał jest zaliczany w czasie i trybie wyznaczonym przez prowadzącego.

Wymagania wstępne i dodatkowe, z uwzględnieniem sekwencyjności modułów :

• Podstawowa znajomość języka Python

Zalecana literatura i pomoce naukowe:

• Manning, Chris and Hinrich Schütze. Foundations of Statistical Natural Language Processing.
• Manning, Christopher D., Prabhakar Raghavan, and Hinrich Schuetze. Introduction to Information Retrieval

Publikacje naukowe osób prowadzących zajęcia związane z tematyką modułu:

• B. Ziółko, D. Skurzok , “N-grams model for Polish”, Speech and Language Technologies, Book 2, InTech Publisher, 2011.
• B. Ziółko, D. Skurzok, J. Wicijowski, “Large Scale Calculations for Creating Polish Language Semantic and Syntactic Models”, Proceedings of Conference of the High Performance Computers’ Users, Zakopane, 2010.

Informacje dodatkowe:

brak