Податочно рударење и аналитика на големи количества податоци

Целта на предметна програма е студентите да се запознаат со основите концепти и на модерните техники од областа на рударењето на податоци, со ненадгледуваните и надгледуваните техники во податочното рударење и аналитиката на големите количества податоци (Big Data).

Целта на предметна програма е студентите да се запознаат со основите концепти и на модерните техники од областа на рударењето на податоци, со ненадгледуваните и надгледуваните техники во податочното рударење и аналитиката на големите количества податоци (Big Data).
Резултати од учењето: по завршувањето на курсот кандидатите ќе имаат продлабочени знаења за техниките и алгоритмите за рударење на податоци како и статистичка обработка и анализа на податоците; ќе можат успешно да применат алгоритми за рударење на податоци при решавање на реални проблеми на големи множества податоци; ќе можат да конципираат, анализираат, реализираат и проценат перформанси на систем за рударење на податоци; ќе се запознаат со главните предизвици во дадената област како и домените во кои активно се истражува, како и работа со актуелни алатки за податочно рударење и аналитика на големи количества податоци.

Përmbajtja e detajuar sipas kapitujve dhe njësive

Вовед, примери за примена на методите на податочно рударење. Типови на податоци. Мерки на сличност и растојание меѓу податоците. Резултати од учење: запознавање со податочното рударење и типовите податоци и со метриките за сличност/растојание меѓу податоците. Техники за претпроцесирање на податоци. Квалитет на податоци, чистење на множества податоци. Детекција и справување со отсутни вредности и атипични вредности (outliers). Интегрирање на податоци. Редукција на димензионалноста, трансформација и дискретизација на

податоци. Резултати од учење: студентите да се запознаат со техниките за претпроцесирање на податоци, справувањето со аномалии кај податоците, интегрирањето и редукција на димензионалноста на податоците. Модели за предикција, регресиони модели. Резултати од учење: запознавање со моделите за предикција и регресионите модели. Надгледувано и ненадгледувано учење. Резултати од учење: студентите да се запознаат со основните категории на учење што се применуваат кај податочното рударење. Кластерирање. Хиерархиско кластерирање. k-means кластерирање. Fuzzy c-means кластерирање. Евалуација на кластерирање. Резултати од учење: студентите да ги совладаат алгоритмите за кластерирање. Класификација. Класификација со дрва на одлучување. Бајесов класификатор. Машини со носечки вектори (SVMs) Асоцијациски правила. Евалуација на модели. Резултати од учење: студентите да ги совладаат техниките на класификацијата. Анализирање на временски серии податоци. Резултати од учење: студентите да се стекнат со знаење за анализа на временски серии податоци. Екстрахирање, трансформирање и зачувување на податоци (Extract, Transform, Load). Резултати од учење: студентите да го совладаат процесот на ETL (екстракција, трансформација и зачувување на податоците). Веб рударење. PageRank алгоритам. Резултати од учењето: студентите да се запознаат со концептите на веб рударењето и на алгоритмите за рангирање на веб страници. Вовед во аналитика на големи количества податоци. Теорија, методи, технологија и алатки за аналитика на големи количества податоци. Примери на MapReduce. Резултати од учење: студентите да се запознаат со својствата на големите количества податоци и аналитиката на големите количества податоци и MapReduce. Работа со актуелни софтверски пакети: Weka, Orange, RapidMiner, Matlab toolbox-и, R и R пакети, Hadoop, SAP HANA. Резултати од учење: студентите да научат да работат со актуелните софтверски пакети за податочно рударење и аналитика на големи количества податоци.

Metodat e mësimit

Теоретска настава, аудиториски и лабораториски вежби, групно учество на студенти во изработка на проекти, самостојна изработка на проектни и самостојни задачи, домашно учење, одржување консултации.
Orë javore 5 orë
Ngarkesa totale 150 orë
Kushtet për nënshkrim нема

Aktivitetet mësimore

KodiAktivitetiOrë
16.1Предавања- теоретска настава. часови45
16.2Вежби (лабораториски, аудиториски), семинари, тимска работа: часови30
16.3Пракса: часови0

Aktivitete të tjera

KodiAktivitetiOrë
17.1Проектни задачи: часови15
17.2Самостојни задачи: часови10
17.3Домашно учење - задачи50

Mënyra e vlerësimit

писмено и/или практично

Komponentët e vlerësimit

KodiKomponentiPikë
19.1Тестови: бодови0
19.2Семинарска работа/проект, презентација писмена и усна: бодови10
19.3Завршен испит: бодови90

Shkalla e notimit

Intervali i pikëveNota
до 50 бода5 (пет) (F)
51 x до 60 бода6 (шест) (E)
61 x до 70 бода7 (седум) (D)
од 71 до 80 бода8 (осум) (C)
од 81 до 90 бода9 (девет) (B)
од 91 до 100 бода10 (десет) (A)
Анкета на студенти, евалуација и самоевалуација

Literatura e detyrueshme

Nr.AutorëtTitulliBotuesiViti
1Jure Leskovec, Anand Rajaraman, Jeffrey D. UllmanMining of Massive DatasetsCambridge University Press2020
2Florin GorunescuData Mining: Concepts, Models and TechniquesSpringer2011
3Vipin Kumar, Pang-Ning Tan, Michael Steinback, Anuj KarpatneIntroduction to Data MiningPearson2018

Literatura shtesë

Nr.AutorëtTitulliBotuesiViti
1Raj Kamal; Preeti SaxenaBig Data Analytics: Introduction to Hadoop, Spark, and Machine-LearningMcGraw-Hill Education2019