+ All Categories
Home > Documents > K L J M D L M J : J H ; H Q H 2 I J H = J : F B G : < Q : …...тиждень 10 тиждень 17...

K L J M D L M J : J H ; H Q H 2 I J H = J : F B G : < Q : …...тиждень 10 тиждень 17...

Date post: 11-Jun-2020
Category:
Upload: others
View: 20 times
Download: 0 times
Share this document with a friend
11
Transcript
Page 1: K L J M D L M J : J H ; H Q H 2 I J H = J : F B G : < Q : …...тиждень 10 тиждень 17 тиждень 17 9 Шкала оцінювання: За шкалою Університет
Page 2: K L J M D L M J : J H ; H Q H 2 I J H = J : F B G : < Q : …...тиждень 10 тиждень 17 тиждень 17 9 Шкала оцінювання: За шкалою Університет

2

Page 3: K L J M D L M J : J H ; H Q H 2 I J H = J : F B G : < Q : …...тиждень 10 тиждень 17 тиждень 17 9 Шкала оцінювання: За шкалою Університет

3

СТРУКТУРА РОБОЧОЇ ПРОГРАМИ НАВЧАЛЬНОЇ ДИСЦИПЛІНИ

«АНАЛІЗ І ОБРОБКА ВЕЛИКИХ ДАНИХ»

1. ОПИС ДИСЦИПЛІНИ «АНАЛІЗ І ОБРОБКА ВЕЛИКИХ ДАНИХ»

Дисципліна – Аналіз і

обробка великих даних

Галузь знань,

спеціальність, СВО

Характеристика

навчальної дисципліни

Кількість кредитів – 5

Галузь знань –

12 Інформаційні

технології

Обов’язкова дисципліна

Мова навчання –

українська

Кількість залікових

модулів – 4

Спеціальність –

122 Комп’ютерні

науки

Рік підготовки:

Денна – 1

Заочна – 1,2

Семестр:

Денна – 1

Заочна – 2, 3

Кількість змістових

модулів – 2

Ступінь вищої освіти –

магістр

Лекції:

Денна – 30 год.

Заочна – 16 год.

Практичні заняття:

Денна – 15 год.

Заочна – 8 год.

Загальна кількість годин

– 150

Самостійна робота:

Денна – 100 год., у т.ч.

тренінг – 4 год.

Заочна – 126 год.

Індивідуальна робота:

Денна – 5 год.

Тижневих годин:

Денна форма навчання

1 семестр – 10 год.,

з них аудиторних –

3 год.

Вид підсумкового

контролю – екзамен

Page 4: K L J M D L M J : J H ; H Q H 2 I J H = J : F B G : < Q : …...тиждень 10 тиждень 17 тиждень 17 9 Шкала оцінювання: За шкалою Університет

4

2. МЕТА Й ЗАВДАННЯ ДИСЦИПЛІНИ

«АНАЛІЗ І ОБРОБКА ВЕЛИКИХ ДАНИХ»

2.1. Мета вивчення дисципліни

Мета вивчення дисципліни «Аналіз і обробка великих даних»

сформувати у студентів фундаментальні знання з теорії та практики в області

розробки і використання систем обробки і аналізу великих масивів даних.

2.2. Найменування та опис компетентностей, формування котрих

забезпечує вивчення дисципліни:

здатність до професійної роботи з даними: видобуток, фільтрація,

інтеграція, зберігання, перевірка актуальності, валідація і репрезентивність,

здатність видобувати знання шляхом інтеграції та аналізу великих даних,

отриманих з різноманітних та різнорідних джерела інформації.

2.3. Результати навчання:

використовувати інструментальні засоби інтеграції різнотипових

даних у наборах різної розмірності та проектувати сховища великих даних,

для видобутку даних і знань.

2.4. Завдання вивчення дисципліни

Завдання вивчення теоретико-методичних засад та основних технологій

щодо вирішення завдань обробки великих за обсягом, швидко змінюваних та

погано структурованих даних, що об’єднуються терміном «великі дані».

У результаті вивчення навчальної дисципліни студент повинен:

знати: основні поняття аналітики великих даних; основні технології,

що застосовуються для зберігання і пошуку в великих даних.

вміти: застосовувати методи аналізу великих даних, вміти

реалізовувати програми для аналітики великих даних.

Page 5: K L J M D L M J : J H ; H Q H 2 I J H = J : F B G : < Q : …...тиждень 10 тиждень 17 тиждень 17 9 Шкала оцінювання: За шкалою Університет

5

3. ПРОГРАМА ДИСЦИПЛІНИ

«АНАЛІЗ І ОБРОБКА ВЕЛИКИХ ДАНИХ»

ЗМІСТОВИЙ МОДУЛЬ 1. Вступ в аналіз і обробку великих даних.

Тема 1. Вступ в аналіз і обробку великих даних. Основні поняття та визначення. Історія розвитку. Джерела великих

даних. Застосування в економіці, бізнесі, сільському господарстві,

промисловості. Приклади використання. Великі дані в наукових сферах.

Особливості застосування. Вимоги до професії аналітика великих даних.

Тема 2. Життєвий цикл проекту по аналітиці великих даних. Основні етапи життєвого циклу. Збір, консолідація і очищення даних.

Побудова моделей, роль машинного навчання.

Тема 3. Основні техніки (підходи) щодо роботи з великими даними.

Збір та консолідація даних, «аналітична пісочниця» (analytic sandbox)

«озеро даних» (data lake), пакетна аналітика (batch oriented), аналітика

реального часу (real time oriented), гібридна аналітика (hybrid), робота з

СУБД.

Тема 4. Когнітивний аналіз даних. Когнітивна система типу IBM Watson. Функції та можливості системи

IBM Watson.

ЗМІСТОВИЙ МОДУЛЬ 2. Технології та інструменти роботи з

великими даними.

Тема 5. Аналіз та візуалізація великих даних. Візуалізація великих даних («big data visualization»), візуалізація

текстів, візуалізація кластерів, візуалізація асоціацій, ландшафтна

візуалізація, візуалізація гіпотез, візуалізація дерев рішень, багатовимірна

візуалізація. Сіткова візуалізація. Класифікація. Gephi.

Тема 6. Основні технології та інструменти роботи з великими

даними. Підхід Map/Reduce та його програмна реалізація, Apache Hadoop,

HDFS, HBase, YARN, Hive, Pig, Storm як система потокової обробки, мова

програмування Python, R, Apache Spark. IBM Bluemix. Microsoft HDInsight.

Тема 7. Наукові проблеми у сфері великих даних. Оцінка «великих даних»: проблеми та вирішення. Перспективи

розвитку та застосування великих даних.

Page 6: K L J M D L M J : J H ; H Q H 2 I J H = J : F B G : < Q : …...тиждень 10 тиждень 17 тиждень 17 9 Шкала оцінювання: За шкалою Університет

6

4. СТРУКТУРА ЗАЛІКОВОГО КРЕДИТУ ДИСЦИПЛІНИ

«АНАЛІЗ І ОБРОБКА ВЕЛИКИХ ДАНИХ»

Денна форма навчання

Заочна форма навчання

Тема заняття

Кількість годин

ДФН

Лек. Прак. СРС ІР

ЗМІСТОВИЙ МОДУЛЬ 1. Вступ в аналіз і обробку великих даних.

Тема 1. Вступ в аналіз і обробку великих даних. 4 4

Тема 2. Життєвий цикл проекту по аналітиці

великих даних.

4 12

Тема 3. Основні техніки (підходи) щодо роботи з

великими даними.

4 2 14 1

Тема 4. Когнітивний аналіз даних. 4 2 16 1

ЗМІСТОВИЙ МОДУЛЬ 2. Технології та інструменти роботи з великими

даними.

Тема 5. Аналіз та візуалізація великих даних. 4 2 16 1

Тема 6. Основні технології та інструменти роботи

з великими даними.

6 7 18 1

Тема 7. Наукові проблеми у сфері великих даних. 4 2 16 1

Тренінг 4

Всього 30 15 100 5

Тема заняття

Кількість годин

ЗФН

Лек. Прак. СРС

ЗМІСТОВИЙ МОДУЛЬ 1. Вступ в аналіз і обробку великих даних.

Тема 1. Вступ в аналіз і обробку великих даних. 2 10

Тема 2. Життєвий цикл проекту по аналітиці

великих даних.

2 16

Тема 3. Основні техніки (підходи) щодо роботи з

великими даними.

2 1 20

Тема 4. Когнітивний аналіз даних. 2 1 20

ЗМІСТОВИЙ МОДУЛЬ 2. Технології та інструменти роботи з великими

даними.

Тема 5. Аналіз та візуалізація великих даних. 2 2 20

Тема 6. Основні технології та інструменти роботи

з великими даними.

4 2 20

Тема 7. Наукові проблеми у сфері великих даних. 2 2 20

Всього 16 8 126

Page 7: K L J M D L M J : J H ; H Q H 2 I J H = J : F B G : < Q : …...тиждень 10 тиждень 17 тиждень 17 9 Шкала оцінювання: За шкалою Університет

7

5. Практичні заняття

1. Готові рішення аналізу даних (Rapid Miner, Weka), мови Python та R, стек

бібліотек аналізу даних.

2. Візуалізація даних. Gephi.

3. Хмарний сервіс Big Data IBM Bluemix, Azure HD Insights.

4. Налаштування кластеру Hadoop for Analytics.

5. Файлова система HDFS, Object Storage.

6. Модель Map/Reduce, Apache Spark.

7. NewSQL платформа SAP HANA, Oracle Exalytics.

6. Тематика самостійної роботи студентів

1. Основні характеристики великих даних

2. Роль великих даних в сільському господарстві

3. Консолідація даних

4. Візуалізація даних, Gaphi.

5. Основні конструкції мови R, консолідація даних, візуалізація

6. HDFS – основи організації

7. Архітектура Hadoop

8. Виконання Map/Reduce

9. Виконання програм в Hadoop

10. Основи YARN

11. Аналітика потокових даних в платформі Storm

12. Архітектура Apache Spark

13. Організація даних в Apache Spark

14. Обробка даних в GraphX

15. Алгоритми класифікації

16. Алгоритми кластеризації

17. Нейронні мережі як реалізація алгоритмів машинного навчання

18. Інтелектуальні алгоритми

19. Застосування технологій великих даних для задач управління в реальному

часі.

7. Організація і проведення тренінгу

Порядок проведення:

1. Вступна частина: ознайомлення студентів з темою тренінгового

заняття і видача завдання.

2. Практична частина: виконання завдань студентами згідно з

індивідуальним завданням; оформлення короткого звіту.

3. Підведення підсумків: обговорення результатів виконаних завдань.

Завдання. Провести аналіз та візуалізацію великих даних відповідно до

вибраної предметної області.

Page 8: K L J M D L M J : J H ; H Q H 2 I J H = J : F B G : < Q : …...тиждень 10 тиждень 17 тиждень 17 9 Шкала оцінювання: За шкалою Університет

8

8. Комплексне практичне індивідуальне завдання

Комплексні практичні індивідуальні завдання з дисципліни «Аналіз і

обробка великих даних» виконуються самостійно кожним студентом і

охоплює усі основні теми дисципліни. КПІЗ оформлюється у відповідності

з встановленими вимогами. При виконанні та оформленні КПІЗ студент

повинен використовувати комп’ютерну техніку. КПІЗ оцінюється за 100-

бальною шкалою. Виконання КПІЗ є одним із обов’язкових складових

модулів залікового кредиту.

9. Методи навчання.

У навчальному процесі застосовуються: лекції, в тому числі з

використанням мультимедійного проектора та інших ТЗН, лабораторні

роботи, консультації, індивідуальна та самостійна робота студента,

виконання курсової роботи.

10. Методи оцінювання.

В процесі вивчення дисципліни «Аналіз і обробка великих даних»

використовуються наступні методи оцінювання навчальної роботи студента:

- поточне оцінювання;

- ректорська контрольна робота;

- оцінювання виконання КПІЗ;

- екзамен.

Підсумковий бал (за 100-бальною шкалою) з дисципліни «Аналіз і

обробка великих даних» визначається як середньозважена величина, в

залежності від питомої ваги кожної складової залікового кредиту:

11. Екзамен

Заліковий

модуль 2

Заліковий

модуль 2

(ректорська

КР)

Заліковий

модуль 3

(підсумкова

оцінка за

КПІЗ)

Заліковий

модуль 4

(екзамен)

Разом

20% 20% 20% 40% 100

тиждень 10 тиждень 17 тиждень 17

Page 9: K L J M D L M J : J H ; H Q H 2 I J H = J : F B G : < Q : …...тиждень 10 тиждень 17 тиждень 17 9 Шкала оцінювання: За шкалою Університет

9

Шкала оцінювання:

За шкалою

Університет

у

За

національною

шкалою За шкалою ЕСТ8

90-100 відмінно A (відмінно)

85-89 добре В (дуже добре)

75-84 С (добре)

65-74 задовільно D (задовільно)

60-64 Е (достатньо)

35-59 незадовільно FХ (незадовільно з можливістю повторного

складання) 1-34 F (незадовільно з обов'язковим повторним

курсом)

12. Перелік наочних матеріалів та методичних вказівок.

№ Найменування

1. Опорний конспект лекцій

2. Методичні вказівки для виконання практичних робіт

3. Методичні вказівки для виконання КПІЗ

13. Література

Основна:

1. Силен Д., Мейсман А., Али М. Основы Data Science и Big Data. Python и

наука о данных. – СПб.: Питер, 2017. – 336 с.

2. Дэви С. Основы Data Science и Big Data. Python и наука о даннях //

С. Дэви, М. Арно, А. Мохамед. – СПб.: Питер, 2017. – 336 c.: ил.

3. Плас Дж.В. Python для сложных задач. Наука о данных и машинное

обучение. – СПб.: Питер, 2018. – 576 c.

4. Свейгарт Э. Автоматизация рутинных задач с помощью Python:

практическое руководство для начинающих. – М.: Вильямс, 2017. – 573 с.

5. Гобарева Я.Л., Городецкая О.Ю., Золотарюк А.В. Бизнес-аналитика

средствами Excel М.: Вузовский учебник, ИНФРА-М, 2013. – 336 с.

6. Дэвенпорт Том, Хо Ким Джин. О чем говорят цифры. Как понимать и

использовать данные Манн, Иванов и Фербер, 2014.

7. Маккинни У. Python и анализ данных М.: ДМК Пресс, 2015. – 482 с.

8. Соммервилл И. Инженерия программного обеспечения, 6-е издание: Пер.

с англ. – М.: Издательский дом "Вильямс", 2002. – 624 с.

9. Фрэнк Билл. Революция в аналитике. Как в эпоху Big Data улучшить ваш

бизнес с помощью операционной аналитики М.: Альпина Паблишер, 2014. –

430 с.

Page 10: K L J M D L M J : J H ; H Q H 2 I J H = J : F B G : < Q : …...тиждень 10 тиждень 17 тиждень 17 9 Шкала оцінювання: За шкалою Університет

10

10. Фрэнкс Билл. Укрощение больших данных М.: Манн, Иванов и Фербер,

2014. – 352 с.

11. Шаховська Н. Б., Болюбаш Ю. Я. Модель великих даних “сутність-

характеристика”. Режим доступу:

http://ena.lp.edu.ua:8080/bitstream/ntb/29775/1/20_186-196.pdf

12. National Research Council. 2013. Frontiers in Massive Data Analysis.

Washington, D.C.: The National Academies Press

13. Big Data analytics: Future architectures, Skills and roadmaps for the CIO –

2011. – IDC/SAS .

14. Tom White «Hadoop: The Definitive Guide» O'Reilly Media.-

Boston,USA,2009, с.72-92.

15. Guest post from Paul Burkhardt, a Research Developer at SRA International,

Inc. A profile of Apache Hadoop MapReduce computing efficiency (part 2) by Jon

Zuanich resource: http://blog.cloudera.com/blog/2010/12/a-profile-of-hadoop-

mapreduce-computing-efficiency-continued/

16. Jackson H.C. Yeung1, C.C. Tsang1, K.H. Tsoi1, Bill S.H. Kwan1, Chris C.C.

Cheung2, Anthony P.C. Chan2 and Philip H.W. Leong «Map-reduce as a

Programming Model for Custom Computing Machines.» in Proc. IEEE

17. Symposium on Field-Programmable Custom Computing Machines (FCCM),

2002, pp. 13–21.

18. Korpela, E., Werthimer, D., Anderson, D., Cobb, J., and Leboisky, M.,

“SETI@home-Massively Distributed Computing for SETI,” Computing in Science

and Engineering 3, 78–83 (Jan/Feb 2001).

Додаткова:

1. Уайт Т. Hadoop: Подробное руководство. – СПб.: Питер, 2013. – 672 с.:

ил.

2. Шипунов А.Б., Балдин Е.М., Волкова П.А., Коробейников А.И., Назарова

С.А., Петров С.В., Суфиянов В.Г. Наглядная статистика. Используем R! – М.:

ДМК Пресс, 2012. – 298 с.

3. Big Data Visualization: Turning Big Data into Big Insights. The Rise of

Visualization-based Data Discovery Tools. White Paper. Intel IT Center. March

2013

4. Big Data: The Next Frontier for Innovation, Competition, and Productivity –

2011. – McKinsey Global Institute

5. Martin Hilbert. Big Data for Development: From Information- to Knowledge

Societies", – 2013. – SSRN Scholarly Paper No. ID 2205145). Rochester, NY:

Social Science Research Network

6. DJ Patil. Building Data Science Teams. O’Reilly. 2011. ISBN: 978-1-449-

31623-5 http://cdn.oreilly.com/radar/2011/09/Building-Data-Science-Teams.pdf

7. IBM Analytics

http://www.ibm.com/analytics/us/en/technology/hadoop/hadoop-trials.html

8. IBM Cloud https://www.ibm.com/cloud-

computing/bluemix/?lnk=hp_trials_uauk

Page 11: K L J M D L M J : J H ; H Q H 2 I J H = J : F B G : < Q : …...тиждень 10 тиждень 17 тиждень 17 9 Шкала оцінювання: За шкалою Університет

11

9. IBM Bluemix Promo Code - 6 Month Trial

https://ibm.onthehub.com/WebStore/OfferingDetails.aspx?o=bb3528b7-2b63-

e611-9420-b8ca3a5db7a1

10. Hadoop: Built for big data, insights, and innovation

http://www.ibm.com/analytics/us/en/technology/hadoop/

11. IBM BigInsights http://www.ibm.com/analytics/us/en/technology/biginsights/

12. Виктор Маер-Шенбергер, Кеннет Кукьер. Большие данные: Революция,

которая изменит то, как мы живем, работаем и мыслим. – М.: «Манн, Иванов

и Фербер», 2013, 240 с. ISBN 978-5-91657-936-9 http://www.mann-ivanov-

ferber.ru/books/paperbook/big_data/

13. Weka Machine learning software to solve data mining problems

https://sourceforge.net/projects/weka/?source=typ_redirect

14. Books Ngram Viewer https://books.google.com/ngrams

15. Революция Big Data: Как извлечь необходимую информацию из

«Больших Данных»? http://statsoft.ru/products/Enterprise/big-data.php

16. Бесплатные программы для статистического анализа данных

http://boris.bikbov.ru/2013/12/01/besplatnyie-programmyi-dlya-statisticheskogo-

analiza-dannyih/

17. Мова програмування R [Електронний ресурс]: https://cran.r-project.org

18. Середовище для розробки програм на R – R Studio [Електронний ресурс]:

http://www.r-studio.com


Recommended