Intro to Data Mining and Machine Learning

Post on 16-Jul-2015

352 views 4 download

transcript

Разработка данных и машинное обучение

Игнатов Дмитрий Игоревич♢

«Big Data Startup Accelerator Program» – развитие компетентностей в созданииинновационных продуктов и бизнесов в сфере Больших Данных

Совместная инициатива корпорации SAP и innovationStudio MSU FE

♦НИУ ВШЭФакультет компьютерных наук

Департамент анализа данных и искусственного интеллекта

14 февраля 2015

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 1 / 45

План

1 Программа курсаПрактикум

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 2 / 45

План лекции

1 Программа курсаПрактикум

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 3 / 45

Программа курса

1 Введение2 Кластеризация3 Классификация4 Частые множества признаков (frequent itemsets) и ассоциативные

правила5 Рекомендательные системы и алгоритмы6 Мультимодальная кластеризация7 Машины опорных векторов (SVM)8 Ансамблевые методы кластеризации*9 Ансамблевые методы классификации*10 Нейронные сети и генетические алгоритмы*11 Отобор признаков. Снижение размерности. Семплирование. Аномалии в

данных.*12 Технологии работы с Big Data.*13 Статистический взгляд на машинное обучение*

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 4 / 45

Практикум

Сценарий 1Домашние задания

Сценарий 2Проект (индивидуальный или групповой)

Сценарий 3Домашние задания + проект (индивидуальный или групповой)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 5 / 45

План лекции

1 Программа курсаПрактикум

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 6 / 45

О терминологии. KDD и Data Mining

Knowledge discovery in Databases (KDD)KDD is the nontrivial process of identifying valid, novel, potentially useful, andultimately understandable patterns in data.

Fayyad, Piatetsky-Shapiro, and Smyth 1996

Data MiningData mining is a step in the KDD process that consists of applying data analysisand discovery algorithms that produce a particular enumeration of patterns (ormodels) over the data.

Там же

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 7 / 45

О терминологии. KDD и Data Mining

Схема процесса обнаружения знаний в данных

(Fayyad, Piatetsky-Shapiro, and Smyth 1996)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 8 / 45

О терминологии. KDD и Data Mining[J. Han et al., Data Mining. Concepts and Techniques, 3rd Ed., 2012]

1 Data cleaning2 Data integration3 Data selection4 Data transformation5 Data mining (an essential process where intelligent methods are applied to

extract data patterns)6 Pattern evaluation7 Knowledge presentation

Data MiningData mining is the process of discovering interesting patterns and knowledge fromlarge amounts of data.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 9 / 45

О терминологии. Машинное обучение[T. Mitchell. The Discipline of Machine Learning,2006]

Основной вопрос в машинном обученииHow can we build computer systems that automatically improve with experience,and what are the fundamental laws that govern all learning processes?

Более точноTo be more precise, we say that a machine learns with respect to a particular taskT , performance metric P, and type of experience E , if the system reliably improvesits performance P at task T , following experience E . Depending on how wespecify T , P, and E , the learning task might also be called by names such as datamining, autonomous discovery, database updating, programming by example, etc.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 10 / 45

О межпредметных связях

Гипотеза

Data Mining ?= Machine Learning

Связанные дисциплиныComputer Science (Информатика)Artificial Intelligence (Искусственный интеллект)Pattern Recognition (Распознавание образов)Information Retrieval (Информационный поиск)Social Network Analysis (Анализ социальных сетей)Теория вероятностей и математическая статистикаДискретная математика (в т.ч. порядки и графы)Optimization (Методы оптимизации)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 11 / 45

Области применения DM&ML

Области примененияБизнесМедицинаОбразованиеНауки о жизниИнтернет-данныеБанковское дело и финансы...

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 12 / 45

Тренды в областях применения DM&ML[J. Han et al., 2012]

Application exploration: e.g., counter-terrorism and mobile (wireless) dataminingScalable and interactive data mining methodsIntegration of data mining with search engines, database systems, datawarehouse systems, and cloud computing systemsMining social and information networksMining spatiotemporal, moving-objects, and cyber-physical systemMining multimedia, text, and web dataMining biological and biomedical dataData mining with software engineering and system engineeringVisual and audio data miningDistributed data mining and real-time data stream miningPrivacy protection and information security in data mining

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 13 / 45

Таксономия методов DM&ML

Машинное обучение и разработка

данных

Кластеризация Классификация

Обучение без учителя

Обучение с учителем

Ранжирование РегрессияПоиск

«интересных» паттернов

Отбор признаков

Обнаружение аномалий

Снижение размерности

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 14 / 45

КластеризацияПостановка задачи

Найти разбиение исходного множества объектов на группы (кластеры).Объекты внутри одного кластера обладают высоким сходством.Объекты из разных кластеров сильно различаются.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 15 / 45

КластеризацияМетоды кластеризации

Метод k-среднихИерархическая кластеризация (агломеративный и дивизимный подходы)Спектральная кластеризацияМультимодальная кластеризация: бикластеризация и трикластеризация.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 16 / 45

КластеризацияМетод k-средних

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 17 / 45

КлассификацияПостановка задачи

По описанию объектов некоторого множества с известными меткамиклассов определить класс объектов той же природы (в том жепризнаковом пространстве) с неизвестными метками.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 18 / 45

КлассификацияДеревья решений в оценке кредитного риска

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 19 / 45

КлассификацияМетоды классификации

Алгоритм 1-RulekNN классификатор (k ближайших соседей)Наивный баейсовский классификатор (Naıve Bayes сlassifier)Деревья решений (decision trees)Машины опорных векторов (Support Vector Machines (SVM))ДСМ-метод (в честь Джона Стюарта Милля)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 20 / 45

КлассификацияМашины опорных векторов (SVM)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 21 / 45

Регрессия

Линейная парная и множественная регрессия (Эконометрика иматематическая статистика)Лассо-регуляризация. Логистическая регрессия как методклассификации. (Этот курс)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 22 / 45

Поиск паттернов/зависимостейПостановка задачи

Поиск закономерностей в данных об использовании каких-либо ресурсов.Например, часто используемых вместе ресурсов.Пример. support({хлеб, молоко}) = 0.7

Часто такие закономерности записываются в виде правил A −→ B

Пример. {Студент, Возраст от 16 до 25} −→ {iPhone, iPad}

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 23 / 45

Поиск паттернов/зависимостей

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 24 / 45

Ранжирование

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 25 / 45

Рекомендательные системыhttp://Amazon.com

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 26 / 45

Рекомендательные системыhttp://Imhonet.ru

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 27 / 45

Обучение предпочтениямhttp://www.preference-learning.org/

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 28 / 45

Big DataТехнология MapReduce

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 29 / 45

Big DataТехнология MapReduce

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 30 / 45

Big DataПроект Apache Mahout

Что такое Apache Mahout?Apache MahoutTM – библиотека масштабируемых методов машинногообучения в основном по технологии MapReduce.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 31 / 45

План лекции

1 Программа курсаПрактикум

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 32 / 45

Системы машинного обучения и анализа данных

1 Orange (freely available)2 Weka (freely available)3 Knime (community edition for free)4 RapidMiner (community edition for free)5 Deductor (бесплатная версия для обучения)6 QuDA (freely available)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 33 / 45

Библиотеки машинного обучения и анализа данных

1 scikit-learn (freely available Machine Learning in Python)2 MALLET –– MAchine Learning for LanguagE Toolkit (freely available)3 Accord.NET Framework (.NET machine learning framework combined with

audio and image processing libraries completely written in C#)4 Infer.NET (framework for running Bayesian inference in graphical models)5 R (free software environment for statistical computing and graphics+many

packages for ML&DM)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 34 / 45

Стандарты в ML&DMhttp://www.dmg.org

PMMLЯзык разметки для прогнозного моделирования (Predictive Model MarkupLanguage — PMML) разработан Data Mining Group (DMG) на основе XML,обеспечивает приложениям способ определения моделей машинногообучения и Data Mining, а также обмен такими моделями междуPMML-совместимыми приложениями.

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 35 / 45

План лекции

1 Программа курсаПрактикум

2 Разработка данных и машинное обучениеО терминологииОбласти примененияТаксономия методов DM&MLТематическая экскурсия

3 Системы ML&DM, программные средства

4 Чего бы почитать и посмотреть?

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 36 / 45

Книги

P. Flach Machine Learning: The Art and Science of Algorithms that MakeSense of Data, 2012M. Zaki et al. Data Mining and Analysis: Fundamental Concepts andAlgorithms, 2014 (free)J. Leskovec et al. Mining of Massive Datasets, 2014 (free)C.M. Bishop Pattern Recognition and Machine Learning, 2006D. Barber Bayesian Reasoning and Machine Learning, 2012 (free)K.P. Murphy Machine Learning: a Probabilistic Perspective, 2012T. Hastie et al. Elements of Statistical Learning, 2009 (free)G. James et al. An Introduction to Statistical Learning with Applications inR, 2013 (free)J. Han et al. Data Mining. Concepts and Techniques, 2012Т. Митчелл Machine Learning, 1997Т. Сегаран Программируем коллективный разум, 2007 (на английском)Барсегян А. и др. Анализ данных и процессов, 2009

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 37 / 45

Портал machinelearning.ruhttp://machinelearning.ru

Лекции К.В. Воронцова. Математические методы обучения попрецедентам (машинное обучение)Лекции Д.П. Ветрова, Д.А. Кропотова Байесовские методы машинногообучения, 2014Учебник А.Г. Дьяконова. Анализ данных, обучение по прецедентам,логические игры, системы WEKA, RapidMiner и MatLab, 2010

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 38 / 45

Лекции и книга С. Николенкоhttp://logic.pdmi.ras.ru/~sergey/

Игрок Что?Где?Когда?С.Николенко, А. Тулупьев. Самообучающиеся системы 2009

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 39 / 45

Coursera: курсы и специализацииhttp://www.coursera.org/

Andrew Ng. Machine Learning (current)Geoffrey Hinton. Neural Networks for Machine Learning (2012)Jiawei Han Pattern Discovery in Data Mining (current)Jure Leskovec et al. Mining Massive Datasets (current)

Специализации (платные сертификаты) –– состоят из отдельных курсов(участие бесплатно)

Data Mining (current)Data Science (current)

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 40 / 45

ИНТУИТhttp://intuit.ru

Интернет-университет информационных технологийК.В. Воронцов Машинное обучение, 2015 (Видео к курсу на сайте ШАД)И.А. Чубукова. Data Mining, 2006

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 41 / 45

Сообщество

IMLS – The International Machine Learning SocietyKaggle – платформа для соревнований по анализу данныхKDD Nuggets – Data Mining Community Top ResourceOpen ML – Machine Learning community portalUCI Machine Learning Repository – Репозиторий данных

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 42 / 45

Конференции

ICML – International Conference on Machine LearningIEEE ICDM – IEEE International Conference on Data MiningKDD – ACM SIGKDD Conference on Knowledge Discovery and Data MiningECML & PKDD – European Conference on Machine Learning and Principlesand Practice of Knowledge Discovery in DatabasesNIPS – Neural Information Processing SystemsRecSys – The ACM conference series on Recommender SystemsИОИ & ММРО – Серия конференций «Интеллектуализация обработкиинформации»/«Математические методы распознавания образов»АИСТ – International conference on Analysis of Images, Social Networks,and Texts

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 43 / 45

Just for fun или шутки радиhttp://dilbert.com

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 44 / 45

Вопросы и контактыwww.hse.ru/staff/dima

Спасибо!dmitii.ignatov[at]gmail.com

(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 45 / 45