Post on 30-Jun-2015
description
transcript
9 октября 2014 года
Big Data: миф
или информационная
революция?
Дмитрий Морозов
Ведущий системный инженер
О себе
В CUSTIS с 2007 года
Образование: СУНЦ МГУ,
МФТИ, к. ф.-м. н.
Специализация:
виртуализация, облачные
технологии, Big Data
Сертифицированный
специалист Microsoft, Veeam
2/37
Почему я работаю в CUSTIS
Нравится принимать решения и нести
ответственность за них в проектах
Нравится искать решения проблем,
а не работать по шаблонам
Нравится человеческий подход
к сотрудникам (удобный офис,
командировки, обучение, конференции)
Нравятся люди, с которыми интересно
работать… и не только работать
3/37
Почему я работаю в CUSTIS
Нравится принимать решения и нести
ответственность за них в проектах
Нравится искать решения проблем,
а не работать по шаблонам
Нравится человеческий подход
к сотрудникам (удобный офис,
командировки, обучение, конференции)
Нравятся люди, с которыми интересно
работать… и не только работать
4/37
Brazil 2014
5/37
«Традиционный тренер»
Стандартные инструменты
футбольного тренера
7/37
SAP Football Match Insights
Инструмент
тренера
чемпионов
мира – 2014
8/37
План
Big Data – новый способ мышления?
Практическая реализация технологий
больших данных
Примеры «из жизни»
9/37
Big Data –
новый способ мышления?
10/37
Предпосылки появления
Развитие средств хранения и обработки
информации
Откуда берутся «большие данные»?
11/37
Что такое Big Data
Volume
Variety
Velocity
12/37
Новый образ мышления
Способность анализировать все данные
Работа с неупорядоченными данными
Отказ от причинности
13/37
Обработка всех данных
Иногда требуется
обработать
всю имеющуюся
информацию
14/37
Big Data помогает найти мужа!
Лекция TED
15/37
Работа
с неупорядоченными данными
Только 5–10%
информации
в мире упорядочены
16/37
Скорость обработки данных
Информация
устаревает прежде,
чем ее успевают
обработать
17/37
Пример: Билайн
и продажа смартфонов
Билайн рекламирует смартфоны тем, кто уже
готов их купить
18/37
Корреляция
Причины?
Не нужны!Big Data позволяет выявлять
и даже прогнозировать явления
еще до понимания их причин
19/37
Пример: прогноз объема
денежной массы в банкоматах
С помощью больших
данных банки прогнозируют
время и объем пополнения
банкоматов
20/37
Пример: Amazon
и таргетированные рекомендации
Существенной долей успеха Amazon обязан
персональным рекомендациям
21/37
Пример: Big Data вместо анализов
Страховая компания Aviva
использует данные,
полученные с помощью
Big Data, вместо
медицинских анализов
22/37
Как оценить стоимость данных?
Капитализация
Facebook при IPO –
$ 110 млрд,
а бухгалтерская
стоимость –
$ 6 млрд
23/37
Технологии работы с Big Data
24/37
MapReduce
25/37
Выполнение MapReduce
26/37
Реализации MapReduce
Сотни и тысячи узлов
ОС Linux
Стандартное сетевое оборудование 1 Гбит/с
Дешевые локальные диски
Распределенная файловая система
Дешево,
масштабируемо…
27/37
Отказоустойчивость в MapReduce
…и отказоустойчиво
28/37
HDFS
29/37
Hadoop
Hadoop MapReduce
HDFS
Hadoop Common
YARN
Самая массовая
экосистема для
работы с Big Data
30/37
Экосистема Hadoop
Ambari
Avro
Cassandra
Chukwa
HBase
Hive
Mahout
Pig
Spark
Tez
ZooKeeper
Sqoop
Flume
Oozie
Cascading
Cascalog
…и это еще не все
31/37
Экосистема Hadoop
32/37
Как установить Hadoop?
На «Хабре» есть подробная инструкция
С Cloudera Hadoop
это просто!
33/37
Big Data – это не только Hadoop!
34/37
Аппаратные решения
АПК:
Teradata Aster MapReduce appliance
Oracle Big Data appliance
EMC Greenplum
In-memory АПК:
SAP HANA
Oracle Exalytics
И не забываем
про облака!
35/37
Миф
или информационная
революция?
Эволюция!
36/37