Date post: | 15-Jul-2015 |
Category: |
Data & Analytics |
Upload: | antishmanti |
View: | 664 times |
Download: | 1 times |
Большие данные на предприятияхПодводные камни и как на них не наткнуться
Андрей ПивоваровРуководитель группы перспективных технологий
2
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Confidential –Internal/Restricted/Highl
3
Big Data – это новые возможности, ставшие доступными, благодаря новым технологиям или подходам к обработке
больших объемов данных
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Почему Большие Данные стали использовать на «традиционных» предприятиях?• Технологии, раньше используемые только в
веб-проектах (Hadoop, NoSQL) стали достаточно зрелыми
– Не обязательно держать штат программистов, чтобы ими пользоваться
• Появились новые возможности для получения конкурентных преимуществ:
– Глубокий анализ поведения клиентов
– Высокоточная реклама
– Объединение и анализ данных из многих источников, в том числе неструктурированных
– Анализ мошенничеств
– и т.д.
• Big Data технологии позволяют существенно удешевить хранение и обработку данных
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
CaixaBank, ИспанияCaixaBank - крупнейший финансовый институт Испании, дочка Сберегательного банка Испании, la Caixa
13,7 миллиона клиентов
5 920 отделений
367 миллиардов евро актив
Задачи
Получение максимальной выгоды от имеющейся информации о заказчиках, полученной по любому из существующих каналов (офисы, интернет, телефон, банковские системы, терминалы…)Создание новой модели унифицированных корпоративных данных и дополнительных возможностей аналитики на основе новой Information Management Architecture
Примеры использования
• Идентификация возможноcтей для cross-selling и up-selling
• Разработка персонифицированных предложений для клиентов
• Управление рисками и повышение лояльности к бренду
• Улучшенный анализ мошенничества
• Отслеживание новых нормативных и регуляторных требований
Лучше понимать клиента, анализируя все возможные данные о нём
CaixaBank назван самым инновационным банком в мире - World’s Most Innovative Bank at the 2013 Global Banking Innovation Awards (Ноябрь 2013)
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Отличия традиционных предприятий от интернет-проектов в контексте Больших данных
• Бизнес предприятия не построен вокруг создания кластеров
• Большие данные начинают использоваться как новые возможности, дополняющие существующие системы
• Значительные наработки и инвестиции в области реляционных СУБД и отсутствие или небольшой опыт в областях типа Hadoop
– Отсюда обязательное требование по интеграции ТБД с реляционными базами, системами бизнес-анализа и т.д.
• Пользователи требуют обеспечить работу с Большими данными как с обычной СУБД, используя привычные инструменты
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Направления работы корпорации Oracle в области Больших данных• Оптмизированные программно-аппаратные комплексы для Больших
данных на базе Cloudera Hadoop Distribution
• Интеграция данных в Hadoop/NoSQL и традиционных реляционных данных
• Разработка собственной Oracle NoSQL Database и других продуктов
• Оптимизация (ускорение доступа) к данным
• Безопасность
• Визуализация Больших данных
• Методология построения систем Больших данных на основе практического проектного опыта
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data Management System
SOU
RC
ESРЕЗЕРВУАР ДАННЫХ ХРАНИЛИЩЕ ДАННЫХ
Oracle Database
Oracle IndustryModels
Oracle Advanced Analytics
Oracle Spatial & Graph
Big Data Appliance
Apache Flume
OracleGoldenGate
Oracle Event Processing
Cloudera Hadoop
Oracle Big Data SQL
Oracle NoSQL
Oracle R Advanced Analytics for Hadoop
Oracle R Distribution
Oracle Database
In-Memory, Multi-tenant
Oracle Industry Models
Oracle Advanced Analytics
Oracle Spatial & Graph
Exadata
OracleGoldenGate
Oracle EventProcessing
Oracle DataIntegrator
Oracle Big DataConnectors
Oracle DataIntegrator/GoldenGate
БИЗНЕС АНАЛИТИКА
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Преимущества построения систем с резервуаром данных
10
Дешевое хранение Только значимые и актуальные данные живут в реляционном ХД
Гибкость В резервуаре хранятся любые данные, не нужна предопредленная структура и модель хранения
Data Warehouse
Традиционные источники данных
Новые источники
Резервуар данных Хранилище данных
Предварительная обработка данных на распределенном кластере
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Hadoop
• Apache Hadoop - распределенная масштабируемая вычислительнаяархитектура
• Одна из самых популярных платформ для хранения и обработки больших объемов данных
• Подходит для аналитических задач
• Очень быстро развивается
• Oracle совместно с Cloudera производит программно аппаратный комплекс для Hadoop (и Oracle NoSQL DB)
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Подводные камни мира Больших данных • Hadoop – это не только дешево, но кластер –
это множество узлов, которые нужно инсталлировать, сопровождать, управлять и т.д.
• Недооценка сложностей, которые возникают при переходе от «песочниц» к проекту масштаба предприятия
– Возможность использования кучи дешевого железа –хорошо, но имеет свою цену
• Недооценка недостатков Hadoop
– Hadoop предназначен для загрузки больших кусков данных
– Нет транзакций и т.д.
• Недооценка сложности интеграции данных из двух миров (реляционного и Hadoop)
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data Appliance X5-2
•Готовый Hadoop или Oracle NoSQL DB кластер
•Совместно тестируется разработчиками Oracle и Cloudera
•Оптимизирован для высочайшей производительности
•Единое окно техподдержки по всей системе, включая ПО Cloudera
•До 864TB в одной стойке
–Возможны также конфигурации 1/3 и 2/3 стойки
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data Appliance X5-2
Sun Oracle X5-2L Servers. На каждом:• 2 * 18 Core Intel Xeon E5 Processors
• 128 GB Memory
• 48TB Disk space
Программное обеспечение(4.1):• Oracle Linux6.5, Oracle JDK 7u72
• Oracle Big Data SQL 1.1*
• Cloudera Distribution of Apache Hadoop 5.3 – EDH Edition
• Cloudera Manager 5.3
• Oracle R Distribution 3.1.1-2
• Oracle NoSQL Database CE 3.2.4
* Oracle Big Data SQL is separately licensed
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Что вам НЕ придется делать с Big Data Appliance (1/2)
• Подбирать и оптимизировать компоненты – сервера, диски, количество дисков, процессоры, сети, память и т.п.
• Заключать отдельный договор о поддержке с Cloudera
• Собирать кластер
• Настраивать сетевые коммутаторы
• Инсталлировать операционную систему на каждом узле и
• Отслеживать и устанавливать оптимальные версии драйверов и прошивок для каждого компонента
• Настраивать операционную систему для оптимальной производительности (у нас же очень много данных!)
• Настраивать Java
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Что вам НЕ придется делать с Big Data Appliance (2/2)
• Инсталлировать дополнительное ПО от Cloudera
• Тестировать работоспособность и производительность каждого узла кластера
• Заниматься самостоятельно трудоемкой процедурой многуровнего апгрейда и патчирования BIOS, OS, Java, Hadoop и т.п.
• И просто следить за тем, что нужно что-то проапгрейдить
• Изучать как это все сделать без остановки и прерывания работы пользователей
• Заниматься дизайном перебансировки кластера при его расширении
• И т.д. и т.п.
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Разные подходы – разные преимущества
19
0
1
2
3
4
5Мощь инструментов
Встроенный функционал
ACID транизакции
Безопасность
Разнообразие форматов данных
Разреженные данные
Простота ETL
Стоимость хранения
Простота загрузки
Взаимодействие с другими системами
Hadoop
RDBMS
• У Hadoop свои плюсы
• У СУБД свои
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Недостатки существующих систем Больших данных
• Для работы с Hadoop и реляционными базами данных требуются разные навыки
• Существующие механизмы доступа к данным в Hadoopфункционально ограничены или работают медленно
• Конечные пользователи используют разные инструменты для работы с Hadoop и реляционными базами
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
0
1
2
3
4
5Мощь инструментов
Встроенный функционал
ACID транизакции
Безопасность
Разнообразие форматов данных
Разреженные данные
Простота ETL
Стоимость хранения
Простота загрузки
Взаимодействие с другими системами
Hadoop
RDBMS
Цель
Есть ли возможность объединить два мира?
21
Как это сделать?
И как это использовать?
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
SQL существует и спользуется уже более 40 лет
SELECT dept, sum(salary)
FROM emp, dept
WHERE dept.empid = emp.empid
GROUP BY dept
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Apache Hive
• Apache Hive
– Один из самых популярных проектов для обработки данных над Hadoop
– Инфраструктура, эмулирующая реляционную СУБД над Hadoop
– Есть SQL-подобный язык HiveQL
– Позволяет строить аналог свербольших хранилищ данных в Hadoop
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
SQL on Hadoop – не только Hive
Stinger
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
HiveQL: SQL очень ограничен
• Basic functions
– round, sqrt, floor, ceiling, concat, lower, upper, etc.
• Aggregate functions
– count, sum, min, max, avg, variance, stddev, covar, etc.
• Windowing functions
– lag, lead, first, last, row_number, dense_rank, cume_dist, percent_rank, ntile
SQLОграничения:• Подзапросы• Объединения• Стат функции
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
} else {
next = lineNext.getQuantity();
}
if (!q.isEmpty() && (prev.isEmpty() || (eq(q, prev) && gt(q, next)))) {
state = "S";
return state;
}
if (gt(q, prev) && gt(q, next)) {
state = "T";
return state;
}
if (lt(q, prev) && lt(q, next)) {
state = "B";
return state;
}
if (!q.isEmpty() && (next.isEmpty() || (gt(q, prev) && eq(q, next)))) {
state = "E";
return state;
}
if (q.isEmpty() || eq(q, prev)) {
state = "F";
return state;
}
return state;
}
private boolean eq(String a, String b) {
if (a.isEmpty() || b.isEmpty()) {
return false;
}
return a.equals(b);
}
private boolean gt(String a, String b) {
if (a.isEmpty() || b.isEmpty()) {
return false;
}
return Double.parseDouble(a) > Double.parseDouble(b);
}
private boolean lt(String a, String b) {
if (a.isEmpty() || b.isEmpty()) {
return false;
}
return Double.parseDouble(a) < Double.parseDouble(b);
}
public String getState() {
return this.state;
}
}
BagFactory bagFactory = BagFactory.getInstance();
@Override
public Tuple exec(Tuple input) throws IOException {
long c = 0;
String line = "";
String pbkey = "";
V0Line nextLine;
V0Line thisLine;
V0Line processLine;
V0Line evalLine = null;
V0Line prevLine;
boolean noMoreValues = false;
String matchList = "";
ArrayList<V0Line> lineFifo = new ArrayList<V0Line>();
boolean finished = false;
DataBag output = bagFactory.newDefaultBag();
if (input == null) {
return null;
}
if (input.size() == 0) {
return null;
}
Object o = input.get(0);
if (o == null) {
return null;
}
//Object o = input.get(0);
if (!(o instanceof DataBag)) {
int errCode = 2114;
String msg = "Expected input to be DataBag, but"
Сравнение Oracle SQL c HiveQL
Simplified, sophisticated, standards based syntax
SELECT first_x, last_z
FROM ticker MATCH_RECOGNIZE (
PARTITION BY name ORDER BY time
MEASURES FIRST(x.time) AS first_x,
LAST(z.time) AS last_z
ONE ROW PER MATCH
PATTERN (X+ Y+ W+ Z+)
DEFINE X AS (price < PREV(price)),
Y AS (price > PREV(price)),
W AS (price < PREV(price)),
Z AS (price > PREV(price) AND
z.time - FIRST(x.time) <= 7 ))
250+ строк на Java UDF 12 строк на Oracle SQL
В 20 раз меньше кода
Поиск шаблона (W) в биржевых данных
10:00 10:05 10:10 10:15 10:20 10:25
Ticker
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Данные хранятся во многих местах
Транзакции
RelationalHadoop
Логи
NoSQL
Профили клиентов
SQL
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data SQLНовая технология для обращения к данным в Hadoop из Oracle Database
Запросы к Oracle,Hadoop и NoSQL
Oracle SQL
OracleNoSQL DB
HDFSData Node
OracleNoSQL DB
HDFSData Node
Oracle DatabaseStorage Server
Oracle DatabaseStorage Server
•Для пользователя не важно, где лежат данные – в
Oracle или в Hadoop
•Использование данных в Hadoop любыми BI
инструментами
•Все возможности языка SQL Oracle
•Использование наработок Exadata
•Интеграция Big Data Appliance и Exadata
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Потенциал для запросов к любой системе
Расширение на любой источник в будущем
И т.д.…
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Подходы к интеграции больших данных
ETLETL HDFS
Традиционные ETLинструменты
SparkSqoop Sqoop
HivePig
Manual Code
Ручное кодирование
Spark
SqoopHive
Pig
ODI
Oozie
Sqoop
Oracle Data Integrator
GG
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Data Integrator
Не требуется отдельный ETL
сервер
Логический и физический
дизайн разделены
Физическое выполнение
кода SQL, Hive, Pig, Spark
Использование Oozie или ODI
Java Agent
Библиотека операторов
Возмоно определять свои
функции
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Enterprise Metadata Management
ETL
BIDashboards
App
ETL
ETL
Как считаются продажи?
Что произойдет, если я поменяю эту
таблицу?
Какие отчеты используют данные
с этого сервера? Sys Admin
Руководитель
Разрабочик BI
Из какой системы пришли данные?
Польщователь
Какой отчет использует эти
данные?
CDC
HadoopData Lake
Data Steward
Можно ли доверять
источнику?
ETLразрабочтик
Я хочу провести эксперимент. Какие
данные у меня есть в наличии?
Data Scientist
GG
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Проблемы аналитической обработки Больших Данных
Сложность инструментария• Hadoop инструменты рассчитаны на
экспертов• Существующие BI инструменты не
рассчитаны на Hadoop• Нишевые инструменты имеют
ограниченную функциональность
80% усилий тратится на подготовку данных
Неопределенность данных
• Большой объем, гибкая структура
• Полезность данных не очевидна
• Значительные усилия по подготовке данных
Зависимость от высоко-квалифицированных экспертов
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Требуется новый подход
Быстрой трансформации и
обогащения данных для эффективной работы с
ними
Снятия барьеров с Больших данных для
исследования и поиска новых возможностей
Единый интуитивный визуальный интерфейс для ...
Поиска и изучения для понимания
потенциала данных
find explore transform discover share
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
39
Oracle Big Data Discovery Визуализация данных Hadoop
find explore transform discover share
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
КаталогOracle Big Data DiscoveryПонять потенциал Больших Данных
40
• Доступ к интерактивному каталогу данных, расположенных вHadoop
• Удобный поиск и навигация в наборах данных
• Суммарная информация о наборах данных; описания, теги пользователей
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
ИзучениеOracle Big Data DiscoveryПонять потенциал Больших Данных
41
• Визуализация статистической информации по всем атрибутам
• Сортировака атрибутов на основе потенциала данных
• Распределение данных, качество данных и выбросы
• Понимание корелляции между атрибутами
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
43
Oracle Big Data DiscoveryРазблокировать Большие Данные
• Drag&drop интрефейс для создания аналитических приложений
• Использование поисковых возможностей и фасетной навигации
• Объединение различных данных для более глубокого анализа
• Поиск новых патернов, закономерностей в интерактивном визуальном аналитическом интерфейсе
Исследование
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Information Management Reference architecture
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Information Management Reference Architecture
Ур
ове
нь д
осту
па к
да
нны
м
Бизнес аналитика
Информаци-онные сервисы
Простота и скорость загрузки данных
Стоимость запроса к данным
Уровень производительного
доступа
Фундаментальный слой
данных (3N форма)
Хранилище первичной информации
Data Science
Первичная информация хранится без всяких изменений
Данные очищены, организованы в некоторую структуру, но абстрагированы от бизнес процессов
Данные организованы в соответствии с требованиями бизнес процессов, для достижения максимальной производительности
Исследование данных Среда разработки
Исследование данных, выявление новых закономерностей
Разработка взаимодействия всех слоев приложения
Источники данных
Мультиструктурныеисточники
Контент
Docs Web & Social Media
SMS
Структурированные Данные (из реляционных источников)
Мастер данные
Планирование и бюджетирование
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
При создании Oracle IM Ref Architecture учитывается:
• Мультивендорный ландшафт заказчиков
• Хранилища данных и аналитика постоянно эволюционируют
• Существование разных типов данных (структурированные, неструктурированные) и подходов к их обработке
• Необходимость не только обработки исторических данных, но и существование задач реагирования в режиме близком к реальному времени (Fast Data)
• Необходимость хранения исходных данных
• Необходимость создания «песочниц» для экспериментов
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
53
Есть вопросы?
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Exadata X5
• Машина для СУБД Oracle– Хранилища данных– OLTP– Смешанные нагрузки– Консолидация
• Высочайшая производительность СУБД Oracle
– Exadata Software используется для предобработки данных прямо на уровне системы хранения
• До 672TB в одной стойке
• Exadata позволяет использовать новейшие технологии:
– In Memory Database Option
– Колоночное хранение данных
– Опционально – 100% хранение данных на Flash
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Exadata X5-2 Hardware
2-Socket Database Servers– Fastest Xeon chips, 18-core, 256 GB to 768 GB DRAM
InfiniBand Network– 40 Gb InfiniBand внутренняя сеть
– 10 Gb or 1 Gb Ethernet для внешей связи
2-Socket Storage Servers– 16 ядер на сервере для предобработки данных на СХД
– Extreme Flash (EF) Storage 12.8 TB Ultra-Fast PCI Flash Drivesили
– High Capacity (HC) Storage 6.4 TB Ultra-Fast PCI Flash Cards+ 48 TB SAS disks
57
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Примеры конфигураций Exadata для рахличных нагрузок
58
16 Database Servers +5 High Capacity Storage Servers
DB In-Memory Machine Extreme Flash OLTP Machine
8 Database Servers +8 Extreme Flash Storage Servers
Data Warehousing Machine
Много серверов БД, много памятинесколько серверов хранения
100% Flash хранение данныхдля OLTP систем
Большой объем хранилищаБольшое количество серверов БД
576 DB Cores
13.3 TB RAM
32 TB Flash
240 TB Disk
288 DB Cores
2 TB RAM
102 TB Flash
288 DB Cores
224 StorageCores
90 TB Flash
672 TB Disk
8 Database Servers +14 High Capacity Storage Servers
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Масштабируемость Exadata
Тысячи процессорных ядер
Петабайты данных
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
• Захват и анализ данных с сенсоров
• Огромные объем данных в единицу времени
Ускорение летных испытаний для сокращения времени поставки новых самолетов
Ускорение летных испытаний
Solution components: Real-Time Decisions, Event Processing Solution Components: BDA and NoSQL
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Рецепты: Поиск ошибок и мошенничеств
• 8 миллионов рецептов обрабатывается каждый день
• Поиск неправильного использования препаратов
• Интеграция структурированных и неструктурированных данных
• Геоаналитика
У мненьшение количества ошибоки мошенничеств
Solution components:, BI Foundation, Endeca, Advanced Analytics – ‘R’ statistical analysis & data mining, Exalytics, Exadata
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
• 18M учеников и 42 000 школ
• Аналитика поведения учеников и учителей
• Комбинация RDBMS и Hadoop
• Цель – сделать образование более эффективным
Улучшение аналитики для системы образования
Трансформация образования в Турции
Solution components: Real-Time Decisions, Event Processing Solution Components: 2 BDA, 2 Exadata, 2 Exalogic, 2 Exalytics, IDM
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
• Аналитика и предложеия в реальном времени
• Использование Event Processing
• Сервис предоставляется внешним партнерам
• Генерация новых доходов
Геомаркетинг для предоставления новых услуг
Монетизация данных