+ All Categories
Home > Data & Analytics > 1 big data oracle digi oct

1 big data oracle digi oct

Date post: 15-Jul-2015
Category:
Upload: antishmanti
View: 664 times
Download: 1 times
Share this document with a friend
Popular Tags:
55
Transcript

Большие данные на предприятияхПодводные камни и как на них не наткнуться

Андрей ПивоваровРуководитель группы перспективных технологий

2

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Oracle Confidential –Internal/Restricted/Highl

3

Big Data – это новые возможности, ставшие доступными, благодаря новым технологиям или подходам к обработке

больших объемов данных

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Почему Большие Данные стали использовать на «традиционных» предприятиях?• Технологии, раньше используемые только в

веб-проектах (Hadoop, NoSQL) стали достаточно зрелыми

– Не обязательно держать штат программистов, чтобы ими пользоваться

• Появились новые возможности для получения конкурентных преимуществ:

– Глубокий анализ поведения клиентов

– Высокоточная реклама

– Объединение и анализ данных из многих источников, в том числе неструктурированных

– Анализ мошенничеств

– и т.д.

• Big Data технологии позволяют существенно удешевить хранение и обработку данных

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

CaixaBank, ИспанияCaixaBank - крупнейший финансовый институт Испании, дочка Сберегательного банка Испании, la Caixa

13,7 миллиона клиентов

5 920 отделений

367 миллиардов евро актив

Задачи

Получение максимальной выгоды от имеющейся информации о заказчиках, полученной по любому из существующих каналов (офисы, интернет, телефон, банковские системы, терминалы…)Создание новой модели унифицированных корпоративных данных и дополнительных возможностей аналитики на основе новой Information Management Architecture

Примеры использования

• Идентификация возможноcтей для cross-selling и up-selling

• Разработка персонифицированных предложений для клиентов

• Управление рисками и повышение лояльности к бренду

• Улучшенный анализ мошенничества

• Отслеживание новых нормативных и регуляторных требований

Лучше понимать клиента, анализируя все возможные данные о нём

CaixaBank назван самым инновационным банком в мире - World’s Most Innovative Bank at the 2013 Global Banking Innovation Awards (Ноябрь 2013)

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Отличия традиционных предприятий от интернет-проектов в контексте Больших данных

• Бизнес предприятия не построен вокруг создания кластеров

• Большие данные начинают использоваться как новые возможности, дополняющие существующие системы

• Значительные наработки и инвестиции в области реляционных СУБД и отсутствие или небольшой опыт в областях типа Hadoop

– Отсюда обязательное требование по интеграции ТБД с реляционными базами, системами бизнес-анализа и т.д.

• Пользователи требуют обеспечить работу с Большими данными как с обычной СУБД, используя привычные инструменты

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Направления работы корпорации Oracle в области Больших данных• Оптмизированные программно-аппаратные комплексы для Больших

данных на базе Cloudera Hadoop Distribution

• Интеграция данных в Hadoop/NoSQL и традиционных реляционных данных

• Разработка собственной Oracle NoSQL Database и других продуктов

• Оптимизация (ускорение доступа) к данным

• Безопасность

• Визуализация Больших данных

• Методология построения систем Больших данных на основе практического проектного опыта

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Oracle Big Data Management System

SOU

RC

ESРЕЗЕРВУАР ДАННЫХ ХРАНИЛИЩЕ ДАННЫХ

Oracle Database

Oracle IndustryModels

Oracle Advanced Analytics

Oracle Spatial & Graph

Big Data Appliance

Apache Flume

OracleGoldenGate

Oracle Event Processing

Cloudera Hadoop

Oracle Big Data SQL

Oracle NoSQL

Oracle R Advanced Analytics for Hadoop

Oracle R Distribution

Oracle Database

In-Memory, Multi-tenant

Oracle Industry Models

Oracle Advanced Analytics

Oracle Spatial & Graph

Exadata

OracleGoldenGate

Oracle EventProcessing

Oracle DataIntegrator

Oracle Big DataConnectors

Oracle DataIntegrator/GoldenGate

БИЗНЕС АНАЛИТИКА

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Преимущества построения систем с резервуаром данных

10

Дешевое хранение Только значимые и актуальные данные живут в реляционном ХД

Гибкость В резервуаре хранятся любые данные, не нужна предопредленная структура и модель хранения

Data Warehouse

Традиционные источники данных

Новые источники

Резервуар данных Хранилище данных

Предварительная обработка данных на распределенном кластере

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Hadoop

• Apache Hadoop - распределенная масштабируемая вычислительнаяархитектура

• Одна из самых популярных платформ для хранения и обработки больших объемов данных

• Подходит для аналитических задач

• Очень быстро развивается

• Oracle совместно с Cloudera производит программно аппаратный комплекс для Hadoop (и Oracle NoSQL DB)

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Подводные камни мира Больших данных • Hadoop – это не только дешево, но кластер –

это множество узлов, которые нужно инсталлировать, сопровождать, управлять и т.д.

• Недооценка сложностей, которые возникают при переходе от «песочниц» к проекту масштаба предприятия

– Возможность использования кучи дешевого железа –хорошо, но имеет свою цену

• Недооценка недостатков Hadoop

– Hadoop предназначен для загрузки больших кусков данных

– Нет транзакций и т.д.

• Недооценка сложности интеграции данных из двух миров (реляционного и Hadoop)

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

BIG DATAAppliance

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Big Data Appliance X5-2

•Готовый Hadoop или Oracle NoSQL DB кластер

•Совместно тестируется разработчиками Oracle и Cloudera

•Оптимизирован для высочайшей производительности

•Единое окно техподдержки по всей системе, включая ПО Cloudera

•До 864TB в одной стойке

–Возможны также конфигурации 1/3 и 2/3 стойки

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Big Data Appliance X5-2

Sun Oracle X5-2L Servers. На каждом:• 2 * 18 Core Intel Xeon E5 Processors

• 128 GB Memory

• 48TB Disk space

Программное обеспечение(4.1):• Oracle Linux6.5, Oracle JDK 7u72

• Oracle Big Data SQL 1.1*

• Cloudera Distribution of Apache Hadoop 5.3 – EDH Edition

• Cloudera Manager 5.3

• Oracle R Distribution 3.1.1-2

• Oracle NoSQL Database CE 3.2.4

* Oracle Big Data SQL is separately licensed

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Что вам НЕ придется делать с Big Data Appliance (1/2)

• Подбирать и оптимизировать компоненты – сервера, диски, количество дисков, процессоры, сети, память и т.п.

• Заключать отдельный договор о поддержке с Cloudera

• Собирать кластер

• Настраивать сетевые коммутаторы

• Инсталлировать операционную систему на каждом узле и

• Отслеживать и устанавливать оптимальные версии драйверов и прошивок для каждого компонента

• Настраивать операционную систему для оптимальной производительности (у нас же очень много данных!)

• Настраивать Java

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Что вам НЕ придется делать с Big Data Appliance (2/2)

• Инсталлировать дополнительное ПО от Cloudera

• Тестировать работоспособность и производительность каждого узла кластера

• Заниматься самостоятельно трудоемкой процедурой многуровнего апгрейда и патчирования BIOS, OS, Java, Hadoop и т.п.

• И просто следить за тем, что нужно что-то проапгрейдить

• Изучать как это все сделать без остановки и прерывания работы пользователей

• Заниматься дизайном перебансировки кластера при его расширении

• И т.д. и т.п.

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Big Data SQL

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Разные подходы – разные преимущества

19

0

1

2

3

4

5Мощь инструментов

Встроенный функционал

ACID транизакции

Безопасность

Разнообразие форматов данных

Разреженные данные

Простота ETL

Стоимость хранения

Простота загрузки

Взаимодействие с другими системами

Hadoop

RDBMS

• У Hadoop свои плюсы

• У СУБД свои

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Недостатки существующих систем Больших данных

• Для работы с Hadoop и реляционными базами данных требуются разные навыки

• Существующие механизмы доступа к данным в Hadoopфункционально ограничены или работают медленно

• Конечные пользователи используют разные инструменты для работы с Hadoop и реляционными базами

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

0

1

2

3

4

5Мощь инструментов

Встроенный функционал

ACID транизакции

Безопасность

Разнообразие форматов данных

Разреженные данные

Простота ETL

Стоимость хранения

Простота загрузки

Взаимодействие с другими системами

Hadoop

RDBMS

Цель

Есть ли возможность объединить два мира?

21

Как это сделать?

И как это использовать?

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

SQL

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

SQL существует и спользуется уже более 40 лет

SELECT dept, sum(salary)

FROM emp, dept

WHERE dept.empid = emp.empid

GROUP BY dept

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Apache Hive

• Apache Hive

– Один из самых популярных проектов для обработки данных над Hadoop

– Инфраструктура, эмулирующая реляционную СУБД над Hadoop

– Есть SQL-подобный язык HiveQL

– Позволяет строить аналог свербольших хранилищ данных в Hadoop

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

SQL on Hadoop – не только Hive

Stinger

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

HiveQL: SQL очень ограничен

• Basic functions

– round, sqrt, floor, ceiling, concat, lower, upper, etc.

• Aggregate functions

– count, sum, min, max, avg, variance, stddev, covar, etc.

• Windowing functions

– lag, lead, first, last, row_number, dense_rank, cume_dist, percent_rank, ntile

SQLОграничения:• Подзапросы• Объединения• Стат функции

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

} else {

next = lineNext.getQuantity();

}

if (!q.isEmpty() && (prev.isEmpty() || (eq(q, prev) && gt(q, next)))) {

state = "S";

return state;

}

if (gt(q, prev) && gt(q, next)) {

state = "T";

return state;

}

if (lt(q, prev) && lt(q, next)) {

state = "B";

return state;

}

if (!q.isEmpty() && (next.isEmpty() || (gt(q, prev) && eq(q, next)))) {

state = "E";

return state;

}

if (q.isEmpty() || eq(q, prev)) {

state = "F";

return state;

}

return state;

}

private boolean eq(String a, String b) {

if (a.isEmpty() || b.isEmpty()) {

return false;

}

return a.equals(b);

}

private boolean gt(String a, String b) {

if (a.isEmpty() || b.isEmpty()) {

return false;

}

return Double.parseDouble(a) > Double.parseDouble(b);

}

private boolean lt(String a, String b) {

if (a.isEmpty() || b.isEmpty()) {

return false;

}

return Double.parseDouble(a) < Double.parseDouble(b);

}

public String getState() {

return this.state;

}

}

BagFactory bagFactory = BagFactory.getInstance();

@Override

public Tuple exec(Tuple input) throws IOException {

long c = 0;

String line = "";

String pbkey = "";

V0Line nextLine;

V0Line thisLine;

V0Line processLine;

V0Line evalLine = null;

V0Line prevLine;

boolean noMoreValues = false;

String matchList = "";

ArrayList<V0Line> lineFifo = new ArrayList<V0Line>();

boolean finished = false;

DataBag output = bagFactory.newDefaultBag();

if (input == null) {

return null;

}

if (input.size() == 0) {

return null;

}

Object o = input.get(0);

if (o == null) {

return null;

}

//Object o = input.get(0);

if (!(o instanceof DataBag)) {

int errCode = 2114;

String msg = "Expected input to be DataBag, but"

Сравнение Oracle SQL c HiveQL

Simplified, sophisticated, standards based syntax

SELECT first_x, last_z

FROM ticker MATCH_RECOGNIZE (

PARTITION BY name ORDER BY time

MEASURES FIRST(x.time) AS first_x,

LAST(z.time) AS last_z

ONE ROW PER MATCH

PATTERN (X+ Y+ W+ Z+)

DEFINE X AS (price < PREV(price)),

Y AS (price > PREV(price)),

W AS (price < PREV(price)),

Z AS (price > PREV(price) AND

z.time - FIRST(x.time) <= 7 ))

250+ строк на Java UDF 12 строк на Oracle SQL

В 20 раз меньше кода

Поиск шаблона (W) в биржевых данных

10:00 10:05 10:10 10:15 10:20 10:25

Ticker

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Данные хранятся во многих местах

Транзакции

RelationalHadoop

Логи

NoSQL

Профили клиентов

SQL

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Oracle Big Data SQLНовая технология для обращения к данным в Hadoop из Oracle Database

Запросы к Oracle,Hadoop и NoSQL

Oracle SQL

OracleNoSQL DB

HDFSData Node

OracleNoSQL DB

HDFSData Node

Oracle DatabaseStorage Server

Oracle DatabaseStorage Server

•Для пользователя не важно, где лежат данные – в

Oracle или в Hadoop

•Использование данных в Hadoop любыми BI

инструментами

•Все возможности языка SQL Oracle

•Использование наработок Exadata

•Интеграция Big Data Appliance и Exadata

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Потенциал для запросов к любой системе

Расширение на любой источник в будущем

И т.д.…

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Интеграция больших данных

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Подходы к интеграции больших данных

ETLETL HDFS

Традиционные ETLинструменты

SparkSqoop Sqoop

HivePig

Manual Code

Ручное кодирование

Spark

SqoopHive

Pig

ODI

Oozie

Sqoop

Oracle Data Integrator

GG

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Oracle Data Integrator

Не требуется отдельный ETL

сервер

Логический и физический

дизайн разделены

Физическое выполнение

кода SQL, Hive, Pig, Spark

Использование Oozie или ODI

Java Agent

Библиотека операторов

Возмоно определять свои

функции

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Enterprise Metadata Management

ETL

BIDashboards

App

ETL

ETL

Как считаются продажи?

Что произойдет, если я поменяю эту

таблицу?

Какие отчеты используют данные

с этого сервера? Sys Admin

Руководитель

Разрабочик BI

Из какой системы пришли данные?

Польщователь

Какой отчет использует эти

данные?

CDC

HadoopData Lake

Data Steward

Можно ли доверять

источнику?

ETLразрабочтик

Я хочу провести эксперимент. Какие

данные у меня есть в наличии?

Data Scientist

GG

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Big DataDiscovery

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Проблемы аналитической обработки Больших Данных

Сложность инструментария• Hadoop инструменты рассчитаны на

экспертов• Существующие BI инструменты не

рассчитаны на Hadoop• Нишевые инструменты имеют

ограниченную функциональность

80% усилий тратится на подготовку данных

Неопределенность данных

• Большой объем, гибкая структура

• Полезность данных не очевидна

• Значительные усилия по подготовке данных

Зависимость от высоко-квалифицированных экспертов

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Требуется новый подход

Быстрой трансформации и

обогащения данных для эффективной работы с

ними

Снятия барьеров с Больших данных для

исследования и поиска новых возможностей

Единый интуитивный визуальный интерфейс для ...

Поиска и изучения для понимания

потенциала данных

find explore transform discover share

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

39

Oracle Big Data Discovery Визуализация данных Hadoop

find explore transform discover share

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

КаталогOracle Big Data DiscoveryПонять потенциал Больших Данных

40

• Доступ к интерактивному каталогу данных, расположенных вHadoop

• Удобный поиск и навигация в наборах данных

• Суммарная информация о наборах данных; описания, теги пользователей

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

ИзучениеOracle Big Data DiscoveryПонять потенциал Больших Данных

41

• Визуализация статистической информации по всем атрибутам

• Сортировака атрибутов на основе потенциала данных

• Распределение данных, качество данных и выбросы

• Понимание корелляции между атрибутами

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

43

Oracle Big Data DiscoveryРазблокировать Большие Данные

• Drag&drop интрефейс для создания аналитических приложений

• Использование поисковых возможностей и фасетной навигации

• Объединение различных данных для более глубокого анализа

• Поиск новых патернов, закономерностей в интерактивном визуальном аналитическом интерфейсе

Исследование

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Oracle Information Management Reference architecture

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Information Management Reference Architecture

Ур

ове

нь д

осту

па к

да

нны

м

Бизнес аналитика

Информаци-онные сервисы

Простота и скорость загрузки данных

Стоимость запроса к данным

Уровень производительного

доступа

Фундаментальный слой

данных (3N форма)

Хранилище первичной информации

Data Science

Первичная информация хранится без всяких изменений

Данные очищены, организованы в некоторую структуру, но абстрагированы от бизнес процессов

Данные организованы в соответствии с требованиями бизнес процессов, для достижения максимальной производительности

Исследование данных Среда разработки

Исследование данных, выявление новых закономерностей

Разработка взаимодействия всех слоев приложения

Источники данных

Мультиструктурныеисточники

Контент

Docs Web & Social Media

SMS

Структурированные Данные (из реляционных источников)

Мастер данные

Планирование и бюджетирование

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

При создании Oracle IM Ref Architecture учитывается:

• Мультивендорный ландшафт заказчиков

• Хранилища данных и аналитика постоянно эволюционируют

• Существование разных типов данных (структурированные, неструктурированные) и подходов к их обработке

• Необходимость не только обработки исторических данных, но и существование задач реагирования в режиме близком к реальному времени (Fast Data)

• Необходимость хранения исходных данных

• Необходимость создания «песочниц» для экспериментов

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

53

Есть вопросы?

[email protected]

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

54

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Exadata Database Machine

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Oracle Exadata X5

• Машина для СУБД Oracle– Хранилища данных– OLTP– Смешанные нагрузки– Консолидация

• Высочайшая производительность СУБД Oracle

– Exadata Software используется для предобработки данных прямо на уровне системы хранения

• До 672TB в одной стойке

• Exadata позволяет использовать новейшие технологии:

– In Memory Database Option

– Колоночное хранение данных

– Опционально – 100% хранение данных на Flash

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Exadata X5-2 Hardware

2-Socket Database Servers– Fastest Xeon chips, 18-core, 256 GB to 768 GB DRAM

InfiniBand Network– 40 Gb InfiniBand внутренняя сеть

– 10 Gb or 1 Gb Ethernet для внешей связи

2-Socket Storage Servers– 16 ядер на сервере для предобработки данных на СХД

– Extreme Flash (EF) Storage 12.8 TB Ultra-Fast PCI Flash Drivesили

– High Capacity (HC) Storage 6.4 TB Ultra-Fast PCI Flash Cards+ 48 TB SAS disks

57

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Примеры конфигураций Exadata для рахличных нагрузок

58

16 Database Servers +5 High Capacity Storage Servers

DB In-Memory Machine Extreme Flash OLTP Machine

8 Database Servers +8 Extreme Flash Storage Servers

Data Warehousing Machine

Много серверов БД, много памятинесколько серверов хранения

100% Flash хранение данныхдля OLTP систем

Большой объем хранилищаБольшое количество серверов БД

576 DB Cores

13.3 TB RAM

32 TB Flash

240 TB Disk

288 DB Cores

2 TB RAM

102 TB Flash

288 DB Cores

224 StorageCores

90 TB Flash

672 TB Disk

8 Database Servers +14 High Capacity Storage Servers

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Масштабируемость Exadata

Тысячи процессорных ядер

Петабайты данных

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

• Захват и анализ данных с сенсоров

• Огромные объем данных в единицу времени

Ускорение летных испытаний для сокращения времени поставки новых самолетов

Ускорение летных испытаний

Solution components: Real-Time Decisions, Event Processing Solution Components: BDA and NoSQL

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Рецепты: Поиск ошибок и мошенничеств

• 8 миллионов рецептов обрабатывается каждый день

• Поиск неправильного использования препаратов

• Интеграция структурированных и неструктурированных данных

• Геоаналитика

У мненьшение количества ошибоки мошенничеств

Solution components:, BI Foundation, Endeca, Advanced Analytics – ‘R’ statistical analysis & data mining, Exalytics, Exadata

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

• 18M учеников и 42 000 школ

• Аналитика поведения учеников и учителей

• Комбинация RDBMS и Hadoop

• Цель – сделать образование более эффективным

Улучшение аналитики для системы образования

Трансформация образования в Турции

Solution components: Real-Time Decisions, Event Processing Solution Components: 2 BDA, 2 Exadata, 2 Exalogic, 2 Exalytics, IDM

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

• Аналитика и предложеия в реальном времени

• Использование Event Processing

• Сервис предоставляется внешним партнерам

• Генерация новых доходов

Геомаркетинг для предоставления новых услуг

Монетизация данных

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

•Как вам удалось изменить счет с 1-8 на 9-8?

Oracle Big Data в Oracle Team USA

Мы взломали код

•300 сенсоров на яхте•выдают 2 ГБ данных за одну гонку


Recommended