Date post: | 08-Aug-2015 |
Category: |
Documents |
Upload: | data-science-warsaw |
View: | 687 times |
Download: | 8 times |
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data Discovery... ...ludzka twarz Hadoop'a
Oracle Confidential – Internal
2
Filip Kaznowski – Cloud & Big Data Lead–ECE Region, Consulting Michał Grochowski – BI Architect, Pre-sales
Data Science Meetup, 12 maja 2015
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Świat cyfrowej rewolucji – nowe wyzwania dla analizy danych
3
Przeanalizujmy ilość
danych
generowanych w jedną
minutę w globalnym internecie oraz
aktywność ludzi i
organizacji.
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Struktura danych„on Write” vs „on Read”
• Tradycyjna struktura danych “on Write” – Dane muszą być zidentyfikowane i zamodelowane
w określonej strukturze
– W kolejnych krokach dane są przetwarzane i ładowane w procesie ETL
– Analiza danych możliwa po zakończeniu przetwarzania
• Struktura danych Big Data “on Read” – Dane źródłowe bezpośrednio dostępne w
narzędziach analitycznych
– Przetwarzanie danych poprzez algorytmy map/reduce lub rozproszone przetwarzanie w pamięci
Elastyczność i szybkość analizy danych
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Analiza dużych wolumenów danych niestrukturalnych
Szczegółowa analiza danych niezagregowanych =
Odkrycia nowych związków i zależności =
Skuteczniejsze decyzje
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
• Mężczyzna, urodzony w 1948
• Wychowany w Anglii
• Dwukrotnie żonaty, dziecko
• Bogaty celebryta
• Kocha psy
• Uwielbia spędzać czas w Alpach
Jak dobrze znamy własnych klientów?
Oracle Confidential – Internal/Restricted/Highly Restricted | #BeyondBigData
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 7
DNA Klienta
Analiza zachowania i interakcji Szczegółowe profilowanie Analiza danych społecznościowych
"We don’t have better algorithms.
We just have more data.“
Peter Norvig, Google's Research Director
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Czy potrafimy wystarczająco szybko analizować strumień danych?
8
Złożoność narzędzi • Większość narzędzi Hadoop wymaga wiedzy
eksperckiej
• Narzędzia BI nie są dostowane do specyfiki Hadoop
• Nowe technologie nie są wystarczająco wszechstronne
Duże nakłady pracy: ocena przydatności i przygotowanie danych
Złożoność danych
• Różnorodność i wielkość danych
• Przydatność danych trudna do oszacowania
• Wymagane złożone transformacje
Niebędne specjalistyczne kompetencje
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal 9
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential | Business Analytics Product Group
Jakie narzędzia są wykorzystywane w analizie danych?
Source: O’Reilly: 2013 Data Science Salary Survey
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential | Business Analytics Product Group
Proces analizy danych
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
RAPORTOWANIE
POZYSKANIE PRZEKSZTAŁCANIE
WYCIĄGANIE WNIOSKÓW
ODKRYWANIEWARTOŚCI
DANYCH
Independency, correlation, dimensionality, missing values, relevancy
Objectives, Modeling, Simulation, Optimization, Visualization
Transactions, Web-scraping, Web-clicks & logs, Sensor Data, Mobile Data, Docs, Emails, XLS, Social Feeds, Flume & Sink HDFS
MapReduce, ETL, Data Wrangle, Data Cleansing, Data Jujitsu, Dimensionality Reduction, Sample, Select, Join, Bind
MODELOWANIE ODKRYCIA
Actionable, Predictive, Immediate Impact, Business Value, Easy to explain
Description & Inference, Data & Algorithm models, Machine Learning, Regression & Prediction, Classification & Clustering
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential | Business Analytics Product Group
Proces analizy danych – wąskie gardła
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
RAPORTOWANIE
POZYSKANIE PRZEKSZTAŁCANIE
WYCIĄGANIE WNIOSKÓW
ODKRYWANIE WARTOŚCI
DANYCH
Independency, correlation, dimensionality, missing values, relevancy
Transactions, Web-scraping, Web-clicks & logs, Sensor Data, Mobile Data, Docs, Emails, XLS, Social Feeds, Flume & Sink HDFS
MapReduce, ETL, Data Wrangle, Data Cleansing, Data Jujitsu, Dim Reduction, Sample, Select, Join, Bind
MODELOWANIE ODKRYCIA 80% czasu jest poświęcone
na
Przekształcanie,
Transformacje,
& Modelowanie
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Analityka biznesowa i Data Discovery Uzupełnienie koncepcji analitycznych
Oracle Confidential 13
Znane zależności
Analityka biznesowa Odpowiedzi na zdefiniowane pytania
Nowe pytania wymagają dalszej analizy danych i
odkryć
Nowe zależności
Data Discovery Odkrycia nowych znaczeń i związków w
danych
Okrycia pozwalają zbudować nowe
metryki i kryteria do monitorowania
Analityk biznesowy
Data Scientist
Pytania mogą wynikać z danych Testowanie hipotez na całym dostępnym zbiorze
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Potrzebne są narzędzia nowej generacji
14
Szybkiego przekształcenia i
wzbogacenia danych
Dokonywania odkryć i udostępniania
wniosków dla wielu użytkowników
Przejrzysty i intuicyjny kokpit do pracy z danymi w celu...
Łatwej identyfikacji danych i zrozumienia
ich potencjału do analizy
find explore transform discover share
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 15
Big Data Discovery. The Visual Face of Hadoop
find explore transform discover share
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data Discovery. The Visual Face of Hadoop
16
find explore transform discover share Analiza potencjału pozyskanych danych
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Katalog
17
• Interaktywny katalog danych składowanych w Hadoop
• Przyjazny i łatwy w użyciu interfejs
• Możliwość umieszczania komentarzy i rekomendacji
• Zarządzanie zbiorami danych prywatnymi i publicznymi
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Explore
18
• Wizualizacja atrybutów
• Sortowanie atrybutów zgodnie z potencjałem danych
• Statystyki, miary jakości danych, elementy odstające
• Wstępna korelacja pomiędzy atrybutami
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data Discovery. The Visual Face of Hadoop
19
find explore transform discover share
Szybkie przekształcanie i wzbogacanie danych
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 20 20
• Intuicyjny interfejs
• Rozbudowana biblioteka transformacji i wzbogacania danych
• Symulacja działania, możliwość wycofywania i powtarzania transformacji
• Testowanie na próbkach, a potem na zbiorze danych w Hadoop
Transform
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data Discovery. The Visual Face of Hadoop
21
find explore transform discover share Odkrycia i udostępnianie wniosków
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 22
• Łączenie danych i szukanie związków i relacji
• Konfigurowalne kokpity analityczne
• Silniki zapytań do wyszukiwania danych
• Odkrywanie nowych wzorców poprzez interaktywne wizualizacje
Discover
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 23
• Współdzielenie projektów pomiędzy użytkownikami
• Budowa reużywalnych galerii wzorców
• Współpraca w ramach zespołu analityków
• Publikacja danych do innych narzędzi
Share
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Efektywne połączenie dwóch środowisk danych
24
• Kompletna platforma analityczna
• Oszczędność czasu na procesach pomocniczych
• Wydajne przetwarzanie w pamięci
Data Warehouse
Dane operacyjne Dane niestrukturalne
Ocean danych Hurtownia danych
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal 25
Jeżeli pasjonujesz się „data science”, masz praktyczne doświadczenia z obszarem Big Data, jesteś kreatywny i lubisz wyzwania, serdecznie zapraszamy do kontaktu: Wojciech Wcisło: [email protected]
Rekrutujemy
pracowników do regionalnego zespołu Big Data!