Big Data: I Microsoft ima slona za utrkuLuka Lovošević, Antonio FaletarMicrosoft Hrvatska
• MICROSOFT HRVATSKA
SadržajUvod u Big DataPregled MS platformeHadoopDemo
Što je Big Data?
MICROSOFT CONFIDENTIAL – INTERNAL ONLY
Što je Big Data?Podaci koji su vam bitni, ali ih tradicionalnim alatimane možete procesirati.
VOLUME(Količina)
VARIETY (Struktura)
VELOCITY (Brzina, real-
time)
Izvori podataka
Logovi Text
Pametne kuće Senzori
Vrijeme i lokacija RFID
Telemetrija Društvene mreže
Big Data algoritmi
Analiza na društvenim mrežama
Slični artikli (npr. web shop) Real-time analiza Česti skupovi artikala
Reklamiranje na webu
Analiza povezanih pojmova
Sustavi preporukaKlastering (grupiranje)
c
Microsoft Big Data platforma
Microsoft Big Data platforma
Hadoop – HDInsight
(Windows ili Azure)
SQL Server 2012 Parallel Data Warehouse
SQL Server StreamInsight
Self-service BI alati
Malo više o Hadoopu
Što je Hadoop?Platforma za procesiranje velike količine podataka
Apache, open source
Google GFS i MapReduce
Visoko skalabilan i distribuiran
Commodity hardver
2013
Yahoo!
EnterpriseHadoop
Apache projekt
2004 2008 2010 20122006
Hadoop arhitektura
Node
NodeNode
Podaci
Node
MapReduce
// Map Reduce function in JavaScript
var map = function (key, value, context) {var words = value.split(/[^a-zA-Z]/);for (var i = 0; i < words.length; i++) {
if (words[i] !== "")context.write(words[i].toLowerCase(),1);}}};
var reduce = function (key, values, context) {var sum = 0;while (values.hasNext()) {sum += parseInt(values.next());
}context.write(key, sum);};
NodeNode
NodeNode
Program
MapReduce
Primjer za MapReduce
Alati za uspješno Hadoopiranje
Pig
Procesiranje i oblikovanjepodataka
ETL tool
MapReduce
Hive
Strukturiranje podataka
SQL sintaksa
ODBC, Excel …
MapReduce
MahoutBiblioteka gotovih algoritama
Strojno učenje (npr. clustering, recommendation, …)
MapReduce
HDInsight
Hadoop
Programiranje u .NET-uSecurity, HA & managementPodrška za virtualizacijuIntegracija s Microsoft BI alatimaIsto iskustvo za on-premise i cloud
Hadoop za Windows ServerHadoop za Windows Azure
Demo
Windows Azure HDInsight
Hadoop 2.0
HortonWorks Stinger inicijativa
Tez (interactive) vs. batch
Streaming (Storm project), itd.
ZaključakBig data trendHadoop de facto standardWindows Azure HDInsightOpen source
Pitanja?
Hvala!