Date post: | 05-Dec-2014 |
Category: |
Technology |
Upload: | caio-gomes |
View: | 929 times |
Download: | 1 times |
O Futuro do Big Data
O Futuro do Big Data
• Pesquisa Cientifica (LHC, Genética, Meteorologia) • Mercado Financeiro • Cultura (Literatura,Jornais, Netflix) • Processos industriais • … e a internet! !Alguns números: - LHC: 70 TB/dia de dados - NYSE: 1 TB/dia de trading data - Facebook: 1.5 bilhão de likes em marcas por mês - Apontador: 50 milhões de pageviews por mês - Maplink: 1.8 bilhões de coordenadas processadas por mês
age of data
:
-
• Volume de dados gigante
• Grande parque computacional
• Marketing
• Internet
BIG Data
• Baixa do preço do Teraflop
• Criação do MapReduce
mas porque agora?
Processamento:
Armazenamento: • Baixa do preço do MB
• Invenção do NoSQL
• Google AdSense
• Criteo (remarketing)
Onde foi usado até agora?
Publicidade:
Vendas online: • recomendação (Amazon)
Redes Sociaos
• Recomendação de amigos, posts, likes, jogos.
• Furacão Francis Classificar quais itens serão mais vendidos e determinar a quantidade que devo estocar
• O que eu quero saber? Compras relizadas em ultimos furacões Época do ano e o que foi vendido Quanto eles gastam? Dos meus clientes, quais ficarão? (classificação)
furacão francis
• Operadora de cartão Minimizar probabilidade de default dos clientes Ou ainda: quanto risco quero correr com a carteira de clientes
• O que posso usar? Histórico de pagamentos O que usuários parecidos com esse fizeram (clustering)
precificação do cartão de crédito
• Seguradora Qual vai ser a qualidade da colheita? Quantas toneladas serão coletadas? Lugar, Clima, Preço
• O que posso usar? Histórico do clima no mundo Histórico de colheitas Informações de solo, localização
seguro de colheitas
• Facilmente escalável (embarrassingly parallel) a milhares de TB.
• Baixo custo de escalabilidade: clusters com milhares de nós,
commodity servers
• Facil correção de problemas on the fly.
12 de 21
Vantagens do Map Reduce
• Programação de baixo nível de abstração.
• Nem todo algorítmo pode ser escrito como uma única tarefa de
MapReduce.
• Representação de algorítimos matemáticos complexos depende de
diversas tarefas de Map e Reduce.
• Solução em Batch
13 de 21
Desvantagens do Map Reduce
• Medidas de trânsito Veiculos enviam informação a cada instante.
• O que eu quer saber? Estado da via (classificação) Tipo de veículos (clustering) Como eles dirigem? (clustering) Velocidade da via (regressão)
19 de 21
estimativa de trânsito
o padrão de transito - marginal pinheiros
SOBRE O ROTEIRIZADOR o padrão da marginal pinheiros
SOBRE O ROTEIRIZADOR o que recebemos
<Route><Category>1</Category><DateTime>2013-02-01T15:32:27</DateTime><Position xmlns:a="http://schemas.datacontract.org/2004/07/Spatial"><a:Lat>-8.150483</a:Lat><a:Lng>-35.420284</a:Lng></Position></Route>
BRASIL
snapshot veículos rastreados, 14 nov 2012, 15:00
ESTIMAÇÃO ONLINE DE VELOCIDADES
Disposi&vos móveis
veículos
posições
balanceador de cargas
posições
cálculo de rotas
rotas
es&mação de velocidades
velocidade
servidores de trânsito
mapas
índices
tempo
Centro de cálculo MapLink na nuvem
SOBRE O ROTEIRIZADOR transformando posições em velocidades
SOBRE O ROTEIRIZADOR segmentando os dados
Carros, motos, caminhões Como diferenciar?
SOBRE O ROTEIRIZADOR diferentes usos entre categorias
Velocidade moto => velocidade carro
SOBRE O ROTEIRIZADOR e a velocidade da via?
SOBRE O ROTEIRIZADOR o que recebemos
- Cada update é independente e já traz novas informações - Previsões dependem da situação global - Resultado dos modelos - Altamente interligado
SOBRE O ROTEIRIZADOR
• Adoção em novos setores Industria, Agronomia, Medicina
• Inclusão de fatores de tempo real Trânsito, Energia
• Tecnologia Hadoop? Hadoop2 + Yarn? Spark? RealTime? Storm? Kinesis?
19 de 21
o futuro
21 de 21
Teorema de Bayes:
brigado!
É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumas hipóteses estatísticas.
Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada.
O MODELO statístico
Prob(Usuario comprar|caracteristicas do usuario)
Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra)
Prob(caracterıstica do usuario)
Caio C. Gomes Diretor Big Data e Inovação [email protected]