Growing a Data Pipeline for Analytics

Date post:	13-Jan-2017
Category:	Data & Analytics
Upload:	roberto-agostino-vitillo
View:	114 times
Download:	0 times

Download Report this document

Share this document with a friend

Embed Size (px):

Growing a Data Pipeline for Analytics Roberto Vitillo, Staff Data Engineer @ Mozilla 26th PyData London Meetup

Transcript

Growing a Data Pipeline for Analytics

Roberto Vitillo, Staff Data Engineer @ Mozilla26th PyData London Meetup

Page 3: Growing a Data Pipeline for Analytics

Page 4: Growing a Data Pipeline for Analytics

brew install apache-spark

Page 5: Growing a Data Pipeline for Analytics

Page 6: Growing a Data Pipeline for Analytics

Don’t do it yourself!

Page 7: Growing a Data Pipeline for Analytics

Input OutputETL

Storage

Page 8: Growing a Data Pipeline for Analytics

JSON

JSON?

Page 9: Growing a Data Pipeline for Analytics

Page 10: Growing a Data Pipeline for Analytics

Page 11: Growing a Data Pipeline for Analytics

Page 12: Growing a Data Pipeline for Analytics

Page 13: Growing a Data Pipeline for Analytics

JSON

Parquet

Spark, Hive, Pig …

Page 14: Growing a Data Pipeline for Analytics

JSON

Parquet

Spark, Hive, Pig … ???

Page 15: Growing a Data Pipeline for Analytics

“The easier it is to ask questions, the more questions will be asked”

Page 16: Growing a Data Pipeline for Analytics

Page 17: Growing a Data Pipeline for Analytics

Modern SQL supports Map, Arrays & Structs

Page 18: Growing a Data Pipeline for Analytics

Page 19: Growing a Data Pipeline for Analytics

JSON

Parquet

Spark, Hive, Pig …

Presto, Re:dash

Page 20: Growing a Data Pipeline for Analytics

TLDR;

• Don’t build your own pipeline unless you really have to

• Use schemas

• Exploit columnar storage

• Use SQL

Documents

Growing Data Analytics at Etsy (Cristopher Bohn)

Documents

Pipeline Unified Big Data Analytics - GitHub Pagesfrank19900731.github.io/downloads/file/Unified Big Data... · 2017-02-13 · Unified big data analytics pipeline for Batch / interactive

Documents

In-transit analytics on distributed Clouds: applications ... · Autonomic Streaming Pipeline • Streaming pipeline –No “blocking” semantics –Continuous data transmission

Documents

What We Learned Building an R-Python Hybrid Predictive Analytics Pipeline

Data & Analytics

ATW Growing your talent pipeline – you!

Documents

Query-able Kafka: An agile data analytics pipeline for ... · Query-able Kafka: An agile data analytics pipeline for mobile wireless networks Eric Falk University of Luxembourg [email protected]

Documents

Growing the pipeline, growing the bottom line - KPMG · and Drug Administration (FDA) ... the trend toward asset swaps, carve outs, ... Growing the pipeline, growing the bottom line.

Documents

Streaming Analytics Pipeline - s3. · PDF fileArchitecture Overview ... Amazon Elasticsearch Service ... The Streaming Analytics Pipeline AWS Lambda function processes data at a default

Documents

Profiling DRDoS Attacks with Data Analytics Pipeline

Documents

Building Unified Big Data Analytics and AI Pipelines · 2020-04-06 · End-to-End Big Data Analytics and AI Pipeline Production Data pipeline Prototype on laptop using sample data

Documents

Improving Iteration, Maintainability, and Analytics in the Build Pipeline

Documents

Growing Health Analytics Without Hiring new Staff

Data & Analytics

ELK for KPI’s - Indico · Elastic Search A distributed, RESTful search and analytics engine capable of solving a growing number of use cases. Logstash Data processing pipeline that

Documents

Pipeline Analytics: The foundation of DevSecOps

Documents

Basketball Analytics Pipeline – An Offensive Analysis€¦ · Basketball Analytics Pipeline – An Offensive Analysis Undergraduates: Anshul Shah ([email protected]), Jack Lichtenstein

Documents

Scalable Data Analytics Pipeline for Real-Time Attack ...publish.illinois.edu/science-of-security-lablet/files/2015/09/10062015-Eric-Badger...Pipeline Design Pipeline Deployment Validation

Documents

Seattle Analytics Meetup preso - B2B revenue pipeline health and attribution

Marketing