Hadoop and subsystems in livedoor #Hcj11f

Post on 15-Jan-2015

10,695 views 0 download

Tags:

description

 

transcript

Hadoop and Subsystems

inlivedoor

Hadoop Conference Japan2011 Fall

2011/09/26tagomoris

2011年9月26日月曜日

2011年9月26日月曜日

we are hiring!

2011年9月26日月曜日

what's livedoor?

2011年9月26日月曜日

2011年9月26日月曜日

large scale web services

2800+ servers3200+ hosts

530+ web servers

2011年9月26日月曜日

20 Aug 2009

http://www.amazon.co.jp/dp/47973543642011年9月26日月曜日

Aug 2011

15Gbps(10Gbps + CDN 5Gbps)

2011年9月26日月曜日

Hadoop in livedoor

• 10 nodes (1+9)

• 36 core, 32TB HDFS

• CDH3b2

•with libhdfs, fuse-hdfs

•Hive 0.6.0 (community package)

2011年9月26日月曜日

Hadoop in livedoor

data mining

reportingpage views, unique users,

traffic amount per page,

...2011年9月26日月曜日

super large scale

'sed | grep | wc'with

Hadoop Streaming + Hive

2011年9月26日月曜日

httpd logs

from 96 servers(apache / nginx)

580GB/day (raw)

2011年9月26日月曜日

overview

webservers

hadoopstreaming(perl)

hivescribe loadinsert

hourlyon

demand

hourlydaily

2011年9月26日月曜日

topics

•log delivery network with scribe

•and 'scribeline'

•hive client web application 'shib'

2011年9月26日月曜日

overview

webservers

hadoopstreaming(perl)

hivescribe loadinsert

hourlyon

demand

hourlydaily

2011年9月26日月曜日

scribelog delivery daemon

based on Thriftscalable, reliable

supports HDFS

https://github.com/facebook/scribe

2011年9月26日月曜日

scribe nodesserver

server

server

server

server

server

deliver

central

backup

disk(backup)

disk(archive)

scribed

scribed

scribed

HDFS

2011年9月26日月曜日

deliver node traffic

2011年9月26日月曜日

scribe nodesserver

server

server

server

server

server

deliver

central

backup

HDFS disk(backup)

disk(archive)

scribed

scribed

scribed

2011年9月26日月曜日

what we wantfrom scribe agent•easy to deploy

•works w/o any httpd configurations

•delivery target failover/takeback

•lightweight (without JVM)

•stable

2011年9月26日月曜日

scribe nodesserver

server

server

server

server

server

deliver

central

backup

HDFS disk(backup)

disk(archive)scribeline

scribed

scribed

scribed

2011年9月26日月曜日

scribelinelog delivery agent tool

python 2.4, thrift

easy to setup and start/stopworks without any httpd configurations

works with logrotate-ed log filesautomatic delivery target failover/takeback

https://github.com/tagomoris/scribe_line

2011年9月26日月曜日

how to setup scribelinein livedoor

1. yum install scribeline(tar xzf && cd && sudo make install)

2. vi /etc/scribeline.confblog /var/log/httpd/access_log

blogimg /var/log/nginx/access_log

3. /etc/init.d/scribeline start

2011年9月26日月曜日

scribe nodesserver

server

server

server

server

server

deliver

central

backup

HDFS disk(backup)

disk(archive)

scribed

scribed

scribed

2011年9月26日月曜日

overview

webservers

hadoopstreaming(perl)

hivescribe loadinsert

hourlyon

demand

hourlydaily

2011年9月26日月曜日

what we wantabout hive client•easy to experiment

•from PC on our desks

•result caching

•protection against data loss

•friendly look & feel

2011年9月26日月曜日

shibhive client web applicationnode.js, thrift, kyoto tycoon

query history browserquery editor, based on copy&pasteresult caching & download tsv/csv

filter INSERT/DROP/CREATE ...

https://github.com/tagomoris/shib2011年9月26日月曜日

2011年9月26日月曜日

shib system overview

hadoopcluster

hiveserver

shib

KTstorage

browser

2011年9月26日月曜日

what shib cannot do now

•access control

•graph & chart

•hive 0.7.0+ features support

•database, authentication and ...

•mapreduce status notification

2011年9月26日月曜日

what we are trying now

•New cluster

•more nodes

•CDH3b2 + Hive 0.6.0 -> CDH3u1

•New tools

•Hoop (instead of fuse-hdfs)

•Any stream processing framework

2011年9月26日月曜日

thanks!

2011年9月26日月曜日