Panel Discussion@WebDB forum 2014

産業技術総合研究所情報技術研究部門

主任研究員油井誠

大規模機械学習基盤構築の取組み

1

Large-scale machine learning for the rest of us

WebDB forum 2014

1 / 10

自己紹介

学部修士博士

(NAIST)ポスドク

(CWI)産総研

Web 2.0/AJAXの流行による

データベースへのトランザクションの急増

大量データの価値化

・PostgreSQLを改造してXML取り扱い機能を付与・フロムスクラッチからXML専用のDBを開発

・メニーコアを活かした超並列DBの研究開発・ロックフリーのページ置換アルゴリズムの開発

従来の関係データベースでは上手く扱えない

XMLデータが増加

・大規模機械学習の並列処理・並列データ処理基盤

2WebDB forum 2014

2 / 10

Hivemallとは

Apache Hadoopのエコシステム上に構築したオープンソースの機械学習ライブラリ

3

Hadoop HDFS

MapReduce(MRv1)

Hive/PIGクエリ処理系

Hivemall

Apache YARN

Apache TezDAG処理系

Apache MESOS

Apache SparkDAG処理系

Spark MLlib

MRv2

SparkSQL

分散ファイルシステム

リソース管理システム

並列処理フレームワーク

問合せ処理系

機械学習ライブラリ

github.com/myui/hivemall(bit.ly/hivemall)

WebDB forum 2014

3 / 10

• クラス分類(二値分類/多値分類) Perceptron

Passive Aggressive (PA)

Confidence Weighted (CW)

Adaptive Regularization of Weight Vectors (AROW)

Soft Confidence Weighted (SCW)

AdaGrad+RDA

• 回帰分析確率的勾配降下法に基づくロジス

ティック回帰

PA Regression

AROW Regression

AdaGrad

AdaDELTA

4

Hivemallが提供する機能

• K近傍法 & レコメンデーション Minhashとb-Bit Minhash (LSH variant)類似度に基づくK近傍探索

• Feature engineering Feature hashing Feature scaling (normalization, z-score) TF-IDF vectorizer

WebDB forum 2014

4 / 10

SQLベースの宣言的かつ容易な記述

5

Hivemallの特徴

Mahoutによるプログラミング

CREATE TABLE lr_model ASSELECTfeature, -- reducers perform model averaging in

parallelavg(weight) as weight

FROM (SELECT logress(features,label,..) as (feature,weight)FROM train

) t -- map-only taskGROUP BY feature; -- shuffled to reducers

一般的なエンジニアでも機械学習を扱える

WebDB forum 2014

5 / 10

6

学習器1

学習器2

学習器N

パラメタ交換

学習モデル

分割された訓練例

データ並列

データ並列

（モデルパラメタ）

Hivemallにおける工夫点

1. データを増幅することで機械学習の繰り返し処理を避けている

2. 関係演算の並列処理に適した実行形態

3. 低レイテンシのパラメタ交換（外部プロセスとの通信による）

WebDB forum 2014

6 / 10

Hivemallの性能

7

Vowpal Wabbit（VW1)…高速な機械学習ライブラリとして最も著名なものVW32…Vowpal Wabbitを32ノードのHadoop環境で動かしたものBismarck…データベース上で動作する機械学習ライブラリとして著名なものSpark… UC Berkeleyが提供する最近最も注目される機械学習フレームワーク

一般に使われるライブラリでは4時間以上かかる処理を32台で2分以内に処理同等精度のVWでは597.67秒（約10分）で5倍以上高速

116.4

596.67

493.81

755.24

465

0

100

200

300

400

500

600

700

800

Hivemall VW1 VW32 Bismarck Spark 1.0

0.64

0.66

0.68

0.7

0.72

0.74

0.76

Hivemall VW1 VW32 Bismarck

KDD Cup 2012, Track 2：データ：中国の検索エンジンプロバイダ提供の実データ(機械学習のPublicなデータとして最大級）

訓練データは2億レコード以上、特徴数は5千万以上

タスク：検索エンジン広告の広告クリックスルー率（CTR）推定ＣＴＲ＝（広告の）クリック数/ （広告の）表示数

WebDB forum 2014

7 / 10

資金提供型共同研究：(株)ロックオン• インターネット広告効果測定

• Ｅコマースプラットフォーム

• リスティング(検索連動)広告管理

企業での利用及び開発への参加・貢献• （株）フリークアウト

• 国内初のリアルタイム広告入札サービス提供企業

• （株）スケールアウト• 広告配信プラットフォーム提供企業、ＫＤＤＩが買収

• トレジャーデータ(米)• データ収集・保管・分析のHadoop as a Service提供

等

Hivemallの広告関連企業での導入事例

8WebDB forum 2014

8 / 10

• Hadoop Summit 2014に日本から唯一の採択

• 米InfoWorld誌選定Best Open Source Software Award 2014 受賞• 他は世界的にも著名なソフトばかり

• R(統計解析向けプログラム言語）

• Hadoop

• Hive

• Storm(ストリーム処理基盤）

• Cassandra（非SQLデータベースシステム）

• Neo4J(グラフデータベースシステム）

• KNIME(ワークフローシステム）

• etc.

9

研究成果のアウトリーチ活動の成果

InfoWorld誌はIDGの発行するCIO/ITマネージャ向けの業界誌としてリーディングソース

WebDB forum 2014

9 / 10

• Hadoop/Hiveに基づく機械学習フレームワーク• SQLベースの簡単な記述方法を提供

• データ量の増大に対してスケールする

• 米国業界誌からビッグデータ分析のベストツールとして受賞

• インターネット広告企業を中心にビジネスで使われつつある

• Apache等オープンソースコミュニティへの貢献

→ Apache incubatorに提案予定

10

Hivemallのまとめ

github.com/myui/hivemall (bit.ly/hivemall)

WebDB forum 2014

10 / 10

11

産業界にインパクトのある研究とは何か？

産業界にインパクトを与えた論文は何か？

問を少し変えてみる

WebDB forum 2014

12

SIGMOD Test of Time Awardからのピックアップ

A Case for Redundant Arrays of Inexpensive Disks (RAID). David A. Patterson, Garth A. Gibson, and Randy H. Katz, In Proc. SIGMOD, 1988.

引用数 3281

Encapsulation of Parallelism in the Volcano Query Processing System. Goetz Graefe, In Proc. SIGMOD, 1990. 引用元 383

Mining Association Rules Between Sets of Items in Large Databases. Rakesh Agrawal, Tomasz Imielinski, and Arun Swam

引用元 15008

RAIDの提案、ストレージビジネスへの影響大

Volcano Iterator Modelの提案多くのRDBMS(Postgres/MySQLも）がこの実行モデルに基づく

Aprioriアルゴリズムの提案Data mining on RDBMSの草分け

WebDB forum 2014

13

SIGMOD Test of Time Awardからのピックアップ

WebDB forum 2014

• J Dean, S Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters", Proc. OSDI, 2004.

• Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica, “Spark: cluster computing with working sets”, Proc. HotCloud(USENIX workshop), 2010.

14

AMPLabの学生は初期は論文はあまり出ないかもしれないがプロジェクトに集中するように言われていたらしい．研究よりも実装が研究面への注目を喚起している

産業界への影響，学術面での影響を考慮しても外せないオープンソース実装Hadoopが登場したことも大きい(BigQueryの基礎となっているDremelは代替実装が生まれていない）

OS系会議からのピックアップ

DB系だとビジネス創生、OS系会議だとオープンソース実装が重要WebDB forum 2014

既に登場しているもの• 仮想化技術 + DB• FPGA + DB• Infiniband RDMA + DB• KVS + FPGA / Infiniband RDMA • H/Wトランザクショナルメモリ＋DB

まだ登場していないもの• 機械学習 + アクセラレータ/FPGA• 機械学習 + 高速ネットワーク• NVRAM + DBMS• 組込み/IoT用データ処理

• Query shipping/Continuous queries処理のオフロード• TCP/IP、MQTTの代替プロトコル for IoT-DB

15

OS層からDB層の技術を融合した世界と戦える研究は何か?

WebDB forum 2014

16

学習器1

学習器2

学習器N

パラメタ交換

学習モデル

分割された訓練例

データ並列

データ並列（モデルパラメタ）

Mu Li, David G. Andersen, Jun W. Park, et al., "Scaling Distributed Machine Learning with the Parameter Server", Proc. OSDI, 2014.

OS層からDB層の技術を融合した世界と戦える研究は何か?

超低レイテンシ/Line rateのパラメタ交換（FPGA+高速ネットワーク）

WebDB forum 2014

Date post:	02-Jul-2015
Category:	Engineering
Upload:	makoto-yui
View:	950 times
Download:	6 times

Panel Discussion@WebDB forum 2014

Engineering