Date post: | 02-Jul-2015 |
Category: |
Engineering |
Upload: | makoto-yui |
View: | 950 times |
Download: | 6 times |
産業技術総合研究所 情報技術研究部門
主任研究員 油井誠
大規模機械学習基盤構築の取組み
1
Large-scale machine learning for the rest of us
WebDB forum 2014
1 / 10
自己紹介
学部 修士博士
(NAIST)ポスドク
(CWI)産総研
Web 2.0/AJAXの流行による
データベースへのトランザクションの急増
大量データの価値化
・PostgreSQLを改造してXML取り扱い機能を付与・フロムスクラッチからXML専用のDBを開発
・メニーコアを活かした超並列DBの研究開発・ロックフリーのページ置換アルゴリズムの開発
従来の関係データベースでは上手く扱えない
XMLデータが増加
・大規模機械学習の並列処理・並列データ処理基盤
2WebDB forum 2014
2 / 10
Hivemallとは
Apache Hadoopのエコシステム上に構築したオープンソースの機械学習ライブラリ
3
Hadoop HDFS
MapReduce(MRv1)
Hive/PIGクエリ処理系
Hivemall
Apache YARN
Apache TezDAG処理系
Apache MESOS
Apache SparkDAG処理系
Spark MLlib
MRv2
SparkSQL
分散ファイルシステム
リソース管理システム
並列処理フレームワーク
問合せ処理系
機械学習ライブラリ
github.com/myui/hivemall(bit.ly/hivemall)
WebDB forum 2014
3 / 10
• クラス分類(二値分類/多値分類) Perceptron
Passive Aggressive (PA)
Confidence Weighted (CW)
Adaptive Regularization of Weight Vectors (AROW)
Soft Confidence Weighted (SCW)
AdaGrad+RDA
• 回帰分析 確率的勾配降下法に基づくロジス
ティック回帰
PA Regression
AROW Regression
AdaGrad
AdaDELTA
4
Hivemallが提供する機能
• K近傍法 & レコメンデーション Minhashとb-Bit Minhash (LSH variant)類似度に基づくK近傍探索
• Feature engineering Feature hashing Feature scaling (normalization, z-score) TF-IDF vectorizer
WebDB forum 2014
4 / 10
SQLベースの宣言的かつ容易な記述
5
Hivemallの特徴
Mahoutによるプログラミング
CREATE TABLE lr_model ASSELECTfeature, -- reducers perform model averaging in
parallelavg(weight) as weight
FROM (SELECT logress(features,label,..) as (feature,weight)FROM train
) t -- map-only taskGROUP BY feature; -- shuffled to reducers
一般的なエンジニアでも機械学習を扱える
WebDB forum 2014
5 / 10
6
学習器1
学習器2
学習器N
パラメタ交換
学習モデル
分割された訓練例
データ並列
データ並列
(モデルパラメタ)
Hivemallにおける工夫点
1. データを増幅することで機械学習の繰り返し処理を避けている
2. 関係演算の並列処理に適した実行形態
3. 低レイテンシのパラメタ交換(外部プロセスとの通信による)
WebDB forum 2014
6 / 10
Hivemallの性能
7
Vowpal Wabbit(VW1)…高速な機械学習ライブラリとして最も著名なものVW32…Vowpal Wabbitを32ノードのHadoop環境で動かしたものBismarck…データベース上で動作する機械学習ライブラリとして著名なものSpark… UC Berkeleyが提供する最近最も注目される機械学習フレームワーク
一般に使われるライブラリでは4時間以上かかる処理を32台で2分以内に処理同等精度のVWでは597.67秒(約10分)で5倍以上高速
116.4
596.67
493.81
755.24
465
0
100
200
300
400
500
600
700
800
Hivemall VW1 VW32 Bismarck Spark 1.0
0.64
0.66
0.68
0.7
0.72
0.74
0.76
Hivemall VW1 VW32 Bismarck
KDD Cup 2012, Track 2:データ:中国の検索エンジンプロバイダ提供の実データ(機械学習のPublicなデータとして最大級)
訓練データは2億レコード以上、特徴数は5千万以上
タスク:検索エンジン広告の広告クリックスルー率(CTR)推定CTR=(広告の)クリック数/ (広告の)表示数
WebDB forum 2014
7 / 10
資金提供型共同研究:(株)ロックオン• インターネット広告効果測定
• Eコマースプラットフォーム
• リスティング(検索連動)広告管理
企業での利用及び開発への参加・貢献• (株)フリークアウト
• 国内初のリアルタイム広告入札サービス提供企業
• (株)スケールアウト• 広告配信プラットフォーム提供企業、KDDIが買収
• トレジャーデータ(米)• データ収集・保管・分析のHadoop as a Service提供
等
Hivemallの広告関連企業での導入事例
8WebDB forum 2014
8 / 10
• Hadoop Summit 2014に日本から唯一の採択
• 米InfoWorld誌選定Best Open Source Software Award 2014 受賞• 他は世界的にも著名なソフトばかり
• R(統計解析向けプログラム言語)
• Hadoop
• Hive
• Storm(ストリーム処理基盤)
• Cassandra(非SQLデータベースシステム)
• Neo4J(グラフデータベースシステム)
• KNIME(ワークフローシステム)
• etc.
9
研究成果のアウトリーチ活動の成果
InfoWorld誌はIDGの発行するCIO/ITマネージャ向けの業界誌としてリーディングソース
WebDB forum 2014
9 / 10
• Hadoop/Hiveに基づく機械学習フレームワーク• SQLベースの簡単な記述方法を提供
• データ量の増大に対してスケールする
• 米国業界誌からビッグデータ分析のベストツールとして受賞
• インターネット広告企業を中心にビジネスで使われつつある
• Apache等オープンソースコミュニティへの貢献
→ Apache incubatorに提案予定
10
Hivemallのまとめ
github.com/myui/hivemall (bit.ly/hivemall)
WebDB forum 2014
10 / 10
11
産業界にインパクトのある研究とは何か?
産業界にインパクトを与えた論文は何か?
問を少し変えてみる
WebDB forum 2014
12
SIGMOD Test of Time Awardからのピックアップ
A Case for Redundant Arrays of Inexpensive Disks (RAID). David A. Patterson, Garth A. Gibson, and Randy H. Katz, In Proc. SIGMOD, 1988.
引用数 3281
Encapsulation of Parallelism in the Volcano Query Processing System. Goetz Graefe, In Proc. SIGMOD, 1990. 引用元 383
Mining Association Rules Between Sets of Items in Large Databases. Rakesh Agrawal, Tomasz Imielinski, and Arun Swam
引用元 15008
RAIDの提案、ストレージビジネスへの影響大
Volcano Iterator Modelの提案多くのRDBMS(Postgres/MySQLも)がこの実行モデルに基づく
Aprioriアルゴリズムの提案Data mining on RDBMSの草分け
WebDB forum 2014
13
SIGMOD Test of Time Awardからのピックアップ
WebDB forum 2014
• J Dean, S Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters", Proc. OSDI, 2004.
• Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica, “Spark: cluster computing with working sets”, Proc. HotCloud(USENIX workshop), 2010.
14
AMPLabの学生は初期は論文はあまり出ないかもしれないがプロジェクトに集中するように言われていたらしい.研究よりも実装が研究面への注目を喚起している
産業界への影響,学術面での影響を考慮しても外せないオープンソース実装Hadoopが登場したことも大きい(BigQueryの基礎となっているDremelは代替実装が生まれていない)
OS系会議からのピックアップ
DB系だとビジネス創生、OS系会議だとオープンソース実装が重要WebDB forum 2014
既に登場しているもの• 仮想化技術 + DB• FPGA + DB• Infiniband RDMA + DB• KVS + FPGA / Infiniband RDMA • H/Wトランザクショナルメモリ+DB
まだ登場していないもの• 機械学習 + アクセラレータ/FPGA• 機械学習 + 高速ネットワーク• NVRAM + DBMS• 組込み/IoT用データ処理
• Query shipping/Continuous queries処理のオフロード• TCP/IP、MQTTの代替プロトコル for IoT-DB
15
OS層からDB層の技術を融合した世界と戦える研究は何か?
WebDB forum 2014
16
学習器1
学習器2
学習器N
パラメタ交換
学習モデル
分割された訓練例
データ並列
データ並列(モデルパラメタ)
Mu Li, David G. Andersen, Jun W. Park, et al., "Scaling Distributed Machine Learning with the Parameter Server", Proc. OSDI, 2014.
OS層からDB層の技術を融合した世界と戦える研究は何か?
超低レイテンシ/Line rateのパラメタ交換(FPGA+高速ネットワーク)
WebDB forum 2014