+ All Categories
Home > Science > EMNLP2014_reading

EMNLP2014_reading

Date post: 02-Jul-2015
Category:
Upload: masashi-tsubosaka
View: 3,490 times
Download: 0 times
Share this document with a friend
Description:
EMNLP読み会2014@PFI
17
EMNLP 2014読み会 Using structure events to predict stock price movements: an empirical inves>ga>on 坪坂正志 [email protected]
Transcript
Page 1: EMNLP2014_reading

EMNLP  2014読み会  Using  structure  events  to  predict  stock  price  movements:    

an  empirical  inves>ga>on

坪坂正志  [email protected]

Page 2: EMNLP2014_reading

紹介論文

•  Using  structured  events  to  predict  stock  price  movement:  an  empirical  inves>ga>on  – ニュース記事から将来の企業の株価の動きがど

うなるかを予測したい  – 従来研究は記事のBOW特徴量を主に利用  – 本研究は既存研究に対して二つの工夫をするこ

とによって高い精度を達成  •  記事から構造化されたイベントを抽出してそれを特徴

量に利用  •  株価の動きの学習にDeep  Neural  Networkを利用  

Page 3: EMNLP2014_reading

背景

•  株価の動きを予測したい  –  市場の動きが予測可能かどうかについては多くの議論がある  –  例えばファイナンスで使われるRandom  walk理論は価格はラン

ダムに決定されるという仮定に基づいている  •  近年ではwebのニュース記事を自然言語処理技術で処理

して価格を予測するという研究がいくつかなされている  –  Das  and  Chen  2008,  Tetlock+  2007  2008,Si+  2013,  Xie+  2013  

Page 4: EMNLP2014_reading

既存研究での課題

•  ニュース記事から価格を予測しようとするとき既存研究はBOWや固有表現など単純な特徴量しか用いてこなかった  – “Apple  has  sued  Samsung  for  copying…”のような

文章から{“Apple”  ,  “sued”  ,  “Samsung”  ,  “copying”}のような特徴量を作成  

– この特徴量からAppleやSamsungの株価がどうなるかを予測するのは困難

Page 5: EMNLP2014_reading

Structured  Event  repsenta>on

•  文章からO1(Actor)がO2(Object)にP(Ac>on)したという情報を取り出す  – Microso]  agrees  to  buy  Nokia’s  mobile  phone  businessのような文章から  

– E  =  (Actor=Microso],  Object  =  Nokia’s  mobile  phone  business,  Ac>on=buy)  

– E=  (O1,P,O2,T)というタプルで表現する  •  ここでTはイベントの時刻であるが、これはニュース記

事であればデータから取り出すことができる

Page 6: EMNLP2014_reading

Event  extrac>on

•  Fader+  2011の手法を利用  –  Iden>fying  rela>ons  for  open  informa>on  extrac>on,  EMNLP  2011  

•  以下の二つの制約をみたすようなPを探す  –  Syntac>c  constraint:    動詞で始まり前置詞で終了する  –  Lexical  constraint:  Pは複数のコーパスに出現する  

•  Pを探してきたら一番近い左にある名詞句O1を探してくる  

•  同様に一番近い右にある名詞句O2を探してくる

Page 7: EMNLP2014_reading

Event  generaliza>on

•  “Microso]  swallows  Nokia’s  phone  business”  •  “Microso]  purchases  Nokia’s  phone  business”  •  の二つは同じイベント  •  WordNet,  VerbNetのようなオントロジー情報

を使って一般化する  •  例えば”buy”という単語を”get_class”に変換

する

Page 8: EMNLP2014_reading

予測モデル

•  既存研究 翌日/翌週/翌月の株価が上がるか下がるかでSVMを使って二値分類  

•  本研究  Deep  neural  networkモデルにより予測

Page 9: EMNLP2014_reading

Feature  representa>on

•  (O1,P,O2,T)というタプルがあった場合、(O1,P,O2,O1+P,P+O2,O1+P+O2)と変換した特徴量を利用する

Page 10: EMNLP2014_reading

実験データ

•  2006年から2013年までのReuters,Bloombergのデータを利用  

•  前日のニュース記事の内容集合から翌日/翌週/翌月のS&P  stockが上がるか下がるかを予測  –  時間についてはもっと短期間の予測を考えられるがその

粒度での株価およびニュースのデータがないため今回は実験しなかった

Page 11: EMNLP2014_reading

Overall  Results

•  特徴量をBOWからイベントへ  •  学習器をSVMからDeepNNに変更することに

よって予測精度が向上している

Page 12: EMNLP2014_reading

隠れ層の数の影響

•  隠れ層の数を1から2にしたところ精度は向上  •  一方で2から5へと増やしてったところ精度の

向上はほぼ見られなかった

Page 13: EMNLP2014_reading

利用するデータ量について

•  Reuterのタイトルデータのみ利用した方がコンテンツも合わせて利用するより精度が高くなった  

•  またbloombergのタイトルも追加した場合は精度がわずかながら上昇した  

•  コンテンツの情報を追加してデータを増やすより質が高いタイトルのデータだけを使った方がよいという結果になっている

Page 14: EMNLP2014_reading

個別の株価の予測について

•  個別の株価の予測においてはその企業についての記事のみ利用した方が高い精度となっている  

•  また大きい企業の方が記事数も多いことから高い精度で予測が出来ている

Page 15: EMNLP2014_reading

実際のNNの例

•  あるニューロンはGoogleの買収に関するイベントと結びつけられており、株価のプラスに作用している  

•  一方であるニューロンはGoogleの訴訟などの悪い評価と結びつけられており株価にマイナスに作用している

Page 16: EMNLP2014_reading

最終的な結果

•  テストセットに対してこれまでで得られた学習器を適応したら以下のような結果となった  

Page 17: EMNLP2014_reading

まとめ

•  Event-­‐basedの文章表現を使うことによって、BOWベースの文章表現より株価の予測精度が高くなった  

•  Deep  Neural  networkの利用により線形モデルを使うよりも予測精度が高くなった  

•  既存研究だとSen>ment  Analysisを利用する物が多いが、それとの組み合わせることも可能である  –  Ex:  Bollen+,  Twiler  mood  predicts  the  stock  market,  2011