Date post: | 02-Jul-2015 |
Category: |
Science |
Upload: | masashi-tsubosaka |
View: | 3,490 times |
Download: | 0 times |
EMNLP 2014読み会 Using structure events to predict stock price movements:
an empirical inves>ga>on
坪坂正志 [email protected]
紹介論文
• Using structured events to predict stock price movement: an empirical inves>ga>on – ニュース記事から将来の企業の株価の動きがど
うなるかを予測したい – 従来研究は記事のBOW特徴量を主に利用 – 本研究は既存研究に対して二つの工夫をするこ
とによって高い精度を達成 • 記事から構造化されたイベントを抽出してそれを特徴
量に利用 • 株価の動きの学習にDeep Neural Networkを利用
背景
• 株価の動きを予測したい – 市場の動きが予測可能かどうかについては多くの議論がある – 例えばファイナンスで使われるRandom walk理論は価格はラン
ダムに決定されるという仮定に基づいている • 近年ではwebのニュース記事を自然言語処理技術で処理
して価格を予測するという研究がいくつかなされている – Das and Chen 2008, Tetlock+ 2007 2008,Si+ 2013, Xie+ 2013
既存研究での課題
• ニュース記事から価格を予測しようとするとき既存研究はBOWや固有表現など単純な特徴量しか用いてこなかった – “Apple has sued Samsung for copying…”のような
文章から{“Apple” , “sued” , “Samsung” , “copying”}のような特徴量を作成
– この特徴量からAppleやSamsungの株価がどうなるかを予測するのは困難
Structured Event repsenta>on
• 文章からO1(Actor)がO2(Object)にP(Ac>on)したという情報を取り出す – Microso] agrees to buy Nokia’s mobile phone businessのような文章から
– E = (Actor=Microso], Object = Nokia’s mobile phone business, Ac>on=buy)
– E= (O1,P,O2,T)というタプルで表現する • ここでTはイベントの時刻であるが、これはニュース記
事であればデータから取り出すことができる
Event extrac>on
• Fader+ 2011の手法を利用 – Iden>fying rela>ons for open informa>on extrac>on, EMNLP 2011
• 以下の二つの制約をみたすようなPを探す – Syntac>c constraint: 動詞で始まり前置詞で終了する – Lexical constraint: Pは複数のコーパスに出現する
• Pを探してきたら一番近い左にある名詞句O1を探してくる
• 同様に一番近い右にある名詞句O2を探してくる
Event generaliza>on
• “Microso] swallows Nokia’s phone business” • “Microso] purchases Nokia’s phone business” • の二つは同じイベント • WordNet, VerbNetのようなオントロジー情報
を使って一般化する • 例えば”buy”という単語を”get_class”に変換
する
予測モデル
• 既存研究 翌日/翌週/翌月の株価が上がるか下がるかでSVMを使って二値分類
• 本研究 Deep neural networkモデルにより予測
Feature representa>on
• (O1,P,O2,T)というタプルがあった場合、(O1,P,O2,O1+P,P+O2,O1+P+O2)と変換した特徴量を利用する
実験データ
• 2006年から2013年までのReuters,Bloombergのデータを利用
• 前日のニュース記事の内容集合から翌日/翌週/翌月のS&P stockが上がるか下がるかを予測 – 時間についてはもっと短期間の予測を考えられるがその
粒度での株価およびニュースのデータがないため今回は実験しなかった
Overall Results
• 特徴量をBOWからイベントへ • 学習器をSVMからDeepNNに変更することに
よって予測精度が向上している
隠れ層の数の影響
• 隠れ層の数を1から2にしたところ精度は向上 • 一方で2から5へと増やしてったところ精度の
向上はほぼ見られなかった
利用するデータ量について
• Reuterのタイトルデータのみ利用した方がコンテンツも合わせて利用するより精度が高くなった
• またbloombergのタイトルも追加した場合は精度がわずかながら上昇した
• コンテンツの情報を追加してデータを増やすより質が高いタイトルのデータだけを使った方がよいという結果になっている
個別の株価の予測について
• 個別の株価の予測においてはその企業についての記事のみ利用した方が高い精度となっている
• また大きい企業の方が記事数も多いことから高い精度で予測が出来ている
実際のNNの例
• あるニューロンはGoogleの買収に関するイベントと結びつけられており、株価のプラスに作用している
• 一方であるニューロンはGoogleの訴訟などの悪い評価と結びつけられており株価にマイナスに作用している
最終的な結果
• テストセットに対してこれまでで得られた学習器を適応したら以下のような結果となった
まとめ
• Event-‐basedの文章表現を使うことによって、BOWベースの文章表現より株価の予測精度が高くなった
• Deep Neural networkの利用により線形モデルを使うよりも予測精度が高くなった
• 既存研究だとSen>ment Analysisを利用する物が多いが、それとの組み合わせることも可能である – Ex: Bollen+, Twiler mood predicts the stock market, 2011