+ All Categories
Home > Documents > Sigir2013 retrieval models-and_ranking_i_pub

Sigir2013 retrieval models-and_ranking_i_pub

Date post: 07-Jul-2015
Category:
Upload: kei-uchiumi
View: 3,725 times
Download: 0 times
Share this document with a friend
Popular Tags:
39
SIGIR2013 Retrieval Models and Ranking I @uchumikDenso IT Lab
Transcript
Page 1: Sigir2013 retrieval models-and_ranking_i_pub

SIGIR2013Retrieval Models and Ranking I

@uchumik(Denso IT Lab)

Page 2: Sigir2013 retrieval models-and_ranking_i_pub

title list

H. Wang et al. Personalized ranking model

adaptation for web search

F. Raiber et al. Ranking document clusters

using markov random fields

J. H. Paik, A novel TF-IDF weighting

scheme for effective ranking

S. Kamali et al. Retrieving Documents with

mathematical content

Page 3: Sigir2013 retrieval models-and_ranking_i_pub

title list

H. Wang et al. Personalized ranking model

adaptation for web search

F. Raiber et al. Ranking document clusters

using markov random fields

J. H. Paik, A novel TF-IDF weighting

scheme for effective ranking

S. Kamali et al. Retrieving Documents with

mathematical content

やたら複雑なTF-IDFやMathMLとか出てきて正直面白くなさそう..

Page 4: Sigir2013 retrieval models-and_ranking_i_pub

Personalized Ranking Model

Adaptation for Web Search 概要

従来のパーソナライズ手法は各ユーザごとにリッチな履歴を必要としていて,ユーザの興味の変化に対応できなかった.また,クエリとURLの間の関係を直接学習するためにカバー率が低い,多くの手法がPRFベースのためにそもそも1段目の検索で上位に来ない物はリランキング結果に出てこない等という問題があった.そこで著者らはグローバルランキングモデルをパーソナライズする手法を提案.加えて,ユーザの興味の変化の早さに追随するために適応効率についても考慮している.提案手法では,グローバルランキングモデルのパラメータに線形変換を掛けることでパーソナライズモデルを作る.ユーザごとに変換行列を密で持つのは上長なため,各素性ごとにスケーリングとバイアスの2つの項だけを持つような行列とすることで空間オーダーを下げている.また,パーソナライズのデータが尐ない場合に観測できる素性が疎になってしまい,パラメータが適切に更新できなくなる問題を,素性をグルーピングしてしまい,観測できた素性についての更新を観測できなかった素性の重みにも伝搬させるという方法で対処している.注目すべきはグローバルランキングモデルのパラメータとパーソナライズランキングモデルの構造が同じ(両方共線形モデル)であるならば,ランキングの学習アルゴリズムが異なっていても良く,グローバルモデルの再学習の必要はない作りとなっている.

Page 5: Sigir2013 retrieval models-and_ranking_i_pub

従来手法の問題点1. Personalizationにリッチな履歴が必要

ユーザの好みやその変化への適用が遅い

2. メモリベースの場合にはカバー率が低い

Query-URLの間の関係を直接学習するため

3. PRFの場合はランキングに影響を与える余地が尐ない

1段目の検索結果の上位のみをリランキングするため

グローバルランキングモデルに線形変換を掛けることでパーソナライズ

提案

Page 6: Sigir2013 retrieval models-and_ranking_i_pub

従来 vs 提案

リッチな情報が必要 素性のグルーピングによってスパースネスの問題に対処効率的なadaptation

カバー率の問題(メモリベース,PRF)

グローバルランキングモデルを線形変換でパーソナライズすることで対処

Page 7: Sigir2013 retrieval models-and_ranking_i_pub

提案手法のフレームワーク

パーソナライズドランキング関数

グローバルランキングモデルにバイアス項のための項を追加

線形変換で各ユーザにパーソナライズ

document の素性ベクトル

Page 8: Sigir2013 retrieval models-and_ranking_i_pub

は密で持つと冗長.素性の各要素に対するスケーリングとバイアスのみ持つ

ユーザの好みの変化の早さに対処するには尐量のデータでadaptationができなければいけない尐量データでは疎な素性に対する重みが適切に更新できない

素性をグルーピングして,観測可能な素性の重みの更新を観測できなかった素性の重みに伝搬させる

Page 9: Sigir2013 retrieval models-and_ranking_i_pub

パラメータ推定

目的関数

: ユーザのクエリセット

: 正則化項

:ランキング学習のアルゴリズムに合わせて選ぶ目的関数Cross-entropi in RankNet

Hinge loss in RankSVM

Page 10: Sigir2013 retrieval models-and_ranking_i_pub

RankNet の目的関数を変更

として目的関数を書換える

を正則化項に追加

LambdaRank の目的関数を変更

RankNetの導関数に評価尺度のゲインを追加するのみ

RankSVM の目的関数を変更

正則化項を に変更

に変更

その他

目的関数が線形モデルであれば w を書換えるのみ

Page 11: Sigir2013 retrieval models-and_ranking_i_pub

利点

グローバルランキングモデルが線形モデルであるならば,再学習せずにパーソナライズができる

グローバルランキングモデルとアダプテーションモデルでアルゴリズムが違っていても良い

Page 12: Sigir2013 retrieval models-and_ranking_i_pub

Feature Grouping Name

素性の名前でまとめあげるパターンを人手で用意してグルーピング

SVD

特異値分解で低次元に圧縮した後にk-meansでクラスタリング

Cross

学習データをN分割して各データごとにモデルを学習.モデルパラメータをまとめたV×N行列を作り,k-means クラスタリング

Page 13: Sigir2013 retrieval models-and_ranking_i_pub

評価 データセット

bing.com の検索ログ(2012/5/27-2012/5/31)

ユーザはランダムにサンプル ユーザID, query, timestamp, top10 document lists, clicks

queryをtimestampでソート

document listsも検索エンジンが返した元の順番に戻している

ユーザ非依存のアノテーション済みデータ 5段階のrelevance scoreが付けられている

1,830 ranking features

BM25, LM score, PageRank 等のよく使われる素性も含む

Page 14: Sigir2013 retrieval models-and_ranking_i_pub

Analysis of feature grouping

Kの値は一番良い値の周りではそんなにMAPに影響しない

MAPはCrossが最も高い

ドキュメントのランキングに類似した影響を与えてる素性をグルーピングしているため

Page 15: Sigir2013 retrieval models-and_ranking_i_pub

Analysis of feature grouping

Kに対するパラメータの平均更新回数

Kが小さいと関連の薄い素性も一緒に更新させてしまい,パフォーマンスが悪化する

Page 16: Sigir2013 retrieval models-and_ranking_i_pub

Adaptation performance

ベースライン

Page 17: Sigir2013 retrieval models-and_ranking_i_pub

Adaptation performance

ベースライン素性が観測できない場合の更新はやはり問題(Tar-*)Global Model で back-off する(RA)よりも,観測できた素性の更新を伝搬させる方が良い.

Page 18: Sigir2013 retrieval models-and_ranking_i_pub

Adaptation performance

Global model のみだとパーソナライズできない(Source-Only)

ユーザデータと統合した手法ではMAPが10ポイント以上UP

ベースライン(IW-*, Trans*,CL*)のために全ユーザの適用データを収集したため,sparsityの問題は無いが,各ユーザの好みが収集した他のユーザのclicksで打ち消されてしまった(そもそもこれらはドメインアダプテーションを対象に作られている).提案手法は各ユーザごとにパーソナライズできている.

Page 19: Sigir2013 retrieval models-and_ranking_i_pub

Adaptation performance

クエリは繰り返し入力される現象があるので,テストセットをリピートされるクエリとそれ以外とで分けてテスト.Repeated ではグローバルモデルからの改善はどちらも無かったが,Non-repeated では Cross だけ改善が見られた.RA はメモリベースなので観測が無いと素性を適切に更新できないが,Cross は観測が無くても素性のグルーピングで更新を伝搬させるためNon-repeated なクエリに強い.

Page 20: Sigir2013 retrieval models-and_ranking_i_pub

Adaptation performance

どのタイプのクエリに効果があるのか

主にナビゲーショナルクエリに対して効果が見られた

global model の44.9%のナビゲーショナルクエリでMAPが向上

MAPが下がったのは10.2%のみだった

“HowTo,”, “Health”, “Q&A”はランキングが悪化したこれらのインフォメーショナルクエリは調査目的

クリックがばらけている

ユーザが明確な答えを持っていない

Page 21: Sigir2013 retrieval models-and_ranking_i_pub

Adaptation performance どんなユーザに対して提案手法は効果的か

Heavy(10↑adaptation query), medium(5-10 ap), light(5↓ap)

Page 22: Sigir2013 retrieval models-and_ranking_i_pub

Adaptation performance

global model からのMAPの上昇をプロット

1,2クエリで15%以上の向上

Cross-LambaRankは3クエリで25%アップ

RAは10クエリで23%アップ

素性のグルーピングでデータのsparsityに対処しているのが効いている

Page 23: Sigir2013 retrieval models-and_ranking_i_pub

Adaptation performance オンライン学習での比較

バッチ学習だとデータ集計が必要で実用的ではない

Tarはベースラインからの向上が無い 観測できない素性をアップデート

できない

RAもグローバルモデルからの向上のカーブが鈍い 1つ前のiterationのモデルが

正則化項として入っているため

提案手法はオンライン学習でも効果的

Page 24: Sigir2013 retrieval models-and_ranking_i_pub

Conclusions

パーソナライズのためのgeneral ranking model

adaptation frameworkを提案

全体のランキングモデルの線形変換でパーソナライズモデルを作る

適応効率だけではなく,性能でも従来手法を上回った

future work

feature grouping と線形変換を同時に推定

線形変換にユーザの興味をより反映させるuser-specific

な素性を追加する

Page 25: Sigir2013 retrieval models-and_ranking_i_pub

title list

H. Wang et al. Personalized ranking model

adaptation for web search

F. Raiber et al. Ranking document clusters

using markov random fields

J. H. Paik, A novel TF-IDF weighting

scheme for effective ranking

S. Kamali et al. Retrieving Documents with

mathematical content

Page 26: Sigir2013 retrieval models-and_ranking_i_pub

Ranking Document Clusters

Using Markov Random Fields

概要

クラスタランキングはクエリとクラスタを比較する.いくつかの手法はクラスタ間やクラスタとドキュメントの類似度等の情報を追加しているが,様々なクラスタとクエリの関係を表す情報を効率的に統合可能にする抜本的なフレームワークはまだない.そこでMRFを用いて様々な情報を取り込むことが可能なクラスタランキング手法を提案している.

Page 27: Sigir2013 retrieval models-and_ranking_i_pub

Dinit

初期のランキング

d1

d2

d3

.

.

.

クラスタリング

c1 c2 c3

Retrieval Framework

Cl(Dinit)

c1

c3

c2

ランキング

ドキュメントの重複ありクラスタとクエリの類似度でランキング

ドキュメントランキング

d2

d1

d3

d4

クラスタ間のドキュメントの重複を削除

Page 28: Sigir2013 retrieval models-and_ranking_i_pub

ランキング

Dinit

初期のランキング

d1

d2

d3

.

.

.

クラスタリング

c1 c2 c3

Retrieval Framework

Cl(Dinit)

c1

c3

c2

ドキュメントの重複ありクラスタとクエリの類似度でランキング

(研究対象)

ドキュメントランキング

d2

d1

d3

d4

クラスタ間のドキュメントの重複を削除

Page 29: Sigir2013 retrieval models-and_ranking_i_pub

MRF によるクラスタランキングクエリに対するクラスタの関連度

をMRFでモデル化

分配関数Zの計算はランキング時には不要

クリーク集合L(G)に含まれるクリークlに対する素性関数

Page 30: Sigir2013 retrieval models-and_ranking_i_pub

MRFの利点

ポテンシャルの計算の素性設計が自由になる

1. グラフGの構造(クリークの集合L(G))

2. クリークの素性関数

クラスタ内のドキュメントとクエリの類似度を見る

ドキュメントとクエリの類似度の間の関係類似度の最小値,最大値,標準偏差

クエリ非依存の素性クラスタの重要度等を見るPageRank, ストップワード比等

Page 31: Sigir2013 retrieval models-and_ranking_i_pub

評価 Dinit はMRF with SDM,DocMRF,LMの3パターンで評価

SDM の free parameter

既存研究にある値を使用

train data を使った交差検定で決定

DocMRF: クエリ比依存のドキュメント素性を加えたSDM

LM: Unigram language model

クラスタリングにはNNを使用

各クラスタはk個のドキュメントを持つ(k={5,10,20}からCVで決定)

提案手法(ClustMRF)の free parameter もCVで学習

評価データ

Page 32: Sigir2013 retrieval models-and_ranking_i_pub

ランキングの評価

init: MRF’s SDM

TunedMRF: MRF’s SDM

のパラメータをCVで決定ClustMRF: パラメータはCVで決定

Page 33: Sigir2013 retrieval models-and_ranking_i_pub

素性の分析

SVMrankで学習した時のパラメータの重みを使って寄与の大きい物を取り出し,各素性のみでランキングした場合を比較.

Page 34: Sigir2013 retrieval models-and_ranking_i_pub

他のcluster-based methods との比較 Inter はクエリとドキュメントの類似度とクエリとクラスの類似度の線

形補完(State-of-the-art)

Page 35: Sigir2013 retrieval models-and_ranking_i_pub

Dinit のアルゴリズムの比較

省略

DocMRFを使ってもLMを使ってもClustMRFが良い結果

Page 36: Sigir2013 retrieval models-and_ranking_i_pub

クラスタリング手法の比較階層凝集型クラスタリング(HAC)とNNを比較

Page 37: Sigir2013 retrieval models-and_ranking_i_pub

Dinitの数を変化させて評価

Page 38: Sigir2013 retrieval models-and_ranking_i_pub

Diversifying search で評価

MRF, ClustMRF, Qclustの出力したランキングをDiversification methodsの入力として使用

Page 39: Sigir2013 retrieval models-and_ranking_i_pub

CONCLUSIONS

新しいcluster ranking手法を提案

MRFを使うことで様々なタイプの情報を扱える

様々な実験で提案手法のパフォーマンスを評価

diversification methods のパフォーマンス向上にも使える


Recommended