人間だったら考えて

SIGIR Learning to Rank sessionから見るランク学習研究の動向（２）

機械学習

この記事はランク学習（Learning to Rank） Advent Calendar 2018 - Adventarの9本目の記事です

この記事は何？
SIGIR 2010
SIGIR 2011
SIGIR 2012
まとめ

この記事は何？

以下記事の続編です。今回はSIGIR 2010・2011・2012のランク学習セッションの論文を紹介していきます。
szdr.hatenablog.com

SIGIR 2010

SIGIR 2007 ~ 2009はランク学習セッションが2セッションあったのですが、この年から1セッションだけになっていきます。
下火になったのか、応用研究が増えていったのか。。。？

以前までのランク学習セッションは理論寄りの研究が多かったのですが、この年は広告におけるランク学習問題というかなり応用寄りな研究が採択されているのが面白かったです。

Learning to efficiently rank

ランク学習は精度を上げる方向で研究が進んできたが、ランキング速度も重要
精度と速度を両方加味したスコアを提案
提案したスコアに合わせたランキングモデルも提案し、精度も速度も良い結果が得られた

Ranking for the conversion funnel

広告におけるランク学習問題。広告には「見る（impression）」→「クリックする（click）」→「買う（cv）」の3段階のファネルが存在
CVモデル・Click重み付けモデル・順序回帰モデルの3つを比較
順序回帰モデルはオンラインテストも実施。CTR下がりCPC上がってしまったが、CVR上がりCPA下げることができた

How good is a span of terms?: exploiting proximity to improve web retrieval

クエリに含まれる単語が文書にどの程度隣接して出現するかという特徴が提案されている
文書にスパン（区切り）を導入して、その中で計算される隣接度を用いたランキングを提案
既存のBM25ベースの手法よりも精度向上

（論文がダウンロードできませんでした）

SIGIR 2011

SIGIR 2011のランク学習セッションは、既存のランク学習を実応用しようとするとぶち当たる問題を、頑張って解決しようとする研究が多いです。
今までは精度を中心に追ってきたランク学習研究ですが、精度+速度や精度+新鮮さなど、他の側面に光を当てて同時に解こうとする方向性のように見えます。

SIGIR 2011読み会でランク学習セッションをまとめてくださってる方がいました！

SIGIR2011読み会 3. Learning to Rank from sleepy_yoshi

www.slideshare.net

Bagging gradient-boosted trees for high precision, low variance ranking models

ブースティング木ベースのランク学習手法であるLambdaMARTを更にアンサンブルして精度向上
（えーこれSIGIR通るの。。。）

Learning to rank for freshness and relevance

web検索において、"halloween"や"US open"など「新鮮な」文書を出したいクエリがある
既存研究では新鮮さ特化モデル・関連度特化モデルを個別に用意していたが、新鮮さ・関連度両方を同時に最適化する手法を提案

A cascade ranking model for efficient ranked retrieval

ランキングの精度と速度トレードオフ問題
ランキングを複数のステージに分割し、各ステージで「いらない文書枝刈り」「残った文書ランキング」を実行するCascade Rankingという手法を提案
精度も速度も良い結果が得られた

Relevant knowledge helps in choosing right teacher: active query selection for ranking adaptation

ランク学習文脈でもラベル付きデータを作るのは大変
ドメイン適応+能動学習を組み合わせて、少ないデータでも効率的に学習する手法を提案

SIGIR 2012

この年は3本しかランク学習セッションに出てない。。。
質問応答とへの適用という応用寄りの話と、今までのランク学習それで良いんだっけ？みたいな問題提起＆解決論文が出ており、ランク学習応用の広がりを感じました。

SIGIR 2012読み会でランク学習セッションをまとめてくださってる方がいました！（↑と同じ方ですね）
d.hatena.ne.jp

Structural relationships for large-scale learning of answer re-ranking

質問応答問題へのランク学習応用
ランク学習における入力クエリを質問・文書を回答とみなして、回答候補をランキングモデルで順序付けして提示する
文字列カーネルや木構造カーネルをSVMに適用し、BM25より精度向上

Top-k learning to rank: labeling, ranking and evaluation

検索サービスにおいて、ユーザーにとってはtop-kの文書の並び順が重要
「top-k文書のラベリング手法」・「top-k文書をリストワイズで学習し残りをペアワイズで学習する手法」&「top-kに注目した評価指標」を提案
top-kに注目した評価指標においては、提案手法の精度が良いことを確認

Robust ranking models via risk-sensitive optimization

ランク学習手法はベースラインと比較して「平均的な」精度を上げてきたが、クエリによっては精度が下がってしまうケースもある
リスク（ベースラインを下回る）を小さく・報酬（ベースラインを上回る）を大きくするように、ランク学習手法の1つであるLambdaMARTを改造
ハイパーパラメータによって、リスクを抑えつつ精度を上げることに成功

まとめ

この記事ではSIGIR 2010・2011・2012のランク学習セッションの論文をザッと紹介しました。
以前のランク学習セッションと比較して、応用寄りの研究（広告問題や質問応答問題）や、単に精度を上げる問題でなくトレードオフ（予測速度や文書の新鮮さ、ベースライン手法よりも下回らない）を考える研究など、ランク学習を実応用する上で出てきた課題を解決しようとする研究が増えてきたのではないかと思います。