人間だったら考えて

なんでよ?考えて考えてっ 人間だったら考えて

SIGIR Learning to Rank sessionから見るランク学習研究の動向(3)

この記事はランク学習(Learning to Rank) Advent Calendar 2018 - Adventarの10本目の記事です

この記事は何?

以下の記事の続編です。

szdr.hatenablog.com
szdr.hatenablog.com

この記事ではSIGIR 2013・2014・2015のランク学習に関するセッションを取り上げていきます。



SIGIR 2013

この年からしばらく"Learning to Rank"と名のついたセッションは無くなっています。
似たようなセッションとして、SIGIR 2013では"Retrieval models and ranking"というセッションが生まれています。
なので、"Retrieval models and ranking"セッションにおいて、ランク学習に関連する研究を紹介します。

発表資料を見つけました。

  • 検索結果のランキングをユーザー毎に出し分けしたい(パーソナライズ)
  • ランク学習手法で広く使われているRankNetやRankSVMで学習し得られたパラメータを線形変換し、パーソナライズを達成
  • クエリの特性(繰り返し検索される?)やユーザーの特性(heavy/medium/light)に注目しながら精度評価し、既存手法よりも高い精度

Ranking document clusters using markov random fields

A novel TF-IDF weighting scheme for effective ranking

  • TF-IDFの新しいバージョンを提案
  • クエリの長さを考慮したTF-IDF重み付けになっている
  • 既存のTF-IDF手法よりも高精度



SIGIR 2014

SIGIR 2014はランク学習っぽいセッションが見当たらず。。。ってかSIGIR 2014のセッション名ちゃらくないですか? "#microblog #sigir2014"だの"(i can't get no) satisfaction"だの"how to win friends and influence people"だの。。。全然良いんですけど()



SIGIR 2015

とうとうSIGIR 2015では"Deep Learning"という名のついたセッションが誕生しています。
SIGIR 2015もランク学習セッションは見当たらなかったので、Deep Learningセッションを紹介します。

Monolingual and Cross-Lingual Information Retrieval Models Based on (Bilingual) Word Embeddings

(論文がダウンロードできませんでした)

Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks

  • CNNをランク学習に適用
  • 単語それぞれのembeddingベクトルを考えて、クエリ・文書から得られるembedding matrixからCNNを通して最適化
  • Question Answering・Microblog Retrievalについて、既存手法よりも高い精度が得られている
  • スポンサードサーチ広告において、検索クエリを書き換えた結果で広告を引く
  • 検索クエリの遷移や単語列から、クエリのembeddingベクトルを求めて、k-NNで似ているクエリを求める



まとめ

SIGIR 2013・2014・2015はあまりランク学習盛り上がって無いですね。。。
SIGIR 2015ではDeep Learningセッションが生まれているのもありますが、この頃くらいからDeepを情報検索に応用する話がたくさん出てきているように見えます。