人間だったら考えて

なんでよ?考えて考えてっ 人間だったら考えて

SIGIR2018参加記

2018/7/8-12にSIGIR 2018に行ってきたので、感想を書いていこうと思います。

SIGIRは情報検索分野のトップカンファレンスであり、検索システムやレコメンドなどに関する研究を対象としています。
41回目となる今回は、ミシガン州のアナーバーにあるミシガン大学で開催されました。

f:id:sz_dr:20180716014004j:plain
今回の会場であるThe Michigan League
f:id:sz_dr:20180716014355j:plain
ミシガン大学はとてつもなく広々としていました

7/7(土) 出発日

HND → ORD (Chicago O'Hare Airport) → DTW (Detroit Metropolitan Wayne County Airport)という旅程で行きました。

早速ですが、羽田空港でチェックイン失敗しました。
同行人に搭乗券をセットで予約してもらっていたのですが、その際に僕の名前を間違えて予約してしまったそうです。

空港で搭乗券の名前変更をお願いしたところ、HND → ORDの便は変更していただきましたが、ORD → DTWの便は変更できませんでした (別会社の便なので、それはそう)。

このままだとORDで路頭に迷ってしまうため、出発早々詰みか!?という状況に陥りましたが、その場でORD → DTWの別の便を予約し、日本を発つことができました。本当に心臓に悪かった。。。

日本とミシガン州の時差は14時間もあるので、日本を出発した時刻とおおよそ同じ時刻にDTWに到着しました。早速時差ボケでフラフラになりました。

デトロイト周辺は治安が悪いらしいので、DTWからUberに乗ってとっととホテルへ向かいました。

f:id:sz_dr:20180716021315j:plain
DTWの看板は日本語表記が多かったです

f:id:sz_dr:20180716021925j:plain
ホテルはミシガン大学から5kmくらい離れていましたが、往復シャトルバスが出ていました。

7/8(日) Tutorial Session

初日はTutorial Sessionの日でした。せっかくなので、今まで触れてこなかったknowledge graphに関するTutorial Sessionに参加しました。
Knowledge Extraction and Inference from Text: Shallow, Deep, and Everything in Between
資料も公開されています。

内容はword embeddingの話から始まり、knowledge graphにおけるentityやrelationのembeddingの紹介、Relation ExtractionやQuestion Answeringなど様々な応用例を紹介していました。
個人的には「あっentityとかrelationもembeddingしたりするんだー」くらいの知識だったので結構辛かったです。。。

Tutorialを理解するにあたって、以下の記事が非常に参考になりました。
yamaguchiyuto.hatenablog.com

Tutorialが終わった後はMichigan Museum of ArtでReceptionがありました。
f:id:sz_dr:20180716105553j:plain
Receptionついでに絵画見学もできました。全く予習せずに行ったので、ピカソの絵があったなあということしか覚えていません。。。

7/9(月) 会議1日目

会議1日目はOpening Session・Gerard Salton Awardを獲ったKalervo P. Jarvelinによるkeynote・Technical Session・Industrial Sessionがありました。

Opening Sessionでは、Full-Paperの採択率は21%・Short-Paperの採択率は30%と報告されていました、さすが。。。。
投稿数は中国が最多で、次いでアメリカ、後はもろもろと言った感じです。

f:id:sz_dr:20180716030842j:plain
配布された紙袋情報です。テーマ傾向が一目で分かります。

Opening Session、keynoteの後は1D: Learning to Rank I2C: App Search & RecommendationのSessionに行きました。
ランク学習でSession組めるのはさすがSIGIRといったところ。。。

個人的には、Learning a Deep Listwise Context Model for Ranking Refinementで紹介されていた、globalなランキングモデル(RankSVMやLambdaMARTを使っていました)で文書をランキングした後に、localなモデル(GRU)でリランキングするといった話が面白かったです。
GRUの学習はglobalなランキングモデルでhitした上位の文書を用いていて、確かにそうすればlocalな情報を取り入れられるなあ。。。

お昼ご飯はZingerman'sというサンドイッチ(?)屋へ。サイズが大きすぎたが最高に美味しかったです。
https://www.yelp.com/biz/zingermans-delicatessen-ann-arbor-2

f:id:sz_dr:20180716110320j:plain
ちゃんとしたコーンビーフが挟んであった。ピクルスも大きすぎる。

7/10(火) 会議2日目

会議2日目はData Science for Social Good & Public Policyというkeynoteからスタート。

データサイエンスと倫理という文脈は、かなり色々なところで語られているなあと思います。(Facebookの広告ポリシーなどなど)

Tutorialも用意されており、かなり丁寧に教育しているようです。
github.com

Technical Sessionは3A: Social Good4B: Behaviorへ。

特に面白かったのは、4B: Behavior SessionのBetween Clicks and Satisfactionです。
ある文書がクリックされたからといって、必ずしもユーザーが満足したわけではない(即離脱したらその文書は微妙)ので、滞在時間などを加味して満足したかどうかを判定することがあります。
この研究ではニュースストリームを対象としており、記事を読む前・読んだ後でユーザーの満足度を測っていました。
文書を読む前と後とで満足度を定義するのは良いなあと思いつつも、どうしてもユーザーインタビューが挟まってしまうのがなんとも。。。

2日目の夜はHenry Ford Museumにてバンケットが開かれました。Henry Ford Museumはミシガン大学から1時間くらいバスに乗ったところにあり、遠すぎる〜〜〜以外の感情を失いました。

f:id:sz_dr:20180716153336j:plain
Henry Ford Museumに向かうバンケット列(長い)

f:id:sz_dr:20180716153448j:plain
美術館の中で飲み食いしていいのか不安になるなど

f:id:sz_dr:20180716153805j:plain
たくさんのビンテージカーが展示されていました

f:id:sz_dr:20180716153649j:plain
ミシガン州発祥(?)の音楽(チャラい)

音楽に合わせて踊る情報検索研究者の様子です↓

7/11(水) 会議3日目

バンケットが遅くまでやっていた & 会場が遠かったので完全に睡眠不足でした。

この日は5C: New Metrics6D: Mobile User Behavior7B: Content & Semanticsへ。

5C: New Metricsは大盛況でした。
f:id:sz_dr:20180716154725j:plain


情報検索の評価ではMAPやらNDCGやらUtilityなど色々提案されていますが、評価指標って本当に難しいと思います。
まあ、だいたい皆さんNDCGで評価しているわけですが。。。

この日はPanel Sessionがあったのですが、ちょうど同じ時間帯でWorld Cupの試合があり、Panel Sessionそっちのけで観戦している人がたくさんいました。


Panel Session・Closing Sessionも終わり、本会議はとりあえず終了です。

夜はスペイン料理屋に行き、デザートにBlank Slate Creameryというアイスクリーム屋に行きました。

f:id:sz_dr:20180716155858j:plain
料理名が何もわからなかったので、とりあえずオススメを注文していった
f:id:sz_dr:20180716160029j:plain
smallを頼んだはずなのにサイズが大きすぎる

7/12(木) 会議4日目 (最終日)

最終日はworkshopの日であり、今回のSIGIR参加最大の目的であるSIGIR eComというeコマース領域に関するworkshopに参加しました。

eCom workshopでは、Rakuten Data Challengeという機械学習コンペを開催していました。
タスクとしては、商品のタイトルからカテゴリを予測するというシンプルな課題(とはいえ、情報はタイトルしか無いので難しい課題)でした。
実は私もこのコンペに参加しており、弊チームは2位を獲ることができました。

コンペで用いた手法を、ポスター発表で紹介してきました。


(1枚目の写真の後ろの方にチラッと写っています)

2位を獲ったからか、他のチームが試していない手法を使っていたからか、結構多くの人が聞きに来てくれました。
(英語力不足で詳細な説明ができなかったのが悔やまれる。。。)

コンペの内容や各チームの手法はaccepted papersにまとまっています。

7/13(金) 帰宅日

出発時にトラブルがあったので無事帰れるかどうか不安でしたが、特に何事もなく日本に無事帰還し、これにて私のSIGIR 2018は終了です。

まとめ

さすがSIGIRというか、非常に丁寧な研究がたくさんありました。多くの研究がデータセットやプログラムも公開しています。

あと、搭乗券の名前はしっかり確認しましょう。