2011年9月3日土曜日

ACL2011読み会で発表してきました

今日は、サイボウズ・ラボさんにおじゃまして、ACL2011読み会で発表しました

今日読んだ論文はこれです。

Exploiting Web-Derived Selectional Preference to Improve Statistical Dependency Parsing.
Guangyou Zhou, Jun Zhao, Kang Liu, Li Cai.
ACL2011. [pdf]

発表スライドはこちらです。




内容はすごい簡単です。一言で言えば、単語の出現確率のPMIをgraph baseの係り受け解析の特徴量にいれたら精度が上がりました。これだけ。でも、これだけ主張が短くてはっきりしていて、アイデアも適用方法も明確なのは良いと思いました。一方で、いかにも誰かやってそうな方法で、既存研究ないのかという方が気になる論文です。

さて、もうちょっとちゃんと説明しましょう。係り受け解析についての詳細は割愛します。文中の単語の係り受け関係を解析するタスクです。以前TokyoNLPで発表した資料を見てください。やるとわかるのですが、品詞情報などでわかる構造はだいたい当たるようになる一方で、どうしても品詞だけだとわからない部分をちらほら間違えます。例えば、「値段の高いワイン」と「父の高いワイン」は「値段」も「父」も同じ名詞なのに構造が全く違う。
ここで、選択選好という用語の登場です。選択選好というのは、単語には係り安い単語がある、という様な意味で、例えば「・・・の高い」といったら、・・・の部分には「値段」や「背」など高さを持つ単語がきやすくて、「父」はこないというような性質です。この、係り安さというのを、コーパス中での共起しやすさで表現しようというアイデアです。共起しやすさは、PMI(自己相互情報量、Point-wise Mutual Information)で測ります。これは、2つの確率変数の同じ確率が、偶然の共起(=独立)に比べてどれくらい共起するかの指標です。単に共起頻度さえ測れれば計算できるのでよく使われます。これを高階Eisnerのlog-linearモデルの特徴にしてしまいます。
内容はこれだけです。3単語の場合の測り方などのちょっと変化球もありますが、大きくアイデアが変わるわけではありません。
PMIを測る方法、というよりは共起頻度を測る方法として大規模なGoogle V1コーパスを使う方法と、ググった時の頻度推定値を使う2つの方法を試しています。結果的に、PMIを使わない場合より高いスコアを出す一方で、最新の半教師あり学習より低いくらいの精度でした。また、データ数が多い方が精度は良く、V1コーパスよりググった結果を使ったほうが良いようです。面白いのはコーパスを変えてもあまり精度は変わらず、単純に使う単語数のみに精度が依存していました。

さて、発表でも言ったとおり卒論のテーマにあってもおかしくないくらい簡単な方法です。ただ、一方で「単語出現のPMIを特徴に入れれば、選択選好を表現できて、精度をあげられる」という極めてシンプルで強力な主張で、適用範囲も広いし、他の研究への応用もしやすい。この論文の評価は割れると思います。手法の適用範囲の広さは重要ですが、昔からやろうとした人はいたけどデータが少なかったから効果がなかったが、最近は大規模になって〜系だとするとよくあるWeb大規模論文にしか見えてきません。データが大規模化しても省メモリで動くみたいな一捻りがあったらより良かったかなと思います。とりあえず日本語で試してみようかと思ったら、dependency parserのソースは前の職場においてきてしまった・・・



実は最初は別の論文を紹介しようと思っていました。

Language-independent compound splitting with morphological operations.
Klaus Macherey, Andrew Dai, David Talbot, Ashok Popat, Franz Och.
ACL2011. [pdf]


内容としては、複合語を分解する話です。ドイツ語などは複合語をくっつけて書くので、これを分解して機械翻訳の精度を上げようとしています。ただ、教師データがないので教師なしの設定で行います。やり方としては、分解の候補と語形変化候補をたくさん作って、最適パスを求めるという話です。と、書くと分かるとおり、それなんてコスト最小化法、あるいはSemi-Markovちゃうの、という感じです。単語分割問題に慣れ親しんだ我々日本人は、ここでガツンといいたいところです(ぉ
ということで、動的計画法面白そう!と思ったらよくある話で飽きてしまいました。途中までスライド作ってたのに・・・

しかし、2011年になって単語分割の重要性に気づくとは! 単語分割先進国の我々日本人はもっと貢献してもいいような気がしました。


さて、他の方の発表ですが、オモシロイと思ったのは @nokuno さんの単語アライメントを識別学習する話。

Unsupervised Word Alignment with Arbitrary Features.
Chris Dyer, Jonathan Clark, Alon Lavie, Noah A. Smith.
ACL2011. [pdf]

たぶんご本人がブログで解説されると思うので、他の視点で。
twitterでも書きましたが、このモデルはlinear-chain CRFの変化形として捉えることができる気がしました。普通のCRFでは、第1項が単なる特徴ベクトルになりますが、ここではaの分布の上での期待値になっています。しかし、これはアライメントaと単語tの2つ組をタグ付けるタスクにおいて、aだけ周辺化してけしていると捉える事ができます。つまり、tに対するタグだけ存在する部分的アノテーション状態です。ということで、坪井さんの部分的アノテーション論文。

日本語単語分割の分野適応のための部分的アノテーションを用いた条件付き確率場の学習.
坪井 祐太, 森 信介, 鹿島 久嗣, 小田 裕樹, 松本 裕治.
情報処理学会論文誌 Vol. 50, No. 6, 2009. [link]

部分的アノテーションとは一部だけタグがふられている状態です。ラベルの振られていない部分は、全ての候補集合に対して特徴ベクトルを足しこみます。元のアライメントの問題も全てのアライメント候補を足し合わせる(周辺化する)部分が同じで、実際アライメント論文の対数尤度関数と坪井論文の(3)式、あるいはアライメント論文の(1)式と坪井論文の(5)式が同じ形をしています。
完全に両者が同じ事をしているというわけではもちろんないですが、意外な類似性が見えて私は面白かったです。


今日は途中お腹空き過ぎで、ちゃんと理解できたのが少なかったです。@niamさんは、教師なし品詞タグ付けを、パラレルコーパスを使って別言語から伝搬させる話。@shuyoさんはLDAにインタラクティブに制約を加える話。教師なし学習の結果が人間可読でない問題は昔から気になっていたので、どちらともこういうモチベーションは好き(内容は理解半分・・・)。@sleepy_yoshiさんはランキング学習を転移学習させる話。最初のランキング学習のチュートリアルがわかりやすかった。@suzuvie_reさんはcross-documentの共参照解析を、pair-wiseでなくてまとめてからやるようなモデルでやるはなし。雰囲気はわかったが、モンテカルロ法の教養がなくて基本的なところから理解できなかった。難しす。@bontyさんはスペル訂正を、コスト最小パスの問題と、top-kのリランキングで解く話。グラフと思ったら、DAGだったw 上の複合語の話と通じるものがあります。@tsubosakaさんは識別モデルによる言語モデルを大規模化する話。普通にMEするとZの計算で頓挫するけど、上手いことサボれる。こういう話を、昔@whymくんがやろうとしていたような気がする。

今日得た素晴らしい知識は、IJCAIを「イジカイ」と読むのは日本人だけ、SIGIRを外人は「シガー」と読むということでした。

0 件のコメント:

コメントを投稿