2011年3月13日日曜日

言語処理学会年次大会2011に参加しました

先週は月曜から金曜まで、豊橋技術科学大学で開催されいていた言語処理学会年次大会に参加しました。会場がホテルから遠いとか、駅から遠いとか、豊橋技科大出身の友人が何にもないよとか言ってて不安でしたが、梅村先生はじめ、技科大のスタッフの尽力のおかげでこれといった不便はありませんでした。初日に暖房が効いてなくて死ぬかと思いましたが、次の日から改善されていました。あったとすれば、「たかり事件」くらいでしょうかw

私の発表は、若手の会での発表の続きで、表現統一のために既存文書の頻出表現を動的に取り出して入力支援に活かす話です。予測入力とおもってもいいと思います。主に若手の会で@nokunoさんに質問された、頻出Nグラムを使う方法とどう違うのか、という回答をしたつもりです。文書のクオリティーを上げるために表現統一を実現したいというモチベーションと、他手法と比べて文字列集合を探索する定式化をしていたり、単語単位を使っていないなどの比較がメインでした。手法の概要も話しましたが、かなり長いので、ほとんど省いてなんか大変なんだねというのが伝わる程度にしました。ざっくり書くと、KWICをコンパクトに表示すれば入力支援に使えると思い立ち、文字列集合に対するスコア関数を最大化させる形に定式化して、TRIEや接尾辞木などの文字列テクを駆使して実時間で実行出来るレベルにチューンしました。ちょっと笑いもとれたので良かったです。論文はこちらのサイトにおいてあります。
Google、Microsoft、ジャストシステム、Appleと日本語入力をやっている企業から、ChaIME、Social IMEの開発者まで参加するオールスター的なセッションだったにも関わらず、不自然言語処理の裏セッションになってしまって聴衆を取られたっぽかったです。しかし、かなりクオリティーの高い議論ができた気がします。ちなみに、金曜に地震の影響で延泊したとき、さらに濃密なIME話を聞けて鼻血でそうでしたw

坪井さん達との共著でNewton CG法をlinear chain CRFに適応した論文も発表しています。Newton CG法はHessianの逆行列(でか過ぎて計算できない)を使う代わりにCG法を使ってNewton方向を求める方法です。この際必要となるのは、Hessianと与えられたベクトルxとの積で、これがHessian vector積と言われる計算。問題は、CRFのように複雑な構造から計算される目的関数のHessian vector積を計算できるのかという点ですが、それを示したのがこの論文でした。入社してしばらくして、ねちねちL-BFGSをつくっていたときに教えてもらった思い出深い手法です。反復ごとの収束がものすごく速くなったのを覚えています。ちょうどSGDが大流行しているときで、出すタイミングを見失っていましたw


発表以外では、若手の会、関根会、懇親会、岡野原握手会などの各種イベントに参加して、知り合いが増えました。私は学生時代、研究室の傾向でしょうか、あまり学会に参加しなかったのですが、いろんな知り合いを作るとアドバイスを貰えたり、相談できたり、なによりモチベーションの増加につながります。業界を俯瞰するにも役立ちます。最近は勉強会などもありますし、特にここを読んでくれている学生の方は外に出てみることをおすすめしますよ。

0 件のコメント:

コメントを投稿