2010年7月7日水曜日

NTCIR-8 Patent Mining Task

ちょっと報告が遅れましたが,会議には参加してませんが,NTCIR-8のPatent Mining Taskに,チーム西山の隊員として参加しました.タスクの内容は,特許文書中からその特許が解決したい課題や効果がかかれたフレーズを抜き出すというものです.結果的に参加チーム中で結構いい順位につけたということで,論文も公開されています.実は私がポカしたせいで,本当はもう少し結果よかったです(後述).

正解付与済みデータが与えられるということで,CRFを使った教師あり学習の枠組みに,おのおのの得意とする特徴量をこれでもかとてんこ盛りに入れ込みました.正解データを見る限り,明らかに係り関係にある単語や文節が分類に貢献していることがわかったので,私に召集令状が係った次第です.特に特許文書は一文が長く,構文解析が難しいので,NLP2010で発表したような距離期待値のテクでロバストになることを期待しました.近いものほど大きな値にするために,純粋なホップ数ではなく,0.5のホップ数乗(1ホップ遠ざかるごとに値が半分になる)の期待値の近似値を計算します.E[0.5(ホップ数)]です.これも,NLP2010の方法と同種の動的計画法で効率的に計算できます.この値を特徴量の値,係り先の単語を次元とするような特徴ベクトルを作ります.他にもたくさん特徴量があるんですが,割愛します.他と比べても,この特徴量はそこそこ貢献したようです.
さて,期待値を使うのとOne-bestを使うのでどちらがよいのかという点ですが,論文でははっきりと言及してませんがかなり微差でした.一応期待値の方がよさげなんですが,微差です.有意差があるかどうか怪しい.いくつか理由はありますが,まず係り受け解析はそこそこ”簡単な”タスクだということ.8割は正解するので.それから,特徴量の値としてだけ使っているので,必ずしもすべての係り関係が正解に寄与している訳ではなさそう,という点です.このexp関数を特徴量とする設計が適切かどうかも怪しいですし.ただ,個人的には,こういう「枠組み」は必ずしも構文解析だけではなくて,たとえばもっと難しい語義曖昧性解消や照応解析などのより難しいタスクに応用できたらよいな,と思っています.

あと裏話.係り受け解析の学習には京大コーパスを使っています.すると,Juman品詞体系なので,全段の形態素解析や文節切りもJuman品詞体系に合わせる必要があります.この処理にはMeCabとCabochaを使ったのですが,デフォルトはIPA品詞体系.実験するときに品詞体系はJumanを手動で指定したくせに,モデルファイルの指定を間違えた! orzorzorz おかげで文節単位がめちゃくちゃになっていました.論文を書く段になって例を探しているときにこの事実に気づき,あわてて実験し直したら,数ポイントスコアが上がって順位もかわりましたとさ.

0 件のコメント:

コメントを投稿