unnonouno: NIPS2013読み会でword2vec論文の紹介をしました

先週、 @sla さん主催のNIPS2013読み会で、word2vec論文（正確には続報）の紹介をしました。

NIPS2013読み会: Distributed Representations of Words and Phrases and their Compositionality from Yuya Unno

ちょっと解説を書きます。このところの深層学習ブームは自然言語処理にも来ていて、それらのウチの1つと言われています（が、全然deepっぽさはない）。最初のモチベーションがどういうところにあったかというのは、ちょっと色々だと思いますが（おそらく最初は言語モデルにおける低頻度語の確率をウマイことモデル化・推定したかったんではないかな）、何はともあれ単語の意味的なあるいは統語的な振る舞いをベクトル表現で表すという研究が流行っております。ベクトル表現というのは、1つの単語wに対して、その単語を「表現」するようなベクトル v(w) を作ります。そんなこといわれても、作れば？ということなんですが、できたベクトルに対して何かしら「都合のいい」性質ができることが真の目標です。「都合のいい」というのは、例えば「似た意味の単語のベクトル同士は何かしらの距離尺度の上で近い」といったものです。いわゆる、自己組織化マップのようなものが、この研究に近いと思われます。

その中でも、Skip-gramモデルを利用して作成されたベクトル表現には、大変おもしろい特徴が備わっていることがわかり、意味のたし引きができる様になりました。ベクトルなので当然足し引きができます。そこで、例えば v("東京") - v("日本") + v("フランス")で計算されてベクトルと近いものを探してみたら、なんとv("パリ")が一番近いという衝撃的な結果が得られました。色々な3単語を使って実験すると、こうしたウマイ結果がたくさん得られたのです。ツールはオープンソースとして公開され、サービスを公開している人もいます。

これはかなり衝撃的でした。例えば最初に聞いた時には、以下の様なことを思いました。

単語間の関係はもっと複雑で、低次元のユークリッド空間では表現できないと思っていた。こうした結果が得られたというのは、ぼくらが思っていたより「意味」は単純であった可能性がある。
足し引きすることを考慮して設計しているわけではないのに、ウマイことたし引きできた。ちょっと考えるだけでもサイズが全然違くなる可能性もある。

この論文は、そうして報告されたword2vec論文の続報です。元論文では学習は数日単位でかかっていたのを、ウマイこと計算をサボって高速化したら、結果も良くなったよ、というのが主題です。どういう工夫をしたのかというと、Skip-gramモデルの目的関数に出てくる各単語の確率は、全単語中からその単語を選ぶようなSoftmax関数で書かれます。したがって、全単語分の（数百万以上）和が分母にあらわれ、この目的関数の勾配を計算するときにボトルネックになります。そこでこれをサボります。

3つの手法を試しています。 1つ目はHierarchical Softmax(HS)という手法で、単語をクラスタリングしてあげて木を作り、各単語の出現確率をルートからその単語までに存在するノードのシグモイドの積で近似します。こうすると、各単語の確率の計算は、おおよそlog(W)くらいで収まるので、計算が高速化されます。 2つ目(NCE)、3つ目(NEG)の方法はSoftmaxの計算を近似する方法です。特に提案手法の3つ目の方法は、Softmaxの式を近似すると、全単語に対する和を取る代わりに、単語分布に対する期待値を計算する形に変形できます。ここで、期待値の計算を適当にサボる、具体的にはサンプリングして足すだけにしてあげます。しかもサンプリングは5個位で良いらしく、100万回ループが5回になります。さらに、"a"や"the"のような高頻度語をうまくモデリングしてもしょうがないということで、高頻度単語の出現確率を適当にディスカウントするような適当な確率値をかわりにつかいます。もはや、何をしていることになるのかよくわからなくなってきます。

これらの手法を使った実験を行うと、計算時間は30分〜15分程度に削減された上、上記のv("東京") - v("日本") + v("フランス")というような実験での正解率が向上しました。また、ヒューリスティックスで取ってきた複合語に対しても同様の実験を行い、これもまたいい感じに精度が出ています。さらに単純に意味の足し算のようなこともできるらしく、例えば"Germany"+"airline"で"Lufthansa"（ドイツの航空会社）が出てきたりもしています。

ところで何でこんなことができるのでしょう。最後の意味の足し算の実験がヒントになっている気がします。 Skip-gramの目的関数は、あるコンテキスト範囲内に（例えば5単語以内）共起しているかどうかの情報しか使っていません。つまり、"ドイツ"と"航空会社"の両方と共起する単語はなにか？ということを探している（AND検索的に振舞っている）にすぎないのではないかという気がしています。そうして考えると、"ルフトハンザ"がでてくるのは納得がいきます。そう思って、色々な単語でうまくいかない例を探しているのですが、想像を超えてうまくいってしまい、結局何をしていることになるのかまで追いきれていません。意味を数理的に扱う研究がここから一気に進むと、今までの言語処理の世界から非連続に成長するのでは、そういう予感をさせる一連の研究でした。

unnonouno

2014年1月25日土曜日

NIPS2013読み会でword2vec論文の紹介をしました

0 件のコメント:

コメントを投稿