2017年5月26日金曜日

「深層学習による自然言語処理」を書きました

5/25に,IBMの坪井さんと,NTTの鈴木さんと書いた「深層学習による自然言語処理」というタイトルの本が発売されました. 特に昨年1年間は,土日や夜をかなり潰したので,ようやく発売されたなぁと感慨深いものがあります. 最終稿の直前で,図を差し替えたり,変な文が見つかったりしたので,まだ変な誤植があるかもしれませんし,読みにくいところもあると思います.

本の内容ですが,おおよそ2012年から2015年くらいの深層学習系の自然言語処理の流れをトレースしています. つまり,埋め込みベクトルの学習(word2vec),ニューラル言語モデル,符号化復号化モデル(encoder-decoder, sequence-to-sequence),注意機構(soft attention/hard attention)とその応用(attention encoder-decoder, memory networks)などです. それから,形態素解析や固有表現抽出などの伝統的な言語処理タスクよりは,end-to-end学習を意識したモデルや応用のみを扱っています. ですので機械翻訳,対話,要約,質問応答などだけを扱っています. 初心者向けの入門書という位置づけではなく,より突っ込んだ内容を知りたい人向けのイメージです. 逆に入門向けの書籍はたくさん並んでいるので,他を参照されたほうが良いかもしれません.

私は特に実装によった内容の部分を書いていて,例えば巨大なソフトマックスをどうやって近似するかのテクニック(NCE,負例サンプリング,階層的ソフトマックスなどの系統の話.これはほぼNLPでしか使わない)といったところや,GPUでちゃんとスケールする実装みたいな話です. 実装の章は,正直かなりマニアックですが,フレームワーク作る側だから気づいている問題意識みたいなところを重点的に書いています. RNNのミニバッチ化,recursiveのミニバッチ化,RNNの高速化(cuDNNの対角要素の並列化,persistent RNN),再計算,サンプリング(Gumbel-max trick,Alias法)などです. 再計算はChainerの開発初期の時点で気づいていて大雑把には何をすべきかわかっていたのに,より洗練されたアイデアがNIPSに出てきていて先を越されたなぁという気持ちでした. フレームワークなりライブラリなりは決して畑に生えるわけではなく誰かが作る必要のあるもので,それが読者でない理由はありません. そうした知見がまとまっている必要があると思っています.

今回,比較的新しい話題を扱ったため訳語の定着していない単語が多く登場しています. 「オンライン学習」のときに英語のままにしたことの評判が非常に悪かったのを受けて,今回はなるべく訳語を当てることに挑戦してみました. Sequence-to-sequenceは「系列変換」,encoder-decoderは「符号化復号化」,recursive neural networkは「木構造再帰ニューラルネット」,attentionは「注意」にしました これらは必ずしも訳語として定着しないかもしれませんが,定着するといいな.

それから書籍中のサンプルコードのChainer/CuPy実装を公開すべく,整備を続けています. 近日中に公開できると思います.たぶん

ところでこの著者陣,前職でほとんどの研究を一緒にやった坪井さん,学生以来ずっと交流のある鈴木さんという,私にとっては非常に思い入れのある御二人と仕事できたのは非常に嬉しかったです. 最後に,短い期間にも関わらずかなり多くの方に査読をしていただいたり,内容に関してコメントをいただきました. 大変感謝しております. そして,あらゆる読者にとって何かしらの糧になることを期待しております.

0 件のコメント:

コメントを投稿