2014年7月25日金曜日

今、人工知能研究で何が起こっているのか

半年前くらいに書いた草稿が、投稿されずに残ってたのでちゃんと書きました。 最近、人工知能という言葉がまた流行しているような印象を受けます。 ブームということの本質は2つ有ると思っています。 1つは学術会で、最近良い成果が立て続けに出てきたという側面です。 もう一つは、それに呼応して大きな会社、特にIBMやGoogle、Facebookといった大きなコンピュータ系、インターネット関連企業が力を入れていることが大々的に報道されたことです。 両者はもちろん関係していて、いくつか技術的ブレークスルーがあって、それが企業の投資を呼んでいる、それと呼応するように学術的な成果が企業からでているという、正のスパイラルが生まれている様に見えます。 こうした流れをいち早くとらえた新書として、「クラウドからAIへ」という本があったので読んでみたのですが、一般のビジネスマンを意識して、歴史、現在、未来について大局的に捉えてあってなかなか良かったです。
クラウドからAIへクラウドからAIへ
小林 雅一

朝日新聞出版 2013-07-30
売り上げランキング : 285

Amazonで詳しく見る
by G-Tools
技術者の視点で、今どうなってきていると考えているか、自分の考えを整理してみます。
知能というものを機能の面で見ると考えると、
  1. 外部から感覚器官を通じて情報を適切に取り込む
  2. 取り込んだ情報を処理する、判断する
  3. 発話や行動を通じて出力して外界とやりとりする
という大雑把には3段階があるのではないかと考えています。 つまり、入力、処理、出力の3つです。 この分類は別に私のオリジナルなわけではなく、例えば大須賀節雄先生の「思考を科学する」という本の中では、 センサ・制御・アクチュエータ構成 という言葉で説明されています。
思考を科学する—「考える」とはどういうことか?—思考を科学する—「考える」とはどういうことか?—
大須賀 節雄

オーム社 2011-09-21
売り上げランキング : 344477

Amazonで詳しく見る
by G-Tools
動物が行動を起こすのは、眼や耳などの五感を通じて情報を得て、その情報を過去の知識や論理的な思考によって判断し、口や手足を駆使して発話や行動をとります。 知能というのは純粋に「考える」機能であるところの2が一番重要な気がします。 ところが、目で見たり耳で聞いたり手で触って外界から情報を受け取る1や、指を動かたり声を出したり歩いたりして外部に表現や行動する3のためにも脳を使っていることに気づきます。 80年台に研究されていた人工知能技術、特にエキスパートシステムは、自分の理解としては2の技術、つまり推論のための技術の研究というものがメインでした。 この研究は2つの側面で完成しなかったと理解しています。 1つは1の技術、つまり外界から情報を入力する手段が人手による規則の書き下しがメインでした。 人間のように、カメラや音声、また自然言語で教えこむことはできません。 そのため、規則で記述する必要があり、全ての規則を書き下すのはそんなに簡単ではない。 2つ目は2の技術、推論自体も人が行うようなアバウトな推論を表現するのは難しかった。 かっちりとした推論は述語論理などで扱える一方で、人が行う推論はそれよりももっとアバウトであった。
その反省があったからかどうかはわかりませんが、その後1の技術、つまり映像、音声、テキスト等から情報を抜き出すなど、地味な研究はその後続けられ、推論や考える技術はどちらかと言えば下火になります。 生の映像から何が映っているかといった映像解析や、音波から何を言っているか判定する音声認識は、粛々と研究が続けられます。 ここ数年で大きな成果を上げている深層学習は、主に音声認識と画像処理の1に関する側面であることに注目すべきです。 1の領域に限ってみても、例えば音声認識の精度向上は音声検索の質を向上させますし、画像認識の精度向上はSNSサービス内での写真の解析(例えば友人の発見)に役立ちます。 また、Googleの買収したDeep MindのDeep Q-Networkは強化学習の技術ですから、これは3と関連が深い技術です。 強化学習はロボットの制御に使われますから、Googleがロボット関係企業に投資していることと無関係ではないでしょう。 各社が「人工知能企業に投資」していることも、もっと解像度をあげてみれば、各社のサービスや戦略と直結していて、短期的にも成果を出すでしょう。

さて、このまま人工知能研究は成功するのでしょうか? 一番の懸念は、深層学習が主に成果を出しているのは1に関わる部分、そして部分的に3に関わる部分だということです。 つまり、2に関わる技術、思考や推論に関わる深層学習の大きな成果は未だに出ていない(変化が早いのでもう出ているかもしれないし、内部ではすでに成果が上がっているかもしれないが、私は聞いたことがない)。 「DNNは人間の脳の模倣である」というような解説をたまに見ますが、どちらかといえば「動物の脳の模倣」に近いとおもいます。 視覚や聴覚の模倣であるところの画像処理や音声認識で顕著な成果を出していますが、これらは「人間」特有の機能というよりは動物の持っている能力です。 言葉を操る人たる人間のもつ、言語の機能や思考する機能に対応した深層学習の華々しい成果というものをまだ聞いていません。 word2vecなどを"Deep" Learningの一種と説明する方もいますが、あれは一層なので全然「深く」ないです。 どちらかというと「表現」の学習であって、ただその意味での大きな成果であると思います。

ここからは私の勘なのですが、徐々に思考の研究が流行っていくのではないか、と思っています。 表現の学習が予想以上にうまくいった、ということは今まで言語処理に対してとっていたアプローチがガラッと変わる可能性はあるな、くらいには思っています。 今年のACLのaccepted paperでも、推論や意味を扱う研究が増えている印象があります(定量的に数えてないけど)。 東ロボの中でもこうした思考の研究をしていますよね。 先ほど紹介した、「思考を科学する」の中でも、ニューラルネットと思考と言語について記述されていて、大変興味深いです。 機械が、真に「知性」を手に入れる、入り口に入ったのかもしれません。

2 件のコメント:

  1. クイズで世界一になってもそれは思考や推論ではないということですか?

    返信削除
  2. ワトソンも内部では推論のエンジンは入ってはいます。ただし、最も力を入れていた部分は、難しい推論よりも正確で広範囲に及ぶ知識をとにかく集めることの方が重要だ、過去に考えられないくらい広範囲に及ぶ知識を入れたら人間に勝てるんではないか、という挑戦だったように捉えています。実際にうまくいったのは驚異的です(私は失敗すると思ってましたw)。そのまま産業に結びつけることを期待された一方で、他の分野で応用しようとした時に再び苦戦していると言われています。 http://jp.wsj.com/news/articles/SB10001424052702304893004579307880662738744

    また、この成功の後に始まった国立情報学研究所の東ロボプロジェクトでは、社会の問題は似たようなアプローチを取れそうですが、それ以外の教科では全く異なるアプローチがとられていますし、まだ多くの研究が必要なんだろうとおもいます。

    返信削除