昨日は@nokunoさん主催のICML2011読み会に参加しました。ボクは場所貸ししただけで、発表してません(汗 本当は超簡単なsemi-supervised naive bayseを実装して発表しようかと思ったんですが、発表者いっぱいいるし、まぁいいかなと。
さて、みなさん発表上手なので話半分に分かった気になりました。一番面白かったのは松島さんが紹介した下の論文。
Parallel Coordinate Descent for L1-Regularized Loss Minimization
Joseph Bradley, Aapo Kyrola, Daniel Bickson, Carlos Guestrin
coordinate descentというのは、特徴空間の中で適当な次元の断面を考えて、その平面上で目的関数を最小化し(特に、解析的に最小点が求まることもある)、これを繰り返せば最終的にもとの特徴空間上での最小点がもとまるというもの。で、この平面の選択を分散させて、更新分を集約するとほぼリニアに速度がスケール。しかもすごいのは、並列性の理論的な限界も示せて、実験でそれも検証というもの。
これを聞いて思ったのは、検索などの文脈で出るキーワード分割とドキュメント分割の話。(parallel) SGDみたいなのはデータを分散させるのでドキュメント分割的で、この方法は特徴量で分散させるのでキーワード分割的だなぁということ。あと、平面で切ったあとの最小化はもとの関数の勾配を使うので、振る舞いとしてはバッチ的。なので目的関数はギュンギュン下がります。
あとは、@tsubosakaさんの説明したトピックを差分で表す話も面白かった。
Sparse Additive Generative Models of Text
Jacob Eisenstein, Amr Ahmed, Eric Xing
今まではトピックを多項分布(のパラメタ)みたいに表してたけど、そうではなくて全体の分布からの差分だと考えるという話。これは、例えばストップワードみたいにトピックに依存しない単語の出現確率まで推定するのは無駄なのと、そういう単語の出現確率がトピックごとに異なるみたいに推定されるのはちょっと気持ち悪い。そこで、全体の平均的な分布を考えて、トピックごとの差分をそこに足す。そして、この差分ベクトルがスパースになるような事前確率を入れるという話。差分が表現出来れば、他のトピックと比べてどの単語が多くてどの単語が少ない、というトピックごとの特徴も自然に説明できそうでよさそう。残りのベイズベイズした話は、ふーん、と思いながら聞き流してましたw
@niamさんの説明したSVDでディテールが潰れるところを、差分行列として取り除く話も、似たような雰囲気を感じました。全体的な平均から逸脱する部分を、疎な差分として表現して、その2つで表すという点で似ている気がします。
@nokunoさんのアンカーグラフと、@n_shuyoさんのInfinite SVMは、両方共データがどういうところに分布しているのかを考慮して学習したほうがいいよ、というような話に聞こえました。多様体とか勉強しようかな・・・。@y_benjoさんのpage rankを保存しながらグラフを圧縮する話は、なんでみんなやってなかったんだろうという気がしました。@suzuvie_reさんのベイジアーンな発表は、途中から全然追えてませんでした。キビシイ。
ベイズな話は、一度何か実装してみないと話についていけないなぁと思いました。あと、気になったのは人工データで実験しているのをたくさん見るんですが、実問題の設定からかけ離れていて意味あるのかなと思ったのが幾つかありました。どうやって手法の優位性を言うかは難しいですね。
みなさん5時間近くお疲れさまでした。
0 件のコメント:
コメントを投稿