2014年6月9日月曜日

Machine Learning Casual Talks #1で話しました

先週金曜6/6、クックパッドにて開催されたMachine Learning Casual Talksで話しました。主に、Jubatus作ってた時に遭遇した、機械学習作ってるとよく遭遇するようなバグの話をしました。当日の様子はこちら


さて、最近は3番目の「設定はどうあるべきか」ということをよく考えています。 例えば、ちょっと資料の中でも紹介しているクラスタリングですが、重みを減衰させるための忘却係数と、完全にメモリから消し去る閾値が設定できるようになっています。 しかし、これは最大使用メモリを制御したいときにちょっと面倒なことになります。閾値$\theta$と忘却係数$\alpha$としたときに、メモリから消えるまでの寿命は、おおよそ$\log\theta / \log\alpha$です。どちらのパラメタをいじっても最大使用メモリ量は変化してしまします。ユーザーが指定したい挙動(ここではメモリの最大使用量)と、パラメータの自然な置き方(この設定の仕方はそれなりに自然です)というのにはギャップが有るようです。閾値、忘却係数、最大使用メモリ量(忘却までの時間)の関係は自由度が2しかないので、その中で一番ユーザーが指定したい挙動を直接表す指標を設定として出すのが優先されるかな、という風に考えています。これは、時として論文の記述からは離れるのですが、それよりも使いやすさが優先されるなと。

そういえば、この会はtwitter上で盛り上がったのがきっかけでしたが、 @chezou さんは過去に1回しかあったことなかった気がするし、 @yamakatu さんはそもそも初対面だし、なんだか簡単につながる世の中だなーと関心しました。幹事の@chezouさんは、どうもありがとうございました。

0 件のコメント:

コメントを投稿