「ニューラルネット」カテゴリーの記事一覧

2017-11-09

Straight-Through Estimator

Straight-Through Estimatorが分からなかったので調べてみた.八谷大岳の覚え書きブログには

”絶対値が1以下の勾配のみ用いて更新する”

とある.Quoraには

you just estimate that the incoming gradient to a thresholder is equal to the outgoing gradient.

とある.この二つが同じことを言っているとすると,バックプロパゲーションのときに上流から流れてくる勾配は+1と-1(と0もか?)で,それをそのまま下流に流すということになる.うーむ,元の文献(ビデオ)を見てもはっきり分からない.どうすりゃいいのよ.

続きを読む
2017-11-08

リカレントニューラルネットワークで点訳

点訳とは書籍を点字図書に変換する仕事だ.日本ではボランティアによって行われている.私もその一人だ.日本は世界でいちばん点訳ボランティアが多いそうだ.すばらしいことだ.点訳は文字を6個の点で表した点字に変換する作業だと思われがちだが,実はそこは本質ではない.いちばん時間がかかるのは点訳専用の「分かち書き」をするところだ.点訳の作業時間の80%は分かち書きの下調べに費やされる.分かち書きは目の見えない人が点字を読んだときに同じ音の別の単語と意味を取り違えないために必要だ.分かち書きには細かいルールがあり,例外もたくさんあり,身に付けるのに数年を要する.なので点訳ボランティアになるのはけっこうな努力が要る.

点訳ボランティアが1冊の単行本を点訳するのにはだいたい半年かかる.それから別の人が校正をして,特殊なプリンタで紙に点字を打って,点字図書館に納められる.今点字図書館にある点字図書は2万タイトルくらいだ.すごく少ない.そしてそれらの本は全て単行本だ.目の見えない人も週刊誌とかを読みたいだろうけれど,点訳に時間がかかるため,週刊誌のようにタイムリーに読まなければ意味のない書籍は点訳の対象となっていない.

点字図書をもっと増やしたい.1000万タイトルくらい欲しい.人手でやると1000万×半年=500万人・年かかる.不可能だ.週刊誌も発行日の次の日くらいには点字図書にしたい.そこでディープラーニングだ.リカレントニューラルネットワークで分かち書きを実行するのだ.今点字図書館にある2万タイトルは電子データがある.それを教師データとしてニューラルネットワークを学習させれば分かち書きを機械でできるようになる.分かち書きさえ自動化できれば点訳は一瞬で終わる.律速段階は点字プリンタの印字速度になる.これをやってみたい.

私がこのまま人手で点訳を続けても,残りの人生で点訳できる本の数はせいぜい60冊だ.それならば点訳用リカレントニューラルネットワークを1年かかって作った方がよほど効率が良い.やってみよう.

続きを読む
2017-10-25

ホップフィールドネットワークの閾値って実数なの?

Hinton教授のビデオを見ていたら,ボルツマンマシーンに行き当たって,そこからホップフィールドネットワークにたどり着いて,どんどん分からなくなっていったんだが,ココのサイトのホップフィールドネットワークの解説がわかりやすくてやっと腑に落ちた.閾値は何でも良かった.

分かってからwikipediaの項目を読むとさらに分かった.閾値θは時間関数でも良く,重みwも時間関数で良い.

続きを読む
2017-10-24

参考文献がビデオって

Estimating or Propagating Gradients Through Stochastic Neurons for Conditional Computation という論文を読んでいたら,参考文献にHinton教授の論文じゃなくてインターネット公開のビデオが指定されていた.Neural networks for machine learning. Coursera, video lectures.このビデオが後で編集されたみたいで指定されたチャプターに知りたいことが出てこない.仕方ないので最初から見てるけど,すごく時間がかかる.まあ英語読むのも時間かかるから一緒か.とほほ.

続きを読む
2017-10-10

なぜ畳み込み層にバイアスが要るの?

バイアス無くても良くない?そう言えば,全結合層だってバイアス無くても良くない?ネットで調べたけど,答は分からなかった.

答が探せないので自分で考えた.バイアスは活性化関数の閾値というか活性レベルを変える働きをする.そのために付いているのではないかな.

その 活性化関数がなぜReLUみたいな形をしているのかについては,「ゼロからつくるディープラーニング」に,ネットワークに非線形を加えることで複雑な表現が可能になると書いてある.

あと多チャンネル(普通はRGB)の畳み込みでチャンネル毎の結果を加算して出力する理由もなぜ?分けてはいけないの?加算するがゆえに1×1のフィルターの意味が生じる訳なんだが.加算しなければ1×1の畳み込みって何もしてないのと同じだものね.

続きを読む
2017-10-10

オンライン学習とミニバッチ学習

深層学習でなぜ1個1個学習しないのかな?(これをオンライン学習と呼ぶと後で知った)と思って調べたら,ココに解説してあった.オンライン学習はミニバッチ学習のバッチサイズ=1に相当するよね.そのミニバッチの個数決めは勘と経験によるようだ.

続きを読む
2017-09-30

AIで碁は打てても、AIで相場は張れない

近頃のAIブームに乗っかって、証券会社や銀行が「AI外貨予測」「AI為替予測」なんてのを始めた。3年くらい前に一部の証券会社が提供していたた「過去チャート検索機能」と本質的には同じだ。基本は同じで(ここすごく重要)「チャートの形が同じなら同じ結果を生む」という考え方に基づいている。この考え方が正しいのなら、AIで相場を正しく予想することができる。AIは教師あり学習は得意なのだ。

ところが残念なことに先の考え方は間違っている。全く同じチャートの形が生じても、いつも同じ方向に値が動くとは限らない。つまり入力データが同じでも、教師データが正反対になる(相場は上がるか下がるかしかないからね)ことがある。これをdeep learningに突っ込むと学習が進まないというか学習ができない。

これはうれしい結果だ。アホな連中が何千台のGPUを並べて数メガワットの電力を消費して相場を予想しても、歴戦のたったひとりの相場師にかなわないのだ。なんと痛快な。

私はdeep learningの研究を仕事にしてはいるが相場師でもあるので、この結果はなんだかうれしい。人間はまだまだすてたものではない。

続きを読む