Deep learning
>(統計的)機械学習がやっていることは「与えられた標本から母集団の分布を推定する」ことにほかならないからです。
> 深層学習の時代になっても、いやむしろ、現実のデータをそのまま食わせる深層学習だからこそ、その統計の基本を理解していることは大きなアドバンテージになります
論文で抑えるポイント
関数にこんな性質が欲しい
なんでも分類できるぐらい十分複雑
計算できる
関数を深くすると単純な関数が複雑になる
パラメータも減らせる
2次関数3パラメータを10回入れ子にしても必要なパラメーターは3パラメーターが10個で30
c.f. 1024次関数は1024個必要
n変数二次関数のパラメータはn^2/2になって多い
ん?どういうこと?
1変数だと1/2になる

3つじゃないの?
2変数だと2つになってしまう
100×100のカラー画像は3万次元なので30000^2/2=4.5億パラメータ
30000変数の二次関数関数?

1000万画素の画像があったら50兆パラメータ
なので線形と非線形を組み合わせる
n変数関数(n+1パラメータ)を非線形関数に食わせる
100×100のカラー画像3万次元の分類で1000個に分けるような関数を考える
30000変数、1000個の確率を返す1024次関数
パラメータ数は10^3700
どう計算する?

30000変数の1024次関数の次元ではない
d=1024 N=30000
31023C1024=10^1952≠10^3700
計算機は扱えない
2次関数の10回の繰り返し
450億パラメータ
n変数d次多項式は(N+d-1)C(d-1)次元らしい
n=d=2とすると3C1=3
実際には6次元
(N+d-1)Cdでは?
N変数の二次多項式ならN変数から重複を許して2つ選ぶ
どう計算すると450億になるの?

10回繰り返し ×10
1000万円ぐらいの計算機で計算可能
NN
300万
その辺のGPUで計算可能
CNN
数千
10層のNN 隠れ層100次元