generated at
LeNet
この時代の「大規模データセット」は16×16の手書き文字480枚
kernelの1回の動き幅
最近のConvolution layerの活性化関数はReLUが多いが、この論文はTanh関数を使っている
まだなかった?
16×16の入力にstride 2で畳み込むので8×8になる
2つになるのはなぜ?基素
ここで詰まったので過去動画に遡ったけどまだ理由が見つからない
5×5でconvolutionする
現代ならPoolingをする