機械学習で最低限必要な数学知識
A: ライブラリを単に使うだけの人に数学知識は必要ないんじゃないか?
Q: そういわずに…
というわけでライブラリを使うだけの人に必要な知識は何かをブレストする
大事そうなものを上に上げる
科学的方法論
きちんと実験すること、実験結果を観察すること
反証可能でないならオカルトである
「でーぷらーにんぐをつかったら精度90%で識別出来たよ!」
もっと基礎的な方法でどの程度の精度が出るか確認し、比較するべき
ロジスティック回帰で92%の制度が出る問題にDeep Learningを使って90%の精度を出してもただの馬鹿
単位の違うものを足したりしないこと
「70%+60kgで130だ!」はダメ
こういうたとえだと「そんなことしないだろ」って思う?
でも「個数と確率を足し算」とか平然とやる人が意外と多い
説明変数と目的変数
ラベル付きデータがあるのかどうか、という話をするのに、そもそもラベルとは何かって理解が必要
グラフ
グラフの読解は必要
ヒストグラムは絶対必要だろう
散布図も?
箱ひげ図もいる?
基礎的な統計
平均
平均値と中央値と最頻値は違う
分散と標準偏差
標準偏差いくつでいくらぐらいの確率か
データ量が2倍になった時に分散はどうなるのか
これはわかってないとやばいかも
名義尺度のデータを間隔尺度を求めるライブラリに食わせてんじゃねー、的な
3次元以上の空間の概念
ベクトルを2次元平面や3次元空間の中の矢印のイメージでとらえていて、4次元以上になると「時間軸??」とかなっちゃう人もいる
ベクトル
ただの数値の列だよねー
行列
ただの二次元配列だよねー
行列演算とかしないよね
微分
数学に苦手意識のある社会人がぬるい記事を1本読んだ程度でできるようにはならない
そこを理解して自分で実装とかしてないでライブラリを使えばいい、そっちの方が速いし
自分でゼロから多層パーセプトロンを実装したいとか、多層パーセプトロンの動作原理を知りたいとかなら勉強する必要はある
大学1年の微積分学の教科書とかを読むとよいかと
行列に関しても線形代数の教科書を読もう
対数尺
正規分布
次元の呪い
次元の大きい空間がやばい、って感覚は持ってほしい
でも次元の感覚がわからなくても「データがたくさん必要だよ」で済む気もする
確率
必要かな?
ナイーブベイズの中身を理解するには基礎的な確率とベイズ則は必要だろうけど。
でもドキュメントに使い分けについて書いてあるぞ
>Like MultinomialNB, this classifier is suitable for discrete data. The difference is that while MultinomialNB works with occurrence counts, BernoulliNB is designed for binary/boolean features.