データの前処理
データの集約・結合・整形
クレンジング処理
前処理の構造
データの構造を対象とした前処理
抽出、集約、結合、分割などでテーブルの構造を変える
不要なデータを除去する、整形する
異なるシステムのデータを統合
データの選択
分析に必要な形式にデータを再構成
データの内容を対象とした前処理
テーブルの構造は変えずに値を変換する
計算して新たな列を作る
関連フィールドを変換する
外れ値、欠損値の修正など
フィールド値の異なる型の統一
小さい単位で処理する
例えば、4つのcsvから、最終的な一つのアウトプットを出したいとき
2方針考えられる
個々のファイルで前処理をした後に、JOINする
いったん全てをJOINしてから前処理をする
実際に両方試してみて、圧倒的に前者の方が良いと感じた

個々のファイルで前処理した後に、mergeして、再度前処理をする
小さいと一望することが可能になる
明らかな欠損値の存在に気づきやすい
理解が浅いとJOINのタイミングで盛大に間違う
libraryの提供する関数の仕様を確認する
Excelの
STDEV()
という関数は、標準偏差ではなく
不偏標準偏差を求める関数らしい
こういうミスめっちゃありそう

変数の分類
quantiative variable
数量を表す変数
qualitative variable
categorical variable
数量として扱えない変数
e.g. 性別
学習をするときは、学習データ、教師データに前処理や規格化などを行ってからモデルに入れる
なので、推論器が完成し、それに実際のデータを入れる前にも同様の前処理を行う必要がある
画像の前処理
画像のリサイズ
色情報の規格化