コンピュータービジョン

講義
CVと逆向きの矢印
画像処理は、「画像/映像」 to 別の「画像/映像」
色味を変えたりとか
画像処理のページに貼った画像が、ちょっと違う定義を提示してる
CVの難しさは、一般の人に理解されにくい
目の前にあるペットボトルをペットボトルだと理解する難しさが伝わりにくい
コンピューターができること/できないこと
トピック
運動からの形状復元 (複数の
画像から
点群データー生成)
最近はFairness(AIが
人種差別的方向に偏る問題について)も取り扱われる
歴史
方法 (初歩的なもの)
1. コーディング: 各パッチをコードワード使って
One-hotベクトルに変換
2. プーリング: コーディングした各パッチを足し合わせて平均のベクトルを取る
3. 分類: プーリングしたベクトルが分類境界のどっち側かとかで分類する
改善するなら、
画像の一部分のデーターではなく、認識に適した画像(
カーネル)を使う
One-hotではなくもっと複雑な表現を使う
NLPの系譜と似たものを感じる
考え方としては、画像の縦横次元を圧縮しつつ、深さの次元を展開していく
階層構造
CNNのところの図と同じ考え方

人間が集めたデーターセットでやっている以上、人間の認知に適応、過学習していく
そりゃそう、それが目的
哲学的な話になってくるけど、
物自体を認識できるかみたいな議論に画像認識関わってきそう
人間がラベル付けしないとは当然認識できない
あえて人間の存在を極力無視した上で物体検出につながるようなことやったらどうなるんだろう
それが
教師なし学習か、教師なし学習で物体検出(に近いこと)できるのかな
自然言語によるラベル付けは当然できないけど
人間以外の視覚の知的な捉え方を生み出せたりする?
知的と呼べるレベルまで行けるのかな
というか人間が理解できないと知的って言えない?