/blu3mo-public/コンピュータービジョン

generated at 2/17/2025, 3:08:42 PM
コンピュータービジョン
a.k.a. CV

 講義
「CV」「CG」「画像処理」の定義について
「形状/見た目/動き/意味」を、「画像/映像」から抽出することがCV
CVの対義語: コンピューターグラフィックス/CG
「映像/画像」を、「形状/見た目/動き/意味」から作り出すのがCG
CVと逆向きの矢印
画像処理は、「画像/映像」 to 別の「画像/映像」
色味を変えたりとか

 これ↑、ディジタル画像処理の本の定義とは少し違う感じかな
画像処理のページに貼った画像が、ちょっと違う定義を提示してる

CVの難しさは、一般の人に理解されにくい
目の前にあるペットボトルをペットボトルだと理解する難しさが伝わりにくい
こういう所の感覚を伝えるっていう観点のプログラミング教育もありそう
コンピューターができること/できないこと

トピック
特徴点検出とマッチング
運動からの形状復元 (複数の画像から点群データー生成）
コンピュテーショナルフォトグラフィー #写真
3次元復元 
画像認識 (YOLO等)
最近はFairness(AIが人種差別的方向に偏る問題について)も取り扱われる

画像認識
掛け合わせ: 機械学習 x コンピュータービジョン x 自然言語処理
物体検出、セマンティックセグメンテーション等

歴史
SIFT: 輝度勾配のヒストグラムのベクトルで局所特徴
Bag of Visual Words: 自然言語処理のBag of Wordsの手法を応用
画像のデーターセット: Caltech-101

方法 (初歩的なもの)
1. コーディング: 各パッチをコードワード使ってOne-hotベクトルに変換
2. プーリング: コーディングした各パッチを足し合わせて平均のベクトルを取る
3. 分類: プーリングしたベクトルが分類境界のどっち側かとかで分類する
改善するなら、
画像の一部分のデーターではなく、認識に適した画像（カーネル）を使う
One-hotではなくもっと複雑な表現を使う
NLPの系譜と似たものを感じる
考え方としては、画像の縦横次元を圧縮しつつ、深さの次元を展開していく
階層構造
 CNNのところの図と同じ考え方


 人間が集めたデーターセットでやっている以上、人間の認知に適応、過学習していく
そりゃそう、それが目的
哲学的な話になってくるけど、物自体を認識できるかみたいな議論に画像認識関わってきそう
人間がラベル付けしないとは当然認識できない
あえて人間の存在を極力無視した上で物体検出につながるようなことやったらどうなるんだろう
それが教師なし学習か、教師なし学習で物体検出（に近いこと）できるのかな
自然言語によるラベル付けは当然できないけど
人間以外の視覚の知的な捉え方を生み出せたりする?
知的と呼べるレベルまで行けるのかな
というか人間が理解できないと知的って言えない?



#情報科学