自然言語処理
Encodingの歴史
LV2 Tf-idf = appear frequently globally => not important & apper frequently locally => important
LV3 Word2vec =
x,x,x king - distance(male,female) (includes some essence tf-idf
LV4 BERT
BERT can’t understand he/she (pronouns)
But, it 推測 from surrounding other words (word sense disambiguation)
embeddingについて
アプローチ
やることの一部
ただの言語の処理だけではない
言語が持つ意味、知識、感情等、人間の知能に関わる深いところまで繋がる

イメージ以上に広い分野
方法論
文字列として処理はできない (ケヤキとケーキは文字列としては近い、意味的には全然違う)
意味をどのように扱うか
(頭の中の処理は観察できないので、
観察できる同値性の判定を用いる)
「
離散構造」と「連続的規則性」をどう組み合わせるか
自然言語の構造は、正誤がはっきりしている =
離散値構造的な規則性がある
ex: 画像とかなら一ピクセル変えてもそんなに影響ない、でも自然言語で一文字変えると大きな問題
言語のあいまい性と直結
何をコーパスから学ぶか
自然言語テキストデーターのことを「
コーパス」という
文章の構文を理解する技術
詳しく↑に書いた
文章/単語の意味を理解する技術
詳しく↑に書いた