generated at
自然言語処理
Encodingの歴史
LV1 One-hot vector = 0,0,0,1,0,0,0 (only one 1 (hot))
LV2 Tf-idf = appear frequently globally => not important & apper frequently locally => important
LV3 Word2vec = x,x,x king - distance(male,female) (includes some essence tf-idf
LV4 BERT
BERT can’t understand he/she (pronouns)
But, it 推測 from surrounding other words (word sense disambiguation)

embeddingについて

-
情報科学の達人
言語学情報科学が重なる分野
アプローチ
人間が言語の入力/出力を行う仕組みを知りたい
脳科学とか使わないと脳の情報処理はわからない
なので、観測可能な言語を通じて仕組みを探る

やることの一部
テキストマイニング: ツイート等の膨大な自然言語データーから情報を得る

ただの言語の処理だけではない
言語が持つ意味、知識、感情等、人間の知能に関わる深いところまで繋がる
blu3mo イメージ以上に広い分野

方法論
文字列として処理はできない (ケヤキとケーキは文字列としては近い、意味的には全然違う)
意味をどのように扱うか
意味とは?: 人間が同値性を判定できるもの
(頭の中の処理は観察できないので、観察できる同値性の判定を用いる)

離散構造」と「連続的規則性」をどう組み合わせるか
自然言語の構造は、正誤がはっきりしている = 離散値構造的な規則性がある
ex: 画像とかなら一ピクセル変えてもそんなに影響ない、でも自然言語で一文字変えると大きな問題
ただ、あいまい性、不確実性もある (統計的、連続値的な性質)
言語のあいまい性と直結
つまり、離散的・連続的の複合的な性質を持つ

何をコーパスから学ぶか
自然言語テキストデーターのことを「コーパス」という
規則性等をコーパスから学べる
ex: 言語モデル (文らしさを評価)

技術として一番よく使うのはやはり機械学習

文章の構文を理解する技術
詳しく↑に書いた

文章/単語の意味を理解する技術
詳しく↑に書いた