generated at
Transformer

Attention mechanism 注意機構 のみに基づいた、新しいシンプルなencoder decoder型のネットワークアーキテクチャ

コレ自体もすごいのだが、Encoder部分がBERTで利用されていることでも有名

理解するための資料
Illustrated Transformer
イラスト付きだが、annotatedのほうが分かりやすい気もする



GLASS BOXによる解説
入力部分が他より詳しい気がする
Annotated Transofromerではどう書かれているか適宜捕捉してくれて良い
>The Transformer uses a random initialization of the weight matrix and refines these weights during training – i.e. it learns its own word embeddings.
Transformerへの単語の入力はone-hot表現で行われる
Input Embeddingのところでword embeddingと同種の役割が行われる
すなわちここもTransformerの重みとして学習されて更新される
Positional Encodingsはinput embeddingと足し算される、同じ次元のベクトル





encoderやdecoderはそれぞれ同じ6層が積み重なっているが、これはCNN等でやっているのと似たようなものと思えばいい
ただし、CNNは1層あたりで周囲の画素しか接続されないが、Attentionなら全体から接続を構築できる
積み重ねることで、なんらかの抽象的(あるいは単に複雑な)な学習ができているのだろうと思える

日本語
日本語による論文解説
Attentionについて理解した後に読むとわかりやすい



全体図がわかりやすい