generated at
Attention is all you need

Transformerの提案

前提:
Autoencoderの機構

RNNの記憶力弱いのに対して、Transformerは強い、と

わかりやすい
その単語を理解する上で大事な周辺単語への注目を推論する


分からない事
Encoder-Decoderモデルの構造とどう対応しているのかが分からない

>Transformerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層とPosition-wise全結合層を使用していることが特徴。
> つまり、以下の3つ(+2つ)のことが分かればモデル構造が理解できる ので順に説明していく。
>
> エンコーダ-デコーダモデル
> Attention
> Position-wise全結合層
> 文字の埋め込みとソフトマックス
> 位置エンコーディング