>Transformerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層とPosition-wise全結合層を使用していることが特徴。
> つまり、以下の3つ(+2つ)のことが分かればモデル構造が理解できる ので順に説明していく。
>
> エンコーダ-デコーダモデル
> Attention
> Position-wise全結合層
> 文字の埋め込みとソフトマックス
> 位置エンコーディング