深層学習界の大前提Transformerの論文解説！ - Qiita

AI界を席巻する「Transformer」をゆっくり解説(2日目) ～Introduction / Background編～

の記憶力弱いのに対して、Transformerは強い、と

AI界を席巻する「Transformer」をゆっくり解説(3日目) ～Model Architecture編 1～

Transformer解説：GPT-3、BERT、T5の背後にあるモデルを理解する | AI専門ニュースメディア AINOW

その単語を理解する上で大事な周辺単語への注目を推論する

自然言語処理の必須知識 Transformer を徹底解説！ | DeepSquare

の構造とどう対応しているのかが分からない

Transformerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層とPosition-wise全結合層を使用していることが特徴。

 つまり、以下の3つ(+2つ)のことが分かればモデル構造が理解できる ので順に説明していく。

 文字の埋め込みとソフトマックス