generated at
トランスフォーマー
ニューラルネットワークのどこにアテンションを当てるか
マルチヘッドのセルフアテンションを多層に重ねた