>@PhysConsultant: LLaMaは基本的なtransformerに↓の3つの工夫施したもの。
>・pre-normalization using RMSNorm
>・SwiGLU activation function
>・rotary positional embeddings
>それで、LLaMa2はさらに下記の変更を加えた。
>・Context Lengthを2倍。
>・↑でメモリ空間が巨大になるためGrouped-Query Attentionを採用。