generated at
Llama 2
https://arxiv.org/abs/2307.09288Open Foundation and Fine-Tuned Chat Models
https://github.com/facebookresearch/llama-recipes/Llama 2 Fine-tuning / Inference Recipes and Examples

>@PhysConsultant: LLaMaは基本的なtransformerに↓の3つの工夫施したもの。
>・pre-normalization using RMSNorm
>SwiGLU activation function
>それで、LLaMa2はさらに下記の変更を加えた。
>・Context Lengthを2倍。
>・↑でメモリ空間が巨大になるためGrouped-Query Attentionを採用。


ライセンス