/work4ai/ALiBi - Scrapbox Reader

generated at 2/17/2025, 7:44:06 PM

ALiBi
https://arxiv.org/abs/2108.12409 Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation