generated at
StreamingLLM
既存のLLMがコンテキスト長が無限になる
わけではなくLLMが無限のコンテキスト長に対応できるようになる(?)
>長いテキストを処理する際に、初期のトークンが後続のトークンに対するattention scoreを占有し、新しい情報の取り込みを阻害する
StreamingLLMではattention sinkをキャッシュに保持することでWindow Attentionの性能低下を防ぐ

参考