わけではなくLLMが無限のコンテキスト長に対応できるようになる(?)

長いテキストを処理する際に、初期のトークンが後続のトークンに対するattention scoreを占有し、新しい情報の取り込みを阻害する

StreamingLLMではattention sinkをキャッシュに保持することでWindow Attentionの性能低下を防ぐ

大規模言語モデルで「無限の入力」を受け付けることを可能にする手法「StreamingLLM」が開発される