1. 问题的核心
LLM Agent 需要一个记忆系统。在 2026 年的技术背景下,这个问题的性质已经发生了变化。
两年前,主要矛盾是 context window 装不下——模型只能容纳几千 token,超出就截断。今天不同了。Gemini 2.5 Pro 有 1M context,GPT-4 Turbo 有 128K,容量不再是最紧的瓶颈。
但新的问题出现了。Liu et al.(2023)在 "Lost in the Middle" 中证明了一个反直觉的事实:把更多信息塞进 context,不等于模型能有效利用它——长 context 中段的信息召回率会骤降。这本质上是注意力稀释: