Mono Weekend

Mono Weekend

基于 Tool Call 的记忆检索—— Agent 记忆架构的构想

1. 问题的核心 LLM Agent 需要一个记忆系统。在 2026 年的技术背景下,这个问题的性质已经发生了变化。 两年前,主要矛盾是 context window 装不下——模型只能容纳几千 token,超出就截断。今天不同了。Gemini 2.5 Pro 有 1M context,GPT-4 Turbo 有 128K,容量不再是最紧的瓶颈。 但新的问题出现了。Liu et al.(2023)在 "Lost in the Middle" 中证明了一个反直觉的事实:把更多信息塞进 context,不等于模型能有效利用它——长 context 中段的信息召回率会骤降。这本质上是注意力稀释:
13 min read