unted_pooh - Mono Weekend

Mono Weekend

unted_pooh

从 PRE 到 Tree Rubrics：让 Rubric 成为可迭代的 Agent 质量门禁

作为《Rubric Is All You Need》的续篇，本文复盘 multi-agent-pipeline 如何从 PRE/EME 的平面 checklist 迭代到 Tree Rubrics，让 Rubric 从最终裁判表变成可生成、可验证、可反馈的 Agent 质量门禁。

基于 Tool Call 的记忆检索—— Agent 记忆架构的构想

1. 问题的核心 LLM Agent 需要一个记忆系统。在 2026 年的技术背景下,这个问题的性质已经发生了变化。两年前,主要矛盾是 context window 装不下——模型只能容纳几千 token,超出就截断。今天不同了。Gemini 2.5 Pro 有 1M context,GPT-4 Turbo 有 128K,容量不再是最紧的瓶颈。但新的问题出现了。Liu et al.(2023)在 "Lost in the Middle" 中证明了一个反直觉的事实:把更多信息塞进 context,不等于模型能有效利用它——长 context 中段的信息召回率会骤降。这本质上是注意力稀释:

长期应用开发中的 Harness 设计

Harness 设计是前沿智能体编码中影响性能的关键因素。本文将介绍我们如何在前端设计和长期自主软件工程两个方向上进一步突破 Claude 的能力边界。

Rubric Is All You Need

从论文《Rubric Is All You Need》出发，依次拆解了三种基于 Rubric 的 LLM 评估 Agent的设计思路，厘清了 Rubric 与传统 Test Harness 的互补关系，并进一步延伸至 Vibe Coding 时代的三种落地玩法——Rubric 驱动提示词、双 Agent 自我修复循环、以及以 RDD 取代 TDD。在 AI 大规模生成代码的今天，定义好 Rubric，比写好代码本身更重要。