Loading... # AGENTS.md 上下文文件效果评估研究 # 一、新闻概述 ## 1. 标题 评估 AGENTS.md:仓库级上下文文件对编程助手真的有帮助吗? ## 2. 发布时间 2026 年 2 月 12 日 ## 3. 来源 arXiv 论文预印本(苏黎世联邦理工学院研究团队) # 二、核心内容 ## 1. 事件摘要 ### A. 主要内容 苏黎世联邦理工学院的研究团队发表了首个关于 AGENTS.md 等上下文文件效果的严格实证研究。这项研究挑战了 AI 编程工具开发商普遍推荐的实践。 ### B. 核心亮点 - LLM 生成的上下文文件反而降低任务成功率约 3% - 推理成本增加超过 20% - 开发者编写的上下文文件仅带来 4% 的边际提升 - 上下文文件导致更广泛的探索行为,但未能提供有效的仓库概览 ## 2. 关键信息 ### A. 研究规模 - 测试了 4 种主流编程助手 - 新建 AGENTbench 基准测试(138 个实例) - 在 SWE-bench Lite 和 AGENTbench 上进行评估 ### B. 涉及工具 - Claude Code(Anthropic) - Codex(OpenAI) - Qwen Code(阿里巴巴) ### C. 背景介绍 AGENTS.md 格式于 2025 年 8 月正式化,目前已有超过 60000 个开源仓库采用这种上下文文件。OpenAI、Anthropic 等主要厂商都推荐使用这类文件来帮助 AI 编程助手更好地理解代码仓库。 # 三、详细报道 ## 1. 主要内容 ### A. 研究方法 研究团队构建了三种实验设置: ```mermaid graph LR A[仓库与任务] --> B{上下文文件设置} B --> C1[无上下文文件] B --> C2[LLM 生成] B --> C3[开发者编写] C1 --> D[编程助手] C2 --> D C3 --> D D --> E[任务完成评估] E --> F[成功率分析] E --> G[行为追踪分析] E --> H[成本分析] ```  ### B. AGENTbench 基准测试 研究团队创建了全新的 AGENTbench 基准测试,专门用于评估上下文文件的效果: - 从 12 个包含开发者编写上下文文件的仓库中提取 - 138 个独特实例,涵盖 bug 修复和功能添加 - 专注于小众和新兴仓库(与 SWE-bench Lite 互补) - 平均测试覆盖率达到 75% ### C. 主要发现 **LLM 生成的上下文文件**: - 在 8 个测试设置中,有 5 个导致性能下降 - 平均分辨率降低 0.5% 至 2% - 步骤数增加 2.45 至 3.92 步 - 成本增加 20% 至 23% **开发者编写的上下文文件**: - 比 LLM 生成的文件效果更好 - 相比无上下文文件,平均提升 4% - 但仍增加步骤数和成本(最多 19%) ## 2. 技术细节 ### A. 行为分析 上下文文件导致以下行为变化: ```mermaid graph TD A[上下文文件] --> B[更多测试] A --> C[更多文件搜索] A --> D[更多文件读取] A --> E[更多仓库特定工具使用] B --> F[推理成本增加] C --> F D --> F E --> F ```  ### B. 工具使用变化 - 测试运行显著增加 - grep 搜索更多文件 - 读取更多文件 - 更频繁使用仓库特定工具(如 uv、repo_tool) ### C. 指令遵循情况 研究证明编程助手会遵循上下文文件中的指令: - 当上下文文件提到 uv 时,使用频率从每实例 0.01 次增加到 1.6 次 - 仓库特定工具从每实例 0.05 次增加到 2.5 次 ### D. 推理 token 分析 GPT-5.2 和 GPT-5.1 mini 的自适应推理显示: - LLM 生成的上下文文件增加推理 token 14% 至 22% - 开发者编写的文件增加 2% 至 20% - 说明上下文文件使任务变得更复杂 ## 3. 数据与事实 ### A. 基准测试对比 | 指标 | SWE-bench Lite | AGENTbench | |------|---------------|-----------| | 实例数量 | 300 | 138 | | 仓库数量 | 11 | 12 | | 仓库类型 | 热门 Python 仓库 | 小众仓库 | | 上下文文件 | 无 | 开发者编写 | ### B. 性能数据汇总 | 编程助手 | 无上下文 | LLM 生成 | 开发者编写 | |----------|---------|---------|-----------| | Claude Code | 基准 | -3% | +4% | | Codex GPT-5.2 | 基准 | -0.5% | +2% | | Codex GPT-5.1 | 基准 | -2% | +3% | | Qwen Code | 基准 | -1.5% | +5% | ### C. 成本影响 | 设置 | SWE-bench Lite 成本变化 | AGENTbench 成本变化 | |------|----------------------|-------------------| | LLM 生成 | +16% 至 +34% | +8% 至 +50% | | 开发者编写 | +0% 至 +15% | +5% 至 +19% | # 四、影响分析 ## 1. 行业影响 ### A. 技术趋势 这项研究揭示了 AI 编程工具领域的一个关键问题:厂商推荐的实践未必经过严格验证。研究呼吁业界需要更多基于证据的实践指导。 ### B. 竞争格局 - OpenAI、Anthropic 等厂商当前推荐使用 LLM 生成的上下文文件 - 研究结果表明这种推荐可能需要重新考虑 - 小众仓库的上下文文件可能更有价值(文档较少) ## 2. 用户影响 ### A. 现有用户 - 对于热门仓库,LLM 生成的上下文文件可能弊大于利 - 建议开发者仅编写最小化的必要信息 ### B. 潜在用户 - 不应盲目依赖 AI 生成的上下文文件 - 手动编写的简洁上下文文件更为有效 ### C. 最佳实践建议 研究团队建议: - 暂时省略 LLM 生成的上下文文件 - 人类编写的上下文文件应仅描述最小必要要求 - 避免冗余的仓库概览信息 ## 3. 技术趋势 ### A. 研究方向 未来需要探索如何自动生成简洁、与任务相关的上下文指导。 ### B. 改进空间 - 更强大的模型不一定生成更好的上下文文件 - 提示词工程的效果有限 - 需要新的上下文文件生成方法 # 五、各方反应 ## 1. 研究团队观点 这是首个严格调查上下文文件实际效果的研究,填补了文献空白。尽管上下文文件被广泛采用,但其对解决复杂软件工程任务的影响从未被严格研究过。 ## 2. 关键洞察 - 上下文文件与现有文档高度冗余 - 在小众仓库中,上下文文件价值更高(因为其他文档较少) - 编程助手确实会遵循上下文文件中的指令,但这并不转化为性能提升 ## 3. 研究局限性 - 主要关注 Python,其他编程语言的结果可能不同 - 仅评估任务解决率,未考虑代码效率和安全性 - 需要探索改进自动上下文文件生成的方法 # 六、相关链接 ## 1. 论文资源 - arXiv 论文链接:https://arxiv.org/abs/2602.11988 - AGENTbench 代码:https://github.com/eth-sri/agentbench ## 2. 相关资源 - AGENTS.md 官方网站:https://agents.md/ - SWE-bench 基准测试 - Claude Code 文档 *** ## 参考资料 1. [Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?](https://arxiv.org/abs/2602.11988) 最后修改:2026 年 02 月 17 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏