Loading... # 2025 年 LLM 年度回顾技术分析 # 一、新闻概述 ## 1. 标题 2025:大语言模型之年 ## 2. 发布时间 2025 年 12 月 31 日 ## 3. 来源 Simon Willison's Weblog # 二、核心内容 ## 1. 事件摘要 ### A. 主要内容 Simon Willison 发布其第三份 LLM 年度回顾,系统梳理了 2025 年大语言模型领域的关键发展。文章涵盖了推理模型的兴起、智能代理的突破、编程工具的革新等 27 个主题。 ### B. 核心亮点 - 推理模型成为行业标准 - 编程代理进入实用阶段 - 中国开源模型异军突起 - Claude Code 实现十亿美元年化收入 - 图像编辑能力显著提升 ## 2. 关键信息 ### A. 文章系列 - 2023 年 AI 相关发现总结 - 2024 年 LLM 知识总结 - 2025 年 LLM 年度回顾(本文) ### B. 主要主题数量 27 个年度主题标签 ### C. 涉及厂商 OpenAI、Anthropic、Google、DeepSeek、阿里 Qwen、月之暗面等 # 三、详细报道 ## 1. 推理模型的崛起 ### A. 技术背景 OpenAI 于 2024 年 9 月推出 o1 和 o1-mini,开启了推理模型时代。2025 年初,OpenAI 继续推出 o3、o3-mini 和 o4-mini,推理能力迅速成为各大 AI 实验室的标配功能。 ### B. 技术原理 Andrej Karpathy 的解释揭示了这一技术的本质: 通过在可验证奖励环境(如数学/代码谜题)中训练 LLM,模型会自发发展出类似推理的策略。模型学会将问题分解为中间计算步骤,并掌握多种问题解决策略。 这种方法提供了极高的能力成本比,大量算力从预训练转向推理训练。 ### C. 实际应用价值 推理模型的真正价值体现在工具调用能力上: - 多步骤任务规划 - 执行后根据结果调整策略 - 持续推理优化方案 ### D. 应用场景 AI 辅助搜索的实际可用性得到验证。即使是复杂的研究问题,GPT-5 Thinking 模式也能有效应对。 推理模型在代码生成和调试方面表现卓越: - 从错误出发追溯根本原因 - 分析大型复杂代码库 - 逐步诊断棘手 bug ## 2. 智能代理元年 ### A. 定义确立 Simon Willison 在年初预测智能代理不会实现,原因是易受骗问题和科幻式的期望过于不切实际。 到 9 月,他将智能代理定义为:通过循环运行工具来实现目标的 LLM 系统。 ### B. 两大突破领域 深度研究模式:让 LLM 收集信息并生成详细报告,前期流行但后期被更高效的 GPT-5 Thinking 替代。 编程代理模式:影响更为重大。 ## 3. 编程代理与 Claude Code ### A. Claude Code 的里程碑 2025 年 2 月,Anthropic 悄然发布 Claude Code,仅作为 Claude 3.7 Sonnet 公告的第二项内容。 Claude Code 是编程代理的典型代表:LLM 系统可以编写代码、执行代码、检查结果并继续迭代。 ### B. 行业产品矩阵 主要厂商的 CLI 编程代理: - Claude Code(Anthropic) - Codex CLI(OpenAI) - Gemini CLI(Google) - Qwen Code(阿里) - Mistral Vibe 第三方工具: - GitHub Copilot CLI - Amp - OpenCode - OpenHands CLI - Pi ### C. 异步编程代理 2025 年 5 月,OpenAI 推出 Codex Cloud,Google 推出 Jules。 异步编程代理的特点: - 云端执行,无本地安全风险 - 可同时发起多个任务 - 特别适合手机使用场景 ### D. 商业成功 截至 2025 年 12 月 2 日,Claude Code 实现十亿美元年化收入。 ## 4. 命令行 LLM 工具的突破 ### A. 开发者习惯转变 Claude Code 等工具证明,在足够强大的模型和适当工具支持下,开发者会拥抱命令行 LLM 工具。 ### B. 技术障碍消除 复杂的命令行工具(sed、ffmpeg、bash)不再成为障碍,LLM 可以直接生成正确的命令。 ## 5. YOLO 模式与偏差常态化 ### A. 默认安全机制 大多数编程代理默认会请求用户确认每个操作,原因是: - 可能误删除整个用户目录 - 提示注入攻击可能窃取凭据 ### B. YOLO 模式的诱惑 自动确认模式(YOLO)让体验完全不同。 ### C. 安全隐患 Johann Rehberger 在《AI 中的偏差常态化》中提出警告:重复暴露于风险行为而无负面后果,会使人认为这种风险行为是正常的。 这与 1986 年挑战者号灾难的原因相同:多次成功发射让 NASA 停止认真对待 O 型圈缺陷风险。 ## 6. 订阅定价的跃升 ### A. 新价格锚点 ChatGPT Plus 原价 20 美元/月是基于 Discord 调查的临时决定。 2025 年新定价标准: - Claude Pro Max:200 美元/月 - ChatGPT Pro:200 美元/月 - Google AI Ultra:249 美元/月(首季优惠 124.99 美元/月) ### B. 经济逻辑 需要大量使用才能消耗 200 美元的 API 配额。但 Claude Code 和 Codex CLI 等工具在处理复杂任务时会消耗大量 token,使月付方案具有实质性折扣。 ## 7. 中国开源模型的崛起 ### A. 市场格局变化 2025 年底,Artificial Analysis 开源模型排行榜前五名全部来自中国: 1. GLM-4.7(智谱) 2. Kimi K2 Thinking(月之暗面) 3. MiMo-V2-Flash 4. DeepSeek V3.2 5. MiniMax-M2.1 最高非中国模型是 OpenAI 的 gpt-oss-120B,排名第六。 ### B. 历史节点 2024 年 12 月 25 日,DeepSeek V3 发布,据称训练成本约 550 万美元。 2025 年 1 月 20 日,DeepSeek R1 发布,引发 AI/半导体股大幅抛售: - NVIDIA 市值损失约 5930 亿美元 - 投资者恐慌于 AI 不再是美国垄断 ### C. 主要中国 AI 实验室 - DeepSeek - 阿里 Qwen(Qwen3) - 月之暗面(Kimi K2) - 智谱(GLM-4.5/4.6/4.7) - MiniMax(M2) - MetaStone AI(XBai o4) ### D. 开源许可 多数模型采用真正开源许可: - Qwen:Apache 2.0 - DeepSeek 和智谱:MIT 部分模型能力可与 Claude 4 Sonnet 和 GPT-5 媲美。 ## 8. 长任务处理能力的突破 ### A. METR 研究图表 时间跨度图表显示,2025 年模型在长任务处理上有巨大飞跃: - GPT-5、GPT-5.1 Codex Max、Claude Opus 4.5 可完成人类数小时的任务 - 2024 年最佳模型上限不到 30 分钟 ### B. 发展速度 METR 结论:AI 可完成任务长度每 7 个月翻倍。 ## 9. 提示驱动图像编辑 ### A. 历史背景 GPT-4o 曾承诺多模态输出但未能兑现。 2025 年 3 月,OpenAI 终于推出图像生成和编辑功能,用户可上传图片并通过提示词修改。 ### B. 用户增长 该功能在一周内带来 1 亿 ChatGPT 注册,峰值每小时 100 万账户创建。 吉卜力化等病毒式传播技巧反复走红。 ### C. 竞争产品 Qwen 的 Qwen-Image 和 Qwen-Image-Edit 模型可在消费级硬件上运行。 Google 的 Nano Banana 系列模型: - 可生成有用文本 - 图像编辑指令跟随能力最强 - Nano Banana Pro 可生成专业级信息图 ## 10. 学术竞赛金牌 ### A. 数学奥林匹克 2025 年 7 月,OpenAI 和 Gemini 模型在国际数学奥林匹克中达到金牌水平。 ### B. 编程竞赛 2025 年 9 月,在国际大学生编程竞赛(ICPC)中取得优异成绩。 ### C. 意义 这些竞赛的题目专为比赛设计,训练数据中不可能存在,证明了模型的真正推理能力。 ## 11. Llama 的迷失 ### A. 历史地位 2024 年是 Llama 之年。Meta 的 Llama 模型是最受欢迎的开源模型。 ### B. Llama 4 的失望 2025 年 4 月发布的 Llama 4 令人失望: - 模型过大(109B 和 400B) - 即使量化也无法在 64GB Mac 上运行 - LM Studio 和 Ollama 最受欢迎模型列表中已无 Meta 位置 ### C. 战略转向 Meta 主要精力转向内部政治和 Superintelligence Labs 的人才招聘。 ## 12. OpenAI 领先地位的丧失 ### A. 竞争格局 2025 年,行业其他公司追赶上来: - 图像:被 Nano Banana Pro 超越 - 代码:Opus 4.5 略优于 GPT-5.2 Codex - 开源模型:落后于中国 AI 实验室 - 音频:受 Gemini Live API 威胁 ### B. 消费者心智份额优势 OpenAI 仍在消费者认知度上保持领先,ChatGPT 品牌知名度远超 Gemini 和 Claude。 ### C. 最大威胁 2025 年 12 月,OpenAI 宣布红色警报,暂停新项目以应对 Gemini 3 的竞争。 ## 13. Gemini 之年 ### A. 产品发布 2025 年发布 Gemini 2.0、2.5 和 3.0: - 支持百万级 token 音频/视频/图像/文本输入 - 价格有竞争力 - 能力持续提升 ### B. 生态系统产品 - Gemini CLI - Jules(异步编程代理) - AI Studio 持续改进 - Nano Banana 图像模型 - Veo 3 视频生成 - Gemma 3 开源模型系列 ### C. 硬件优势 Google 使用自研 TPU 而非 NVIDIA GPU,这是其在成本上的巨大优势。 ## 14. 鹈鹕骑自行车基准 ### A. 起源 Simon Willison 于 2024 年 10 月首次要求 LLM 生成鹈鹕骑自行车的 SVG 图像。 ### B. 意外发现 模型绘制鹈鹕骑自行车的能力与整体能力似乎存在相关性。 ### C. 社区影响 这一基准出现在: - Google I/O 主题演讲 - Anthropic 可解释性研究论文 - GPT-5 发布视频 ### D. 真实意图 Simon Willison 承认这是长期策略:诱使多个 AI 实验室投入资源在这个基准上作弊,直到得到一个真正出色的鹈鹕骑自行车 SVG 插图。 ## 15. Slop 成为年度词汇 ### A. 定义 Merriam-Webster 将 slop 选为 2025 年度词汇: 数字内容,通常由人工智能大量生成,质量低劣。 ### B. 影响 代表广泛认知:低质量 AI 生成内容是坏的,应该避免。 ### C. 乐观观点 互联网一直充斥着低质量内容,挑战在于找到和放大好内容。策展比以往任何时候都更重要。 ## 16. 数据中心反对潮 ### A. 公众态度转变 2025 年公众舆论明显转向反对新建数据中心。 ### B. 环保组织行动 2025 年 12 月 8 日,卫报报道:200 多个环保组织要求停止美国新数据中心建设。 ### C. 真实问题 - 能源消耗 - 碳排放 - 噪声污染 - 水资源使用(部分夸大) ### D. 杰文斯悖论 随着 token 变便宜,我们会找到更密集的使用方式,如每月 200 美元运行编程代理。 # 四、技术架构分析 ## 1. 推理模型工作原理 ```mermaid graph TB A[用户问题] --> B{推理模型} B --> C[问题分解] C --> D[生成中间步骤] D --> E[验证中间结果] E --> F{需要更多步骤?} F -->|是| D F -->|否| G[生成最终答案] G --> H[返回结果] I[可验证奖励环境] --> J[强化学习训练] J --> B style B fill:#e1f5ff style J fill:#ffe1e1 ```  ## 2. 编程代理架构 ```mermaid graph LR A[用户任务] --> B[LLM 规划器] B --> C{需要代码执行?} C -->|是| D[Bash 工具] C -->|否| E[其他工具] D --> F[执行结果] E --> F F --> G{任务完成?} G -->|否| B G -->|是| H[返回结果] I[文件系统] --> D J[代码库] --> D style B fill:#e1f5ff style D fill:#ffe1e1 style H fill:#e1ffe1 ```  ## 3. 智能代理分类 ```mermaid mindmap root((智能代理)) 同步代理 Claude Code CLI Codex CLI Gemini CLI 本地执行 需要用户确认 异步代理 Claude Code for Web Codex Cloud Google Jules 云端执行 YOLO 模式 研究代理 深度研究模式 GPT-5 Thinking Google AI Mode 信息收集报告 ```  ## 4. 中国开源模型生态 ```mermaid graph TB subgraph 第一梯队 A1[GLM-4.7<br/>智谱] A2[Kimi K2 Thinking<br/>月之暗面] A3[MiMo-V2-Flash] A4[DeepSeek V3.2] A5[MiniMax-M2.1] end subgraph 第二梯队 B1[gpt-oss-120B<br/>OpenAI] B2[Qwen3 235B<br/>阿里] B3[Apriel-v1.6-15B-Thinker] end subgraph 许可证类型 C1[Apache 2.0<br/>Qwen] C2[MIT<br/>DeepSeek/智谱] end A1 --> C2 A2 --> C1 A4 --> C2 B2 --> C1 style A1 fill:#e1f5ff style A2 fill:#e1f5ff style A4 fill:#e1f5ff ```  ## 5. 长任务处理能力演进 ```mermaid xychart-beta title "AI 模型长任务处理能力演进" x-axis [2019, 2020, 2021, 2022, 2023, 2024, 2025] y-axis "任务时长(分钟)" 0 --> 300 line [5, 10, 20, 45, 90, 150, 280] ```  ## 6. 致命三要素 ```mermaid graph TD A[访问私有数据] --> D[提示注入攻击] B[外部通信能力] --> D C[暴露于不受信任内容] --> D D --> E[数据泄露风险] style A fill:#ffe1e1 style B fill:#ffe1e1 style C fill:#ffe1e1 style D fill:#ff0000,color:#fff style E fill:#ff0000,color:#fff ```  # 五、影响分析 ## 1. 行业影响 ### A. 竞争格局重塑 - 美国垄断被打破,中国 AI 实验室崛起 - OpenAI 领先优势缩小 - Google Gemini 强势回归 ### B. 开源生态繁荣 - 中国开源模型采用宽松许可 - 推动全球 AI 民主化 ### C. 硬件竞争 - TPU vs GPU 竞争加剧 - NVIDIA 市场地位受挑战 ## 2. 开发者影响 ### A. 编程范式转变 - Vibe coding 成为新开发方式 - 异步编程代理改变工作流程 - 手机编程成为可能 ### B. 工具链演进 - CLI 工具复兴 - MCP 协议爆发式增长后被 Skills 取代 - 测试套件成为编程代理的关键 ### C. 安全意识提升 - YOLO 模式的诱惑与风险 - 致命三要素概念的普及 - 浏览器代理的安全担忧 ## 3. 用户影响 ### A. 订阅成本上升 - 高级功能价格跃升至 200 美元/月 - API 与订阅定价策略分化 ### B. 图像创作门槛降低 - 提示词编辑功能普及 - 专业级信息图生成 - 病毒式传播技巧 ### C. 信息质量挑战 - Slop 问题加剧 - 策展重要性提升 # 六、各方反应 ## 1. 官方回应 OpenAI 宣布红色警报应对 Gemini 竞争。 ## 2. 业内评价 Andrej Karpathy 对推理模型的解释成为权威观点。 ## 3. 社区反馈 - SnitchBench 揭示所有模型都会举报用户 - Vibe coding 概念被广泛误解 - Pelican riding bicycle 成为文化现象 # 七、年度术语 ## 1. Vibe Coding 定义:完全依赖氛围,拥抱指数级增长,忘记代码存在的编程方式。 ## 2. 致命三要素 提示注入攻击的特定场景:访问私有数据、外部通信能力、暴露于不受信任内容三者结合。 ## 3. Context Rot Workaccount2 创造的术语:模型输出质量随会话上下文增长而下降的现象。 ## 4. Context Engineering 提示工程的替代方案,强调设计提供给模型的上下文的重要性。 ## 5. Slopsquatting Seth Larson 创造的术语:LLM 幻觉出错误包名,然后被恶意注册以传递恶意软件。 ## 6. Asynchronous Coding Agent Claude Code for Web / Codex Cloud / Google Jules 等产品的统称。 ## 7. Extractive Contributions Nadia Eghbal 创造的术语:审查和合并贡献的边际成本大于对项目生产者边际效益的开源贡献。 # 八、趋势展望 ## 1. 技术趋势 - 推理能力成为标配 - 编程代理能力持续提升 - 多模态能力加速发展 ## 2. 市场趋势 - 中国 AI 实验室持续崛起 - 订阅价格分层化 - 开源与闭源竞争加剧 ## 3. 社会影响 - AI 能源消耗关注上升 - 数据中心建设阻力增加 - 信息质量挑战持续 # 九、个人实践 ## 1. 工具构建 Simon Willison 在 2025 年构建了 110 个 HTML+JavaScript 工具,全部采用 vibe coding 方式。 ## 2. 手机编程 在手机上编写的代码超过电脑。 ## 3. 合规性测试套件 发现现有测试套件是编程代理的最佳配合: - html5lib 测试 - MicroQuickJS 测试套件 - WebAssembly 规范测试 *** ## 参考资料 1. [2025: The year in LLMs](https://simonwillison.net/2025/Dec/31/the-year-in-llms/) 2. [Stuff we figured out about AI in 2023](https://simonwillison.net/2023/Dec/31/ai-in-2023/) 3. [Things we learned about LLMs in 2024](https://simonwillison.net/2024/Dec/31/llms-in-2024/) 最后修改:2026 年 01 月 17 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏