Loading... # 2025 大语言模型年度回顾技术分析 # 一、新闻概述 ## 1. 标题 2025 大语言模型年度回顾 ## 2. 发布时间 2026 年 1 月 16 日 ## 3. 来源 翻译整理自 Simon Willison's Weblog 的《2025: The year in LLMs》,由 Tw93 (@HiTw93) 翻译并整理 # 二、核心内容 ## 1. 事件摘要 ### A. 主要内容 本文是对大语言模型(LLM)领域 2025 年度发展的全面回顾,总结了过去 12 个月中发生的所有重要事件和趋势。这是 Simon Willison 对 LLM 领域的第三篇年度回顾文章。 ### B. 核心亮点 - 推理模型成为主流,OpenAI 的 o 系列、Google 的 Gemini 等纷纷推出推理能力 - Agent 从概念走向实用,编码 Agent 和深度搜索成为两大主流场景 - 中国开源模型全面崛起,占据排行榜前列 - Claude Code 年化收入达 10 亿美元 - 新定价标杆出现,200 美元/月的高端订阅服务 ## 2. 关键信息 ### A. 涉及技术 - 推理模型(RLVR:基于可验证奖励的强化学习) - Agent 系统 - 编码 Agent - 图像生成与编辑 - 开源模型 ### B. 重要数据 - Claude Code 年化收入:10 亿美元 - METR 研究:AI 能处理的任务长度每 7 个月翻倍 - Artificial Analysis 开源模型排行榜前五全是国产模型 - OpenAI 图像编辑功能上线一周新增 1 亿用户 ## 3. 背景介绍 ### A. 历史回顾 这是第三篇年度回顾,前两年的回顾包括: - 2023 年我们搞懂了哪些 AI 事情 - 2024 年我们在 LLM 上学到的东西 ### B. 相关上下文 2025 年充满了各种趋势,有些相互交织,有些则彻底改变了我们使用和构建 AI 的方式。 # 三、详细报道 ## 1. 推理之年 ### A. 技术突破 2024 年 9 月,OpenAI 通过 o1 和 o1-mini 拉开了推理(也叫基于可验证奖励的强化学习 RLVR)模型的序幕。2025 年初,他们又接连推出 o3、o3-mini 和 o4-mini,将这一能力推向主流。 ### B. 技术原理 Andrej Karpathy 对此有个精辟解释: > 通过在大量可自动验证奖励的环境中(比如数学题或编程谜题)训练 LLM,模型会自发发展出人类看起来像"推理"的策略,比如把问题拆解成中间步骤,来回尝试不同解法。 RLVR 的性价比极高,以至于原本用于预训练的算力被大量转投于此。因此,2025 年的能力进步主要来自更长的 RL 训练,而非更大的模型规模。 ### C. 应用场景 推理模型的主要应用价值: - **AI 辅助搜索**:GPT-5 Thinking 等系统能高效回答复杂的调研问题 - **代码生成和调试**:能从错误出发,逐层深入大型代码库定位根本原因 - **工具驱动**:能规划多步任务、执行、观察结果并动态调整计划 ### D. 技术架构 ```mermaid graph LR A[可验证奖励环境] -->|强化学习训练| B[推理模型] B -->|能力提升| C[多步任务规划] B -->|能力提升| D[工具调用] C --> E[AI 搜索] C --> F[代码调试] D --> G[Agent 系统] ```  ## 2. Agent 之年 ### A. Agent 定义 到了 9 月,作者给出了自己的定义: > Agent 就是能通过循环调用工具来达成目标的 LLM 系统 ### B. 发展历程 年初作者曾预测 Agent 不会真正落地,因为: - 2024 年大家嘴上都在说 Agent,但几乎没人做出能用的例子 - 每个人对 Agent 的定义还不一样 ### C. 实际成果 如果将 Agent 定义为"能通过多步工具调用完成有用工作的 LLM 系统",那它已经来了,而且非常实用。目前两大主流场景是: - **编程** - **深度搜索** "深度研究"模式(让 LLM 花 15 分钟以上生成详细报告)如今已式微,因为 GPT-5 Thinking 和 Google 的 AI Mode 能在几秒内给出类似质量的结果。 ## 3. 编码 Agent 与 Claude Code 之年 ### A. Claude Code 发布 2025 年 2 月,Anthropic 静悄悄地发布了 Claude Code,甚至没单独发博客,只是夹在 Claude 3.7 Sonnet 的公告里。 ### B. 版本说明 为什么从 3.5 跳到 3.7?因为 Anthropic 在 2024 年 10 月悄悄升级了 3.5,但没改名,社区只好把新版叫 3.6,结果官方直接跳过了这个数字。 ### C. 产品特性 Claude Code 是"编码 Agent"的代表:能写代码、执行、看结果、再迭代。 ### D. 市场格局 2025 年,各大厂纷纷推出自己的 CLI 编码 Agent: **厂商产品**: - Claude Code - OpenAI 的 Codex CLI - Google 的 Gemini CLI - 阿里的 Qwen Code - Mistral 的 Mistral Vibe **厂商中立选项**: - GitHub Copilot CLI - Amp - OpenCode - OpenHands CLI - Pi **IDE 集成**: 主流 IDE 如 Zed、VS Code、Cursor 也大力集成编码 Agent。 ### E. 异步编码 Agent 2025 年 9 月,Anthropic 推出 Claude Code for Web,一个异步编码 Agent,你提交任务后可以去做别的事,它完成后会自动提 PR。 OpenAI 的 Codex Cloud(年底改名 Codex Web)和 Google 的 Jules 也在 5 月上线同类服务。 异步模式的优势: - 规避了本地执行任意代码的安全风险 - 能同时发起多个任务 - 可以在手机上一键触发,几分钟后就有结果 ### F. 商业成功 截至 2025 年 12 月 2 日,Anthropic 宣布 Claude Code 年化收入已达 10 亿美元! ```mermaid graph TD A[Claude Code 发布] -->|2 月| B[编码 Agent 元年] B -->|9 月| C[Claude Code for Web] B -->|其他厂商跟进| D[Codex CLI] B -->|其他厂商跟进| E[Gemini CLI] B -->|其他厂商跟进| F[Qwen Code] C -->|异步模式| G[自动提 PR] D -->|12 月| H[年化收入 10 亿美元] ```  ## 4. 终端 LLM 之年 ### A. 终端工具崛起 Claude Code 等工具的爆火证明:只要模型够强、工具链够好,开发者完全愿意在终端里用 LLM。 ### B. 应用场景 现在连 sed、ffmpeg 这种复杂命令,LLM 都能直接帮你写出来。 ## 5. YOLO 与偏差常态化之年 ### A. YOLO 模式 大多数编码 Agent 默认会请求用户确认每一步操作,但很多人会开启自动确认模式(俗称 YOLO 模式)。Codex CLI 甚至把 --dangerously-bypass-approvals-and-sandbox 简写为 --yolo。 去掉安全限制后,体验像换了产品。 ### B. 异步 Agent 的安全优势 异步编码 Agent(如 Claude Code for Web)天然适合 YOLO 模式,因为不碰你的本地机器。 ### C. 偏差常态化风险 安全研究员 Johann Rehberger 在《AI 中的偏差常态化》一文中指出: > 当人们反复进行高风险操作却未遭惩罚,就会逐渐视其为正常。这正是 1986 年挑战者号航天飞机灾难的根源。 他警告:我们越久不出事,离"AI 挑战者时刻"就越近。 ## 6. $200/月订阅之年 ### A. 定价历史 ChatGPT Plus 的 20 美元定价,最初只是 Nick Turley 在 Discord 上搞了个 Google 表单投票决定的。这个价格沿用至今。 ### B. 新定价标杆 2025 年,新定价标杆出现了: - Claude Pro Max 20x 计划:200 美元/月 - ChatGPT Pro:200 美元/月 - Google AI Ultra:249 美元/月(首三个月半价) ### C. 消费者行为 虽然各公司未公布各档用户占比,但显然有人愿意买单。作者自己就曾花 100 美元/月用 Claude,等当前免费额度用完就会升级到 200 档。 ### D. 定价逻辑 按理说,重度用户按 token 付费更划算,但像 Claude Code 这类工具处理复杂任务时 token 消耗极快,200 美元套餐反而成了折扣。 ## 7. 中国开源模型登顶之年 ### A. 市场格局变化 2024 年,中国 AI 实验室已有 Qwen 2.5 和早期 DeepSeek 等亮眼模型,但还不算颠覆性。2025 年彻底变了。 仅作者博客上关于中国 AI 的文章就有 67 篇,年末还漏掉了 GLM-4.7 和 MiniMax-M2.1 等重要发布。 ### B. 排行榜数据 截至 2025 年 12 月 30 日,Artificial Analysis 的开源模型排行榜前五全是国产: 1. GLM-4.7 2. Kimi K2 Thinking 3. MiMo-V2-Flash 4. DeepSeek V3.2 5. MiniMax-M2.1 最高排名的非中国模型是 OpenAI 的 gpt-oss-120B(high),仅排第六。 ### C. 里程碑事件 这场革命始于 2024 年圣诞发布的 DeepSeek 3(训练成本仅 550 万美元),随后 2025 年 1 月 DeepSeek R1 发布,甚至引发 NVIDIA 单日市值蒸发 5930 亿美元,市场恐慌 AI 不再是美国垄断。 ### D. 主要中国 AI 实验室 - **DeepSeek**(Hugging Face) - **阿里 Qwen**(Qwen3) - **月之暗面**(Kimi K2) - **智谱**(GLM-4.5/4.6/4.7) - **MiniMax**(M2) - **MetaStone AI**(XBai o4) ### E. 开源程度 多数模型不仅开源权重,还采用 OSI 认可的许可证(如 Apache 2.0、MIT),部分性能已接近 Claude 4 Sonnet 和 GPT-5。 可惜的是,它们仍未公开完整训练数据和训练代码,但研究论文推动了高效训练与推理的前沿。 ```mermaid graph TB A[2024 年] -->|DeepSeek 3| B[成本革命] B -->|550 万美元训练成本| C[引发关注] C -->|2025 年 1 月| D[DeepSeek R1] D -->|发布| E[NVIDIA 市值蒸发] E -->|5930 亿美元| F[市场恐慌] F -->|2025 年底| G[中国模型登顶] G -->|前五名| H[全是国产模型] ```  ## 8. 长任务之年 ### A. METR 研究 METR 机构发布了一张关键图表:《LLM 能独立完成的软件工程任务时长》。 ### B. 能力跃升 2025 年,GPT-5、GPT-5.1 Codex Max、Claude Opus 4.5 已能完成人类需数小时的任务,而 2024 年最强模型只能处理 30 分钟以内的任务。 ### C. 发展规律 METR 总结:AI 能处理的任务长度每 7 个月翻倍。虽然作者不确定这趋势能否持续,但它清晰展现了 Agent 能力的跃进。 ## 9. 提示驱动图像编辑之年 ### A. OpenAI 图像编辑 2024 年 5 月,GPT-4o 宣称支持多模态输出("o" 代表 omni),但图像生成功能迟迟未上线。 直到 2025 年 3 月,OpenAI 终于在 ChatGPT 中推出图像编辑功能:用户上传图片,用提示词修改。一周内新增 1 亿用户,峰值每小时 100 万注册! "吉卜力化"(把照片变成宫崎骏风格)等玩法病毒式传播。 ### B. API 发展 OpenAI 后续推出 gpt-image-1 API,10 月发布更便宜的 gpt-image-1-mini,12 月又升级到 gpt-image-1.5。 ### C. 开源阵营 阿里 Qwen 在 8 月发布 Qwen-Image 和 Qwen-Image-Edit,后者甚至能在消费级硬件上运行。11 月和 12 月又更新了两个版本。 ### D. Google Nano Banana 最大惊喜来自 Google:Nano Banana 系列。 - 3 月预览 - 8 月正式发布 Gemini 2.5 Flash Image(即 Nano Banana) - 11 月 Nano Banana Pro:可生成专业级信息图、带复杂文字的图像,已成为生产力工具 ### E. Anthropic 的缺席 有趣的是,Anthropic 至今未推出类似功能,可能因其专注专业工作流。但 Nano Banana Pro 正迅速证明:视觉创作也是专业工作的一部分。 ## 10. 模型斩获学术竞赛金牌之年 ### A. 国际数学奥林匹克 2025 年 7 月,OpenAI 和 Google Gemini 的推理模型在国际数学奥林匹克(IMO)中获得金牌——题目是全新设计的,不可能出现在训练数据中,且模型未使用任何外部工具。 ### B. 国际大学生程序设计竞赛 9 月,两家又在国际大学生程序设计竞赛(ICPC)中取得类似成绩,这次允许代码执行环境,但无网络访问。 ### C. 技术意义 虽然竞赛专用模型未公开,但 Gemini 的 Deep Think 和 OpenAI 的 GPT-5 Pro 应该是近似版本。 ## 11. Llama 迷失之年 ### A. 2024 年的高光 2024 年是 Llama 的高光时刻:Meta 的 Llama 3 系列(尤其是 3.1、3.2)是开源模型的标杆。 ### B. 2025 年的失望 但 2025 年 4 月发布的 Llama 4 令人失望: - 模型太大(Scout 109B、Maverick 400B) - 连量化后都无法在 64GB MacBook 上运行 ### C. 市场反应 更糟的是,LMArena 测试用的模型和实际发布的还不一致,如今,LM Studio 和 Ollama 上最流行的模型已不是 Meta 的,而是 Llama 3.1(排名也不高)。 ### D. 未来不确定性 Meta 今年的 AI 新闻多是内部政治和天价挖人组建 Superintelligence Labs,未来是否继续开源 Llama 已成疑问。 ## 12. OpenAI 失去领先之年 ### A. 2024 年的领导地位 2024 年,OpenAI 凭借 o1 和 o3 仍是绝对领导者。 ### B. 2025 年的竞争格局 但 2025 年,对手全面追上: - 图像生成不如 Nano Banana Pro - 代码能力略逊于 Claude Opus 4.5 - 开源模型被中国实验室超越 - 语音领域受 Gemini Live API 挑战 ### C. 唯一优势 唯一优势是消费者心智份额:没人知道 LLM 是什么,但人人都听过 ChatGPT。 ### D. 最大威胁 最大威胁来自 Gemini,12 月 OpenAI 内部发出"Code Red"警报,暂停新项目全力应对 Gemini 3 的竞争。 ## 13. Gemini 之年 ### A. 产品发布 Google Gemini 2025 年表现极为出色: - 连续发布 Gemini 2.0、2.5、3.0,均支持百万 token 多模态输入 - 推出 Gemini CLI(后被 Qwen 复用为 Qwen Code) - 异步编码 Agent Jules - Nano Banana 图像模型 - Veo 3 视频生成 - Gemma 3 开源模型家族 ### B. 核心优势 最大优势在于底层:Google 用自研 TPU,而非 NVIDIA GPU。当别人还在为 GPU 成本发愁时,Google 的训练和推理成本可能低得多。 ### C. 命名由来 "Gemini"(双子座)这名字源于 DeepMind 和 Google Brain 团队合并,算是组织架构的产物。 ## 14. 其他重要趋势 ### A. 鹈鹕骑自行车之年 2024 年 10 月,作者首次让 LLM 画"鹈鹕骑自行车"的 SVG——本意是搞笑,因为鹈鹕体型怪、自行车难画,且训练数据里大概率没有。 意外发现:模型画鹈鹕骑车的能力,与其整体能力高度相关。 AI 实验室似乎也注意到了:Google I/O 演示中闪过一秒,Anthropic 的可解释性论文提到它,OpenAI 甚至在 HQ 参观时让作者在 GPT-5 发布视频里聊这个。 但作者怀疑它们没专门为此训练——因为即使最强模型画的鹈鹕依然很烂! ### B. Vibe Coding 之年 2 月,Andrej Karpathy 提出 Vibe Coding:完全靠"感觉"编程,让 LLM 写一切,自己只说"把侧边栏 padding 减半"这种话,错误直接粘贴报错信息让 LLM 修,不看 diff,不深究逻辑。 核心是"忘记代码存在",靠 LLM 快速原型。 但这个词很快被滥用,变成"所有 AI 辅助编程"的代称。作者多次撰文澄清: - 并非所有 AI 编程都是 Vibe Coding - 专业工程应叫 Vibe Engineering - 最终目标是交付经过验证能工作的代码,无论怎么写出来的 ### C. 致命三要素之年 2025 年 6 月,作者提出新术语:致命三要素——指攻击者通过 prompt injection,诱使 Agent 窃取用户私有数据。 这个词故意模糊,迫使人们主动查定义,从而理解其严重性。目前看来,传播效果不错,尚未出现误用。 ### D. 手机编程之年 2025 年,作者在手机上写的代码比电脑还多。主要靠 Vibe Coding:在 iPhone 上用 Claude Artifacts 或 ChatGPT 提示,生成代码后粘贴到 GitHub Web 编辑器,或等 PR 自动创建后在 Mobile Safari 里合并。 作者的 110 个小工具大多这样诞生。 11 月前,作者觉得手机代码只是玩具。但 12 月,用 Claude Code 在 iPhone 上完成了 MicroQuickJS C 库的 Python 移植,效果出乎意料。 ### E. 一致性测试套件之年 2025 年底的重大发现:最新编码 Agent + 前沿模型,在有现成测试套件的情况下极其高效。 作者把这类测试套件称为 conformance suites,已成功用于: - html5lib 测试 - MicroQuickJS 测试 - WebAssembly spec/test(未公开项目) 如果你在 2026 年要推广新协议或新语言,强烈建议配套提供语言无关的一致性测试套件。这能极大降低 LLM 适配门槛。 ### F. 本地模型变好,但云模型变得更好 2024 年底,Llama 3.3 70B 让作者重燃本地运行 LLM 的兴趣——首次在 64GB MacBook 上体验到 GPT-4 级别模型。 2025 年 1 月,Mistral Small 3(24B,Apache 2.0)用三分之一内存达到同等水平,还能留内存跑其他应用。 中国开源模型进一步推动了 20–32B 参数的"甜点区"。 作者确实用本地模型完成了一些离线工作。但云模型进步更快:编码 Agent 需要可靠、高频的工具调用能力,目前尚无本地模型能稳定胜任 Bash 调用。 作者的下一台笔记本会配 128GB 内存,或许 2026 年的开源模型能改变局面。目前,仍依赖云端前沿模型。 ### G. Slop 之年 2024 年,作者参与推广了 slop 一词(指 AI 量产的低质数字内容),被《卫报》《纽约时报》引用。 2025 年,Merriam-Webster 将其评为年度词汇。作者喜欢这个词,因为它表达了共识:低质 AI 内容有害,应被抵制。 不过,互联网历来充斥垃圾内容,关键还是筛选与放大优质内容。Slop 可能只是让这问题更突出,而非本质改变。 ### H. 数据中心变得极不受欢迎之年 2025 年,公众对新建 AI 数据中心的反对声浪急剧上升。 12 月,《卫报》报道:200 多个环保组织要求暂停美国新建数据中心。地方层面的抵制也愈演愈烈。 虽然有人认为"耗水问题"被夸大(实际主要是能源、碳排放和噪音),但 Jevons 悖论依然存在:token 越便宜,我们用得越狠(比如每月花 200 美元跑编码 Agent)。 # 四、影响分析 ## 1. 行业影响 ### A. 技术趋势 - **推理能力成为标配**:几乎所有主流 AI 模型都具备了某种形式的推理能力 - **Agent 从概念到实用**:编码 Agent 和深度搜索成为主流应用场景 - **开源模型崛起**:中国开源模型在性能上已接近甚至超越部分闭源模型 - **硬件竞争加剧**:Google 的 TPU vs NVIDIA GPU,成本竞争白热化 ### B. 竞争格局 - **OpenAI 失去绝对领先地位**:在图像生成、代码能力、开源模型等方面被竞争对手超越 - **Google Gemini 强势崛起**:凭借 TPU 成本优势和全产品线布局成为最大威胁 - **中国 AI 实验室异军突起**:DeepSeek、Qwen、Kimi 等在开源模型排行榜上占据前列 - **Anthropic 专注垂直领域**:Claude Code 在编码 Agent 领域取得商业成功 ## 2. 用户影响 ### A. 开发者 - **编程方式变革**:Vibe Coding 和编码 Agent 改变了传统的编程流程 - **终端工具复兴**:LLM 让命令行工具再次流行 - **手机编程成为可能**:异步 Agent 让移动设备编程变得实用 ### B. 普通用户 - **订阅成本上升**:200 美元/月的高端订阅服务出现 - **图像创作民主化**:提示驱动图像编辑让普通人也能创作专业级图像 - **AI 搜索质量提升**:推理模型让复杂问题的答案更加准确 ### C. 安全风险 - **Prompt injection 威胁**:浏览器集成的 AI 面临严重安全风险 - **YOLO 模式的隐患**:自动确认模式可能导致"挑战者时刻" - **数据泄露风险**:致命三要素组合可能导致敏感数据泄露 ## 3. 技术趋势 ### A. 短期趋势(2026 年) - **推理能力进一步普及**:更多模型将具备推理模式切换 - **Agent 能力持续提升**:长任务处理能力将继续增强 - **本地模型追赶云端**:128GB 内存笔记本可能让本地模型实用化 ### B. 中长期趋势 - **硬件成本成为竞争关键**:TPU vs GPU 的竞争将决定行业格局 - **开源与闭源的界限模糊**:部分开源模型性能已接近闭源 - **AI 数据中心面临监管**:环保和社区反对可能导致政策限制 ### C. 生态影响 - **一致性测试套件将成为标准**:降低 LLM 适配门槛 - **MCP 协议可能被 Skills 取代**:更简单的工具定义格式 - **终端 LLM 生态繁荣**:命令行工具与 LLM 深度集成 # 五、各方反应 ## 1. 官方回应 - **Anthropic**:Claude Code 年化收入达 10 亿美元,证明编码 Agent 的商业价值 - **OpenAI**:12 月发出"Code Red"警报,全力应对 Gemini 3 的竞争 - **Google**:Gemini 系列快速迭代,TPU 成本优势显现 ## 2. 业内评价 ### A. 专家观点 - **Andrej Karpathy**:提出 Vibe Coding 概念,重新定义 AI 辅助编程 - **Johann Rehberger**:警告偏差常态化风险,可能引发"AI 挑战者时刻" - **METR 机构**:AI 能处理的任务长度每 7 个月翻倍 ### B. 社区反馈 - **Llama 用户**:对 Llama 4 表示失望,转向其他开源模型 - **编码 Agent 用户**:YOLO 模式虽然危险但体验极佳 - **中国 AI 社区**:开源模型登顶排行榜引发自豪感 ## 3. 用户反馈 ### A. 正面评价 - **Claude Code 用户**:编码效率显著提升,愿意支付 200 美元/月 - **图像编辑用户**:OpenAI 图像编辑功能一周内新增 1 亿用户 - **手机编程用户**:移动设备编程从玩具变为实用工具 ### B. 负面评价 - **安全研究员**:浏览器集成 AI 面临严重的 prompt injection 风险 - **环保组织**:200 多个组织要求暂停新建 AI 数据中心 - **Llama 粉丝**:对 Meta 的 Llama 4 表示失望 ### C. 中立观察 - **行业分析师**:OpenAI 失去领先地位,但仍保有消费者心智份额 - **学术界**:模型在学术竞赛中表现出色,但专用模型未公开 - **投资者**:中国开源模型的崛起引发对美国 AI 垄断的质疑 # 六、相关链接 ## 1. 原文链接 - Simon Willison's Weblog: 2025: The year in LLMs - 2023 年回顾:2023 年我们搞懂了哪些 AI 事情 - 2024 年回顾:2024 年我们在 LLM 上学到的东西 ## 2. 相关工具 - Claude Code: https://claude.ai/code - Simon Willison 的工具集: tools.simonwillison.net - Artificial Analysis 开源模型排行榜 ## 3. 技术文档 - OpenAI API 文档 - Google Gemini 文档 - Anthropic Claude 文档 *** ## 参考资料 1. [Simon Willison's Weblog - 2025: The year in LLMs](https://simonwillison.net/2025/Dec/31/the-year-in-llms/) 2. [Tw93 的翻译整理 - Twitter/X](https://x.com/HiTw93/status/2012156583078510620) 最后修改:2026 年 01 月 17 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏