2025 大语言模型年度回顾技术分析

博主： admin
发布时间：2026 年 01 月 17 日
38 次浏览
暂无评论
11918字数
分类：人工智能技术新闻 AI LLM 大模型

# 2025 大语言模型年度回顾技术分析

# 一、新闻概述

## 1. 标题
2025 大语言模型年度回顾

## 2. 发布时间
2026 年 1 月 16 日

## 3. 来源
翻译整理自 Simon Willison's Weblog 的《2025: The year in LLMs》，由 Tw93 (@HiTw93) 翻译并整理

# 二、核心内容

## 1. 事件摘要
### A. 主要内容
本文是对大语言模型（LLM）领域 2025 年度发展的全面回顾，总结了过去 12 个月中发生的所有重要事件和趋势。这是 Simon Willison 对 LLM 领域的第三篇年度回顾文章。

### B. 核心亮点
- 推理模型成为主流，OpenAI 的 o 系列、Google 的 Gemini 等纷纷推出推理能力
- Agent 从概念走向实用，编码 Agent 和深度搜索成为两大主流场景
- 中国开源模型全面崛起，占据排行榜前列
- Claude Code 年化收入达 10 亿美元
- 新定价标杆出现，200 美元/月的高端订阅服务

## 2. 关键信息
### A. 涉及技术
- 推理模型（RLVR：基于可验证奖励的强化学习）
- Agent 系统
- 编码 Agent
- 图像生成与编辑
- 开源模型

### B. 重要数据
- Claude Code 年化收入：10 亿美元
- METR 研究：AI 能处理的任务长度每 7 个月翻倍
- Artificial Analysis 开源模型排行榜前五全是国产模型
- OpenAI 图像编辑功能上线一周新增 1 亿用户

## 3. 背景介绍
### A. 历史回顾
这是第三篇年度回顾，前两年的回顾包括：
- 2023 年我们搞懂了哪些 AI 事情
- 2024 年我们在 LLM 上学到的东西

### B. 相关上下文
2025 年充满了各种趋势，有些相互交织，有些则彻底改变了我们使用和构建 AI 的方式。

# 三、详细报道

## 1. 推理之年

### A. 技术突破
2024 年 9 月，OpenAI 通过 o1 和 o1-mini 拉开了推理（也叫基于可验证奖励的强化学习 RLVR）模型的序幕。2025 年初，他们又接连推出 o3、o3-mini 和 o4-mini，将这一能力推向主流。

### B. 技术原理
Andrej Karpathy 对此有个精辟解释：

> 通过在大量可自动验证奖励的环境中（比如数学题或编程谜题）训练 LLM，模型会自发发展出人类看起来像"推理"的策略，比如把问题拆解成中间步骤，来回尝试不同解法。

RLVR 的性价比极高，以至于原本用于预训练的算力被大量转投于此。因此，2025 年的能力进步主要来自更长的 RL 训练，而非更大的模型规模。

### C. 应用场景
推理模型的主要应用价值：
- **AI 辅助搜索**：GPT-5 Thinking 等系统能高效回答复杂的调研问题
- **代码生成和调试**：能从错误出发，逐层深入大型代码库定位根本原因
- **工具驱动**：能规划多步任务、执行、观察结果并动态调整计划

### D. 技术架构

![推理模型技术架构](https://static.op123.ren/static/dc/dcddee4e0e04872d.svg)

## 2. Agent 之年

### A. Agent 定义
到了 9 月，作者给出了自己的定义：

> Agent 就是能通过循环调用工具来达成目标的 LLM 系统

### B. 发展历程
年初作者曾预测 Agent 不会真正落地，因为：
- 2024 年大家嘴上都在说 Agent，但几乎没人做出能用的例子
- 每个人对 Agent 的定义还不一样

### C. 实际成果
如果将 Agent 定义为"能通过多步工具调用完成有用工作的 LLM 系统"，那它已经来了，而且非常实用。目前两大主流场景是：
- **编程**
- **深度搜索**

"深度研究"模式（让 LLM 花 15 分钟以上生成详细报告）如今已式微，因为 GPT-5 Thinking 和 Google 的 AI Mode 能在几秒内给出类似质量的结果。

## 3. 编码 Agent 与 Claude Code 之年

### A. Claude Code 发布
2025 年 2 月，Anthropic 静悄悄地发布了 Claude Code，甚至没单独发博客，只是夹在 Claude 3.7 Sonnet 的公告里。

### B. 版本说明
为什么从 3.5 跳到 3.7？因为 Anthropic 在 2024 年 10 月悄悄升级了 3.5，但没改名，社区只好把新版叫 3.6，结果官方直接跳过了这个数字。

### C. 产品特性
Claude Code 是"编码 Agent"的代表：能写代码、执行、看结果、再迭代。

### D. 市场格局
2025 年，各大厂纷纷推出自己的 CLI 编码 Agent：

**厂商产品**：
- Claude Code
- OpenAI 的 Codex CLI
- Google 的 Gemini CLI
- 阿里的 Qwen Code
- Mistral 的 Mistral Vibe

**厂商中立选项**：
- GitHub Copilot CLI
- Amp
- OpenCode
- OpenHands CLI
- Pi

**IDE 集成**：
主流 IDE 如 Zed、VS Code、Cursor 也大力集成编码 Agent。

### E. 异步编码 Agent
2025 年 9 月，Anthropic 推出 Claude Code for Web，一个异步编码 Agent，你提交任务后可以去做别的事，它完成后会自动提 PR。

OpenAI 的 Codex Cloud（年底改名 Codex Web）和 Google 的 Jules 也在 5 月上线同类服务。

异步模式的优势：
- 规避了本地执行任意代码的安全风险
- 能同时发起多个任务
- 可以在手机上一键触发，几分钟后就有结果

### F. 商业成功
截至 2025 年 12 月 2 日，Anthropic 宣布 Claude Code 年化收入已达 10 亿美元！

![编码 Agent 发展时间线](https://static.op123.ren/static/4c/4c13712403d34a02.svg)

## 4. 终端 LLM 之年

### A. 终端工具崛起
Claude Code 等工具的爆火证明：只要模型够强、工具链够好，开发者完全愿意在终端里用 LLM。

### B. 应用场景
现在连 sed、ffmpeg 这种复杂命令，LLM 都能直接帮你写出来。

## 5. YOLO 与偏差常态化之年

### A. YOLO 模式
大多数编码 Agent 默认会请求用户确认每一步操作，但很多人会开启自动确认模式（俗称 YOLO 模式）。Codex CLI 甚至把 --dangerously-bypass-approvals-and-sandbox 简写为 --yolo。

去掉安全限制后，体验像换了产品。

### B. 异步 Agent 的安全优势
异步编码 Agent（如 Claude Code for Web）天然适合 YOLO 模式，因为不碰你的本地机器。

### C. 偏差常态化风险
安全研究员 Johann Rehberger 在《AI 中的偏差常态化》一文中指出：

> 当人们反复进行高风险操作却未遭惩罚，就会逐渐视其为正常。这正是 1986 年挑战者号航天飞机灾难的根源。

他警告：我们越久不出事，离"AI 挑战者时刻"就越近。

## 6. $200/月订阅之年

### A. 定价历史
ChatGPT Plus 的 20 美元定价，最初只是 Nick Turley 在 Discord 上搞了个 Google 表单投票决定的。这个价格沿用至今。

### B. 新定价标杆
2025 年，新定价标杆出现了：
- Claude Pro Max 20x 计划：200 美元/月
- ChatGPT Pro：200 美元/月
- Google AI Ultra：249 美元/月（首三个月半价）

### C. 消费者行为
虽然各公司未公布各档用户占比，但显然有人愿意买单。作者自己就曾花 100 美元/月用 Claude，等当前免费额度用完就会升级到 200 档。

### D. 定价逻辑
按理说，重度用户按 token 付费更划算，但像 Claude Code 这类工具处理复杂任务时 token 消耗极快，200 美元套餐反而成了折扣。

## 7. 中国开源模型登顶之年

### A. 市场格局变化
2024 年，中国 AI 实验室已有 Qwen 2.5 和早期 DeepSeek 等亮眼模型，但还不算颠覆性。2025 年彻底变了。

仅作者博客上关于中国 AI 的文章就有 67 篇，年末还漏掉了 GLM-4.7 和 MiniMax-M2.1 等重要发布。

### B. 排行榜数据
截至 2025 年 12 月 30 日，Artificial Analysis 的开源模型排行榜前五全是国产：
1. GLM-4.7
2. Kimi K2 Thinking
3. MiMo-V2-Flash
4. DeepSeek V3.2
5. MiniMax-M2.1

最高排名的非中国模型是 OpenAI 的 gpt-oss-120B（high），仅排第六。

### C. 里程碑事件
这场革命始于 2024 年圣诞发布的 DeepSeek 3（训练成本仅 550 万美元），随后 2025 年 1 月 DeepSeek R1 发布，甚至引发 NVIDIA 单日市值蒸发 5930 亿美元，市场恐慌 AI 不再是美国垄断。

### D. 主要中国 AI 实验室
- **DeepSeek**（Hugging Face）
- **阿里 Qwen**（Qwen3）
- **月之暗面**（Kimi K2）
- **智谱**（GLM-4.5/4.6/4.7）
- **MiniMax**（M2）
- **MetaStone AI**（XBai o4）

### E. 开源程度
多数模型不仅开源权重，还采用 OSI 认可的许可证（如 Apache 2.0、MIT），部分性能已接近 Claude 4 Sonnet 和 GPT-5。

可惜的是，它们仍未公开完整训练数据和训练代码，但研究论文推动了高效训练与推理的前沿。

![中国开源模型崛起历程](https://static.op123.ren/static/90/9009fda2c29ad2fd.svg)

## 8. 长任务之年

### A. METR 研究
METR 机构发布了一张关键图表：《LLM 能独立完成的软件工程任务时长》。

### B. 能力跃升
2025 年，GPT-5、GPT-5.1 Codex Max、Claude Opus 4.5 已能完成人类需数小时的任务，而 2024 年最强模型只能处理 30 分钟以内的任务。

### C. 发展规律
METR 总结：AI 能处理的任务长度每 7 个月翻倍。虽然作者不确定这趋势能否持续，但它清晰展现了 Agent 能力的跃进。

## 9. 提示驱动图像编辑之年

### A. OpenAI 图像编辑
2024 年 5 月，GPT-4o 宣称支持多模态输出（"o" 代表 omni），但图像生成功能迟迟未上线。

直到 2025 年 3 月，OpenAI 终于在 ChatGPT 中推出图像编辑功能：用户上传图片，用提示词修改。一周内新增 1 亿用户，峰值每小时 100 万注册！

"吉卜力化"（把照片变成宫崎骏风格）等玩法病毒式传播。

### B. API 发展
OpenAI 后续推出 gpt-image-1 API，10 月发布更便宜的 gpt-image-1-mini，12 月又升级到 gpt-image-1.5。

### C. 开源阵营
阿里 Qwen 在 8 月发布 Qwen-Image 和 Qwen-Image-Edit，后者甚至能在消费级硬件上运行。11 月和 12 月又更新了两个版本。

### D. Google Nano Banana
最大惊喜来自 Google：Nano Banana 系列。

- 3 月预览
- 8 月正式发布 Gemini 2.5 Flash Image（即 Nano Banana）
- 11 月 Nano Banana Pro：可生成专业级信息图、带复杂文字的图像，已成为生产力工具

### E. Anthropic 的缺席
有趣的是，Anthropic 至今未推出类似功能，可能因其专注专业工作流。但 Nano Banana Pro 正迅速证明：视觉创作也是专业工作的一部分。

## 10. 模型斩获学术竞赛金牌之年

### A. 国际数学奥林匹克
2025 年 7 月，OpenAI 和 Google Gemini 的推理模型在国际数学奥林匹克（IMO）中获得金牌——题目是全新设计的，不可能出现在训练数据中，且模型未使用任何外部工具。

### B. 国际大学生程序设计竞赛
9 月，两家又在国际大学生程序设计竞赛（ICPC）中取得类似成绩，这次允许代码执行环境，但无网络访问。

### C. 技术意义
虽然竞赛专用模型未公开，但 Gemini 的 Deep Think 和 OpenAI 的 GPT-5 Pro 应该是近似版本。

## 11. Llama 迷失之年

### A. 2024 年的高光
2024 年是 Llama 的高光时刻：Meta 的 Llama 3 系列（尤其是 3.1、3.2）是开源模型的标杆。

### B. 2025 年的失望
但 2025 年 4 月发布的 Llama 4 令人失望：
- 模型太大（Scout 109B、Maverick 400B）
- 连量化后都无法在 64GB MacBook 上运行

### C. 市场反应
更糟的是，LMArena 测试用的模型和实际发布的还不一致，如今，LM Studio 和 Ollama 上最流行的模型已不是 Meta 的，而是 Llama 3.1（排名也不高）。

### D. 未来不确定性
Meta 今年的 AI 新闻多是内部政治和天价挖人组建 Superintelligence Labs，未来是否继续开源 Llama 已成疑问。

## 12. OpenAI 失去领先之年

### A. 2024 年的领导地位
2024 年，OpenAI 凭借 o1 和 o3 仍是绝对领导者。

### B. 2025 年的竞争格局
但 2025 年，对手全面追上：
- 图像生成不如 Nano Banana Pro
- 代码能力略逊于 Claude Opus 4.5
- 开源模型被中国实验室超越
- 语音领域受 Gemini Live API 挑战

### C. 唯一优势
唯一优势是消费者心智份额：没人知道 LLM 是什么，但人人都听过 ChatGPT。

### D. 最大威胁
最大威胁来自 Gemini，12 月 OpenAI 内部发出"Code Red"警报，暂停新项目全力应对 Gemini 3 的竞争。

## 13. Gemini 之年

### A. 产品发布
Google Gemini 2025 年表现极为出色：
- 连续发布 Gemini 2.0、2.5、3.0，均支持百万 token 多模态输入
- 推出 Gemini CLI（后被 Qwen 复用为 Qwen Code）
- 异步编码 Agent Jules
- Nano Banana 图像模型
- Veo 3 视频生成
- Gemma 3 开源模型家族

### B. 核心优势
最大优势在于底层：Google 用自研 TPU，而非 NVIDIA GPU。当别人还在为 GPU 成本发愁时，Google 的训练和推理成本可能低得多。

### C. 命名由来
"Gemini"（双子座）这名字源于 DeepMind 和 Google Brain 团队合并，算是组织架构的产物。

## 14. 其他重要趋势

### A. 鹈鹕骑自行车之年
2024 年 10 月，作者首次让 LLM 画"鹈鹕骑自行车"的 SVG——本意是搞笑，因为鹈鹕体型怪、自行车难画，且训练数据里大概率没有。

意外发现：模型画鹈鹕骑车的能力，与其整体能力高度相关。

AI 实验室似乎也注意到了：Google I/O 演示中闪过一秒，Anthropic 的可解释性论文提到它，OpenAI 甚至在 HQ 参观时让作者在 GPT-5 发布视频里聊这个。

但作者怀疑它们没专门为此训练——因为即使最强模型画的鹈鹕依然很烂！

### B. Vibe Coding 之年
2 月，Andrej Karpathy 提出 Vibe Coding：完全靠"感觉"编程，让 LLM 写一切，自己只说"把侧边栏 padding 减半"这种话，错误直接粘贴报错信息让 LLM 修，不看 diff，不深究逻辑。

核心是"忘记代码存在"，靠 LLM 快速原型。

但这个词很快被滥用，变成"所有 AI 辅助编程"的代称。作者多次撰文澄清：
- 并非所有 AI 编程都是 Vibe Coding
- 专业工程应叫 Vibe Engineering
- 最终目标是交付经过验证能工作的代码，无论怎么写出来的

### C. 致命三要素之年
2025 年 6 月，作者提出新术语：致命三要素——指攻击者通过 prompt injection，诱使 Agent 窃取用户私有数据。

这个词故意模糊，迫使人们主动查定义，从而理解其严重性。目前看来，传播效果不错，尚未出现误用。

### D. 手机编程之年
2025 年，作者在手机上写的代码比电脑还多。主要靠 Vibe Coding：在 iPhone 上用 Claude Artifacts 或 ChatGPT 提示，生成代码后粘贴到 GitHub Web 编辑器，或等 PR 自动创建后在 Mobile Safari 里合并。

作者的 110 个小工具大多这样诞生。

11 月前，作者觉得手机代码只是玩具。但 12 月，用 Claude Code 在 iPhone 上完成了 MicroQuickJS C 库的 Python 移植，效果出乎意料。

### E. 一致性测试套件之年
2025 年底的重大发现：最新编码 Agent + 前沿模型，在有现成测试套件的情况下极其高效。

作者把这类测试套件称为 conformance suites，已成功用于：
- html5lib 测试
- MicroQuickJS 测试
- WebAssembly spec/test（未公开项目）

如果你在 2026 年要推广新协议或新语言，强烈建议配套提供语言无关的一致性测试套件。这能极大降低 LLM 适配门槛。

### F. 本地模型变好，但云模型变得更好
2024 年底，Llama 3.3 70B 让作者重燃本地运行 LLM 的兴趣——首次在 64GB MacBook 上体验到 GPT-4 级别模型。

2025 年 1 月，Mistral Small 3（24B，Apache 2.0）用三分之一内存达到同等水平，还能留内存跑其他应用。

中国开源模型进一步推动了 20–32B 参数的"甜点区"。

作者确实用本地模型完成了一些离线工作。但云模型进步更快：编码 Agent 需要可靠、高频的工具调用能力，目前尚无本地模型能稳定胜任 Bash 调用。

作者的下一台笔记本会配 128GB 内存，或许 2026 年的开源模型能改变局面。目前，仍依赖云端前沿模型。

### G. Slop 之年
2024 年，作者参与推广了 slop 一词（指 AI 量产的低质数字内容），被《卫报》《纽约时报》引用。

2025 年，Merriam-Webster 将其评为年度词汇。作者喜欢这个词，因为它表达了共识：低质 AI 内容有害，应被抵制。

不过，互联网历来充斥垃圾内容，关键还是筛选与放大优质内容。Slop 可能只是让这问题更突出，而非本质改变。

### H. 数据中心变得极不受欢迎之年
2025 年，公众对新建 AI 数据中心的反对声浪急剧上升。

12 月，《卫报》报道：200 多个环保组织要求暂停美国新建数据中心。地方层面的抵制也愈演愈烈。

虽然有人认为"耗水问题"被夸大（实际主要是能源、碳排放和噪音），但 Jevons 悖论依然存在：token 越便宜，我们用得越狠（比如每月花 200 美元跑编码 Agent）。

# 四、影响分析

## 1. 行业影响
### A. 技术趋势
- **推理能力成为标配**：几乎所有主流 AI 模型都具备了某种形式的推理能力
- **Agent 从概念到实用**：编码 Agent 和深度搜索成为主流应用场景
- **开源模型崛起**：中国开源模型在性能上已接近甚至超越部分闭源模型
- **硬件竞争加剧**：Google 的 TPU vs NVIDIA GPU，成本竞争白热化

### B. 竞争格局
- **OpenAI 失去绝对领先地位**：在图像生成、代码能力、开源模型等方面被竞争对手超越
- **Google Gemini 强势崛起**：凭借 TPU 成本优势和全产品线布局成为最大威胁
- **中国 AI 实验室异军突起**：DeepSeek、Qwen、Kimi 等在开源模型排行榜上占据前列
- **Anthropic 专注垂直领域**：Claude Code 在编码 Agent 领域取得商业成功

## 2. 用户影响
### A. 开发者
- **编程方式变革**：Vibe Coding 和编码 Agent 改变了传统的编程流程
- **终端工具复兴**：LLM 让命令行工具再次流行
- **手机编程成为可能**：异步 Agent 让移动设备编程变得实用

### B. 普通用户
- **订阅成本上升**：200 美元/月的高端订阅服务出现
- **图像创作民主化**：提示驱动图像编辑让普通人也能创作专业级图像
- **AI 搜索质量提升**：推理模型让复杂问题的答案更加准确

### C. 安全风险
- **Prompt injection 威胁**：浏览器集成的 AI 面临严重安全风险
- **YOLO 模式的隐患**：自动确认模式可能导致"挑战者时刻"
- **数据泄露风险**：致命三要素组合可能导致敏感数据泄露

## 3. 技术趋势
### A. 短期趋势（2026 年）
- **推理能力进一步普及**：更多模型将具备推理模式切换
- **Agent 能力持续提升**：长任务处理能力将继续增强
- **本地模型追赶云端**：128GB 内存笔记本可能让本地模型实用化

### B. 中长期趋势
- **硬件成本成为竞争关键**：TPU vs GPU 的竞争将决定行业格局
- **开源与闭源的界限模糊**：部分开源模型性能已接近闭源
- **AI 数据中心面临监管**：环保和社区反对可能导致政策限制

### C. 生态影响
- **一致性测试套件将成为标准**：降低 LLM 适配门槛
- **MCP 协议可能被 Skills 取代**：更简单的工具定义格式
- **终端 LLM 生态繁荣**：命令行工具与 LLM 深度集成

# 五、各方反应

## 1. 官方回应
- **Anthropic**：Claude Code 年化收入达 10 亿美元，证明编码 Agent 的商业价值
- **OpenAI**：12 月发出"Code Red"警报，全力应对 Gemini 3 的竞争
- **Google**：Gemini 系列快速迭代，TPU 成本优势显现

## 2. 业内评价
### A. 专家观点
- **Andrej Karpathy**：提出 Vibe Coding 概念，重新定义 AI 辅助编程
- **Johann Rehberger**：警告偏差常态化风险，可能引发"AI 挑战者时刻"
- **METR 机构**：AI 能处理的任务长度每 7 个月翻倍

### B. 社区反馈
- **Llama 用户**：对 Llama 4 表示失望，转向其他开源模型
- **编码 Agent 用户**：YOLO 模式虽然危险但体验极佳
- **中国 AI 社区**：开源模型登顶排行榜引发自豪感

## 3. 用户反馈
### A. 正面评价
- **Claude Code 用户**：编码效率显著提升，愿意支付 200 美元/月
- **图像编辑用户**：OpenAI 图像编辑功能一周内新增 1 亿用户
- **手机编程用户**：移动设备编程从玩具变为实用工具

### B. 负面评价
- **安全研究员**：浏览器集成 AI 面临严重的 prompt injection 风险
- **环保组织**：200 多个组织要求暂停新建 AI 数据中心
- **Llama 粉丝**：对 Meta 的 Llama 4 表示失望

### C. 中立观察
- **行业分析师**：OpenAI 失去领先地位，但仍保有消费者心智份额
- **学术界**：模型在学术竞赛中表现出色，但专用模型未公开
- **投资者**：中国开源模型的崛起引发对美国 AI 垄断的质疑

# 六、相关链接

## 1. 原文链接
- Simon Willison's Weblog: 2025: The year in LLMs
- 2023 年回顾：2023 年我们搞懂了哪些 AI 事情
- 2024 年回顾：2024 年我们在 LLM 上学到的东西

## 2. 相关工具
- Claude Code: https://claude.ai/code
- Simon Willison 的工具集: tools.simonwillison.net
- Artificial Analysis 开源模型排行榜

## 3. 技术文档
- OpenAI API 文档
- Google Gemini 文档
- Anthropic Claude 文档

***

## 参考资料

1. [Simon Willison's Weblog - 2025: The year in LLMs](https://simonwillison.net/2025/Dec/31/the-year-in-llms/)
2. [Tw93 的翻译整理 - Twitter/X](https://x.com/HiTw93/status/2012156583078510620)

最后修改：2026 年 01 月 17 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

2025 大语言模型年度回顾技术分析

admin • 2026 年 01 月 17 日

# 2025 大语言模型年度回顾技术分析

# 一、新闻概述

## 1. 标题
2025 大语言模型年度回顾

## 2. 发布时间
2026 年 1 月 16 日

## 3. 来源
翻译整理自 Simon Willison's Weblog 的《2025: The year in LLMs》，由 Tw93 (@HiTw93) 翻译并整理

# 二、核心内容

## 2. 关键信息
### A. 涉及技术
- 推理模型（RLVR：基于可验证奖励的强化学习）
- Agent 系统
- 编码 Agent
- 图像生成与编辑
- 开源模型

## 3. 背景介绍
### A. 历史回顾
这是第三篇年度回顾，前两年的回顾包括：
- 2023 年我们搞懂了哪些 AI 事情
- 2024 年我们在 LLM 上学到的东西

### B. 相关上下文
2025 年充满了各种趋势，有些相互交织，有些则彻底改变了我们使用和构建 AI 的方式。

# 三、详细报道

## 1. 推理之年

### B. 技术原理
Andrej Karpathy 对此有个精辟解释：

RLVR 的性价比极高，以至于原本用于预训练的算力被大量转投于此。因此，2025 年的能力进步主要来自更长的 RL 训练，而非更大的模型规模。

### D. 技术架构

![推理模型技术架构](https://static.op123.ren/static/dc/dcddee4e0e04872d.svg)

## 2. Agent 之年

### A. Agent 定义
到了 9 月，作者给出了自己的定义：

> Agent 就是能通过循环调用工具来达成目标的 LLM 系统

### B. 发展历程
年初作者曾预测 Agent 不会真正落地，因为：
- 2024 年大家嘴上都在说 Agent，但几乎没人做出能用的例子
- 每个人对 Agent 的定义还不一样

"深度研究"模式（让 LLM 花 15 分钟以上生成详细报告）如今已式微，因为 GPT-5 Thinking 和 Google 的 AI Mode 能在几秒内给出类似质量的结果。

## 3. 编码 Agent 与 Claude Code 之年

### A. Claude Code 发布
2025 年 2 月，Anthropic 静悄悄地发布了 Claude Code，甚至没单独发博客，只是夹在 Claude 3.7 Sonnet 的公告里。

### B. 版本说明
为什么从 3.5 跳到 3.7？因为 Anthropic 在 2024 年 10 月悄悄升级了 3.5，但没改名，社区只好把新版叫 3.6，结果官方直接跳过了这个数字。

### C. 产品特性
Claude Code 是"编码 Agent"的代表：能写代码、执行、看结果、再迭代。

### D. 市场格局
2025 年，各大厂纷纷推出自己的 CLI 编码 Agent：

**厂商产品**：
- Claude Code
- OpenAI 的 Codex CLI
- Google 的 Gemini CLI
- 阿里的 Qwen Code
- Mistral 的 Mistral Vibe

**厂商中立选项**：
- GitHub Copilot CLI
- Amp
- OpenCode
- OpenHands CLI
- Pi

**IDE 集成**：
主流 IDE 如 Zed、VS Code、Cursor 也大力集成编码 Agent。

### E. 异步编码 Agent
2025 年 9 月，Anthropic 推出 Claude Code for Web，一个异步编码 Agent，你提交任务后可以去做别的事，它完成后会自动提 PR。

OpenAI 的 Codex Cloud（年底改名 Codex Web）和 Google 的 Jules 也在 5 月上线同类服务。

异步模式的优势：
- 规避了本地执行任意代码的安全风险
- 能同时发起多个任务
- 可以在手机上一键触发，几分钟后就有结果

### F. 商业成功
截至 2025 年 12 月 2 日，Anthropic 宣布 Claude Code 年化收入已达 10 亿美元！

![编码 Agent 发展时间线](https://static.op123.ren/static/4c/4c13712403d34a02.svg)

## 4. 终端 LLM 之年

### A. 终端工具崛起
Claude Code 等工具的爆火证明：只要模型够强、工具链够好，开发者完全愿意在终端里用 LLM。

### B. 应用场景
现在连 sed、ffmpeg 这种复杂命令，LLM 都能直接帮你写出来。

## 5. YOLO 与偏差常态化之年

去掉安全限制后，体验像换了产品。

### B. 异步 Agent 的安全优势
异步编码 Agent（如 Claude Code for Web）天然适合 YOLO 模式，因为不碰你的本地机器。

### C. 偏差常态化风险
安全研究员 Johann Rehberger 在《AI 中的偏差常态化》一文中指出：

> 当人们反复进行高风险操作却未遭惩罚，就会逐渐视其为正常。这正是 1986 年挑战者号航天飞机灾难的根源。

他警告：我们越久不出事，离"AI 挑战者时刻"就越近。

## 6. $200/月订阅之年

### A. 定价历史
ChatGPT Plus 的 20 美元定价，最初只是 Nick Turley 在 Discord 上搞了个 Google 表单投票决定的。这个价格沿用至今。

### B. 新定价标杆
2025 年，新定价标杆出现了：
- Claude Pro Max 20x 计划：200 美元/月
- ChatGPT Pro：200 美元/月
- Google AI Ultra：249 美元/月（首三个月半价）

### D. 定价逻辑
按理说，重度用户按 token 付费更划算，但像 Claude Code 这类工具处理复杂任务时 token 消耗极快，200 美元套餐反而成了折扣。

## 7. 中国开源模型登顶之年

### A. 市场格局变化
2024 年，中国 AI 实验室已有 Qwen 2.5 和早期 DeepSeek 等亮眼模型，但还不算颠覆性。2025 年彻底变了。

仅作者博客上关于中国 AI 的文章就有 67 篇，年末还漏掉了 GLM-4.7 和 MiniMax-M2.1 等重要发布。

最高排名的非中国模型是 OpenAI 的 gpt-oss-120B（high），仅排第六。

### E. 开源程度
多数模型不仅开源权重，还采用 OSI 认可的许可证（如 Apache 2.0、MIT），部分性能已接近 Claude 4 Sonnet 和 GPT-5。

可惜的是，它们仍未公开完整训练数据和训练代码，但研究论文推动了高效训练与推理的前沿。

![中国开源模型崛起历程](https://static.op123.ren/static/90/9009fda2c29ad2fd.svg)

## 8. 长任务之年

### A. METR 研究
METR 机构发布了一张关键图表：《LLM 能独立完成的软件工程任务时长》。

### B. 能力跃升
2025 年，GPT-5、GPT-5.1 Codex Max、Claude Opus 4.5 已能完成人类需数小时的任务，而 2024 年最强模型只能处理 30 分钟以内的任务。

### C. 发展规律
METR 总结：AI 能处理的任务长度每 7 个月翻倍。虽然作者不确定这趋势能否持续，但它清晰展现了 Agent 能力的跃进。

## 9. 提示驱动图像编辑之年

### A. OpenAI 图像编辑
2024 年 5 月，GPT-4o 宣称支持多模态输出（"o" 代表 omni），但图像生成功能迟迟未上线。

直到 2025 年 3 月，OpenAI 终于在 ChatGPT 中推出图像编辑功能：用户上传图片，用提示词修改。一周内新增 1 亿用户，峰值每小时 100 万注册！

"吉卜力化"（把照片变成宫崎骏风格）等玩法病毒式传播。

### B. API 发展
OpenAI 后续推出 gpt-image-1 API，10 月发布更便宜的 gpt-image-1-mini，12 月又升级到 gpt-image-1.5。

### C. 开源阵营
阿里 Qwen 在 8 月发布 Qwen-Image 和 Qwen-Image-Edit，后者甚至能在消费级硬件上运行。11 月和 12 月又更新了两个版本。

### D. Google Nano Banana
最大惊喜来自 Google：Nano Banana 系列。

- 3 月预览
- 8 月正式发布 Gemini 2.5 Flash Image（即 Nano Banana）
- 11 月 Nano Banana Pro：可生成专业级信息图、带复杂文字的图像，已成为生产力工具

## 10. 模型斩获学术竞赛金牌之年

### B. 国际大学生程序设计竞赛
9 月，两家又在国际大学生程序设计竞赛（ICPC）中取得类似成绩，这次允许代码执行环境，但无网络访问。

### C. 技术意义
虽然竞赛专用模型未公开，但 Gemini 的 Deep Think 和 OpenAI 的 GPT-5 Pro 应该是近似版本。

## 11. Llama 迷失之年

### A. 2024 年的高光
2024 年是 Llama 的高光时刻：Meta 的 Llama 3 系列（尤其是 3.1、3.2）是开源模型的标杆。

### B. 2025 年的失望
但 2025 年 4 月发布的 Llama 4 令人失望：
- 模型太大（Scout 109B、Maverick 400B）
- 连量化后都无法在 64GB MacBook 上运行

### D. 未来不确定性
Meta 今年的 AI 新闻多是内部政治和天价挖人组建 Superintelligence Labs，未来是否继续开源 Llama 已成疑问。

## 12. OpenAI 失去领先之年

### A. 2024 年的领导地位
2024 年，OpenAI 凭借 o1 和 o3 仍是绝对领导者。

### C. 唯一优势
唯一优势是消费者心智份额：没人知道 LLM 是什么，但人人都听过 ChatGPT。

### D. 最大威胁
最大威胁来自 Gemini，12 月 OpenAI 内部发出"Code Red"警报，暂停新项目全力应对 Gemini 3 的竞争。

## 13. Gemini 之年

### B. 核心优势
最大优势在于底层：Google 用自研 TPU，而非 NVIDIA GPU。当别人还在为 GPU 成本发愁时，Google 的训练和推理成本可能低得多。

### C. 命名由来
"Gemini"（双子座）这名字源于 DeepMind 和 Google Brain 团队合并，算是组织架构的产物。

## 14. 其他重要趋势

意外发现：模型画鹈鹕骑车的能力，与其整体能力高度相关。

AI 实验室似乎也注意到了：Google I/O 演示中闪过一秒，Anthropic 的可解释性论文提到它，OpenAI 甚至在 HQ 参观时让作者在 GPT-5 发布视频里聊这个。

但作者怀疑它们没专门为此训练——因为即使最强模型画的鹈鹕依然很烂！

核心是"忘记代码存在"，靠 LLM 快速原型。

### C. 致命三要素之年
2025 年 6 月，作者提出新术语：致命三要素——指攻击者通过 prompt injection，诱使 Agent 窃取用户私有数据。

这个词故意模糊，迫使人们主动查定义，从而理解其严重性。目前看来，传播效果不错，尚未出现误用。

作者的 110 个小工具大多这样诞生。

11 月前，作者觉得手机代码只是玩具。但 12 月，用 Claude Code 在 iPhone 上完成了 MicroQuickJS C 库的 Python 移植，效果出乎意料。

### E. 一致性测试套件之年
2025 年底的重大发现：最新编码 Agent + 前沿模型，在有现成测试套件的情况下极其高效。

作者把这类测试套件称为 conformance suites，已成功用于：
- html5lib 测试
- MicroQuickJS 测试
- WebAssembly spec/test（未公开项目）

如果你在 2026 年要推广新协议或新语言，强烈建议配套提供语言无关的一致性测试套件。这能极大降低 LLM 适配门槛。

### F. 本地模型变好，但云模型变得更好
2024 年底，Llama 3.3 70B 让作者重燃本地运行 LLM 的兴趣——首次在 64GB MacBook 上体验到 GPT-4 级别模型。

2025 年 1 月，Mistral Small 3（24B，Apache 2.0）用三分之一内存达到同等水平，还能留内存跑其他应用。

中国开源模型进一步推动了 20–32B 参数的"甜点区"。

作者确实用本地模型完成了一些离线工作。但云模型进步更快：编码 Agent 需要可靠、高频的工具调用能力，目前尚无本地模型能稳定胜任 Bash 调用。

作者的下一台笔记本会配 128GB 内存，或许 2026 年的开源模型能改变局面。目前，仍依赖云端前沿模型。

### G. Slop 之年
2024 年，作者参与推广了 slop 一词（指 AI 量产的低质数字内容），被《卫报》《纽约时报》引用。

2025 年，Merriam-Webster 将其评为年度词汇。作者喜欢这个词，因为它表达了共识：低质 AI 内容有害，应被抵制。

不过，互联网历来充斥垃圾内容，关键还是筛选与放大优质内容。Slop 可能只是让这问题更突出，而非本质改变。

### H. 数据中心变得极不受欢迎之年
2025 年，公众对新建 AI 数据中心的反对声浪急剧上升。

12 月，《卫报》报道：200 多个环保组织要求暂停美国新建数据中心。地方层面的抵制也愈演愈烈。

# 四、影响分析

# 五、各方反应

# 六、相关链接

## 1. 原文链接
- Simon Willison's Weblog: 2025: The year in LLMs
- 2023 年回顾：2023 年我们搞懂了哪些 AI 事情
- 2024 年回顾：2024 年我们在 LLM 上学到的东西

## 2. 相关工具
- Claude Code: https://claude.ai/code
- Simon Willison 的工具集: tools.simonwillison.net
- Artificial Analysis 开源模型排行榜

## 3. 技术文档
- OpenAI API 文档
- Google Gemini 文档
- Anthropic Claude 文档

***

## 参考资料

1. [Simon Willison's Weblog - 2025: The year in LLMs](https://simonwillison.net/2025/Dec/31/the-year-in-llms/)
2. [Tw93 的翻译整理 - Twitter/X](https://x.com/HiTw93/status/2012156583078510620)

2025 大语言模型年度回顾技术分析

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

搭建国内LabHub

CentOS 7.9 编译并使用rpm方式升级openssh9.6p1（包括后续更新9.8p1等）

一天从 redis 大 key 开始

安装eve-ng

重装ensp

Apple M6 芯片可能加速发布技术分析

IPSpot：Python IP 地址地理位置查询工具技术分析

202601161700.EnterpriseSSD：SecondHand：Market：Advantages：Technical：Analysis

cURL 移除漏洞赏金项目技术分析

朴实无华的语雀工具集合

2025 大语言模型年度回顾技术分析

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

2025 大语言模型年度回顾技术分析

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款