2025年LLM年度回顾技术分析

博主： admin
发布时间：2026 年 01 月 17 日
105 次浏览
暂无评论
9572字数
分类：人工智能技术新闻 LLM

# 2025 年 LLM 年度回顾技术分析

# 一、新闻概述

## 1. 标题
2025：大语言模型之年

## 2. 发布时间
2025 年 12 月 31 日

## 3. 来源
Simon Willison's Weblog

# 二、核心内容

## 1. 事件摘要
### A. 主要内容
Simon Willison 发布其第三份 LLM 年度回顾，系统梳理了 2025 年大语言模型领域的关键发展。文章涵盖了推理模型的兴起、智能代理的突破、编程工具的革新等 27 个主题。

### B. 核心亮点
- 推理模型成为行业标准
- 编程代理进入实用阶段
- 中国开源模型异军突起
- Claude Code 实现十亿美元年化收入
- 图像编辑能力显著提升

## 2. 关键信息
### A. 文章系列
- 2023 年 AI 相关发现总结
- 2024 年 LLM 知识总结
- 2025 年 LLM 年度回顾（本文）

### B. 主要主题数量
27 个年度主题标签

### C. 涉及厂商
OpenAI、Anthropic、Google、DeepSeek、阿里 Qwen、月之暗面等

# 三、详细报道

## 1. 推理模型的崛起

### A. 技术背景
OpenAI 于 2024 年 9 月推出 o1 和 o1-mini，开启了推理模型时代。2025 年初，OpenAI 继续推出 o3、o3-mini 和 o4-mini，推理能力迅速成为各大 AI 实验室的标配功能。

### B. 技术原理
Andrej Karpathy 的解释揭示了这一技术的本质：

通过在可验证奖励环境（如数学/代码谜题）中训练 LLM，模型会自发发展出类似推理的策略。模型学会将问题分解为中间计算步骤，并掌握多种问题解决策略。

这种方法提供了极高的能力成本比，大量算力从预训练转向推理训练。

### C. 实际应用价值
推理模型的真正价值体现在工具调用能力上：

- 多步骤任务规划
- 执行后根据结果调整策略
- 持续推理优化方案

### D. 应用场景
AI 辅助搜索的实际可用性得到验证。即使是复杂的研究问题，GPT-5 Thinking 模式也能有效应对。

推理模型在代码生成和调试方面表现卓越：
- 从错误出发追溯根本原因
- 分析大型复杂代码库
- 逐步诊断棘手 bug

## 2. 智能代理元年

### A. 定义确立
Simon Willison 在年初预测智能代理不会实现，原因是易受骗问题和科幻式的期望过于不切实际。

到 9 月，他将智能代理定义为：通过循环运行工具来实现目标的 LLM 系统。

### B. 两大突破领域
深度研究模式：让 LLM 收集信息并生成详细报告，前期流行但后期被更高效的 GPT-5 Thinking 替代。

编程代理模式：影响更为重大。

## 3. 编程代理与 Claude Code

### A. Claude Code 的里程碑
2025 年 2 月，Anthropic 悄然发布 Claude Code，仅作为 Claude 3.7 Sonnet 公告的第二项内容。

Claude Code 是编程代理的典型代表：LLM 系统可以编写代码、执行代码、检查结果并继续迭代。

### B. 行业产品矩阵
主要厂商的 CLI 编程代理：
- Claude Code（Anthropic）
- Codex CLI（OpenAI）
- Gemini CLI（Google）
- Qwen Code（阿里）
- Mistral Vibe

第三方工具：
- GitHub Copilot CLI
- Amp
- OpenCode
- OpenHands CLI
- Pi

### C. 异步编程代理
2025 年 5 月，OpenAI 推出 Codex Cloud，Google 推出 Jules。

异步编程代理的特点：
- 云端执行，无本地安全风险
- 可同时发起多个任务
- 特别适合手机使用场景

### D. 商业成功
截至 2025 年 12 月 2 日，Claude Code 实现十亿美元年化收入。

## 4. 命令行 LLM 工具的突破

### A. 开发者习惯转变
Claude Code 等工具证明，在足够强大的模型和适当工具支持下，开发者会拥抱命令行 LLM 工具。

### B. 技术障碍消除
复杂的命令行工具（sed、ffmpeg、bash）不再成为障碍，LLM 可以直接生成正确的命令。

## 5. YOLO 模式与偏差常态化

### A. 默认安全机制
大多数编程代理默认会请求用户确认每个操作，原因是：
- 可能误删除整个用户目录
- 提示注入攻击可能窃取凭据

### B. YOLO 模式的诱惑
自动确认模式（YOLO）让体验完全不同。

### C. 安全隐患
Johann Rehberger 在《AI 中的偏差常态化》中提出警告：重复暴露于风险行为而无负面后果，会使人认为这种风险行为是正常的。

这与 1986 年挑战者号灾难的原因相同：多次成功发射让 NASA 停止认真对待 O 型圈缺陷风险。

## 6. 订阅定价的跃升

### A. 新价格锚点
ChatGPT Plus 原价 20 美元/月是基于 Discord 调查的临时决定。

2025 年新定价标准：
- Claude Pro Max：200 美元/月
- ChatGPT Pro：200 美元/月
- Google AI Ultra：249 美元/月（首季优惠 124.99 美元/月）

### B. 经济逻辑
需要大量使用才能消耗 200 美元的 API 配额。但 Claude Code 和 Codex CLI 等工具在处理复杂任务时会消耗大量 token，使月付方案具有实质性折扣。

## 7. 中国开源模型的崛起

### A. 市场格局变化
2025 年底，Artificial Analysis 开源模型排行榜前五名全部来自中国：

1. GLM-4.7（智谱）
2. Kimi K2 Thinking（月之暗面）
3. MiMo-V2-Flash
4. DeepSeek V3.2
5. MiniMax-M2.1

最高非中国模型是 OpenAI 的 gpt-oss-120B，排名第六。

### B. 历史节点
2024 年 12 月 25 日，DeepSeek V3 发布，据称训练成本约 550 万美元。

2025 年 1 月 20 日，DeepSeek R1 发布，引发 AI/半导体股大幅抛售：
- NVIDIA 市值损失约 5930 亿美元
- 投资者恐慌于 AI 不再是美国垄断

### C. 主要中国 AI 实验室
- DeepSeek
- 阿里 Qwen（Qwen3）
- 月之暗面（Kimi K2）
- 智谱（GLM-4.5/4.6/4.7）
- MiniMax（M2）
- MetaStone AI（XBai o4）

### D. 开源许可
多数模型采用真正开源许可：
- Qwen：Apache 2.0
- DeepSeek 和智谱：MIT

部分模型能力可与 Claude 4 Sonnet 和 GPT-5 媲美。

## 8. 长任务处理能力的突破

### A. METR 研究图表
时间跨度图表显示，2025 年模型在长任务处理上有巨大飞跃：
- GPT-5、GPT-5.1 Codex Max、Claude Opus 4.5 可完成人类数小时的任务
- 2024 年最佳模型上限不到 30 分钟

### B. 发展速度
METR 结论：AI 可完成任务长度每 7 个月翻倍。

## 9. 提示驱动图像编辑

### A. 历史背景
GPT-4o 曾承诺多模态输出但未能兑现。

2025 年 3 月，OpenAI 终于推出图像生成和编辑功能，用户可上传图片并通过提示词修改。

### B. 用户增长
该功能在一周内带来 1 亿 ChatGPT 注册，峰值每小时 100 万账户创建。

吉卜力化等病毒式传播技巧反复走红。

### C. 竞争产品
Qwen 的 Qwen-Image 和 Qwen-Image-Edit 模型可在消费级硬件上运行。

Google 的 Nano Banana 系列模型：
- 可生成有用文本
- 图像编辑指令跟随能力最强
- Nano Banana Pro 可生成专业级信息图

## 10. 学术竞赛金牌

### A. 数学奥林匹克
2025 年 7 月，OpenAI 和 Gemini 模型在国际数学奥林匹克中达到金牌水平。

### B. 编程竞赛
2025 年 9 月，在国际大学生编程竞赛（ICPC）中取得优异成绩。

### C. 意义
这些竞赛的题目专为比赛设计，训练数据中不可能存在，证明了模型的真正推理能力。

## 11. Llama 的迷失

### A. 历史地位
2024 年是 Llama 之年。Meta 的 Llama 模型是最受欢迎的开源模型。

### B. Llama 4 的失望
2025 年 4 月发布的 Llama 4 令人失望：
- 模型过大（109B 和 400B）
- 即使量化也无法在 64GB Mac 上运行
- LM Studio 和 Ollama 最受欢迎模型列表中已无 Meta 位置

### C. 战略转向
Meta 主要精力转向内部政治和 Superintelligence Labs 的人才招聘。

## 12. OpenAI 领先地位的丧失

### A. 竞争格局
2025 年，行业其他公司追赶上来：
- 图像：被 Nano Banana Pro 超越
- 代码：Opus 4.5 略优于 GPT-5.2 Codex
- 开源模型：落后于中国 AI 实验室
- 音频：受 Gemini Live API 威胁

### B. 消费者心智份额优势
OpenAI 仍在消费者认知度上保持领先，ChatGPT 品牌知名度远超 Gemini 和 Claude。

### C. 最大威胁
2025 年 12 月，OpenAI 宣布红色警报，暂停新项目以应对 Gemini 3 的竞争。

## 13. Gemini 之年

### A. 产品发布
2025 年发布 Gemini 2.0、2.5 和 3.0：
- 支持百万级 token 音频/视频/图像/文本输入
- 价格有竞争力
- 能力持续提升

### B. 生态系统产品
- Gemini CLI
- Jules（异步编程代理）
- AI Studio 持续改进
- Nano Banana 图像模型
- Veo 3 视频生成
- Gemma 3 开源模型系列

### C. 硬件优势
Google 使用自研 TPU 而非 NVIDIA GPU，这是其在成本上的巨大优势。

## 14. 鹈鹕骑自行车基准

### A. 起源
Simon Willison 于 2024 年 10 月首次要求 LLM 生成鹈鹕骑自行车的 SVG 图像。

### B. 意外发现
模型绘制鹈鹕骑自行车的能力与整体能力似乎存在相关性。

### C. 社区影响
这一基准出现在：
- Google I/O 主题演讲
- Anthropic 可解释性研究论文
- GPT-5 发布视频

### D. 真实意图
Simon Willison 承认这是长期策略：诱使多个 AI 实验室投入资源在这个基准上作弊，直到得到一个真正出色的鹈鹕骑自行车 SVG 插图。

## 15. Slop 成为年度词汇

### A. 定义
Merriam-Webster 将 slop 选为 2025 年度词汇：
数字内容，通常由人工智能大量生成，质量低劣。

### B. 影响
代表广泛认知：低质量 AI 生成内容是坏的，应该避免。

### C. 乐观观点
互联网一直充斥着低质量内容，挑战在于找到和放大好内容。策展比以往任何时候都更重要。

## 16. 数据中心反对潮

### A. 公众态度转变
2025 年公众舆论明显转向反对新建数据中心。

### B. 环保组织行动
2025 年 12 月 8 日，卫报报道：200 多个环保组织要求停止美国新数据中心建设。

### C. 真实问题
- 能源消耗
- 碳排放
- 噪声污染
- 水资源使用（部分夸大）

### D. 杰文斯悖论
随着 token 变便宜，我们会找到更密集的使用方式，如每月 200 美元运行编程代理。

# 四、技术架构分析

## 1. 推理模型工作原理

```mermaid
graph TB
    A[用户问题] --> B{推理模型}
    B --> C[问题分解]
    C --> D[生成中间步骤]
    D --> E[验证中间结果]
    E --> F{需要更多步骤?}
    F -->|是| D
    F -->|否| G[生成最终答案]
    G --> H[返回结果]

I[可验证奖励环境] --> J[强化学习训练]
    J --> B

style B fill:#e1f5ff
    style J fill:#ffe1e1
```

![推理模型工作原理](https://static.op123.ren/static/b4/b4ac64e05e212ee4.svg)

## 2. 编程代理架构

```mermaid
graph LR
    A[用户任务] --> B[LLM 规划器]
    B --> C{需要代码执行?}
    C -->|是| D[Bash 工具]
    C -->|否| E[其他工具]
    D --> F[执行结果]
    E --> F
    F --> G{任务完成?}
    G -->|否| B
    G -->|是| H[返回结果]

I[文件系统] --> D
    J[代码库] --> D

style B fill:#e1f5ff
    style D fill:#ffe1e1
    style H fill:#e1ffe1
```

![编程代理架构](https://static.op123.ren/static/36/36762ad47c1240f3.svg)

## 3. 智能代理分类

```mermaid
mindmap
    root((智能代理))
        同步代理
            Claude Code CLI
            Codex CLI
            Gemini CLI
            本地执行
            需要用户确认
        异步代理
            Claude Code for Web
            Codex Cloud
            Google Jules
            云端执行
            YOLO 模式
        研究代理
            深度研究模式
            GPT-5 Thinking
            Google AI Mode
            信息收集报告
```

![智能代理分类](https://static.op123.ren/static/00/003b475f6f5081e0.svg)

## 4. 中国开源模型生态

```mermaid
graph TB
 subgraph 第一梯队
 A1[GLM-4.7 智谱]
 A2[Kimi K2 Thinking 月之暗面]
 A3[MiMo-V2-Flash]
 A4[DeepSeek V3.2]
 A5[MiniMax-M2.1]
 end

subgraph 第二梯队
 B1[gpt-oss-120B OpenAI]
 B2[Qwen3 235B 阿里]
 B3[Apriel-v1.6-15B-Thinker]
 end

subgraph 许可证类型
 C1[Apache 2.0 Qwen]
 C2[MIT DeepSeek/智谱]
 end

A1 --> C2
    A2 --> C1
    A4 --> C2
    B2 --> C1

style A1 fill:#e1f5ff
    style A2 fill:#e1f5ff
    style A4 fill:#e1f5ff
```

![中国开源模型生态](https://static.op123.ren/static/31/31c9f7fb950e2f59.svg)

## 5. 长任务处理能力演进

```mermaid
xychart-beta
    title "AI 模型长任务处理能力演进"
    x-axis [2019, 2020, 2021, 2022, 2023, 2024, 2025]
    y-axis "任务时长（分钟）" 0 --> 300
    line [5, 10, 20, 45, 90, 150, 280]
```

![长任务处理能力演进](https://static.op123.ren/static/06/06072bfaeb650ddc.svg)

## 6. 致命三要素

```mermaid
graph TD
    A[访问私有数据] --> D[提示注入攻击]
    B[外部通信能力] --> D
    C[暴露于不受信任内容] --> D

D --> E[数据泄露风险]

style A fill:#ffe1e1
    style B fill:#ffe1e1
    style C fill:#ffe1e1
    style D fill:#ff0000,color:#fff
    style E fill:#ff0000,color:#fff
```

![致命三要素](https://static.op123.ren/static/3a/3a054e2254a11ace.svg)

# 五、影响分析

## 1. 行业影响

### A. 竞争格局重塑
- 美国垄断被打破，中国 AI 实验室崛起
- OpenAI 领先优势缩小
- Google Gemini 强势回归

### B. 开源生态繁荣
- 中国开源模型采用宽松许可
- 推动全球 AI 民主化

### C. 硬件竞争
- TPU vs GPU 竞争加剧
- NVIDIA 市场地位受挑战

## 2. 开发者影响

### A. 编程范式转变
- Vibe coding 成为新开发方式
- 异步编程代理改变工作流程
- 手机编程成为可能

### B. 工具链演进
- CLI 工具复兴
- MCP 协议爆发式增长后被 Skills 取代
- 测试套件成为编程代理的关键

### C. 安全意识提升
- YOLO 模式的诱惑与风险
- 致命三要素概念的普及
- 浏览器代理的安全担忧

## 3. 用户影响

### A. 订阅成本上升
- 高级功能价格跃升至 200 美元/月
- API 与订阅定价策略分化

### B. 图像创作门槛降低
- 提示词编辑功能普及
- 专业级信息图生成
- 病毒式传播技巧

### C. 信息质量挑战
- Slop 问题加剧
- 策展重要性提升

# 六、各方反应

## 1. 官方回应
OpenAI 宣布红色警报应对 Gemini 竞争。

## 2. 业内评价
Andrej Karpathy 对推理模型的解释成为权威观点。

## 3. 社区反馈
- SnitchBench 揭示所有模型都会举报用户
- Vibe coding 概念被广泛误解
- Pelican riding bicycle 成为文化现象

# 七、年度术语

## 1. Vibe Coding
定义：完全依赖氛围，拥抱指数级增长，忘记代码存在的编程方式。

## 2. 致命三要素
提示注入攻击的特定场景：访问私有数据、外部通信能力、暴露于不受信任内容三者结合。

## 3. Context Rot
Workaccount2 创造的术语：模型输出质量随会话上下文增长而下降的现象。

## 4. Context Engineering
提示工程的替代方案，强调设计提供给模型的上下文的重要性。

## 5. Slopsquatting
Seth Larson 创造的术语：LLM 幻觉出错误包名，然后被恶意注册以传递恶意软件。

## 6. Asynchronous Coding Agent
Claude Code for Web / Codex Cloud / Google Jules 等产品的统称。

## 7. Extractive Contributions
Nadia Eghbal 创造的术语：审查和合并贡献的边际成本大于对项目生产者边际效益的开源贡献。

# 八、趋势展望

## 1. 技术趋势
- 推理能力成为标配
- 编程代理能力持续提升
- 多模态能力加速发展

## 2. 市场趋势
- 中国 AI 实验室持续崛起
- 订阅价格分层化
- 开源与闭源竞争加剧

## 3. 社会影响
- AI 能源消耗关注上升
- 数据中心建设阻力增加
- 信息质量挑战持续

# 九、个人实践

## 1. 工具构建
Simon Willison 在 2025 年构建了 110 个 HTML+JavaScript 工具，全部采用 vibe coding 方式。

## 2. 手机编程
在手机上编写的代码超过电脑。

## 3. 合规性测试套件
发现现有测试套件是编程代理的最佳配合：
- html5lib 测试
- MicroQuickJS 测试套件
- WebAssembly 规范测试

***

## 参考资料

1. [2025: The year in LLMs](https://simonwillison.net/2025/Dec/31/the-year-in-llms/)
2. [Stuff we figured out about AI in 2023](https://simonwillison.net/2023/Dec/31/ai-in-2023/)
3. [Things we learned about LLMs in 2024](https://simonwillison.net/2024/Dec/31/llms-in-2024/)

最后修改：2026 年 01 月 17 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

kkk
老师可以加个联系方式吗
张
很不错。除了那个qemu-tools
angux
会考虑关停服务么。。如果不考虑可以支持你
zm
ishare2 config 这一步过不去，卡在了“Unabl...
sheldon
得劲的很

2025年LLM年度回顾技术分析

admin • 2026 年 01 月 17 日

# 2025 年 LLM 年度回顾技术分析

# 一、新闻概述

## 1. 标题
2025：大语言模型之年

## 2. 发布时间
2025 年 12 月 31 日

## 3. 来源
Simon Willison's Weblog

# 二、核心内容

### B. 核心亮点
- 推理模型成为行业标准
- 编程代理进入实用阶段
- 中国开源模型异军突起
- Claude Code 实现十亿美元年化收入
- 图像编辑能力显著提升

## 2. 关键信息
### A. 文章系列
- 2023 年 AI 相关发现总结
- 2024 年 LLM 知识总结
- 2025 年 LLM 年度回顾（本文）

### B. 主要主题数量
27 个年度主题标签

### C. 涉及厂商
OpenAI、Anthropic、Google、DeepSeek、阿里 Qwen、月之暗面等

# 三、详细报道

## 1. 推理模型的崛起

### B. 技术原理
Andrej Karpathy 的解释揭示了这一技术的本质：

这种方法提供了极高的能力成本比，大量算力从预训练转向推理训练。

### C. 实际应用价值
推理模型的真正价值体现在工具调用能力上：

- 多步骤任务规划
- 执行后根据结果调整策略
- 持续推理优化方案

### D. 应用场景
AI 辅助搜索的实际可用性得到验证。即使是复杂的研究问题，GPT-5 Thinking 模式也能有效应对。

推理模型在代码生成和调试方面表现卓越：
- 从错误出发追溯根本原因
- 分析大型复杂代码库
- 逐步诊断棘手 bug

## 2. 智能代理元年

### A. 定义确立
Simon Willison 在年初预测智能代理不会实现，原因是易受骗问题和科幻式的期望过于不切实际。

到 9 月，他将智能代理定义为：通过循环运行工具来实现目标的 LLM 系统。

### B. 两大突破领域
深度研究模式：让 LLM 收集信息并生成详细报告，前期流行但后期被更高效的 GPT-5 Thinking 替代。

编程代理模式：影响更为重大。

## 3. 编程代理与 Claude Code

### A. Claude Code 的里程碑
2025 年 2 月，Anthropic 悄然发布 Claude Code，仅作为 Claude 3.7 Sonnet 公告的第二项内容。

Claude Code 是编程代理的典型代表：LLM 系统可以编写代码、执行代码、检查结果并继续迭代。

### B. 行业产品矩阵
主要厂商的 CLI 编程代理：
- Claude Code（Anthropic）
- Codex CLI（OpenAI）
- Gemini CLI（Google）
- Qwen Code（阿里）
- Mistral Vibe

第三方工具：
- GitHub Copilot CLI
- Amp
- OpenCode
- OpenHands CLI
- Pi

### C. 异步编程代理
2025 年 5 月，OpenAI 推出 Codex Cloud，Google 推出 Jules。

异步编程代理的特点：
- 云端执行，无本地安全风险
- 可同时发起多个任务
- 特别适合手机使用场景

### D. 商业成功
截至 2025 年 12 月 2 日，Claude Code 实现十亿美元年化收入。

## 4. 命令行 LLM 工具的突破

### A. 开发者习惯转变
Claude Code 等工具证明，在足够强大的模型和适当工具支持下，开发者会拥抱命令行 LLM 工具。

### B. 技术障碍消除
复杂的命令行工具（sed、ffmpeg、bash）不再成为障碍，LLM 可以直接生成正确的命令。

## 5. YOLO 模式与偏差常态化

### A. 默认安全机制
大多数编程代理默认会请求用户确认每个操作，原因是：
- 可能误删除整个用户目录
- 提示注入攻击可能窃取凭据

### B. YOLO 模式的诱惑
自动确认模式（YOLO）让体验完全不同。

### C. 安全隐患
Johann Rehberger 在《AI 中的偏差常态化》中提出警告：重复暴露于风险行为而无负面后果，会使人认为这种风险行为是正常的。

这与 1986 年挑战者号灾难的原因相同：多次成功发射让 NASA 停止认真对待 O 型圈缺陷风险。

## 6. 订阅定价的跃升

### A. 新价格锚点
ChatGPT Plus 原价 20 美元/月是基于 Discord 调查的临时决定。

2025 年新定价标准：
- Claude Pro Max：200 美元/月
- ChatGPT Pro：200 美元/月
- Google AI Ultra：249 美元/月（首季优惠 124.99 美元/月）

## 7. 中国开源模型的崛起

### A. 市场格局变化
2025 年底，Artificial Analysis 开源模型排行榜前五名全部来自中国：

1. GLM-4.7（智谱）
2. Kimi K2 Thinking（月之暗面）
3. MiMo-V2-Flash
4. DeepSeek V3.2
5. MiniMax-M2.1

最高非中国模型是 OpenAI 的 gpt-oss-120B，排名第六。

### B. 历史节点
2024 年 12 月 25 日，DeepSeek V3 发布，据称训练成本约 550 万美元。

2025 年 1 月 20 日，DeepSeek R1 发布，引发 AI/半导体股大幅抛售：
- NVIDIA 市值损失约 5930 亿美元
- 投资者恐慌于 AI 不再是美国垄断

### C. 主要中国 AI 实验室
- DeepSeek
- 阿里 Qwen（Qwen3）
- 月之暗面（Kimi K2）
- 智谱（GLM-4.5/4.6/4.7）
- MiniMax（M2）
- MetaStone AI（XBai o4）

### D. 开源许可
多数模型采用真正开源许可：
- Qwen：Apache 2.0
- DeepSeek 和智谱：MIT

部分模型能力可与 Claude 4 Sonnet 和 GPT-5 媲美。

## 8. 长任务处理能力的突破

### B. 发展速度
METR 结论：AI 可完成任务长度每 7 个月翻倍。

## 9. 提示驱动图像编辑

### A. 历史背景
GPT-4o 曾承诺多模态输出但未能兑现。

2025 年 3 月，OpenAI 终于推出图像生成和编辑功能，用户可上传图片并通过提示词修改。

### B. 用户增长
该功能在一周内带来 1 亿 ChatGPT 注册，峰值每小时 100 万账户创建。

吉卜力化等病毒式传播技巧反复走红。

### C. 竞争产品
Qwen 的 Qwen-Image 和 Qwen-Image-Edit 模型可在消费级硬件上运行。

Google 的 Nano Banana 系列模型：
- 可生成有用文本
- 图像编辑指令跟随能力最强
- Nano Banana Pro 可生成专业级信息图

## 10. 学术竞赛金牌

### A. 数学奥林匹克
2025 年 7 月，OpenAI 和 Gemini 模型在国际数学奥林匹克中达到金牌水平。

### B. 编程竞赛
2025 年 9 月，在国际大学生编程竞赛（ICPC）中取得优异成绩。

### C. 意义
这些竞赛的题目专为比赛设计，训练数据中不可能存在，证明了模型的真正推理能力。

## 11. Llama 的迷失

### A. 历史地位
2024 年是 Llama 之年。Meta 的 Llama 模型是最受欢迎的开源模型。

### C. 战略转向
Meta 主要精力转向内部政治和 Superintelligence Labs 的人才招聘。

## 12. OpenAI 领先地位的丧失

### B. 消费者心智份额优势
OpenAI 仍在消费者认知度上保持领先，ChatGPT 品牌知名度远超 Gemini 和 Claude。

### C. 最大威胁
2025 年 12 月，OpenAI 宣布红色警报，暂停新项目以应对 Gemini 3 的竞争。

## 13. Gemini 之年

### A. 产品发布
2025 年发布 Gemini 2.0、2.5 和 3.0：
- 支持百万级 token 音频/视频/图像/文本输入
- 价格有竞争力
- 能力持续提升

### B. 生态系统产品
- Gemini CLI
- Jules（异步编程代理）
- AI Studio 持续改进
- Nano Banana 图像模型
- Veo 3 视频生成
- Gemma 3 开源模型系列

### C. 硬件优势
Google 使用自研 TPU 而非 NVIDIA GPU，这是其在成本上的巨大优势。

## 14. 鹈鹕骑自行车基准

### A. 起源
Simon Willison 于 2024 年 10 月首次要求 LLM 生成鹈鹕骑自行车的 SVG 图像。

### B. 意外发现
模型绘制鹈鹕骑自行车的能力与整体能力似乎存在相关性。

### C. 社区影响
这一基准出现在：
- Google I/O 主题演讲
- Anthropic 可解释性研究论文
- GPT-5 发布视频

### D. 真实意图
Simon Willison 承认这是长期策略：诱使多个 AI 实验室投入资源在这个基准上作弊，直到得到一个真正出色的鹈鹕骑自行车 SVG 插图。

## 15. Slop 成为年度词汇

### A. 定义
Merriam-Webster 将 slop 选为 2025 年度词汇：
数字内容，通常由人工智能大量生成，质量低劣。

### B. 影响
代表广泛认知：低质量 AI 生成内容是坏的，应该避免。

### C. 乐观观点
互联网一直充斥着低质量内容，挑战在于找到和放大好内容。策展比以往任何时候都更重要。

## 16. 数据中心反对潮

### A. 公众态度转变
2025 年公众舆论明显转向反对新建数据中心。

### B. 环保组织行动
2025 年 12 月 8 日，卫报报道：200 多个环保组织要求停止美国新数据中心建设。

### C. 真实问题
- 能源消耗
- 碳排放
- 噪声污染
- 水资源使用（部分夸大）

### D. 杰文斯悖论
随着 token 变便宜，我们会找到更密集的使用方式，如每月 200 美元运行编程代理。

# 四、技术架构分析

## 1. 推理模型工作原理

I[可验证奖励环境] --> J[强化学习训练]
    J --> B

style B fill:#e1f5ff
    style J fill:#ffe1e1
```

![推理模型工作原理](https://static.op123.ren/static/b4/b4ac64e05e212ee4.svg)

## 2. 编程代理架构

I[文件系统] --> D
    J[代码库] --> D

style B fill:#e1f5ff
    style D fill:#ffe1e1
    style H fill:#e1ffe1
```

![编程代理架构](https://static.op123.ren/static/36/36762ad47c1240f3.svg)

## 3. 智能代理分类

![智能代理分类](https://static.op123.ren/static/00/003b475f6f5081e0.svg)

## 4. 中国开源模型生态

subgraph 第二梯队
 B1[gpt-oss-120B OpenAI]
 B2[Qwen3 235B 阿里]
 B3[Apriel-v1.6-15B-Thinker]
 end

subgraph 许可证类型
 C1[Apache 2.0 Qwen]
 C2[MIT DeepSeek/智谱]
 end

A1 --> C2
    A2 --> C1
    A4 --> C2
    B2 --> C1

style A1 fill:#e1f5ff
    style A2 fill:#e1f5ff
    style A4 fill:#e1f5ff
```

![中国开源模型生态](https://static.op123.ren/static/31/31c9f7fb950e2f59.svg)

## 5. 长任务处理能力演进

![长任务处理能力演进](https://static.op123.ren/static/06/06072bfaeb650ddc.svg)

## 6. 致命三要素

```mermaid
graph TD
    A[访问私有数据] --> D[提示注入攻击]
    B[外部通信能力] --> D
    C[暴露于不受信任内容] --> D

D --> E[数据泄露风险]

style A fill:#ffe1e1
    style B fill:#ffe1e1
    style C fill:#ffe1e1
    style D fill:#ff0000,color:#fff
    style E fill:#ff0000,color:#fff
```

![致命三要素](https://static.op123.ren/static/3a/3a054e2254a11ace.svg)

# 五、影响分析

## 1. 行业影响

### A. 竞争格局重塑
- 美国垄断被打破，中国 AI 实验室崛起
- OpenAI 领先优势缩小
- Google Gemini 强势回归

### B. 开源生态繁荣
- 中国开源模型采用宽松许可
- 推动全球 AI 民主化

### C. 硬件竞争
- TPU vs GPU 竞争加剧
- NVIDIA 市场地位受挑战

## 2. 开发者影响

### A. 编程范式转变
- Vibe coding 成为新开发方式
- 异步编程代理改变工作流程
- 手机编程成为可能

### B. 工具链演进
- CLI 工具复兴
- MCP 协议爆发式增长后被 Skills 取代
- 测试套件成为编程代理的关键

### C. 安全意识提升
- YOLO 模式的诱惑与风险
- 致命三要素概念的普及
- 浏览器代理的安全担忧

## 3. 用户影响

### A. 订阅成本上升
- 高级功能价格跃升至 200 美元/月
- API 与订阅定价策略分化

### B. 图像创作门槛降低
- 提示词编辑功能普及
- 专业级信息图生成
- 病毒式传播技巧

### C. 信息质量挑战
- Slop 问题加剧
- 策展重要性提升

# 六、各方反应

## 1. 官方回应
OpenAI 宣布红色警报应对 Gemini 竞争。

## 2. 业内评价
Andrej Karpathy 对推理模型的解释成为权威观点。

## 3. 社区反馈
- SnitchBench 揭示所有模型都会举报用户
- Vibe coding 概念被广泛误解
- Pelican riding bicycle 成为文化现象

# 七、年度术语

## 1. Vibe Coding
定义：完全依赖氛围，拥抱指数级增长，忘记代码存在的编程方式。

## 2. 致命三要素
提示注入攻击的特定场景：访问私有数据、外部通信能力、暴露于不受信任内容三者结合。

## 3. Context Rot
Workaccount2 创造的术语：模型输出质量随会话上下文增长而下降的现象。

## 4. Context Engineering
提示工程的替代方案，强调设计提供给模型的上下文的重要性。

## 5. Slopsquatting
Seth Larson 创造的术语：LLM 幻觉出错误包名，然后被恶意注册以传递恶意软件。

## 6. Asynchronous Coding Agent
Claude Code for Web / Codex Cloud / Google Jules 等产品的统称。

## 7. Extractive Contributions
Nadia Eghbal 创造的术语：审查和合并贡献的边际成本大于对项目生产者边际效益的开源贡献。

# 八、趋势展望

## 1. 技术趋势
- 推理能力成为标配
- 编程代理能力持续提升
- 多模态能力加速发展

## 2. 市场趋势
- 中国 AI 实验室持续崛起
- 订阅价格分层化
- 开源与闭源竞争加剧

## 3. 社会影响
- AI 能源消耗关注上升
- 数据中心建设阻力增加
- 信息质量挑战持续

# 九、个人实践

## 1. 工具构建
Simon Willison 在 2025 年构建了 110 个 HTML+JavaScript 工具，全部采用 vibe coding 方式。

## 2. 手机编程
在手机上编写的代码超过电脑。

## 3. 合规性测试套件
发现现有测试套件是编程代理的最佳配合：
- html5lib 测试
- MicroQuickJS 测试套件
- WebAssembly 规范测试

***

## 参考资料

2025年LLM年度回顾技术分析

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

搭建国内LabHub

CentOS 7.9 编译并使用rpm方式升级openssh9.6p1（包括后续更新9.8p1等）

一天从 redis 大 key 开始

安装eve-ng

重装ensp

如何购买高质量美国机子

2026.01.13. Claude Code 完整技术文档

2026.01.06. fnet

iFetch iCloud Drive 批量下载工具技术分析

湾区日报

2025年LLM年度回顾技术分析

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

2025年LLM年度回顾技术分析

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款