中国AGI-Next前沿峰会技术分析：基模四杰论剑大模型未来

博主： admin
发布时间：2026 年 01 月 13 日
87 次浏览
暂无评论
6163字数
分类：技术文档

# 中国AGI-Next前沿峰会技术分析：基模四杰论剑大模型未来

## 一、峰会背景

2025年初，清华大学基础模型北京市重点实验室发起AGI-Next前沿峰会，汇集了中国大模型领域四位领军人物：智谱唐杰、月之暗面杨植麟（Kimi）、阿里林俊旸（千问）、腾讯姚顺雨。这场"基模四杰"的论剑，信息密度极高，揭示了中国AGI发展的技术路径、范式变革与未来挑战。

## 二、核心观点摘要

### 唐杰（智谱）
- Chat范式已基本结束，下一步是从"对话"走向"做事"
- DeepSeek的出现标志着对话型模型的收敛
- 强化学习可验证环境（RLVR）成为关键技术方向
- 三类Scaling：数据与模型规模、推理、自学习环境

### 杨植麟（Kimi）
- Transformer的核心优势在于Token Efficiency
- MUON二阶优化器实现2倍Token效率提升
- Kimi Linear架构实现线性复杂度的长序列处理
- 做模型本质是创造一种世界观（Taste）

### 林俊旸（千问）
- 中国想在AI赛道反超，概率约20%，已非常乐观
- 多模态是智能体的必然方向
- Reasoning能力成为核心竞争力
- 全模态模型（三进三出）是目标

### 姚顺雨（腾讯）
- toC和toB发生明显分化
- toB场景智能越高，生产力越高
- toC场景大部分人用不着那么强的智能
- 垂直整合vs模型应用分层

## 三、技术发展脉络分析

### 3.1 从Chat到Agent的范式转变

唐杰在演讲中明确指出：DeepSeek横空出世后，Chat这一代问题基本已被解决。这迫使我们思考下一步方向。新的范式不再只是"对话"，而是让每个人真正用AI完成一件具体的事情。

从Chat走向做事，是一个明显的转折点。当时摆在我们面前的，主要有两条思路：
1. 围绕Thinking能力，结合Coding与Agent
2. 让模型更深度地与环境交互，用AI直接辅助研究

智谱最终优先选择了前一条路径，强化Thinking能力并引入Coding场景。

```mermaid
graph TB
    subgraph "Chat范式"
        A1[问答] --> A2[对话]
        A2 --> A3[个性化]
    end

subgraph "做事范式"
        B1[Thinking能力] --> B2[Coding能力]
        B2 --> B3[Agent能力]
        B3 --> B4[环境交互]
    end

A3 --> B1
    B4 --> B5[真实任务执行]

style B5 fill:#90EE90
    style A3 fill:#FFB6C1
```

![范式转变](https://static.op123.ren/static/41/41dc741424efd2be.svg#width=300px&height=200px)

### 3.2 Token Efficiency与长上下文

杨植麟提出了两个核心优化方向：

**Token Efficiency**：希望尽可能把曲线往左边平移，当越往左边移动时，Token Efficiency越高，意味着可以用尽可能少的Token得到一样的效果。

**Long Context**：今天非常复杂的任务，必须在超长的Context下才能够完成。延长Context之后，Loss必然是下降，而且只有一个好的Agent才能下降得更多。

Transformer相比LSTM的优势，核心在于Token Efficiency。在很短的Context下，Transformer并不是更好的架构。但是当Context非常长的时候，Transformer显著比LSTM更好。

### 3.3 强化学习的新范式

今年一个重要变化是RLVR（可验证强化学习）。过去强化学习难以大规模推进，核心原因在于依赖人类反馈，而人类反馈存在噪音大、覆盖场景有限的问题。

如果引入可验证环境，模型就可以自主探索、自动获得反馈，在闭环中持续成长。但这里的难点也非常明显：所谓"可验证"，在数学、编程等领域相对容易定义；可一旦扩展到更广泛的任务，仍然需人工判断。

### 3.4 多模态发展路径

林俊旸指出：如果你想做一个智能的东西，天然的应该是Multimodal。人有眼睛和耳朵可以做更多的事情。但更多的考虑是Foundation有更多的生产力，能不能更好地帮助人类。

理想的情况下，2022年设计的系统是中间有一个大脑，我们不知道那个大脑是什么东西，但是我们知道不同的模态和任务都应该进入到这个大脑，从这个大脑输出去，这个才是真正的想象当中的AGI。

```mermaid
graph TD
    subgraph "输入模态"
        A1[文本]
        A2[视觉]
        A3[语音]
    end

subgraph "统一大脑"
        B[Foundation Model/统一理解与生成]
    end

subgraph "输出模态"
        C1[文本生成]
        C2[图像生成]
        C3[视频生成]
        C4[语音生成]
    end

A1 --> B
    A2 --> B
    A3 --> B

B --> C1
    B --> C2
    B --> C3
    B --> C4

B --> D[AGI通用智能体]

style B fill:#FFD700
    style D fill:#98FB98
```

![多模态架构](https://static.op123.ren/static/49/49b8198592231fbf.svg)

## 四、技术架构演进

```mermaid
graph LR
    subgraph "数据与模型"
        A1[预训练] --> A2[SFT]
        A2 --> A3[强化学习]
    end

subgraph "Scaling三维度"
        B1[Scaling数据与模型] --> C1[提升智能上限]
        B2[Scaling推理] --> C2[更长思考时间]
        B3[Scaling自学习环境] --> C3[环境交互反馈]
    end

A3 --> B1
    A3 --> B2
    A3 --> B3

C1 --> D[智能体能力提升]
    C2 --> D
    C3 --> D

style D fill:#87CEEB
```

![技术架构](https://static.op123.ren/static/f0/f05417f050b0f3f8.svg)

### 4.1 优化器革新

Kimi团队发现基于MUON二阶优化器的效果会非常好，有2倍的Token Efficiency提升。只用50%的数据就可以达到一样的Test Loss。

在训练过程中，Muon会出现Logit爆炸的问题。通过QK-clip方法解决：
- 加Clip后，对效果是没有任何影响
- Logits会健康很多
- 很好稳定训练的作用

这使得全新的优化器可以在一万亿参数的kimiK2级别做稳定训练。

### 4.2 线性注意力机制

kimi Delta Attention是一个新的线性注意力机制。最主要的原因是在长距离任务上会掉点，当Context变长之后，用线性注意力效果是打不过全注意力的。

kimi Linear最重要的一点是让这种线性注意力的机制能够在很长程的任务上，甚至比全注意力做得更好，但是同时又更快，因为它是线性的，所以效率会高非常多。

### 4.3 系统一与系统二

人类认知是双系统，系统一和系统二。

- 系统一完成了95%的任务，比如"你今晚吃饭吗"，随口回答"吃"，这些是系统一背下来的
- 系统二只在更复杂的情境中启动，占比大约5%

对于大模型来讲同样的道理：
1. 系统一可以对应一个大规模模型，让它通过模式匹配与知识提取，覆盖大量常见问答与常规任务
2. 系统二可以对应更强的知识融合与推理机制，例如指令微调、思维链等，使模型能处理更复杂的推理与决策
3. 人脑在睡眠中会发生无意识的整合与巩固

对应到今天的路径，可以把其分为三类Scaling：
1. Scaling数据与模型规模，提升智能上限
2. Scaling推理，让思考时间更长，用更多计算与搜索找到更优解
3. Scaling自学习环境，让模型有更多与外界交互的机会，从环境中获得反馈

## 五、中美差距分析

### 5.1 客观因素

**算力限制**：美国的Compute可能整体比我们大1-2个数量级。OpenAI等机构将大量Computer投入到下一代的Research当中去，而中国相对捉襟见肘，光交付可能就已经占据绝大部分Computer。

**光刻机瓶颈**：如果最终算力变成了Bottleneck，中国的光刻机到底能不能突破，这是一个关键问题。

**市场环境**：toB市场在中国和美国存在显著差异。支付意愿、企业文化都有所不同。

### 5.2 主观因素

**冒险精神**：中国想要突破新的范式或者做非常冒险事情的人可能还不够多，这里面有经济环境、商业环境包括文化的因素。

**研究文化**：中国大家还是更喜欢做更安全的事情。今天预训练这个事情已经被证明可以做出来了，大家都很有信心几个月或者一段时间内就把这个问题搞清楚。

但如果探索一个长期记忆或者持续学习，这个事情大家不知道怎么做、不知道能不能做起来，这个事情还是比较困难的。

**榜单依赖**：中国对于刷榜或者数字看的更重一些。需要走出这些榜单的束缚，能够坚持自己觉得是不是正确的过程。

### 5.3 反超概率评估

林俊旸认为：中国能在AI赛道反超的概率约20%，这已经是非常乐观的估计。

姚顺雨相对乐观，认为概率还是挺高的。关键在于：
1. 光刻机等算力基础设施能否突破
2. 能否有更成熟的toB市场
3. 能否有更多人愿意做前沿探索或新的范式突破

## 六、未来发展方向

### 6.1 2025年重点方向

唐杰判断2025年会成为AI for Science的重要突破年份。随着多项基础能力的提升，AI能够参与的科研任务范围将显著扩大。

同时，多模态感统会成为今年的重点方向。具备这种能力之后，AI才能在真实工作环境中执行长链路、长时效任务。

### 6.2 Agent发展的三个阶段

杨强提出Agent应该有四个阶段：
1. 目标的定义（人为定义vs自动定义）
2. 规划（人定义vsAI自动定义）

目前我们处于非常初级的阶段，目标也是人定义的，规划也是由人来做的。

### 6.3 AGI的可执行定义

张钹院士提出AGI应该满足五个关键能力：

1. **时空一致的多模态理解与生成**：关键在时空一致性
2. **可控的在线学习与适应**：强化学习最重要的是可控性问题
3. **可验证的推理与长期执行与规划**：推理必须要可检验
4. **可校准的反思与元认知**：反思必须可回溯、可检验
5. **跨任务强泛化**：跨任务的强化问题

## 七、技术挑战与解决方案

### 7.1 泛化能力问题

模型如何从Scaling走向真正的泛化能力，是核心问题。当前路径是通过Scaling提升泛化能力，但客观来说，模型的泛化水平仍有很大提升空间。

### 7.2 记忆与持续学习

人类具备多层级记忆结构，包括短期记忆、工作记忆和长期记忆。未来如何从个体记忆扩展到群体级、文明级的记忆结构，并将其纳入模型可持续学习框架，是一个重要问题。

### 7.3 自主学习与反思

当前模型已经具备初步的反思能力，但更深层次的自我认知仍然存在巨大争议。通过持续的自我评估与自我批判，模型能够逐步分辨哪些行为是有效的，哪些路径还有优化空间。

### 7.4 冷启动问题

很多应用场景本身几乎没有现成数据，更多是代码逻辑，典型的冷启动问题。早期采集并整合了大量数据，通过SFT和特定领域的强化学习，在部分场景中取得了较好效果。

但很快会发现一个现实问题：传统的iPhone use或手机交互，本质是点按钮，而AI的交互对象并非人。

## 八、AI时代的企业家责任

张钹院士提出，AI时代的企业家应该具备六个方面的职责：

1. 重新定义价值的创造：人工智能不是给大家简单的提供产品和服务，而是把知识、伦理和应用变成可复用的工具，去实现对人类的造福
2. 把人工智能作为像水和电那样通用的技术交给人类
3. 把社会责任担当起来
4. 治理问题：对齐与约束
5. AI时代，企业家会变成光荣的、神圣的职业之一

## 九、总结

本次峰会揭示了中国大模型发展的几个关键趋势：

1. **范式转变**：从Chat走向做事，从对话走向Agent
2. **技术突破**：MUON优化器、线性注意力、RLVR等技术推动效率提升
3. **多模态融合**：全模态模型成为目标
4. **中美差距**：算力、市场、文化等多方面因素
5. **未来方向**：自主学习、长程推理、具身智能

中国在AI领域的追赶之路充满挑战，但也充满机遇。正如林俊旸所说："能干这一行就非常不错了，能做大模型这件事情已经非常幸运了。"

关键在于：一群聪明人真的敢做特别冒险的事；环境可能更好一些；我们能不能坚持。

如果笨笨地坚持，也许走到最后的就是我们。

***

## 参考资料

1. [姚顺雨对着唐杰杨植麟林俊旸贴大脸开讲！基模四杰中关村论英雄](https://mp.weixin.qq.com/s/7pWBKwsnXLIuv4_Qyg31fw)

最后修改：2026 年 01 月 13 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

中国AGI-Next前沿峰会技术分析：基模四杰论剑大模型未来

admin • 2026 年 01 月 13 日

# 中国AGI-Next前沿峰会技术分析：基模四杰论剑大模型未来

## 一、峰会背景

## 二、核心观点摘要

### 姚顺雨（腾讯）
- toC和toB发生明显分化
- toB场景智能越高，生产力越高
- toC场景大部分人用不着那么强的智能
- 垂直整合vs模型应用分层

## 三、技术发展脉络分析

### 3.1 从Chat到Agent的范式转变

智谱最终优先选择了前一条路径，强化Thinking能力并引入Coding场景。

```mermaid
graph TB
    subgraph "Chat范式"
        A1[问答] --> A2[对话]
        A2 --> A3[个性化]
    end

subgraph "做事范式"
        B1[Thinking能力] --> B2[Coding能力]
        B2 --> B3[Agent能力]
        B3 --> B4[环境交互]
    end

A3 --> B1
    B4 --> B5[真实任务执行]

style B5 fill:#90EE90
    style A3 fill:#FFB6C1
```

![范式转变](https://static.op123.ren/static/41/41dc741424efd2be.svg#width=300px&height=200px)

### 3.2 Token Efficiency与长上下文

杨植麟提出了两个核心优化方向：

**Token Efficiency**：希望尽可能把曲线往左边平移，当越往左边移动时，Token Efficiency越高，意味着可以用尽可能少的Token得到一样的效果。

**Long Context**：今天非常复杂的任务，必须在超长的Context下才能够完成。延长Context之后，Loss必然是下降，而且只有一个好的Agent才能下降得更多。

Transformer相比LSTM的优势，核心在于Token Efficiency。在很短的Context下，Transformer并不是更好的架构。但是当Context非常长的时候，Transformer显著比LSTM更好。

### 3.3 强化学习的新范式

### 3.4 多模态发展路径

```mermaid
graph TD
    subgraph "输入模态"
        A1[文本]
        A2[视觉]
        A3[语音]
    end

subgraph "统一大脑"
        B[Foundation Model/统一理解与生成]
    end

subgraph "输出模态"
        C1[文本生成]
        C2[图像生成]
        C3[视频生成]
        C4[语音生成]
    end

A1 --> B
    A2 --> B
    A3 --> B

B --> C1
    B --> C2
    B --> C3
    B --> C4

B --> D[AGI通用智能体]

style B fill:#FFD700
    style D fill:#98FB98
```

![多模态架构](https://static.op123.ren/static/49/49b8198592231fbf.svg)

## 四、技术架构演进

```mermaid
graph LR
    subgraph "数据与模型"
        A1[预训练] --> A2[SFT]
        A2 --> A3[强化学习]
    end

A3 --> B1
    A3 --> B2
    A3 --> B3

C1 --> D[智能体能力提升]
    C2 --> D
    C3 --> D

style D fill:#87CEEB
```

![技术架构](https://static.op123.ren/static/f0/f05417f050b0f3f8.svg)

### 4.1 优化器革新

Kimi团队发现基于MUON二阶优化器的效果会非常好，有2倍的Token Efficiency提升。只用50%的数据就可以达到一样的Test Loss。

在训练过程中，Muon会出现Logit爆炸的问题。通过QK-clip方法解决：
- 加Clip后，对效果是没有任何影响
- Logits会健康很多
- 很好稳定训练的作用

这使得全新的优化器可以在一万亿参数的kimiK2级别做稳定训练。

### 4.2 线性注意力机制

kimi Delta Attention是一个新的线性注意力机制。最主要的原因是在长距离任务上会掉点，当Context变长之后，用线性注意力效果是打不过全注意力的。

### 4.3 系统一与系统二

人类认知是双系统，系统一和系统二。

- 系统一完成了95%的任务，比如"你今晚吃饭吗"，随口回答"吃"，这些是系统一背下来的
- 系统二只在更复杂的情境中启动，占比大约5%

## 五、中美差距分析

### 5.1 客观因素

**光刻机瓶颈**：如果最终算力变成了Bottleneck，中国的光刻机到底能不能突破，这是一个关键问题。

**市场环境**：toB市场在中国和美国存在显著差异。支付意愿、企业文化都有所不同。

### 5.2 主观因素

**冒险精神**：中国想要突破新的范式或者做非常冒险事情的人可能还不够多，这里面有经济环境、商业环境包括文化的因素。

但如果探索一个长期记忆或者持续学习，这个事情大家不知道怎么做、不知道能不能做起来，这个事情还是比较困难的。

**榜单依赖**：中国对于刷榜或者数字看的更重一些。需要走出这些榜单的束缚，能够坚持自己觉得是不是正确的过程。

### 5.3 反超概率评估

林俊旸认为：中国能在AI赛道反超的概率约20%，这已经是非常乐观的估计。

## 六、未来发展方向

### 6.1 2025年重点方向

唐杰判断2025年会成为AI for Science的重要突破年份。随着多项基础能力的提升，AI能够参与的科研任务范围将显著扩大。

同时，多模态感统会成为今年的重点方向。具备这种能力之后，AI才能在真实工作环境中执行长链路、长时效任务。

### 6.2 Agent发展的三个阶段

杨强提出Agent应该有四个阶段：
1. 目标的定义（人为定义vs自动定义）
2. 规划（人定义vsAI自动定义）

目前我们处于非常初级的阶段，目标也是人定义的，规划也是由人来做的。

### 6.3 AGI的可执行定义

张钹院士提出AGI应该满足五个关键能力：

## 七、技术挑战与解决方案

### 7.1 泛化能力问题

模型如何从Scaling走向真正的泛化能力，是核心问题。当前路径是通过Scaling提升泛化能力，但客观来说，模型的泛化水平仍有很大提升空间。

### 7.2 记忆与持续学习

### 7.3 自主学习与反思

### 7.4 冷启动问题

但很快会发现一个现实问题：传统的iPhone use或手机交互，本质是点按钮，而AI的交互对象并非人。

## 八、AI时代的企业家责任

张钹院士提出，AI时代的企业家应该具备六个方面的职责：

## 九、总结

本次峰会揭示了中国大模型发展的几个关键趋势：

中国在AI领域的追赶之路充满挑战，但也充满机遇。正如林俊旸所说："能干这一行就非常不错了，能做大模型这件事情已经非常幸运了。"

关键在于：一群聪明人真的敢做特别冒险的事；环境可能更好一些；我们能不能坚持。

如果笨笨地坚持，也许走到最后的就是我们。

***

## 参考资料

1. [姚顺雨对着唐杰杨植麟林俊旸贴大脸开讲！基模四杰中关村论英雄](https://mp.weixin.qq.com/s/7pWBKwsnXLIuv4_Qyg31fw)

中国AGI-Next前沿峰会技术分析：基模四杰论剑大模型未来

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

搭建国内LabHub

CentOS 7.9 编译并使用rpm方式升级openssh9.6p1（包括后续更新9.8p1等）

一天从 redis 大 key 开始

安装eve-ng

重装ensp

使用ja-netfilter激活datagrip访问mongodb2.6.11

ClashConverter：纯前端代理转换工具技术分析

DragonflyDB 新型内存数据库架构分析

Happy：Claude Code 移动端客户端技术分析

local_http_sniff 以及 local_https_sniff

中国AGI-Next前沿峰会技术分析：基模四杰论剑大模型未来

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

中国AGI-Next前沿峰会技术分析：基模四杰论剑大模型未来

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款