Loading... # 中国AGI-Next前沿峰会技术分析:基模四杰论剑大模型未来 ## 一、峰会背景 2025年初,清华大学基础模型北京市重点实验室发起AGI-Next前沿峰会,汇集了中国大模型领域四位领军人物:智谱唐杰、月之暗面杨植麟(Kimi)、阿里林俊旸(千问)、腾讯姚顺雨。这场"基模四杰"的论剑,信息密度极高,揭示了中国AGI发展的技术路径、范式变革与未来挑战。 ## 二、核心观点摘要 ### 唐杰(智谱) - Chat范式已基本结束,下一步是从"对话"走向"做事" - DeepSeek的出现标志着对话型模型的收敛 - 强化学习可验证环境(RLVR)成为关键技术方向 - 三类Scaling:数据与模型规模、推理、自学习环境 ### 杨植麟(Kimi) - Transformer的核心优势在于Token Efficiency - MUON二阶优化器实现2倍Token效率提升 - Kimi Linear架构实现线性复杂度的长序列处理 - 做模型本质是创造一种世界观(Taste) ### 林俊旸(千问) - 中国想在AI赛道反超,概率约20%,已非常乐观 - 多模态是智能体的必然方向 - Reasoning能力成为核心竞争力 - 全模态模型(三进三出)是目标 ### 姚顺雨(腾讯) - toC和toB发生明显分化 - toB场景智能越高,生产力越高 - toC场景大部分人用不着那么强的智能 - 垂直整合vs模型应用分层 ## 三、技术发展脉络分析 ### 3.1 从Chat到Agent的范式转变 唐杰在演讲中明确指出:DeepSeek横空出世后,Chat这一代问题基本已被解决。这迫使我们思考下一步方向。新的范式不再只是"对话",而是让每个人真正用AI完成一件具体的事情。 从Chat走向做事,是一个明显的转折点。当时摆在我们面前的,主要有两条思路: 1. 围绕Thinking能力,结合Coding与Agent 2. 让模型更深度地与环境交互,用AI直接辅助研究 智谱最终优先选择了前一条路径,强化Thinking能力并引入Coding场景。 ```mermaid graph TB subgraph "Chat范式" A1[问答] --> A2[对话] A2 --> A3[个性化] end subgraph "做事范式" B1[Thinking能力] --> B2[Coding能力] B2 --> B3[Agent能力] B3 --> B4[环境交互] end A3 --> B1 B4 --> B5[真实任务执行] style B5 fill:#90EE90 style A3 fill:#FFB6C1 ```  ### 3.2 Token Efficiency与长上下文 杨植麟提出了两个核心优化方向: **Token Efficiency**:希望尽可能把曲线往左边平移,当越往左边移动时,Token Efficiency越高,意味着可以用尽可能少的Token得到一样的效果。 **Long Context**:今天非常复杂的任务,必须在超长的Context下才能够完成。延长Context之后,Loss必然是下降,而且只有一个好的Agent才能下降得更多。 Transformer相比LSTM的优势,核心在于Token Efficiency。在很短的Context下,Transformer并不是更好的架构。但是当Context非常长的时候,Transformer显著比LSTM更好。 ### 3.3 强化学习的新范式 今年一个重要变化是RLVR(可验证强化学习)。过去强化学习难以大规模推进,核心原因在于依赖人类反馈,而人类反馈存在噪音大、覆盖场景有限的问题。 如果引入可验证环境,模型就可以自主探索、自动获得反馈,在闭环中持续成长。但这里的难点也非常明显:所谓"可验证",在数学、编程等领域相对容易定义;可一旦扩展到更广泛的任务,仍然需人工判断。 ### 3.4 多模态发展路径 林俊旸指出:如果你想做一个智能的东西,天然的应该是Multimodal。人有眼睛和耳朵可以做更多的事情。但更多的考虑是Foundation有更多的生产力,能不能更好地帮助人类。 理想的情况下,2022年设计的系统是中间有一个大脑,我们不知道那个大脑是什么东西,但是我们知道不同的模态和任务都应该进入到这个大脑,从这个大脑输出去,这个才是真正的想象当中的AGI。 ```mermaid graph TD subgraph "输入模态" A1[文本] A2[视觉] A3[语音] end subgraph "统一大脑" B[Foundation Model/统一理解与生成] end subgraph "输出模态" C1[文本生成] C2[图像生成] C3[视频生成] C4[语音生成] end A1 --> B A2 --> B A3 --> B B --> C1 B --> C2 B --> C3 B --> C4 B --> D[AGI通用智能体] style B fill:#FFD700 style D fill:#98FB98 ```  ## 四、技术架构演进 ```mermaid graph LR subgraph "数据与模型" A1[预训练] --> A2[SFT] A2 --> A3[强化学习] end subgraph "Scaling三维度" B1[Scaling数据与模型] --> C1[提升智能上限] B2[Scaling推理] --> C2[更长思考时间] B3[Scaling自学习环境] --> C3[环境交互反馈] end A3 --> B1 A3 --> B2 A3 --> B3 C1 --> D[智能体能力提升] C2 --> D C3 --> D style D fill:#87CEEB ```  ### 4.1 优化器革新 Kimi团队发现基于MUON二阶优化器的效果会非常好,有2倍的Token Efficiency提升。只用50%的数据就可以达到一样的Test Loss。 在训练过程中,Muon会出现Logit爆炸的问题。通过QK-clip方法解决: - 加Clip后,对效果是没有任何影响 - Logits会健康很多 - 很好稳定训练的作用 这使得全新的优化器可以在一万亿参数的kimiK2级别做稳定训练。 ### 4.2 线性注意力机制 kimi Delta Attention是一个新的线性注意力机制。最主要的原因是在长距离任务上会掉点,当Context变长之后,用线性注意力效果是打不过全注意力的。 kimi Linear最重要的一点是让这种线性注意力的机制能够在很长程的任务上,甚至比全注意力做得更好,但是同时又更快,因为它是线性的,所以效率会高非常多。 ### 4.3 系统一与系统二 人类认知是双系统,系统一和系统二。 - 系统一完成了95%的任务,比如"你今晚吃饭吗",随口回答"吃",这些是系统一背下来的 - 系统二只在更复杂的情境中启动,占比大约5% 对于大模型来讲同样的道理: 1. 系统一可以对应一个大规模模型,让它通过模式匹配与知识提取,覆盖大量常见问答与常规任务 2. 系统二可以对应更强的知识融合与推理机制,例如指令微调、思维链等,使模型能处理更复杂的推理与决策 3. 人脑在睡眠中会发生无意识的整合与巩固 对应到今天的路径,可以把其分为三类Scaling: 1. Scaling数据与模型规模,提升智能上限 2. Scaling推理,让思考时间更长,用更多计算与搜索找到更优解 3. Scaling自学习环境,让模型有更多与外界交互的机会,从环境中获得反馈 ## 五、中美差距分析 ### 5.1 客观因素 **算力限制**:美国的Compute可能整体比我们大1-2个数量级。OpenAI等机构将大量Computer投入到下一代的Research当中去,而中国相对捉襟见肘,光交付可能就已经占据绝大部分Computer。 **光刻机瓶颈**:如果最终算力变成了Bottleneck,中国的光刻机到底能不能突破,这是一个关键问题。 **市场环境**:toB市场在中国和美国存在显著差异。支付意愿、企业文化都有所不同。 ### 5.2 主观因素 **冒险精神**:中国想要突破新的范式或者做非常冒险事情的人可能还不够多,这里面有经济环境、商业环境包括文化的因素。 **研究文化**:中国大家还是更喜欢做更安全的事情。今天预训练这个事情已经被证明可以做出来了,大家都很有信心几个月或者一段时间内就把这个问题搞清楚。 但如果探索一个长期记忆或者持续学习,这个事情大家不知道怎么做、不知道能不能做起来,这个事情还是比较困难的。 **榜单依赖**:中国对于刷榜或者数字看的更重一些。需要走出这些榜单的束缚,能够坚持自己觉得是不是正确的过程。 ### 5.3 反超概率评估 林俊旸认为:中国能在AI赛道反超的概率约20%,这已经是非常乐观的估计。 姚顺雨相对乐观,认为概率还是挺高的。关键在于: 1. 光刻机等算力基础设施能否突破 2. 能否有更成熟的toB市场 3. 能否有更多人愿意做前沿探索或新的范式突破 ## 六、未来发展方向 ### 6.1 2025年重点方向 唐杰判断2025年会成为AI for Science的重要突破年份。随着多项基础能力的提升,AI能够参与的科研任务范围将显著扩大。 同时,多模态感统会成为今年的重点方向。具备这种能力之后,AI才能在真实工作环境中执行长链路、长时效任务。 ### 6.2 Agent发展的三个阶段 杨强提出Agent应该有四个阶段: 1. 目标的定义(人为定义vs自动定义) 2. 规划(人定义vsAI自动定义) 目前我们处于非常初级的阶段,目标也是人定义的,规划也是由人来做的。 ### 6.3 AGI的可执行定义 张钹院士提出AGI应该满足五个关键能力: 1. **时空一致的多模态理解与生成**:关键在时空一致性 2. **可控的在线学习与适应**:强化学习最重要的是可控性问题 3. **可验证的推理与长期执行与规划**:推理必须要可检验 4. **可校准的反思与元认知**:反思必须可回溯、可检验 5. **跨任务强泛化**:跨任务的强化问题 ## 七、技术挑战与解决方案 ### 7.1 泛化能力问题 模型如何从Scaling走向真正的泛化能力,是核心问题。当前路径是通过Scaling提升泛化能力,但客观来说,模型的泛化水平仍有很大提升空间。 ### 7.2 记忆与持续学习 人类具备多层级记忆结构,包括短期记忆、工作记忆和长期记忆。未来如何从个体记忆扩展到群体级、文明级的记忆结构,并将其纳入模型可持续学习框架,是一个重要问题。 ### 7.3 自主学习与反思 当前模型已经具备初步的反思能力,但更深层次的自我认知仍然存在巨大争议。通过持续的自我评估与自我批判,模型能够逐步分辨哪些行为是有效的,哪些路径还有优化空间。 ### 7.4 冷启动问题 很多应用场景本身几乎没有现成数据,更多是代码逻辑,典型的冷启动问题。早期采集并整合了大量数据,通过SFT和特定领域的强化学习,在部分场景中取得了较好效果。 但很快会发现一个现实问题:传统的iPhone use或手机交互,本质是点按钮,而AI的交互对象并非人。 ## 八、AI时代的企业家责任 张钹院士提出,AI时代的企业家应该具备六个方面的职责: 1. 重新定义价值的创造:人工智能不是给大家简单的提供产品和服务,而是把知识、伦理和应用变成可复用的工具,去实现对人类的造福 2. 把人工智能作为像水和电那样通用的技术交给人类 3. 把社会责任担当起来 4. 治理问题:对齐与约束 5. AI时代,企业家会变成光荣的、神圣的职业之一 ## 九、总结 本次峰会揭示了中国大模型发展的几个关键趋势: 1. **范式转变**:从Chat走向做事,从对话走向Agent 2. **技术突破**:MUON优化器、线性注意力、RLVR等技术推动效率提升 3. **多模态融合**:全模态模型成为目标 4. **中美差距**:算力、市场、文化等多方面因素 5. **未来方向**:自主学习、长程推理、具身智能 中国在AI领域的追赶之路充满挑战,但也充满机遇。正如林俊旸所说:"能干这一行就非常不错了,能做大模型这件事情已经非常幸运了。" 关键在于:一群聪明人真的敢做特别冒险的事;环境可能更好一些;我们能不能坚持。 如果笨笨地坚持,也许走到最后的就是我们。 *** ## 参考资料 1. [姚顺雨对着唐杰杨植麟林俊旸贴大脸开讲!基模四杰中关村论英雄](https://mp.weixin.qq.com/s/7pWBKwsnXLIuv4_Qyg31fw) 最后修改:2026 年 01 月 13 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏