美团 LongCat-Flash-Thinking-2601 大型推理模型发布
一、新闻概述
1. 标题
美团发布 LongCat-Flash-Thinking-2601:560B 参数 MoE 大型推理模型,强化环境泛化能力
2. 发布时间
2026 年 1 月 15 日(GitHub 仓库更新)
3. 来源
美团 LongCat 团队 GitHub 仓库
二、核心内容
1. 事件摘要
A. 主要内容
美团 LongCat 团队发布 LongCat-Flash-Thinking-2601,这是一个拥有 5600 亿总参数的大型推理模型,采用创新的混合专家架构。
B. 核心亮点
- 560B 总参数,27B 激活参数
- 环境扩展与多环境强化学习训练方案
- 抗噪声环境鲁棒性训练
- Heavy Thinking Mode(深度思考模式)
- 在智能体工具使用、搜索和推理基准测试中表现优异
2. 关键信息
A. 版本号
LongCat-Flash-Thinking-2601
B. 重要数据
- 总参数量:560B
- 激活参数量:27B
- 架构:MoE(混合专家)
- GitHub 星标:92+
C. 涉及产品
- 模型权重:Hugging Face、ModelScope
- 聊天平台:https://longcat.ai、https://longcat.chat
3. 背景介绍
A. 前置版本
这是 LongCat-Flash-Thinking 系列的更新版本,继承了领域并行训练配方,并系统性地增强了智能体思考能力。
B. 相关上下文
随着 AI 智能体应用的发展,模型在真实环境中的工具使用和推理能力成为关键竞争点。LongCat-Flash-Thinking-2601 专注于环境泛化和鲁棒性。
三、详细报道
1. 主要内容
A. 功能更新
- 环境扩展与多环境强化学习:构建多样化高质量环境作为强化学习训练场
- 抗噪声训练:系统分析和课程训练处理多种类型和级别的环境噪声
- Heavy Thinking Mode:并行思考和总结两阶段,扩展推理深度和广度
B. 技术改进
- 高质量任务构建:显式控制任务复杂度和多样性
- 多环境强化学习:扩展 DORA 基础设施支持大规模多环境智能体训练
- 课程策略:逐步增加噪声类型和强度
C. 兼容性说明
- 已适配 SGLang 和 vLLM 部署
- 提供 chat template 支持高级工具使用场景
2. 技术细节
A. 架构特点
graph TB
A[LongCat-Flash-Thinking-2601] --> B[MoE 架构]
B --> C[560B 总参数]
B --> D[27B 激活参数]
A --> E[训练方法]
E --> F[环境扩展]
E --> G[多环境强化学习]
E --> H[抗噪声训练]
A --> I[推理模式]
I --> J[标准模式]
I --> K[Heavy Thinking Mode]
K --> L[并行思考阶段]
K --> M[总结阶段]
M --> N[迭代推理循环]B. 核心技术
- 环境扩展:每个环境包含超过 60 个工具,组织成密集依赖图
- 高质量任务:基于连通子图定义任务,控制复杂度
- 抗噪声训练:分析真实世界噪声源并自动注入训练环境
- Heavy Thinking Mode:多轨迹并行生成 + 递归总结
C. 性能指标
- AIME-25 数学竞赛:99.6%(标准)/ 100.0%(Heavy Thinking)
- BrowseComp 智能体搜索:56.6% / 73.1%(带上下文管理)
- τ²-Bench 工具使用:88.2 平均分
3. 数据与事实
A. 竞品对比表
| 指标 | DeepSeek-V3.2 | Kimi-K2 | Qwen3-235B | GLM-4.7 | LongCat-2601 |
|---|---|---|---|---|---|
| 总参数 | 671B | 1T | 235B | 355B | 560B |
| 激活参数 | 37B | 32B | 22B | 32B | 27B |
| AIME-25 | 93.5 | 99.1 | 92.6 | 95.3 | 99.6/100.0 |
| BrowseComp | 51.4/67.6 | -/60.2 | - | 52.0/67.5 | 56.6/73.1 |
B. 评估数据
- 数学推理:在 AIME-25、HMMT-25、IMO-AnswerBench 等基准上表现优异
- 智能体搜索:BrowseComp、BrowseComp-zh、RW Search 等测试领先
- 工具使用:τ²-Retail、τ²-Airline、τ²-Telecom 等场景表现强劲
- 编码:LCB 82.8、OJBench 42.2、SWE-bench 70.0
四、影响分析
1. 行业影响
A. 技术趋势
- MoE 架构成为大模型主流方向,平衡性能与效率
- 环境扩展强化学习提升智能体泛化能力
- 抗噪声训练成为真实场景部署关键
B. 竞争格局
- 与 DeepSeek、Kimi、Qwen 等国产模型形成激烈竞争
- 在智能体工具使用场景表现突出
- Heavy Thinking Mode 提供差异化推理能力
2. 用户影响
A. 现有用户
- 可通过 longcat.ai 和 longcat.chat 体验
- MIT 许可证开放模型权重
B. 潜在用户
- 需要智能体工具使用能力的企业用户
- 需要复杂推理能力的应用场景
C. 迁移建议
- 支持 SGLang 和 vLLM 部署
- 提供 deployment guide 文档
3. 技术趋势
A. 技术方向
- 智能体能力成为大模型竞争新焦点
- 环境泛化能力比单纯基准测试更重要
- 多模式推理(标准 + Heavy Thinking)成为趋势
B. 生态影响
- 开源权重促进社区研究
- 推动智能体工具使用标准发展
五、各方反应
1. 官方回应
美团 LongCat 团队在 GitHub 发布详细技术文档和评估报告
2. 业内评价
A. 技术亮点
- 环境扩展与多环境强化学习方法创新
- 抗噪声训练实用性强
- Heavy Thinking Mode 提供推理深度
B. 开放态度
- MIT 许可证开源权重
- 提供完整部署文档
- GitHub 社区积极互动
3. 用户反馈
- GitHub 92+ 星标
- 提供 WeChat 群和 Twitter 账号支持
六、相关链接
1. 官方资源
- GitHub 仓库:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601
- Hugging Face:https://huggingface.co/meituan-longcat
- ModelScope:https://www.modelscope.cn/models/meituan-longcat/LongCat-Flash-Thinking-2601
2. 体验平台
- LongCat AI:https://longcat.ai
- LongCat Chat(Heavy Thinking Mode):https://longcat.chat
3. 联系方式
- 邮箱:longcat-team@meituan.com
- Twitter:@Meituan_LongCat