Loading... # 美团 LongCat-Flash-Thinking-2601 大型推理模型发布 # 一、新闻概述 ## 1. 标题 美团发布 LongCat-Flash-Thinking-2601:560B 参数 MoE 大型推理模型,强化环境泛化能力 ## 2. 发布时间 2026 年 1 月 15 日(GitHub 仓库更新) ## 3. 来源 美团 LongCat 团队 GitHub 仓库 # 二、核心内容 ## 1. 事件摘要 ### A. 主要内容 美团 LongCat 团队发布 LongCat-Flash-Thinking-2601,这是一个拥有 5600 亿总参数的大型推理模型,采用创新的混合专家架构。 ### B. 核心亮点 - 560B 总参数,27B 激活参数 - 环境扩展与多环境强化学习训练方案 - 抗噪声环境鲁棒性训练 - Heavy Thinking Mode(深度思考模式) - 在智能体工具使用、搜索和推理基准测试中表现优异 ## 2. 关键信息 ### A. 版本号 LongCat-Flash-Thinking-2601 ### B. 重要数据 - 总参数量:560B - 激活参数量:27B - 架构:MoE(混合专家) - GitHub 星标:92+ ### C. 涉及产品 - 模型权重:Hugging Face、ModelScope - 聊天平台:https://longcat.ai、https://longcat.chat ## 3. 背景介绍 ### A. 前置版本 这是 LongCat-Flash-Thinking 系列的更新版本,继承了领域并行训练配方,并系统性地增强了智能体思考能力。 ### B. 相关上下文 随着 AI 智能体应用的发展,模型在真实环境中的工具使用和推理能力成为关键竞争点。LongCat-Flash-Thinking-2601 专注于环境泛化和鲁棒性。 # 三、详细报道 ## 1. 主要内容 ### A. 功能更新 - 环境扩展与多环境强化学习:构建多样化高质量环境作为强化学习训练场 - 抗噪声训练:系统分析和课程训练处理多种类型和级别的环境噪声 - Heavy Thinking Mode:并行思考和总结两阶段,扩展推理深度和广度 ### B. 技术改进 - 高质量任务构建:显式控制任务复杂度和多样性 - 多环境强化学习:扩展 DORA 基础设施支持大规模多环境智能体训练 - 课程策略:逐步增加噪声类型和强度 ### C. 兼容性说明 - 已适配 SGLang 和 vLLM 部署 - 提供 chat template 支持高级工具使用场景 ## 2. 技术细节 ### A. 架构特点 ```mermaid graph TB A[LongCat-Flash-Thinking-2601] --> B[MoE 架构] B --> C[560B 总参数] B --> D[27B 激活参数] A --> E[训练方法] E --> F[环境扩展] E --> G[多环境强化学习] E --> H[抗噪声训练] A --> I[推理模式] I --> J[标准模式] I --> K[Heavy Thinking Mode] K --> L[并行思考阶段] K --> M[总结阶段] M --> N[迭代推理循环] ```  ### B. 核心技术 - **环境扩展**:每个环境包含超过 60 个工具,组织成密集依赖图 - **高质量任务**:基于连通子图定义任务,控制复杂度 - **抗噪声训练**:分析真实世界噪声源并自动注入训练环境 - **Heavy Thinking Mode**:多轨迹并行生成 + 递归总结 ### C. 性能指标 - AIME-25 数学竞赛:99.6%(标准)/ 100.0%(Heavy Thinking) - BrowseComp 智能体搜索:56.6% / 73.1%(带上下文管理) - τ²-Bench 工具使用:88.2 平均分 ## 3. 数据与事实 ### A. 竞品对比表 | 指标 | DeepSeek-V3.2 | Kimi-K2 | Qwen3-235B | GLM-4.7 | LongCat-2601 | |------|--------------|---------|-----------|---------|-------------| | 总参数 | 671B | 1T | 235B | 355B | 560B | | 激活参数 | 37B | 32B | 22B | 32B | 27B | | AIME-25 | 93.5 | 99.1 | 92.6 | 95.3 | 99.6/100.0 | | BrowseComp | 51.4/67.6 | -/60.2 | - | 52.0/67.5 | 56.6/73.1 | ### B. 评估数据 - 数学推理:在 AIME-25、HMMT-25、IMO-AnswerBench 等基准上表现优异 - 智能体搜索:BrowseComp、BrowseComp-zh、RW Search 等测试领先 - 工具使用:τ²-Retail、τ²-Airline、τ²-Telecom 等场景表现强劲 - 编码:LCB 82.8、OJBench 42.2、SWE-bench 70.0 # 四、影响分析 ## 1. 行业影响 ### A. 技术趋势 - MoE 架构成为大模型主流方向,平衡性能与效率 - 环境扩展强化学习提升智能体泛化能力 - 抗噪声训练成为真实场景部署关键 ### B. 竞争格局 - 与 DeepSeek、Kimi、Qwen 等国产模型形成激烈竞争 - 在智能体工具使用场景表现突出 - Heavy Thinking Mode 提供差异化推理能力 ## 2. 用户影响 ### A. 现有用户 - 可通过 longcat.ai 和 longcat.chat 体验 - MIT 许可证开放模型权重 ### B. 潜在用户 - 需要智能体工具使用能力的企业用户 - 需要复杂推理能力的应用场景 ### C. 迁移建议 - 支持 SGLang 和 vLLM 部署 - 提供 deployment guide 文档 ## 3. 技术趋势 ### A. 技术方向 - 智能体能力成为大模型竞争新焦点 - 环境泛化能力比单纯基准测试更重要 - 多模式推理(标准 + Heavy Thinking)成为趋势 ### B. 生态影响 - 开源权重促进社区研究 - 推动智能体工具使用标准发展 # 五、各方反应 ## 1. 官方回应 美团 LongCat 团队在 GitHub 发布详细技术文档和评估报告 ## 2. 业内评价 ### A. 技术亮点 - 环境扩展与多环境强化学习方法创新 - 抗噪声训练实用性强 - Heavy Thinking Mode 提供推理深度 ### B. 开放态度 - MIT 许可证开源权重 - 提供完整部署文档 - GitHub 社区积极互动 ## 3. 用户反馈 - GitHub 92+ 星标 - 提供 WeChat 群和 Twitter 账号支持 # 六、相关链接 ## 1. 官方资源 - GitHub 仓库:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601 - Hugging Face:https://huggingface.co/meituan-longcat - ModelScope:https://www.modelscope.cn/models/meituan-longcat/LongCat-Flash-Thinking-2601 ## 2. 体验平台 - LongCat AI:https://longcat.ai - LongCat Chat(Heavy Thinking Mode):https://longcat.chat ## 3. 联系方式 - 邮箱:longcat-team@meituan.com - Twitter:@Meituan_LongCat *** ## 参考资料 1. [美团 LongCat-Flash-Thinking-2601 GitHub 仓库](https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601) 最后修改:2026 年 01 月 18 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏