美团 LongCat-Flash-Thinking-2601 大型推理模型发布

一、新闻概述

1. 标题

美团发布 LongCat-Flash-Thinking-2601:560B 参数 MoE 大型推理模型,强化环境泛化能力

2. 发布时间

2026 年 1 月 15 日(GitHub 仓库更新)

3. 来源

美团 LongCat 团队 GitHub 仓库

二、核心内容

1. 事件摘要

A. 主要内容

美团 LongCat 团队发布 LongCat-Flash-Thinking-2601,这是一个拥有 5600 亿总参数的大型推理模型,采用创新的混合专家架构。

B. 核心亮点

  • 560B 总参数,27B 激活参数
  • 环境扩展与多环境强化学习训练方案
  • 抗噪声环境鲁棒性训练
  • Heavy Thinking Mode(深度思考模式)
  • 在智能体工具使用、搜索和推理基准测试中表现优异

2. 关键信息

A. 版本号

LongCat-Flash-Thinking-2601

B. 重要数据

  • 总参数量:560B
  • 激活参数量:27B
  • 架构:MoE(混合专家)
  • GitHub 星标:92+

C. 涉及产品

3. 背景介绍

A. 前置版本

这是 LongCat-Flash-Thinking 系列的更新版本,继承了领域并行训练配方,并系统性地增强了智能体思考能力。

B. 相关上下文

随着 AI 智能体应用的发展,模型在真实环境中的工具使用和推理能力成为关键竞争点。LongCat-Flash-Thinking-2601 专注于环境泛化和鲁棒性。

三、详细报道

1. 主要内容

A. 功能更新

  • 环境扩展与多环境强化学习:构建多样化高质量环境作为强化学习训练场
  • 抗噪声训练:系统分析和课程训练处理多种类型和级别的环境噪声
  • Heavy Thinking Mode:并行思考和总结两阶段,扩展推理深度和广度

B. 技术改进

  • 高质量任务构建:显式控制任务复杂度和多样性
  • 多环境强化学习:扩展 DORA 基础设施支持大规模多环境智能体训练
  • 课程策略:逐步增加噪声类型和强度

C. 兼容性说明

  • 已适配 SGLang 和 vLLM 部署
  • 提供 chat template 支持高级工具使用场景

2. 技术细节

A. 架构特点

graph TB
    A[LongCat-Flash-Thinking-2601] --> B[MoE 架构]
    B --> C[560B 总参数]
    B --> D[27B 激活参数]

    A --> E[训练方法]
    E --> F[环境扩展]
    E --> G[多环境强化学习]
    E --> H[抗噪声训练]

    A --> I[推理模式]
    I --> J[标准模式]
    I --> K[Heavy Thinking Mode]

    K --> L[并行思考阶段]
    K --> M[总结阶段]
    M --> N[迭代推理循环]

LongCat 架构图

B. 核心技术

  • 环境扩展:每个环境包含超过 60 个工具,组织成密集依赖图
  • 高质量任务:基于连通子图定义任务,控制复杂度
  • 抗噪声训练:分析真实世界噪声源并自动注入训练环境
  • Heavy Thinking Mode:多轨迹并行生成 + 递归总结

C. 性能指标

  • AIME-25 数学竞赛:99.6%(标准)/ 100.0%(Heavy Thinking)
  • BrowseComp 智能体搜索:56.6% / 73.1%(带上下文管理)
  • τ²-Bench 工具使用:88.2 平均分

3. 数据与事实

A. 竞品对比表

指标DeepSeek-V3.2Kimi-K2Qwen3-235BGLM-4.7LongCat-2601
总参数671B1T235B355B560B
激活参数37B32B22B32B27B
AIME-2593.599.192.695.399.6/100.0
BrowseComp51.4/67.6-/60.2-52.0/67.556.6/73.1

B. 评估数据

  • 数学推理:在 AIME-25、HMMT-25、IMO-AnswerBench 等基准上表现优异
  • 智能体搜索:BrowseComp、BrowseComp-zh、RW Search 等测试领先
  • 工具使用:τ²-Retail、τ²-Airline、τ²-Telecom 等场景表现强劲
  • 编码:LCB 82.8、OJBench 42.2、SWE-bench 70.0

四、影响分析

1. 行业影响

A. 技术趋势

  • MoE 架构成为大模型主流方向,平衡性能与效率
  • 环境扩展强化学习提升智能体泛化能力
  • 抗噪声训练成为真实场景部署关键

B. 竞争格局

  • 与 DeepSeek、Kimi、Qwen 等国产模型形成激烈竞争
  • 在智能体工具使用场景表现突出
  • Heavy Thinking Mode 提供差异化推理能力

2. 用户影响

A. 现有用户

  • 可通过 longcat.ai 和 longcat.chat 体验
  • MIT 许可证开放模型权重

B. 潜在用户

  • 需要智能体工具使用能力的企业用户
  • 需要复杂推理能力的应用场景

C. 迁移建议

  • 支持 SGLang 和 vLLM 部署
  • 提供 deployment guide 文档

3. 技术趋势

A. 技术方向

  • 智能体能力成为大模型竞争新焦点
  • 环境泛化能力比单纯基准测试更重要
  • 多模式推理(标准 + Heavy Thinking)成为趋势

B. 生态影响

  • 开源权重促进社区研究
  • 推动智能体工具使用标准发展

五、各方反应

1. 官方回应

美团 LongCat 团队在 GitHub 发布详细技术文档和评估报告

2. 业内评价

A. 技术亮点

  • 环境扩展与多环境强化学习方法创新
  • 抗噪声训练实用性强
  • Heavy Thinking Mode 提供推理深度

B. 开放态度

  • MIT 许可证开源权重
  • 提供完整部署文档
  • GitHub 社区积极互动

3. 用户反馈

  • GitHub 92+ 星标
  • 提供 WeChat 群和 Twitter 账号支持

六、相关链接

1. 官方资源

2. 体验平台

3. 联系方式


参考资料

  1. 美团 LongCat-Flash-Thinking-2601 GitHub 仓库
最后修改:2026 年 01 月 18 日
如果觉得我的文章对你有用,请随意赞赏