Loading... # Qwen3-Max-Thinking 旗舰推理模型发布技术分析 # 一、新闻概述 ## 1. 标题 Qwen3-Max-Thinking:超越极限的旗舰推理模型 ## 2. 发布时间 2026 年 1 月 26 日 ## 3. 来源 Qwen 官方博客 # 二、核心内容 ## 1. 事件摘要 ### A. 主要内容 阿里巴巴 Qwen 团队发布最新旗舰推理模型 Qwen3-Max-Thinking,通过扩大模型参数规模和利用大规模计算资源进行强化学习,在多个维度实现显著性能提升。 ### B. 核心亮点 - 性能可媲美 GPT-5.2-Thinking、Claude-Opus-4.5 和 Gemini 3 Pro 等领先模型 - 自适应工具使用能力,支持搜索、记忆和代码解释器 - 先进的测试时扩展技术,显著提升推理性能 ## 2. 关键信息 ### A. 版本号 Qwen3-Max-Thinking(API 模型名:qwen3-max-2026-01-23) ### B. 重要数据 - 在 19 个 established benchmarks 上进行评估 - Arena-Hard v2 评分达到 90.2,超越所有对比模型 - HMMT Feb 25 数学竞赛评分 98.0 ### C. 涉及技术 - 强化学习训练 - 自适应工具使用(Adaptive Tool-Use) - 测试时扩展策略(Test-time Scaling) ## 3. 背景介绍 ### A. 前置版本 Qwen 系列模型的持续演进,此次发布专注于推理能力的提升。 ### B. 相关上下文 大语言模型领域竞争激烈,各厂商纷纷推出推理优化模型,Qwen3-Max-Thinking 是中国团队在该领域的重要突破。 # 三、详细报道 ## 1. 主要内容 ### A. 功能更新 Qwen3-Max-Thinking 在以下方面实现显著改进: - 事实知识(Factual Knowledge) - 复杂推理(Complex Reasoning) - 指令遵循(Instruction Following) - 人类偏好对齐(Alignment with Human Preferences) - 智能体能力(Agent Capabilities) ### B. 技术改进 #### 核心技术一:自适应工具使用能力 与传统方法不同,Qwen3-Max-Thinking 无需用户手动选择工具,而是能够在对话过程中自主选择和使用内置的搜索、记忆和代码解释器功能。 **训练过程**: 1. 首先进行工具使用的微调 2. 然后在多样化任务上使用基于规则和基于模型的反馈进行进一步训练 **功能效果**: - 搜索和记忆工具有效缓解幻觉问题 - 提供实时信息访问能力 - 实现更个性化的响应 - 代码解释器允许用户执行代码片段并应用计算推理解决复杂问题 #### 核心技术二:测试时扩展策略 测试时扩展是指在推理过程中分配额外计算以提升模型性能的技术。Qwen 团队提出了一种经验累积、多轮测试时扩展策略用于重模式。 **创新点**: - 不是简单地增加并行轨迹 N,而是限制 N - 将节省的计算重定向到由「获取经验」机制引导的迭代自我反思 - 该机制从过往轮次中提取关键洞察,使模型能够避免重新推导已知结论,专注于未解决的不确定性 **关键优势**: - 殴得比简单地引用原始轨迹更高的上下文效率 - 在相同的上下文窗口内实现更丰富的历史信息集成 - 在大致相同的 token 消耗下持续超越标准并行采样和聚合 **性能提升数据**: - GPQA:90.3 → 92.8 - HLE:34.1 → 36.5 - LiveCodeBench v6:88.0 → 91.4 - IMO-AnswerBench:89.5 → 91.5 - HLE(with tools):55.8 → 58.3 ### C. 兼容性说明 - Qwen API 兼容 OpenAI API 协议 - 同时兼容 Anthropic API 协议 - 可与 Claude Code 无缝协作 ## 2. 技术细节 ### A. 性能基准测试 以下是 Qwen3-Max-Thinking 与主流模型的详细对比数据: **知识能力**: - MMLU-Pro:85.7(GPT-5.2-Thinking: 87.4, Claude-Opus-4.5: 89.5, Gemini 3 Pro: 89.8) - MMLU-Redux:92.8(GPT-5.2-Thinking: 95.0, Claude-Opus-4.5: 95.6, Gemini 3 Pro: 95.9) - C-Eval:93.7(GPT-5.2-Thinking: 90.5, Claude-Opus-4.5: 92.2, Gemini 3 Pro: 93.4) **STEM 能力**: - GPQA:87.4(GPT-5.2-Thinking: 92.4, Claude-Opus-4.5: 87.0, Gemini 3 Pro: 91.9) - HLE:30.2(GPT-5.2-Thinking: 35.5, Claude-Opus-4.5: 30.8, Gemini 3 Pro: 37.5) **推理能力**: - LiveCodeBench v6:85.9(GPT-5.2-Thinking: 87.7, Claude-Opus-4.5: 84.8, Gemini 3 Pro: 90.7) - HMMT Feb 25:98.0(GPT-5.2-Thinking: 99.4, Claude-Opus-4.5: -, Gemini 3 Pro: 97.5) - HMMT Nov 25:94.7(GPT-5.2-Thinking: -, Claude-Opus-4.5: -, Gemini 3 Pro: 93.3) - IMOAnswerBench:83.9(GPT-5.2-Thinking: 86.3, Claude-Opus-4.5: 84.0, Gemini 3 Pro: 83.3) **智能体编程**: - SWE Verified:75.3(GPT-5.2-Thinking: 80.0, Claude-Opus-4.5: 80.9, Gemini 3 Pro: 76.2) **指令遵循与对齐**: - IFBench:70.9(GPT-5.2-Thinking: 75.4, Claude-Opus-4.5: 58.0, Gemini 3 Pro: 70.4) - MultiChallenge:63.3(GPT-5.2-Thinking: 57.9, Claude-Opus-4.5: 54.2, Gemini 3 Pro: 64.2) - Arena-Hard v2:90.2(GPT-5.2-Thinking: 80.6, Claude-Opus-4.5: 76.7, Gemini 3 Pro: 81.7) **工具使用**: - Tau² Bench:82.1(GPT-5.2-Thinking: 80.9, Claude-Opus-4.5: 85.7, Gemini 3 Pro: 85.4) - BFCL-V4:67.7(GPT-5.2-Thinking: 63.1, Claude-Opus-4.5: 77.5, Gemini 3 Pro: 72.5) - Vita Bench:40.9(GPT-5.2-Thinking: 38.2, Claude-Opus-4.5: 56.3, Gemini 3 Pro: 51.6) **长上下文**: - AA-LCR:68.7(GPT-5.2-Thinking: 72.7, Claude-Opus-4.5: 74.0, Gemini 3 Pro: 70.7) ### B. 系统架构 Qwen3-Max-Thinking 的核心架构设计如下: ```mermaid graph TB A[用户输入] --> B{自适应工具选择} B --> C[搜索工具] B --> D[记忆工具] B --> E[代码解释器] C --> F[缓解幻觉] D --> G[个性化响应] E --> H[计算推理] F --> I[测试时扩展模块] G --> I H --> I I --> J[经验累积机制] J --> K[迭代自我反思] K --> L[输出优化] ```  ### C. 集成方式 #### OpenAI API 兼容模式 ```python from openai import OpenAI import os client = OpenAI( api_key=os.getenv("API_KEY"), base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1", ) completion = client.chat.completions.create( model="qwen3-max-2026-01-23", messages=[ {"role": "user", "content": "Give me a short introduction to large language model."} ], extra_body={"enable_thinking": True} ) print(completion.choices[0].message) ``` #### Claude Code 集成 ```bash # 安装 Claude Code npm install -g @anthropic-ai/claude-code # 配置环境变量 export ANTHROPIC_MODEL="qwen3-max-2026-01-23" export ANTHROPIC_SMALL_FAST_MODEL="qwen3-max-2026-01-23" export ANTHROPIC_BASE_URL=https://dashscope.aliyuncs.com/apps/anthropic export ANTHROPIC_AUTH_TOKEN=your-dashscope-apikey # 执行 claude ``` # 四、影响分析 ## 1. 行业影响 ### A. 技术趋势 - 中国大模型在推理能力上与国际顶尖模型达到同一水平 - 测试时扩展策略成为提升模型性能的重要方向 - 自适应工具使用成为智能体能力的关键组成部分 ### B. 竞争格局 - Qwen3-Max-Thinking 在 Arena-Hard v2 上达到 90.2 分,超越所有对比模型 - 在数学推理任务(HMMT)上表现优异 - 工具使用能力接近 Claude-Opus-4.5 水平 ## 2. 用户影响 ### A. 现有用户 - 可通过 Qwen Chat 直接体验新模型 - API 用户需使用新的模型名称 qwen3-max-2026-01-23 - 兼容 OpenAI 和 Anthropic API 协议,迁移成本低 ### B. 潜在用户 - 需要注册阿里云账号并激活 Model Studio 服务 - 支持 Python、JavaScript 等多种编程语言集成 - 可与 Claude Code 无缝协作 ### C. 迁移建议 - 现有 Qwen 用户可直接升级到新模型 - OpenAI 用户只需修改 base_url 和 api_key - Anthropic 用户可使用相同的工作流程 ## 3. 技术趋势 ### A. 技术方向 - 从单纯扩大参数规模转向推理能力优化 - 测试时计算的重要性日益凸显 - 工具使用从手动选择向自适应发展 ### B. 生态影响 - 开源与闭源模型的性能差距进一步缩小 - API 兼容性成为降低迁移成本的关键 - 多模态和智能体能力成为竞争焦点 # 五、各方反应 ## 1. 官方回应 Qwen 团队表示,Qwen3-Max-Thinking 是通过大规模强化学习和测试时扩展技术实现的重大突破,在多个基准测试中达到或超越国际顶尖模型水平。 ## 2. 业内评价 ### A. 技术亮点 - 自适应工具使用提升了模型的实用性和可靠性 - 测试时扩展策略在不增加推理成本的情况下显著提升性能 - API 兼容性设计降低了用户迁移门槛 ### B. 关注点 - 部分基准测试结果仍落后于 GPT-5.2-Thinking 和 Gemini 3 Pro - 工具使用能力与 Claude-Opus-4.5 相比仍有提升空间 - 实际应用场景中的表现有待进一步验证 ## 3. 用户反馈 ### A. 正面评价 - Arena-Hard v2 评分 90.2 显示出强大的对话能力 - 数学推理任务表现优异 - API 兼容性设计方便开发者集成 ### B. 改进建议 - 希望进一步提升工具使用的准确性 - 期待降低推理成本以支持更广泛的应用 - 建议增加更多语言的支持 # 六、相关链接 ## 1. 官方资源 - Qwen Chat:https://chat.qwen.ai - API 文档:https://www.alibabacloud.com/help/en/model-studio/models - Discord 社区:https://discord.gg/yPEP2vHTu4 ## 2. 注册与接入 - 阿里云账号注册:https://account.alibabacloud.com/register/intl_register.htm - Model Studio 控制台:需注册后访问 ## 3. 技术文档 - 模型名称:qwen3-max-2026-01-23 - API Base URL:https://dashscope-intl.aliyuncs.com/compatible-mode/v1 - Anthropic 兼容 URL:https://dashscope.aliyuncs.com/apps/anthropic *** ## 参考资料 1. [Pushing Qwen3-Max-Thinking Beyond its Limits](https://qwen.ai/blog?id=qwen3-max-thinking) 最后修改:2026 年 01 月 27 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏