Loading... # Inception 发布 Mercury 2:基于扩散模型的最快推理 LLM # 一、新闻概述 ## 1. 标题 Inception 发布 Mercury 2:基于扩散模型的最快推理 LLM ## 2. 发布时间 2026 年 2 月 24 日 ## 3. 来源 Inception 官方博客 # 二、核心内容 ## 1. 事件摘要 ### A. 主要内容 Inception 正式发布 Mercury 2,这是一个采用扩散模型架构的推理大语言模型,号称是世界上最快的推理 LLM。 ### B. 核心亮点 - 采用扩散模型而非传统自回归解码,实现并行精炼生成 - 在 NVIDIA Blackwell GPU 上达到 1009 tokens/sec 的生成速度 - OpenAI API 兼容,可直接替换到现有系统 ## 2. 关键信息 ### A. 版本信息 Mercury 2(基于扩散模型的推理 LLM) ### B. 重要数据 - 生成速度:1009 tokens/sec(NVIDIA Blackwell GPU) - 输入价格:0.25 美元/100 万 tokens - 输出价格:0.75 美元/100 万 tokens ### C. 涉及产品 Mercury 2 LLM、NVIDIA Blackwell GPU、Azure AI Foundry ## 3. 背景介绍 ### A. 前置版本 此前 Mercury Diffusion LLM 已于 2025 年 11 月在 Azure AI Foundry 上线。 ### B. 相关上下文 生产型 AI 已不再是单次提示和单次回复,而是包含智能体、检索管道和提取作业的循环,延迟会在每一步累积放大。现有 LLM 仍共享自回归顺序解码的瓶颈。 # 三、详细报道 ## 1. 主要内容 ### A. 技术创新 Mercury 2 不采用顺序解码,而是通过并行精炼生成响应,同时生成多个 token 并在少量步骤中收敛。这种"更像编辑一次性修改完整草稿而非打字机逐字输入"的方式,实现了超过 5 倍的生成速度提升。 ### B. 架构对比 ```mermaid graph LR subgraph 自回归模型 A[输入] --> B[逐个生成] B --> C[Token 1] C --> D[Token 2] D --> E[Token 3] E --> F[完成] end subgraph 扩散模型 G[输入] --> H[并行生成] H --> I[粗略输出] I --> J[精炼步骤 1] J --> K[精炼步骤 2] K --> L[完成] end ```  ### C. 产品规格 - 速度:在 NVIDIA Blackwell GPU 上达到 1009 tokens/sec - 质量:与领先的速度优化模型竞争力相当 - 价格:0.25 美元/100 万输入 tokens,0.75 美元/100 万输出 tokens - 特性:可调推理、128K 上下文长度、原生工具使用、对齐的 JSON 输出 ### D. 兼容性 OpenAI API 兼容,可直接替换到现有技术栈而无需重写代码。 ## 2. 技术细节 ### A. 速度优势 扩散模型改变了推理与速度的权衡。传统模型中更高的智能需要更多的测试时计算,意味着更长的链、更多的样本和重试,直接以延迟和成本为代价。基于扩散的推理可以在实时延迟预算内实现推理级质量。 ### B. 性能优化方向 团队优化的是用户实际能感受到的速度:高并发下的 p95 延迟、一致的轮次间行为、系统繁忙时稳定的吞吐量。 ### C. NVIDIA 合作 ```mermaid graph LR A[Mercury 2] -->|部署在| B[NVIDIA Blackwell GPU] B -->|达到| C[1009+ tokens/sec] A -->|利用| D[NVIDIA AI 基础设施] D -->|提供| E[性能与可扩展性] ```  NVIDIA 加速计算组产品高级经理 Shruti Koparkar 表示,Mercury 2 在 NVIDIA GPU 上超过 1000 tokens/sec 的成绩凸显了 NVIDIA 平台在性能、可扩展性和通用性方面的优势。 # 四、应用场景 ## 1. 编码和编辑 自动完成、下一步编辑建议、重构、交互式代码代理等开发工作流。Zed 联合创始人 Max Brunsfeld 表示,建议来得快到感觉像是自己思维的一部分,而不是需要等待的东西。 ## 2. 智能体循环 智能体工作流每个任务需要链式调用数十次推理。Viant 首席架构师 Adrian Witas 表示,他们利用最新 Mercury 模型大规模智能优化广告执行。Skyvern 联合创始人 Suchintan Singh 称,Mercury 2 至少比 GPT-5.2 快两倍。 ## 3. 实时语音和交互 语音界面拥有 AI 中最严格的延迟预算。Wispr Flow 联合创始人 Sahaj Garg 表示,Mercury 2 在实时转录清理和交互式 HCI 应用中的无与伦比的延迟和质量非常有价值。Happyverse AI 联合创始人 Max Sapo 表示,低延迟不是锦上添花,而是一切。 ## 4. 搜索和 RAG 管道 多跳检索、重排序和摘要延迟累积很快。SearchBlox 首席产品官 Timo Selvaraj 表示,与 Inception 的合作使其实时 AI 搜索产品成为可能。 # 五、影响分析 ## 1. 行业影响 ### A. 技术趋势 扩散模型在 LLM 领域的应用验证了替代自回归架构的可行性,为后续模型设计提供了新方向。 ### B. 竞争格局 Mercury 2 的速度优势可能迫使其他厂商优化推理速度,推动整个行业向更实时化的方向发展。 ## 2. 用户影响 ### A. 现有用户 可直接通过 OpenAI API 兼容接口接入,迁移成本低。 ### B. 潜在用户 需要低延迟实时 AI 应用的企业将获得新的选择,特别是在代码编辑、智能体、语音交互和搜索场景。 ### C. 迁移建议 企业用户可申请早期访问,Inception 会提供工作负载适配、评估设计和性能验证支持。 ## 3. 技术趋势 扩散模型架构可能成为未来 LLM 发展的重要方向之一,尤其是在需要实时响应的生产环境中。 # 六、各方反应 ## 1. 官方声明 Inception CEO Stefano Ermon 介绍了 Mercury 2 作为世界最快推理 LLM 的定位。 ## 2. 合作伙伴评价 ### A. NVIDIA NVIDIA 加速计算组产品高级经理 Shruti Koparkar 表示,Mercury 2 展示了新模型架构与 NVIDIA AI 基础设施结合的可能性。 ### B. SearchBlox SearchBlox 首席产品官 Timo Selvaraj 表示,合作使客户支持、合规、风险、分析和电子商务领域的所有 SearchBlox 客户都能从跨其所有数据的亚秒级智能中受益。 ## 3. 用户反馈 ### A. Zed 联创 Max Brunsfeld 表示建议快到感觉像是自己思维的一部分。 ### B. Skyvern 联创 Suchintan Singh 表示 Mercury 2 至少比 GPT-5.2 快两倍。 ### C. Wispr Flow 联创 Sahaj Garg 表示没有其他模型接近 Mercury 能提供的速度。 # 七、相关链接 ## 1. 官方链接 - [Mercury 2 官方公告](https://www.inceptionlabs.ai/blog/introducing-mercury-2) - [Mercury Chat 在线体验](https://chat.inceptionlabs.ai/) - [申请早期访问](https://www.inceptionlabs.ai/early-access) ## 2. 技术文档 - [Inception API 平台](https://platform.inceptionlabs.ai/) - [官方文档](https://docs.inceptionlabs.ai/get-started/get-started) ## 3. 相关报道 - [Mercury Diffusion LLM 已上线 Azure AI Foundry(2025 年 11 月)](https://www.inceptionlabs.ai/blog/mercury-azure-foundry) - [SearchBlox + Inception 企业级实时 GenAI 搜索(2026 年 1 月)](https://www.inceptionlabs.ai/blog/searchblox-and-inception) *** ## 参考资料 1. [Introducing Mercury 2 – Inception](https://www.inceptionlabs.ai/blog/introducing-mercury-2) 最后修改:2026 年 02 月 25 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏