202602251058.Inception发布Mercury2推理大语言模型

博主： admin
发布时间：2026 年 02 月 25 日
20 次浏览
暂无评论
4159字数
分类：人工智能技术文档技术新闻

# Inception 发布 Mercury 2：基于扩散模型的最快推理 LLM

# 一、新闻概述

## 1. 标题
Inception 发布 Mercury 2：基于扩散模型的最快推理 LLM

## 2. 发布时间
2026 年 2 月 24 日

## 3. 来源
Inception 官方博客

# 二、核心内容

## 1. 事件摘要
### A. 主要内容
Inception 正式发布 Mercury 2，这是一个采用扩散模型架构的推理大语言模型，号称是世界上最快的推理 LLM。

### B. 核心亮点
- 采用扩散模型而非传统自回归解码，实现并行精炼生成
- 在 NVIDIA Blackwell GPU 上达到 1009 tokens/sec 的生成速度
- OpenAI API 兼容，可直接替换到现有系统

## 2. 关键信息
### A. 版本信息
Mercury 2（基于扩散模型的推理 LLM）

### B. 重要数据
- 生成速度：1009 tokens/sec（NVIDIA Blackwell GPU）
- 输入价格：0.25 美元/100 万 tokens
- 输出价格：0.75 美元/100 万 tokens

### C. 涉及产品
Mercury 2 LLM、NVIDIA Blackwell GPU、Azure AI Foundry

## 3. 背景介绍
### A. 前置版本
此前 Mercury Diffusion LLM 已于 2025 年 11 月在 Azure AI Foundry 上线。

### B. 相关上下文
生产型 AI 已不再是单次提示和单次回复，而是包含智能体、检索管道和提取作业的循环，延迟会在每一步累积放大。现有 LLM 仍共享自回归顺序解码的瓶颈。

# 三、详细报道

## 1. 主要内容
### A. 技术创新
Mercury 2 不采用顺序解码，而是通过并行精炼生成响应，同时生成多个 token 并在少量步骤中收敛。这种"更像编辑一次性修改完整草稿而非打字机逐字输入"的方式，实现了超过 5 倍的生成速度提升。

### B. 架构对比

```mermaid
graph LR
    subgraph 自回归模型
        A[输入] --> B[逐个生成]
        B --> C[Token 1]
        C --> D[Token 2]
        D --> E[Token 3]
        E --> F[完成]
    end

subgraph 扩散模型
        G[输入] --> H[并行生成]
        H --> I[粗略输出]
        I --> J[精炼步骤 1]
        J --> K[精炼步骤 2]
        K --> L[完成]
    end
```

![模型架构对比](https://static.op123.ren/static/5f/5f51801d09a0480f.svg)

### C. 产品规格
- 速度：在 NVIDIA Blackwell GPU 上达到 1009 tokens/sec
- 质量：与领先的速度优化模型竞争力相当
- 价格：0.25 美元/100 万输入 tokens，0.75 美元/100 万输出 tokens
- 特性：可调推理、128K 上下文长度、原生工具使用、对齐的 JSON 输出

### D. 兼容性
OpenAI API 兼容，可直接替换到现有技术栈而无需重写代码。

## 2. 技术细节

### A. 速度优势
扩散模型改变了推理与速度的权衡。传统模型中更高的智能需要更多的测试时计算，意味着更长的链、更多的样本和重试，直接以延迟和成本为代价。基于扩散的推理可以在实时延迟预算内实现推理级质量。

### B. 性能优化方向
团队优化的是用户实际能感受到的速度：高并发下的 p95 延迟、一致的轮次间行为、系统繁忙时稳定的吞吐量。

### C. NVIDIA 合作

```mermaid
graph LR
    A[Mercury 2] -->|部署在| B[NVIDIA Blackwell GPU]
    B -->|达到| C[1009+ tokens/sec]
    A -->|利用| D[NVIDIA AI 基础设施]
    D -->|提供| E[性能与可扩展性]
```

![NVIDIA 合作架构](https://static.op123.ren/static/d1/d146ee31ab5f915a.svg)

NVIDIA 加速计算组产品高级经理 Shruti Koparkar 表示，Mercury 2 在 NVIDIA GPU 上超过 1000 tokens/sec 的成绩凸显了 NVIDIA 平台在性能、可扩展性和通用性方面的优势。

# 四、应用场景

## 1. 编码和编辑
自动完成、下一步编辑建议、重构、交互式代码代理等开发工作流。Zed 联合创始人 Max Brunsfeld 表示，建议来得快到感觉像是自己思维的一部分，而不是需要等待的东西。

## 2. 智能体循环
智能体工作流每个任务需要链式调用数十次推理。Viant 首席架构师 Adrian Witas 表示，他们利用最新 Mercury 模型大规模智能优化广告执行。Skyvern 联合创始人 Suchintan Singh 称，Mercury 2 至少比 GPT-5.2 快两倍。

## 3. 实时语音和交互
语音界面拥有 AI 中最严格的延迟预算。Wispr Flow 联合创始人 Sahaj Garg 表示，Mercury 2 在实时转录清理和交互式 HCI 应用中的无与伦比的延迟和质量非常有价值。Happyverse AI 联合创始人 Max Sapo 表示，低延迟不是锦上添花，而是一切。

## 4. 搜索和 RAG 管道
多跳检索、重排序和摘要延迟累积很快。SearchBlox 首席产品官 Timo Selvaraj 表示，与 Inception 的合作使其实时 AI 搜索产品成为可能。

# 五、影响分析

## 1. 行业影响
### A. 技术趋势
扩散模型在 LLM 领域的应用验证了替代自回归架构的可行性，为后续模型设计提供了新方向。

### B. 竞争格局
Mercury 2 的速度优势可能迫使其他厂商优化推理速度，推动整个行业向更实时化的方向发展。

## 2. 用户影响
### A. 现有用户
可直接通过 OpenAI API 兼容接口接入，迁移成本低。

### B. 潜在用户
需要低延迟实时 AI 应用的企业将获得新的选择，特别是在代码编辑、智能体、语音交互和搜索场景。

### C. 迁移建议
企业用户可申请早期访问，Inception 会提供工作负载适配、评估设计和性能验证支持。

## 3. 技术趋势
扩散模型架构可能成为未来 LLM 发展的重要方向之一，尤其是在需要实时响应的生产环境中。

# 六、各方反应

## 1. 官方声明
Inception CEO Stefano Ermon 介绍了 Mercury 2 作为世界最快推理 LLM 的定位。

## 2. 合作伙伴评价
### A. NVIDIA
NVIDIA 加速计算组产品高级经理 Shruti Koparkar 表示，Mercury 2 展示了新模型架构与 NVIDIA AI 基础设施结合的可能性。

### B. SearchBlox
SearchBlox 首席产品官 Timo Selvaraj 表示，合作使客户支持、合规、风险、分析和电子商务领域的所有 SearchBlox 客户都能从跨其所有数据的亚秒级智能中受益。

## 3. 用户反馈
### A. Zed
联创 Max Brunsfeld 表示建议快到感觉像是自己思维的一部分。

### B. Skyvern
联创 Suchintan Singh 表示 Mercury 2 至少比 GPT-5.2 快两倍。

### C. Wispr Flow
联创 Sahaj Garg 表示没有其他模型接近 Mercury 能提供的速度。

# 七、相关链接

## 1. 官方链接
- [Mercury 2 官方公告](https://www.inceptionlabs.ai/blog/introducing-mercury-2)
- [Mercury Chat 在线体验](https://chat.inceptionlabs.ai/)
- [申请早期访问](https://www.inceptionlabs.ai/early-access)

## 2. 技术文档
- [Inception API 平台](https://platform.inceptionlabs.ai/)
- [官方文档](https://docs.inceptionlabs.ai/get-started/get-started)

## 3. 相关报道
- [Mercury Diffusion LLM 已上线 Azure AI Foundry（2025 年 11 月）](https://www.inceptionlabs.ai/blog/mercury-azure-foundry)
- [SearchBlox + Inception 企业级实时 GenAI 搜索（2026 年 1 月）](https://www.inceptionlabs.ai/blog/searchblox-and-inception)

***

## 参考资料

1. [Introducing Mercury 2 – Inception](https://www.inceptionlabs.ai/blog/introducing-mercury-2)

最后修改：2026 年 02 月 25 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

kkk
老师可以加个联系方式吗
张
很不错。除了那个qemu-tools
angux
会考虑关停服务么。。如果不考虑可以支持你
zm
ishare2 config 这一步过不去，卡在了“Unabl...
sheldon
得劲的很

202602251058.Inception发布Mercury2推理大语言模型

admin • 2026 年 02 月 25 日

# Inception 发布 Mercury 2：基于扩散模型的最快推理 LLM

# 一、新闻概述

## 1. 标题
Inception 发布 Mercury 2：基于扩散模型的最快推理 LLM

## 2. 发布时间
2026 年 2 月 24 日

## 3. 来源
Inception 官方博客

# 二、核心内容

## 1. 事件摘要
### A. 主要内容
Inception 正式发布 Mercury 2，这是一个采用扩散模型架构的推理大语言模型，号称是世界上最快的推理 LLM。

## 2. 关键信息
### A. 版本信息
Mercury 2（基于扩散模型的推理 LLM）

### B. 重要数据
- 生成速度：1009 tokens/sec（NVIDIA Blackwell GPU）
- 输入价格：0.25 美元/100 万 tokens
- 输出价格：0.75 美元/100 万 tokens

### C. 涉及产品
Mercury 2 LLM、NVIDIA Blackwell GPU、Azure AI Foundry

## 3. 背景介绍
### A. 前置版本
此前 Mercury Diffusion LLM 已于 2025 年 11 月在 Azure AI Foundry 上线。

# 三、详细报道

### B. 架构对比

```mermaid
graph LR
    subgraph 自回归模型
        A[输入] --> B[逐个生成]
        B --> C[Token 1]
        C --> D[Token 2]
        D --> E[Token 3]
        E --> F[完成]
    end

subgraph 扩散模型
        G[输入] --> H[并行生成]
        H --> I[粗略输出]
        I --> J[精炼步骤 1]
        J --> K[精炼步骤 2]
        K --> L[完成]
    end
```

![模型架构对比](https://static.op123.ren/static/5f/5f51801d09a0480f.svg)

### D. 兼容性
OpenAI API 兼容，可直接替换到现有技术栈而无需重写代码。

## 2. 技术细节

### B. 性能优化方向
团队优化的是用户实际能感受到的速度：高并发下的 p95 延迟、一致的轮次间行为、系统繁忙时稳定的吞吐量。

### C. NVIDIA 合作

![NVIDIA 合作架构](https://static.op123.ren/static/d1/d146ee31ab5f915a.svg)

# 四、应用场景

## 4. 搜索和 RAG 管道
多跳检索、重排序和摘要延迟累积很快。SearchBlox 首席产品官 Timo Selvaraj 表示，与 Inception 的合作使其实时 AI 搜索产品成为可能。

# 五、影响分析

## 1. 行业影响
### A. 技术趋势
扩散模型在 LLM 领域的应用验证了替代自回归架构的可行性，为后续模型设计提供了新方向。

### B. 竞争格局
Mercury 2 的速度优势可能迫使其他厂商优化推理速度，推动整个行业向更实时化的方向发展。

## 2. 用户影响
### A. 现有用户
可直接通过 OpenAI API 兼容接口接入，迁移成本低。

### B. 潜在用户
需要低延迟实时 AI 应用的企业将获得新的选择，特别是在代码编辑、智能体、语音交互和搜索场景。

### C. 迁移建议
企业用户可申请早期访问，Inception 会提供工作负载适配、评估设计和性能验证支持。

## 3. 技术趋势
扩散模型架构可能成为未来 LLM 发展的重要方向之一，尤其是在需要实时响应的生产环境中。

# 六、各方反应

## 1. 官方声明
Inception CEO Stefano Ermon 介绍了 Mercury 2 作为世界最快推理 LLM 的定位。

## 2. 合作伙伴评价
### A. NVIDIA
NVIDIA 加速计算组产品高级经理 Shruti Koparkar 表示，Mercury 2 展示了新模型架构与 NVIDIA AI 基础设施结合的可能性。

## 3. 用户反馈
### A. Zed
联创 Max Brunsfeld 表示建议快到感觉像是自己思维的一部分。

### B. Skyvern
联创 Suchintan Singh 表示 Mercury 2 至少比 GPT-5.2 快两倍。

### C. Wispr Flow
联创 Sahaj Garg 表示没有其他模型接近 Mercury 能提供的速度。

# 七、相关链接

## 2. 技术文档
- [Inception API 平台](https://platform.inceptionlabs.ai/)
- [官方文档](https://docs.inceptionlabs.ai/get-started/get-started)

***

## 参考资料

1. [Introducing Mercury 2 – Inception](https://www.inceptionlabs.ai/blog/introducing-mercury-2)

202602251058.Inception发布Mercury2推理大语言模型

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

搭建国内LabHub

CentOS 7.9 编译并使用rpm方式升级openssh9.6p1（包括后续更新9.8p1等）

一天从 redis 大 key 开始

安装eve-ng

重装ensp

Z-Library 到 NotebookLM 自动化工具技术分析

docker-compose for portainer

whistle - 一款抓包软件

绝地反击-20231204午

nginx server 一般配置

202602251058.Inception发布Mercury2推理大语言模型

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

202602251058.Inception发布Mercury2推理大语言模型

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款