mHC 在 17 亿参数规模下的不稳定性炸弹技术分析

博主： admin
发布时间：2026 年 01 月 19 日
41 次浏览
暂无评论
4661字数
分类：人工智能深度学习神经网络

# mHC 在 17 亿参数规模下的不稳定性炸弹技术分析

# 一、新闻概述

## 1. 标题
10,924 倍信号放大：17 亿参数规模下的不稳定性炸弹

## 2. 发布时间
2026 年 1 月 16 日

## 3. 来源
Taylor Kolasinski 技术博客

# 二、核心内容

## 1. 事件摘要
### A. 主要内容
这是 mHC（Manifold Hyper-Connections）复现系列的第二部分。第一部分展示了 1000 万参数规模下的不稳定性，现在作者将规模扩展至 17 亿参数。

### B. 核心亮点
- HC 在 17 亿参数下达到 10,924 倍信号放大
- mHC 保持完美的 1.0 倍稳定性
- 不稳定性从输入层开始，而非输出层
- 在 3 倍学习率压力测试中，HC 达到 14,765 倍

### C. 关键数据
- 参数规模：1.7B - 2.5B（第一部分为 10M）
- 数据集：C4（300GB+）
- 硬件：8x H100 SXM5
- 最大 Amax：10,924x（超过 DeepSeek 论文报告的 3000x）

## 2. 背景介绍
### A. 前置版本
第一部分在 1000 万参数的 TinyShakespeare 数据集上训练 Transformer，观察到 Hyper-Connections 爆炸至 9.2 倍信号放大。DeepSeek 论文报告在 270 亿参数下达到 3000 倍。

### B. 相关上下文
作者租用了一个 8x H100 节点进行实验，试图追赶 DeepSeek 论文中报告的数值。结果显示不稳定性随着模型规模扩大而显著加剧。

# 三、详细报道

## 1. 实验设计

### A. 架构对比
作者运行了 18 个实验，涵盖三种架构：

- Residual：标准的 x + F(x) 基线
- HC：无约束混合矩阵的 Hyper-Connections
- mHC：带 Sinkhorn 投影的 Manifold Hyper-Connections

### B. 实验配置
- 深度：32 层和 48 层
- 随机种子：42、123、456（每种配置 3 个种子）
- 训练步数：5000 步
- 精度：bf16 混合精度
- 32 层模型：17.3 亿参数
- 48 层模型：25.4 亿参数

## 2. 实验结果

### A. 损失曲线
所有三种方法收敛到相似的损失（约 5.4-6.0）。学习曲线几乎完全重叠，HC 没有学得更快，mHC 也没有学得更慢。Sinkhorn 约束基本上是免费的。

### B. Amax 指标

Amax 衡量混合矩阵对信号的放大程度，1.0 表示中性，越高表示放大越强。

在深度 32 时：
- HC 的 Amax 攀升至 6,500x，伴随剧烈振荡
- mHC 稳定在 1.0

在深度 48 时：
- HC 爆发至 3,500x
- mHC 保持锁定在 1.0

### C. 数据对比

| 方法 | 深度 | 最终损失 | 最大 Amax |
|------|------|----------|-----------|
| Residual | 32 | 5.45 ± 0.04 | N/A |
| HC | 32 | 5.43 ± 0.03 | 10,924 ± 3,247 |
| mHC | 32 | 5.45 ± 0.03 | 1.00 ± 0.00 |
| Residual | 48 | 5.48 ± 0.04 | N/A |
| HC | 48 | 5.92 ± 0.19 | 3,721 ± 378 |
| mHC | 48 | 6.03 ± 0.20 | 1.00 ± 0.00 |

HC 在深度 32 时根据不同随机种子在约 7,600x 至 14,200x 之间波动，而 mHC 每次运行都是 1.00。没有方差，完美稳定。

## 3. 技术细节

### A. 扩展定律

```mermaid
graph LR
    A[10M 参数] -->|9.2x| B[Part 1]
    C[1.7B 参数] -->|10,924x| D[Part 2]
    E[27B 参数] -->|3,000x| F[DeepSeek]
    D -->|推测| G[10B → 50,000x]
    D -->|推测| H[100B → 400,000x]
```

![mermaid](https://static.op123.ren/static/c1/c170e205a7b89b66.svg)

对数坐标图显示：
- Part 1：10M 参数 → 9.2x
- Part 2：1.7B 参数 → 10,924x
- DeepSeek：27B 参数 → 3,000x（报告值）

趋势线显示在 100 亿参数时可能达到约 50,000x，在 1000 亿参数时达到约 400,000x。

### B. 为什么模型没有崩溃

令人意外的是，所有 HC 运行都没有崩溃。14,765 倍信号放大，10,924 倍在深度 32。损失没有发散，训练没有出现 NaN。模型继续学习。

可能的原因：
- 梯度裁剪拯救了局面：在范数 1.0 处裁剪防止了最严重的爆炸
- 5000 步不够：训练更长时间可能会爆炸
- 模型太小：在 1000 亿参数时动态可能不同

### C. 逐层分析

![mermaid](https://static.op123.ren/static/fc/fc3bcb172f539b25.svg)

令人惊讶的是，不稳定性从输入层开始，而非输出层。

在 HC 中，第 0 层（最上面一行）在训练早期首先变红，其混合矩阵超过 Amax 2.0，而更深的层保持相对稳定。深度似乎不是问题，而是第 0 层。唯一处理原始输入的层。

为什么是第 0 层？与前面有 LayerNorm 的更深层不同，第一个混合矩阵直接作用于原始嵌入。其他层看到的是归一化、变换后的表示。但第 0 层必须处理嵌入表产生的任何内容。如果缩放不完美匹配，第 0 层学会补偿。在 HC 中，补偿可能意味着放大。

mHC 在所有层和所有训练步骤中都是均匀的绿色。Sinkhorn 投影限制了最大值，同时防止任何层漂移。

### D. 信号流可视化

```mermaid
graph LR
    Input[输入 1.0] --> L8[第 8 层]
    L8 --> L16[第 16 层]
    L16 --> L24[第 24 层]
    L24 --> L32[第 32 层]
    L32 --> HCOut[HC 输出 532x]
    L32 --> mHCOut[mHC 输出 1.000003x]

style HCOut fill:#ff6b6b
    style mHCOut fill:#51cf66
```

![mermaid](https://static.op123.ren/static/b8/b8eb6ad000454f6b.svg)

在步骤 3000 时，进入 HC 网络的信号在输出时放大了 532 倍。同一信号通过 mHC 输出时为 1.000003 倍，基本保持不变。

LayerNorm 和非线性似乎吸收了其中很多，但这意味着它们花费容量仅仅是为了抵消上游的混乱。

# 四、压力测试

在 3 倍学习率下的压力测试结果：

| 配置 | 最大 Amax |
|------|-----------|
| HC d32 @ 3x LR | ~5,400x |
| HC d48 @ 3x LR | ~3,800x |
| HC d64 @ 3x LR | 14,765x |
| mHC（所有配置） | 1.0 |

深度 64 模型在 Amax 达到 14,765x 之前在 2,000x 和 10,000x 之间剧烈振荡，混合矩阵完全失控。

mHC 在每种配置、每个学习率下都是平坦、稳定且无聊的 1.0。

# 五、影响分析

## 1. 技术意义
这是一个定时炸弹场景。不稳定性存在，但尚未导致灾难性故障。在更大规模或更长训练时间下，炸弹可能会引爆。

## 2. 实践建议

如果实现 Hyper-Connections：
- 使用 Sinkhorn 投影：约 10 行代码，消除规模下真正危险的失败模式
- 训练期间监控 Amax：如果看到攀升超过 10 倍，正在积累不稳定性
- 第 0 层是预警信号：特别密切地监视输入混合矩阵
- 约束没有性能成本：mHC 运行与 HC 损失完全匹配

## 3. 守恒定律

每个残差连接都是一个守恒定律。mHC 强制执行它。

在 17 亿规模下，HC 以信号在训练期间增长 10,000 倍违反了守恒。mHC 强制执行它，信号保持。

在 1000 万参数时，违反守恒是可生存的。第一部分看到的 9.2 倍放大很烦人但可管理。

在 17 亿参数时，它是一颗炸弹。10,924 倍放大意味着应该为幅度 1 的信号现在是幅度 10,924。梯度更新对抗这种放大，而优化器做额外工作来补偿网络的内部混乱。

# 六、实验环境

- 硬件：Lambda Labs 8x H100 SXM5 节点
- 运行时间：约 17 小时
- 数据和代码：公开可用（W&B 仪表板包含完整配置、指标和系统日志）

# 七、开放问题

## 1. HC 实际上会失败吗？
看到了 10,924 倍放大，但训练没有发散。这是潜在风险，还是更长的训练会导致失败？

## 2. 扩展定律是什么？
10M → 9.2x。1.7B → 10,924x。在 10B 时会发生什么？

作者希望将扩展定律追踪到 100 亿参数。趋势线显示那里可能有 50,000 倍放大。该实验在技术上已准备就绪，但需要计算预算的大幅提升。

***

## 参考资料

1. [10,924x: The Instability Bomb at 1.7B Scale](https://taylorkolasinski.com/notes/mhc-reproduction-part2/)
2. [DeepSeek 论文](https://arxiv.org/abs/2512.24880)
3. [Part 1: mHC Reproduction](https://taylorkolasinski.com/notes/mhc-reproduction)

最后修改：2026 年 01 月 19 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

mHC 在 17 亿参数规模下的不稳定性炸弹技术分析

admin • 2026 年 01 月 19 日

# mHC 在 17 亿参数规模下的不稳定性炸弹技术分析

# 一、新闻概述

## 1. 标题
10,924 倍信号放大：17 亿参数规模下的不稳定性炸弹

## 2. 发布时间
2026 年 1 月 16 日

## 3. 来源
Taylor Kolasinski 技术博客

# 二、核心内容

### C. 关键数据
- 参数规模：1.7B - 2.5B（第一部分为 10M）
- 数据集：C4（300GB+）
- 硬件：8x H100 SXM5
- 最大 Amax：10,924x（超过 DeepSeek 论文报告的 3000x）

### B. 相关上下文
作者租用了一个 8x H100 节点进行实验，试图追赶 DeepSeek 论文中报告的数值。结果显示不稳定性随着模型规模扩大而显著加剧。

# 三、详细报道

## 1. 实验设计

### A. 架构对比
作者运行了 18 个实验，涵盖三种架构：

- Residual：标准的 x + F(x) 基线
- HC：无约束混合矩阵的 Hyper-Connections
- mHC：带 Sinkhorn 投影的 Manifold Hyper-Connections

## 2. 实验结果

### B. Amax 指标

Amax 衡量混合矩阵对信号的放大程度，1.0 表示中性，越高表示放大越强。

在深度 32 时：
- HC 的 Amax 攀升至 6,500x，伴随剧烈振荡
- mHC 稳定在 1.0

在深度 48 时：
- HC 爆发至 3,500x
- mHC 保持锁定在 1.0

### C. 数据对比

HC 在深度 32 时根据不同随机种子在约 7,600x 至 14,200x 之间波动，而 mHC 每次运行都是 1.00。没有方差，完美稳定。

## 3. 技术细节

### A. 扩展定律

![mermaid](https://static.op123.ren/static/c1/c170e205a7b89b66.svg)

对数坐标图显示：
- Part 1：10M 参数 → 9.2x
- Part 2：1.7B 参数 → 10,924x
- DeepSeek：27B 参数 → 3,000x（报告值）

趋势线显示在 100 亿参数时可能达到约 50,000x，在 1000 亿参数时达到约 400,000x。

### B. 为什么模型没有崩溃

令人意外的是，所有 HC 运行都没有崩溃。14,765 倍信号放大，10,924 倍在深度 32。损失没有发散，训练没有出现 NaN。模型继续学习。

### C. 逐层分析

![mermaid](https://static.op123.ren/static/fc/fc3bcb172f539b25.svg)

令人惊讶的是，不稳定性从输入层开始，而非输出层。

mHC 在所有层和所有训练步骤中都是均匀的绿色。Sinkhorn 投影限制了最大值，同时防止任何层漂移。

### D. 信号流可视化

style HCOut fill:#ff6b6b
    style mHCOut fill:#51cf66
```

![mermaid](https://static.op123.ren/static/b8/b8eb6ad000454f6b.svg)

在步骤 3000 时，进入 HC 网络的信号在输出时放大了 532 倍。同一信号通过 mHC 输出时为 1.000003 倍，基本保持不变。

LayerNorm 和非线性似乎吸收了其中很多，但这意味着它们花费容量仅仅是为了抵消上游的混乱。

# 四、压力测试

在 3 倍学习率下的压力测试结果：

| 配置 | 最大 Amax |
|------|-----------|
| HC d32 @ 3x LR | ~5,400x |
| HC d48 @ 3x LR | ~3,800x |
| HC d64 @ 3x LR | 14,765x |
| mHC（所有配置） | 1.0 |

深度 64 模型在 Amax 达到 14,765x 之前在 2,000x 和 10,000x 之间剧烈振荡，混合矩阵完全失控。

mHC 在每种配置、每个学习率下都是平坦、稳定且无聊的 1.0。

# 五、影响分析

## 1. 技术意义
这是一个定时炸弹场景。不稳定性存在，但尚未导致灾难性故障。在更大规模或更长训练时间下，炸弹可能会引爆。

## 2. 实践建议

## 3. 守恒定律

每个残差连接都是一个守恒定律。mHC 强制执行它。

在 17 亿规模下，HC 以信号在训练期间增长 10,000 倍违反了守恒。mHC 强制执行它，信号保持。

在 1000 万参数时，违反守恒是可生存的。第一部分看到的 9.2 倍放大很烦人但可管理。

# 六、实验环境

- 硬件：Lambda Labs 8x H100 SXM5 节点
- 运行时间：约 17 小时
- 数据和代码：公开可用（W&B 仪表板包含完整配置、指标和系统日志）

# 七、开放问题

## 1. HC 实际上会失败吗？
看到了 10,924 倍放大，但训练没有发散。这是潜在风险，还是更长的训练会导致失败？

## 2. 扩展定律是什么？
10M → 9.2x。1.7B → 10,924x。在 10B 时会发生什么？

作者希望将扩展定律追踪到 100 亿参数。趋势线显示那里可能有 50,000 倍放大。该实验在技术上已准备就绪，但需要计算预算的大幅提升。

***

## 参考资料

mHC 在 17 亿参数规模下的不稳定性炸弹技术分析

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

搭建国内LabHub

CentOS 7.9 编译并使用rpm方式升级openssh9.6p1（包括后续更新9.8p1等）

一天从 redis 大 key 开始

安装eve-ng

重装ensp

Restic SSH 远程备份实战指南

Cerebras晶圆级引擎颠覆性技术路径深度解析

2026.01.12. Technical Analysis of Telegram Proxy Connection Vulnerability Leading to IP Address Exposure

中国 AI 势力圈扩张战略技术分析（下）

为何每隔十年都会出现取代开发者的梦想

mHC 在 17 亿参数规模下的不稳定性炸弹技术分析

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

mHC 在 17 亿参数规模下的不稳定性炸弹技术分析

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款