Loading... # mHC 在 17 亿参数规模下的不稳定性炸弹技术分析 # 一、新闻概述 ## 1. 标题 10,924 倍信号放大:17 亿参数规模下的不稳定性炸弹 ## 2. 发布时间 2026 年 1 月 16 日 ## 3. 来源 Taylor Kolasinski 技术博客 # 二、核心内容 ## 1. 事件摘要 ### A. 主要内容 这是 mHC(Manifold Hyper-Connections)复现系列的第二部分。第一部分展示了 1000 万参数规模下的不稳定性,现在作者将规模扩展至 17 亿参数。 ### B. 核心亮点 - HC 在 17 亿参数下达到 10,924 倍信号放大 - mHC 保持完美的 1.0 倍稳定性 - 不稳定性从输入层开始,而非输出层 - 在 3 倍学习率压力测试中,HC 达到 14,765 倍 ### C. 关键数据 - 参数规模:1.7B - 2.5B(第一部分为 10M) - 数据集:C4(300GB+) - 硬件:8x H100 SXM5 - 最大 Amax:10,924x(超过 DeepSeek 论文报告的 3000x) ## 2. 背景介绍 ### A. 前置版本 第一部分在 1000 万参数的 TinyShakespeare 数据集上训练 Transformer,观察到 Hyper-Connections 爆炸至 9.2 倍信号放大。DeepSeek 论文报告在 270 亿参数下达到 3000 倍。 ### B. 相关上下文 作者租用了一个 8x H100 节点进行实验,试图追赶 DeepSeek 论文中报告的数值。结果显示不稳定性随着模型规模扩大而显著加剧。 # 三、详细报道 ## 1. 实验设计 ### A. 架构对比 作者运行了 18 个实验,涵盖三种架构: - Residual:标准的 x + F(x) 基线 - HC:无约束混合矩阵的 Hyper-Connections - mHC:带 Sinkhorn 投影的 Manifold Hyper-Connections ### B. 实验配置 - 深度:32 层和 48 层 - 随机种子:42、123、456(每种配置 3 个种子) - 训练步数:5000 步 - 精度:bf16 混合精度 - 32 层模型:17.3 亿参数 - 48 层模型:25.4 亿参数 ## 2. 实验结果 ### A. 损失曲线 所有三种方法收敛到相似的损失(约 5.4-6.0)。学习曲线几乎完全重叠,HC 没有学得更快,mHC 也没有学得更慢。Sinkhorn 约束基本上是免费的。 ### B. Amax 指标 Amax 衡量混合矩阵对信号的放大程度,1.0 表示中性,越高表示放大越强。 在深度 32 时: - HC 的 Amax 攀升至 6,500x,伴随剧烈振荡 - mHC 稳定在 1.0 在深度 48 时: - HC 爆发至 3,500x - mHC 保持锁定在 1.0 ### C. 数据对比 | 方法 | 深度 | 最终损失 | 最大 Amax | |------|------|----------|-----------| | Residual | 32 | 5.45 ± 0.04 | N/A | | HC | 32 | 5.43 ± 0.03 | 10,924 ± 3,247 | | mHC | 32 | 5.45 ± 0.03 | 1.00 ± 0.00 | | Residual | 48 | 5.48 ± 0.04 | N/A | | HC | 48 | 5.92 ± 0.19 | 3,721 ± 378 | | mHC | 48 | 6.03 ± 0.20 | 1.00 ± 0.00 | HC 在深度 32 时根据不同随机种子在约 7,600x 至 14,200x 之间波动,而 mHC 每次运行都是 1.00。没有方差,完美稳定。 ## 3. 技术细节 ### A. 扩展定律 ```mermaid graph LR A[10M 参数] -->|9.2x| B[Part 1] C[1.7B 参数] -->|10,924x| D[Part 2] E[27B 参数] -->|3,000x| F[DeepSeek] D -->|推测| G[10B → 50,000x] D -->|推测| H[100B → 400,000x] ```  对数坐标图显示: - Part 1:10M 参数 → 9.2x - Part 2:1.7B 参数 → 10,924x - DeepSeek:27B 参数 → 3,000x(报告值) 趋势线显示在 100 亿参数时可能达到约 50,000x,在 1000 亿参数时达到约 400,000x。 ### B. 为什么模型没有崩溃 令人意外的是,所有 HC 运行都没有崩溃。14,765 倍信号放大,10,924 倍在深度 32。损失没有发散,训练没有出现 NaN。模型继续学习。 可能的原因: - 梯度裁剪拯救了局面:在范数 1.0 处裁剪防止了最严重的爆炸 - 5000 步不够:训练更长时间可能会爆炸 - 模型太小:在 1000 亿参数时动态可能不同 ### C. 逐层分析 ```mermaid graph TB subgraph HC L0[Layer 0] -->|最先变红| L1[Layer 1-47] end subgraph mHC M0[Layer 0] -->|全绿| M1[Layer 1-47] end L0 -->|Amax > 2.0| Exp[早期训练] M0 -->|Amax = 1.0| Stable[整个训练过程] ```  令人惊讶的是,不稳定性从输入层开始,而非输出层。 在 HC 中,第 0 层(最上面一行)在训练早期首先变红,其混合矩阵超过 Amax 2.0,而更深的层保持相对稳定。深度似乎不是问题,而是第 0 层。唯一处理原始输入的层。 为什么是第 0 层?与前面有 LayerNorm 的更深层不同,第一个混合矩阵直接作用于原始嵌入。其他层看到的是归一化、变换后的表示。但第 0 层必须处理嵌入表产生的任何内容。如果缩放不完美匹配,第 0 层学会补偿。在 HC 中,补偿可能意味着放大。 mHC 在所有层和所有训练步骤中都是均匀的绿色。Sinkhorn 投影限制了最大值,同时防止任何层漂移。 ### D. 信号流可视化 ```mermaid graph LR Input[输入 1.0] --> L8[第 8 层] L8 --> L16[第 16 层] L16 --> L24[第 24 层] L24 --> L32[第 32 层] L32 --> HCOut[HC 输出 532x] L32 --> mHCOut[mHC 输出 1.000003x] style HCOut fill:#ff6b6b style mHCOut fill:#51cf66 ```  在步骤 3000 时,进入 HC 网络的信号在输出时放大了 532 倍。同一信号通过 mHC 输出时为 1.000003 倍,基本保持不变。 LayerNorm 和非线性似乎吸收了其中很多,但这意味着它们花费容量仅仅是为了抵消上游的混乱。 # 四、压力测试 在 3 倍学习率下的压力测试结果: | 配置 | 最大 Amax | |------|-----------| | HC d32 @ 3x LR | ~5,400x | | HC d48 @ 3x LR | ~3,800x | | HC d64 @ 3x LR | 14,765x | | mHC(所有配置) | 1.0 | 深度 64 模型在 Amax 达到 14,765x 之前在 2,000x 和 10,000x 之间剧烈振荡,混合矩阵完全失控。 mHC 在每种配置、每个学习率下都是平坦、稳定且无聊的 1.0。 # 五、影响分析 ## 1. 技术意义 这是一个定时炸弹场景。不稳定性存在,但尚未导致灾难性故障。在更大规模或更长训练时间下,炸弹可能会引爆。 ## 2. 实践建议 如果实现 Hyper-Connections: - 使用 Sinkhorn 投影:约 10 行代码,消除规模下真正危险的失败模式 - 训练期间监控 Amax:如果看到攀升超过 10 倍,正在积累不稳定性 - 第 0 层是预警信号:特别密切地监视输入混合矩阵 - 约束没有性能成本:mHC 运行与 HC 损失完全匹配 ## 3. 守恒定律 每个残差连接都是一个守恒定律。mHC 强制执行它。 在 17 亿规模下,HC 以信号在训练期间增长 10,000 倍违反了守恒。mHC 强制执行它,信号保持。 在 1000 万参数时,违反守恒是可生存的。第一部分看到的 9.2 倍放大很烦人但可管理。 在 17 亿参数时,它是一颗炸弹。10,924 倍放大意味着应该为幅度 1 的信号现在是幅度 10,924。梯度更新对抗这种放大,而优化器做额外工作来补偿网络的内部混乱。 # 六、实验环境 - 硬件:Lambda Labs 8x H100 SXM5 节点 - 运行时间:约 17 小时 - 数据和代码:公开可用(W&B 仪表板包含完整配置、指标和系统日志) # 七、开放问题 ## 1. HC 实际上会失败吗? 看到了 10,924 倍放大,但训练没有发散。这是潜在风险,还是更长的训练会导致失败? ## 2. 扩展定律是什么? 10M → 9.2x。1.7B → 10,924x。在 10B 时会发生什么? 作者希望将扩展定律追踪到 100 亿参数。趋势线显示那里可能有 50,000 倍放大。该实验在技术上已准备就绪,但需要计算预算的大幅提升。 *** ## 参考资料 1. [10,924x: The Instability Bomb at 1.7B Scale](https://taylorkolasinski.com/notes/mhc-reproduction-part2/) 2. [DeepSeek 论文](https://arxiv.org/abs/2512.24880) 3. [Part 1: mHC Reproduction](https://taylorkolasinski.com/notes/mhc-reproduction) 最后修改:2026 年 01 月 19 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏