GLM-4.7-Flash 模型发布技术分析
一、新闻概述
1. 标题
GLM-4.7-Flash:30B 级最强 MoE 模型正式发布
2. 发布时间
2025 年 1 月(根据文档更新时间)
3. 来源
Z.ai / Hugging Face
二、核心内容
1. 事件摘要
A. 主要内容
Z.ai 正式发布 GLM-4.7-Flash 模型,这是一款 30B-A3B MoE(混合专家)架构的轻量级高性能模型。
B. 核心亮点
- 30B 总参数量,3B 激活参数量(A3B)
- 30B 级别最强性能模型
- 支持多种推理框架:vLLM、SGLang、Transformers
- MIT 开源许可证
- 支持中英文双语
2. 关键信息
A. 模型规格
- 总参数量:31B
- 激活参数量:3B(A3B - Active 3 Billion)
- 张量类型:BF16、F32
- 模型架构:GLM4 MoE(glm4_moe_lite)
B. 技术特性
- 支持工具调用(tool-call-parser: glm47)
- 支持推理模式(reasoning-parser: glm45)
- 支持投机采样(Speculative Decoding)
- Chat template 对话模板
C. 部署选项
- 本地部署:vLLM、SGLang
- API 服务:Z.ai API Platform
- 在线体验:chat.z.ai
3. 背景介绍
A. 相关版本
- GLM-4.5:基础版本,技术报告已发布(arXiv:2508.06471)
- GLM-4.7 系列:包含多个变体模型
B. 相关上下文
GLM-4.7-Flash 是 GLM-4.7 系列的轻量级版本,专注于性能与效率的平衡。
三、详细报道
1. 主要内容
A. 模型架构
GLM-4.7-Flash 采用 MoE(Mixture of Experts)架构,总参数 30B,但每次推理只激活 3B 参数。这种设计在保持性能的同时大幅降低计算开销。
B. 性能基准测试
GLM-4.7-Flash 在多项基准测试中表现优异,对比同级别模型:
| 基准测试 | GLM-4.7-Flash | Qwen3-30B-A3B | GPT-OSS-20B |
|---|---|---|---|
| AIME 25 | 91.6 | 85.0 | 91.7 |
| GPQA | 75.2 | 73.4 | 71.5 |
| LCB v6 | 64.0 | 66.0 | 61.0 |
| HLE | 14.4 | 9.8 | 10.9 |
| SWE-bench Verified | 59.2 | 22.0 | 34.0 |
| τ²-Bench | 79.5 | 49.0 | 47.7 |
| BrowseComp | 42.8 | 2.29 | 28.3 |
C. 技术特性
- 工具调用支持:glm47 工具调用解析器
- 推理能力:glm45 推理解析器
- 投机采样:支持 MTP 和 EAGLE 算法
2. 技术细节
A. 模型架构
graph LR
A[输入] --> B[Token Embedding]
B --> C[GLM MoE 层]
C --> D[专家路由]
D --> E[3B 激活参数]
E --> F[输出层]
F --> G[生成结果]
style E fill:#90EE90
架构说明:
- MoE 架构:30B 总参数,每次只激活 3B
- 高效路由:智能选择最相关的专家子网络
- 轻量部署:3B 激活参数显著降低推理成本
B. 部署架构
graph TB
User[用户] --> API[Z.ai API / 本地服务]
API --> vLLM[vLLM 推理引擎]
API --> SGLang[SGLang 推理引擎]
API --> TF[Transformers 原生]
vLLM --> Model[GLM-4.7-Flash 模型]
SGLang --> Model
TF --> Model
Model --> Cache[KV Cache]
Model --> Output[响应生成]
C. 推理优化技术
投机采样(Speculative Decoding)
- vLLM 支持 MTP 方法
- SGLang 支持 EAGLE 算法
- 张量并行:支持多 GPU 推理
- 工具调用优化:glm47 专用解析器
- 推理增强:glm45 推理解析器
3. 数据与事实
A. 模型规格对比
| 特性 | GLM-4.7-Flash | GLM-4.5 |
|---|---|---|
| 总参数 | 30B | - |
| 激活参数 | 3B | - |
| 架构 | MoE | - |
| 推理支持 | vLLM, SGLang | - |
B. 部署要求
- GPU 内存:建议多 GPU 配置(TP=4)
- 框架版本:vLLM/SGLang 最新主分支
- Transformers:需要最新 main 分支
四、影响分析
1. 行业影响
A. 技术趋势
- MoE 架构成为轻量级高性能模型的主流选择
- 30B 级别模型在性能与成本间达到新平衡
- 开源大模型竞争日趋激烈
B. 竞争格局
- 对比 Qwen3-30B-A3B:多项基准测试领先
- 对比 GPT-OSS-20B:SWE-bench 等测试显著领先
- 30B 级别最强模型定位
2. 用户影响
A. 现有用户
- 可直接从 Hugging Face 下载使用
- 支持本地部署,数据隐私有保障
- MIT 许可证,商业使用友好
B. 潜在用户
- 开发者:易集成的推理框架支持
- 企业:轻量部署,成本可控
- 研究人员:开源模型便于研究
C. 迁移建议
- 从 GLM-4.5 升级:API 兼容性良好
- 从其他模型迁移:提供 Transformers 接口
- 部署环境:建议使用 vLLM 或 SGLang
3. 技术趋势
A. 技术方向
- MoE 架构优化:更高效的专家路由
- 投机采样:加速推理的重要技术
- 工具调用增强:模型 Agent 能力提升
B. 生态影响
- 开源模型质量持续提升
- 推理框架日趋成熟(vLLM、SGLang)
- 30B 级别成为新的黄金平衡点
五、部署指南
1. 环境准备
# vLLM 安装(必须使用 pypi.org)
pip install -U vllm --pre \
--index-url https://pypi.org/simple \
--extra-index-url https://wheels.vllm.ai/nightly
# 安装最新版 Transformers
pip install git+https://github.com/huggingface/transformers.git2. vLLM 部署
vllm serve zai-org/GLM-4.7-Flash \
--tensor-parallel-size 4 \
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 1 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.7-flash3. SGLang 部署
python3 -m sglang.launch_server \
--model-path zai-org/GLM-4.7-Flash \
--tp-size 4 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--mem-fraction-static 0.8 \
--served-model-name glm-4.7-flash \
--host 0.0.0.0 \
--port 80004. Transformers 调用
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
MODEL_PATH = "zai-org/GLM-4.7-Flash"
messages = [{"role": "user", "content": "hello"}]
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
inputs = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt",
)
model = AutoModelForCausalLM.from_pretrained(
pretrained_model_name_or_path=MODEL_PATH,
torch_dtype=torch.bfloat16,
device_map="auto",
)
inputs = inputs.to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=128)
output_text = tokenizer.decode(generated_ids[0][inputs.input_ids.shape[1]:])
print(output_text)六、各方反应
1. 官方回应
- Z.ai 提供 API 服务和技术博客
- Hugging Face 提供模型托管和在线体验
- GitHub 提供完整部署指南
2. 社区反馈
A. 关注点
- 开源许可证宽松(MIT)
- 部署灵活性高
- 性能表现优异
B. 应用场景
- 代码生成(SWE-bench 59.2%)
- 智能体应用(工具调用支持)
- 浏览辅助(BrowseComp 42.8%)
七、相关链接
1. 官方资源
- Hugging Face 模型页:https://huggingface.co/zai-org/GLM-4.7-Flash
- Z.ai API 文档:https://docs.z.ai/guides/llm/glm-4.7
- 在线体验:https://chat.z.ai
- 技术博客:https://z.ai/blog/glm-4.7
2. 技术文档
- GitHub 仓库:https://github.com/zai-org/GLM-4.5
- 技术报告(GLM-4.5):https://arxiv.org/abs/2508.06471
3. 社区
- Discord 社区:https://discord.gg/QR7SARHRxK