GLM-4.7-Flash 模型发布技术分析

一、新闻概述

1. 标题

GLM-4.7-Flash:30B 级最强 MoE 模型正式发布

2. 发布时间

2025 年 1 月(根据文档更新时间)

3. 来源

Z.ai / Hugging Face

二、核心内容

1. 事件摘要

A. 主要内容

Z.ai 正式发布 GLM-4.7-Flash 模型,这是一款 30B-A3B MoE(混合专家)架构的轻量级高性能模型。

B. 核心亮点

  • 30B 总参数量,3B 激活参数量(A3B)
  • 30B 级别最强性能模型
  • 支持多种推理框架:vLLM、SGLang、Transformers
  • MIT 开源许可证
  • 支持中英文双语

2. 关键信息

A. 模型规格

  • 总参数量:31B
  • 激活参数量:3B(A3B - Active 3 Billion)
  • 张量类型:BF16、F32
  • 模型架构:GLM4 MoE(glm4_moe_lite)

B. 技术特性

  • 支持工具调用(tool-call-parser: glm47)
  • 支持推理模式(reasoning-parser: glm45)
  • 支持投机采样(Speculative Decoding)
  • Chat template 对话模板

C. 部署选项

  • 本地部署:vLLM、SGLang
  • API 服务:Z.ai API Platform
  • 在线体验:chat.z.ai

3. 背景介绍

A. 相关版本

  • GLM-4.5:基础版本,技术报告已发布(arXiv:2508.06471)
  • GLM-4.7 系列:包含多个变体模型

B. 相关上下文

GLM-4.7-Flash 是 GLM-4.7 系列的轻量级版本,专注于性能与效率的平衡。

三、详细报道

1. 主要内容

A. 模型架构

GLM-4.7-Flash 采用 MoE(Mixture of Experts)架构,总参数 30B,但每次推理只激活 3B 参数。这种设计在保持性能的同时大幅降低计算开销。

B. 性能基准测试

GLM-4.7-Flash 在多项基准测试中表现优异,对比同级别模型:

基准测试GLM-4.7-FlashQwen3-30B-A3BGPT-OSS-20B
AIME 2591.685.091.7
GPQA75.273.471.5
LCB v664.066.061.0
HLE14.49.810.9
SWE-bench Verified59.222.034.0
τ²-Bench79.549.047.7
BrowseComp42.82.2928.3

C. 技术特性

  1. 工具调用支持:glm47 工具调用解析器
  2. 推理能力:glm45 推理解析器
  3. 投机采样:支持 MTP 和 EAGLE 算法

2. 技术细节

A. 模型架构

graph LR
    A[输入] --> B[Token Embedding]
    B --> C[GLM MoE 层]
    C --> D[专家路由]
    D --> E[3B 激活参数]
    E --> F[输出层]
    F --> G[生成结果]

    style E fill:#90EE90

GLM-4.7-Flash 架构

架构说明

  • MoE 架构:30B 总参数,每次只激活 3B
  • 高效路由:智能选择最相关的专家子网络
  • 轻量部署:3B 激活参数显著降低推理成本

B. 部署架构

graph TB
    User[用户] --> API[Z.ai API / 本地服务]
    API --> vLLM[vLLM 推理引擎]
    API --> SGLang[SGLang 推理引擎]
    API --> TF[Transformers 原生]
    vLLM --> Model[GLM-4.7-Flash 模型]
    SGLang --> Model
    TF --> Model
    Model --> Cache[KV Cache]
    Model --> Output[响应生成]

部署架构

C. 推理优化技术

  1. 投机采样(Speculative Decoding)

    • vLLM 支持 MTP 方法
    • SGLang 支持 EAGLE 算法
  2. 张量并行:支持多 GPU 推理
  3. 工具调用优化:glm47 专用解析器
  4. 推理增强:glm45 推理解析器

3. 数据与事实

A. 模型规格对比

特性GLM-4.7-FlashGLM-4.5
总参数30B-
激活参数3B-
架构MoE-
推理支持vLLM, SGLang-

B. 部署要求

  • GPU 内存:建议多 GPU 配置(TP=4)
  • 框架版本:vLLM/SGLang 最新主分支
  • Transformers:需要最新 main 分支

四、影响分析

1. 行业影响

A. 技术趋势

  • MoE 架构成为轻量级高性能模型的主流选择
  • 30B 级别模型在性能与成本间达到新平衡
  • 开源大模型竞争日趋激烈

B. 竞争格局

  • 对比 Qwen3-30B-A3B:多项基准测试领先
  • 对比 GPT-OSS-20B:SWE-bench 等测试显著领先
  • 30B 级别最强模型定位

2. 用户影响

A. 现有用户

  • 可直接从 Hugging Face 下载使用
  • 支持本地部署,数据隐私有保障
  • MIT 许可证,商业使用友好

B. 潜在用户

  • 开发者:易集成的推理框架支持
  • 企业:轻量部署,成本可控
  • 研究人员:开源模型便于研究

C. 迁移建议

  • 从 GLM-4.5 升级:API 兼容性良好
  • 从其他模型迁移:提供 Transformers 接口
  • 部署环境:建议使用 vLLM 或 SGLang

3. 技术趋势

A. 技术方向

  • MoE 架构优化:更高效的专家路由
  • 投机采样:加速推理的重要技术
  • 工具调用增强:模型 Agent 能力提升

B. 生态影响

  • 开源模型质量持续提升
  • 推理框架日趋成熟(vLLM、SGLang)
  • 30B 级别成为新的黄金平衡点

五、部署指南

1. 环境准备

# vLLM 安装(必须使用 pypi.org)
pip install -U vllm --pre \
  --index-url https://pypi.org/simple \
  --extra-index-url https://wheels.vllm.ai/nightly

# 安装最新版 Transformers
pip install git+https://github.com/huggingface/transformers.git

2. vLLM 部署

vllm serve zai-org/GLM-4.7-Flash \
  --tensor-parallel-size 4 \
  --speculative-config.method mtp \
  --speculative-config.num_speculative_tokens 1 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --enable-auto-tool-choice \
  --served-model-name glm-4.7-flash

3. SGLang 部署

python3 -m sglang.launch_server \
  --model-path zai-org/GLM-4.7-Flash \
  --tp-size 4 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mem-fraction-static 0.8 \
  --served-model-name glm-4.7-flash \
  --host 0.0.0.0 \
  --port 8000

4. Transformers 调用

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_PATH = "zai-org/GLM-4.7-Flash"

messages = [{"role": "user", "content": "hello"}]

tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt",
)

model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

inputs = inputs.to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=128)
output_text = tokenizer.decode(generated_ids[0][inputs.input_ids.shape[1]:])
print(output_text)

六、各方反应

1. 官方回应

  • Z.ai 提供 API 服务和技术博客
  • Hugging Face 提供模型托管和在线体验
  • GitHub 提供完整部署指南

2. 社区反馈

A. 关注点

  • 开源许可证宽松(MIT)
  • 部署灵活性高
  • 性能表现优异

B. 应用场景

  • 代码生成(SWE-bench 59.2%)
  • 智能体应用(工具调用支持)
  • 浏览辅助(BrowseComp 42.8%)

七、相关链接

1. 官方资源

2. 技术文档

3. 社区


参考资料

  1. GLM-4.7-Flash - Hugging Face
  2. GLM-4.7 Technical Blog - Z.ai
  3. GLM-4.5 Technical Report - arXiv
最后修改:2026 年 01 月 20 日
如果觉得我的文章对你有用,请随意赞赏