Loading... # GLM-4.7-Flash 模型发布技术分析 # 一、新闻概述 ## 1. 标题 GLM-4.7-Flash:30B 级最强 MoE 模型正式发布 ## 2. 发布时间 2025 年 1 月(根据文档更新时间) ## 3. 来源 Z.ai / Hugging Face # 二、核心内容 ## 1. 事件摘要 ### A. 主要内容 Z.ai 正式发布 GLM-4.7-Flash 模型,这是一款 30B-A3B MoE(混合专家)架构的轻量级高性能模型。 ### B. 核心亮点 - 30B 总参数量,3B 激活参数量(A3B) - 30B 级别最强性能模型 - 支持多种推理框架:vLLM、SGLang、Transformers - MIT 开源许可证 - 支持中英文双语 ## 2. 关键信息 ### A. 模型规格 - 总参数量:31B - 激活参数量:3B(A3B - Active 3 Billion) - 张量类型:BF16、F32 - 模型架构:GLM4 MoE(glm4_moe_lite) ### B. 技术特性 - 支持工具调用(tool-call-parser: glm47) - 支持推理模式(reasoning-parser: glm45) - 支持投机采样(Speculative Decoding) - Chat template 对话模板 ### C. 部署选项 - 本地部署:vLLM、SGLang - API 服务:Z.ai API Platform - 在线体验:chat.z.ai ## 3. 背景介绍 ### A. 相关版本 - GLM-4.5:基础版本,技术报告已发布(arXiv:2508.06471) - GLM-4.7 系列:包含多个变体模型 ### B. 相关上下文 GLM-4.7-Flash 是 GLM-4.7 系列的轻量级版本,专注于性能与效率的平衡。 # 三、详细报道 ## 1. 主要内容 ### A. 模型架构 GLM-4.7-Flash 采用 MoE(Mixture of Experts)架构,总参数 30B,但每次推理只激活 3B 参数。这种设计在保持性能的同时大幅降低计算开销。 ### B. 性能基准测试 GLM-4.7-Flash 在多项基准测试中表现优异,对比同级别模型: | 基准测试 | GLM-4.7-Flash | Qwen3-30B-A3B | GPT-OSS-20B | |---------|--------------|--------------|-------------| | AIME 25 | 91.6 | 85.0 | 91.7 | | GPQA | 75.2 | 73.4 | 71.5 | | LCB v6 | 64.0 | 66.0 | 61.0 | | HLE | 14.4 | 9.8 | 10.9 | | SWE-bench Verified | 59.2 | 22.0 | 34.0 | | τ²-Bench | 79.5 | 49.0 | 47.7 | | BrowseComp | 42.8 | 2.29 | 28.3 | ### C. 技术特性 1. 工具调用支持:glm47 工具调用解析器 2. 推理能力:glm45 推理解析器 3. 投机采样:支持 MTP 和 EAGLE 算法 ## 2. 技术细节 ### A. 模型架构 ```mermaid graph LR A[输入] --> B[Token Embedding] B --> C[GLM MoE 层] C --> D[专家路由] D --> E[3B 激活参数] E --> F[输出层] F --> G[生成结果] style E fill:#90EE90 ```  **架构说明**: - MoE 架构:30B 总参数,每次只激活 3B - 高效路由:智能选择最相关的专家子网络 - 轻量部署:3B 激活参数显著降低推理成本 ### B. 部署架构 ```mermaid graph TB User[用户] --> API[Z.ai API / 本地服务] API --> vLLM[vLLM 推理引擎] API --> SGLang[SGLang 推理引擎] API --> TF[Transformers 原生] vLLM --> Model[GLM-4.7-Flash 模型] SGLang --> Model TF --> Model Model --> Cache[KV Cache] Model --> Output[响应生成] ```  ### C. 推理优化技术 1. 投机采样(Speculative Decoding) - vLLM 支持 MTP 方法 - SGLang 支持 EAGLE 算法 2. 张量并行:支持多 GPU 推理 3. 工具调用优化:glm47 专用解析器 4. 推理增强:glm45 推理解析器 ## 3. 数据与事实 ### A. 模型规格对比 | 特性 | GLM-4.7-Flash | GLM-4.5 | |------|--------------|---------| | 总参数 | 30B | - | | 激活参数 | 3B | - | | 架构 | MoE | - | | 推理支持 | vLLM, SGLang | - | ### B. 部署要求 - GPU 内存:建议多 GPU 配置(TP=4) - 框架版本:vLLM/SGLang 最新主分支 - Transformers:需要最新 main 分支 # 四、影响分析 ## 1. 行业影响 ### A. 技术趋势 - MoE 架构成为轻量级高性能模型的主流选择 - 30B 级别模型在性能与成本间达到新平衡 - 开源大模型竞争日趋激烈 ### B. 竞争格局 - 对比 Qwen3-30B-A3B:多项基准测试领先 - 对比 GPT-OSS-20B:SWE-bench 等测试显著领先 - 30B 级别最强模型定位 ## 2. 用户影响 ### A. 现有用户 - 可直接从 Hugging Face 下载使用 - 支持本地部署,数据隐私有保障 - MIT 许可证,商业使用友好 ### B. 潜在用户 - 开发者:易集成的推理框架支持 - 企业:轻量部署,成本可控 - 研究人员:开源模型便于研究 ### C. 迁移建议 - 从 GLM-4.5 升级:API 兼容性良好 - 从其他模型迁移:提供 Transformers 接口 - 部署环境:建议使用 vLLM 或 SGLang ## 3. 技术趋势 ### A. 技术方向 - MoE 架构优化:更高效的专家路由 - 投机采样:加速推理的重要技术 - 工具调用增强:模型 Agent 能力提升 ### B. 生态影响 - 开源模型质量持续提升 - 推理框架日趋成熟(vLLM、SGLang) - 30B 级别成为新的黄金平衡点 # 五、部署指南 ## 1. 环境准备 ```bash # vLLM 安装(必须使用 pypi.org) pip install -U vllm --pre \ --index-url https://pypi.org/simple \ --extra-index-url https://wheels.vllm.ai/nightly # 安装最新版 Transformers pip install git+https://github.com/huggingface/transformers.git ``` ## 2. vLLM 部署 ```bash vllm serve zai-org/GLM-4.7-Flash \ --tensor-parallel-size 4 \ --speculative-config.method mtp \ --speculative-config.num_speculative_tokens 1 \ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --enable-auto-tool-choice \ --served-model-name glm-4.7-flash ``` ## 3. SGLang 部署 ```bash python3 -m sglang.launch_server \ --model-path zai-org/GLM-4.7-Flash \ --tp-size 4 \ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --mem-fraction-static 0.8 \ --served-model-name glm-4.7-flash \ --host 0.0.0.0 \ --port 8000 ``` ## 4. Transformers 调用 ```python import torch from transformers import AutoModelForCausalLM, AutoTokenizer MODEL_PATH = "zai-org/GLM-4.7-Flash" messages = [{"role": "user", "content": "hello"}] tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH) inputs = tokenizer.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors="pt", ) model = AutoModelForCausalLM.from_pretrained( pretrained_model_name_or_path=MODEL_PATH, torch_dtype=torch.bfloat16, device_map="auto", ) inputs = inputs.to(model.device) generated_ids = model.generate(**inputs, max_new_tokens=128) output_text = tokenizer.decode(generated_ids[0][inputs.input_ids.shape[1]:]) print(output_text) ``` # 六、各方反应 ## 1. 官方回应 - Z.ai 提供 API 服务和技术博客 - Hugging Face 提供模型托管和在线体验 - GitHub 提供完整部署指南 ## 2. 社区反馈 ### A. 关注点 - 开源许可证宽松(MIT) - 部署灵活性高 - 性能表现优异 ### B. 应用场景 - 代码生成(SWE-bench 59.2%) - 智能体应用(工具调用支持) - 浏览辅助(BrowseComp 42.8%) # 七、相关链接 ## 1. 官方资源 - Hugging Face 模型页:https://huggingface.co/zai-org/GLM-4.7-Flash - Z.ai API 文档:https://docs.z.ai/guides/llm/glm-4.7 - 在线体验:https://chat.z.ai - 技术博客:https://z.ai/blog/glm-4.7 ## 2. 技术文档 - GitHub 仓库:https://github.com/zai-org/GLM-4.5 - 技术报告(GLM-4.5):https://arxiv.org/abs/2508.06471 ## 3. 社区 - Discord 社区:https://discord.gg/QR7SARHRxK *** ## 参考资料 1. [GLM-4.7-Flash - Hugging Face](https://huggingface.co/zai-org/GLM-4.7-Flash) 2. [GLM-4.7 Technical Blog - Z.ai](https://z.ai/blog/glm-4.7) 3. [GLM-4.5 Technical Report - arXiv](https://arxiv.org/abs/2508.06471) 最后修改:2026 年 01 月 20 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏