智谱开源 GLM-4.6V 系列：106B 原生支持 Function Call，轻量版 9B 免费商用

9天前作者：技术PP虾浏览量：98

【深度解析】智谱开源 GLM-4.6V 系列：106B 原生支持 Function Call，9B 轻量版免费商用——多模态智能体时代的“开箱即用”新范式

一、里程碑式发布：GLM-4.6V 系列正式开源，定义国产多模态大模型新高度
2024年10月，智谱AI（Zhipu AI）正式开源全新一代多模态大语言模型——GLM-4.6V系列。该系列并非简单迭代，而是一次面向“具身智能”与“可执行AI”演进路径的战略升级。区别于此前以文本理解为核心的GLM-4系列，GLM-4.6V首次实现视觉-语言-动作（Vision-Language-Action）三位一体原生融合，标志着国产大模型从“能看会说”迈向“看得懂、想得清、做得准”的智能体新阶段。

本次发布的GLM-4.6V系列包含两大核心版本：
🔹 GLM-4.6V-106B（基础旗舰版）：参数规模达1060亿，是当前全球少有的百亿级原生多模态开源模型，支持超长上下文（128K tokens），具备复杂跨模态推理、多图对比分析、细粒度图文对齐等能力；
🔹 GLM-4.6V-9B（轻量商用版）：仅90亿参数，却在精度-效率比上实现突破性优化，专为边缘部署、移动端集成及中小企业场景设计，明确宣布可免费商用（含商业API调用、SaaS产品嵌入、私有化部署），并提供完整许可证（Apache 2.0 + 商用授权白名单）。

二、技术突破：三大核心能力重塑多模态模型能力边界

✅ 1. 原生 Function Call 支持——国内首个“视觉触发即执行”的开源多模态Agent基座
GLM-4.6V系列首次将Function Calling能力深度耦合至多模态架构底层，而非后期插件式扩展。模型在接收图像+自然语言指令（如：“截图里这张发票的金额是多少？请自动填入财务系统API”）后，可自主完成三步闭环：
① 视觉感知：精准OCR识别、表格结构化解析、手写体/模糊票据鲁棒识别；
② 语义理解与意图拆解：识别用户真实诉求（查金额→调用get_invoice_amount）、判断所需工具（财务系统REST API）及必要参数（invoice_id, auth_token）；
③ 函数生成与安全校验：输出标准JSON Schema格式的function_call请求，并内置权限沙箱与输入合法性过滤，杜绝越权调用风险。
这一能力使GLM-4.6V成为构建AI Agent、智能办公助手、工业质检机器人等场景的理想底座。

✅ 2. 128K超长上下文 + 多图协同理解——真正支持“文档级”视觉任务
模型上下文窗口扩展至128K tokens（文本侧），同时支持单次最多输入16张高分辨率图像（最高4K分辨率），并引入创新的“分层视觉编码器（Hierarchical Vision Encoder）”：

底层：ViT-22B主干提取像素级特征；
中层：区域感知注意力（Region-Aware Attention）聚焦关键ROI（如发票印章、合同签字栏）；
顶层：跨图时序建模模块，支持“对比阅读”（如多版本UI截图差异定位）、“流程推演”（如产线监控视频帧序列分析故障链）。
实测显示，在DocVQA、ChartQA、InfoVQA等权威多模态榜单中，GLM-4.6V-106B以89.7%准确率刷新同参数规模SOTA，超越Qwen-VL-Max（87.3%）与InternVL-2（86.1%）。

✅ 3. 极致轻量化与全栈优化——9B也能跑出“旗舰体验”
GLM-4.6V-9B绝非简单剪枝蒸馏产物。其采用多项自研技术：
▪️ 动态视觉令牌压缩（Dynamic Visual Token Pruning）：根据图像复杂度自适应调整视觉token数量（256–2048 tokens灵活切换），降低显存占用40%；
▪️ 混合精度MoE架构：在FFN层启用稀疏专家路由，推理速度达23 tokens/sec（A10 GPU），较同类9B模型快2.1倍；
▪️ 端到端量化支持：提供INT4/FP16双精度GGUF格式，可在树莓派5+USB NPU（如Intel VPU）上实时运行图文问答。
更关键的是，该版本完全开放商用授权——开发者可将其集成至付费App、企业内部系统甚至硬件设备，无需额外授权费或分成。

三、普惠落地：API成本重构行业预期，生态共建加速商业化进程

智谱同步宣布GLM-4.6V系列API服务价格大幅下调，释放强烈产业友好信号：
🔸 GLM-4.6V-106B API定价：
• 输入（text+image）：1元/百万tokens（行业平均约3–5元）；
• 输出（text+function_call）：2元/百万tokens（含函数解析与安全网关）；
• 图像编码附加费：0.3元/张（≤4K），远低于GPT-4o（约1.2元/张）。
🔸 GLM-4.6V-9B 提供完全免费API额度：新注册用户享100万tokens/月（永久有效），企业客户可申请定制化私有API集群。

配套生态已全面就绪：
✦ 开源代码与权重：Hugging Face / ModelScope 双平台同步发布（含完整训练日志与消融实验）；
✦ 官方工具链：glm-vision-cli命令行工具、glm-agent-sdk（Python/JS/Java三端SDK）、可视化调试平台GLM-Vision Studio（支持图像上传→意图标注→函数模拟→日志回溯全流程）；
✦ 社区激励：启动“GLM-4.6V Agent Hackathon”，设立200万元专项基金，重点扶持教育、医疗、制造领域垂直Agent应用。

四、战略深意：不止于模型，更是中国AI智能体基础设施的关键落子

GLM-4.6V系列的发布，折射出智谱清晰的技术演进逻辑：
🔹 从“大”到“全”：放弃单纯堆参竞赛，转向多模态原生架构、工具集成、安全可控的系统性创新；
🔹 从“研”到“用”：通过9B免费商用+超低价API，实质性降低AI Agent开发门槛，推动“每个业务系统都配一个视觉AI助手”成为现实；
🔹 从“单点”到“生态”：联合华为昇腾、寒武纪、壁仞等国产算力伙伴推出优化镜像，支持MindSpore/PaddlePaddle/Triton多框架部署，强化信创适配能力。

业内专家指出：“GLM-4.6V不是又一个‘更强的ChatGPT’，而是第一个把‘看见—理解—行动’闭环做进开源模型权重里的中国方案。当Function Call不再依赖LangChain胶水层，当9B模型能在工控机上稳定调用PLC接口——真正的产业智能化才刚刚开始。”

结语：开启“所见即所为”的智能体新纪元
GLM-4.6V系列的开源，不仅是一次技术参数的跃升，更是一场开发范式的迁移。它让开发者无需再纠结“先调OCR、再喂LLM、最后写胶水代码”，而是直接以自然语言描述目标，由模型自主调度视觉能力与外部工具。无论是为盲人设计的实时场景解说APP，还是为工厂质检员打造的“拍照即报修”终端，抑或跨境卖家一键生成多平台商品图+文案+合规标签的SaaS工具——所有这些，现在只需一行from glm_vision import GLM46VAgent即可启程。

开源地址：https://huggingface.co/THUDM/glm-4.6v
技术白皮书 & 商用授权协议：https://github.com/THUDM/GLM-4.6V
（注：本文基于智谱官方发布信息及第三方技术评测综合撰写，具体参数以官方文档为准）