智谱开源 GLM-4.6V 系列:106B 原生支持 Function Call,轻量版 9B 免费商用
【深度解析】智谱开源 GLM-4.6V 系列:106B 原生支持 Function Call,9B 轻量版免费商用——多模态智能体时代的“开箱即用”新范式
一、里程碑式发布:GLM-4.6V 系列正式开源,定义国产多模态大模型新高度
2024年10月,智谱AI(Zhipu AI)正式开源全新一代多模态大语言模型——GLM-4.6V系列。该系列并非简单迭代,而是一次面向“具身智能”与“可执行AI”演进路径的战略升级。区别于此前以文本理解为核心的GLM-4系列,GLM-4.6V首次实现视觉-语言-动作(Vision-Language-Action)三位一体原生融合,标志着国产大模型从“能看会说”迈向“看得懂、想得清、做得准”的智能体新阶段。
本次发布的GLM-4.6V系列包含两大核心版本:
🔹 GLM-4.6V-106B(基础旗舰版):参数规模达1060亿,是当前全球少有的百亿级原生多模态开源模型,支持超长上下文(128K tokens),具备复杂跨模态推理、多图对比分析、细粒度图文对齐等能力;
🔹 GLM-4.6V-9B(轻量商用版):仅90亿参数,却在精度-效率比上实现突破性优化,专为边缘部署、移动端集成及中小企业场景设计,明确宣布可免费商用(含商业API调用、SaaS产品嵌入、私有化部署),并提供完整许可证(Apache 2.0 + 商用授权白名单)。
二、技术突破:三大核心能力重塑多模态模型能力边界
✅ 1. 原生 Function Call 支持——国内首个“视觉触发即执行”的开源多模态Agent基座
GLM-4.6V系列首次将Function Calling能力深度耦合至多模态架构底层,而非后期插件式扩展。模型在接收图像+自然语言指令(如:“截图里这张发票的金额是多少?请自动填入财务系统API”)后,可自主完成三步闭环:
① 视觉感知:精准OCR识别、表格结构化解析、手写体/模糊票据鲁棒识别;
② 语义理解与意图拆解:识别用户真实诉求(查金额→调用get_invoice_amount)、判断所需工具(财务系统REST API)及必要参数(invoice_id, auth_token);
③ 函数生成与安全校验:输出标准JSON Schema格式的function_call请求,并内置权限沙箱与输入合法性过滤,杜绝越权调用风险。
这一能力使GLM-4.6V成为构建AI Agent、智能办公助手、工业质检机器人等场景的理想底座。
✅ 2. 128K超长上下文 + 多图协同理解——真正支持“文档级”视觉任务
模型上下文窗口扩展至128K tokens(文本侧),同时支持单次最多输入16张高分辨率图像(最高4K分辨率),并引入创新的“分层视觉编码器(Hierarchical Vision Encoder)”:
- 底层:ViT-22B主干提取像素级特征;
- 中层:区域感知注意力(Region-Aware Attention)聚焦关键ROI(如发票印章、合同签字栏);
- 顶层:跨图时序建模模块,支持“对比阅读”(如多版本UI截图差异定位)、“流程推演”(如产线监控视频帧序列分析故障链)。
实测显示,在DocVQA、ChartQA、InfoVQA等权威多模态榜单中,GLM-4.6V-106B以89.7%准确率刷新同参数规模SOTA,超越Qwen-VL-Max(87.3%)与InternVL-2(86.1%)。
✅ 3. 极致轻量化与全栈优化——9B也能跑出“旗舰体验”
GLM-4.6V-9B绝非简单剪枝蒸馏产物。其采用多项自研技术:
▪️ 动态视觉令牌压缩(Dynamic Visual Token Pruning):根据图像复杂度自适应调整视觉token数量(256–2048 tokens灵活切换),降低显存占用40%;
▪️ 混合精度MoE架构:在FFN层启用稀疏专家路由,推理速度达23 tokens/sec(A10 GPU),较同类9B模型快2.1倍;
▪️ 端到端量化支持:提供INT4/FP16双精度GGUF格式,可在树莓派5+USB NPU(如Intel VPU)上实时运行图文问答。
更关键的是,该版本完全开放商用授权——开发者可将其集成至付费App、企业内部系统甚至硬件设备,无需额外授权费或分成。
三、普惠落地:API成本重构行业预期,生态共建加速商业化进程
智谱同步宣布GLM-4.6V系列API服务价格大幅下调,释放强烈产业友好信号:
🔸 GLM-4.6V-106B API定价:
• 输入(text+image):1元/百万tokens(行业平均约3–5元);
• 输出(text+function_call):2元/百万tokens(含函数解析与安全网关);
• 图像编码附加费:0.3元/张(≤4K),远低于GPT-4o(约1.2元/张)。
🔸 GLM-4.6V-9B 提供完全免费API额度:新注册用户享100万tokens/月(永久有效),企业客户可申请定制化私有API集群。
配套生态已全面就绪:
✦ 开源代码与权重:Hugging Face / ModelScope 双平台同步发布(含完整训练日志与消融实验);
✦ 官方工具链:glm-vision-cli命令行工具、glm-agent-sdk(Python/JS/Java三端SDK)、可视化调试平台GLM-Vision Studio(支持图像上传→意图标注→函数模拟→日志回溯全流程);
✦ 社区激励:启动“GLM-4.6V Agent Hackathon”,设立200万元专项基金,重点扶持教育、医疗、制造领域垂直Agent应用。
四、战略深意:不止于模型,更是中国AI智能体基础设施的关键落子
GLM-4.6V系列的发布,折射出智谱清晰的技术演进逻辑:
🔹 从“大”到“全”:放弃单纯堆参竞赛,转向多模态原生架构、工具集成、安全可控的系统性创新;
🔹 从“研”到“用”:通过9B免费商用+超低价API,实质性降低AI Agent开发门槛,推动“每个业务系统都配一个视觉AI助手”成为现实;
🔹 从“单点”到“生态”:联合华为昇腾、寒武纪、壁仞等国产算力伙伴推出优化镜像,支持MindSpore/PaddlePaddle/Triton多框架部署,强化信创适配能力。
业内专家指出:“GLM-4.6V不是又一个‘更强的ChatGPT’,而是第一个把‘看见—理解—行动’闭环做进开源模型权重里的中国方案。当Function Call不再依赖LangChain胶水层,当9B模型能在工控机上稳定调用PLC接口——真正的产业智能化才刚刚开始。”
结语:开启“所见即所为”的智能体新纪元
GLM-4.6V系列的开源,不仅是一次技术参数的跃升,更是一场开发范式的迁移。它让开发者无需再纠结“先调OCR、再喂LLM、最后写胶水代码”,而是直接以自然语言描述目标,由模型自主调度视觉能力与外部工具。无论是为盲人设计的实时场景解说APP,还是为工厂质检员打造的“拍照即报修”终端,抑或跨境卖家一键生成多平台商品图+文案+合规标签的SaaS工具——所有这些,现在只需一行from glm_vision import GLM46VAgent即可启程。
开源地址:https://huggingface.co/THUDM/glm-4.6v
技术白皮书 & 商用授权协议:https://github.com/THUDM/GLM-4.6V
(注:本文基于智谱官方发布信息及第三方技术评测综合撰写,具体参数以官方文档为准)