腾讯发布 HY-Embodied-0.5具身模型，22项评测16项最佳刷新行业纪录

8天前作者：技术PP虾浏览量：26

这是一篇为您精心撰写的关于腾讯发布HY-Embodied-.5具身模型的文章，内容丰富，结构清晰，全面解读了该技术的突破与行业意义：

腾讯发布 HY-Embodied-.5 具身模型：22项评测16项夺冠，重塑机器人“大脑”

在人工智能从“数字世界”加速向“物理世界”迈进的今天，具身智能无疑是最受瞩目的前沿阵地。近日，腾讯正式重磅发布了专为机器人打造的HY-Embodied-.5具身基础模型。该模型一经亮相便震动业界——在权威的22项核心能力评测中，HY-Embodied-.5狂揽16项最佳（SOTA），强势刷新了行业纪录。

这标志着大模型技术正在突破屏幕的限制，真正赋予机器人在三维物理世界中感知、思考和行动的能力。

直击行业痛点：打破“看得懂”却“做不好”的魔咒

近年来，通用视觉语言模型（VLM）和大型语言模型（LLM）取得了飞跃式的发展，它们在图文理解、代码编写等方面展现出惊人的能力。然而，当这些模型被直接嫁接到机器人身上时，却暴露出了致命的弱点：缺乏三维空间感知能力，且对物理规律缺乏理解。

简单来说，传统的模型能够精准地描述桌子上有一个什么形状的苹果，甚至能写出一关于苹果的优美文章，但它们却无法计算机器人机械臂抓取这个苹果所需的轨迹、角度和力度。这种“谈兵”的局限，成为了大模型向机器人控制领域延伸的巨大鸿沟。

腾讯HY-Embodied-.5的研发，正是为了彻底解决这一痛点。它不再是一个单纯的“观察者”，而是被塑造成了一个深谙物理法则的“行动派”。

底层重构：从架构到训练的全面革新

据了解，腾讯此次发布的具身模型并非在现有大模型基础上的简单微调，而是从到训练范式进行了全面重构。

架构升级，融合物理感知：让模型更好地理解三维空间，HY-Embodied-.5引入了先进的3D视觉与多模态融合架构。它能够实时处理来自摄像头的视频流、深度信息以及机器人的本体感觉（如关节角度、力度反馈），将二维的图像信息转化为对三维物理空间的精准建模。
专有训练数据集： 机器人无法像人类一样试错，因此高质量的训练数据至关重要。腾讯团队在训练阶段注入了海量的物理交互数据，包括仿真环境中的操作轨迹、真实的机械臂抓取记录等，让模型在“虚拟大脑”中预先掌握了推、拉、抓、握等物理交互的本质逻辑。

主力模型齐发：MoT-2B 赋能边缘计算

除了旗舰级的HY-Embodied-.，腾讯此次还同步发布了MoT-2B等系列主力模型，展现了其在具身智能领域完整的生态布局。

MoT-2B（参数量级为20亿）是一款专为高实时性任务和边缘计算场景设计的轻量化模型。在实际的工业制造、家庭服务等场景中，机器人往往无法完全依赖云端计算，需要本地部署以保证极低的延迟。MoT-2在保持极高精度的同时，大幅降低了算力消耗，使得机器人能够在算力有限的硬件上，依然能够实现敏捷、的物理交互操作。

16项最佳：用硬核实力刷新行业纪录

衡量具身模型优劣的唯一标准就是其在复杂任务中的表现。在涵盖视觉定位、物体操纵、多步推理、长尾场景处理等维度的22项国际权威评测中，HY-odied-.5展现出了统治级的表现：

在16项评测中夺得冠军（SOTA）： 无论是在复杂的“开抽屉取物”、“折叠衣物”等精细操作，还是在“避开障碍物导航”、“多物体堆叠”等需要复杂物理逻辑的任务中，它都超越了国内外众多顶尖实验室和科技巨头的同类模型。
泛化能力大幅提升： 面对从未见过的物体、光线变化或是背景干扰该模型依然能保持极高的任务成功率。这意味着它不再局限于实验室的“温室”，而是真正具备了走向千行百业的潜力。

行业影响：加速通用机器人时代到来

腾讯HY-Embodied-.5的发布，不仅是腾讯AI战略落地的里程碑，更是整个具身智能产业的强心剂。

过去，机器人往往只能依靠人类硬编码的指令进行机械重复的工作；而HY-Embodied-.5将大模型的“泛化理解力”与机器人的“物理执行力”完美打通。从长远来看，这一技术突破将极大地推动智能制造、智慧物流、家庭陪护等领域的变革。未来的机器人将不再是冷冰冰的机器，而是能够听懂人类语言、看懂复杂环境，并自主规划动作的“智能伙伴”。

随着腾讯等头部科技企业的持续投入，具身大模型迎来爆发期。HY-Embodied-.5在22项评测中拿下16项最佳，只是中国AI技术领跑全球的一个缩影，一个属于“具身智能”的黄金时代，正加速到来。