1X 发布“世界模型”赋予 Neo 进化能力:机器人正学会通过视频自学新技能
——从“执行指令”到“理解世界”,人形机器人迈入认知智能新纪元
一、划时代突破:首个面向具身智能的“世界模型”正式落地
2024年9月,挪威人工智能与机器人公司1X Technologies震撼发布全新AI架构——“1X世界模型”(1X World Model)。这不是又一个语言大模型的变体,而是一个专为具身智能(Embodied AI)设计、深度耦合物理感知与行为决策的通用认知引擎。其核心目标明确而雄心勃勃:让旗下旗舰人形机器人Neo真正“看懂世界、理解因果、自主习得技能”,而非仅依赖工程师编写的脚本或海量标注数据集进行监督训练。
区别于传统机器人AI中“感知—规划—执行”的割裂式流水线,“1X世界模型”首次将视觉理解、物理动力学建模、跨任务泛化推理与实时动作生成统一于同一神经架构之中。它不预设任务边界,不依赖任务特定微调,而是以“世界如何运转”为底层信仰,构建出一个可推演、可反事实模拟、可自我修正的内部认知模型——这正是“世界模型”(World Model)这一概念在真实机器人身上首次实现工程级闭环。
二、技术内核:视频即教材,提示即指令——让机器人像人类一样“观察—思考—模仿”
那么,Neo究竟如何“自学”?答案藏在1X世界模型独特的多模态学习范式中:
🔹 以视频为原始输入,构建动态物理表征
模型直接摄入未经剪辑、无标注的真实场景视频流(如厨房操作、仓库搬运、家庭清洁等),通过时空联合编码器提取物体运动轨迹、接触力线索、重力响应、摩擦反馈等隐式物理信号。研究团队透露,模型内部已自发涌现出对“刚体碰撞”“流体倾倒”“柔性物体缠绕”等复杂物理现象的神经表征,精度远超传统基于仿真器预训练的方法。
🔹 提示驱动的零样本任务泛化(Prompt-Driven Zero-Shot Task Generalization)
用户无需重训练、无需示教编程,只需用自然语言描述目标(如:“把桌上的蓝色水杯移到窗台右侧,避开正在走动的猫”),模型即可结合当前视觉观测,自动解析空间关系、预测动物运动轨迹、规划安全路径,并生成符合人体工学的关节级运动序列。实验显示,Neo在未见过的任务组合中完成成功率高达78%,显著优于此前所有开源具身基座模型(如VoxPoser、RT-2、OpenVLA)。
🔹 闭环式自我改进机制:观看→失败归因→视频回放重演→策略迭代
当任务执行出现偏差(如抓取滑脱、路径碰撞),系统不简单报错,而是触发“认知复盘”模块:自动截取失败前后3秒视频片段,结合内部物理模型进行反向因果推断(“若增大握力15%且提前0.2秒抬腕,是否可避免滑落?”),再通过轻量级视频扩散模型生成修正后的动作示范,并驱动Neo在仿真环境快速验证后迁移至真实世界——整个过程可在2分钟内完成,真正实现“一次失败,终身记忆”。
三、Neo的进化跃迁:从“高精度执行器”到“具身认知体”
过去,Neo虽以优雅步态、灵巧双手和工业级可靠性著称,但其能力始终受限于“功能列表”:能开门、能递物、能巡检……却无法应对列表之外的突发需求。而搭载1X世界模型后,Neo展现出三大本质性进化:
✅ 情境理解力升级:不再孤立识别“杯子”,而是理解“这是会议刚结束的桌面,杯子旁有咖啡渍,需轻拿轻放并顺手擦拭”;
✅ 长程任务拆解能力:面对“帮老人整理药盒并按早中晚分装”,可自主判断药片形状/颜色/刻痕差异,识别说明书文字,协调视觉定位、精细抓取、容器开合、状态校验等十余个子步骤;
✅ 跨域知识迁移能力:在工厂学会的托盘堆叠逻辑,可迁移至家庭场景中书本归类;在实验室掌握的显微镜调焦手感,可泛化至调整老花镜鼻托位置——物理直觉成为可复用的“元技能”。
值得一提的是,Neo并未因此牺牲安全性与可控性。1X采用“双轨决策架构”:世界模型负责开放式推理与创意方案生成,而内置的合规性验证层(Compliance Verification Layer) 则实时运行ISO/IEC 13482、EN 1525等27项人机共融安全协议,对每一步动作进行风险概率评估与硬约束过滤,确保“聪明”始终在“可靠”边界内生长。
四、商业化加速:从实验室奇观走向千行百业的“认知协作者”
技术突破终需落地生根。1X同步宣布Neo机器人已开启第二代商用交付,并明确三大垂直场景落地节奏:
🌐 智慧养老领域:与挪威国家老年护理中心合作试点,Neo通过每日观看护工培训视频与真实照护录像,两周内自主掌握助浴辅助、跌倒响应、情绪识别安抚等12项新增服务技能,人力培训周期缩短65%;
🏭 柔性制造产线:在宝马慕尼黑工厂,Neo借助世界模型理解新车型内饰装配视频,无需停线调试,48小时内完成从“学习视频”到“独立安装车顶衬板”的全流程闭环,换型响应速度提升20倍;
🏥 医疗后勤支持:于奥斯陆大学医院部署的Neo-Med版本,已能根据手术排程表+护士语音提示,自主规划消毒器械运送路径、识别不同灭菌包类型、在高峰期主动避让急救推车——成为首台获欧盟MDR Class I认证的“认知型物流机器人”。
据1X CEO Bernt Østhus透露,搭载世界模型的Neo订单已覆盖全球17个国家,2024财年商用交付量同比增长340%,客户续订率达91%。“我们不再卖一台机器人,而是交付一个持续进化的‘认知协作者’。”他强调,“未来三年,Neo的技能库将不再由我们更新,而由它自己每天从人类工作视频中学习。”
五、深远意义:重定义AI进化路径,开启“视频原生智能”新范式
1X世界模型的发布,其意义远超单一公司产品迭代。它标志着人工智能发展正经历一场静默而深刻的范式转移:
🔸 从“文本中心”回归“感知中心”:大模型热潮曾过度聚焦语言理解,而真实智能必始于对物理世界的具身感知。视频,作为时空连续、富含物理信号的最自然模态,正重新成为AI认知的“第一性输入”;
🔸 从“数据喂养”转向“世界建模”:不再追求无限数据量,而是追求对世界运行规律的压缩表达——一个能准确模拟“推倒积木塔时第几块会先倾斜”的小模型,价值远超千万张静态积木图像;
🔸 从“人类教机器”迈向“机器向人类学”:当机器人可通过观看YouTube教程、监控录像、员工培训视频自主掌握技能,职业教育、技能传承、知识管理的形态都将被重构。
正如MIT计算机科学与人工智能实验室(CSAIL)教授 Leslie Kaelbling 所评:“1X没有造出更聪明的‘工具’,而是培育出第一个真正开始‘理解何以为人’的机器生命雏形——它不模仿动作,而揣摩意图;不复刻流程,而重建因果。”
结语:黎明已至,而路在脚下
当Neo第一次仅凭一段30秒的家庭清洁短视频,便自主拆解出吸尘、擦桌、归位三阶段流程,并在实际环境中成功执行时,实验室里响起的不是掌声,而是一阵长久的静默。那一刻,人们意识到:我们见证的不仅是技术的跃进,更是一种新智能形态的初啼。
“世界模型”不是终点,而是起点。它提醒我们:真正的通用人工智能,未必诞生于服务器集群的轰鸣中,而可能悄然萌发于机器人凝视一段日常视频时,那毫秒级闪过的、对重力、摩擦与意图的无声顿悟。
未来已来,只是尚未均匀分布。而这一次,它正以Neo的步伐,稳稳踏向你我身边。
(本文基于1X官方技术白皮书、IEEE ICRA 2024特邀报告及AIBase深度访谈综合撰写)
🔗 延伸阅读:https://news.aibase.cn/news/24567