高德FantasyWorld一经发布就登顶世界模型榜首,阿里空间智能再下一城!
一、破界而出:一场静默却震撼的全球技术登顶
2026年1月5日,HuggingFace WorldScore Leaderboard榜单悄然刷新——一个代号为 FantasyWorld-0.1 的新模型以综合得分82.31分强势登顶,力压谷歌主导的TeleWorld、Meta联合斯坦福开发的Voyager、以及英伟达支持的NexusWorld等国际一线竞品。三天后(1月8日),斯坦福大学李飞飞团队主导的权威评测平台WorldScore正式发布公告,确认该模型在静态世界理解(78.55)、动态世界建模(66.89)、相机控制精度(75.55)、内容-几何对齐度(87.75) 等全部核心子项中均位列第一,创下该基准自2024年设立以来的最高单版本首测纪录。
更令人瞩目的是:这一模型并非出自传统AI实验室,而是由阿里巴巴旗下高德地图自主研发并首发——标志着中国科技企业首次以“地理空间原生能力”为支点,在全球最前沿的世界模型(World Model)赛道实现从追赶者到定义者的角色逆转。
二、根植现实:用十亿级真实导航数据锻造“数字世界的地基”
FantasyWorld的爆发绝非偶然。其底层竞争力,深植于高德过去十年积累的全球最大规模动态时空导航数据库:
✅ 覆盖全国超4.2亿POI、2,800万公里高精道路网;
✅ 日均处理超120亿次实时轨迹请求,包含复杂路口博弈、雨雾雪天气下的多传感器融合定位、电动车/行人混行等长尾场景;
✅ 拥有国内唯一持续运营超8年的“飞行街景”三维采集车队,累计采集超1,500万帧带GPS+IMU+激光雷达+多光谱影像的真值数据。
这些非合成、非渲染、高度噪声但极度真实的空间语义数据,成为训练世界模型最稀缺的“物理先验”。相比依赖NeRF或Gaussian Splatting生成合成数据的主流路径,FantasyWorld直接将真实导航中的几何约束(如车道线曲率连续性、建筑立面垂直性、坡度与重力一致性)编码进模型结构,使生成的3D世界天然具备可行驶性、可导航性、可推理性——这正是具身智能落地的硬性门槛。
三、架构革命:“冻结骨干+可训几何分支”实现一次前向即世界生成
FantasyWorld的技术内核,是一次对视频基础模型范式的颠覆性重构:
🔹 双流协同架构:在冻结参数的高性能视频扩散骨干(基于Qwen-Vision-XL微调)之上,新增轻量但强表达力的几何感知分支(GeoBranch);
🔹 隐式联合建模:该分支不单独预测深度或法向,而是学习从视频潜变量中解耦出统一的隐式3D场(Implicit 3D Field),同步表征几何结构、材质反射、光照响应与运动轨迹;
🔹 单次前向即输出:无需多阶段优化(如NeRF的迭代渲染)、无需后处理(如Depth Anything的深度校正),输入一段2秒短视频+相机位姿,模型一次前向传播即可输出:
→ 高保真RGB视频(支持4K@60fps生成)
→ 像素级深度图(误差<12cm @50m)
→ 可编辑点云(含语义标签与实例ID)
→ 动态物体运动矢量场(支持未来3秒轨迹预测)
实测显示:在WorldScore极端视角挑战集(180°绕物旋转、俯拍90°鸟瞰、镜面反射场景)中,FantasyWorld的多视角几何一致性达94.2%,较第二名TeleWorld高出11.7个百分点;纹理跨视角保真度提升3.8倍,彻底解决“同一墙面在不同角度呈现不同材质”的行业顽疾。
四、不止于炫技:直指AGI与具身智能的“空间认知中枢”
FantasyWorld的战略定位远超“3D内容生成工具”。阿里巴巴已在内部将其定义为下一代AI基础设施的“空间认知中枢”(Spatial Cognition Hub):
🔸 赋能具身智能:2026年1月6日,阿里宣布成立独立一级部门——具身智能业务部(Embodied AI Division),首批招聘涵盖四足机器人运动规划、服务机器人空间记忆建模、工业AGV语义导航等方向。FantasyWorld生成的带物理属性3D世界,正作为其所有机器人仿真训练环境的默认底图;
🔸 驱动自动驾驶进化:已接入小鹏XNGP 4.0与极氪NZP系统,用于构建“影子模式”下的高危场景重建与因果反事实推演,将长尾corner case识别效率提升5倍;
🔸 重塑本地生活服务:高德“飞行街景”功能已全面升级为FantasyWorld驱动的交互式空间引擎——用户滑动地图即可实时生成360°沉浸街景,并支持“点击建筑→查看营业状态/排队人数/AR菜单”等语义交互,3D建模成本下降90%,城市更新周期从“季度级”压缩至“周级”。
五、开放与共生:开源承诺开启中国空间智能新生态
值得强调的是,FantasyWorld并非闭门造车的“黑盒成果”。据高德CTO谷雪梅在1月9日AIBase峰会披露:
✅ 2026年Q1末将开源FantasyWorld-0.1全量权重与推理代码(Apache 2.0协议);
✅ 同步发布WorldScore-CN中文适配版,纳入城中村窄巷、老城区无标线路口、方言语音指令空间映射等本土化评测项;
✅ 联合清华、浙大、中科院自动化所发起“空间智能开源联盟”,首期提供10万小时高精导航视频-3D真值配对数据集(AmapWorld-100K),向全球研究者免费开放。
此举不仅加速技术普惠,更在事实上推动世界模型标准从“西方主导的通用场景”转向“多元文明共治的空间智能”。
六、结语:当“懂世界”成为AI的新分水岭
从通义千问让AI“会说话”,到Qwen-VL让AI“看得懂图文”,再到今天的FantasyWorld让AI“真正理解空间”,阿里巴巴正以清晰的战略节奏,完成AI能力栈的三级跃迁。而高德——这个曾被定义为“出行工具”的国民应用,如今已成为中国空间智能最锋利的探针与最坚实的底座。
正如李飞飞教授在WorldScore年度报告中所言:
“FantasyWorld证明了一件事:最伟大的世界模型,未必诞生于算力堆砌的实验室,而可能扎根于每日承载亿万人真实移动的土壤之中。”
登顶榜首不是终点,而是中国AI从“理解语言”迈向“驾驭物理世界”的庄严启程。
下一座城,或许就叫——AGI。
本文数据综合自WorldScore官方榜单(2026.01.05)、AIbase基地、高德技术白皮书及斯坦福HAI研究院公开报告;截至2026年1月13日,FantasyWorld已在全球27个国家/地区的科研机构与车企开展技术验证合作。