中科第五纪首次提出「3D世界-动作模型」新范式，斩获CVPR2026冠军！-央视融媒网.cn-中广电视融媒体中心

中科第五纪首次提出「3D世界-动作模型」新范式，斩获CVPR2026冠军！

来源：央视融媒网 | 作者：金娣 | 2026-07-02 21:24:03 | 浏览量：10292

当机器人从实验室走入真实的工业产线与物流干线，行业正面临一道残酷的分水岭：“执行”是及格线，“预见”才是护城河。传统机器人能看会动，却看不懂因果、算不准风险——这种“后知后觉”的局限性，正在成为规模化落地的最大瓶颈。中科第五纪直击这一核心矛盾，正式推出全面升级的FAM-1.3大模型，模型首次提出了「3D世界-动作模型」的新范式，赋予机器人从“感知执行者”向“预判决策者”跃迁的能力，让安全与可信在行动之前即被写入底层逻辑。

值得关注的是，公司凭借该项FAM系列超少样本模型技术在CVPR 2026 Embodied AI Workshop 中夺得冠军，领先其他参赛队伍包括英伟达、加州大学伯克利分校、斯坦福大学等全球顶尖企业与学术团队，这也为中科第五纪的具身智能模型技术路线提供了来自国际顶级学术平台的权威验证。

作为FAM系列具身大模型的最新成果，FAM-1.3围绕机器人在真实世界中的操作能力进行了全面升级，首次将三维空间结构先验与视频生成深度融合，实现了从离散热力图预测到序列化热力图生成的跨越，并系统性地将具身世界模型安全校验能力引入少样本具身操作框架，为机器人动作提供执行前安全可视校验。

这意味着，FAM-1.3让机器人的操作不仅更智能，而且更安全、更可信。

国际夺冠：FAM-1.3领跑CVPR2026 ARNOLD挑战赛

ARNOLD挑战赛（ARNOLD Challenge）是具身智能领域的国际顶级前沿竞赛，已连续多年在CVPR等计算机视觉顶会期间举办。该竞赛的主要任务形式为基于自然语言的机器人连续操控任务，如精确调节阀门、按指令清理多变环境等，重点考察机器人在复杂、混乱真实环境中的三种核心能力：复杂3D空间的精准感知与运动控制、多模态语言指令的深度理解与对齐、面向新物体新场景新目标的强大泛化能力。

参赛队伍中涵盖了英伟达、加州大学伯克利分校、斯坦福大学等全球顶尖的具身智能企业与学术巨头。中科第五纪凭借自研的少样本通用FAM-1.3具身操作大模型脱颖而出，其核心优势在于打破了传统具身大模型对海量数据的依赖，通过三维热力图预训练和后训练显著提升了样本利用效率。

此前，中科第五纪已凭借FAM-1模型斩获CVPR 2025机器人通用操作大赛冠军。中科第五纪凭借扎实可靠的模型技术连续两届获得冠军证明：具身智能的下一站，不属于堆砌数据的巨无霸，而属于洞悉因果、前瞻风险、可信进化的“决策大脑”。

范式革新：首次提出“3D世界-动作模型”

长期以来，视觉-语言-动作模型（VLA）虽然推动了机器人智能水平不断提升，但由于普遍缺乏对环境动态演化的建模能力，而既有世界动作模型（WAM）虽能预测未来观测，却主要局限于二维图像空间，忽视三维几何结构。这会造成观测空间（2D视频）与执行空间（3D物理空间）的根本错配，不得不依赖海量数据弥补鸿沟。

针对这一问题，中科第五纪首次提出了3D世界-动作模型的新范式，FAM-1.3具身操作大模型从三个层面突破上述局限：

· 三维热力图与视频的联合预测：模型以当前时刻的多视角RGB图像与热力图为条件，联合预测未来多视角RGB视频和热力图序列，后者经反投影还原为三维空间中的连续末端轨迹，实现从视觉感知到连续动作序列的端到端生成。

· 三维世界模型驱动的动作安全校验：通过同时生成逼真、时序一致的多视角未来视频，可在执行前可视化审阅预测结果，判断即将执行的动作是否存在碰撞等安全隐患，将世界模型的预测能力转化为实际的安全保障工具。

技术升级：时序3D热力图预测+连续动作序列生成

此次升级最大的突破之一，是FAM-1.3首次将三维空间结构先验与视频生成深度融合，实现了从离散热力图预测到序列化热力图生成的跨越，这背后有两大关键技术模块支持：

其一，时序3D热力图预测。

与FAM-1仅预测单步关键点热力图不同，FAM-1.3依托视频生成模型对时间维度的天然建模能力，一次性预测未来数十个连续时间步的多视角3D热力图序列。其中每个时间步均包含三个正交视角的热力图，经反投影融合后还原为三维空间中的连续末端轨迹。这一设计使FAM-1.3能够建模操作的完整动态过程，而非孤立的离散位点，从根本上支撑需要连续精细动作的长程、接触丰富型任务。

其二，连续动作序列生成。

FAM-1.3在三维空间感知的基础上，实现了更强的连续动作生成。其核心设计包含2个层面：一是位置连续化，通过多步热力图序列反投影，生成三维空间中的连续末端轨迹，每一步均有精确的3D位置目标；二是旋转连续化，模型直接预测每个未来时间步相对于当前帧的旋转变化量，经解码还原为连续旋转角度，无需外部规划器插值。

换句话说，FAM-1.3已经将世界模型的预测能力转化为实际安全保障。通过生成逼真且时序一致的多视角未来视频，该模型可以在机器人真正执行动作之前，对即将发生的操作过程进行可视化审阅，提前判断是否存在碰撞、误触等安全隐患。在执行前识别风险，对于真实场景中的机器人部署而言，这一能力不只是技术提升，更是安全性和可信度的提升。

实验效果：超少样本条件下，安全性能大幅提升

实验结果进一步验证了FAM-1.3的技术优势。

在MetaWorld仿真环境评测中，仅每任务5条示范轨迹的超少样本条件下，FAM-1.3在7个任务上平均成功率达89.1%，超越此前最优方法22个百分点（包括Track2Act、DreamZero等）。在RoboCasa中，在5个厨房操作任务上，每任务仅10条示范，FAM-1.3显著优于Cosmos Policy与3D Diffuser Actor等基线。

在真实机器人实验中，FAM-1.3同样表现出色。在拾取放置、铲取柔软物体等基础任务，以及不同背景、不同高度、不同光照、未见物体类别等未见过任务中，FAM-1.3平均成功率达到57.1%，超过FAM-1等最强基线16个百分点，相较π0.5平均成功率提升50%以上。

围绕动作安全校验，中科第五纪还开展了140次rollout用户实验。四位评估者基于FAM-1.3生成的多视角未来视频进行执行前安全审阅，显著降低了碰撞等不安全动作的发生频率，验证了世界模型赋能的安全部署价值。

FAM-1.3的发布，标志着中科第五纪在具身操作基础模型领域立下一座关键里程碑。其核心突破在于：首次将视频生成大模型与三维空间结构先验深度融合，打通了从离散关键点预测到连续动作序列生成的完整通路；同时，开创性地将世界模型内化为动作安全校验的“直觉系统”——让每一次操作在发生前即被推演、验证、兜底。这一技术架构的跃迁，为机器人从封闭实验场景走向真实产业应用，提供了兼具前瞻性与可靠性的全新底座。

未来，中科第五纪将持续推进FAM系列具身大模型迭代，并进一步与自研世界模型深度融合，持续提升机器人在复杂环境中的感知、决策与操作能力，让具身智能技术在更多真实场景中更安全、更可靠。

关于中科第五纪

中科第五纪智能技术有限公司（Five Ages）于2024年9月成立，是⼀家集产业化落地能⼒和模型研发能⼒于⼀体的具⾝智能公司。通过全球领先的超少样本端到端具身大模型(FAM系列)、新一代具身世界模型（BridgeV2W模型）、人在环路强化学习等核心技术成果，面向客户交付具有通⽤泛化能⼒的具⾝⼤脑和具⾝机器⼈。

公司始终坚持“以人为本”的使命，以“让百万机器人服务于人类”为愿景，坚持“用心、动脑、尽责”的价值观，不断推动人工智能与机器人技术突破，让机器人承担更多重复、危险、繁重的工作，让人类将更多时间投入创造、思考、探索与陪伴，真正实现科技服务于人、智能成就于人的未来。