大旗号
科技 汽车 财经 数码 时尚 旅游 美文 美食 其它

Figure发布Helix,技术路线与清华系具身智能企业“撞车”?

ITBEAR科技资讯 2025-02-25

与OpenAI分道扬镳后,Figure多次预告的AI新成果,在2月20日晚终于揭晓了答案。Figure发布通用人形机器人控制的视觉-语言-动作(VLA)端到端具身模型Helix。实现了从视觉输入和自然语言指令到机器人动作的直接映射,克服了传统方法中需要大量任务特定训练的限制。其高效训练、强大泛化能力和多机器人协作功能,使其在人形机器人领域具有显著优势和广阔的应用前景。

从全球范围来看,无论是特斯拉、PhysicalIntelligence(PI),还是Figure都无一例外采用了端到端的大模型,由此看来,端到端具身大模型是实现具身智能体的重要路径。各路科技媒体纷纷报道这一世界级新成果。

英雄所见略同?

但有趣的是,机器人大讲堂经过深入研究发现,Figure Helix的这一最新模型架构却与清华姚班团队在2024年6月发表在CoRL2024的一篇论文中的端到端具身大模型HiRT模型架构高度相似。HiRT还同期应用在了清华系具身智能企业星动纪元自研端到端原生机器人大模型ERA-42上,因此星动也是国内第一个能够做到One policy for multipletasks,实现端到端原生机器人大模型落地真机的公司。

Figure Helix与清华姚班团队

2024年6月发布在CoRL2024的端到端具身大模型HiRT架构高度相似

HiRT应用在清华系具身智能企业星动纪元自研端到端原生机器人大模型ERA-42

HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers于2024年6月发表在CoRL2024

论文传送门:https://arxiv.org/pdf/2410.05273

Figure Helix的端到端机器人大模型架构

技术架构解读

从论文中可以看到Figure Helix和ERA-42在模型框架结构上高度相似,都采用相同的层次化系统结构,使用latent来连接上层视觉语言模型和下层控制网络,完全拥有相同的高频控制特性、泛化能力、端到端架构。

具体来看,Helix和ERA-42都采用了层次化设计。

Helix:采用系统1(S1)和系统2(S2)的双系统架构。S2是一个拥有70亿参数的视觉-语言模型(VLM),处理频率为7-9Hz,负责高级理解;S1是一个拥有8000万参数的视觉-运动控制策略,处理频率为200Hz,负责实时动作控制。

ERA-42:采用高层次规划和低层次控制的双系统架构。高层次规划负责理解任务和生成动作序列,低层次控制负责实时执行动作。高层使用70亿参数的Instructblip 视觉语言模型,低层使用4000万参数的transformer结构,两种之间使用latent变量进行通信连接。

其次,两者都采用端到端训练。

Helix:Helix的训练是完全端到端的,从原始像素和自然语言指令映射到连续动作输出,使用标准回归损失进行训练。

ERA-42:ERA-42也支持端到端训练,能够直接从输入数据到输出动作进行学习,无需复杂的中间表示。


第三,两者都具备强大泛化能力。

Helix:Helix具有强大的泛化能力,能够处理数千种形状、大小和材质各异的物品,并且可以在零样本情况下泛化到新测试对象上。

ERA-42:ERA-42通过层次化的Transformer模型,能够更好地处理复杂的机器人控制任务,并且在不同的环境和任务中表现出良好的泛化能力。

第四,两者都可以在机器人上实现实时控制。

Helix:Helix的系统1(S1)能够以200Hz的频率输出精确的机器人动作,实现高精度的动作协调。

ERA-42:ERA-42通过层次化的Transformer模型,能够实现对机器人动作的实时控制,确保机器人在复杂环境中快速响应。

第五,两者都用单一神经网络。

Helix:Helix使用单一的一组神经网络来学习所有行为,无需进行任何针对特定任务的微调。

ERA-42:ERA-42通过层次化的Transformer模型,能够在一个统一的框架下处理多种机器人控制任务,无需为每个任务单独训练模型。

路线的分化与创新

后期,星动纪元还将世界模型融入原生机器人大模型ERA-42中

Video Prediction Policy:A Generalist Robot Policy with Predictive Visual Representations 于2024年12月发表在arXiv

论文传送门:https://arxiv.org/pdf/2412.14803

后期,星动纪元采取了一条不同的训练道路,将世界模型融入,使ERA-42不仅具备行动能力,还具备了对物理世界的理解能力,能够对未来行动轨迹进行预测,有效提升了机器人执行任务的高效性、准确性和在执行长时序任务时的抗干扰性,使人形机器人商业化应用潜力更进一步。

现实执行任务行动轨迹和ERA-42预测执行任务行动轨迹对比图,

体现了融入世界模型后ERA-42不仅能够对未来行动轨迹进行预测,且预测行动轨迹和现实行动轨迹几乎一致。

此外,强化学习在模型训练中的应用提升了模型的推理能力和泛化能力。它也为未来人工智能在具身智能体领域的研究和应用提供了新的思路和方法。

例如,DeepSeek通过其GRPO(基于群组采样的高效大语言模型强化学习训练方法)实现了更高效和稳定的训练过程。此外,强化学习还被证明能够激励模型自主发展出复杂的行为和解决问题的策略,例如DeepSeek-R1-Zero在训练过程中展现出的“顿悟时刻”,进一步证明了强化学习在解锁新智能水平方面的潜力。这些成果表明,强化学习不仅是提升模型性能的关键技术,更是未来人工智能发展的必然趋势。



因此,星动后续模型训练也采用了强化学习技术,通过奖励机制引导模型学习最优的动作策略。这些方法使得模型能够在复杂的环境中自主学习和优化,进一步提升训练效率、降低训练成本和提升了模型的泛化能力。(星动纪元发表相关论文:Improving Vision-Language-Action Model with online Reinforcement Learning 在ICRA 2025)

论文传送门:https://arxiv.org/pdf/2501.16664

构建通用具身智能体需要软硬件协同迭代,就像人的“大脑”和“身体”需要同步成长一样,这也是星动纪元与Figure技术思路相一致的地方。据相关报道显示,ERA-42协同星动纪元自研全直驱、12个全主动自由度五指灵巧手星动XHAND1以及高性能通用人形机器人星动STAR1能够能够执行灵巧高精度任务。目前星动XHAND1已学会了使用不同工具完成100多种复杂灵巧操作精细化任务,并且持续在同一个模型下学习新的技能。

基于端到端原生机器人大模型以及为AI设计的硬件平台,国内企业在推动原生通用具身智能体产业落地方面已具备一定优势。随着技术的不断进步与完善,有望在未来的全球市场竞争中占据有利地位,并加速实现机器人的广泛应用。


与蔡明同台的机器人:因时机器人获数亿融资
今年春晚舞台上,“含机器人量”成为全民热议的新焦点,其中小品《奶奶的最爱》中亮相的“孙辈”机器人,凭借倒水、递药、变魔术等流畅自然的动作圈粉无数,现场掌声不断。鲜为人知的是,这双赋予机器人精准操作能力的“灵巧手”,源自国产企业因时机器人,这

2026-02-28

蔚来芯片子公司获超22亿元融资,投后估值逼近百亿
2月26日,蔚来发布公告称,其芯片子公司安徽神玑技术有限公司(以下简称“神玑公司”)已完成首轮股权融资协议签署,融资金额超过22亿元,投后估值接近百亿元。这意味着蔚来在芯片自研赛道上的布局,正式进入资本化运作阶段。本轮投资方阵容颇为豪华,既包括合

2026-02-28

再携手!清华陈建宇×斯坦福Chelsea团队发布VLAW,世界模型×VLA协同进化
整个具身智能领域都在探索世界模型的实用化路径。这个被寄予厚望的「数字模拟器」,本应成为机器人训练的核心工具,却因物理保真度低等问题成为「空中楼阁」。去年年中,谷歌发布了 Genie-3 世界模型,让「可交互的世界模型」第一次以极具冲击力的方式走进大

2026-02-28

OpenClaw爆火,连“财神赵公明”都成了数字员工
2026年,我们应该如何定义数字员工?

2026-02-28

正式进军AI硬件 阿里千问将发布AI眼镜
继春节期间AI购物功能爆火后,阿里巴巴旗下个人AI助手“千问”正式进军AI硬件领域,计划今年面向全球市场推出多款不同形态的AI终端产品。据悉,千问将在西班牙巴塞罗那举行的世界移动通信大会(MWC2026)上发布首款同名AI眼镜,并于3月2日开启线上线下全渠道预

2026-02-28

阿里内测“妙呀AI”入局潮玩赛道
据报道,阿里近期已悄然开启潮玩AI平台“妙呀AI”的保密内测。这款产品主打“轻松捏娃潮玩妙呀”,聚焦AI捏娃玩法,目前仍处于小范围测试阶段。从内测界面来看,“妙呀AI”采用手机号验证码登录,同时支持支付宝第三方登录,整体操作入口简洁直观。产品的核心

2026-02-27

百度四季度AI业务收入占比43% 超预期
2月26日,百度发布2025年第四季度及全年财报,显示2025年总营收达1291亿元,AI业务营收达400亿元;四季度,百度总营收327亿元,AI业务收入占百度一般性业务收入的43%,超出市场预期。“2025年是AI成为百度新核心的关键一年。AI云势头强劲,我们凭借差异化的全

2026-02-27