本文来源: 产业联盟网
46
|
哇,好多大模型啊! 在太平洋彼岸的拉斯维加斯,人形机器人产业链的上下游企业正集体涌入CES(国际消费电子展),在那里几乎可以看到全世界的人形机器人。 当形态各异的人形机器人琳琅满目地展现出来,到底哪一款才是人类需要的、想要的?人类需要的究竟是某种特定的仿生形态,还是依托这种形态所实现的某种能力? 人形机器人似乎太多了。 甚至在同一个展会里,不同形态的人形机器人展示的能力是类似的,正如业内不少声音也表明着,企业之间“硬件”鸿沟并不明显,看似惊艳的运动能力,实际上很快就会被友商追上,而自身硬件迭代升级的速度无法和同行拉开身位。 硬件竞争趋同后,有的企业开始在 “大脑” 上发力。 VTLA模型:让人形机器人对触觉产生思考 先从在CES上发布了第一款VTLA大模型的Sharpa说起。 久负盛名的Sharpa是今年CES鲜有的推出新款人形机器人的零部件厂商,除了展示灵巧手和触觉硬件产品以外,其轮式人形机器人Sharpa North也首次亮相,并以与人类对决乒乓球的方式展示了交互能力。 据描述,Sharpa North手持乒乓球拍与工作人员对打,0.02s的反应时间,可以做到上半身敏捷回球的同时,保持全身的平稳控制。 Sharpa仅凭已有的灵巧手和触觉传感器产品已经是处于技术的第一梯队,为什么突然分心造了一台人形机器人? sharpa灵巧手折风车 或许可以从他们同步推出的新模型VTLA(Vision-Tactile-Language-Action)中可以找到答案。 区别于常见的VLA模型,Sharpa将自身在触觉领域的优势融进这个模型内,增加Tactile(触觉)这一维度的信息。VTLA是一个端到端、分层的视觉触觉语言动作(视觉触觉语动作)模型,用于精细操作,具有原生拟人化的末毫米级交互。 Craftnet架构图 具体来看,VTLA模型分成VLM和CraftNet两个部分,Sharpa将VLM模型划为“大脑”范畴,将CraftNet模型统一进“小脑”的范畴,其由System 1和System 0组成。 System 1是一款基础模型,负责运动规划和粗动作控制,在10赫兹左右时速度相对较快,大多数与应用程序相关的培训是在使用公共或私有域培训数据的情况下在System1上执行的。 System 0是一款超高频模型,负责通过精细运动控制进行瞬时交互。它以约100赫兹运行。System 0利用实时触觉反馈信息,以快速处理速度,在与物体的交互过程中连续地重新调整手和手指的位置。 三个系统之间的数据流转 由此,CraftNet将高水平的多模态输入转化为由灵巧的仿人机器人执行的连续、精密动作,而这在以前只有人类才能实现。 了解完这个模型的大致结构后,一个新的问题应运而生,为什么要推出VTLA模型? Sharpa认为人形机器人的操控模式存在3个主要问题: 传统的操控策略仅基于运动轨迹数据,既没有力反馈也没有触觉反馈; VLA模型适用于在接触物体之前启动定向运动,但缺乏成功接触所需的高频力触觉反馈闭环,例如握紧、滑动或快速切换手指等精细操作均难以实现; 人形机器人需要既广泛可用又具有拟人化特征的数据,即能够模拟人手在灵巧性和物体操作方面的交互能力的数据。 因此,Sharpa推出VTLA模型时想弥补人形机器人在力触觉传感数据的缺失,为人形机器人更具有仿生特性提供感知方面的支撑。 再回到我们的第一个问题,能逼一个做手的公司去“造人”的,想必是为了炫耀自己的“大小脑”。 细数一下,新的一年仅仅过去8天,就已经4款大模型面市,人形机器人的硬件似乎已经到了现阶段的“天花板”,模型先行才是破解之道? SOP框架:人形机器人向真实世界迈入的第一步 不同企业所处的阶段不同,面对的问题不尽相同,比如说Sharpa以灵巧操作的视角出发,看到的是对触觉数据的缺乏,而像智元这样的开始思考如何大规模部署和落地的本体企业,其第一任务便是,在本体较为成熟的状态下,如何通过“大脑”的迭代让人形机器人这门生意更加成熟。 近日,智元提出了SOP(Scalable Online Post-training)框架,一套面向真实世界部署的在线后训练系统。 简单来说,SOP是一个系统、是一个框架,在系统层面把执行和学习真正耦合起来。 SOP框架的提出,源于智元在大规模部署后遇到的现实难题,人形机器人落地后受困于更高的任务专精度要求,以及离线数据采集方式的边际效益递减,往往需要通过后训练获得更高的任务成功率。 遗憾的是,当前主流的 VLA 后训练方法仍受离线、单机、串行采集等因素制约,难以支撑高效、持续的真实世界学习。 智元认为,上述的困扰来自于学习范式本身。 SOP 架构设计图 如图所示,在SOP框架中,人形机器人有2种训练策略,分别是Shared Policy for all tasks,即所有任务共享策略,以及Optional human intervention,即可选择的人工介入策略。 其包括分布式集群、人类接管、以及一系列的数据回流支持策略更新的措施,让它能在真实世界安全地交互部署,然后数据回流,不断提升性能。 SOP框架解决的是用动态在线数据不断补充静态离线数据的过程。 最终,更新后的模型参数在分钟级别内同步回所有机器人,实现集群一致进化,维持在线训练的稳定性,实现一个持续的学习效果。 智元机器人合伙人、首席科学家罗剑岚针对这一过程补充道,“单个机器人的操作失误将被记录并上传至共享经验池。系统以几分钟一次的频率从该池中提取数据,借助云端算法进行分析与学习,形成策略优化。更新后的模型可在数分钟内下发至所有机器人,实现闭环式持续改进。” 值得一提的是,SOP框架可以弱化人形机器人内部本体硬件差别的影响。 罗剑岚表示,SOP支持多机器人、多本体的协同训练,通过对数十台机器人的数据进行任务均衡采样,能够有效隔离单一硬件的干扰,从而提取出跨本体的“最大公约数”。 这种机制保证了模型不会被某类特定硬件“带偏”。简单来说,如果集群中有100台机器人,即便其中一台噪声很大,在其余99台机器人的数据对冲下,该噪声的影响也可以忽略不计。 真实数据和仿真数据仍在互相追赶 智元选择了零售服务任务、叠衣服、纸盒装配作为SOP框架的测试场景。 罗剑岚特别表明,“从单机离线到分布式在线的系统化跨越,SOP框架保证了人形机器人的通用性不退化。叠衣服、叠纸盒子、商超里500多种物体补货、上货,成功率很高,用的都是一个模型。” 在此之前,用一个通用 VLA模型,在单个场景里微调,过拟合到另一个场景上,机器人就会把之前的任务给忘掉。而SOP提升某一个任务表现的时候,不会牺牲掉整体模型的泛化能力。 实验结果显示,相比预训练模型,结合SOP的HG-Dagger方法在物品繁杂的商超场景中实现了33% 的综合性能提升。结合SOP的HG-Dagger方法让叠衣服的相比HG-Dagger吞吐量跃升114%,纸盒装配达到98%的成功率。 而在效率上,智元分了单机、双机、四机等不同数量的机器人队伍,在同样的数据传送总量的基础上,进行了比较。 实验结果显示,在相同的总训练时间下,更多数量的机器人带来了更高的性能表现。在总训练时间为3小时的限制下,四机进行学习的最终成功率达到了92.5%,比单机高出12%。 智元表明,多机采集可以有效阻止模型过拟合到单机的特定特征上。同时,SOP 还将硬件的扩展转化为了学习时长的大幅缩短,四机器人集群相比单机能够将模型达到目标性能的训练速度增至2.4倍。 最后,智元分析了SOP和预训练数据之间的关系。 把总量为160小时的多任务预训练数据分为了三组:20小时,80小时和160小时,分别训练一组初始模型后再进行SOP。 智元指出,预训练的规模决定了基座模型和后训练提升的轨迹。 同时,对比80小时和160小时实验效果,在解决特定失败情况时,在轨策略经验带来了非常显著的边际效果。SOP在三小时的在轨经验下就获得了约30%的性能提升,而80小时额外人类专家数据只带来了4%的提升。 当然,罗剑岚坦言道,在论文里参与实验的机器人数量为几十台。但是,今年会部署几个数量级以上的机器人,真正找到机器人真实场景部署和真实场景落地的Scaling law。 同时,人形机器人想要进入现实世界,还需要被社会意义上的接纳。 罗剑岚表示,SOP框架和特斯拉的自动驾驶的影子模式类似,特斯拉在自动驾驶里一个 default(默认)的模式,就是数据回流模式。但是人形机器人缺的是在真实世界大规模部署机器人的 infra(基础设施),即整个社会层面的基础设施建设。 而SOP在解决的是系统框架问题,一个具备拓展性系统框架,以及把真实世界的各种约束和限制去解决掉,这两者合起来,才能并行地推进这件事。 有意思的是,SOP框架聚焦于真实世界的闭环,但在CES国际消费电子展首日,智元发布的Genie Sim 3.0,一款基于NVIDIA Isaac Sim构建的工具,解决了传统仿真“高成本、低效率、弱泛化”的问题,并通过虚实融合的技术能力,为具身智能从实验室走向产业落地搭建了关键桥梁。 伴随此次发布,智元还将同步开源包含真机作业场景的上万小时仿真数据集,构建覆盖10万+场景的多维度智能评估体系,为模型能力绘制全景画像。 大模型也能“开箱即用”了 对VLA模型后训练的重视,在2026年变得尤为明显。 除了可以实现智元的SOP对跑通真实世界数据闭环的愿景,还有一个“看得见摸得着”的效益,让人形机器人实现开箱即用。 人形企业对于大模型可以实现快速泛化、可用变得很迫切。 近日,PNDbotics发布了Adam-U & Being-Dex一体化数据采集与VLA训练部署系统。 资料显示,Being-Dex(Adam-U)由 Being-H 预训练模型、开源后训练框架、端侧部署模型构成。 图源PNDbotics 该方案内置经真实真机数据训练优化的VLA自主操作策略,配套超过1.2万条高质量操作数据集与全链路开发工具链,打通“数据采集 - 模型训练 - 实际部署”全流程,将机器人的落地可以实现“开箱即用”,加速各行业规模化应用。 这一系统的首要亮点,是效率。 一方面,集成 Being-H 后训练优化 VLA 模型,开机即执行灵巧拾取操作(首期支持 Pick & Place 任务),无需复杂配置。 另一方面,仅需少量实机采集新任务数据,最快数小时(部分场景30分钟)完成从采集到部署全流程,将落地周期从数月压缩至天级、小时级,降低时间成本与试错风险。 实际上,率先对大模型提出了“开箱即用”这一概念的是人形企业星海图。 1月6日,星海图正式发布端到端双系统VLA模型G0 Plus模型并全面开源,是全球首个开箱即用的VLA模型体验Demo——“万物抓取”(Pick Up Anything)。 G0 Plus的突破性在于其构建了一套“慢思考、快执行”的双系统架构,其整合了G0-VLM开放世界理解模块与G0-VLA闭环控制模块。 其中,前者负责对开放环境进行实时解析,识别数百万种未见过的物体并理解其物理属性;后者则将这些理解转化为精准的闭环动作。 这种架构的本质,是将机器人的“认知”与“执行”分离,让机器人像人类一样先观察、分析再行动,而非依赖预编程的固定路径。 为更好地部署G0 Plus,星海图同步推出VLA一体机解决方案。通过软硬件一体化设计,G0 Plus已完成从模型推理到机器人执行系统的端到端封装,实现端侧实时运行与即插即用部署。 VLA一体机出厂预装全套环境,内置标准化“一键拉起”脚本,开发者无需进行复杂的系统集成,开箱30分钟内即可体验G0 Plus“万物抓取”VLA模型,体验自然语言交互的人机协同。 小结 人形机器人遍地跑似乎没有想象的难,聪明的人形机器人满地跑却没有想象中简单。 从单点感知突破到系统化部署,从基础功能实现到商业闭环构建。无论是聚焦灵巧操作层面对触觉数据的深耕,还是面向规模化落地推动“大脑”与“本体”的协同进化,真正的竞争力将来自数据闭环的完整性与迭代效率。 尤其在VLA模型的后训练领域,不管是希望人形机器人可以被物理世界系统性地接纳,还是希望人形机器人可以成为一件简单上手的终端产品,业内对产品的思考已经开始置于商业逻辑中,并确保每一项技术突破都能对应明确的商业路径与用户价值。 当关注焦点从技术参数投向真实世界,或许有一天,人形机器人也会变得必不可少。 |
2月10日,工业和信息化部等五部门联合发布《关于加强信息通信业能力建设 支撑低空基础...
点击上方“蓝字”关注我们吧!LIAN MENG在国产替代浪潮席卷之下,狂欢背后,医疗器械...