机器人又进化了!不仅泡茶、收纳、超市补货等功能信手拈来,还能边执行任务边自主学习、持续变强。可以说,具身智能商用落地迈出关键一步。

近日,上海创智学院与智元机器人具身研究中心联合发布自主研发的LWD(Learning While Deploying)强化学习框架,并已在真实场景验证。

在16台双臂机器人组成的物理集群上,针对商超补货、泡茶、榨汁、物品收纳等8项真实复杂任务测试显示,搭载LWD的机器人平均成功率达95%,长程任务最高提升17%,单次任务周期平均缩短约23.75秒,实现从“机械执行”到“智能纠错”的跨越,可广泛应用于工业制造、商业流通等实体场景。

该成果来自上海创智学院全职导师、智元机器人首席科学家罗剑岚团队,在业界首次打通面向大规模真实部署的闭环训练管线,让通用机器人在真实物理世界里“持续学习、自主进化”,更快适应复杂多变的真实场景,为具身智能商业化落地筑牢技术底座。

从“一次训练定型”到“边用边变强”,直击产业痛点

当前具身智能产业面临现实落地的瓶颈,主流机器人训练高度依赖离线示教,即靠人工采集数据训练固定模型,机器人能力一经部署便被固化,无法吸收环境变化、执行偏差与失败经验,面对非标准化长尾场景极易“失灵”。因此,高昂的人工二次开发成本,成为通用机器人规模化落地的巨大门槛。

团队介绍,LWD框架实现训练范式革新,将机器人能力演进分为连贯两阶段:部署前通过离线强化学习预热,依托历史数据建立稳定物理认知,避免上线后性能退化;部署后,机器人所有自主交互数据实时回流,与离线数据混合抽样开展在线后训练,优化策略无缝同步至机器人集群,形成完整数据飞轮。

团队攻克异构集群数据回放、分布偏移等难题,创新提出DIVL分布式隐式价值学习与QAM伴随匹配策略,提升核心算法,让模型在少人工干预下高效处理长程任务稀疏奖励,保障真实场景中安全稳定进化。

青年学子挑大梁,研创模式结硕果

这项前沿突破,是产学研深度融合与拔尖人才培养的生动实践。该成果由上海创智学院全职导师罗剑岚牵头负责,研究第一作者是上海创智学院刚录取的2026级的博士生,已提前加入研发工作。还有多位核心研发成员均为上海创智学院在读博士生,深度参与底层算法设计、真机集群测试全流程研发。

团队以“创智模式”为试点,把产业难题转化为科研课题与育人载体,让学生在真机实操、技术攻坚中锤炼能力。比如博士生王一作为第一作者担纲核心研究,还有大批学子全程参与从框架搭建到场景验证的全链条工作,在攻克长程任务、优化算法稳定性等关键环节贡献力量,实现科研创新与人才培养同频共振。

未来,上海创智学院与智元机器人具身研究中心将继续立足产业场景,持续优化机器人可靠性与泛化能力,以技术创新赋能新质生产力,同时为我国人工智能产业输送更多具备实战能力的顶尖人才。