拧灯泡,对于人类来说是一个简单到下意识就能完成的任务。但如果对象换成机器人,它却是一道难解的工程问题:灯泡表面光滑、易碎、会滚动,拧入灯座还需要精确的对准和持续稳定的旋转力矩。截至目前,市面上几十款商用机械臂中,几乎没有几台能独立完成这个动作。
这一现象也印证了上世纪奥地利裔计算机科学家汉斯·莫拉维克(Hans Moravec)提出的悖论:人类觉得困难的事,如下棋、解方程,对机器来说往往不费吹灰之力;而人类不假思索就能完成的事,例如走路、抓取、拧瓶盖,对机器来说却难如登天。莫拉维克的解释是,与物理世界交互的能力在漫长进化中已深深写入我们的神经回路,成了本能,而本能恰恰是最难用代码复现的东西。
但就在近日,一家刚刚走出隐身状态的初创公司或试图动摇这个理论。Eka Robotics 在社交媒体上发布了一段机械臂视频:它成功地从桌面上捏起一颗灯泡并拧入灯座,全程没有人类遥控,也没有为灯泡加装任何辅助传感器。
(来源:Eka)
据现场报道,这台机器人的动作流畅程度超出了大多数业内人士的预期。夹爪快速逼近灯泡后主动减速,轻柔地在桌面上摸索定位,灯泡滚走了就追上去,抓不稳就换个角度再试,最终稳稳拧亮。除了灯泡,它还在记者面前随机抓取了耳塞盒、梳子、钥匙串等形态各异的物品,每次都能在几下试探后成功捏起,对不同形状和材质展现出明显的泛化能力。
“Eka 这个名字在梵语中意为‘一’,在芬兰语中则指‘第一’。”联合创始人 Pulkit Agrawal 曾在社交媒体上如此阐释。名称背后,是创始团队对机器人灵巧操作的核心构想:以“力量(Force)”为基石构建智能,推动机器人突破人类操作的物理极限,实现灵巧能力的规模化扩展。基于这一理念,Eka 提出了一条全新的 AI 模型架构:VFA(Vision-Force-Action,视觉-力量-动作)模型。
(来源:X)
与当下主流的视觉-语言-动作(VLA)模型不同,VFA 不以语言为中介,而是直接用“力”来构建智能。用 Agrawal 的话说,力是“物理世界的母语”。
除了架构,Eka 在技术路线上也进行了创新。
在机器人灵巧操作领域,业界此前主要围绕两条主流路线展开探索。第一条是“仿真迁移(Sim-to-Real)”路线,以 2018 年 OpenAI 的 Dactyl 项目为代表,逻辑是在高保真数字环境中训练策略后部署至实体机械手。当时这个项目最出圈的成果,是让机械臂在仿真中自学解魔方,2019 年 OpenAI 甚至发布了一段机器人单手还原三阶魔方的视频,引发广泛关注。
然而,当研究人员故意用橡皮筋绑住机械指、蒙住摄像头,或改变魔方表面材质时,策略迅速崩溃。这些“对抗性测试”暴露了致命短板,即仿真环境难以精准还原物理世界中的复杂摩擦力、材料形变与接触动力学,导致策略在真实场景中极易失效,该方向一度陷入停滞。
图 | OpenAI 实体机械手(来源:OpenAI)
第二条是当下备受瞩目的“数据驱动”路线,以 Physical Intelligence(简称 π)为代表。这一路线遵循“规模法则”,通过采集海量人类遥操作或动捕数据,期望机器人能如大语言模型处理文本一般,从数据中“涌现”出物理操作能力。尽管进展迅速,但高度依赖人类演示数据的特性,也在无形中设定了机器人能力的上限。
面对上述局限,Eka 选择在第一条路的基础上创新,对传统的仿真路线进行深度重构。Agrawal 与另一位联合创始人 Tuomas Haarnoja 认为,仿真路线并非死胡同,此前的瓶颈在于仿真精度不足与感知维度的单一。Eka 的 VFA 模型不采集任何人类演示数据,而是让机器人在强化学习框架下,于仿真环境中进行数千小时的自主探索与试错,自行演化出最优操作策略。
在这个仿真环境中,它不仅模拟关节和电机的运动学,还纳入质量、惯性等动力学原理。模型同时学习两件事:自身运动如何改变视觉画面中的像素,以及运动的力和速度如何与手中物体产生交互。简单来说,它不仅“看”,还“摸”。
从方法论上看,这与 DeepMind 的 AlphaZero 如出一辙。不依赖人类先验知识,纯粹通过自我对弈与计算迭代实现能力跃升。“许多人致力于让机器人达到人类水平,”Agrawal 表示,“但我们的目标是实现超人级(Superhuman)的灵巧操作。”
这一技术路线的落地,和两位创始人在学术与工业界的长期积累高度相关。Agrawal 现任 MIT 计算机科学与人工智能实验室(CSAIL)助理教授,并领导 Improbable AI 实验室。
他在加州大学伯克利分校获得博士学位,研究成果多次发表于 Science Robotics 与 Nature 等顶级期刊。他在学术界的核心主张是“触觉智能”,即机器人不能仅依赖视觉感知,必须引入力反馈机制才能真正理解并交互物理世界。
(来源:MIT)
Tuomas Haarnoja 同样毕业于伯克利,师从知名 AI 学者 Sergey Levine,加入 Eka 前曾任 Google DeepMind 资深研究科学家。他在机器人强化学习领域的标志性贡献是提出了 SAC(Soft Actor-Critic)算法,该算法凭借出色的样本效率与稳定性,已成为当前机器人策略学习的主流框架之一。
在 DeepMind 期间,Haarnoja 曾主导多个将深度强化学习应用于实体机器人的项目,其中最为人熟知的是通过仿真强化学习训练小型人形机器人踢足球:机器人在虚拟环境中完全自主演化出带球、射门乃至跌倒后自主爬起的复杂行为序列。
公开演示中,分拣鸡块的场景进一步验证了 VFA 模型的泛化能力。Eka 搭建的工作站上,形态各异的鸡块散落在桌面,传送带上的塑料餐盒匀速移动,机器人需要快速抓取鸡块并准确放入盒中。
现场报道显示,机器人不仅速度达标,还展现出一定的即兴应变能力:当餐盒即将移出可及范围时,它会果断从短距离外将鸡块“抛”入盒中。食品处理至今高度依赖人工,因为果蔬肉类需要被快速而轻柔地处理,且每件物品形状各异。自动化这类任务,要求机器人同时具备速度、精细力控和对不规则形状的泛化能力,而这恰恰是传统工业机器人的短板。
更值得关注的是,Eka 的算法据称还展现出自主发明策略的能力。慢动作回放显示,当机器人抓取一串钥匙时,它会先将夹爪指尖轻触桌面,沿桌面滑动直至接触钥匙,再将其夹起。这种“先摸桌面再找目标”的策略并非人工预设,而是机器人在仿真训练中自行演化所得。
而且,Eka 的机器人似乎还能从失误中恢复:灯泡滚走了会追上去再抓,钥匙滑落了会换个角度重新夹取。这种容错能力对依赖人类演示数据的方法而言实现难度极高,因为需要刻意让训练者制造大量各类失误,这是一个巨大的数据工程负担。
两位创始人声称,Eka 在仿真到现实的迁移可靠性上优于其他团队。这一说法目前尚无法通过独立测试验证,公司的融资规模也未公开披露。
1.https://www.wired.com/story/when-robots-have-their-chatgpt-moment-remember-these-pincers/
2.https://x.com/pulkitology
运营/排版:何晨龙
注:封面/首图由 AI 辅助生成