Meta 的人工智能研究人员为机器人创造了人工视觉皮层,通过观察来操作
原创 2023-04-10 09:43 DDing 来源:中叉网Meta Platforms Inc.人工智能研究部门的研究人员今天宣布了围绕自适应技能协调和视觉皮层复制的几项关键进展,他们表示这些进展将允许人工智能驱动的机器人在没有任何真实世界数据的情况下在现实世界中运行。
(Meta Platforms Inc.是美国一家经营社交网络服务、虚拟现实、元宇宙等产品的互联网科技公司,总部位于美国加州门洛帕克,旗下拥有Facebook、Instagram、WhatsApp等社交软件。)
据称,这些进展是在创建通用“具身人工智能代理”方面取得的重大进展,该代理能够在无需人工干预的情况下与现实世界进行交互。第一个公告涉及创建一个名为 VC-1 的人工视觉皮层,该皮层在 Ego4D 数据集上进行训练,该数据集由数千个执行日常任务的人的视频组成。
正如研究人员在博客文章中解释的那样,视觉皮层是大脑中使生物体能够将视觉转化为运动的区域。因此,人工视觉皮层是任何需要根据眼前所见执行任务的机器人的关键要求。因为 VC-1 需要在广泛的环境中很好地完成各种感觉运动任务,Ego4D 数据集被证明特别有用,因为它包含世界各地研究参与者执行日常活动的数千小时可穿戴相机视频,例如烹饪、清洁、运动和手工艺。
研究人员说:“生物有机体有一个通用的视觉皮层,这就是我们寻找具身代理的目的。因此,他们着手创建一个在多项任务上表现良好的数据集,从 Ego4D 作为核心数据集开始,并通过添加额外的数据集来改进 VC-1 进行试验。由于 Ego4D 主要关注烹饪、园艺和手工艺等日常活动,我们还考虑了探索房屋和公寓的以自我为中心的视频数据集,”研究人员写道。“
然而,视觉皮层只是具身人工智能的一个元素。对于在现实世界中完全自主工作的机器人,它还必须能够操纵现实世界的物体。机器人需要能够导航到一个物体,将其捡起,将其带到另一个位置并放置该物体——并根据其所见所闻来完成所有这些工作。
为了解决这个问题,Meta 的 AI 专家与美国佐治亚理工学院的研究人员合作开发了一种称为“自适应技能协调”的新技术,其中机器人完全在模拟中进行训练,然后将这些技能转移到现实世界的机器人上。
Meta 与波士顿动力公司合作展示了其 ASC 技术的有效性。ASC 模型与波士顿动力公司的 Spot 机器人集成在一起,后者具有强大的传感、导航和操纵能力,尽管需要大量的人工干预。
“例如,挑选一个物体需要一个人点击机器人平板电脑上的物体。我们的目标是构建能够通过波士顿动力 API 的机载传感和电机命令来感知世界的 AI 模型。”
ASC 在使用 HM3D 和 ReplicaCAD 数据集构建的环境中使用 Habitat 模拟器在 Spot 上进行了测试,其中包含 1,000 多个家庭的室内 3D 扫描。然后,模拟的 Spot 机器人被教导在一个以前看不见的家里四处走动,捡起不在地方的物体,把它们带到正确的位置,然后把它们放下。后来,这些知识被转移到现实世界中的 Spot 机器人中,这些机器人会根据它们对房屋外观的了解自动执行相同的任务。
“当我们对我们的工作进行测试时,我们使用了两个截然不同的现实世界环境,在这些环境中,Spot 被要求重新布置各种物体——一个家具齐全的 185 平方米公寓和一个 65 平方米的大学实验室。总的来说,ASC 取得了近乎完美的表现,在 60 集中的 59 集中取得了成功,克服了硬件不稳定、拾取失败以及移动障碍物或阻塞路径等对抗性干扰。”
Meta 的研究人员表示,他们今天正在开源 VC-1 模型,并在随附的论文中分享了他们在如何缩放模型大小、数据集大小等方面的详细知识。与此同时,该团队的下一个重点将是尝试将 VC-1 与 ASC 集成,以创建一个更接近真正体现人工智能的单一系统。