谷歌推出人工智能(AI)模型 Robotics Transformer2(RT-2),帮助机器人理解任务如扔垃圾。
RT-2是一种视觉语言动作模型,将互联网上的信息和图像转化为ai机器人可理解的动作,提升机器人的学习能力。
RT-2允许ai人工智能机器人利用网络知识来完成任务,而不是编程来实现特定的任务。这项技术可能在仓储物流或家庭助理的家用机器人等领域发挥作用。
据《纽约时报》报道,谷歌目前没有计划发布或销售采用这项新技术的机器人,但未来这项技术或许可以应用于仓储物流或家庭助理机器人等领域。
为了在实验中探索RT-2的新出现的能力,Google deepmind团队寻找了需要结合网络数据和机器人经验的任务。
定义了它需要展示的三种技能:
- 符号理解
- 推理能力
- 人类识别能力
他们任务要求RT-2在理解视觉-语义概念的同时进行机器人控制。 例如,像“将香蕉移动到2加1的总和”这样的命令,意味着机器人需要从网络预训练中进行知识转移,并展示在机器人数据中不存在的技能。
在所有类别中,我们看到与以前的基准(如RT-1模型)相比,泛化性能有所增加。 还对RT-2在许多未见过的物体和环境上进行了评估,它能成功适应新的情况。
Google DeepMind 官方网站介绍地址:
https://deepmind.google/