清华大学与北京大学研究团队共同开发基于大型语言模型 (LLM) 多模态任务智能体AI模型

AI机器人变得更“聪明”了!

最近利用来自大型语言模型 (LLM) 的机器学习AI模型在构建多面手代理方面取得了显著的成功,这些多面手代理展示了在不同领域解决通用任务的能力。然而,这些模型在理解和与3D场景中交互方面存在一定的限制。

大型语言模型(LLM)是一种基于大量数据进行预训练的超大型深度学习模型。其底层构建块是一组神经网络,包括编码器和解码器,这些神经网络具备自注意力机制。编码器和解码器能够从文本序列中提取语义信息,并理解单词和短语之间的关系。

因此,为了克服这个挑战并实现更普遍的智能,清华大学与北京大学研究团队共同开发了一种名为 LEO 的共享模型架构,具有多模态和多任务智能体。LEO 是一个在3D场景中具备感知、基础、推理、规划和行动能力的智能模型。它能为3D场景中的物体或事件创建描述性文字,回答关于3D环境内的问题并进行逻辑上推理,并能在其中找到特定的位置或物体,甚至控制AI机器人执行特定任务。

场景点云被划分为以对象为中心的点云,然后由3D编码器处理以获得以对象为中心的特征。

研究团队还结合了一个可选的2D分支,其中2D编码器处理代理的自我视图观察以获得以自我为中心的特征。该序列以一条系统消息开始,告诉代理其角色和情况。随后的 2D 图像标记和 3D 对象标记提供感知的场景信息。接下来的指令指定任务或上下文,并提示最终响应。

LEO 的研究和开发,对于推动AI智能体在现实世界任务执行中的应用具有重要意义。为未来智能导航、AI机器人操作和智能助理等,开创更广泛应用思路和领域。

LEO项目及演示网址:
https://embodied-generalist.github.io/

LEO项目论文链接
https://arxiv.org/abs/2311.12871

LEO项目下载地址:
https://github.com/embodied-generalist/embodied-generalist

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索