//再不认真就输了!
//致力于发现AIGC动态与教程。

清华大学与北京大学研究团队共同开发基于大型语言模型 (LLM) 多模态任务智能体AI模型

AI机器人变得更“聪明”了!

最近利用来自大型语言模型 (LLM) 的机器学习AI模型在构建多面手代理方面取得了显著的成功,这些多面手代理展示了在不同领域解决通用任务的能力。然而,这些模型在理解和与3D场景中交互方面存在一定的限制。

大型语言模型(LLM)是一种基于大量数据进行预训练的超大型深度学习模型。其底层构建块是一组神经网络,包括编码器和解码器,这些神经网络具备自注意力机制。编码器和解码器能够从文本序列中提取语义信息,并理解单词和短语之间的关系。

因此,为了克服这个挑战并实现更普遍的智能,清华大学与北京大学研究团队共同开发了一种名为 LEO 的共享模型架构,具有多模态和多任务智能体。LEO 是一个在3D场景中具备感知、基础、推理、规划和行动能力的智能模型。它能为3D场景中的物体或事件创建描述性文字,回答关于3D环境内的问题并进行逻辑上推理,并能在其中找到特定的位置或物体,甚至控制AI机器人执行特定任务。

场景点云被划分为以对象为中心的点云,然后由3D编码器处理以获得以对象为中心的特征。

研究团队还结合了一个可选的2D分支,其中2D编码器处理代理的自我视图观察以获得以自我为中心的特征。该序列以一条系统消息开始,告诉代理其角色和情况。随后的 2D 图像标记和 3D 对象标记提供感知的场景信息。接下来的指令指定任务或上下文,并提示最终响应。

LEO 的研究和开发,对于推动AI智能体在现实世界任务执行中的应用具有重要意义。为未来智能导航、AI机器人操作和智能助理等,开创更广泛应用思路和领域。

LEO项目及演示网址:
https://embodied-generalist.github.io/

LEO项目论文链接
https://arxiv.org/abs/2311.12871

LEO项目下载地址:
https://github.com/embodied-generalist/embodied-generalist

版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《清华大学与北京大学研究团队共同开发基于大型语言模型 (LLM) 多模态任务智能体AI模型》
文章链接:https://heehel.com/aigc/an-embodied-generalist-agent-in-3d-world.html
本站资源仅供个人学习交流,未经许可不得用于商业用途,自行承担法律责任。
如有疑问,请联系微信:heehelcom

评论 抢沙发

喜好儿——再不认真就输了!

致力于发现ai人工智能应用的新世界, 长期更新目前热门AI教程与动态!期待在这个工业变革时代中,希望你我都能发出一点光。

登录

找回密码

注册