【AI论文与新生技术】Mobile-Agent-v2:移动设备操作助手,通过多代理协作实现有效导航和执行任务

升级最新版的ChatGPT客户端就会发现现在多了一个功能“后台对话”,也就是当你切换到别

移动设备操作任务日益成为流行的多模态人工智能应用场景。当前的多模态大语言模型(MLLM)受训练数据的限制,缺乏有效作为操作助手的能力。相反,基于MLLM的代理,通过工具调用来增强能力,正在逐渐应用于该场景。

然而,移动设备操作任务中的两大导航挑战,任务进度导航和焦点内容导航,在现有工作的单代理架构下变得非常复杂。这是由于过长的令牌序列和交错的文本图像数据格式限制了性能。为了有效地解决这些导航挑战,我们提出了 Mobile-Agent-v2,一种用于移动设备操作辅助的多代理架构。

该架构包括三个代理:规划代理、决策代理和反思代理。规划代理生成任务进度,使历史操作的导航更加高效。为了保留焦点内容,我们设计了一个随任务进度更新的记忆单元。此外,为了纠正错误的操作,反射代理会观察每个操作的结果并相应地处理任何错误。实验结果表明,与 Mobile-Agent 的单代理架构相比,Mobile-Agent-v2 的任务完成度提高了 30% 以上。

开源代码:https://github.com/X-PLUG/MobileAgent

论文链接:https://huggingface.co/papers/2406.01014

AIGC专区:
https://heehel.com/category/aigc

一个名为Mobile-Agent-v2的新型移动设备操作助手,它通过多智能体协作来有效导航和执行任务。这个系统由三个主要的智能体组成:规划智能体、决策智能体和反思智能体。这三个智能体各自承担不同的职责,共同协作以提高在移动设备上执行操作任务的效率和准确性。

【AI论文与新生技术】Mobile-Agent-v2:移动设备操作助手,通过多代理协作实现有效导航和执行任务

规划智能体负责将复杂的历史操作和屏幕摘要转化为简洁的文本形式,帮助决策智能体更容易地理解任务进展。决策智能体根据当前任务进展、屏幕状态和历史操作来执行具体的动作,如点击、滑动或输入文本。反思智能体则负责监控操作结果,判断是否符合预期,并在发现错误时采取修正措施。

为了支持这些智能体的功能,研究者还设计了一个视觉感知模块来提高屏幕识别能力,以及一个记忆单元来存储与任务相关的重要信息,帮助多应用场景下的任务执行。

通过实验,Mobile-Agent-v2显示出比单智能体架构的Mobile-Agent在任务完成上有超过30%的性能提升。这一成果不仅证明了多智能体架构在处理长序列和提升导航效率方面的有效性,还展示了通过手动注入操作知识可以进一步提升性能,为未来移动设备自动化脚本测试和应用提供了新的方向。

【AI论文与新生技术】Mobile-Agent-v2:移动设备操作助手,通过多代理协作实现有效导航和执行任务

此外,论文还探讨了多智能体在不同应用场景下的协作方式,以及如何利用大型语言模型(LLMs)来增强智能体的理解和推理能力。通过动态评估和消融研究,研究者证明了Mobile-Agent-v2在不同操作系统、语言环境和应用中都具有显著的性能改进。

的应用或者桌面的时候,GPT 语音功能也能时刻保持在线,应该是为10号的苹果WWDC准备的。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索