【AI论文与新生技术】Mobile-Agent-v2：移动设备操作助手，通过多代理协作实现有效导航和执行任务

+AI动态 AIGC
6月6日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

升级最新版的ChatGPT客户端就会发现现在多了一个功能“后台对话”，也就是当你切换到别

移动设备操作任务日益成为流行的多模态人工智能应用场景。当前的多模态大语言模型（MLLM）受训练数据的限制，缺乏有效作为操作助手的能力。相反，基于MLLM的代理，通过工具调用来增强能力，正在逐渐应用于该场景。

然而，移动设备操作任务中的两大导航挑战，任务进度导航和焦点内容导航，在现有工作的单代理架构下变得非常复杂。这是由于过长的令牌序列和交错的文本图像数据格式限制了性能。为了有效地解决这些导航挑战，我们提出了 Mobile-Agent-v2，一种用于移动设备操作辅助的多代理架构。

该架构包括三个代理：规划代理、决策代理和反思代理。规划代理生成任务进度，使历史操作的导航更加高效。为了保留焦点内容，我们设计了一个随任务进度更新的记忆单元。此外，为了纠正错误的操作，反射代理会观察每个操作的结果并相应地处理任何错误。实验结果表明，与 Mobile-Agent 的单代理架构相比，Mobile-Agent-v2 的任务完成度提高了 30% 以上。

开源代码：https://github.com/X-PLUG/MobileAgent

论文链接：https://huggingface.co/papers/2406.01014

AIGC专区：
https://heehel.com/category/aigc

一个名为Mobile-Agent-v2的新型移动设备操作助手，它通过多智能体协作来有效导航和执行任务。这个系统由三个主要的智能体组成：规划智能体、决策智能体和反思智能体。这三个智能体各自承担不同的职责，共同协作以提高在移动设备上执行操作任务的效率和准确性。

【AI论文与新生技术】Mobile-Agent-v2：移动设备操作助手，通过多代理协作实现有效导航和执行任务