斯坦福大学和 Meta 正在向人工智能迈进，通过新的AI技术“CHOIS”交互模型来与人类互动

HeeHel喜好儿官方小编

斯坦福大学和 Meta 的 Facebook AI 研究实验室（FAIR）的研究人员开发了一种突破性的人工智能系统，可以仅通过文本描述生成虚拟人和物体之间自然、同步的动作。

这个名为 CHOIS（Controllable Human-Object Interaction Synthesis）的新系统使用最新的条件扩散模型技术，能够产生无缝、精确的交互，比如 “把桌子举到头上，走动，然后放下桌子”。

这项发表在 arXiv 上的研究为未来虚拟存在能够像人类一样流利地理解和回应语言指令提供了一瞥。

斯坦福大学和 Meta 正在向人工智能迈进，通过新的AI技术“CHOIS”交互模型来与人类互动

“从 3D 场景的语言描述中生成连续的人物物体交互面临着几个挑战，” 研究人员在论文中指出。

CHOIS 系统的独特之处在于其在 3D 环境中合成人物物体交互的独特方法。CHOIS 的核心是使用条件扩散模型，这是一种能够模拟详细运动序列的生成模型。

当给出人物和物体位置的初始状态，以及所需任务的语言描述时，CHOIS 会生成一系列动作，最终完成任务。

例如，如果指令是将台灯移到沙发附近，CHOIS 会理解这个指令，并创建一个真实的动画，显示一个人物形象拿起台灯并将其放在沙发附近。

CHOIS 之所以独特，是因为它使用稀疏的物体路标和语言描述来指导这些动画。这些路标作为物体轨迹中关键点的标记，确保动作不仅在物理上可行，而且与语言输入中的高级目标相一致。

CHOIS 的独特之处还在于它将语言理解与物理模拟进行了先进的集成。传统模型通常难以将语言与空间和物理行为相联系，特别是在较长的交互时间内，需要考虑许多因素以保持真实性。

CHOIS 通过解释语言描述的意图和风格，将它们转化为一系列符合人体和物体约束的物理动作，弥合了这一差距。

这个系统尤为突破性，因为它确保了接触点（如手触摸物体）的准确表示，以及物体运动与人物形象施加的力的一致性。此外，该模型在训练和生成阶段中引入了专门的损失函数和指导术语，以强制执行这些物理约束，这是在创造能够像人类一样理解和与物理世界交互的人工智能方面迈出的重要一步。

对计算机图形学、人工智能和机器人学的影响是深远的，尤其是在动画和虚拟现实领域。通过使人工智能能够解释自然语言指令以生成逼真的人物物体交互，CHOIS 可以大大减少动画复杂场景所需的时间和精力。

斯坦福大学和 Meta 正在向人工智能迈进，通过新的AI技术“CHOIS”交互模型来与人类互动

动画师可以利用这项技术创建通常需要费时费力的关键帧动画。此外，在虚拟现实环境中，CHOIS 可以实现更沉浸式和互动性的体验，用户可以通过自然语言指令命令虚拟角色，观察它们以逼真的精度执行任务。这种增强的互动水平可以将虚拟现实体验从僵硬、脚本化的事件转变为能够真实响应用户输入的动态环境。

在人工智能和机器人学领域，CHOIS 代表了朝着更自主、更具上下文意识的系统迈出的巨大一步。机器人通常受限于预先编程的例行程序，可以使用类似 CHOIS 的系统更好地理解现实世界，并执行用人类语言描述的任务。

这对于医疗保健、酒店服务或家庭环境中的服务机器人来说，尤其具有变革性，因为在物理空间中理解和执行各种任务的能力至关重要。

斯坦福大学和 Meta 正在向人工智能迈进，通过新的AI技术“CHOIS”交互模型来与人类互动

对于人工智能来说，同时处理语言和视觉信息以执行任务的能力，是更接近实现情境和上下文理解的一步，这一能力直到现在一直是人类的主要特征。这可能会导致更有帮助的人工智能系统，在复杂任务中不仅能理解 “什么”，还能理解 “如何”，能够适应新的挑战并具有前所未有的灵活性。

总的来说，斯坦福大学和 Meta 的研究人员在计算机视觉、自然语言处理和机器人学交叉领域的一个极具挑战性的问题上取得了重要进展。

研究团队认为他们的工作是朝着在多样化的 3D 环境中模拟连续人类行为的先进人工智能系统迈出的重要一步。这也为从 3D 场景和语言输入中合成人物物体交互的进一步研究打开了大门，可能会在未来实现更复杂的人工智能系统。

{{userData.name}}已认证