SignLLM :世界上第一个通过文字描述生成手语视频的多语言手语模型

可是为什么不直接生成字幕呢?

我们介绍了第一个名为 Prompt2Sign 的多语言手语数据集,该数据集基于公共手语数据,包括美国手语 (ASL) 和其他七种语言。我们的数据集将大量视频转换为简化的、模型友好的格式,并针对 seq2seq 和 text2text 等翻译模型的训练进行了优化。

在此新数据集的基础上,我们提出了 SignLLM,这是第一个多语言手语生成 (SLP) 模型,其中包括两种新颖的多语言 SLP 模式,允许根据输入文本或提示生成手语手势。这两种模式都可以使用新的损失和基于强化学习的模块,通过增强模型自主采样高质量数据的能力来加速训练。

我们展示了 SignLLM 的基准测试结果,这表明我们的模型在跨八种手语的 SLP 任务上实现了最先进的性能。

👇生活中的另一种技巧是你可以先把头发编成辫子,然后开始包裹,因为有些人的头发很短,我们可以通过添加发尾来创造这种外观。👇

👇所以我们目前正在加热油,此时。👇

👇首先,按摩院是一个非常过时的术语,通常具有一些与之相关的负面含义,作为按摩治疗师,我们努力避免这种情况。👇

数据集和主要方法

SignLLM :世界上第一个通过文字描述生成手语视频的多语言手语模型

(左)PROMPT2SIGN 数据集的结构和形式概述。 (中)Text2LangGloss与MLSF的交互原理,与强化学习的计算方法。 (右)SIGNLLM 的输出可以转换为大多数姿势表示格式,然后可以通过风格迁移/专门微调的生成模型将其渲染为逼真的人类外观。

其他方法

在我们的工作中,我们通过合并一个标记来改进 Text2Gloss 框架,该标记可以生成具有必要语言属性的 Gloss,同时还通过神经网络中的变量 V 和 X u 来表示深刻的特征。此外,我们还介绍了五个关键要素——用户、代理、环境、迭代更新过程和 PLC——它们共同概述了为序列预测量身定制的强化学习过程。

SignLLM :世界上第一个通过文字描述生成手语视频的多语言手语模型 SignLLM :世界上第一个通过文字描述生成手语视频的多语言手语模型

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索