【AI论文与新生技术】SEED-Story:使用大型语言模型生成多模式长故事

随着图像生成和开放格式文本生成的显着进步,交错图像文本内容的创建已成为一个越来越有趣的领域。多模式故事生成的特点是以交错的方式生成叙事文本和生动的图像,已成为一项具有广泛应用的有价值且实用的任务。

然而,这项任务提出了重大挑战,因为它需要理解文本和图像之间复杂的相互作用,以及生成连贯的、上下文相关的文本和视觉效果的长序列的能力。在这项工作中,我们提出了 SEED-Story,这是一种利用多模态大语言模型 (MLLM) 生成扩展多模态故事的新颖方法。

我们的模型建立在 MLLM 强大的理解能力之上,可以预测文本标记和视觉标记,随后使用经过调整的视觉去标记器进行处理,以生成具有一致字符和风格的图像。我们进一步提出多模态注意力池机制,能够以高效的自回归方式生成最多 25 个序列(仅 10 个用于训练)的故事。此外,我们还提供了一个名为 StoryStream 的大规模高分辨率数据集,用于训练我们的模型并在各个方面定量评估多模式故事生成的任务。

(SEED-Story项目文件资料链接在下方👇)

AI论文与新生技术专题:
https://heehel.com/collection/topic-aipapers-jiaocheng

介绍SEED-Story:

【AI论文与新生技术】SEED-Story:使用大型语言模型生成多模式长故事

引入的 SEED-Story 由 MLLM 提供支持,能够根据用户提供的图像和文本生成多模式长故事作为故事的开头。生成的故事由丰富且连贯的叙述文本以及人物和风格一致的图像组成。尽管我们在训练期间最多只使用 10 个序列,但该故事最多可以跨越 25 个多模式序列。

【AI论文与新生技术】SEED-Story:使用大型语言模型生成多模式长故事

EED 故事概述。训练过程:在第 1 阶段,我们预训练基于 SD-XL 的去标记器,通过将预训练的 ViT 特征作为输入来重建图像。在第 2 阶段,我们对随机长度的交错图像文本序列进行采样,并通过在可学习查询的输出隐藏状态和目标图像的 ViT 特征之间执行下一个单词预测和图像特征回归来训练 MLLM。在第 3 阶段,将 MLLM 的回归图像特征输入到去标记器中以调整 SD-XL,从而增强生成图像中字符和样式的一致性。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索