【AI论文与新生技术】清华开源模型LongWriter：从长上下文中释放 10,000 多个单词生成LLMs

AI+文本/音频生成 AIGC
来源：喜好儿网
8月20日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

喜好儿小斥候消息，当前的长上下文大语言模型（LLMs ）可以处理多达 100,000 个标记的输入，但很难生成超过 2,000 个单词的适度长度的输出。通过受控实验，研究人员发现LongWriter的有效生成长度本质上受到监督微调（SFT）期间看到的样本的限制。换句话说，输出限制是由于现有 SFT 数据集中缺乏长输出示例。

为了解决这个问题，研究人员引入了 AgentWrite，这是一种基于代理的管道，可将超长生成任务分解为子任务，从而实现现成的LLMs生成超过 20,000 个单词的连贯输出。利用AgentWrite，他们构建了 LongWriter-6k，这是一个包含 6,000 个 SFT 数据的数据集，输出长度范围为 2k 到 32k 个单词。

通过将该数据集合并到模型训练中，他们成功地将现有模型的输出长度扩展到 10,000 多个单词，同时保持输出质量。他们还开发了 LongBench-Write，这是一个评估超长生成能力的综合基准。他们的 9B 参数模型通过 DPO 进一步改进，在该基准测试中实现了最先进的性能，超越了更大的专有模型。总的来说，他们的工作表明现有的长背景LLM已经具备了更大输出窗口的潜力——您所需要的只是在模型对齐期间具有扩展输出的数据来解锁此功能。

(清华开源模型LongWriter代码、模型获取、在线体验链接在下方👇)

AI论文与新生技术专题：
https://heehel.com/collection/topic-aipapers-jiaocheng

【AI论文与新生技术】清华开源模型LongWriter：从长上下文中释放 10,000 多个单词生成LLMs

简单来说，这项工作的发现是，现有的大型语言模型已经具备了生成更长输出的潜力，只需要在模型对齐期间使用扩展输出的数据来解锁这一能力。LongWriter为未来大型语言模型的输出长度扩展提供了新的可能性，并展示了数据集在提升模型性能中的关键作用。

用最简单的话来解释：LongWriter就像我们教一个会说很多话的智能机器人写故事，但它之前只能写短故事。喜好儿看见，研究人员发现了它写不长的原因——它学习时看的都是短故事。于是，研究人员给它看了一些长故事，并教它如何分成小部分来写。通过这种方法，智能机器人现在可以写出很长的故事了，就像一个真正的作家一样。