【AI论文与新生技术】清华开源模型LongWriter:从长上下文中释放 10,000 多个单词生成LLMs

喜好儿小斥候消息,当前的长上下文大语言模型(LLMs )可以处理多达 100,000 个标记的输入,但很难生成超过 2,000 个单词的适度长度的输出。通过受控实验,研究人员发现LongWriter的有效生成长度本质上受到监督微调(SFT)期间看到的样本的限制。换句话说,输出限制是由于现有 SFT 数据集中缺乏长输出示例。

为了解决这个问题,研究人员引入了 AgentWrite,这是一种基于代理的管道,可将超长生成任务分解为子任务,从而实现现成的LLMs生成超过 20,000 个单词的连贯输出。利用AgentWrite,他们构建了 LongWriter-6k,这是一个包含 6,000 个 SFT 数据的数据集,输出长度范围为 2k 到 32k 个单词。

通过将该数据集合并到模型训练中,他们成功地将现有模型的输出长度扩展到 10,000 多个单词,同时保持输出质量。他们还开发了 LongBench-Write,这是一个评估超长生成能力的综合基准。他们的 9B 参数模型通过 DPO 进一步改进,在该基准测试中实现了最先进的性能,超越了更大的专有模型。总的来说,他们的工作表明现有的长背景LLM已经具备了更大输出窗口的潜力——您所需要的只是在模型对齐期间具有扩展输出的数据来解锁此功能。

(清华开源模型LongWriter代码、模型获取、在线体验链接在下方👇)

AI论文与新生技术专题:
https://heehel.com/collection/topic-aipapers-jiaocheng

【AI论文与新生技术】清华开源模型LongWriter:从长上下文中释放 10,000 多个单词生成LLMs

简单来说,这项工作的发现是,现有的大型语言模型已经具备了生成更长输出的潜力,只需要在模型对齐期间使用扩展输出的数据来解锁这一能力。LongWriter为未来大型语言模型的输出长度扩展提供了新的可能性,并展示了数据集在提升模型性能中的关键作用。

用最简单的话来解释:LongWriter就像我们教一个会说很多话的智能机器人写故事,但它之前只能写短故事。喜好儿看见,研究人员发现了它写不长的原因——它学习时看的都是短故事。于是,研究人员给它看了一些长故事,并教它如何分成小部分来写。通过这种方法,智能机器人现在可以写出很长的故事了,就像一个真正的作家一样。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索