LongWriter: Unleashing10，000+ Word Generation from Long Context LLMs

By crabboss 2024 年 8 月 24 日

论文名称：LongWriter: Unleashing10，000+ Word Generation from Long Context LLMs

论文地址：https://arxiv.org/abs/2408.07055

代码：https://github.com/THUDM/LongWriter

大模型的上下文输入长度已经到了100k级别，但是基本上却不乏做到输出2k+ tokens。主要原因来自SFT过程，SFT过程的output中大部分都是short response，这导致模型最终无法生成超长文本。

作者贡献：

为了得到长文本输出，作者使用AgentWrite方法，通过将instruction分解为多个子问题，让大模型根据instruction 和n-1 section已生成的内容来生成n section内容。

AgentWrite共使用了6k的instruction：

最终通过AgentWrite得到LongWriter-6k数据集。

LongWriter 还开发了 LongBench-Write，这是一个用于评估超长生成能力的综合基准。

SFT数据集：LongWriter-6k+GLM4’s SFT-180k;

DPO数据集：GLM-4’s chat DPO data – 50k；

GPT-4o为打分模型；Sl为输出长文本的长度打分；Sq为输出长文本的质量打分；

crabboss 2024 年 8 月 31 日

crabboss 2024 年 8 月 25 日

crabboss 2024 年 8 月 24 日

You Missed