tulu3

| 选择喜欢的代码风格  

tulu3 参数量


8b 70b
 

tulu3 模型介绍



Tülu 3

Tülu3 是领先的指令跟随模型系列,提供完全开源的数据、代码和配方,旨在作为现代训练后技术的全面指南。除了聊天之外,Tülu3 还旨在在 MATH、GSM8K 和 IFEval 等各种任务上实现一流的性能

 

tulu3 模型描述


  • 模型类型:基于公开、合成和人工创建的数据集进行训练的模型。
  • 语言(NLP):主要为英语
  • 许可证:Llama 3.1 社区许可协议
  • 从模型微调:allenai/Llama-3.1-Tulu-3-8B-DPO

 

tulu3 模型后训练


每个人通常都会考虑预训练阶段,这个阶段需要数百万美元的计算和数万亿个 token。但预训练阶段结束时的模型尚未准备好使用;它缺乏安全措施,无法有效地遵循人类的指令。这就是为什么我们要进行后训练,这通常包括指令微调和从人类反馈中学习,以使模型为各种下游用例做好准备。

语言模型后训练的早期工作遵循了 InstructGPT 等模型开创的标准方法,包括指令调整和偏好微调。然而,后训练是一个具有挑战性的过程;当你教模型更专业的能力,比如编码技能时,你可能会削弱其他能力,比如写诗或遵循指令。获得正确的数据组合和超参数,使模型能够获得新知识和技能,而不会失去其一般能力,这是一项棘手的工作。

为了解决这个问题,OpenAI、Anthropic、Meta 和谷歌等大型模型训练师增加了后训练方法的复杂性和复杂性,转向多轮训练、人工数据加合成数据,以及多种训练算法和训练目标。这就是为什么你经常可以在这些模型中看到专业知识和一般能力。然而,他们的训练数据和训练配方对用户来说都不透明。

到目前为止,开源后训练一直落后于封闭模型。在 LMSYS 的 ChatBotArena 上,前 50 名(截至 2024 年 11 月 20 日)中没有一个模型发布过其训练后数据。即使是主要的开放权重模型也不会发布他们用来实现这种训练后魔法的任何数据或配方细节。

今天,我们发布了 Tülu 3,这是一系列开放的最先进的训练后模型,以及所有数据、数据混合、配方、代码、基础设施和评估框架。Tülu 3 突破了训练后研究的界限,缩小了开放和封闭微调配方之间的性能差距。为了缩小这一差距,我们需要创建新的数据集和新的训练程序。我们引入了直接针对强化学习的可验证问题进行训练的新方法,以及如何使用模型自身的生成来创建高性能偏好数据。

我们最好的模型来自一个复杂的训练过程,该过程将专有方法的部分细节与新技术和成熟的学术研究相结合。我们的成功源于精心的数据管理、严格的实验、创新的方法和改进的训练基础设施。我们遵循系统指南,通过创建开发和测试集进行评估,并对公开可用的数据集进行仔细的净化,对这一过程进行科学评估。在 Tülu 3 中,我们记录了所有这些工作,并报告了负面结果,以节省开放研究社区的努力。

 

AI 扩展阅读:




发表评论