-
4o,4,算法,大模型,98%合成数据训出最强开源通用模型!性能对标GPT,gpt,英伟达开源3400亿巨兽
- 核心提示
-
4o,4,算法,大模型,98%合成数据训出最强开源通用模型!性能对标GPT,gpt,英伟达开源3400亿巨兽
- 详情
-
合成两轮提示
在策略学习区分选择和被拒绝的响应时,可以观察到,随着差距的增加,选择和被拒绝响应的概率都在一致地下降,即使选择的响应是高质量的。
(2)当使用相同的基础模型时,数据集的质量决定了指令模型的效果,数据质量越高,指令模型也越强。
用于合成提示生成的提示如下:
代码:HumanEval(零样本)和 MBPP(零样本)上的Pass@1得分
为了解决这些问题,英伟达在选择的响应上添加了加权的SFT损失,以补充原始的DPO损失。
其实,以前这个模型就曾登上大模型竞技场LMSys Chatbot Arena,当时它的别名是「june-chatbot」
为了提高模型质量,开发者可以使用NeMo Aligner和由Nemotron-4 340B奖励模型标注的数据集来对齐模型。
编辑:Aeneas 好困
函数调用
一些任务可以使用基准真相(例如GSM8K和MATH训练数据集中的答案)或验证器(例如指令跟随响应可以用 Python程序验证)来评估。
在第一种情况中,英伟达向裁判的大语言模型提供提示和两个响应,并要求其比较这两个响应。
人类评估
DPO阶段进一步提升了大多数指标,但MT-Bench的得分略有下降;
在完成监督微调后,英伟达继续通过偏好微调来改进模型。
这就能帮助模型,在任务导向的交互中更好地专注于预定的主题。
这个迭代过程形成了一个自我强化的飞轮效应,改进主要来自两个方面——
合成偏好数据生成
除此之外,Nemotron-4 340B还有一个非常显著的特点——对商用十分友好的许可。
对于每个提示给出的多个响应,英伟达都需要对其偏好排序进行判断,并选择出被选中的响应和被拒绝的响应。
新智元报道
结果显示,随着RPO迭代次数的增加,模型还可以持续地在所有任务上获得提升。
最后的RPO阶段均匀地提升了所有指标。特别是,MT-Bench得分从7.90增加到8.22,IFEval Prompt-Strict-Acc的得分从61.7增加到79.9。
具体来说,先随机选择一些合成提示。对于每个合成提示,从「可验证」指令模板中随机生成一个合成指令(例如,「你的回答应包含三个段落」)。然后,使用手动定义的模板将提示和指令连接在一起。
STEM数据集