1核心提示

4o,4,算法,大模型,98%合成数据训出最强开源通用模型!性能对标GPT,gpt,英伟达开源3400亿巨兽

2发布时间

时间:2024-10-08   浏览41
发布人:金卡智能集团股份有限公司

3资讯详情

 

合成两轮提示

在策略学习区分选择和被拒绝的响应时,可以观察到,随着差距的增加,选择和被拒绝响应的概率都在一致地下降,即使选择的响应是高质量的。

(2)当使用相同的基础模型时,数据集的质量决定了指令模型的效果,数据质量越高,指令模型也越强。

用于合成提示生成的提示如下:

代码:HumanEval(零样本)和 MBPP(零样本)上的Pass@1得分

为了解决这些问题,英伟达在选择的响应上添加了加权的SFT损失,以补充原始的DPO损失。

其实,以前这个模型就曾登上大模型竞技场LMSys Chatbot Arena,当时它的别名是「june-chatbot」

为了提高模型质量,开发者可以使用NeMo Aligner和由Nemotron-4 340B奖励模型标注的数据集来对齐模型。

编辑:Aeneas 好困

函数调用

一些任务可以使用基准真相(例如GSM8K和MATH训练数据集中的答案)或验证器(例如指令跟随响应可以用 Python程序验证)来评估。

在第一种情况中,英伟达向裁判的大语言模型提供提示和两个响应,并要求其比较这两个响应。

人类评估

DPO阶段进一步提升了大多数指标,但MT-Bench的得分略有下降;

在完成监督微调后,英伟达继续通过偏好微调来改进模型。

这就能帮助模型,在任务导向的交互中更好地专注于预定的主题。

这个迭代过程形成了一个自我强化的飞轮效应,改进主要来自两个方面——

合成偏好数据生成

除此之外,Nemotron-4 340B还有一个非常显著的特点——对商用十分友好的许可。

对于每个提示给出的多个响应,英伟达都需要对其偏好排序进行判断,并选择出被选中的响应和被拒绝的响应。

新智元报道

结果显示,随着RPO迭代次数的增加,模型还可以持续地在所有任务上获得提升。

最后的RPO阶段均匀地提升了所有指标。特别是,MT-Bench得分从7.90增加到8.22,IFEval Prompt-Strict-Acc的得分从61.7增加到79.9。

具体来说,先随机选择一些合成提示。对于每个合成提示,从「可验证」指令模板中随机生成一个合成指令(例如,「你的回答应包含三个段落」)。然后,使用手动定义的模板将提示和指令连接在一起。

STEM数据集

4大家还在看:

0.0028 second(s), 6 Queries