1核心提示

4o,4,算法,大模型,98%合成数据训出最强开源通用模型！性能对标GPT,gpt,英伟达开源3400亿巨兽

3资讯详情

合成两轮提示

在策略学习区分选择和被拒绝的响应时，可以观察到，随着差距的增加，选择和被拒绝响应的概率都在一致地下降，即使选择的响应是高质量的。

(2）当使用相同的基础模型时，数据集的质量决定了指令模型的效果，数据质量越高，指令模型也越强。

用于合成提示生成的提示如下：

代码：HumanEval（零样本）和 MBPP（零样本）上的Pass@1得分

为了解决这些问题，英伟达在选择的响应上添加了加权的SFT损失，以补充原始的DPO损失。

其实，以前这个模型就曾登上大模型竞技场LMSys Chatbot Arena，当时它的别名是「june-chatbot」

为了提高模型质量，开发者可以使用NeMo Aligner和由Nemotron-4 340B奖励模型标注的数据集来对齐模型。

编辑：Aeneas 好困

函数调用

一些任务可以使用基准真相（例如GSM8K和MATH训练数据集中的答案）或验证器（例如指令跟随响应可以用 Python程序验证）来评估。

在第一种情况中，英伟达向裁判的大语言模型提供提示和两个响应，并要求其比较这两个响应。

人类评估

DPO阶段进一步提升了大多数指标，但MT-Bench的得分略有下降；

在完成监督微调后，英伟达继续通过偏好微调来改进模型。

这就能帮助模型，在任务导向的交互中更好地专注于预定的主题。

这个迭代过程形成了一个自我强化的飞轮效应，改进主要来自两个方面——

合成偏好数据生成

除此之外，Nemotron-4 340B还有一个非常显著的特点——对商用十分友好的许可。

对于每个提示给出的多个响应，英伟达都需要对其偏好排序进行判断，并选择出被选中的响应和被拒绝的响应。

新智元报道

结果显示，随着RPO迭代次数的增加，模型还可以持续地在所有任务上获得提升。

最后的RPO阶段均匀地提升了所有指标。特别是，MT-Bench得分从7.90增加到8.22，IFEval Prompt-Strict-Acc的得分从61.7增加到79.9。

具体来说，先随机选择一些合成提示。对于每个合成提示，从「可验证」指令模板中随机生成一个合成指令（例如，「你的回答应包含三个段落」）。然后，使用手动定义的模板将提示和指令连接在一起。

STEM数据集