文章摘要:ctpn算法(算法tsp)
chatgpt的算法原理基于GPT-3。首先通过人工标注训练强化学习的冷启动模型和奖励反馈模型,最后通过强化学 […]
chatgpt的算法原理基于GPT-3。首先通过人工标注训练强化学习的冷启动模型和奖励反馈模型,最后通过强化学习学习对话友好的ChatGPT模型。
InstructGPT是基于GPT-3模型训练的。具体步骤如下:
1.从 GPT-3 输入句子数据集中采样一些输入。基于这些输入,人工完成标注后,希望得到输出结果和行为,然后利用这些标注数据进行GPT-3的监督训练。该模型作为命令式 GPT 的冷启动模型。
2.在采样的输入语句中,进行正向推理得到多个模型输出结果,并通过人工标注对这些输出结果进行排序和标记。最后,这些标记数据用于训练奖励反馈模型。
3.对新的输入语句进行采样,策略策略网络产生输出结果,然后通过奖励反馈模型计算反馈,反馈依次作用于策略策略网络。重复这一点,这是标准的强化学习训练框架。
所以总结一下,ChatGPT(Dialogue GPT)其实和InstructGPT(Instructive GPT)是同源模型,然后Instructive GPT是基于GPT-3的。学习了冷启动模型和奖励反馈模型,最后通过强化学习学习了一个对话友好的ChatGPT模型。下面是论文中对应对话友好型的量化结果(PPO-ptx曲线为InstructGPT模型),可以看出InstructGPT在回答友好型方面远超原版GPT: p>