ctpn算法(算法tsp)

服务器教程 建站分享 2年前 (2023-05-11) 146次浏览

文章摘要:ctpn算法(算法tsp)

chatgpt的算法原理基于GPT-3。首先通过人工标注训练强化学习的冷启动模型和奖励反馈模型,最后通过强化学 […]

chatgpt的算法原理基于GPT-3。首先通过人工标注训练强化学习的冷启动模型和奖励反馈模型,最后通过强化学习学习对话友好的ChatGPT模型。

InstructGPT是基于GPT-3模型训练的。具体步骤如下:

1.从 GPT-3 输入句子数据集中采样一些输入。基于这些输入,人工完成标注后,希望得到输出结果和行为,然后利用这些标注数据进行GPT-3的监督训练。该模型作为命令式 GPT 的冷启动模型。
2.在采样的输入语句中,进行正向推理得到多个模型输出结果,并通过人工标注对这些输出结果进行排序和标记。最后,这些标记数据用于训练奖励反馈模型。
3.对新的输入语句进行采样,策略策略网络产生输出结果,然后通过奖励反馈模型计算反馈,反馈依次作用于策略策略网络。重复这一点,这是标准的强化学习训练框架。

所以总结一下,ChatGPT(Dialogue GPT)其实和InstructGPT(Instructive GPT)是同源模型,然后Instructive GPT是基于GPT-3的。学习了冷启动模型和奖励反馈模型,最后通过强化学习学习了一个对话友好的ChatGPT模型。下面是论文中对应对话友好型的量化结果(PPO-ptx曲线为InstructGPT模型),可以看出InstructGPT在回答友好型方面远超原版GPT:


声明:
若非注明,本站文章源于互联网收集整理和网友分享发布,如有侵权,请联系站长处理。
文章名称:ctpn算法(算法tsp)
文章链接:http://www.7966.org/post/24750.html
转载请注明出处

喜欢 (0)