晓查 发自 凹非寺
量子位 | 公众号 QbitAI
如何用几句话向6岁儿童解释登月?
GPT-3给出的答案实在离谱:
向孩子解释引力理论、相对论、大爆炸、进化论……
RLHF总共分三步:
第一步,找一些人写下示范答案,来微调GPT-3模型,训练监督模型baseline。
第二步,收集某个问题的几组不同输出数据,由人类对几组答案进行排序,在此数据集上训练奖励模型。
第三步,使用RM作为奖励函数,近端策略优化(PPO)算法微调GPT-3策略,以强化学习方法最大化奖励。
这种方法存在一个局限性在于它引入了“对齐问题”,因为模型仅根据对齐客户的NLP任务,那么可能会在学术NLP任务上的表现更糟。
OpenAI发现了一个简单的算法更改,可以最大限度地减少该问题:在强化学习微调期间,混合用于训练GPT-3原始数据的一小部分,并使用正态似然对最大化(normal log likelihood maximization)来训练这些数据。
这大致能保持内容安全和符合人类偏好,同时缓解学术任务上的效率下降,在某些情况下甚至超过了GPT-3 baseline。
实验结果在公开数据集上,InstructGPT与GPT-3相比产生的模仿假象更少、有害性更低。而且InstructGPT编造事实的频率较低。
但OpenAI表示InstructGPT仍有许多要改进的地方,比如接受的都是英语的训练,因此偏向于英语文化价值观,给语句标注的人的偏好,也会影响GPT-3的“价值观”。
总之,纠正GPT-3的三观,还有很长的路要走。
参考链接:[1]https://openai.com/blog/instruction-following/[2]https://github.com/openai/following-instructions-human-feedback[3]https://cdn.openai.com/papers/Training_language_models_to_follow_instructions_with_human_feedback.pdf
花粉社群VIP加油站
猜你喜欢