揭秘抱抱脸OpenAI的秘密武器，网易参与复现

阿菜热点要闻 2024-04-08 09:26:47

抱抱脸OpenAI的秘密武器RLHF一直是人们热议的话题，最近被开源了。Hugging Face、加拿大蒙特利尔Mila研究所、网易伏羲AI Lab的研究人员从零开始复现了OpenAI的RLHF pipeline，罗列了25个关键实施细节。他们成功展示了随着模型大小的增加，响应质量显著提升的scaling行为，其中2.8B、6.9B的Pythia模型在性能上超过了OpenAI发布的1.3B checkpoint。

除了已公开发布的训练好的模型checkpoint和代码外，还有一个初步的Pythia1.4B实验，显示这个1.4B模型非常接近OpenAI的1.3B性能。研究人员表示，他们的独特之处在于对SFT、RM和PPO使用了单一的学习率，使得再现工作更加简单。

Hugging Face最近上了一把新闻，抱抱脸现在是正式译名了。大语言模型的功能实质上就是在玩“词语接龙”，通过RLHF方法收集人类偏好，训练奖励模型(RM)来对这些偏好进行建模，并使用强化学习(RL)创建一个模型来输出人类喜欢的内容。OpenAI一直在探索RLHF，取得了显著进展。

在2020年的“Learning to summarize from human feedback”工作中，OpenAI将RLHF应用到摘要任务中，取得了优异的成绩。2022年的“Training language models to follow instructions with human feedback”工作中，RLHF再次被使用，为指令遵循任务而专门设计的InstructGPT诞生，成为GPT-3到ChatGPT的过渡论文。

RLHF作为秘密武器，开源界围绕着它做了不少工作，但要重现OpenAI的RLHF pipeline并不容易。主要原因在于RL和RLHF的微妙实现细节，评估模型表现的困难以及长时间的训练和迭代。因此，Hugging Face选择从OpenAI早期的RLHF工作中探寻OpenAI的RLHF的真面目，深入分析25个复现细节。