OpenAI 研究人员微调 GPT-4 模型,训练「CriticGPT」用於找出 ChatGPT 生成程式码的错误,帮助大型语言模型生成内容更精确。
驱动 ChatGPT 背後采用了 GPT-4,OpenAI 使用基於人类意见回馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来对齐。RLHF 是一种机器学习技术,以人类的意见回馈微调模型,判断模型生成内容是否连贯、准确、不令人反感。AI 训练人员给出评分回馈到驱动模型运作的演算法。为使 ChatGPT 这类聊天机器人更可靠并防止行为不正,RLHF 扮演的角色相当重要,却使 ChatGPT 错误更加微妙、不易发现。
一篇《LLM Critics Help Catch LLM Bugs》新论文叙述,OpenAI 开发出 CriticGPT,做为 AI 训练人员的新助手,负责检视 ChatGPT 生成程式码并指出错误,帮助人们发现可能被忽略的错误。
事实上,CriticGPT 也使用 RLHF 进行训练;但与 ChatGPT 不同的是,OpenAI 研究人员故意插入大量错误程式码的资料训练 CriticGPT,教导它辨识和标记各种程式码错误,CriticGPT 必须对程式码错误做出评论。
▲ CriticGPT 找出 ChatGPT 生成程式码的错误。(Source:OpenAI Blog)
OpenAI 规划将类似 CriticGPT 的模型整合至 RLHF 标注流程中,为 AI 训练人员提供明确帮助。CriticGPT 有助於 OpenAI 训练出更强大的模型,确保生成内容值得信赖,符合人类价值观。
- OpenAI Wants AI to Help Humans Train AI
- OpenAI’s new “CriticGPT” model is trained to criticize GPT-4 outputs
- OpenAI develops AI model to critique its AI models
(首图来源:Unsplash)