好消息:OpenAI 突然发了新模型!坏消息:只是纠错,没你想得逆天
华卫

整理 | 华卫
对于 ChatGPT 等聊天机器人提供支持的大型语言模型来说,最大问题之一是,永远不知道何时可以信任它们。它们可以针对任何问题生成清晰而有说服力的答案,并且提供的大部分信息都是准确而有用的,但它们也会产生幻觉。用不太礼貌的话来说,它们会胡编乱造,需要人类用户自己去发现错误。它们还会阿谀奉承,试图告诉用户他们想听的内容。
6 月 27 日,OpenAI 宣布,其研究人员训练了一个用于捕捉 ChatGPT 代码输出错误的模型,名为 CriticGPT。CriticGPT 是一个基于 GPT-4 的模型,它撰写了对 ChatGPT 响应的评论,以帮助人类训练师在 RLHF 期间发现错误。
OpenAI 发现,当人们在 CriticGPT 的帮助下审阅 ChatGPT 代码时,他们在 60% 的情况下比没有 CriticGPT 帮助的人表现得更好。因此,目前 OpenAI 正在着手将类似 CriticGPT 的模型集成到其人类反馈强化学习 (RLHF) 标签管道中,为自己的人类训练师提供明确的人工智能帮助。
“这是朝着能够评估高级人工智能系统输出的目标,迈出的关键一步。如果没有更好的工具,人们很难对这些结果进行评分。”OpenAI 这样评价 CriticGPT。同时,OpenAI 发布了详细介绍 CriticGPT 背后技术的预印本论文。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. OpenAI发布了新模型CriticGPT,用于捕捉ChatGPT代码输出错误,帮助人类训练师发现模型输出中的不准确之处。 2. CriticGPT是基于GPT-4的模型,通过撰写对ChatGPT响应的评论来帮助人类训练师在RLHF期间发现错误。 3. OpenAI发现,当人们在CriticGPT的帮助下审阅ChatGPT代码时,他们在60%的情况下比没有CriticGPT帮助的人表现得更好。 4. CriticGPT不仅局限于代码审查,还具有推广到非代码任务的潜力和捕捉细微错误的能力。 5. CriticGPT使用RLHF进行训练,能够捕捉插入的错误,并帮助人类训练师在代码中发现更多的问题。 6. CriticGPT的功能不仅限于代码审查,还可以应用于ChatGPT训练数据的非代码任务,发现了24%的错误。 7. CriticGPT的训练方法包括使用RLHF进行训练,并通过额外的测试时搜索生成更长、更全面的批评。 8. CriticGPT的局限性包括对复杂任务的限制,产生幻觉和无法解决分散的错误等问题。 9. OpenAI计划进一步扩大CriticGPT的工作规模并将其付诸实践,以调整日益复杂的人工智能系统。
该试读文章来自《AI 前线》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论