好消息：OpenAI 突然发了新模型！坏消息：只是纠错，没你想得逆天

华卫

整理  |  华卫
对于  ChatGPT  等聊天机器人提供支持的大型语言模型来说，最大问题之一是，永远不知道何时可以信任它们。它们可以针对任何问题生成清晰而有说服力的答案，并且提供的大部分信息都是准确而有用的，但它们也会产生幻觉。用不太礼貌的话来说，它们会胡编乱造，需要人类用户自己去发现错误。它们还会阿谀奉承，试图告诉用户他们想听的内容。
如今，OpenAI在这个问题的解决上迈出了最新的一小步：开发了一种上游工具，能够帮助训练模型的人类引导模型走向真实和准确。
6 月 27 日，OpenAI 宣布，其研究人员训练了一个用于捕捉 ChatGPT  代码输出错误的模型，名为  CriticGPT。CriticGPT  是一个基于  GPT-4  的模型，它撰写了对  ChatGPT  响应的评论，以帮助人类训练师在  RLHF  期间发现错误。
OpenAI 发现，当人们在  CriticGPT  的帮助下审阅  ChatGPT  代码时，他们在 60%  的情况下比没有  CriticGPT  帮助的人表现得更好。因此，目前 OpenAI 正在着手将类似  CriticGPT  的模型集成到其人类反馈强化学习  （RLHF）   标签管道中，为自己的人类训练师提供明确的人工智能帮助。
“这是朝着能够评估高级人工智能系统输出的目标，迈出的关键一步。如果没有更好的工具，人们很难对这些结果进行评分。”OpenAI 这样评价 CriticGPT。同时，OpenAI 发布了详细介绍 CriticGPT 背后技术的预印本论文。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. OpenAI发布了新模型CriticGPT，用于捕捉ChatGPT代码输出错误，帮助人类训练师发现模型输出中的不准确之处。 2. CriticGPT是基于GPT-4的模型，通过撰写对ChatGPT响应的评论来帮助人类训练师在RLHF期间发现错误。 3. OpenAI发现，当人们在CriticGPT的帮助下审阅ChatGPT代码时，他们在60%的情况下比没有CriticGPT帮助的人表现得更好。 4. CriticGPT不仅局限于代码审查，还具有推广到非代码任务的潜力和捕捉细微错误的能力。 5. CriticGPT使用RLHF进行训练，能够捕捉插入的错误，并帮助人类训练师在代码中发现更多的问题。 6. CriticGPT的功能不仅限于代码审查，还可以应用于ChatGPT训练数据的非代码任务，发现了24%的错误。 7. CriticGPT的训练方法包括使用RLHF进行训练，并通过额外的测试时搜索生成更长、更全面的批评。 8. CriticGPT的局限性包括对复杂任务的限制，产生幻觉和无法解决分散的错误等问题。 9. OpenAI计划进一步扩大CriticGPT的工作规模并将其付诸实践，以调整日益复杂的人工智能系统。

该试读文章来自《AI 前线》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论