清华大学教授黄民烈:如何把大模型“调教”成我们放心的样子
褚杏娟

OpenAI 安全团队与公司高层的矛盾由来已久,随着首席科学家 Ilya Sutskever 的离职,大模型的安全问题再次成为舆论中心。业内对大模型的安全问题也形成了两派:一派以杨立昆为代表,他们认为对于安全的紧迫感是过度夸张,另一派则是像 Ilya 等人,坚决认为安全问题刻不容缓。
当我们把视线聚焦到国内,国内对大模型安全问题的容忍度其实更低,当然基于文化不通,对于大模型的监管的侧重点也不同。在 6 月 6 日的 CCF 大模型论坛上,清华大学长聘教授黄民烈介绍了自己正在做的研究课题,几乎都是围绕大模型安全问题。
黄民烈教授表示,超级对齐(Superalignment)不仅是安全,本质上应该是怎么样实现自我进化、自我迭代的学习过程,安全问题只是超级对齐的一个外显性质。
超级对齐技术如今面临着挑战,比如处理不准确的奖励模型和弱标签分类问题等。在现有体系里,不可能一下子就把超级对齐系统做出来,但要从解决小的问题开始,才能逐步实现这样的能力。
黄民烈教授介绍道,目前在超级对齐框架下,其研究团队做了精确对齐算法 EXO,确保在理论上有精准的对齐效果。针对大模型攻击,团队做了目标优先级优化(Goal Prioritization),同时研发的模型安全探测器 ShieldLM,可以判断输出内容是否安全。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 清华大学教授黄民烈强调大模型的安全问题并非被夸大,指出安全问题只是其外显性质,而且大模型的应用范围非常广泛,存在诸多安全挑战。 2. 黄民烈教授的研究团队在超级对齐框架下,开发了精确对齐算法 EXO、模型安全探测器 ShieldLM,以及黑盒提示优化等技术,以解决大模型的安全挑战。 3. 未来的发展方向包括机器智能、情感智能、社交智能融合,以及多模态融合、具身智能等方面的研究,强调了这些方向的重要性。 4. 研究团队还将在Reward function鲁棒性、Human AI协作和识别新风险等方面继续深入研究,以推动大模型安全和发展的进程。 5. 黄民烈教授认为情感是未来AGI里的重要因素,结合机器智能和情感智能才是真正通用人工智能。 6. 他认为未来的AGI将是人类的超级助手,不仅可以完成任务,还能提供情感价值,陪伴、交流、解压。 7. 黄民烈教授指出大模型的发展已经进入瓶颈期,未来的发展方向包括多模态融合和具身智能。 8. 他强调了对大模型边界的探索和拓宽,以及大模型在推理可信度、可靠性、幻觉等方面的优化空间。 9. 未来的大模型发展方向可能会包括多模态融合、具身智能和工具属性与情感社交属性的结合,以实现真正的AGI时代的companion。 10. 黄民烈教授的研究团队开发的技术,包括目标优先级优化、黑盒提示优化以及自动修正模型弱点等,旨在提高大模型的安全性和性能。
该试读文章来自《AI 前线》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论