若水清菡
2025-08-15
来自北京
假如你发现企业模型对某类问题总是语焉不详,回答模糊不清,你会考虑采用哪种对齐机制来优化?为什么? 这个我觉得应该分两个方向: 第一判断企业模型对这类问题的回答是“宁可不说错,也不多说话”的风格,这种就需要 在RLHF 阶段强化了“表达态度、贴近人类价值”的奖励倾向; 第二判断企业模型对这类问题的回答是“缺少明确的原则,比如模型回答必须明确反对文化优劣论等”,这种就需要引入Constitutional AI机制设置一些明确的规则 ,用它来自我约束输出行为; 第三就是这类问题回答不到点上,比如回答的答案与其他模型相差很大,可以考虑加入多模型互评机制,针对此类问题使用竞品模型来完善输出。