极客时间-轻松学习，高效学习-极客邦

骨汤鸡蛋面
2023-09-15 来自上海
sft model 相对于pretrained model 或base model，有一定的指令识别和意图识别能力，但是产生的内容可能不符合人类期待，所有有一个对齐的过程，因此，我们要如何优化sft model，尤其是符合人类期待的方式优化sft model，这就是reward model 所起的作用。从这个视角看，其实再多找一些“问题-回答对”来微调 sft model 应该也关系不大，但这样成本就比较高了，所以干脆造一个工具 reward model 给 sft model 的产出打分也是个不错的方向。就好比家长、老师会教你说话做事的正确答案，但教的总是有限的，也不一定对，到社会上没人教你，你只能通过别人的脸色、反应来判断做的好或不好。