• 骨汤鸡蛋面
    2023-09-15 来自上海
    sft model 相对于pretrained model 或base model,有一定的指令识别和意图识别能力,但是产生的内容可能不符合人类期待,所有有一个对齐的过程,因此,我们要如何优化sft model,尤其是符合人类期待的方式优化sft model,这就是reward model 所起的作用。从这个视角看,其实再多找一些“问题-回答对”来微调 sft model 应该也关系不大,但这样成本就比较高了,所以干脆造一个工具 reward model 给 sft model 的产出打分也是个不错的方向。就好比家长、老师会教你说话做事的正确答案,但教的总是有限的,也不一定对,到社会上没人教你,你只能通过别人的脸色、反应来判断做的好或不好。
    
    