• 张申傲
    2024-07-12 来自北京
    第20讲打卡~ 思考题:个人认为RLHF可以算作一种更加复杂的微调技术,它和传统微调的目的一致,都是通过调整模型的参数来改善它的性能。但是相比于传统微调技术,RLHF不仅有预定义好的标注数据,而且还引入了人类反馈作为奖励信号,相当于强化学习+监督学习,所以应该会比传统的微调技术更加复杂、且更与人类的预期保持一致。
    
    2