极客时间-轻松学习，高效学习-极客邦

张申傲
2024-07-12 来自北京
第20讲打卡~ 思考题：个人认为RLHF可以算作一种更加复杂的微调技术，它和传统微调的目的一致，都是通过调整模型的参数来改善它的性能。但是相比于传统微调技术，RLHF不仅有预定义好的标注数据，而且还引入了人类反馈作为奖励信号，相当于强化学习+监督学习，所以应该会比传统的微调技术更加复杂、且更与人类的预期保持一致。
2