赵峰
2026-02-13
来自山东
RLHF和DPO只对齐人类主观偏好,优化语言通俗、共情、安抚,不关心客观事实。RLVR只对齐可量化的客观价值。应该用 SFT 做底座 + DPO 做基础友好 + RLVR 做事实刚性约束 + 轻量 RLHF 做高风险精修