• 赵峰
    2026-02-15 来自山东
    如何平衡“模仿历史”与“超越历史”之间的矛盾?1、对高风险场景(机器人、自动驾驶、金融交易),优先限制动作空间,禁止策略跑到数据外。2、在安全区内,用保守 Q 学习(如 CQL 思想)做价值修正,而不是完全克隆行为。 允许在见过的状态里选更好的动作,但不允许探索完全陌生的区域。
    
    
  • 赵峰
    2026-02-15 来自山东
    BCQ是硬约束,在动作空间上做了限制。CQL是软约束,在价值函数上面的保守选择。
    
    
  • 赵峰
    2026-02-15 来自山东
    1、分布偏移: BCQ是通过限制动作空间,不让策略跑到数据外的未知区域。 CQL 通过减少策略生成的 Q 值的期望,并增加数据中真实动作的 Q 值的期望,确保估计值函数更加保守。这意味着对于在历史数据中未出现过或出现很少的状态 - 动作对,CQL 不会给予过高的 Q 值估计,从而有效降低了分布偏移带来的不良影响。 2、Q值过高估计: BCQ 采用了双 Q 网络结构。通过两个 Q 网络对动作价值进行估计,并取两者中的最小值,能够有效减少估计误差,使智能体的决策更加保守和可靠。 CQL为了防止 Q 值在各个状态上(尤其是不在数据集中的状态上)的过高估计,我们要对某些状态上的 Q 高值进行惩罚。
    
    