• 赵峰
    2025-12-19 来自山东
    自适应平衡探索与利用:无需手动调整探索参数(如 ε- 贪心的 ε、UCB 的 c),通过后验分布的自然演化实现动态平衡。 高效利用不确定性:奖励不确定性高的手臂(后验分布分散)被采样到高值的概率更高,从而被优先探索;确定性高的手臂则以高概率被利用。计算复杂度低:每次决策只需采样和比较,适合大规模问题(如 K 很大的场景)。 贝叶斯解释性强:直接基于概率模型建模不确定性,结果可解释性好。
    
    