据悉，微软的研究人员正在试图教会计算机什么是“恐惧”。他们在 ICLR 上发表了一篇论文，提出一种强化学习框架，即 RL。该框架结合了用于实现特定任务目标的奖励函数，并且还最小化了与压力相关的对环境的生理响应的训练成本。
为了验证具有外在和内在成分的这种奖励函数是否在强化学习环境中有用，他们在驾驶任务中，训练了一个加入了真实人类生理反应的模型。
在现实世界中应用 RL 的主要挑战包括需要大量的训练数据、以及相关的故障案例。例如，当在自动驾驶中使用 RL 时，奖励通常是稀疏和倾斜的。不良行为可能导致灾难性的后果，并且恢复成本非常昂贵。
RL 的大部分工作都是有任务或目标依赖性的，而人类还会根据神经系统的反应做出决策。在强化学习智能体中加入这种机制，有助于降低样本的复杂性。因为奖励可以持续获得，并且在任务结束之前就可以发出成功或失败的信号。这些生理反应信号提供了警告机制，反过来又可以导致更安全的探索。
研究人员邀请了 4 位拥有 7 年驾龄的老司机，2 男 2 女，并在他们的手指上安装探测机，以记录在驾驶模拟器中的脉搏振幅。并训练了五个模型，每个参与者对应一个模型，另外一个统一面向全部参与者。
针对每种情况下，来自实验记录的前 75％的帧作为训练样例，后 25％作为测试数据。训练分组中的数据是随机的，并且使用了一个拥有 128 个实例的 batch。
奖励模型训练期间的损失是均方误差。每个模型训练 50 个时期，之后所有模型的训练均方根误差（RMSE）损失小于 0.1。然后在独立测试集上计算 RMSE，对于所有参与者，RMSE 在 0.10 和 0.19 之间。
随机预测的测试损失平均为 0.210。在所有情况下，CNN 模型损失显著低于随机预测损失（基于未配对的 T 检验）。
根据 Science 报道，该实验仍然需要碰撞实验来验证模型的效果，但一个会恐惧的 AI 需要的碰撞数据，要比无所畏惧的 AI 少 1/4。
研究人类情绪的方法之一是研究人体内发生的无意识和不可控的变化。由于神经图像和神经技术的最新进展，人们可以精确测量这些变化，然后进行研究。
但这其中面临的一些困难，例如反向推理问题（没有与每种情绪相关的特定体细胞模式），主体间变异（没有两个大脑是相同的），以及主体间变异（一个人的大脑变化和进化），导致研究人员还无法创建一种能够复制人类情绪的算法。
原文链接：https://openreview.net/pdf?id=SyNvti09KQ

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

该免费文章来自《极客视点》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

全部留言(1)

最新
精选

有风的林子
让AI学会恐惧？然后继承人类的缺陷，然后世界就没有然后了……



收起评论



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部