自然语言处理实证方法会议 EMNLP（Conference on Empirical Methods in Natural Language Processing），是由国际计算语言学协会 ACL（Association for Computational Linguistics）的专委会 SIGDAT（Special Interest Group on Linguistic Data and Corpus-based Approaches to NLP）主办，每年召开一次，颇具影响力和规模，是自然语言处理类的顶级国际会议。从 1996 年开始举办，已经有 20 多年的历史。2017 年的 EMNLP 大会于 9 月 7 日到 11 日在丹麦的哥本哈根举行。
每年大会都会在众多的学术论文中挑选出两篇最具价值的论文作为最佳长论文（Best Long Paper Award）。 今天，我就带你认真剖析一下 EMNLP 今年的最佳长论文，题目是《男性也喜欢购物：使用语料库级别的约束条件减少性别偏见的放大程度》（Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints） 。这篇文章也是很应景，近期学术圈对于数据和机器学习算法有可能带来的“偏见”（Bias）感到关切，有不少学者都在研究如何能对这些偏见进行评估、检测，进而可以改进甚至消除。
作者群信息介绍第一作者赵洁玉（Jieyu Zhao），论文发表的时候在弗吉尼亚大学计算机系攻读博士学位，目前，已转学到加州大学洛杉矶分校，从事如何从机器学习算法中探测和消除偏见的研究。之前她从北京航空航天大学获得学士和硕士学位，曾于 2016 年在滴滴研究院实习。
第二作者王天露（Tianlu Wang）也是来自弗吉尼亚大学计算机系的博士生，之前在浙江大学获得计算机学士学位。第三作者马克·雅茨卡尔（Mark Yatskar）是来自华盛顿大学的计算机系博士生，已在自然语言处理以及图像处理领域发表过多篇高质量论文。
第四作者文森特（Vicente Ordóñez）目前在弗吉尼亚大学计算机系任助理教授。他的研究方向是自然语言处理以及计算机视觉的交叉学科。他于 2015 年从北卡罗来纳大学教堂山分校计算机系博士毕业。博士期间，他在微软研究院、eBay 研究院以及谷歌都有过实习经历。他是第二作者王天露的博士导师。
文章最后一位作者是 Kai-Wei Chang，也是第一作者赵洁玉的导师。他目前在加州大学洛杉矶分校任助理教授，之前在弗吉尼亚大学任职。他于 2015 年从伊利诺伊大学香槟分校博士毕业，师从著名教授丹·罗斯（Dan Roth）。在之前的研究生涯中，曾先后 3 次在微软研究院实习，也在谷歌研究院实习过。在他研究的早期，曾参与了 LibLinear 这个著名支持向量机软件的研发工作。
论文的主要贡献机器学习的一个重要任务就是通过数据来学习某些具体事项。最近机器学习的研究人员发现，数据中可能蕴含着一些社会赋予的偏见，而机器学习算法很有可能会放大这些偏见。这种情况在自然语言处理的相关任务中可能更为明显。比如，在一些数据集里，“做饭”这个词和“女性”这个词一起出现的比例可能要比和“男性”一起出现的比例高 30%，经过机器学习算法在这个数据集训练之后，这个比例在测试数据集上可能就高达 68% 了。因此，虽然在数据集里，社会偏见已经有所呈现，但是这种偏见被机器学习算法放大了。
因此，这篇文章的核心思想就是，如何设计出算法能够消除这种放大的偏见，使得机器学习算法能够更加“公平”。注意，这里说的是消除放大的偏见，而不是追求绝对的平衡。比如，我们刚才提到的数据集，训练集里已经表现出“女性”和“做饭”一起出现的频率要高于“男性”和“做饭”一起出现的频率。那么，算法需要做的是使这个频率不会进一步在测试集里升高，也就是说，保持之前的 30% 的差距，而不把这个差距扩大。这篇文章并不是追求把这个差距人为地调整到相同的状态。
文章提出了一个限制优化（Constrained Optimization）算法，为测试数据建立限制条件，使机器学习算法的结果在测试集上能够得到和训练集上相似的偏见比例。注意，这是对已有测试结果的一个调整（Calibration），因此可以应用在多种不同的算法上。
作者们使用提出的算法在两个数据集上做了实验，得到的结果是，新的测试结果不但能够大幅度（高达 30% 至 40%）地减小偏见，还能基本保持原来的测试准确度。可见，提出的算法效果显著。
论文的核心方法那么，作者们提出的究竟是一种什么方法呢？

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

EMNLP 2017年度最佳长论文《男性也喜欢购物：使用语料库级别的约束条件减少性别偏见的放大程度》探讨了机器学习算法中可能存在的性别偏见放大问题，并提出了一种限制优化算法，旨在消除这种放大的偏见，使机器学习算法更加“公平”。该算法通过对测试集的预测标签进行重新选择，使测试标签的预测结果和期待的分布相近，从而减小偏见的放大程度。作者们在两个数据集上进行了实验，结果显示，新的测试结果不但能够大幅度减小偏见，还能基本保持原来的测试准确度。这一研究为解决机器学习算法中的性别偏见问题提供了一种实用的方法，具有重要的理论和应用价值。文章深入探讨了机器学习算法中的性别偏见问题，并提出了创新的解决方案，为相关领域的研究和实践提供了有益的启示。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(4)

最新
精选

huan
“偏见”也是一种模式，但并不是训练集上的被测量对象，从而容易出现“过拟合”；更进一步的，现在常用的训练方法中，即使已经完成被测量对象的模型参数的筛选，但是仍然需要跑相当多的全训练集Epoch，才“放心”的输出模型参数，而这可能更加增强了偏见的“过拟合”。我觉得现在的DNN的训练方法更容易造成偏见过度增强。我的一个问题是，注意到老师解读的论文中是偏见被修正的同时并没有减少准确率，如果能有效的察觉并发现这些偏见那？有没有相关的文献？或者相关的偏见的dataset?
作者回复: 察觉偏见是一个比较新的研究课题。可以关注一下最新的一些进展。我没有跟进这方面的研究。
2017-11-09

3
高锋
也感觉是过拟合了。文中“限制优化”、数学上似乎更长用的应该是 “约束优化”这个词吧，😄
2019-08-26

3
韩 * *
我觉得就是过拟合了，然后加正则限制的事儿，不过给了个消除“性别偏见”的说法
2019-08-12

2
胡杰
我猜想是不是会和数据降维的一些算法有关系？在降维的过程中测试样本的某些特征被映射的过程中放大了。
2020-03-15

1

收起评论

大纲



作者群信息介绍

论文的主要贡献

论文的核心方法



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部