大数据常用算法-经济学人 | 算法歧视——大数据折射出人类社会的偏见

(本文选自《经济学人》期)

背景介绍：

大数据时代以数据作为基础资源大数据常用算法，算法决策作为核心引擎。数据是算法的依托，本身具有客观中立性，但人为设计的算法却不可避免地隐含偏见。比如在就业领域，某些特殊群体在岗位推送和筛选上时常受到搜索引擎的差别对待；再如在市场营销方面，互联网平台通过大数据分析消费者的购买或浏览记录，对用户进行“画像”后，根据其喜好程度、收入水平的不同，在提供相同质量的商品或服务的情况下大数据常用算法，分别实施“差异化定价”。此类在算法自动化决策中产生的不公平现象，被称为算法歧视或算法偏见。

skews in data

训练数据中的人口统计学偏差会导致算法错误

Women and of are and with

女性和有色人种的代表性不足，并被描绘为刻板的形象

bias is often as a . - can to any — ones that .

算法偏差通常被认为是一个棘手的技术问题。机器学习模型可以对几乎任何模式做出反应——包括那些反映歧视的模式。

Their can such tools from types of , such as race or sex. , the use of , like ’s , can still cause to .

模型的设计者可以明确明确地阻止这些工具使用某些类型的信息（例如种族或性别）。尽管如此，相关变量的使用（例如某人的地址）仍然会导致模型长期存在偏差。

out all of bias is a task. Yet the paid to this , some of the - fruit .

消除所有偏见的存在是一项艰巨的任务。尽管人们越来越关注这一问题，但一些最容易解决的问题仍然没有得到解决。

Every good model on data that what it seeks to . This can be a full , such as of a given crime. But often have to for non- .

每一个好的模型都依赖于能反映出它试图预测内容的训练数据。这有时可能是一个完整的群体（比如每个被判有罪的人）。但建模者往往不得不满足于非随机样本。

For uses like , need cases from each group to learn how to . And when , like to hires from job , the of each group in data those in the .

对于像面部识别这样的应用，模型需要来自每个人口统计群体的足够案例来学习如何准确地识别成员。当进行预测时（比如试图从记录的工作面试中预测成功受聘的员工），培训数据中每一组人群的比例应该与人口中的比例相似。

Many data. , the two image , Open and —which have 725,000 by sex, and 27,000 that also skin —are far from . In these , drawn from and image- sites, just 30-40% of are of women. Only 5% of skin are as “dark”.

许多企业都会汇编私人培训数据。然而，两个最大的公共图像档案（谷歌开放图像和）共有72.5万张按性别标注的图片，还有2.7万张标记肤色的图片，但这远远不具代表性。在这些来自搜索引擎和图片托管网站的图片中，标记为女性的图片仅为30-40%，标记为深色皮肤的图片仅为5%。

Sex and race also how are . Men are to as , of women or . - such . One study an image- on , and found that it of young women’s faces with low-cut tops or .

性别和种族也极大地影响了人物形象的描绘方式。男性在图片中通常会以熟练工人的形象出现，而女性在图片中大多穿着泳装或内衣。机器学习模型重现了这种模式。一项研究利用数据库训练了一种图像生成算法，发现它能够生成穿着低胸装或比基尼的年轻女性的面部图片。

, with light skin often , such as . Those with dark skin had of , lower-class jobs like “” and even “”. to the , “” and “first lady” were also .

同样地，浅色皮肤的图片往往显示的是专业人士（比如心脏病专家）。深色皮肤的图片更多的是说唱歌手、从事“洗衣妇”之类下层工作的人，或者是普通的“路人”。多亏了奥巴马夫妇，深色皮肤图片中“总统”和“第一夫人”的比例才得以被高估。

is a tool to the of its . And firms may use less . , do show signs of data. One study of three that sex in found far more for dark- women than for light- men.

正在开发一个工具以重新平衡其照片的人口统计信息。私人公司可能会使用不那么偏颇的档案。然而，商业产品确实显示出数据偏倚的迹象。一项针对三个识别照片中人物性别的程序的研究发现，识别深色皮肤女性的错误率要比浅色皮肤男性高得多。

image or video data more would not fix that real-world gaps, such as the high of dark- . But for to clear , avoid stops based on or break into run by white men, would help.

让图像或视频数据更具代表性并不能解决反映现实世界差距的失衡问题，比如深色皮肤的篮球运动员人数众多。但是对于那些试图通过护照检查、避免因安全摄像头而被警察拦下或想步入白人男性经营的行业的人来说，纠正夸大的人口差异肯定会有所帮助。

(红色标注词为重难点词汇)

本文翻译：

校核：

限时特惠:本站持续每日更新海量各大内部创业课程，一年会员仅需要98元，全站资源免费下载
点击查看详情

站长微信:Jiucxh

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。