第8章适合所有人的尺寸

1998年，一位名叫克里斯托弗·多尼森的钢琴家指出，“人们可以把世界大致分成两个阵营”——大手阵营和小手阵营。多尼森是作为一位男性钢琴家写出这段话的，由于他的手比一般人的小，多年来在弹奏传统钢琴键盘时总是十分痛苦，但他的这段话也可以用在女性钢琴家身上。大量数据表明，女性的手平均比男性的小，[1]但我们仍然根据男性的手来设计乐器，就好像“适合所有男人”跟“适合所有人”是一回事似的。

所谓的性别中立产品到头来只“适合所有男人”，这种做法对女性不利。女性的平均手长在18到20厘米之间，[2]这使得标准的48英寸（约为121厘米）钢琴键盘成了一个挑战。标准键盘上的八度音阶为18.8厘米宽，一项研究发现，这种键盘对87%的成年女性钢琴家不利。[3]与此同时，2015年的一项研究将473名成年钢琴家的手长与他们的“受欢迎程度”进行了比较，结果发现，12名被认为具有国际知名度的钢琴家的手长都在22厘米以上。[4]只有2名女性进入这一崇高的群体，其中一名手长23厘米，另一名24厘米。

标准的钢琴键盘不仅让女钢琴家更难企及男同行的声望，还会影响她们的健康。在20世纪80年代和90年代对乐器演奏家进行的一系列研究发现，女性音乐家承受着“多得不成比例”的工伤，而键盘乐器演奏者是“风险最大”的人群之一。几项研究发现，女性钢琴家承受疼痛和受伤的风险比男性钢琴家高出约50%；其中一项研究发现，78%的女性患有肢体重复性劳损症，相比之下，患该综合征的男性比例仅为47%。[5]

看起来这与手的大小有关：1984年的另一项研究只纳入了男性钢琴家，区分出了26名“成功的演奏者”（即“著名独奏家和国际比赛获胜者”）以及10名“问题案例”：那些“长期因技术或受伤问题困扰”的人。[6]前一组的平均手长为23厘米，而问题组为22厘米——但还是比女性的平均手长长多了。

克里斯托弗·多尼森在施坦威舞台钢琴上练习了“不下千次”G小调肖邦叙事曲的尾声部分，并由此设计了一款适合手小的人使用的新键盘。如果原因不是他的手太小，而是标准键盘太大呢？这个想法催生出了7/8 DS键盘①，多尼森声称，这彻底改变了他的演奏。“我终于可以用正确的指法了。我可以用一只手弹奏分散和弦，而不是像原来那样用两只手。（……）左手弹奏的大跨度、快速移动的琶音曲式在浪漫主义音乐中十分常见，现在终于能实现了，我总算可以真正打磨正确的音乐，而不是重复练习相同的段落。”[7]多尼森的经验得到了大量研究的支持，这些研究也发现，7/8键盘消除了传统键盘带来的职业和健康上的劣势。[8]然而，钢琴界仍然存在一种奇怪的（也就是说，你不接受这里存在性别歧视）、拒绝适应的心理。

拒绝放弃只适合男性大手的设计似乎是一种通病。我记得在21世纪初，有一阵子最小的手机赢得了手机竞赛。但随着iPhone和它的模仿者出现，这一切都改变了。突然之间，所有的一切都与你的屏幕大小有关，更大意味着更好。现在智能手机的平均尺寸是5.5英寸（约为14厘米），[9]虽然得承认，如果你掏出一个屏幕尺寸够大的手机，我们肯定会被震住，但说到它是否适合半数人口的手，情况就有点不同了（更不用说那些极小或者根本不存在的口袋了）。普通男人可以相当舒服地单手使用手机，但普通女人的手并不会比手机本身大多少。

这显然令人恼火——对于苹果这样的公司来说甚至是愚蠢之举，因为研究表明，女性比男性更可能拥有一部iPhone。[10]不过，别指望很快就能找到他们如此疯狂的原因，因为我根本找不到任何一家智能手机公司愿意聊聊为何痴迷于超大屏幕。在绝望中，我向《卫报》的科技记者亚历克斯·赫恩寻求答案。但他也帮不了我。“这是一个众所周知的问题，”他肯定了我的疑问，“但我从来没有得到明确的答案。”他说，在非正式的讨论中，“标准答案”是手机不再设计成供单手使用。他还得知，实际上许多女性选择更大的手机，这一趋势“通常被归因于手袋”。没错，手袋确实是个好东西，但女性携带它的首要原因之一，是我们的衣服口袋不够用。因此，把手机设计成适合手袋而不是适合口袋，感觉无异于伤口上撒盐（后文还会讲到这一点）。无论如何，这么多手机上的被动跟踪应用程序都默认你的手机一直握在手中或搁在口袋里，而不是放进你的手提包里搁在办公桌上，他们却口口声声说为女性设计的手机就是为了放在手提包里，这听起来相当奇怪。

接下来，我求助于获奖科技记者兼作家詹姆斯·鲍尔，关于对大屏幕的迷恋为何经久不衰，他有另一种解释：因为人们普遍认为，推动高端智能手机消费的是男性，而女性实际上根本没有被考虑在内。如果这种说法属实，那么考虑到女性更有可能拥有iPhone的研究，苹果公司采取这样的做法当然很奇怪。但我对这项分析还有更加根本的不满：它再次暗示问题出在女性身上，而不是出在男性主导的设计上。换句话说：如果女性没有推动高端智能手机消费，原因在于女性对智能手机不感兴趣，还是因为智能手机的设计没有考虑到女性？不过，鲍尔向我保证，好的一面是，屏幕可能不会变得更大，因为“它们已经达到了男性手掌大小的极限”。

对男人来说这是个好消息。但对一些拥有第三代摩托罗拉Moto G手机的女性——比如我的朋友莉兹来说，这真是郁闷极了。关于我经常抱怨的手机尺寸问题，她回答说，“（我）向一位朋友抱怨用手机放大拍照有多难，他却说这很容易，结果发现我们用的是同一款手机。我在想这是不是跟手掌大小有关”。

这一点几乎是可以肯定的。2013年，北卡罗来纳大学研究员泽伊内普·图菲克西试图记录土耳其盖齐公园抗议活动中催泪瓦斯的使用情况，但谷歌Nexus手机的尺寸成了障碍。[11]那是6月9日的晚上，盖齐公园很拥挤，父母们带着孩子在那里。就在这时，催泪瓦斯被点燃了。因为官员“经常声称催泪瓦斯只用于破坏公物的人和暴力抗议者”，图菲克西想要记录下发生的一切。于是她拿出手机。“我的肺、眼睛和鼻子被周围落下的多个弹体释放出来的催泪剂灼得生疼，我开始大骂脏话。”她的手机太大了。她没法单手拍照——“我见过无数男人一直能这么拍照，他们的手更大。”图菲克西在活动中拍的所有照片都无法使用，她写道：“原因很简单——好的智能手机是为男人设计的。”

和标准钢琴键盘一样，专为男性设计的智能手机也可能会影响女性的健康。这是一个相对较新的研究领域，但现有的、关于智能手机对健康影响的研究结果并不那么乐观。[12]不过，尽管女性的手明显比男性小，而且女性出现肌肉骨骼症状和病变的概率更高，[13]关于大屏智能手机对手和手臂影响的研究并没有脱离性别数据缺口的趋势。在我能找到的研究中，女性在研究对象中并不具代表性，[14]而且绝大多数研究并没有将数据按性别进行分类[15]——包括那些确实具备充足女性代表的研究。[16]这一点非常让人遗憾，因为极个别按性别分类数据的研究人员报告说，手机尺寸对女性的手和手臂健康的影响在统计学上存在显著的性别差异。[17]

智能手机对女性来说太大了，这个问题的解决方案似乎显而易见：设计更小的手机。当然，市场上也有一些小型手机，其中最著名的要属苹果的iPhone SE系列。但是SE系列已经两年没有更新了②，因此与标准的iPhone系列（只提供大尺寸或更大尺寸）相比，它的性能规格较差，现在已经停产了。在中国，无论男女，手小的人都可以买到Keecoo K1③，它采用六边形设计，试图应对女性手掌较小的问题——这一点很好。[18]但它的处理能力较差，而且内置了美颜功能：这很糟糕。非常糟糕。

语音识别也被认为有助于解决智能手机相关的肢体重复性劳损症，[19]但这实际上并不能解决许多女性的问题，因为语音识别软件通常都无条件地偏向男性。2016年，华盛顿大学的语言学研究员蕾切尔·塔特曼发现，谷歌的语音识别软件准确识别男性语音的可能性比准确识别女性语音的可能性高出70%[20]——这还是目前市场上最好的语音识别软件。[21]

显然，女性在购买产品时支付了与男性相同的价格，得到的服务却较为逊色，这不仅不公平，还可能存在严重的安全隐患。例如，汽车安装的语音识别软件旨在减少干扰，让驾驶更安全。但如果软件不管用，结果就会适得其反——而且它常常不管用，至少对女性来说是这样。汽车网站Autoblog上登载了一篇文章，引用一位女士的说法：她购买了2012款的福特福克斯，却发现车上的声控系统只听她丈夫的，即使他坐在副驾驶座上也如此。[22]另一位女士的别克汽车声控电话系统不听使唤，于是她向制造商求助：“那人直截了当地告诉我，我永远都别指望它了。他们叫我找个男人来安装它。”写完上面这段话，我就坐进我母亲的沃尔沃越野车，看着她试图通过语音识别系统给我姨妈打电话，但没能成功。经过5次失败的尝试，我建议她尝试把声音压低。居然1次就成功了。

语音识别软件越来越复杂，应用领域也越来越广泛，其中包括医学，在这些领域出错的后果同样很严重。2016年的一篇论文随机抽选出100条急诊主治医生的口述医嘱，都是通过语音识别软件识别的，结果发现其中有15%的错误非常严重，“可能会导致沟通错误，从而影响对病人的治疗护理”。[23]遗憾的是，作者并没有将他们的数据按性别分类，但有相关文献报道说，女性语音的转录错误率明显高于男性。[24]赛义德·阿里博士是其中一项医学听写研究的主要作者，他观察到其研究的“直接影响”是，女性“可能要比男性多费点力气，才能成功使用（语音识别）系统”。[25]蕾切尔·塔特曼表示认同：“男性在使用这些技术时的效果更好，这意味着女性更难做好自己的工作。即使改正一个错误只需要一秒钟，但这些时间日积月累下来就不再是个小数字，相比之下，你的男同事不会将这些时间浪费在跟技术折腾上。”

汽车导航系统供应商ATX的语音技术副总裁汤姆·沙尔克提出了一种新颖的方案来解决“女性语音的诸多问题”，世界各地受挫的女士看来得为此击节相庆了。[26]他说，女性需要的是“长期培训”——只要女人们“愿意”接受培训就行。沙尔克感叹道，但她们根本不想。就像在孟加拉国那些固执己见、总是买错炉子的女人一样，买车的女人也总是不合理地期望软件开发人员设计出一款适合她们的语音识别产品，但很明显，需要解决的问题是女人自己。为什么女人不能更像男人呢？

蕾切尔·塔特曼驳斥了这种认为问题在于女性的声音而不在于技术无法识别女性声音的说法：研究发现，女性具有“明显更高的语音可辨度”，[27]这可能是因为女性发出的元音往往较长，[28]语速比男性稍慢。[29]与此同时，男性“说话不流畅的概率更高，使用的单词持续时间略短，而且使用的替代（‘含混’）发音更多”。[30]考虑到所有这些因素，语音识别技术应该更容易识别女性而不是男性的声音——事实上，塔特曼写道，她已经“利用女性的语音数据对分类器进行了训练，而且谢天谢地，效果很好”。

当然，问题不在于女性的声音，而在于我们的老朋友——性别数据缺口。语音识别技术是在名为语料库的大型语音记录数据库上进行训练的。这些语料库主要收录了男性声音的录音。无论如何，就我们所知：大多数语料库中的声音素材都未按性别分类，当然，这本身就是一个数据缺口。[31]当塔特曼研究语音语料库的性别比例时，只有TIMIT（“语言数据联盟中最受欢迎的语音语料库”）一家提供了按性别分类的数据。当中69%是男性。但与这些发现所暗示的相反，事实上有可能找到女性说话的录音：从英国国家语料库（BNC）[32]网站上的数据来看，该语料库是性别平衡的。[33]

不光是语音语料库会催生偏向男性的算法。文本语料库（由小说、报纸文章、法律教科书等各种文本组成）被用来训练翻译软件、简历扫描软件和网络搜索算法，它们的数据也充斥着性别数据缺口。我搜索了英国国家语料库[34]（收录了20世纪晚期大量文本中的1亿个单词），发现女性代词的出现率始终只有男性代词的一半左右。[35]尽管当代美国英语语料库有5.2亿个词，收录了近至2015年的文本，但男女代词的比例也是2比1。[36]依据这些满是缺口的语料库来训练的算法，就给人留下这样一种印象：这个世界实际上是由男性主宰的。

图像数据集看来也存在性别数据缺口的问题：2017年，一项对两组常用数据集的分析发现，男性图像的数量远超女性图像；这两组数据集包含“来自网络的10万多张复杂场景的图像，并附有说明”。[37]华盛顿大学的一项类似研究发现，在他们所测试的45种职业中，女性在谷歌图像搜索中出现的比例偏低，其中CEO的比例最为悬殊：美国27%的CEO是女性，但在谷歌图像的搜索结果中，女性只占11%。[38]搜索“作家”的结果也是不平衡的，谷歌图片中只有25%的搜索结果是女性，相比之下，美国作家中女性的实际占比有56%，研究还发现，至少在短期内，这种差异确实影响了人们对某个领域性别比例的看法。当然，对于算法来说，影响会更长远。

这些数据集不仅未能充分代表女性，而且歪曲了她们的形象。2017年一项对常用文本语料库的分析发现，女性的名字和相关用词（“妇女”“女孩”等）与家庭的关系大于与职业的关系，而男性的情况正好相反。[39]2016年，一项基于谷歌新闻的流行公共数据集分析发现，与女性相关的最热门职业是“家庭主妇”，与男性相关的最热门职业是“名家大师”。[40]与性别相关的十大职业还包括：哲学家、社交名人、队长、前台接待员、建筑师和保姆——你可以自行猜测，哪些是男性，哪些是女性。2017年的图像数据集分析还发现，图像中包含的活动和物体表现出“明显的”性别偏见。[41]研究人员之一马克·亚茨卡尔预见了这样一种未来：如果机器人是通过这些数据集来训练的，当它不确定人们正在厨房里做什么的时候，它就会“给一个男人一杯啤酒，让一个女人帮忙洗碗”。[42]

这些文化成见可从现已广泛使用的人工智能技术中找到。例如，斯坦福大学的教授隆达·席宾格想把报纸对她的采访从西班牙语译成英语，而谷歌翻译和Systran翻译系统都反复使用男性代词指代她，尽管文中出现了像profesora（女教授）这类明显指代女性的术语。[43]谷歌翻译还在将土耳其语译成英语时，赋予了原本性别中立的句子刻板成见的意味。O bir doktor的意思是“她/他是一个医生”，但被翻译成“他是一个医生”，而O bir hemsire（意思是“她/他是一个护士”）被译成“她是一个护士”。研究人员发现，翻译软件在将芬兰语、爱沙尼亚语、匈牙利语和波斯语译成英语时，也出现了同样的现象。

好消息是我们现在有了这些数据——但程序员们是否会用这些数据来修正他们偏向男性的算法还有待观察。我们希望他们会，因为机器不仅能反映我们的偏见，有时还会放大它们——而且是大幅放大。2017年的图像研究显示，女性出现在烹饪相关图片中的可能性至少比男性高33%，但以这个数据集为基础训练的算法将厨房图片与女性联系起来的概率是68%。这篇论文还发现，原始偏差越大，放大效应就越强，这或许可以解释为什么该算法会将一张站在烤炉前的肥胖秃顶男子的照片标记为女性。因为厨房>男士脱发。

斯坦福大学生物医学科学助理教授詹姆斯·邹解释了这一点的重要性。他举了一个例子，有人在一个程序上搜索“计算机程序员”，该程序受过数据集的训练，而数据集里这个词与男性的关联度高于女性。[44]该算法便可能认为男性程序员开发的网站比女性程序员的更重要——“即使这两个网站完全一样，除了开发者的名字和性别代词”。因此，一个偏向男性的算法如果以有性别数据缺口的语料库为基础进行训练，真的能让女性失业。

但网络搜索还只是触及了算法如何指导决策的表面。据《卫报》报道，全美国72%的简历从未经过真人阅读，[45]而机器人已经参与到面试过程中，它们的算法依据“表现优异员工”的姿势、面部表情和声调进行过训练。[46]听起来好像很厉害——直到你开始考虑潜在的数据缺口：程序员能否确保这些表现优异的员工具有性别和族裔多样性？如果不能，算法能否考虑到这一点？该算法是否经过训练，能够考虑到声调和面部表情的社会化性别差异？我们并不知道答案，因为开发这些产品的公司并不分享他们的算法——但让我们面对现实吧，根据现有的证据，这似乎不太可能。

人工智能系统也已被引入医疗领域，用以指导诊断——尽管这最终可能成为医疗保健的福音，但它目前给人的感觉是有点傲慢。[47]在将人工智能引入诊断学的同时，人们似乎很少或根本没有意识到，有大量证据证明，在涉及女性的医疗数据方面长期存在着数据缺口。[48]这可能是一场灾难。事实上，很可能是致命的——尤其是我们已经了解到机器学习会放大既存的偏见。由于我们的医学知识严重偏向男性身体，人工智能可能对女性做出更糟糕而不是更好的诊断。

而且目前几乎没有人意识到这里正在酝酿一个大问题。2016年谷歌新闻研究报告的作者指出，在有关单词联想软件的“数百篇论文”中，没有一篇承认这些数据集构成了“公然的性别歧视”。图像标签论文的作者则指出，他们“最先证明了结构化预测模型放大偏差，同时也率先提出了减少这种影响的方法”。

我们目前的产品设计方案对女性不利。它正在影响我们有效工作的能力——有时甚至会影响我们找到工作的能力。它影响着我们的健康，也影响着我们的安全。也许最糟糕的是，有证据表明，算法驱动的产品会使我们的世界更加不平等。然而，只要我们承认这些问题，就会有解决这些问题的办法。2016年那篇“女性=家庭主妇”论文的作者设计了一种新的算法，将性别刻板印象（如“他是医生，她是护士”）至少减少了三分之二，同时保证涉及性别的词语关联（如“他可能会患前列腺癌，正如她可能会患卵巢癌”）不变。而2017年图像判读研究的作者们设计了一种新的算法，将偏向放大率降低了47.5%。

* * *

①这种键盘上一个八度的宽度相当于传统键盘上的七度。

②作者写作此书时，苹果公司尚未推出iPhone SE系列的第2代。

③作者可能是指2016年在中国上市的美图手机，Keecoo手机的设计理念与美图手机相似。

第8章 适合所有人的尺寸

第8章适合所有人的尺寸