在医疗保健领域，人工智能还有很长的路要走_生活

A collage of data stashed in a trash can.

冠状病毒大流行激发了无数的个人英雄主义行为，以及一些令人惊叹的集体科学壮举。制药公司利用新技术在创纪录的时间内开发出了高效的疫苗。一种新型的临床试验重塑了我们对什么对Covid-19有效，什么对它无效的理解。但当英国的艾伦•图灵研究所(Alan Turing Institute)寻找人工智能如何帮助应对危机的证据时，它没有找到多少值得庆祝的东西。

该研究所去年发表的报告称，人工智能对疫情几乎没有产生影响，专家们在获取不带偏见地使用该技术所需的健康数据时面临广泛的问题。此前的两项调查审查了数百项研究，发现几乎所有检测Covid-19症状的人工智能工具都有缺陷。图灵报告的编辑、医师兼研究员比拉尔·马廷(Bilal Mateen)说:“我们想突出展示这项令人兴奋的技术是如何实现的闪亮明星。”“不幸的是，我们找不到那些闪亮的星星;我们发现了很多问题。”

可以理解，人工智能等医疗保健领域的一种相对较新的工具无法在大流行中挽救局面，但马廷和其他研究人员表示，Covid-19人工智能项目的失败反映了一种更广泛的模式。尽管寄予厚望，但事实证明，通过将数据与算法结合来改善医疗保健是困难的。

许多使用过去医疗数据样本的研究报告称，算法在发现皮肤癌或预测患者预后等特定任务中可以非常准确。其中一些已被纳入批准的产品中，医生使用这些产品来观察中风或眼病的迹象。

但是，除了初步的概念证明之外，许多关于人工智能医疗的想法还没有取得进展。研究人员警告称，目前许多研究没有使用足够数量或质量的数据来适当测试人工智能应用。这增加了卫生系统中不值得信赖的技术造成实际危害的风险。一些正在使用的医疗保健算法被证明是不可靠的，或者对某些人口群体有偏见。

“社区欺骗自己，以为我们开发的模型比实际效果好得多。它进一步推动了人工智能炒作。”

Visar Berisha，亚利桑那州立大学副教授

数据处理可能改善医疗保健，这并不是一个新概念。流行病学的奠基时刻之一出现在1855年，当时伦敦内科医生琼恩·雪诺在地图上标记了霍乱病例，表明这是一种水传播疾病。最近，医生、研究人员和技术人员对利用在科技行业项目中磨练出来的机器学习技术感到兴奋，比如整理照片或转录语音。

然而，科技行业的条件与研究型医院的条件截然不同。Facebook等公司可以获取用户发布的数十亿张照片，以改进图像识别算法。由于隐私问题和陈旧的IT系统，访问健康数据变得更加困难。而且，比起过滤垃圾邮件或目标广告，部署一种能影响某人医疗保健的算法风险更大。

亚利桑那州立大学(Arizona State University)副教授维萨•贝里沙(Visar Berisha)表示:“我们不能把已经在消费者领域发挥作用的人工智能工具开发范例，直接移植到临床领域。”他最近与亚利桑那州立大学(Arizona State)工程和卫生部门的同事在期刊上发表了一篇文章，警告称，许多卫生人工智能研究让算法看起来比实际更准确，因为它们在太小的数据集上使用了强大的算法。

这是因为医疗成像、生命体征等健康数据，以及来自可穿戴设备的数据可能会因与特定健康状况无关的原因而发生变化，比如生活方式或背景噪音。在科技行业中流行的机器学习算法非常善于发现模式，以至于它们可以找到在现实世界中行不通的“正确”答案的捷径。较小的数据集使得算法更容易以这种方式作弊，从而产生盲点，导致临床效果不佳。贝里沙说:“社区欺骗自己，认为我们开发的模式比实际效果好得多。”“这进一步推动了人工智能炒作。”

贝里沙说，这个问题已经导致人工智能卫生保健研究的一些领域出现了令人震惊和担忧的模式。在使用算法检测语音记录中阿尔茨海默病或认知障碍迹象的研究中，Berisha和他的同事发现，大型研究报告的准确性比小型研究差——这与大数据应该传递的信息恰恰相反。一篇综述试图通过医学扫描识别大脑障碍的研究，以及另一篇综述试图通过机器学习检测自闭症的研究，报告了类似的模式。

“研究人员可以在健康数据中做任何事，说任何话，因为没有人可以检查他们的结果。”

Ziad Obermeyer，加州大学伯克利分校副教授

一些算法在初步研究中运行良好，但在实际患者数据上表现不同，这种算法的危险并非假设。2019年的一项研究发现，用于数百万患者的系统优先为有复杂健康问题的人提供额外护理，该系统将白人患者置于黑人患者之前。

避免这种有偏见的系统需要大量、平衡的数据集和仔细的测试，但由于历史和持续的卫生不平等，倾斜的数据集是卫生人工智能研究的常态。斯坦福大学研究人员2020年的一项研究发现，在将深度学习应用于美国医疗数据的研究中，71%的数据来自加利福尼亚州、马萨诸塞州或纽约州，来自其他47个州的代表很少或没有。低收入国家在人工智能卫生保健研究中几乎没有代表性。去年发表的一篇综述综述了150多项使用机器学习来预测疾病诊断或病程的研究，得出的结论是，大多数研究“方法学质量差，存在很大的偏倚风险”。

两名关注这些不足的研究人员最近发起了一个名为南丁格尔开放科学(Nightingale Open Science)的非营利组织，试图提高研究人员可用数据集的质量和规模。它与卫生系统合作，从病人记录中收集医学图像和相关数据，并将其匿名化，使其可用于非营利研究。

南丁格尔(Nightingale)联合创始人、加州大学伯克利分校(University of California, Berkeley)副教授齐亚德·奥伯迈耶(Ziad Obermeyer)希望，提供对这些数据的访问将鼓励竞争，从而带来更好的结果，就像大规模、开放的图像集合有助于推动机器学习的进步一样。他说:“问题的核心是，研究人员可以在健康数据中做任何事，说任何话，因为没有人可以检查他们的结果。”“数据被锁定了。”

南丁格尔还加入了其他一些试图通过提高数据访问和质量来改善医疗保健人工智能的项目。拉库纳基金支持建立代表低收入和中等收入国家的机器学习数据集，并致力于卫生保健;英国伯明翰大学医院(University Hospitals Birmingham)在英国国家卫生服务体系(National Health Service)和麻省理工学院(MIT)的支持下开展了一个新项目，该项目正在开发标准，以评估人工智能系统是否基于无偏见的数据。

马廷是英国流行病算法报告的编辑，他是这类人工智能特定项目的粉丝，但他表示，人工智能在医疗保健中的前景还取决于卫生系统对其往往破旧的IT基础设施进行现代化改造。马廷说:“你必须从问题的根源着手投资，才能看到效益。”