为了方便阅读,我将下面这篇综述论文进行了翻译。
Yu, KH., Beam, A.L. & Kohane, I.S. Artificial intelligence in healthcare. Nat Biomed Eng 2, 719–731 (2018). https://doi.org/10.1038/s41551-018-0305-z
人工智能在医疗保健中的综述
摘要:人工智能正在逐渐改变医学实践。随着数字化数据采集、机器学习和计算基础设施方面的最新进展,人工智能的应用正在扩展到以前被只认为属于人类专家研究的领域。在这篇综述文章中,我们概述了人工智能技术及其生物医学应用的最新突破,指出了医疗人工智能系统进一步发展的挑战,并总结了人工智能在医疗保健领域的经济、法律和社会意义。
人工智能正在逐渐改变医疗保健和生物医学研究。在印度的Aravind眼科护理系统中,眼科医生和计算机科学家正在合作测试和部署一个自动图像分类系统,以筛选数百万糖尿病患者的视网膜照片。在全世界范围内,糖尿病视网膜病变(DR)对9000万人有着影响,它是成人致盲的主要原因。眼底照相是监测DR程度和识别早期治疗受益患者的有效方法。在世界许多地方,很少有眼科医生能够直接阅读眼底照片,并且还能够做到对每位糖尿病患者进行随访。谷歌以及与其合作机构的一个研究小组表明,一个人工智能系统使用数千张图像进行训练后,可以在诊断可参考的DR时达到医生水平的灵敏度和特异性,以及识别眼底照片中的图像模式与心血管危险因素之间的关联,这在之前是未被认知的。这家科技巨头目前正在印度的一家连锁眼科医院将这种人工智能技术整合到临床实践中,并且由爱荷华大学开发的一项相关技术被美国食品和药物管理局(FDA)批准用于检测中重度DR。
随着科技公司和科学家以惊人的速度宣布新的技术突破,人工智能最近重新进入了科学和公众意识中。除去科幻的装饰和抱负,人工智能的核心是计算机科学的一个分支,它试图理解和构建智能实体,通常作为软件程序来实例化。人工智能有着悠久的历史,其根源可以追溯到1956年达特茅斯的一次会议上,在当时这个词被首次使用。自2012年以来,图像分类器的成功开发促成了近代AI的复兴。虽然在过去的几十年里已经取得了很大的进步,但是人工智能在“真正的人工智能”的定义上一直存在着不一致和不断发展的问题。人工智能研究中一个公认的特性是成功达到特定的性能目标后,很快就会取消该性能构成人工智能的资格,这使得跟踪进展变得困难。举例来说,在20世纪70年代,自动路线规划机器曾经被吹捧为先进人工智能的典范,然而现在却无处不在,以至于大多数人听到它们被称为AI都会感到惊讶。因此,从20世纪70年代到90年代,人工智能的成功曾经被认为是医学上的突破,例如心电图的自动解释(ECG),现在虽然被认为是有用的,但很少被认为是真正人工智能的例子。
近段时间以来,医学图像诊断系统的应用将人工智能的前沿领域扩展到了以前人类专家所研究的领域。这一前沿领域继续扩展到医学的其他领域,如临床实践、转化医学研究和基础生物医学研究(表1)。在这篇综述文章中,我们关注人工智能在临床实践中的应用,提供人工智能在医学中的历史观点,以结合最近的进展,总结成功的应用领域,确定生物医学人工智能系统的开发和部署所产生的潜在社会影响,并提出今后的研究方向。有关关键术语表,请参见方框1。
医学人工智能的历史概述
医学早期被认为是人工智能最有前途的应用领域之一。自二十世纪中叶以来,研究人员提出并开发了许多临床决策支持系统。基于规则的方法在1970年取得了许多成功,并且已经证明可以解释ECGs、诊断疾病、选择适当的治疗、提供临床推理的解释以及帮助医生在复杂的患者病例中产生诊断假设。但基于规则的系统构建成本高昂,还有可能很脆弱,因为它们需要决策规则的显式表达,并且需要人工编写的更新,就像教科书一样。此外,它很难对不同专家撰写的不同知识之间的高阶交互进行编码,而且系统的性能受限于对医学知识的理解性。此外,很难实现一个整合确定性和概率性推理的系统,以缩小相关的临床背景,确定诊断假设的优先级,并推荐治疗方案。
与第一代人工智能系统不同的是,第一代人工智能系统依赖于专家对医学知识的管理和强大决策规则的制定,最近的人工智能研究利用机器学习方法,可以解释复杂的交互,从数据中识别模式。根据需要解决的任务类型可以将基本的机器学习算法分为两类:有监督和无监督。有监督的机器学习方法通过收集大量的训练案例来工作,这些案例包含输入(例如眼底照片)和期望的输出标签(例如DR的存在或不存在)。通过分析所有标记的输入输出对中的模式,该算法学习在新情况下为给定输入生成正确的输出。监督机器学习算法的设计是为了确定模型中的最佳参数,以使其对训练案例的预测与观察到的结果偏差最小化,希望
Box 1|关键术语表 |
|
人工智能。计算机科学的一个分支,试图理解和建立智能实体,通常被例示为软件程序。 深度学习。机器学习这门大学科下的一个子领域。深度学习采用多层人工神经网络来识别数据中的模式。 降维。减少数据中变量数量的过程。原始数据可能包含大量冗余的非信息变量。例如,图像的附近像素可以具有相似或相同的颜色。通过减少变量的数量,可以更有效地进行统计分析,开发出更复杂的机器学习模型,而不会耗尽计算机内存。 前馈神经网络。一种人工神经网络,神经层只和下一层连接,不形成循环。。 浮点运算每秒(FLOPS)。衡量计算性能的指标。在计算机中,带小数点的数字被表示为 "浮点数"。FLOPS衡量的是计算机系统每秒能完成的浮点运算次数;数值越大,计算机系统越强大。 |
图形处理单元(GPU)。最初设计用来处理与图像有关的计算任务并产生输出到显示设备的计算机硬件。由于现代GPU有许多计算核心,能够提供快速的并行计算,因此它们已经成为训练人工神经网络的主要工具。 机器学习。计算机科学的一个领域,使用算法来识别数据中的模式。 感知器。20世纪50年代发展起来的一种二元分类器。它通过以下函数对样本进行分类:给定一个输入向量x,如果w·x+b>0,则输出为1,其中w和b是两个参数向量;否则,输出为0。 监督机器学习。一种机器学习任务,其目的是根据输入数据(如眼底照片)预测期望的输出(如DR的存在或不存在)。有监督机器学习方法的工作原理是在“训练”阶段识别输入-输出相关性,并使用识别出的相关性预测新病例的正确输出。 无监督机器学习。一种机器学习任务,旨在推断未标记数据中的潜在模式。例如,它可以发现原始数据的子群,识别数据中的异常值,或产生数据的低维表示。 |
表1 目前和潜在的人工智能在医学中的应用的非详尽列表
基础生物医学研究 |
转化研究 |
临床实践 |
自动化实验 |
生物标记物的发现 |
疾病诊断 |
自动化数据收集 |
确定药物靶点的优先次序 |
病人基因组的解释 |
基因功能标注 |
药物发现 |
治疗选择 |
转录因子结合点的预测 |
药物再利用 |
自动手术 |
分子动力学模拟 |
预测化学品毒性 |
病人监测 |
文献挖掘 |
遗传变异注释 |
病人风险分层的初级预防 |
所识别的关联可以普遍适用于训练数据集中未包含的案例。模型的普适性可以通过测试集来估计(图1a)。分类、回归和描述相似结果标签实例之间的相似性是有监督机器学习模型中应用最广泛的任务之一。无监督学习推断未标记数据中的基本模式,以找到原始数据的子簇,识别数据中的异常值,或产生数据的低维表示(图1b)。需要注意的是,标识标记实例的低维表示可以更有效地以有监督的方式实现。机器学习方法使人工智能应用程序的开发成为可能,有助于发现数据中以前无法识别的模式,而无需为每个特定任务指定决策规则,也无需考虑输入特征之间的复杂交互。机器学习因此成为构建人工智能实用程序的首选框架。
最近,人工智能的复兴在很大程度上是由深度学习的成功应用所推动的,它涉及在巨大数据集上训练一个具有许多层(即“深层”神经网络)的人工神经网络,从而获得大量的标记数据。自2012年以来,深度学习在图像分类任务方面有了实质性的改进。图2显示了深层神经网络架构的架构(也有自动化的网络架构方法)。深层神经网络的基本结构由输入层和输出层以及中间的若干隐藏层组成。感知器和前馈神经网络是最简单的设计(图2a,b)。自动编码器用于降维,而稀疏自动编码器可以生成其他有用的特征(图2c,d)。递归神经网络对于处理时间序列数据非常有用(图2e)。深度残差神经网络通过允许跳接来改进传统的深度前馈神经网络,避免了模型性能的饱和(图2f,g)。
许多现代神经网络基本上都超过了100层。多层神经网络可以模拟输入输出之间的复杂关系,但可能需要更多的数据、计算时间或先进的结构设计来实现最佳性能。设计了许多类型的层、神经元的数学运算和正则化方法(表2)。例如,卷积层被用于提取空间或时间关系,而递归层使用循环连接来模拟时间事件。同时,各种初始化和激活函数可以提高模型性能。这些组件的组合使神经网络能够处理各种输入数据,具有和不具有空间或时间依赖性。现代神经网络可以有数千万到数亿个参数,需要大量的计算资源来训练。幸运的是,计算机处理器设计的最新进展提供了深度学习所需的计算能力。举例来说,当前的图形处理单元(GPU)每秒可以执行超过7万亿次浮点运算。任何这样的GPU都可以在2006年跻身世界
图1 监督式和非监督式机器学习。(a、有监督机器学习方法的一般工作流程。首先,收集训练和测试数据集。接下来,部分训练集用于建立预测模型,另一部分用于调整和验证模型(圆形箭头)。在机器学习模型最终确定(划掉圆形箭头)后,使用所建立的模型对测试数据集进行预测,并通过将预测结果与测试数据集的观察结果进行比较来评估模型的性能。b、无监督机器学习包括聚类、异常检测和降维。聚类算法将具有相似度量的数据点分组成簇。异常可以检测识别数据集中的异常值。降维减少了用于描述数据的随机变量的数量;例如,通过将具有数千个参数的图像表示为一个较小的总特征向量。得到的总向量保留了原始数据中的重要信息;例如,来自相似图像的总向量将比来自无关图像的总向量具有更多的相似性。)
上速度最快的100台超级计算机之列(参考文献34),每天都能以相对较低的成本处理数亿张医学图像。通过利用计算能力、大数据集和“卷积”神经网络(CNNs),深度学习不仅改变了医学图像分析,而且改变了计算机视觉的整个领域。CNNs使用一种特殊类型的层(即卷积层)来汇总和变换图像中的像素簇,用以提取图像的高级特征。在CNN出现之前,必须定义和提取图像中的特征,机器学习模型的性能取决于特征的质量。在CNNs中,一个关键的改进是可以对原始图像进行操作,从训练集中学习有用的特征,从而简化训练过程,便于识别图像模式。CNNs已被证明是图像分析深度学习成功的关键,并对随后的医学成像革命负有责任。社区正在努力编写神经网络在生物学和医学中的应用。表3总结了人类从业者和不同类型人工智能方法的性能、再现性、可理解性、对先前知识的依赖性、开发、运行成本、更新成本和全天候可用性。
然而,对于标记案例,深度学习算法极为“数据饥饿”。最近由于许多大规模研究(特别是癌症基因组图谱和英国生物库)、数据收集平台(如广泛的生物图像基准收集和图像数据资源)和2009年签署的健康信息技术促进经济和临床健康(HITECH)法案的建立,可以输入到这些算法中的大量医疗数据来源变得广泛可用。HITECH法案为采用电子健康记录(EHRs)提供了经济激励。在2008年的一项全国性调查中,只有13%的医生报告说拥有基本的电子健康记录系统;到2012年底,72%的医生已经采用了某种类型的电子健康记录系统,40%的医生报告说拥有符合基本系统标准的功能。越来越多的EHR系统的采用,不仅加快了大规模临床数据的收集,也让人工智能系统更顺利地融入到临床工作流程中(图3)。通常,医生从患者那里收集医疗信息,做出临床判断,并将其诊断和治疗计划记录在健康记录中(图3a)。自1970年代以来,已经开发了收集医学相关信息并向临床医师提供建议的决策支持系统(图3b)。将决策支持系统集成到临床工作流程中有多种方法,例如,决策支持系统可以主动地从患者和EHR收集信息,向临床医师提出建议,并将系统输出存储在EHR中(图3c)。在许多提议的全自动化临床系统中,自动化工具可以自动从患者那里收集信息,做出决策并将结果输出到EHRs(图3d),尽管这种集成迄今为止还很小。EHR系统的数据提供了有关患者的详细信息,包括临床注释和实验室价值,从而使自然语言处理方法能够提取编码词汇。
最近大规模的临床数据采集、机器学习方法的进步、开源机器学习软件包、经济实惠且快速增长的计算能力和云存储的融合,推动了人工智能指数级的增长。这有望在短期内改变医疗实践的格局。AI系统在许多诊断任务中具有专家级的表现,比临床医生更好地预测患者预后,并能协助外科干预。随着机器学习模型的不断发展,人们越来越觉得人工智能可以彻底改变医疗实践,并重新定义临床医生在这一过程中的角色。
图2 人工神经网络的一般结构。(a、 感知器。给定输入单元的输入向量x,如果w·x+b>0,则输出为1,其中w和b是两个参数向量;否则,输出为0。b、 两层前馈神经网络。输入层接收数据并将数据转发到隐藏层的单元。隐藏层中的每个单元都充当一个函数,将其输入集成在一起,并将函数的输出传输到下一层的单元中,无需循环计算。c、 自动编码器。自动编码是一种无监督的技术,它使用神经网络来学习输入数据的表示。自动编码器通常用于降维。d、 稀疏自动编码器。一种自动编码器,在隐藏层中有大量的单元,并且具有稀疏性约束,在给定输入的情况下,强制大多数隐藏单元处于非活动状态。此策略对于派生分类任务的特征非常有用。e、 递归神经网络。一种允许节点之间的连接形成有向循环的神经网络。它对于处理时间序列很有用。f、 深度前馈神经网络。在输入层和输出层之间可以有许多隐藏层来模拟输入和输出之间的复杂关系。最后一个隐藏层连接到输出层,输出层生成模型输出。g、 深度残差神经网络。在这种结构中,允许跳转连接,这在深层神经网络中有助于避免性能饱和或退化。)
基于图像的诊断
目前,医学影像自动诊断是医学人工智能应用中最成功的领域。包括放射科、眼科、皮肤科和病理科在内的许多医学专业都依赖于基于图像的诊断。在下面的内容中,我们总结了人工智能在这些医学领域的应用进展。
放射科
诊断放射科医生使用多种医学成像方式(最广泛使用的是X射线摄影术、计算机断层扫描术、磁共振成像(MRI)和正电子发射断层扫描术)来检测和诊断疾病。在每一种方法中,放射科医生都使用一组图像进行疾病筛查和诊断,以确定病因,并在疾病过程中监测患者的轨迹。
放射学实践主要依靠影像学进行诊断,因此非常适用于深度学习技术,因为图像往往包含了得出正确诊断所需的大部分信息。大多数放射科都在图片归档和通信系统中维护了一个历史图像数据库,该系统通常提供了成千上万的例子来训练神经网络。自20世纪60年代以来,放射诊断的计算方法已经被提出并实施。在现代机器学习方法的帮助下,AI的许多放射学应用,例如使用计算机断层扫描图像检测肺结节,使用胸片诊断肺结核和常见肺部疾病,以及使用乳房X光扫描进行乳腺肿块识别,都已达到专家级诊断精度。这些研究采用了一种被称为转移学习的技术,即借用在数以百万计的自然、非医学图像上训练的成熟的深度神经网络,然后通过使用数以千计的生物医学图像对神经网络连接进行微调。这样的策略可以减少训练一个具有数千万个参数的神经网络所需的训练样本数,对于图像数可能只有几千到几万的医学图像分类是非常有效的。对于研究人员来说,为了使神经网络模型可视化,可以研究每个像素与输出类的相关性。例如,显著性图和梯度加权类激活图可以直观地显示每个图像区域与其分类相关的重要性,并且对于识别局部图像特征(图4a,b)非常有用,激活最大化生成最大程度激活所选神经元的图像(图4c),通过生成最大化滤波器输出的合成输入图像,可以对单个卷积滤波器可视化(图4d–g)。这些方法试图使神经网络模型更具解释性。
表2 深层神经网络的常见组成部分综述
通用组件 |
类型 |
功能 |
层级 |
稠密连接层 |
对上一层的输入进行操作;过多的密集连接层可能会导致过度拟合,可以通过随机将一部分输入设置为0(也称为退出)来缓解过度拟合。 |
卷积层 |
对输入进行卷积;对具有空间或时间关系的输入有用。 |
|
池层 |
减少神经网络中参数的数目,减少过拟合。 |
|
循环层 |
允许神经网络中元素之间的循环连接;对时间事件建模有用。 |
|
嵌入层 |
将输入映射到一个密集的向量空间中。 |
|
归一化层 |
使前一层的激活量正常化。 |
|
噪声层 |
向输入中添加随机噪声;有助于减少过拟合。 |
|
初始化函数 |
确定性 |
将神经网络层中的细胞值初始化为一些常数。 |
随机性 |
将神经网络层中的细胞值初始化为遵循一定分布的随机数。 |
|
激活函数 |
Sigmoid、双曲正切(tanh)、softmax、缩放指数线性单元(SELU)、校正线性单元(RELU)等。 |
通过在神经网络中加入非线性因素来提高网络性能。 |
损失函数 |
均方误差、平均绝对误差、余弦距离、分类交叉熵等 |
评价神经网络的性能;损失函数是目标函数的一部分。 |
优化算法 |
随机梯度下降、均方根传播(RMSprop)、AdaGrad、Adam等 |
确定神经网络中权值微调的方向 |
正则化方法 |
L1, L2, L1 + L2 |
将参数的L1规范(绝对值之和)、L2规范(平方之和)或参数的L1、L2规范的加权平均值纳入目标函数中,防止参数过大。 |
许多人工智能的临床应用正在寻求监管部门的批准。例如,利用心脏MRI图像诊断心血管疾病的深度学习系统已于2018年获得FDA批准(参考文献57,58)。随着进一步的验证研究和技术转让工作的开展,我们期望更多基于图像的计算机辅助检测(CAD)和诊断系统将在近期投入临床使用。
皮肤病科
检查在诊断多种皮肤病变中起着重要作用。例如,典型的皮肤黑色素瘤有区别于良性痣的视觉特征。对于通过检查诊断皮肤黑色素瘤,皮肤科医生制定了经验法则,如广为人知的ABCDE法则,该规则适用于诊断色素性肿瘤,其中标准A是指肿瘤的几何不对称性,B是指不规则边界,C是指颜色杂色,D是指直径等于或大于6 mm,E是指病变表面的扩大或病变的发展。除E标准外,其他标准均可通过一张病变照片进行评估。
多年来,研究人员一直试图开发自动诊断系统,对良恶性病变的照片进行分类,最近,在129450张临床图像上训练的卷积神经网络在诊断皮肤恶性肿瘤方面取得了皮肤科水平的准确率。在比较算法预测和21名皮肤科医生对一组照片和皮肤镜图像的评估时,深度学习算法的表现优于普通皮肤科医生。虽然 深度学习模型的训练阶段可能计算成本很高,最终完成的诊断模型可以部署在在移动设备上,有可能在全球范围内提高专家级皮肤病筛查的可及性。
眼科
眼底摄影是一种非侵入性的手术,它使用视网膜摄像机拍摄视网膜、光盘和黄斑的图像。它可以检测和监测DR、青光眼、视网膜肿瘤和年龄相关的黄斑变性等疾病,并在确定可预防性失明的原因方面起着至关重要的作用。特别是,美国糖尿病协会的临床指南建议每年对视网膜病变极小或无视网膜病变的糖尿病患者进行DR筛查,并更频繁地检查进展期DR患者。传统上,眼底照片是由眼科医生检查和解释的,这很难适应数百万有发展为威胁视力的DR风险的糖尿病患者。
Table3 人类评估与不同类型人工智能方法的比较
方法 |
模型可理解性 |
性能 |
可重复性 |
对先前知识的依赖性 |
开发和培训成本a |
运行成本 |
全天候可用性 |
更新费用 |
人工评价 |
高 |
中等或高 |
中等 |
高 |
高 |
高 |
低 |
高 |
基于规则的算法 |
高 |
中等或高 |
高 |
高 |
中等或高 |
低 |
高 |
高 |
基于特征的机器学习方法 |
中等或高 |
中等或高 |
高 |
中等b |
中等 |
低 |
高 |
中等c |
深层人工神经网络 |
低或高 |
高 |
高 |
低 |
中等 |
低 |
高 |
低 |
a培训执行临床任务的专业人员(人体评估)或开发执行任务的自动化系统(基于规则、基于特征或基于深度人工神经网络)的估计成本。b对于基于特征的机器学习方法,先验知识有助于从原始数据中提取有用的特征。c当更新需要编码新特征时,基于特征的机器学习方法的更新代价包括特征工程和模型再训练。 |
图3 传统临床实践中的信息流模型、传统决策支持系统、综合决策支持系统和全自动化临床系统。a, 在传统的临床实践中,临床医生从患者身上收集信息,根据自己的判断做出临床决策,并将结果记录在EHRs中。b, 传统的决策支持系统从电子病历收集信息,并使用基于规则的算法或机器学习算法提供建议。临床医生收到建议并做出最终决定。c, 在综合决策支持系统中,系统可以主动请求临床相关信息或从EHRs中收集数据,将结果显示给临床医生,并自动写入EHRs。临床医生仍需做出最终决定。d, 在许多提出的全自动临床系统中,自主系统收集患者的信息,做出决策,并将结果输出到EHRs。
一个由计算机科学家和临床医生组成的团队最近训练了一个卷积神经网络模型,用128175张视网膜图像来识别可参考的DR和糖尿病性黄斑水肿。在这项回顾性研究中,机器学习模型在两个独立的测试数据集中获得了受试者操作特征曲线下大于0.990的区域,这与眼科医生的表现相当。他们还证明,深度学习可以提取视网膜图像模式与年龄、性别、收缩压和吸烟状况以及主要心脏不良事件之间以前未被认识的关联,说明机器学习在从原始数据中获取新知识方面的有作用。另一组研究人员表明,卷积神经网络的性能超过了它们预先规定的灵敏度(85%)和特异性(82.5%);该系统经FDA授权,可供医疗机构用于检测糖尿病性黄斑水肿和中重度DR(早期治疗糖尿病视网膜病变研究严重程度分级,35级或以上)。
图4 卷积神经网络解释的例子。a,咖啡杯的原始图像。b, 注意力可视化。VGG16的梯度加权类激活图(Grad-CAM)(一种具有16个加权层的神经网络,在2014年的图像网络大规模视觉识别挑战中表现良好)显示了最后一个卷积层上输入像素的重要性,它总结了图像中包含的空间信息,并将其传递给生成分类的层。c, 激活最大化。一个能使 "咖啡杯 "得分最大化的图像。同样的技术可以产生卷积神经网络中任何选定神经元的激活最大化的图像。d–g,VGG16中卷积层的可视化。任何卷积滤波器都可以通过生成合成输入图像来实现可视化,从而使滤波器的输出最大化。图d显示VGG16第二卷积层中10个滤波器的可视化。它揭示了低层次的图像模式,如彩色斑点和线条;图e显示了同一神经网络的第四卷积层中的10个滤波器,显示了各种线性模式;图f显示在第八卷积层中最大化10个滤波器的输出的图案,揭示形状图案;面板g显示了第十一卷积层中10个滤波器的模式,揭示了形状和物体的复杂模式。所有的可视化都是由Python中的keras-vis软件包生成的。
病理科
组织病理学评估是许多癌症类型诊断的金标准。这一过程包括将活检或手术标本处理成组织切片,并用色素染色,然后由病理专家在显微镜下根据视觉评估解释切片。然而,病理学家之间的差异已被记录,并且该过程不容易扩展。此外,一些肉眼几乎看不到的定量组织病理学图像特征可以预测癌症患者的生存结果,这表明病理切片中存在着丰富但以前未充分利用的信息。
随着深度卷积神经网络的出现,AI可用于从活检标本中检测前列腺癌、鉴别乳腺癌淋巴结转移以及检测乳腺癌有丝分裂。例如,机器学习与活细胞生物标记物成像系统相结合可以促进前列腺癌和乳腺癌患者的风险分层。据估计,到2030年将有超过5700名全职等效病理学家的净赤字(参考文献76),自动化系统可以减轻这种赤字,提供对组织病理学幻灯片的快速客观评估,并提高癌症患者的护理质量。
总体而言,放射学,皮肤病学,眼科学和病理学的成功应用利用了大量标记数据,计算能力和深度学习方法的可用性,以实现专家级诊断的准确性。虽然将这些研究结果转化为临床应用并不简单,但它有可能显著地改变当前的医疗实践。
基因组解释
高通量测序方法可生成数TB的原始数据用于基因组研究。准确的临床解释这些数据是了解个体差异的关键,并为精准医学铺平了道路。但是,有关人类基因组的知识正在不断发展,仅使用人类管理就很难系统地将患者的基因组与已知病例和对照进行比较。深度神经网络可以注释致病性遗传变异并比传统方法(如逻辑回归和支持向量机)更好地识别非编码DNA的功能。有趣的是,一种将基因组变异调用任务转换为图像分类任务的基于神经网络的方法比广泛使用的基因组分析工具包获得了更好的性能。这种计算方法也可用于诊断具有遗传成分的复杂疾病,例如癌症。
用于生物标志物发现的机器学习
生物标志物的发现依赖于识别数以千计的测量和表型之间以前未被认识到的相关性。组学技术已经能够高通量测量数千种基因和蛋白质,以及数百万种基因组和表观基因组畸变。然而,研究人员基本不可能去对通过组学方法收集来的大量数据进行分析和解释。机器学习方法可以识别与疾病状态和疾病亚型相关的分子模式,解释测量之间的高水平相互作用,并获得组学特征以预测疾病表型。基因表达,蛋白质丰度水平和DNA甲基化特征可以预测许多疾病的状态,包括癌症,传染病和唐氏综合征的风险。许多来自机器学习的生物标志物组优于专家或传统统计方法选择的组。其中一些已经FDA批准,可以常规用于指导治疗选择。非组学生物标志物,例如神经激发信号,可以促进假体控制界面的开发。数据驱动的生物标志物的成功部署对临床管理和试验设计都有影响。然而,一些生物标志物的可重复性受到挑战,并且当测量或参数的数量远大于样品的数量时,鉴定稳健的生物标志物在方法论上是费力的。。随着最近在全国范围内建立生物库,标准化的高通量分析方法和先进的机器学习方法,预计会出现更健壮和准确的生物标志物。
临床结果预测和患者监测
除了鉴定与临床表型相关的生物标志物之外,使用EHR预测的临床结果显示出了广阔的前景。贝叶斯网络可以通过使用急诊科的EHR来预测死亡率,再住院率和住院时间。来自健康保险索赔的数据可用于预测老年患者的死亡率,医疗记录中的患者属性可用于对对化疗反应不同的癌症患者进行分类,并且可以确定接受胸部器官移植的患者预后的临床预测因子。这些研究为患者预后提供了许多可靠的临床预测指标,可用于帮助指导患者及其医师选择个性化的治疗策略。
在重症监护病房,手术室,急诊室和心脏病房中,患者的监测至关重要,在这里,临床决策的及时性可以在几秒钟内得到衡量。这些高灵敏度环境中的常规监测设备产生大量数据,因此为人工智能辅助警报系统提供了巨大的机会。利用生命体征和改进的早期预警评分,建立了心搏骤停的预测模型。人口统计学、实验室结果和生命体征也可用于预测心脏骤停、转入重症监护室或死亡。此外,一个可解释的机器学习模型可以帮助麻醉师预测手术期间的低氧血症事件。这表明,通过深度学习算法,可以更好地利用原始患者监测数据,避免信息过载和警报过载,同时实现更准确的临床预测和及时的决策。
通过可穿戴设备推断健康状况
现代可穿戴设备记录了大量的生物医学信号,包括心率、声音、震颤和肢体运动。这些生物信号可用于检测疾病和推断健康状况。例如,通过使用可穿戴设备记录的心率和皮肤温度数据,可以及早发现传染病和炎症反应的迹象。在可穿戴设备中包括光电容积脉搏波描记器传感器可以监测心血管疾病,肺部疾病,贫血和睡眠呼吸暂停。穿戴式传感器还可以检测和量化帕金森氏病患者的症状,例如震颤和手部动作,步态,姿势和言语方式受损。
尽管个人跟踪设备提供了一个引导行为改变的机会,但通过这些设备收集的数据的准确性可能会有所不同。此外,在拥有可穿戴设备的美国消费者中,有三分之一的人在收到可穿戴设备后的六个月内停止使用这些设备,这预示着这些设备在促进长期行为改变方面的效用。需要更多的研究来确定如何最大限度地提高可穿戴设备在促进和维护健康方面的效果。
自主机器人手术
人工智能控制的机器人系统通常用于工业生产线和许多生物医学实验室。然而,自主机器人在医疗干预中的发展和采用却相当缓慢。几十年来,机器人手术一直是机器人辅助手术的代名词,这种系统有助于外科手术的进行,使动作比人手更流畅,但仍然需要外科医生来控制动作。例如,在FDA批准的用于微创手术的达芬奇手术系统中,外科医生通过控制台操作机器人。类似这样的系统被设计成将外科医生的手的动作转化为病人体内器械的动作,看来是不能称为自主的。
由于缝合是外科手术中最常见的程序之一,因此自动缝合的机器人也在不断被开发出来。最近,一个用于缝合肠吻合的有监督的自主机器人系统在实验室条件下显示出比外科医生更好的体内缝合质量。该系统采用自主缝合算法和全光三维近红外荧光成像系统对猪进行体内开放手术。与手工缝合、腹腔镜和达芬奇手术系统的机器人辅助手术相比,自主系统具有更好的缝合一致性、更高的吻合质量(通过吻合口泄漏时的压力来衡量),并且需要从组织中取出针头的错误数更少。同样,也提出了许多用于耳蜗切开术的自主机器人。
随着预编程、图像引导和遥控手术机器人的不断发展,越来越多的机器人辅助或自动介入方法有望应用于外科手术。
综上所述,人工智能将在可预见的未来彻底改变当前临床实践的许多方面。人工智能系统可以增强临床决策,促进疾病诊断,识别与患者表型相关的先前未被识别的成像或基因组模式,并协助各种人类疾病的外科干预。人工智能应用程序还具有将临床专业知识带到专家稀缺或无法获得的偏远地区的潜力。表4总结了医疗人工智能系统的潜在临床集成,按其发展阶段分层。
表4 医学AI在不同发展阶段的临床整合
人工智能性能比人类专家更可靠的领域 |
人工智能性能处于专家级的领域 |
人工智能性能良好的领域 |
人工智能性能还不够好的领域
|
临床医生与患者互动的本质与人工智能与患者互动本质不同的领域 |
|
例子 |
血清分析仪;警报系统(如药物-药物相互作用检查器) |
某些放射学图像的评估(例如,心血管MRI图像的注释或桡骨远端骨折的X射线图像的评估);皮肤镜黑色素瘤诊断;眼底照片评估DR |
心电图读数 |
手术;与患者充分互动 |
情感上的支持与融洽 |
潜在的临床整合 |
授权给AI |
人工智能完成了大部分任务,临床医生确认了诊断 |
人工智能完成部分任务(如筛查),临床医生确认诊断 |
临床医生领导临床评估和干预,人工智能协助常规子任务 |
临床医生继续提供这项服务 |
人工智能发展中的技术挑战
尽管人工智能有望彻底改变医疗实践,但仍然存在着许多技术挑战。由于基于机器学习的方法在很大程度上依赖于大量高质量训练数据的可用性,因此必须小心地编译能够代表目标患者群体的数据。例如,来自不同医疗环境的数据可能包含各种类型的偏差和噪声,这可能导致对某家医院数据进行培训的模型无法推广到不同的数据。当诊断任务的专家间协议不完善时,一致诊断可以显著提高基于数据训练的机器学习模型的性能。充分的数据管理对于处理异构数据是必要的。此外,获得患者临床状况的金标准,要求临床医生单独审查其临床记录,这在人口规模上是非常昂贵的。最近提出了一种利用自然语言处理技术和诊断代码来判断患者真实状态的银标准。能够处理各种数据集的特性和噪声的复杂算法将提高预测模型的可靠性,从而提高在生死攸关的决策中使用它们的安全性。
一些高性能的机器学习模型产生的结果很难由独立的人类来解释。尽管这些模型可以取得比人类更好的性能,但要传达解释模型结论的直观概念、识别模型弱点或从这些计算“黑匣子”中提取额外的生物学见解并不容易。最近解释图像分类模型的方法包括使用显著性图(图4b)可视化卷积滤波器(图4d–g)或每个图像区域的相关性。然而,对于基于图像以外的数据训练的深度神经网络模型来说,模型解释仍然更具挑战性。;这是正在进行的研究工作的重点。
神经网络的许多最新进展仅限于定义明确的任务,这些任务不需要跨多种方式集成数据。将深度神经网络应用于一般诊断的方法(例如,体征和症状的解释,既往病史,实验室结果和临床过程)和治疗选择尚不清楚。尽管深度学习在图像分类、翻译、语音识别、声音合成甚至神经网络设计方面取得了成功,但临床诊断和治疗任务往往比深度学习掌握的狭义任务需要更多的上下文(例如,患者偏好、价值观、社会支持和病史)。此外,目前还不清楚如何应用迁移学习方法将从大型非医学数据集中获得的见解整合到多模态临床数据分析的算法中。这意味着开发端到端人工智能临床系统需要更大规模的数据收集和数据注释工作。
实现一个用于收集、存储和共享EHR和其他敏感健康数据的计算环境仍然是一个挑战。隐私保护方法可以通过云服务(如第三方托管的计算环境)实现安全的数据共享。然而,为了广泛地实现这种基础设施,需要开发满足临床信息表示标准的可互操作应用程序。跨医疗保健应用程序和位置的深入而平滑的数据集成仍然不稳定,而且速度相对较慢。尽管如此,新兴的临床数据应用程序编程接口开始在多个EHR供应商中显示出显著的采用,例如Fast-Health互操作性资源平台上的可替代医疗应用程序和可重用技术。
几乎所有人工智能的医学应用都是在为研究和原理证明而收集的回顾性数据上进行的。为了验证医学人工智能系统在现实世界中的实用性,需要进行前瞻性临床研究,以评估系统在临床环境中的性能。前瞻性试验将更好地识别人工智能模型在现实世界的异质性和嘈杂的临床环境中的脆弱性,并指出将医学人工智能整合到当前临床工作流程中的方法。
社会、经济和法律挑战
随着临床人工智能系统的成熟,其临床应用和部署将不可避免地增加,这将带来新的社会、经济和法律问题。神经网络的先驱之一杰弗里·辛顿和许多人工智能研究人员设想了医学实践中的巨大变化。人工智能有可能通过减少人为错误和减少因常规临床任务引起的医生疲劳来提高护理质量。然而,这并不一定能减少医生的工作量,因为临床指南可能建议对高危患者进行更多的检查。如果常规临床任务的人工智能成功部署,它可以为医生腾出时间,让他们专注于更复杂的任务和更多与患者“高度接触”的时间。举例来说,人工智能可以帮助眼科医生分型和阅读眼底照片,使他们能够花更多的时间在手术室或与患者讨论治疗计划。诚然,人工智能有可能取代一些医护人员执行日常任务,这反过来可能会重塑医护人员队伍,改变目前医疗领域的报销框架。尽管如此,目前很少有经验证据表明这种影响的临床工作人员。
最先进的人工智能应用程序只有融入到临床工作流程中,才能充分发挥其潜力。研究表明,人工智能在医疗领域的应用并非微不足道。众所周知,临床信息系统会导致许多意想不到的后果,包括警觉疲劳、给临床医生带来额外的工作量、人际(包括医生与患者之间)沟通方式的中断,以及产生需要更高警惕性才能发现的特定危害。例如,当乳房X光摄影CAD工具产生假阴性结果时,放射科医生比在没有CAD的情况下被要求解释乳房X光摄影胶片时更容易错过诊断。尽管许多CAD模型可以调整以平衡每个临床用例所需的敏感性和特异性,但是确定最佳的临床工作流程以最大限度地提高AI辅助诊断的性能仍然是一个挑战。护理人员及其患者的经验表明,将信息系统纳入临床环境是必要的,但往往缺乏仔细的设计和实施。
从监管角度来看,临床人工智能系统在大规模部署之前需要经过认证。FDA应预计上市前提交的批准书(对存在潜在和不合理的疾病或伤害风险的医疗器械的安全性和有效性评估)和510(k)份提交书(向FDA提交的上市前提交书,以证明拟用器械至少与普通器械一样安全和有效)合法销售的设备)描述具有直接临床影响的人工智能系统。政策制定者需要为510(k)份提交文件中证明非劣效性的过程设定具体标准,例如验证过程以及验证数据的质量和代表性。基于机器学习的模型对管理机构提出了一个独特的挑战,因为随着收集到更多的数据和用户反馈,这些模型可以快速发展。目前尚不清楚应该如何评估这些更新。例如,新模型可能平均更好,但在一部分患者身上表现更差。FDA在2018年4月宣布,它正朝着人工智能软件的“预认证方法”迈进,这种方法可以不断学习和改进。拟议的方法将首先着眼于技术开发人员,而不是主要着眼于产品。因此,对于开发、修改和更新人工智能系统的团队的认证,需要制定明确的指导方针。
随着无处不在的数据收集变得越来越普遍,需要就一个同意框架达成共识,以指导与健康相关的数据共享。例如,由移动传感器记录的信息可能包含敏感信息,例如患者的位置。在建立数据收集和共享的隐私政策框架时,必须让最具代表性和范围最广的利益相关者参与进来。
医学中的人工智能将不可避免地导致复杂的决策支持系统对医疗过失的法律挑战。当涉及医疗人工智能应用的医疗事故案件出现时,法律系统将需要提供明确的指导,说明哪些实体承担责任。当医疗决策部分由人工智能系统做出时,医疗职业事故保险需要明确保险范围。随着为特定临床任务部署自动化人工智能,诊断、治疗、支持和辅助医疗任务所需的凭证将需要更新,随着各种人工智能模块被纳入护理标准,医疗保健专业人员的角色将继续演变。
为了应对这些挑战,人工智能研究人员和医学从业者需要共同努力,优先考虑并开发满足关键临床需求的应用程序。医院管理人员在引入新的人工智能应用程序时,必须评估并减轻临床工作流程的中断。公司必须确定一个合适的框架,在这个框架内,他们可以进行前瞻性的临床试验,评估人工智能系统在临床环境中的性能。保险公司应评估医疗人工智能系统创造的价值,并可能修改其报销政策,以降低医疗成本,同时提高医疗质量。将需要多学科和多部门合作,以促进医疗人工智能应用程序的开发和部署。
见解
人工智能在多个医学任务领域提高了临床诊断和决策能力。这一表现将如何转化为对医疗实践(包括疾病检测和治疗)格局的影响,也将取决于人工智能应用程序如何灵活地与承受巨大财政压力的医疗系统更好的融合,同时适应分子和基因组科学的快速发展。临床医生需要适应他们作为信息整合者、口译员和患者支持者的新角色,医学教育系统必须为他们提供这样做的工具和方法。谁将最终控制、认证或从人工智能的应用中获利仍然有待考究,因此,如何平衡监管保障措施和市场力量,确保患者受益最大,必须是一个高度优先事项。
本文只是自己参考时为了方便,自己进行的翻译,如果有不通顺的地方还请指出。只是为了学习,不存在任何其他的用途。