业内认可!深度卷积网络算法成熟,肺结节检测技术进入人工智能时代

作者:高道龙 2017-03-13 10:57

{{detail.short_name}} {{detail.main_page}}

{{detail.description}} {{detail.round_name}} {{detail.state_name}}

{{detail.province}}-{{detail.city}}
{{detail.setup_time}}
融资金额:{{detail.latest_event_amount}}{{detail.latest_amount_unit}}
投资方: · {{item.latest_event_tzf_name}}
企业数据由提供支持
查看

无论男性还是女性,肺癌的致死数都是所有癌症中最高的。据统计2016年美国因肺癌去世的病人占总癌症致死病例的27%。早期筛查是降低死亡率的重要手段。然而由于早期肺癌病人一般缺乏明显临床症状,也无特异的生物标记物,因此目前筛查的主要方法是通过放射影像检查肺部是否存在可疑病灶。


胸部放射影像技术中最常用的包括x射线胸透或者CT胸腔检查。相对于x射线胸透的扁平二维图片,CT可以提供胸腔的三维信息,因此其筛查的准确率远高于x射线。


低剂量CT扫描法因为其扫描速度快(平均操作时间每位被检测人员不超过1分钟)、费用低、放射剂量小,非常适合年度体检。美国一项持续多年的全国肺部筛查研究(National Lung Screening Trial)显示,每年使用低剂量CT对高危人群(年纪较大、有吸烟史或者家族病史的人群)进行胸部体检,7年内肺癌死亡率比用普通胸透检查的人群低20%。


因为低剂量CT扫描的优秀筛查效果,这一筛查在美国已逐渐成为常规体检项目,相信其他的国家也会逐渐推广应用这一方法。


推广这种筛查工作的一个主要障碍是CT影像诊断的巨大工作量。早期肺癌的多表现为肺部结节,它们尺寸小、对比度低、形状异质化高,因此筛查工作是由影像科专家人工读片完成。但是每位被检者的胸腔CT图像至少有100多张,精细级的扫描甚至多达600张,所以随着体检人数的快速增长,人工处理的方法越来越难以胜任此项任务。


方法:三个步骤


在过去的十多年里,多种针对肺部结节CT筛查的计算机辅助诊断(CAD)系统被开发出来,其中公开的有代表性的系统有:ISICAD,SubsolidCAD,LargeCAD,ETROCAD等。这些CAD系统通常包含三个步骤:1、数据影像预处理;2、建立疑似结节集;3、降低疑似集的误报。


步骤1的任务是将输入影像标准化,固定图像分辨率和层间距;划分其中肺部组织,裁除其它组织区域;降低数据噪音。步骤2的任务是使用各种算法,尽可能多的挑出影像里所有结节区域。这个步骤为了增强算法对结节的敏感性,一般对误报率不做严格要求。步骤3的目标是在上步生成的疑似集中尽可能剔除非结节情况,降低系统的假阳性误报率。各步骤的主要方法介绍如下:


影像预处理


此步骤各CAD系统采用的预处理步骤基本一致,它包括这几项任务:

a. 将符合要求的CT数据文件(一般为DICOM文件)导入系统,拒绝格式不对或者扫描层出现断档的数据;

b. 将数据转为CT信号的标准亨氏单位;

c. 调节层间距,保证各像素的真实物理间隔(毫米单位)一致;

d. 划分肺部区域、将非肺部区域数值剔除在外,防止这些区域产生噪音信号。

经过这些处理,系统将会获得一套干净的输入数据。


建立疑似结节集


各CAD系统对疑似结节的判断方法各不相同。常用的方法有以下几种:


1. ISICAD:此系统用到的识别方法由Murphy K.等人设计的(doi:10.1016/j.media.2009.07.001)。 他们定义了两个结节相关指标,形状指标(Shape Index, SI)和曲度指标(Curvedness, CI)。

QQ图片20170312232155.png

通过计算每层CT影像的SI和CI,并设立阈值筛选之,系统可以获得“种子” 疑似区域。再合并距离接近的“种子”区域,系统建立了完整的疑似结节集。


2. SubSolidCAD:此系统主要针对半固态的肺结节。半固态结节出现机会较少,但是它们更有可能是恶性病变,所以此类结节不能漏报。Jacobs C.等人(doi:10.1016/j.media.2013.12.001)设计了双层阈值筛选-750到-300亨氏单位之间的密度块。为了避免边界效应的影像,系统使用视觉算法将这些效应消除。最后系统剔除总体积小于33mm3的疑似区域,因为这些小结节危险性很小,一般无需患者回访。


3. LargeCAD:此系统主要针对较大的结节,直径大于10毫米的结节无法通过上面两种方法发现。针对这种结节,Setio A.等人(doi:10.1118/1.4929562)设置-300亨氏单位的阈值,并使用多种机器视觉算法处理图像,将相连的疑似区域合并,最后输出所有直径在8-40间的待选区域为疑似区域。


4. ETROCAD:此系统对连接血管壁或者胸腔壁的结节组织识别效果明显,由Tan M.等人设计(doi:10.1118/1.3633941)。不同于独立的结节,血管壁或者胸腔壁旁的结节组织形状多样,上述几种方法识别率不高。此系统设计了两套滤镜算法,可以增强结节组织和血管壁(胸腔壁),同计算增强后的影像与原影像的差度,并采用适当的阈值,可以定位结节组织的中心位置。最后将中心位置就近融合,得到所有疑似区域。


上述几个检测系统都是基于传统的机器视觉算法,随着人工智能的广泛应用,以深度卷积网络为代表的人工智能算法也陆续出现,代表有ReCTnet和ZNET。检测方法如下:


5. ReCTnet:由Ypsilantis P.等人设计的一种融合深度学习领域里的两种最重要的网络结构——卷积网络和循环网络的方法(arXiv:1609.09143v2),这样既可以学习每张影像图的内部特征,也可以学习各层图像间的顺序特征。作者先用卷积神经网络训练可以区分一层影像的子区域,是否包含结节的分类器,再结合CT影像的上下邻接层,用循环网络优化此分类器。


诊断时,整套CT影像送入系统,训练好的分类器遍历每层影像的每块子区域,计算区域含有结节的概率,得到三维概率地图。最终设置合适的阈值,将三维地图中的高危区域输出。即使不经过后续削减阳性误报的操作,此系统已经达到90%的敏感度和每套CT有4.5次误报率的水平。


6. ZNET:此系统基于Ronneberger O.等人设计U-Net(doi:10.1007/978-3-319-24574-4_28)。U-Net是一种像素级图像分割的深度卷积网络,比较适用于生物、医学影像方面。此ZNET系统采用U-Net输出的各像素是否属于结节的概率,构建每层CT影像的像素概率地图,并选取合适的阈值,将其中的高危区域划分出来。再通过机器视觉算法,将各区域合并,输出最终的疑似区域集。


降低疑似集的误报


如果说在肺结节的发现领域,人工智能与传统的机器视觉算法的敏感度不相高下的话,在结节假阳性的剔除领域,现在已经完全是人工智能的天下了。传统的模式识别方法对形状多变、类似体多的中小结节的选择性能力十分有限。代表性的人工智能算法如下一些:


1. CUMedVis:由香港中文大学的Dou Q.等人设计的3维深度卷积神经网络(doi:10.1109/TBME.2016.2613502)。对比相应的2维CNN,3维CNN可以整合更丰富的空间信息,通过其自身的分级结构提炼出更有代表性的隐含特征。作者采用三种不同的3维CNN结构框架,它们的输入大小和内部结构各自不同,处理立体CT影像数据。使用这三种网络处理CT影像中的同一空间区域,计算得出此区域包含肺结节的概率结果P1、P2、P3,并用简单的线性组合P=30%*P1+40*P2+30%*P3计算此区域是否包含肺结节的最终概率P。设置阈值,当概率p小于阈值时,判断为假阳性。作者的方法解决了影像中肺结节自身差异大、类似体多带来的挑战。


2. DIAG CONVNET:由Setio A.等人设计(doi:10.1109/TMI.2016.2536809)的多角度二维深度卷积网络。对于疑似区域集里的每一个待筛区域,从长宽高三个方向获取其50x50mm的子图像,以及它们各自前后相邻的各两片大小相等的子图像,共9张图。对应每张图,应用二维深度卷积网络进行特征提取,再全连接降维至16个特征,最后模型基于张子图的共144个特征进行分类,得出区域包含结节的概率。设置阈值,当概率p小于阈值时,判断为假阳性。


3. CADIMI:由Bel T.等人设计(暂无论文发表)。对于每一个疑似区域的中心,从每个维度方向上各取前中后三张子图,作为一张影像图片的三个通道输入并训练深度神经网络。在评测时,取测试层及临近四层共5层(并少量位移,以对其中心)同时计算其包含结节的概率,计算5次平均值为最终概率。同样设置阈值,当概率p小于阈值时,判断为假阳性。


除了上述3种,前一步骤介绍过的ReCTnet和ZNET也是假阳性检测方法。因为人工智能自身特性,发现结节的方法就是计算此区域为结节的概率,所以发现与筛选的结果是同步生成的。


展望:向多模型整合方向发展,人工智能大幅提高准确度


为提升系统的检测能力, 肺结节辅助诊断系统将会向着多模型整合的方向发展,例如在建立疑似集的步骤,简单的合并几种算法结果的操作就可以增加系统对各类型结节的敏感度。因为每一种模型都有自己的适用范围,合并在一起可以增加综合适用范围。


但是对于假阳性筛选步骤来说,多模型结果的简单合并或者平均操作不一定能增加模型的选择性,需要通过一套方法评判各模型在各种条件下的选择能力,确立其各自的适用条件,才能更好的降低假阳性率。


此外,随着人工智能算法的飞速发展,越来越多的优秀算法正在被开发出来,可以提高已有方法的准确度。例如前文提及的CUMedVis方法,其作者在两个月后报道将模型中的神经网络改进为残差神经网络,将最后的假阳性检测成功率又提高了2个百分点。


最后,人工智能模型的训练将会逐渐实现从需要标注病灶区域的强监督学习,到仅基于标注诊断结果的弱监督学习。Kaggle网站正在举办的相关竞赛,竞赛训练数据集的标注已经不再给出病变区域,而只是简单的标注每张CT对应的检测人员是否真的患有肺癌。


人工智能模型从CT影像数据中自行学习影像与临床肺癌诊断的关联。这样的弱标注数据人力消耗很少,非常适合大数据训练集的制作。与围棋中的AlphaGo类似,只有经过大量数据训练过的人工智能模型才具有出类拔萃的检测能力,真正在临床诊断中发挥作用,造福人类健康事业。


作者简介:陶进,浙江大学药学院信息所的特聘研究员,也是杭州大唯信息科技有限公司的创始人。大唯公司成立于2016年,专业从事将人工智能应用到医学影像分析方向。目前公司主要的开发项目是胸部体检影像(包括x射线胸透和CT影像)的计算机辅助诊断系统,目标是尽量将体检案例分类,将明显正常或者病变的案例筛选出来,这样影像科专业人员可以集中精力负责剩下的复杂案例。随着算法的不断提高,人工智能系统可以辅助决策的案例种类不断增加,需要专业人士解读的影像逐渐减少,整个影像诊断工作的速度可以得到极大的提高。

如果您想对接动脉网所报道的企业,请填写表单,我们的工作人员将尽快为您服务。


注:文中如果涉及企业数据,均由受访者向分析师提供并确认。如果您有资源对接,联系报道项目,可以点击链接填写基本信息,我们将尽快与您联系。

声明:动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。转载请联系tg@vcbeat.net。

分享

微信扫描二维码分享文章

企业
对接
商务
合作
用户
反馈