马上注册,阅读更多内容,享用更多功能!
您需要 登录 才可以下载或查看,没有账号?立即注册
×
编译:广东省肺癌研究所 杨雄雯
摘要
目的:LDCT是非常有效的肺癌筛查的手段,但大多数合适的人没有进行筛查。提供个性化癌症风险评估的工具可以使筛查更加精准。我们假设可以建立一个深度学习模型来评估整个LDCT数据,从而预测个人风险,无需额外的人口统计学或临床数据。
方法:研究者使用NLST的LDCT数据,开发了一个名为Sybil的模型。Sybil仅需要单次LDCT扫描数据,不需要临床数据或影像科医师的注释;它可以在影像工作站后台实时运行。Sybil在三个独立数据集上进行了验证:一个是NLST研究中的6,282个LDCT数据,一个是来自马萨诸塞州总医院(MGH)的8,821个LDCT数据和一个是来自长庚纪念医院(CGMH)的12,280个LDCT(对有无吸烟史不做区分)。
结果:NLST、MGH和CGMH的外部验证集上,Sybil的肺癌预测模型的AUC为0.92(95% CI,0.88-0.95)、0.86(95% CI,0.82-0.90)和0.94(95% CI,0.91-1.00)。6年的C指数分别为0.75(95% CI,0.72-0.78)、0.81(95% CI,0.77-0.85)和0.80(95% CI,0.75-0.86)。
结论:Sybil可以从单次LDCT扫描中准确预测个体的肺癌风险,以进一步实现个性化筛查。未来的研究需要了解Sybil的临床应用。该研究模型和注释是公开可用的。
相关背景知识
重点目标:个性化的肺癌预测模型可以改善筛查实践,但当前模型需要人口统计学信息、临床危险因素和影像学注释的组合。本研究利用来自NLST研究的数据,开发了深度学习癌症风险模型Sybil,该模型使用单次LDCT预测筛查后1-6年发生肺癌的风险。然后,通过马萨诸塞州总医院和台湾长庚纪念医院的独立测试集评估Sybil在没有图像注释和人口统计学或临床数据的情况下的表现。
转化价值:Sybil能够在NLST数据集上预测短期和长期肺癌风险。利用过去15年收集的LDCT数据,Sybil在来自美国和台湾的多样化患者测试中保持其准确性。该模型的代码是公开可用的。
相关性(T.E. Stinchcombe):本研究的初步结果表明,该程序可以在正常的临床工作流程中提供关于接受CT肺癌筛查的患者未来肺癌风险的额外信息,而不会造成过多干扰。未来的研究需要了解Sybil的临床应用。
简介
两项大型随机对照试验已经证实了使用LDCT进行肺癌筛查(LCS)对吸烟人群的有效性,分别在NLST和NELSON试验中减少了20%和24%的肺癌死亡率。因此,美国预防服务任务组建议50岁及以上、有20包/年吸烟史的人每年进行一次LDCT。目前在实现适当的LCS方面存在重大缺陷。例如,在美国,仅有可参加筛查的人口的10%进行了筛查。证据还表明,接受筛查的人群没有得到最佳的后续处理或参与长期筛查。与此同时,从未吸烟或轻度吸烟者的肺癌诊断正在迅速增加,这表明如果我们继续将LCS的研究仅集中在重度吸烟者身上,则筛查人群和患病人群之间的差距将持续存在。一个有助于解决这些不同LCS障碍的策略是通过个性化评估未来肺癌风险来提高LCS的效率和效益。过去提高LCS效率的努力主要集中在那些肺癌风险最高的人群,并将可用资源引导到他们的筛查中。为此,使用临床和人口统计学变量以及胸片来模拟吸烟人群的肺癌风险已取得了显著进展,目前一项正在进行的临床试验正在研究通过临床模型(PLCOm2012)来选择LDCT筛查的患者。
一旦患者开始进行LCS,确定后续随访频率主要依赖于可见肺结节的评估。Ardila等人利用NLST的LDCT开发了一个癌症检测算法,可以识别肺结节,并使用深度学习处理周围区域,准确预测1年和2年内的肺癌。其他人显示,当结合PLCOm2012和过去三次筛查的结果时,可以改善风险预测,但没有直接利用图像数据。在最近的研究中,Robbins等人使用风险因素和基于图像的特征来推荐个性化的筛查间隔。
我们假设LDCT图像中包含了目前未被识别的肺结节等特征,而这些特征可以预测未来肺癌风险。基于此类特征用来预测未来数年的肺癌风险的算法可以进一步加强患者管理和LCS实施策略。因此,我们旨在开发并验证一种深度学习算法,从单次LDCT扫描中预测未来6年的肺癌风险,并评估其潜在的临床影响。
材料和方法
NLST数据
NLST的资格标准和患者人口统计学特征已经先前的研究描述了。研究纳入了15,000名NLST研究志愿者的影像学和临床数据,包括该LDCT组中所有肺癌病例。数据包括志愿者的初始LDCT以及最多两次可用的年度随访LDCT。所有参与者签署了机构审查委员会(IRB)批准的知情同意书。
NLST训练、开发和测试集
根据计算机科学研究的标准实践,将NLST研究志愿者分为训练、开发和测试集。来自Ardila等人的测试集中包含的LDCT的志愿者被分配到我们的测试集(n=2,328),在训练期间对计算机单盲。其他志愿者随机分配到训练集(n=10,200)或开发集(n=2,472),在算法开发期间作为代理测试集。我们将每次LDCT数据视为唯一的数据点,且来自同一志愿者的多次扫描数据并未保持关联。在每次LDCT数据中,我们选择具有最薄CT图像层的单个序列以进行后续分析,如果6年内被诊断出经活检证实的肺癌病例,则考虑任何给定的LDCT在未来的癌症风险方面为阳性,而与是否存在结节或其他异常无关。
NLST图像标注
为了帮助训练模型,两位经验丰富的胸部影像科医生使用MD.AI软件对NLST研究的LDCT数据集的可疑病变进行联合注释,该注释针对筛查1年内发展为肺癌的所有志愿者。薄层CT上每个层面的病灶都进行了标记和注释(图1A)。
独立的外部验证数据集
经IRB批准后,我们从2015年至2021年在麻省总医院(MGH;美国波士顿)接受标准LCS的6,392名成年志愿者和在2007年至2019年间在长庚医院(CGMH;台湾林口和桃园)进行LDCTs筛查的10,696名成年志愿者中,回顾性地纳入了13,309个LDCT图像数据。另外与NLST和MGH队列不同,在CGMH任何没有个人癌症史的成人都可以进行LDCT筛查,无论是否有吸烟史。当然,没有临床随访或不适合分析的成像序列的患者被排除在外。
算法开发
Sybil旨在使用3D卷积神经网络来(附图A1)预测未来的肺癌风险。关于数据处理、算法设计和在Sybil构建过程在正文中不再赘述(需了解详细算法可以阅读文章补充材料)。Sybil的结果为包含六个评分的数据组,代表了LDCT检查后1至6年内肺癌风险的概率。
肺癌风险预测
为了评估Sybil的性能,我们计算了1至6年LDCT阳性结果的C指数和ROC曲线。C指数提示在随机选择的一对LDCT中,越接近癌症诊断的扫描具有越高的预测风险,而ROC曲线表征了模型在敏感性和特异性之间的权衡。据我们所知,目前还没有其他算法可以使用单次LDCT扫描来预测未来6年的整体肺癌风险。因此,没有明确的标准来比较Sybil的表现。我们认为所有试验的P<0.05具有统计学意义。
额外分析
为了更好地了解Sybil的内部机制并探索其临床效用,我们进行了额外的分析。在NLST测试集内进行特异性分析时,我们将LDCT的真阳性定义为随访中发现确诊为肺癌的可见结节,将真阴性定义为在6年的随访中未被诊断为肺癌。不符合真阳性或真阴性定义的LDCT将被排除在这些分析之外。最终NLST测试集的4,201个检查结果中共93个真阳性结果。在该子集内,我们回顾性地分析了Lung-RADS评分,并将Lung-RADS评分为1和2为定义为阴性,3和4定义为阳性。最后,我们使用McNemar测试将Sybil的假阳性率与Lung-RADS在同一敏感性下的假阳性率进行比较。
结果
肺癌风险预测
我们纳入了NLST研究中15000名志愿者的LDCT数据。对图像和数据的适用性进行过滤后,最终Sybil训练集中有28162个LDCT数据,开发集中有6839个LDCT数据,测试集中有6282个LDCT数据,其中阳性LDCT数据分别为1444个(5.1%)、337个(4.9%)和299个(4.8%),即6年内诊断为肺癌(图1B,附表A1)。在使用NLST训练集和开发集开发出Sybil后,我们通过计算6年内每年的AUC和C-index(图2,表1),评估了其在NLST测试集上预测肺癌风险的能力。在测试中,Sybil的输入只限于LDCT图像;没有提供图像注释或临床信息。检查Sybil预测未来肺癌的准确性,该模型1年的AUC为0.92(95% CI,0.88至0.95),2年的AUC为0.86(95% CI,0.82至0.90),6年预测的C-index为0.75(95% CI,0.72至0.78)。此外,Sybil在不同的性别、年龄和吸烟史亚组中都保持了良好的表现(附表A2)。
我们接下来将Sybil应用于两个独立的测试集。在MGH,我们使用了8,821个LDCTs,包括169个确认的癌症(图1B,附录表A3,仅在线)。从CGMH,我们使用了12,280个LDCTs,包括101个癌症。请注意,与NLST和MGH队列不同,CGMH不要求有阳性吸烟史才能获得LDCTs;因此,该队列包括一些从未吸烟的人(数据补充)。Sybil在MGH和CGMH队列中的风险预测与它在NLST测试集中的能力相似,在MGH和CGHM集中的C指数分别为0.81(95%CI,0.77到0.85)和0.80(95%CI,0.75到0.86),具有可比性(表2)。
额外分析
虽然Sybil不需要影像科医生来识别结节,但我们希望了解模型的风险评分何时需要依赖结节,何时不依赖于结节。为了估计影像学上可见的癌结节对Sybil风险评估的影响,我们分析了模型在NLST测试集的性能,并排除了被影像科医生注释为有可见结节的病例。我们的影像科医生指出,在随访中确诊的肺癌病例能在CT的确切位置发现结节。在探索性的分析中,Sybil的性能因去除了可见结节而受到影响,其2年AUC为0.81(95% CI,0.74至0.86),6年AUC为0.69(0.63至0.74;表A4)。
另外,我们探讨了与Lung-RADS相比,Sybil模型分析是否能提高解释可见肺结节的特异性。我们的NLST测试集包括4,201个LDCT数据,已知这些LDCT均有可见结节,且在随访6年后对经过了病理证实为恶性(N=93)或非恶性病变。在这个队列中,Lung-RADS的FPR为0.10(95%CI,0.09-0.11),而Sybil在相同的敏感度水平下,使用1年风险评分得出的FPR为0.08(95%CI,0.07-0.09)(P<001;附表A5)。当仅考虑基线LDCT时,Lung-RADS得出的FPR为0.14(95%CI,0.13-0.16),而Sybil的FPR为0.08(95%CI,0.07-0.09;P<001)。
临床应用实例
将计算机算法如何影响患者的护理流程进行可视化并不简单。为了说明Sybil可以提供的信息类型,以潜在地改善临床结果,我们搜索了肺部RADS评分为低风险(得分1或2),但Sybil的风险得分很高(得分为60%;图3)的案例。为了更全面地估计Sybil在坚持年度LCS的情况下预测肺癌的能力,我们检查了NLST测试集中肺RADS评分为1或2的病例(N=5611)。其中,Sybil的1年AUC为0.86(95%CI,0.76-1.0),2年AUC为0.79(95%CI,0.73-0.85)。
讨论
我们开发了名为Sybil的深度学习算法,可以通过单次LDCT扫描预测未来6年的肺癌风险。Sybil可以在有LDCT图像时在影像阅读站的后台运行,不需要输入人口统计学或其他临床数据,也不需要影像科医生对ROI进行注释。通过对NLST的数据进行训练,Sybil能够预测1年内的癌症,在NLST测试集上的AUC为0.92(95% CI,0.88-0.95),在MGH和CGMH独立外部验证集上的AUC分别为0.86(95% CI,0.82-0.90)和0.94(95%CI,0.91-1.00)。在NLST、MGH和CGMH集上,Sybil的6年C指数分别为0.75(95%CI,0.72-0.78)、0.81(95%CI,0.77-0.85)、0.80(95%CI,0.75-0.86)。
Sybil的评估可能不符合人类影像学家对图像分析的态度。我们试图深入了解Sybil在进行预测时可能考虑的视觉特征。我们注意到Sybil正确定位未来癌症位置的能力与LDCT获得高风险评分的可能性之间存在关联(附表A6),表明当Sybil预测未来肺癌高风险时,它使用的信号会定位到特定的高风险区域,而不是平均分布在整个胸腔。我们还发现,传统的临床风险因素如吸烟时间可以直接从LDCT图像中预测出来(附图A2,附表A7),这表明Sybil也可以从LDCT图像中推断出生物相关的信息。为了区分癌症检测和癌症风险预测,我们从分析集中删除了已知是癌症的可见肺结节。我们发现Sybil在这个集合上的性能较低,但仍然拥有预测能力。
按照标准做法,我们试图将Sybil与其他用于肺癌风险预测的模型进行比较。然而,尽管已经开发了几个模型来改善LCS和检测,但由于它们在目标、范围、数据输入和代码可用性方面的不同,没有一个模型能与Sybil进行有效比较(表2)。许多模型需要临床数据、人工识别和描述结节、多次LDCT或需要肺RADS评分。一般来说,这些模型可分为在扫描前风险预测并可用于引导高危患者进行筛查的模型,以及在扫描后风险预测并使用扫描数据(图像或图像描述)作为模型输入的模型。与Sybil最相似的两个模型可能是在LDCT之后,分析CT图像本身来预测风险,即Ardila和Huang发表的模型。然而,它们在预测癌症发病率的年限上是有限的。此外,由于代码库未公开的原因,我们无法利用其中任何一个模型来与Sybil进行短期癌症风险预测的对比实验。
根据我们的初步结果,一个潜在的临床应用是使用Sybil来减少低风险结节患者的随访或活检。事实上,与NLST研究中使用的结节评估算法相比,提高LDCT筛查的特异性是Lung-RADS系统的一个关键优势,也是它在美国被采用为金标准的基础。在对NLST测试集的评估中,在保持同等的敏感性前提下,Sybil将基线扫描的FPR进一步降低到8%,而Lung-RADS的FPR为14%。另外除了假阳性,从医学或法律角度来说,假阴性或漏诊也是极其重要的问题。回顾性分析NLST中漏诊的44例患者,如果不是因为人为的错误,大多数遗漏的病例都有可能被避免。虽然是传闻,但图3中讨论的案例同样引发了人们的思考,即是否可以利用Sybil来减少随访间期或通过他工具来增加优先级,以确保那些高风险的人得到最密切的随访。当然,这种干预措施的好处需要在前瞻性临床试验中得到确认。
在对Sybil进行前瞻性研究之前,第一步是要确信它是可推广的。Sybil是使用NLST试验的数据开发的,NLST是2002-2004年从美国患者中获得的,这些患者绝大多数是白人(92%)。随着时间的推移,CT技术的变化可能会对Sybil的性能产生不利影响,因此我们选择了更现代的队列进行独立验证。尽管我们已经从最初的Sybil构建中排除了层厚超过2.5 mm的扫描,但随着时间的推移,层厚的差异也被注意到了。尽管技术发生了变化,但Sybil在这些现代和多样化的验证队列中推广得很好。值得注意的是,在CGMH中,Sybil在非吸烟者人群中保持了良好的性能。虽然研究中纳入队列中没有一个黑人或西班牙裔患者为主的队列,但我们对模型的泛化性有信心。
这项研究也存在一些局限性。除了前面提到的缺乏一个真正的比较模型和次优的人群多样性以外,这是一项回顾性研究。由于我们研究的队列由参与LCS的受试者组成,我们无法评估Sybil在真实世界中的表现。重要的是,我们无法获得CGMH受试者的详细吸烟数据,因此关于Sybil从非吸烟人群的影像数据中预测肺癌的能力的结论仍然是推测性的。虽然CGMH队列可能主要由非吸烟人群组成,但台湾非吸烟人群的肺癌发病率也明显高于大多数国家。下一步的任务是了解Sybil是否可以促进对当前美国预防服务工作组标准之外的人群的LCS研究,以及制定将Sybil模型纳入现实世界的LCS患者管理和决策的最佳策略。像所有为医疗保健应用开发的人工智能工具一样,Sybil的仔细和透明的开发,包括对缺点的批判性评估,是必要的。
为了方便Sybil的使用和促进该模型临床应用的进一步研究,研究者公开了算法和NLST数据集上生成的图像注释。
参考文献:
Mikhael PG, Wohlwend J, Yala A, et al. Sybil: A Validated Deep Learning Model to Predict Future Lung Cancer Risk From a Single Low-Dose Chest Computed Tomography [published online ahead of print, 2023 Jan 12]. J Clin Oncol. 2023;JCO2201345. doi:10.1200/JCO.22.01345
|
|