阳光肺科

 找回密码
 立即注册

微信扫码登录

搜索
查看: 2|回复: 0

肿瘤学中的放射组学:实用指南

[复制链接]

91

主题

28

回帖

2043

积分

V3

积分
2043
mimi 发表于 2023-6-12 03:09:11 | 显示全部楼层 |阅读模式
请点击上面“思影科技”四个字,选择关注我们,思影科技专注于脑影像数据处理,涵盖(影像组学,fMRI,结构像,白质高信号分析,PET,波谱,DWI,DTI-ALPS,QSM,ASL,DCE,DSC,氧摄取分数(OEF)与CMRO2,BOLD-CVR,灵长类动物脑影像,大小鼠脑影像,菌群,EEG/ERP,脑磁图,FNIRS,眼动)等,希望专业的内容可以给关注者带来帮助,欢迎留言讨论,也欢迎参加思影科技的课程,可添加微信号siyingyxf18983979082进行咨询。(文末点击浏览)

01aa8731590780163db268b93dcc9528.png 图1. 图表显示了自2000年以来每年在PubMed(www.pubmed.gov)上包含放射组学和纹理分析术语的出版物数量。自2012年首次提出以来,文献中的放射组学术语呈指数级增长,仅在2020年就有超过1500篇出版物。在PubMed的出版物中,放射组学一词已超过纹理分析,表明研究文献中更倾向于使用放射组学这一术语。

肿瘤学应用
        肿瘤学的放射组学研究通常分为:(a) 分类任务或 (b) 使用事件发生时间分析预测临床结果。分类包括将人群划分为不同类别。示例包括良性与恶性、基因组状态、肿瘤分期、转移的存在等等。预测模型使用临床结果将患者根据临床终点(如总生存或无病生存)发生风险分为不同风险组,并使用事件发生时间分析进行评估。
      这些应用受到放射组学数据传递肿瘤生物学信息这一概念的指导。例如,放射组学特征可能反映时间和空间的异质性(见图2),这被认为是肿瘤行为和对治疗耐药性的关键决定因素。因此,放射组学具有充当“虚拟活检”的潜力,与标准活检不同,它使用非侵入性影像,允许对整个肿瘤(而不是局部样本)进行分析,并可以更容易地在多个时间点应用于疾病监测,提供与疾病进展相关的潜在重要的诊断信息。


规划放射组学研究
表1:放射组学术语表


ee190d4ecceaa2627da44500d6063eeb.png
表 2:规划放射组学研究的问题
05c994c357fb27bf6ed8ff4c5bf4c296.png      在规划放射组学研究时,有必要提出基本问题(表2)以评估可行性和成功可能性。在我们机构,我们发现放射组学研究提案在评估拟议的研究时非常有用(附录E1)。与任何研究一样,放射组学研究应具有可验证的假设,应解决相关的临床问题,通常目的是满足癌症管理中尚未实现的需求。
      一个关键的考虑因素是确定是否有足够的数据来支持放射组学特征的开发(定义为从放射组学分析中学到的模型,用于预测特定的临床结果)。作为二分类研究的经验法则,最终的放射组学特征签名中每个特征应获取10-15个样本。这可能在不同的研究之间有所不同,但在开始新研究时是一个有用的指南。如果类别大小不等,应将规则应用于较小的类别。由于放射组学是数据驱动的,可能无法预先知道最终模型中将包含多少特征,因为特征选择方法通常在模型拟合过程之前或期间应用。同样重要的是要意识到数据损耗是很常见的。常见原因包括缺失或标记错误的数据、未满足纳入标准或随访丢失以及图像质量差。这些凸显了在开始新研究之前获得最终样本量的现实估计的重要性。
      模型验证包括使用未用于拟合模型的数据来测量模型的预测性能。应有足够的数据可用于验证放射组学模型,通常约为训练样本量的三分之一。这个三分之一的比例代表了一个权衡,即在训练集中拥有足够的数据以确保模型具有足够的预测能力,并拥有足够大的测试数据集以确保预测性能估计准确。实际应用中的值范围在60:40到90:10之间。例如,使用“三分之一”标准和一个10特征的模型,至少需要133个样本,其中100个用于训练,33个用于验证。假设损耗率为50%,则需要总研究人口为266。这突显了整理足够规模的数据集以进行高质量放射组学研究所面临的挑战。
       最后,考虑数据是否平衡也很重要。对于分类任务,平衡数据是指每个类别或结果中包含大致相等比例的数据。当比例不等时,数据不平衡;如果非常不平衡,那么可能需要更大的样本量来使得所开发的模型具有普遍适用性。对于时间至事件分析,应估计观察到的事件(已知事件时间)和审查(例如,受试者在事件发生前离开研究或研究在事件发生前结束)的比例。
      应考虑数据异质性,包括疾病状态、治疗、成像设备、采集协议和测量方法。在现实世界的异质数据集和受控的同质数据集之间存在权衡,前者噪声可能掩盖潜在的放射组学特征签名,后者噪声较小但泛化能力较低。通过评估研究设计和纳入标准与临床实践中遇到的情况有多相似,来对数据异质性进行评估。这将有助于评估成功的可能性,以及是否需要进行后续的现实世界研究以建立具有临床应用价值的特征标签。
       确定了研究问题和研究人群后,应考虑收集试点数据,以便在全面数据收集之前发现并减轻潜在问题。通过代表性数据样本,可以估计缺失数据的频率和通过纳入标准的比率。对于分类研究,建议每个类别的试点样本量为12,但实际操作中这受到可用资源和研究人群的指导。尽早将试点数据运行通过放射组学处理流程,可以快速解决问题,任何初步结果都可能有助于指导最终样本量。例如,如果检测到特征标签但没有统计学意义,那么可能可以估计获得显著结果所需的样本数量。


放射组学工作流概述
       放射组学工作流代表了多学科团队的共同努力,包括数据科学家、影像科学家和放射科医生,并分为多个任务,这些任务通常按顺序执行(见图3、图4)。


232022e779468293ce7a5e65eec8b679.png
图3.如图所示,研究设计考虑了多个标准或活动之间的相互作用,包括患者人群、研究终点、可用的影像和/或临床数据、放射组学特征提取方法以及适当的建模和验证策略。




d7beb653e7c475fdf5d2ecdcfb62b437.png


4fb5249af1203f558a3af00f4b9dddff.png 图4. (A) 典型放射组学工作流程概述,包含研究设计并详细说明了从临床和成像输入一直到研究终点所涉及的各个步骤。(B) 应清楚报告每个阶段的细节,以便对研究结果进行有意义的解释、讨论和批评。Doran等人(15)的研究中使用了这种工作流程。作者研究了多厂商多参数MRI放射组学在预测乳腺癌患者淋巴结状况中的效用。AUC = 曲线下面积,DICOM = 数字成像和通信医学,GLCM = 灰度共生矩阵,GLRLM = 灰度游程矩阵,GTDM = 灰度差异矩阵,ICC = 类内相关系数,OHIF = 开放健康成像基金会,PACS = 影像存档和通信系统,RIS = 放射科信息系统,ROC = 受试者操作特征,RFE = 递归特征消除,SVM = 支持向量机,2D = 二维,XNAT = 可扩展神经影像档案工具包。
      

图像获取

5544cf71ec165780af42daba8b7e73cc.png 图2:这些腹部肿块展示了从较低到较高肿瘤异质性的变化。(A) 40岁女性患者的轴向T2加权MR图像显示胰腺内有一个大的单房囊性病变,其信号强度(SI)呈均匀的高信号,周边仅有轻微的非强化隔膜和光滑的边界。这种外观典型地符合粘液囊腺瘤。手术切除后,未发现侵袭性恶性肿瘤。(B) 轴向CT图像显示左肾内部分异质性肿块,边界清晰,主要包含均匀的平淡外观组织和血管纹理。手术切除后,诊断为梭形细胞肉瘤。(C, D) 轴向无增强(C)和增强(D)CT图像清楚地显示了纤维板层肝细胞癌的异质性特征,以及周围不规律的血管增强组织环绕着较低血管性的中心成分。增强扫描通常用于放射组学分析,并有助于突显血管性和空间异质性,这是肿瘤行为和对治疗的抵抗性的决定因素,而在无对比剂的情况下并不明显。       尽管迄今为止的大部分研究都使用了CT检查数据,但放射组学分析可以应用于整个影像数据谱,包括CT、PET、MRI和US检查的数据。CT和PET数据的一个优点是信号强度(SI)本质上是定量的。CT可能也不太容易出现PET和MRI中的运动伪影。US比其他成像方式更依赖用户;然而,与MRI一样,在无放射线负担的情况下,通过重复试验评估特征稳定性是可行的。最终,成像方式的选择通常取决于临床实践中可用和使用的设备。增强扫描可提供关于肿瘤增强、血管及异质性(图2)的信息,这在不使用造影剂的情况下可能不明显,但可能会增加成本负担并需要特殊的技能(例如,执行增强US的能力)。
      适合满足研究纳入和排除标准的成像数据应该被明确界定。标准化的成像协议(即,对所有样本使用相同的供应商或扫描器设置)可以用来减少不必要的混杂因素和噪声,而较不严格标准化的协议可用于反映现实世界的临床场景。一旦确定了一个队列,应将图像进行匿名处理,以删除患者可识别的原始数据。然而,可以保留相关的非识别图像数据。应使用无损压缩格式将图像导出为数字成像和通信医学(DICOM)文件,以避免丢失可能的信息性图像特征。与影像存档和通信系统(PACS)团队交流并寻求帮助是值得的。


数据管理
       非影像和临床数据通常整合在一个数据库中进行分析,建议在数据收集之前与机构或实践中的统计师或数据科学家讨论所需格式。接下来可以采取管理步骤来识别缺失或不完整的数据,并在合并临床和放射组学数据之前纠正错误或不一致之处。


图像预处理
表3 在特征提取之前可用的图像预处理步骤


390d974bd3772bd51fddb07ebc1cb68a.png        在特征提取之前,可以通过各种预处理步骤来增强原始图像数据,这些步骤在表3中进行了总结。尽管这些方法可能改善图像质量,但应注意它们可能会掩盖或降低放射组学特征,通过优化和标准化图像采集可能会更好地减轻这些问题。      与CT不同,MRI SI(信号强度)的单位是任意的,因此推荐对SI进行归一化。尽管目前尚无共识,但z-分数是一种简单的方法,通过将感兴趣区域(ROI)的平均SI减去像素SI,然后将结果除以标准差来计算。偏置场校正也应用于纠正MRI所遇到的空间场不均匀性。可以对CT数据中的体素Hounsfield单位应用阈值处理,以排除被认为包含无信息组织的体素。例如,非常低的值可能对应于肺内的空气,而高值可能对应于骨头或钙化。
       由于某些放射组学特征值依赖于体素大小,因此应将所有样本的图像重新采样到相同的空间分辨率。通常建议使用线性插值。
       运动校正可用于纠正配准错误、模糊或运动伪影,并已用于肺肿瘤的四维CT。然而,这种额外的处理可能会影响图像中的潜在放射组学信息。建议使用运动控制技术,例如屏气,因为运动模糊对计算放射组学特征的影响已知是特征相关的。
        在提取特征之前,可以使用图像滤波作为预处理步骤来突出特定的图像属性。非空间滤波器增加或减少放射组学特征对高或低强度值的敏感性;例如,取图像强度的平方或指数。空间滤波器增加或减少特征对图像特定空间属性的敏感性。例如,高斯拉普拉斯(LoG)滤波器强调快速变化的区域(如边缘检测),波形滤波器则分离高和低空间频率信息。随着图像滤波处理,放射组学特征(因此数据集)的数量可能会变得很大,所以通常首先尝试使用未经滤波的图像。


分割
       根据研究假设,可以在肿瘤、肿瘤亚区域(“生境”)或肿瘤周围区域上绘制感兴趣区域(ROI)。例如,生境成像旨在通过比较离散的功能性肿瘤亚区域来表征肿瘤内部的空间异质性,而肿瘤周围区域可能包含关于肿瘤侵袭或宿主免疫应答的信息。用于治疗规划的放疗肿瘤体积数据也可以使用,尽管这些数据可能与专门为放射组学分析绘制的ROI不同。
       ROI可以在二维(2D)(单个切面)或三维(3D)(多个切面)中手动、自动或半自动地进行勾画(见图5)。选择将取决于可用资源和肿瘤类型。三维ROI将捕获额外的信息,但在使用手动勾画时可能耗时较长。
      自动分割可能更快、更具可重复性,并且可能需要用于手动分割不可行的较大数据集。然而,应由放射科医生检查分割以确保准确性。可以使用Dice得分将特征与手动分割后获得的特征进行比较。
      当使用手动分割时,应通过对同一肿瘤进行多次分割(由相同或不同的操作者执行勾画)来评估特征的稳定性。


特征提取
表4 总结影像组学特征类别


4c6730e6ff3d636a18d1dc506358f8db.png


06f387770984b6209deafc1a123a8b71.png 图 5:大多数放射学研究中使用的特征类的示意概述。      形状或形态特征可以在二维或三维视图中计算,对于大多数研究,三维分析是推荐的方法。一阶特征是从感兴趣区域(ROI)内的信号强度(SI)分布计算得出的,包括描述数据中心趋势的特征,如均值、中位数和众数,以及描述分布的对称性和异质性的特征,如百分位数、偏度、峰度和熵。纹理或二阶特征考虑了两个或更多体素的联合统计数据,因此在粗纹理示例中,相邻像素对可能具有相似的灰度级别,而在细纹理示例中,相邻像素值是独立的。在放射学图像中,相邻体素之间的统计依赖关系可能比这些简单示例更复杂,因此从灰度共生矩阵(GLCM)、灰度游程矩阵(GLRLM)和其他指标导出的特征可以有效地量化图像纹理。在计算纹理特征之前,可以通过滤波图像来强调边缘、不同长度尺度或不同灰度级别,以使特征对更广泛的生物学相关性更敏感。      特征提取是进行模型构建和验证之前的最后一步,涉及从每个ROI计算用于模型的放射组学特征。放射组学特征是“手工制作”的,因为生成它们的算法是由数据科学家设计或选择的,而不是像深度学习方法那样直接从图像中学习。因此,可能可以解释用手工制作的特征获得的放射组学签名,而深度学习特征可能受到解释性的限制。      存在各种各样的特征类别,并在表4中进行了总结。定量成像特征的集合很大,并且正在不断更新和完善。已经进行了标准化的努力,例如图像生物标志物标准化倡议(IBSI),我们建议读者参考此资源以获取最新的特征及其属性的描述。
    形态特征描述了病变的几何属性,如体积、直径、表面积和延长。基于强度的特征,也称为一阶特征,描述了ROI内强度分布的属性,其中忽略了每个体素的空间位置。一阶特征可以大致分为衡量分布位置(均值、中位数、众数等)、衡量分布范围(方差、四分位距等)、衡量分布形状(偏度、峰度等)以及与体素强度异质性的其他特定属性相关的特征(熵、能量等)。像MRI和US这样的成像方式通常会生成具有任意强度缩放的图像,如果所有受试者的图像都不一致,则需要在计算一阶特征之前应用图像标准化。例如,偏度等特征不受图像标准化的影响,因为它们依赖于强度分布的形状而非绝对值。
      二阶特征,也称为纹理特征,超越了一阶特征,因此在计算特征时使用两个或更多像素的空间位置和信号强度(SI)。例如,灰度共生矩阵(GLCM)特征考虑了给定距离和方向分隔的像素对的SI,而灰度级大小区域矩阵(GLSZM)特征则考虑了离散化后具有相同SI的连续区域的大小。
       强度离散化涉及将给定强度范围内的像素分配给单个值或“区间”,并在计算二阶特征之前使用。可以指定区间宽度或区间总数。减少区间数量(或增加区间宽度)将导致图像细节丢失,但会去除噪声。相反,增加区间数量(或减少区间宽度)将保留更多图像细节,但也会保留图像噪声。使用固定的区间大小可保持“分区”数据与原始强度刻度的关系,并可在强度刻度为定量时使用(例如CT和PET数据)。当图像强度单位是任意的(例如MRI数据),建议固定区间数量(而不是区间大小)。无论使用哪种方法,对所有患者都应相同。
e3692d038b05e329056b92c64cbab3c7.png 图 6. SI 离散化包括将给定 SI (信号强度)范围内的像素分配给一个值或一个区间,这在计算二阶特征之前使用。在这个图中,SI 直方图是从一个包含肝脏肿瘤的感兴趣区域 (ROI) 中获取的,其具有不同的区间大小(或区间宽度)。增加区间大小或减少区间数量可能导致图像细节丢失,但降低噪声;而减少区间大小或增加区间数量可以保留图像细节,但以图像噪声为代价。图像模态和 SI 范围的选择将决定离散化方法。      除了上述不可知或定量特征类别外,还可以通过视觉检查确定诸如“毛刺状”或“增强”之类的语义特征,并将其用作放射学模型的输入特征。这些特征通常是分类的(例如,小,大,超增强)而不是数值型的。


如果您对影像组学等数据分析感兴趣,请浏览思影以下链接(直接点击即可浏览),感谢转发支持。(可添加微信号siyingyxf18983979082咨询):重庆:
第九届影像组学班(重庆,5.20-25)
第八十三届磁共振脑影像基础班(重庆,6.9-14)

北京:
第八十届磁共振脑影像基础班(北京,4.19-24)
第二十七届脑影像机器学习班(北京,5.5-10)
第十三届任务态功能磁共振数据处理班(北京,5.24-29)
第十届影像组学班(北京,6.11-16)
第三十九届磁共振脑网络数据处理班(北京,6.20-25)

上海:
第八十一届磁共振脑影像基础班(上海,5.6-11)
第二十八届脑影像机器学习班(上海,5.14-19)



第三十三届扩散成像数据处理班(上海,6.22-27)
南京:
第十二届脑网络数据处理提高班(南京,4.22-27)
第三十二届扩散成像数据处理班(南京,5.9-14)
第八十二届磁共振脑影像基础班(南京,5.20-25)
第三十八届磁共振脑网络数据处理班(南京,6.7-12)
第二十九届脑影像机器学习班(南京,6.15-20)
数据处理业务介绍:
思影科技功能磁共振(fMRI)数据处理业务
思影科技弥散加权成像(DWI)数据处理
思影科技脑结构磁共振(T1)成像数据处理业务
思影科技啮齿类动物(大小鼠)神经影像数据处理业务
思影科技定量磁敏感(QSM)数据处理业务
思影科技影像组学(Radiomics)数据处理业务
思影科技DTI-ALPS数据处理业务
思影数据ASL数据处理业务
思影科技灵长类动物fMRI分析业务
思影科技脑影像机器学习数据处理业务介绍
思影科技微生物菌群分析业务
思影科技EEG/ERP数据处理业务
思影科技近红外脑功能数据处理服务
思影科技脑电机器学习数据处理业务
思影数据处理服务六:脑磁图(MEG)数据处理
思影科技眼动数据处理服务
招聘及产品:
思影科技招聘数据处理工程师(北京,上海,南京,重庆)
BIOSEMI脑电系统介绍
目镜式功能磁共振刺激系统介绍

模型构建
      一旦收集和整理了临床和放射学数据,就会拟合统计模型来预测研究终点,如肿瘤类型或生存时间。典型的模型使用输入特征(包括前述的放射学特征和临床特征,如肿瘤标志物或淋巴结状态),以及模型旨在预测的目标数据,如良性与恶性或复发风险。通过在新的测试数据上验证模型,确定从放射学分析中发现的模型的最终性能和泛化能力(33,34)。
       留出法使用训练集来开发模型,使用验证集来估计在新数据上的未来性能。为避免使模型性能产生偏差,应该在模型训练过程中对验证数据进行屏蔽,并且最终验证仅进行一次。理想情况下,验证数据应该从其他机构获取,但这并不总是可能的。将单一机构的数据分成训练集和验证集通常更加实际,可以通过随机分割、按时间(使用最近的案例作为验证数据)或选择训练和验证数据集中类似的类别比例(例如,良性与恶性)来完成,这被称为分层抽样。
       一旦建立了训练和验证数据集,重要的是要验证两个数据集之间的特征分布是否相似。这是为了确保训练数据中获得的任何有用模式也会出现在验证数据中。通常对每个特征进行独立的单变量测试,有用的测试包括Mann-Whitney U检验(两个数据集中的中位数相等),以及Komogorov-Smirnov或Shapiro-Wilk检验(两个数据集的分布相等)。这些测试不使用结果数据(它们被称为无监督),因此不违反验证数据仅用于模型测试的规则。
      虽然留出验证是最简单的方法,但对于较小的数据集(<100-200个样本),它的效果较差,因为验证数据集中的性能不确定性较大,训练数据的多样性可能不足以发现一个稳健的模型。如果获取更多数据是不可行的,并且在较小研究的情况下,可以使用交叉验证来估计性能。
     在K折交叉验证中,数据被划分为K个折叠(通常为3-10个),然后使用K-1个折叠来训练模型,剩余的折叠被保留用于测试模型。这样,就训练了K个独立的模型,其中每个折叠都充当测试集的角色。最终性能估计是所有折叠上的平均值,可以使用折叠上的标准偏差来估计性能的标准误差。这在比较不同模型时很有用,并反映了模型的稳健性。
       许多模型有调整参数,优化这些参数对于良好的性能至关重要。与模型参数不同,调整参数不能直接从训练数据中学习。参数调整不当可能导致训练数据过拟合或欠拟合——过拟合会导致验证数据相对于训练数据的性能下降,而欠拟合则是指模型无法捕捉训练数据中的重要特征(图7)。分割验证(相当于留出验证)和交叉验证可用于优化调整参数,这样可以找到在过拟合和欠拟合之间取得平衡的调整参数。可以使用类似的验证方法在候选模型之间进行选择。

57ece349c27d04c2cf1f81d6a45f33a5.png 图7. 示例二维分类任务显示了欠拟合和过拟合的影响。       在欠拟合的情况下,线性模型拟合一条直线,无法捕捉决策边界的非线性(曲线)特性,因此其在训练和测试数据上的分类性能都会不理想。在过拟合的情况下,模型受到的约束不够,容易产生过于受噪声影响的复杂决策边界。在这种情况下,训练数据的性能表现良好,但在独立测试数据上的表现会变差。许多机器学习模型都有可调整的调优参数,可以在这个范围的两端提供模型,因此优化调优参数(通常使用交叉验证技术)是产生一个拟合良好的模型的必要条件。特征稳定性
      当进行手动分割时,重要的是拒绝那些对感兴趣区域(ROI)中差异特别敏感的放射学特征。这通过为一个或多个阅片者重复一部分患者的肿瘤分割来评估。可使用类内相关系数(ICC)拒绝低于ICC阈值的不可复制特征(35,36)。
       虽然可以从整个数据集中选择用于测量可重复性的患者,但当使用留出测试时,选择位于训练数据中的患者比较方便。在这种情况下,特征拒绝的ICC阈值可以作为模型参数进行处理,并作为调整参数进行优化,但当未执行此操作时,ICC阈值通常在0.75-0.9的范围内。特征稳定性还受到患者因素波动的影响,包括定位;如果可能的话,应在一部分患者上获取重复测试图像。这在MRI研究中通常是可行的,但对于涉及的图像获取可能更困难。而且通常在回顾性研究中不可能实现。


单变量特征发现
       在放射组学研究中,单一特征表现良好到足以单独使用的情况并不常见,但单变量模型(只包含一个特征的模型)仍然作为基准基线性能对比更复杂的多变量模型(包含多个特征的模型)具有实际意义。对于二元分类任务(将数据分为两组,如良性和恶性),接收者操作特征曲线下的面积是评估每个单独使用的特征分类性能的合适指标,Mann-Whitney U检验可用于测试模型是否比随机性能更好。由于每个特征的分类性能都将进行测量,因此应使用Bonferroni校正或诸如Benjamini-Hochberg和Benjamini-Yekutieli校正(37,38)的错误发现率方法对P值进行多重比较校正。


特征选择和降维
表5:特征选择和降维方法
2751a7e7606966e0fec532a1daefcd0a.png
       当应用特征选择或降维时,多变量模型通常表现更好,因为这有助于消除噪声并减少冗余(不会为模型增加任何额外信息的特征数量)。表5概述了一系列方法,并在本节中详细描述。选择特征选择技术时的一个关键考虑因素是对最终模型可解释性的影响。      可以使用成对相关统计量(如皮尔逊相关系数)来减少相关特征,消除高于某个阈值(例如,0.8)的相关特征。这是在不了解结果数据的情况下完成的,并从相关性最高的一对开始迭代。对于每一对,拒绝与其余特征具有最高平均相关性的特征。为了提高解释性和稳定性,我们已经开发了一种对这种技术的扩展,其中将高度相关特征的类别(即形状,一阶和纹理)用于确定应删除哪个特征。例如,如果一个一阶特征和一个纹理特征相关,那么保留一阶特征;如果一个形状特征和一个一阶特征相关,那么保留形状特征。这将产生一组冗余较少的特征,并趋向于更简单的解释。
       降维技术旨在在整体变量数量较少的情况下保留特征的信息成分。例如,100个特征中包含的大部分“有用”信息都表示在由特征组合组成的一个或两个新变量中。在这种情况下,维度已从100减少到一或两个。广泛使用的示例包括主成分分析(PCA)、独立成分分析、核主成分分析和自动编码器。一个关键的局限性是,特征降维后获得的变量可解释性有限,因为它们受到许多或所有输入特征组合的影响。
      特征选择方法利用目标数据,可以分为三种类型:过滤器方法、包装器方法和嵌入式方法。
      过滤器方法使用从每个输入特征和目标数据中得到的统计数据对输入特征进行排序和选择,应用于模型拟合之前的训练数据。它们是有监督的(因为它们使用目标数据),应注意避免从验证数据中泄露数据。可能的统计量包括t统计量、Mann-Whitney U检验、Fisher得分、联合互信息、最大相关最小冗余和互信息
      包装器方法将所选的多变量模型与一个特征排序功能相结合,该功能用于迭代地移除低排名特征。为避免过拟合,应使用训练数据上的交叉验证或分割验证来计算排名。递归特征消除是一种流行的包装器方法,可在大多数统计软件包中找到。
     嵌入式方法采用现有的统计模型(如逻辑回归)并添加一个术语(称为正则化项),该术语具有将与非信息特征相关的模型参数缩小到接近零的值的效果。当试图解释最终模型时,这种简化属性是有益的。示例包括最小绝对收缩和选择算子(LASSO)、岭回归和弹性网络正则化。嵌入式方法具有一个或多个调优参数,应使用交叉验证或分割验证在训练数据中对这些参数进行优化。


多变量模型
表6:广泛使用的分类和事件时间模型的优缺点
4741dcf074856a544ffbeea651a72dc6.png        多变量模型是指使用多个输入变量的模型,在放射组学研究中经常使用。放射组学研究的主要模型是分类模型和时间至事件(生存)模型(表6)。      分类模型在数据间生成边界,将其分为离散的组(图7)。这些边界被称为决策边界,数据的分类基于它们位于边界的哪一侧。一组广泛使用的分类模型生成线性边界(即直线)或二次边界(曲线)。这些模型包括线性判别分析(LDA)、高斯朴素贝叶斯和二次判别分析。逻辑回归是一种相关技术,它(像LDA一样)生成线性决策边界,但与LDA不同,远离边界的数据点对边界位置的影响较小。这些分类模型的优点是它们没有任何调整参数,但缺点是它们只能生成线性(或二次)决策边界,如果将类别分开的真实边界不仅仅是一条直线或二次函数,可能导致欠拟合。这些技术可以与前面描述的所有三种特征选择方法结合使用。逻辑回归与LASSO正则化广泛应用于此类问题,它的优点是模型参数可以解释为几率比,正则化倾向于去除非信息特征,有助于模型解释。       当数据需要更复杂数字边界时,可能需要使用非线性分类器,如支持向量机、关联向量机、随机森林和神经网络分类器。与线性或二次函数相比,这些算法可以在类别之间生成更复杂的边界,并具有可以显著影响性能的调整参数,因此应使用训练数据上的交叉验证或分割验证进行参数优化。
       评估从数据中学习到的分类模型的性能是开发放射组学特征的关键方面。附录E2概述了一些更广泛使用的指标及其用途。
       在放射组学研究中广泛使用的时间至事件模型包括Cox回归和随机森林生存模型。这两种模型都考虑了数据的审查。在具有大量输入特征的放射组学研究中,带有LASSO正则化的Cox回归可以有效地生成具有少量非零特征的风险特征(45)。时间至事件模型性能评估大致可分为两类:在给定时间点的预测准确性或整个生存曲线的风险预测准确性。评估这些指标的常见方法在附录E2中概述。


软件
       在选择放射组学软件时,首要的考虑是使用商业还是非商业软件。非商业应用程序通常是免费的,快速发展,反映了最新的研究趋势。商业应用程序不是免费的,但可能更稳定,提供技术支持,并可能是一个“黑箱”。与所有科学软件一样,用户应考虑所选软件包的成熟程度、可用文档、文献中的先前使用情况以及来自开发该软件的个人或组织的支持潜力。其他放射组学特定的考虑因素包括影像存档和通信系统(PACS)集成、分割工具、支持的放射组学特征、预处理和模型构建。如果有本地专业知识,可以考虑实施一个内部流程,以便针对本地系统进行优化。


写作
       对放射组学研究结果的解释需要对研究设计过程中执行的各个步骤有详细的了解,当准备手稿时,清楚地概述这些步骤是至关重要的。为了帮助作者并为手稿写作提供一个框架,有各种放射组学和人工智能特定的清单、报告指南和放射组学质量评分可供参考,此外还有熟悉的指南,如 TRIPOD(透明报告多变量预测模型用于个体预后或诊断)、CONSORT(统一报告试验标准)和 SPIRIT(标准协议项目:干预试验推荐)。这些可以帮助手稿准备,并了解同行评审时手稿将如何被评估。为了解决放射组学标准化的挑战,遵循公认的术语是很重要的,例如 IBSI 收集的术语。
      处理和获取参数应为研究的所有阶段指定,此外还应提供软件详细信息和版本号。有人建议,大量使用补充材料,包括影像协议、检查图像、分割、特征提取公式和放射组学模型代码是可取的。如果无法呈现特定患者的数据,可以使用数字模型计算的值并将其与经验证的公差水平进行比较。


结论
       肿瘤学中的放射组学应用包括诊断、预后和临床结果预测。这是一个涉及放射科医生、数据科学家和影像科学家的多学科领域。存在各种挑战,包括在工作流程的各个阶段以及使用真实世界异质数据集在多个站点进行前瞻性验证方面的标准化需求。本文提供了多个学习要点,以改进研究设计和执行,以及增强放射组学在临床实践中的应用。


如需原文及补充材料请添加思影科技微信:siyingyxf或18983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询。另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布,如果我们的解读对您的研究有帮助,请给个转发支持以及右下角点击一下在看,是对思影科技的支持,感谢!

73135f8bac4bebfa40ca8c7964e9b57e.jpg

微信扫码或者长按选择识别关注思影

非常感谢转发支持与推荐


欢迎浏览思影的数据处理业务及课程介绍。(请直接点击下文文字即可浏览思影科技所有的课程,欢迎添加微信号siyingyxf18983979082进行咨询,所有课程均开放报名,报名后我们会第一时间联系,并保留已报名学员名额):
核磁:重庆:

第九届影像组学班(重庆,5.20-25)
第八十三届磁共振脑影像基础班(重庆,6.9-14)
南京:


第十二届脑网络数据处理提高班(南京,4.22-27)
第三十二届扩散成像数据处理班(南京,5.9-14)
第八十二届磁共振脑影像基础班(南京,5.20-25)
第三十八届磁共振脑网络数据处理班(南京,6.7-12)
第二十九届脑影像机器学习班(南京,6.15-20)
上海:

第八十一届磁共振脑影像基础班(上海,5.6-11)
第二十八届脑影像机器学习班(上海,5.14-19)




北京:
第八十届磁共振脑影像基础班(北京,4.19-24)
第二十七届脑影像机器学习班(北京,5.5-10)
第十三届任务态功能磁共振数据处理班(北京,5.24-29)
第十届影像组学班(北京,6.11-16)
第三十九届磁共振脑网络数据处理班(北京,6.20-25)

第八十四届磁共振脑影像基础班(北京,6.28-7.3)
脑电及红外、眼动:重庆:
第三十二届脑电数据处理入门班(重庆,5.9-14)
第七届R语言统计班(重庆,5.31-6.4)
上海:
第三十一届脑电数据处理入门班(上海,4.22-27)

第六届脑电机器学习数据处理班(Matlab版本,上海,6.1-6)
第三十届近红外脑功能数据处理班(上海,6.12-17)
第十四届脑电信号数据处理提高班(上海,7.5-10)
北京:
第二十九届近红外脑功能数据处理班(北京,5.14-19)
第三十九届脑电数据处理中级班(北京,6.2-7)
南京:

第三十三届脑电数据处理入门班(南京,6.21-26)
数据处理业务介绍:
思影科技功能磁共振(fMRI)数据处理业务
思影科技弥散加权成像(DWI)数据处理
思影科技脑结构磁共振(T1)成像数据处理业务
思影科技啮齿类动物(大小鼠)神经影像数据处理业务
思影科技定量磁敏感(QSM)数据处理业务
思影科技影像组学(Radiomics)数据处理业务
思影科技DTI-ALPS数据处理业务
思影数据ASL数据处理业务
思影科技灵长类动物fMRI分析业务
思影科技脑影像机器学习数据处理业务介绍
思影科技微生物菌群分析业务
思影科技EEG/ERP数据处理业务
思影科技近红外脑功能数据处理服务
思影科技脑电机器学习数据处理业务
思影数据处理服务六:脑磁图(MEG)数据处理
思影科技眼动数据处理服务
招聘及产品:
思影科技招聘数据处理工程师(北京,上海,南京,重庆)
BIOSEMI脑电系统介绍
目镜式功能磁共振刺激系统介绍

此处给个“在看”及“点赞”,让更多朋友关注
回复

使用道具 举报

给我们建议|手机版|PIME|阳光肺科 ( 粤ICP备2020077405号-1 )

GMT+8, 2024-9-20 15:25

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表