中华放射医学与防护杂志  2024, Vol. 44 Issue (12): 1027-1033   PDF    
基于放射组学特征预测γ通过率的多中心研究
陈路桥1 , 倪千喜1 , 吴宇2 , 任欢3 , 庞金猛1 , 谭剑锋1 , 骆龙军1 , 吴智理1 , 曹锦佳4     
1. 湖南省肿瘤医院 中南大学湘雅医学院附属肿瘤医院放疗科, 长沙 410013;
2. 岳阳市中心医院肿瘤科, 岳阳 414020;
3. 常德市第一人民医院肿瘤科, 常德 415000;
4. 南华大学核科学技术学院, 衡阳 421001
[摘要] 目的 采用基于放射组学的机器学习方法, 在多个放疗机构中构建γ通过率分类预测模型, 并评估模型的分类性能。方法 回顾性收集了来自3个放疗机构的572例容积旋转调强放疗(VMAT)患者数据(其中514例作为训练集, 58例用作测试集), 额外收集了单个机构的45例VMAT计划作为独立的外部验证集, 均使用基于模体实际测量的三维剂量验证方式并在3%/2 mm标准下采用10%剂量阈值、绝对剂量及全局归一进行γ分析。提取基于剂量文件的放射组学特征, 使用随机森林(RF)方法以及RF结合沙普利加性解释(SHAP)方法进行特征筛选, 根据特征排序分别选择不同数量(10、20、30、40、50)的特征子集作为模型的输入, 使用极端梯度提升树算法对数据进行训练, 通过受试者工作特征曲线下面积(AUC)值及F1分数来评估模型分类性能。结果 在3%/2 mm标准下, 均在特征子集数量为20时模型性能表现最佳。在测试集和外部验证集中, 经RF特征选择的最佳预测模型的AUC值和F1分数分别为0.88和0.89、0.82和0.90;经RF-SHAP特征选择的最佳预测模型的AUC值和F1分数分别为0.86和0.92、0.87和0.89, 且经RF-SHAP特征选择的最佳模型表现出更好的稳健性, 与RF特征选择方法相比具有一定的优势。结论 针对多中心的剂量验证结果, 可以使用基于剂量文件的放射组学特征结合基于SHAP值的特征选择方法来构建机器学习预测模型并具有较好的分类性能, 有助于推进伽马通过率预测模型的临床应用与实施。
[关键词] 机器学习    容积旋转调强放疗    放射组学    γ通过率    多中心    
A multicenter study on the prediction of gamma passing rate based on radiomic features
Chen Luqiao1 , Ni Qianxi1 , Wu Yu2 , Ren Huan3 , Pang Jinmeng1 , Tan Jianfeng1 , Luo Longjun1 , Wu Zhili1 , Cao Jinjia4     
1. Department of Radiation Therapy, Hunan Cancer Hospital and the Affiliated Cancer Hospital of Xiangya School of Medicine, Central South University, Changsha 410013, China;
2. Department of Oncology, Yueyang Central Hospital, Yueyang 414020, China;
3. Department of Oncology, The First People's Hospital of Changde City, Changde 415000, China;
4. School of Nuclear Science and Technology, University of South China, Hengyang 421001, China
[Abstract] Objective To construct classification prediction models for gamma passing rate using radiomics-based machine learning approaches and data from multiple radiotherapy institutions and evaluate the models' performance. Methods The data from 572 volumetric-modulated arc therapy (VMAT) patients across three radiotherapy institutions (514 for training and 58 for testing) were retrospectively collected. Additionally, 45 VMAT plans were collected from a single institution as an independent external validation set. For all the data, a three-dimensional dose validation approach based on actual measurements of phantoms was utilized, and gamma analysis was performed at the 3%/2 mm criterion using a dose threshold of 10%, absolute doses, and global normalization. After radiomic features were extracted from dose files, feature selection was performed using the random forest (RF) method and RF combined with Shapley Additive exPlanation (SHAP). Then, feature subsets of varying sizes (10, 20, 30, 40, and 50) were selected based on feature rankings. Using these subsets as inputs, data training was conducted using the Extreme Gradient Boosting (XGBoost) algorithm. Finally, the models' classification performance was assessed using the area under the curve (AUC) values and F1-score. Results Under the 3%/2 mm criterion, all models performed the best in the case of 20 feature subsets. The optimal prediction model established based on the feature selection using RF exhibited AUC and F1-score of 0.88 and 0.89, respectively on the testing set and 0.82 and 0.90, respectively, on the validation set. The optimal prediction model built based on the feature selection using RF combined with SHAP yielded AUC and F1-score of 0.86 and 0.92 on the testing set and 0.87 and 0.89, respectively, on the validation set, along with superior robustness. Therefore, the second model possessed certain advantages over the first model. Conclusions For multicenter dose verification result, it is feasible to construct a machine learning prediction model with high classification performance using radiomic features derived from dose files, combined with feature selection based on SHAP. This approach can assist in advancing the clinical applications and implementation of gamma passing rate prediction models.
[Key words] Machine learning    Volumetric-modulated arc therapy    Radiomics    Gamma passing rate    Multicenter    

肿瘤的治疗已日益成为一项多学科协作的工作,放射治疗作为肿瘤治疗的重要手段之一,随着技术的创新与发展,将在各种肿瘤疾病的治疗中继续发挥关键作用[1]。近年来,随着计算机技术的飞速发展,人工智能在放疗临床工作流程中有了巨大的潜力,包括图像重建、图像配准、靶区勾画、自动计划、质量保证(quality assurance,QA) 以及疗效的评价等[2]。各种基于深度学习和机器学习的模型有希望成为准确的和省时的虚拟QA工具,有助于QA流程在临床实施中更加高效和有效。已有多项研究使用计划复杂性参数作为输入,建立机器学习模型预测容积旋转调强放疗(volumetric-modulated arc therapy,VMAT)计划的γ通过率,并取得较好的预测精度[3-5]。然而针对γ通过率(gamma passing rate,GPR)的预测和分类,使用多中心数据进行的研究较少,多中心研究有助于增加预测模型的适用性和可靠性,此外使用基于剂量文件的放射组学特征建立GPR预测模型是否适用于多个机构尚不清楚。本研究利用基于剂量文件的放射组学特征作为输入,使用3个放疗机构的数据构建用于预测VMAT计划GPR的机器学习分类模型并评估模型性能,由于放射组学特征的高维度特性,采用了两种不同的特征选择方法并比较他们对模型性能的影响。

资料与方法

1. 数据收集:回顾性收集了2022年5月至2023年5月来自3个不同放疗机构的572例VMAT患者,其中湖南省肿瘤医院213例,岳阳市中心医院200例,常德市第一人民医院159例。所有的VMAT计划分别在Monaco(Elekta,瑞典)和Eclipse(Varian,美国)两个放疗计划系统(treatment planning system,TPS)上完成,并使用Compass(Iba,比利时)和Arccheck(Sun Nuclear,美国)模体在Trilogy、Infinity和Axesse直线加速器上进行三维剂量验证。在测量期间对直线加速器和验证设备均进行定期检测与校准,以确保设备处于良好性能状态。

根据美国医学物理学家协会(AAPM)TG 218报告建议[6],伽马分析在绝对剂量、全局归一和10%剂量阈值的模式下进行,本次研究在3%/2 mm标准下测量的GPR数据为96.72%±2.10%。为了构建GPR分类预测模型,引入限值对测量结果进行分类,本次研究中采用测量的GPR平均值的99%作为分类的限值[7],当测量的GPR大于此限值时,结果表示为“通过”,记为“1”,否则结果为“失败”,记为“0”。另选取2023年8月至9月在湖南省肿瘤医院的VMAT患者45例作为独立验证集,对最佳预测模型进行外部验证。研究数据的详细分布情况见表 1

表 1 3个放疗机构的数据分布情况 Table 1 Data distribution of the three radiotherapy institutions

2. 特征提取:放射组学特征是指从放射图像中提取的半定量和/或定量特征,结合人工智能可能使精准医学在放射治疗中得到实际应用[8]。使用3D Slicer 5.0.2导入每个VMAT计划的RT dose文件以确定放射组学特征提取的区域,本研究中使用的是等剂量线(最大剂量的10%)包括的范围。使用Python 3.7中radiomics库进行特征的批量提取,其中图像类型包括原始图像(Original)、小波变换图像(Wavelet)和高斯滤波图像(LoG),总共提取1 130个特征,分为以下7种不同类型特征:形状特征(shape features 2D/3D), 一阶特征(first order features),灰度共生矩阵特征(gray level cooccurrence matrix, GLCM),灰度级大小区域矩阵特征(gray level size zone matrix, GLSZM),灰度游程矩阵特征(gray level run length matrix, GLRLM),相邻灰度差矩阵特征(neighboring gray tone difference matrix, NGTDM),灰度依赖矩阵特征(gray level dependence matrix, GLDM)。

3.数据集划分:将整个数据集进行随机划分,其中90%的数据(514个计划)用作训练数据集,剩余的58个计划作为测试集仅用于模型性能评估。由于数据本身存在不平衡情况,在数据集划分时使用了分层抽样技术,使得训练集和测试集中各类数据的比例与原始数据保持一致。用式(1)对数据进行标准化处理:

$ x=\frac{(X-\mu)}{\sigma} $ (1)

式中,x为标准化后的数值;X为原始数值;μ为每个特征类的平均值;σ为每个特征类的标准差。先在训练集上做标准化处理,再将这种转换应用到测试集上,以防止测试数据信息的泄漏。

4. 特征选择:由于放射组学特征具有非常高的维度,特征选择方法的使用能够避免高维度数据灾难问题,减少训练时间,增加模型的可解释性和预测性能[9]。随机森林(random forest,RF)是一种特殊的Bagging方法,是多个决策树的组合,每棵树依赖于独立采样的随机向量的值且森林中的所有树具有相同的分布[10]。RF本身可以作为一种特征选择的方法,在数据集上计算每个特征的重要性并按降序排序。此外本研究中还使用沙普利加性解释(SHapley Additive exPlanation,SHAP)结合RF的特征选择方法。SHAP法是根据特征对模型输出的贡献来分配特征的重要性,基于SHAP值的特征选择方法将提供良好的结果[11]。先将训练数据集输入到RF模型,然后计算样本中每个特征的SHAP值,来衡量特征的重要性并按降序排序[12],特征i的SHAP值定义如下:

$ \begin{aligned} & \varphi i=\sum\limits_{S \subseteq N \backslash\{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} \\ & \;\;\;\;\;\;\;\;\;(\nu(S \cup\{i\})-\nu(S)) \end{aligned} $ (2)

式中,N为原始数据特征集;SN中的任意特征子集;SN\{i}为特征i之前序列中所有元素的子集;ν(S)为特征子集S的机器学习模型的输出;ν(S∪{i})-ν(S)为特征i的累积贡献值。经特征选择之后的特征新序号默认是从数字0开始计算的。由于特征选择目的是选出少量重要特征以获得较好的模型性能,本研究选取前50个特征作为输入以构建GPR分类预测模型。具体而言,根据两种特征选择方法中的每一种,选择10、20、30、40、50个重要特征的子集来训练给定的机器学习模型,从而共产生10种组合并均在训练集上经过网格搜索和五折交叉验证,以获取具有最高性能参数的模型应用于测试数据集。

5. 模型训练与评估:本研究中使用极端梯度提升树算法(extreme gradient boosting,XGBoost)进行数据的训练,XGBoost是一个可扩展的树提升系统,生成每棵决策树使用的整个数据集且在后一棵决策树生成时会考虑前一棵决策树模型的预测结果与真实结果之间的残差,具有较高的精度,能有效地缓解过拟合并支持并行化[13]。采用F1分数及受试者工作特征曲线(receiver operating characteristic curve, ROC)下面积(area under the curve, AUC)来对二分类模型的性能进行评估。ROC曲线是一条以不同阈值下的假正率为横坐标,真正率为纵坐标的曲线。F1分数定义见式(3)。所有建模和分析过程均在Python 3.7上完成。

$ F 1 \text { 分数 }=\frac{2 \times(\text { 精确度 } \times \text { 召回率 })}{(\text { 精确度 }+ \text { 召回率 })} $ (3)
结果

1. 分类性能评估:图 1表 2分别显示了测试集中3%/2 mm标准下的ROC曲线和F1分数。在3%/2 mm标准下,经RF选择的特征子集建立预测模型的AUC值和F1分数范围分别为0.82~0.88和0.85~0.89,当特征子集数量为20时模型性能表现最佳(AUC=0.88,F1分数=0.89);经RF-SHAP选择的特征子集建立预测模型的AUC值和F1分数范围分别为0.78~0.86和0.84~0.92,当特征子集数量为20时模型性能表现最佳(AUC=0.86,F1分数=0.92)。

注:RF.随机森林特征选择方法;RF-SHAP.随机森林结合沙普利加性解释的特征选择方法; ROC. 受试者工作特征曲线 图 1 3%/2 mm标准下预测模型的ROC曲线  A. 采用RF方法进行特征选择;B.采用RF-SHAP方法进行特征选择 Figure 1 ROC curves of the prediction models under the 3%/2 mm criterion  A. Feature selection using RF; B. Feature selection using RF combined with SHAP

表 2 3%/2 mm标准下预测模型的F1分数 Table 2 F1-score of the prediction models under the 3%/2 mm criterion

2. 模型输出的特征重要性评估:表 3展示了最佳模型在测试集上通过SHAP值对输入特征进行的重要性排序。其中经RF特征选择的最佳预测模型前10个重要特征有3个GLCM特征,3个GLSZM特征,2个GLRLM特征,2个GLDM特征;经RF-SHAP特征选择的最佳预测模型前10个重要特征有2个GLCM特征,3个GLSZM特征,2个GLRLM特征,3个GLDM特征。

表 3 最佳预测模型的前10个重要特征排序 Table 3 Ranking of the top ten important features of the best prediction models.

3. 外部验证:对于同一组独立验证数据,经RF特征选择的最佳预测模型的AUC值和F1分数分别为0.82和0.90,经RF-SHAP特征选择的最佳预测模型的AUC值和F1分数分别为0.87和0.89(表 4)。

表 4 最佳预测模型的外部验证结果 Table 4 External validation results of the best prediction models

讨论

在治疗前实施VMAT患者个体化QA过程是临床放疗实施流程的重要环节,构建GPR分类预测模型可以优化放射治疗流程,减少医学物理人员的重复工作量,有助于医学物理人员在不进行实际测量的情况下提前评估计划的“通过”和“失败”,如果存在“失败”风险,可以通过改变计划参数重新进行优化。多中心研究对于预测模型应用于临床决策是非常必要的,可以提高模型的稳健性和可靠性。有两项研究使用计划调制复杂度指标作为输入,构建了GPR预测模型并取得较好的预测精度,还证明了使用不同的输送设备、QA装置和TPS进行多机构验证的可行性[14-15]。本研究使用基于剂量文件的放射组学特征在3个放疗机构的VMAT计划中建立GPR分类预测模型,结果显示在3%/2 mm标准下,经RF特征选择的最佳预测模型的AUC值和F1分数在测试集和外部验证集中分别为0.88和0.89、0.82和0.90;经RF-SHAP特征选择的最佳预测模型的AUC值和F1分数分别为0.86和0.92、0.89和0.87,具有较好的分类能力。此外,本研究表明,使用RF-SHAP特征选择方法构建GPR分类预测模型具有可行性和有效性,与RF特征选择方法相比,尽管在测试集中最佳模型未显示出性能上的优越性,但对于同一组独立的外部验证数据,经RF-SHAP特征选择的最佳模型表现出更好的稳健性。因此,针对具有高维度特征的数据集,建议尝试基于SHAP值的特征选择方法。

基于剂量文件的放射组学特征是剂量分布的量化特征,Lizar等[16]已证明用放射组学特征评估患者特定QA结果的合理性,其中的一阶特征和纹理特征被选为最重要特征。Hirashima等[17]表明从3D剂量分布中提取的放射组学特征可以作为预测每个计划的GPR值的重要因素,其中的GLCM、GLDM和GLRLM 3类纹理特征对GPR值的预测有很大影响。本研究中尽管在训练集上使用了不同的特征选择方法,而最佳预测模型的前10个重要特征均集中在GLCM、GLSZM、GLRLM及GLDM,可见这4类纹理特征在GPR预测模型中的重要性。本研究表明除了GLCM、GLRLM及GLDM之外,GLSZM也是GPR分类预测模型中重要因素。针对同一γ标准下基于放射组学特征的GPR预测模型,本研究中模型的分类性能要优于Hirashima等[17]的结果,原因除了筛选的输入特征不同,可能还包括GPR分类限值设置的影响。对于GPR分类预测模型,“通过”和“失败”分类限值的设置会影响模型的性能,先前大部分研究的数据分布存在严重不平衡情况,因为单个放疗机构很难收集到足够数量的低GPR计划用于模型的训练[18-19]。在本研究中,收集了来自3个放疗机构的VMAT计划572个,并使用基于GPR均值来设置分类的限值,将有助于提高GPR分类预测模型的性能。具体而言,对于3%/2 mmγ标准,采用的分类限值为95.7%,有151个(约26.4%)计划在3%/2 mm标准下测得的GPR值标记为“失败”,属于轻度不平衡数据集[20]。此外在进行数据集随机划分时加入了分层抽样技术,以保证训练集和测试集中各类数据的比例与总数据集保持基本一致。

本研究中仅采用放射组学特征作为输入来进行多中心的GPR预测,结合其他特征(计划复杂性指标,MLC速度和加速度等)应在未来的工作中予以考虑,以提高预测模型的性能。此外,还应该考虑如何从这些特征中提取出少量稳定的重要特征,来构建具有高稳健性和泛化性的预测模型以用于临床决策,这些稳定的重要特征有望为医学物理人员进行计划设计时提供参考依据。由于使用的基于剂量分布的放射组学特征与“失败”计划之间的复杂关系,如果结果显示治疗计划未能通过剂量验证,目前尚缺乏直接并且准确的故障排除方法。本研究中所有的VMAT计划均采用三维剂量验证方式,由于数据收集的限制仅在其中一个机构上进行独立的外部验证,未来的工作中还需增加模型训练的样本量并在不同机构中验证模型的泛化性。

综上所述,针对多中心的剂量验证结果,可以使用基于剂量文件的放射组学特征构建机器学习预测模型,并具有较好分类性能,有助于推进GPR预测模型的临床应用与实施,有望为患者提供安全高效的个体化QA管理时减少医学物理人员的工作量。

利益冲突  本研究中全体作者未接受相关公司的任何赞助,不涉及任何不正当利益和冲突

作者贡献声明  陈路桥负责分析数据和文章撰写;倪千喜分析审阅结果并指导论文的撰写和修改;吴宇、任欢负责数据的收集与整理;庞金猛、谭剑锋、骆龙军、吴智理负责文献的搜集和临床数据的采集与整理;曹锦佳参与论文的指导与修改

参考文献
[1]
Chandra RA, Keane FK, Voncken F, et al. Contemporary radiotherapy: present and future[J]. Lancet, 2021, 398(10295): 171-184. DOI:10.1016/S0140-6736(21)00233-6
[2]
Osman A, Maalej NM. Applications of machine and deep learning to patient-specific IMRT/VMAT quality assurance[J]. J Appl Clin Med Phys, 2021, 22(9): 20-36. DOI:10.1002/acm2.13375
[3]
Ono T, Hirashima H, Iramina H, et al. Prediction of dosimetric accuracy for VMAT plans using plan complexity parameters via machine learning[J]. Med Phys, 2019, 46(9): 3823-3832. DOI:10.1002/mp.13669
[4]
Wall PDH, Fontenot JD. Application and comparison of machine learning models for predicting quality assurance outcomes in radiation therapy treatment planning[J]. Inform Med Unlocked, 2020, 18: 100292. DOI:10.1016/j.imu.2020.100292
[5]
Salari E, Xu KS, Sperling NN, et al. Using machine learning to predict gamma passing rate in volumetric-modulated arc therapy treatment plans[J]. J Appl Clin Med Phys, 2023, 24(2): e13824. DOI:10.1002/acm2.13824
[6]
Miften M, Olch A, Mihailidis D, et al. Tolerance limits and methodologies for IMRT measurement-based verification QA: Recommendations of AAPM Task Group No. 218[J]. Med Phys, 2018, 45(4): e53-e83. DOI:10.1002/mp.12810
[7]
Kusunoki T, Hatanaka S, Hariu M, et al. Evaluation of prediction and classification performances in different machine learning models for patient-specific quality assurance of head-and-neck VMAT plans[J]. Med Phys, 2022, 49(1): 727-741. DOI:10.1002/mp.15393
[8]
Arimura H, Soufi M, Kamezawa H, et al. Radiomics with artificial intelligence for precision medicine in radiation therapy[J]. J Radiat Res, 2019, 60(1): 150-157. DOI:10.1093/jrr/rry077
[9]
Chandrashekar G, Sahin F. A survey on feature selection methods[J]. Comput Electr Eng, 2014, 40(1): 16-28. DOI:10.1016/j.compeleceng.2013.11.024
[10]
Breiman L. Random forests[J]. Mach Learn, 2001, 45(1): 5-32. DOI:10.1023/A:1010933404324
[11]
Marcílio WE, Eler DM. From explanations to feature selection: assessing shap values as feature selection mechanism[C]. 2020 33rd SIBGRAPI conference on Graphics, Patterns and Images (SIBGRAPI). Proto de Galinhas: Ieee, 2020: 340-347. DOI: 10.1109/SIBGRAPI51738.2020.00053.
[12]
Nohara Y, Matsumoto K, Soejima H, et al. Explanation of machine learning models using shapley additive explanation and application for real data in hospital[J]. Comput Methods Programs Biomed, 2022, 214: 106584. DOI:10.1016/j.cmpb.2021.106584
[13]
Chen T, Guestrin C. Xgboost: a scalable tree boosting system[C]. Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. San Francisco: KDD, 2016. DOI: 10.1145/2939672.2939785.
[14]
Valdes G, Chan MF, Lim SB, et al. IMRT QA using machine learning: A multi-institutional validation[J]. J Appl Clin Med Phys, 2017, 18(5): 279-284. DOI:10.1002/acm2.12161
[15]
Yang R, Yang X, Wang L, et al. Commissioning and clinical implementation of an Autoencoder based Classification-Regression model for VMAT patient-specific QA in a multi-institution scenario[J]. Radiother Oncol, 2021, 161: 230-240. DOI:10.1016/j.radonc.2021.06.024
[16]
Lizar JC, Yaly CC, Colello Bruno A, et al. Patient-specific IMRT QA verification using machine learning and gamma radiomics[J]. Phys Med, 2021, 82: 100-108. DOI:10.1016/j.ejmp.2021.01.071
[17]
Hirashima H, Ono T, Nakamura M, et al. Improvement of prediction and classification performance for gamma passing rate by using plan complexity and dosiomics features[J]. Radiother Oncol, 2020, 153: 250-257. DOI:10.1016/j.radonc.2020.07.031
[18]
Thongsawad S, Srisatit S, Fuangrod T. Predicting gamma evaluation results of patient-specific head and neck volumetric-modulated arc therapy quality assurance based on multileaf collimator patterns and fluence map features: A feasibility study[J]. J Appl Clin Med Phys, 2022, 23(7): e13622. DOI:10.1002/acm2.13622
[19]
Li J, Wang L, Zhang X, et al. Machine learning for patient-specific quality assurance of VMAT: prediction and classification accuracy[J]. Int J Radiat Oncol Biol Phys, 2019, 105(4): 893-902. DOI:10.1016/j.ijrobp.2019.07.049
[20]
Feng H, Wang H, Xu L, et al. Prediction of radiation-induced acute skin toxicity in breast cancer patients using data encapsulation screening and dose-gradient-based multi-region radiomics technique: A multicenter study[J]. Front Oncol, 2022, 12: 1017435. DOI:10.3389/fonc.2022.1017435