2. 常德市第一人民医院肿瘤科, 常德 415000;
3. 南华大学公共卫生学院, 衡阳 421001;
4. 南华大学核科学技术学院, 衡阳 421001
2. Department of Oncology, The First People's Hospital of Changde City, Changde 415000, China;
3. School of Public Health, University of South China, Hengyang 421001, China;
4. School of Nuclear Science and Technology, University of South China, Hengyang 421001, China
近年来,人工智能技术中机器学习和深度学习方法被广泛用于调强放疗质量保证(quality assurance, QA)工作中[1-2]。各种基于机器学习的模型已显示出作为虚拟QA工具的潜力,能够准确地预测固定野调强放疗(intensity-modulated radiation therapy,IMRT)或容积旋转调强放疗(volumetric-arc radiation therapy,VMAT)计划的剂量验证结果,从而为患者治疗提供安全高效的保障[3-6]。然而,鲜有混合不同调强放疗技术的相关研究。因此,本研究旨在利用基于放射组学的机器学习方法,探索混合了盆腔肿瘤IMRT和VMAT计划的γ通过率(gamma pass rate,GPR)分类预测模型的可行性,并比较随机森林(random forest,RF)、自适应增强(adaptive boosting,AdaBoost)、极端梯度提升树算法(extreme gradient boosting,XGBoost)、轻量级梯度提升机(light gradient boosting machine,LightGBM)4种基于树的集成模型的分类性能。
资料与方法1. 数据来源与处理:回顾性收集了湖南省肿瘤医院2020年11月至2022年12月接受盆腔调强放疗的肿瘤患者409例(宫颈癌220例,直肠癌73例,子宫癌91例,其他25例)。其中,IMRT计划196例,QA计划使用荷兰Philips的Pinnacle3计划系统进行计算,采用计算网格为3 mm,使用瑞典ScandiDos的Delta4模体在美国Varian 600CD直线加速器上进行射束投照;VMAT计划213例,QA计划分别使用美国Varian的Eclipse和瑞典Elekta的Monaco计划系统进行计算,采用计算网格为2 mm,使用美国Sunnuclear的Arccheck模体分别在美国Varian Trilogy和瑞典Elekta Infinity直线加速器上进行射束投照。在测量期间对直线加速器和验证模体均进行定期监测与校准,以确保设备处于良好性能状态。
根据美国医学物理师协会(AAPM)TG 218报告建议[7],在3%/2 mm标准、绝对剂量、全局归一和10%的剂量阈值模式下,测量的GPR为(96.2±3.2)%,且最大值和最小值分别为100%和78.8%。为了评估预测模型的分类性能,将测量的GPR平均值的99.5%,即95.7%作为GPR分类的容差限值。当GPR大于此容差限值时,测量的GPR表示为“通过”,记为“1”;否则为“失败”,记为“0”。
2. 特征提取与筛选: 放射组学特征是指从放射图像中提取的半定量和/或定量特征,结合人工智能技术在放射治疗领域发挥重要应用[8]。本研究采取等剂量线(最大剂量的10%)包括的范围作为放射组学特征提取的区域。使用Python 3.7中radiomics库进行特征的批量提取,其中图像类型包括原始图像、小波变换图像(含高低通滤波的8种组合)和高斯滤波图像(含不同sigma参数的3种组合),总共提取1 130个特征(表 1),分为7种不同类型特征:形状特征(shape features 2D/3D),一阶特征(first order features),灰度共生矩阵特征(gray level cooccurrence matrix,GLCM),灰度级大小区域矩阵特征(gray level size zone matrix,GLSZM),灰度游程矩阵特征(gray level run length matrix,GLRLM),相邻灰度差矩阵特征(neighboring gray tone difference matrix,NGTDM),灰度依赖矩阵特征(gray level dependence matrix,GLDM)。
![]() |
表 1 提取的放射组学特征个数 Table 1 Number of extracted radiomics features |
整个数据集被随机划分,其中90%的数据(368个计划)用于模型训练,10%的数据作为测试集。由于数据存在不平衡情况,采取分层抽样技术,使训练集和测试集中各类数据的比例与原始数据保持一致。为了减少放射组学特征数量并提高模型性能,在训练集上使用SHAP值[9]结合XGBoost[10]算法进行特征重要性排序,通过对模型性能的评估,最终选出前45个特征作为模型的输入,特征序号默认是从数字0开始计算的。
3. 模型训练与评估: 在训练集上做标准化处理,再将这种转换应用到测试集上,以防止测试数据信息的泄漏。选取RF[11]、AdaBoost[12]、XGBoost、LightGBM[13]4种基于决策树的集成学习分类算法对训练数据进行训练,使用网格搜索[14]和五折交叉验证(将交叉验证和网格搜索封装在一起的方法,通过遍历多种参数组合与交叉验证以确定最佳参数),以获取具有最高性能参数的模型应用于测试数据。采用精确度、灵敏度、特异度、F1分数及受试者工作特征曲线(receiver operating characteristic curve,ROC)下面积(area under the curve,AUC)来对二分类模型的性能进行评估。所有建模和分析过程均在Python 3.7上完成。
精确度:表示预测为正类的个数中,预测正确的比率,见式(1)。灵敏度:表示实际为正类的个数中,预测正确的比率,见式(2)。特异度:表示实际为负类的个数中,预测正确的比例,见式(3)。F1分数:同时考虑分类模型精确度和召回率的指标,见式(4)。ROC曲线:是一条以不同阈值下的假正率为横坐标,真正率为纵坐标的曲线。AUC值代表ROC曲线下方区域的面积,值越接近1说明模型分类效果越好。其中真正类、假正类、真负类、假负类分别代表预测为正类的正样本数、预测为正类的负样本数、预测为负类的负样本数、预测为负类的正样本数。
$ \text { 精确度 }=\frac{\text { 真正类 }}{\text { (真正类 }+ \text { 假正类 })} $ | (1) |
$ \text { 灵敏度 }=\frac{\text { 真正类 }}{(\text { 真正类 }+ \text { 假负类 })} $ | (2) |
$ \text { 特异度 }=\frac{\text { 真负类 }}{(\text { 假正类 }+ \text { 真负类 })} $ | (3) |
$ F 1 \text { 分数 }=\frac{2 \times(\text { 精确度 } \times \text { 召回率 })}{(\text { 精确度 }+ \text { 召回率 })} $ | (4) |
1. 分类性能评估: 表 1为基于剂量文件提取的放射组学特征中各类别特征个数,其中原始图像下107个,小波变换图像和高斯滤波图像下每种组合均为93个。表 2为4种模型的部分分类性能评估指标比较。图 1展现了4种分类预测模型的ROC曲线,其中RF、AdaBoost、XGBoost、LightGBM的AUC值分别为0.81、0.77、0.85、0.83。
![]() |
表 2 4种预测模型的分类性能评估 Table 2 Classification performance evaluation of the four prediction models |
![]() |
注:AUC. 曲线下面积 图 1 4种分类预测模型的受试者工作特征曲线 Figure 1 Receiver operating characteristic curves for the four classification prediction models |
2. 特征重要性评估:图 2展示了4种不同模型在测试集上通过SHAP值对输入特征进行的重要性排序,可见RF、AdaBoost、XGBoost、LightGBM模型中最重要的特征分别是特征41、特征19、特征3、特征2, 其中特征2和特征41属于GLCM类,特征3和特征19属于GLSZM类。
![]() |
图 2 4种不同模型的重要性特征 A. 随机森林模型; B. 自适应增强模型; C. 极端梯度提升树模型; D. 轻量级梯度提升机模型 Figure 2 Importance characteristics of four different models A. Random forest model; B. Adaptive boosting model; C. Extreme gradient boosting model; D. Light gradient boosting machine model |
讨论
患者在治疗前实施IMRT/VMAT个体化QA是临床放疗实施流程的重要环节,以保证治疗计划剂量传输的准确性。Hirashima等[15]从多个治疗部位VMAT计划中提取的放射组学特征,建立GPR的预测模型并对比评估了使用计划的复杂性特征建立的预测模型。在本研究中使用了基于放射组学的机器学习方法,来探索在3%/2 mm标准下IMRT混合VMAT计划的GPR分类预测模型。结果显示RF模型的灵敏度达到0.96,XGBoost模型在精确度、F1分数和AUC值上均得分最高,在特异度上XGBoost和LightGBM模型均为0.62。综合评估指标,4种模型中XGBoost模型性能表现最佳,且优于同一标准下Hirashima等[15]的剂量学模型结果,LightGBM模型次之,AdaBoost模型表现较差,原因除了不同机器学习算法之间的本质区别,可能还与使用XGBoost算法计算SHAP值进行特征选择有关[16]。目前鲜见其他研究报道IMRT混合VMAT计划的GPR预测模型,本研究表明使用基于放射组学的机器学习技术可以构建混合了IMRT和VMAT计划的GPR分类预测模型。
Lizar等[17]已证明用放射组学特征评估剂量验证结果的合理性,其中的一阶特征和纹理特征被选为最重要特征。本研究选取作为模型输入的45个特征中包含一阶特征11个,纹理特征34个(GLSZM 14个,GLCM 9个,GLDM 5个,GLRLM 4个,NGTDM 2个),且4种模型中最重要的特征属于GLSZM类和GLCM类。本研究可以看出,前10个特征在4种不同模型中的重要性排名是不同的,主要原因是由于模型机制的不同。特征0和特征1均出现在4种模型的前10个重要特征排序中,特征2、特征3、特征5和特征9则均出现3次,表明在所有4个模型的输出影响中这些是比较重要的特征。与以往的研究不同的是,其中包含了两个NGTDM类特征(特征5和特征9),原因可能是研究对象来源于采用IMRT和VMAT不同治疗技术的患者。这些重要特征与模型输出的关系有望为医学物理人员在进行计划优化时提供参考依据,有助于提高治疗计划的质量。此外,本研究中使用了3种独特的不同设备组合(Varian 600CD+Pinnacle+Delta4,Varian Trilogy+Eclipse+Arccheck,Elekta Infinity +Monaco+Arccheck)进行计划和验证,表明该机器学习模型在不同设备组合上有一定通用性,能够为将来不同放疗机构的GPR预测研究提供参考。
构建GPR分类预测模型可以优化放射治疗流程,减少医学物理人员的重复工作量,减少放疗患者首次治疗延迟的变化;有助于医学物理人员在不进行实际测量的情况下提前评估计划的“通过”和“失败”,如果存在“失败”风险,可以通过改变计划参数重新进行优化;可以匹配在线自适应放射治疗工作流程,为调整计划后的剂量验证提供决策参考。本研究主要是对混合不同放疗技术的GPR预测模型的初步探索,数据仅包括IMRT和VMAT计划,然而对于同一部位的肿瘤患者可能需要在相同或不同的机器上实施不一样的调强放疗技术,未来可针对某一特定部位增加接受其他放疗技术治疗的患者数据作进一步的探索和验证。此外,本研究使用基于剂量分布的放射组学特征作为模型输入,由于放射组学特征与“失败”计划之间的复杂关系,如果治疗计划未能通过剂量验证,目前尚缺乏直接并且准确的故障排除方法。本次数据来自于单一放疗机构,多机构验证对机器学习预测模型应用于临床是非常必要的,Valdes等[18]已证明建立IMRT计划的GPR预测模型在不同机构上的可行性和有效性,未来将基于多中心和大数据构建具有更好的通用性和鲁棒性的机器学习预测模型,以推进虚拟QA系统的前瞻性临床实施和验证。
综上所述,针对盆腔肿瘤的IMRT混合VMAT计划,可以采用基于放射组学的机器学习方法来构建γ通过率的分类预测模型,且XGBoost模型的分类性能要优于其他3种基于树的集成模型,有助于推进GPR预测模型的临床应用与实施,为患者提供安全高效的个体化QA管理。
利益冲突 无
作者贡献声明 倪千喜负责设计实验、分析数据及论文撰写;杜阳峰、曹锦佳协助修改论文;朱兆中、陈路桥分析实验结果,并进论行文修改;庞金猛、谭剑锋、吴智理负责文献搜集和临床数据采集与整理
[1] |
Chan MF, Witztum A, Valdes G. Integration of AI and machine learning in radiotherapy QA[J]. Front Artif Intell, 2020, 3: 577620. DOI:10.3389/frai.2020.577620 |
[2] |
Osman A, Maalej NM. Applications of machine and deep learning to patient-specific IMRT/VMAT quality assurance[J]. J Appl Clin Med Phys, 2021, 22(9): 20-36. DOI:10.1002/acm2.13375 |
[3] |
Lam D, Zhang X, Li H, et al. Predicting gamma passing rates for portal dosimetry-based IMRT QA using machine learning[J]. Med Phys, 2019, 46(10): 4666-4675. DOI:10.1002/mp.13752 |
[4] |
Valdes G, Scheuermann R, Hung CY, et al. A mathematical framework for virtual IMRT QA using machine learning[J]. Med Phys, 2016, 43(7): 4323. DOI:10.1118/1.4953835 |
[5] |
Wall PDH, Fontenot JD. Application and comparison of machine learning models for predicting quality assurance outcomes in radiation therapy treatment planning[J]. Info Med Unlock, 2020, 18: 100292. DOI:10.1016/j.imu.2020.100292 |
[6] |
Li J, Wang LE, Zhang X, et al. Machine learning for patient-specific quality assurance of VMAT: prediction and classification accuracy[J]. Int J Radiat Oncol Biol Phys, 2019, 105(4): 893-902. DOI:10.1016/j.ijrobp.2019.07.049 |
[7] |
Miften M, Olch A, Mihailidis D, et al. Tolerance limits and methodologies for IMRT measurement-based verification QA: recommendations of AAPM Task Group No. 218[J]. Med Phys, 2018, 45(4): e53-e83. DOI:10.1002/mp.12810 |
[8] |
Arimura H, Soufi M, Kamezawa H, et al. Radiomics with artificial intelligence for precision medicine in radiation therapy[J]. J Radiat Res, 2019, 60(1): 150-157. DOI:10.1093/jrr/rry077 |
[9] |
Marcílio WE, Eler DM. From explanations to feature selection: assessing shap values as feature selection mechanism[C]. 2020 33rd SIBGRAPI conference on Graphics, Patterns and Images (SIBGRAPI), 2020: 340-347. DOI: 10.1109/SIBGRAPI51738.2020.00053.
|
[10] |
Chen T, Guestrin C. Xgboost: A scalable tree boosting system[C]. Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, 2016: 785-794. DOI: 10.1145/2939672.2939785.
|
[11] |
Breiman L. Random forests[J]. Mach Learn, 2001, 45(1): 5-32. DOI:10.1023/A:1010933404324 |
[12] |
Schapire RE. Explaining adaboost[M]. Berlin: Springer, 2013: 37-52. DOI:10.1007/978-3-642-41136-65
|
[13] |
Ke G, Meng Q, Finley T, et al. LightGBM: a highly efficient gradient boosting decision tree[C]. Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017: 3149-3157. DOI: 10.5555/3294996.3295074.
|
[14] |
Xia Y, Liu C, Li YY, et al. A boosted decision tree approach using Bayesian hyper-parameter optimization for credit scoring[J]. Expert Syst Appl, 2017, 78: 225-241. DOI:10.1016/j.eswa.2017.02.017 |
[15] |
Hirashima H, Ono T, Nakamura M, et al. Improvement of prediction and classification performance for gamma passing rate by using plan complexity and dosiomics features[J]. Radiother Oncol, 2020, 153: 250-257. DOI:10.1016/j.radonc.2020.07.031 |
[16] |
Liu Y, Liu Z, Luo X, et al. Diagnosis of Parkinson's disease based on SHAP value feature selection[J]. Biocybern Biomed Eng, 2022, 42(3): 856-869. DOI:10.1016/j.bbe.2022.06.007 |
[17] |
Lizar JC, Yaly CC, Colello Bruno A, et al. Patient-specific IMRT QA verification using machine learning and gamma radiomics[J]. Phys Med, 2021, 82: 100-108. DOI:10.1016/j.ejmp.2021.01.071 |
[18] |
Valdes G, Chan MF, Lim SB, et al. IMRT QA using machine learning: a multi-institutional validation[J]. J Appl Clin Med Phys, 2017, 18(5): 279-284. DOI:10.1002/acm2.12161 |