2. 湖南省肿瘤医院 中南大学湘雅医学院附属肿瘤医院放疗科, 长沙 410013;
3. 中南大学湘雅二医院急诊医学科, 长沙 410001
2. Department of Radiation Oncology, Hunan Cancer Hospital, Affiliated Cancer Hospital of Xiangya School of Medicine, Central South University, Changsha 410013, China;
3. Department of Emergency Medicine, Second Xiangya Hospital, Central South University, Changsha 410001, China
随着人工智能技术的发展,机器学习(machine learning, ML)和深度学习(deep learning, DL)技术在放射治疗质量保证(quality assurance, QA)中的应用变得越来越广泛[1-2]。基于ML/DL建立调强放疗计划γ通过率(gamma pass rate, GPR)的预测模型采用多个部位的数据进行训练和测试,当不同治疗部位作为特征输入模型时,对模型预测GPR的分类性能有很重要的影响,针对某个特定部位建立预测模型有助于提高模型的性能[3-6]。然而,上述研究中缺乏针对盆腔部位的研究。因此,本研究利用放射组学特征构建不同的机器学习分类模型,预测盆腔肿瘤调强放疗剂量验证的伽马通过率,并探讨最佳预测模型,以便能够在治疗前快速可靠地确定那些通过或失败的计划。
资料与方法1. 数据来源:回顾性收集了2020年11月至2021年11月在湖南省肿瘤医院放疗中心接受盆腔固定野调强放疗(IMRT)的肿瘤患者196例(宫颈癌164例,直肠癌17例,子宫癌12例,其他3例)。所有患者的QA计划均使用荷兰Philips的Pinnacle3计划系统进行计算,采用计算网格为3 mm。所有QA计划均使用Delta 4剂量验证模体在美国Varian直线加速器上进行射束投照得到复合野的剂量分布。在测量期间对直线加速器和测量模体进行定期检测与校准,以确保设备处于良好性能的状态。
根据美国医学物理学家协会(AAPM) TG 218报告建议[7],测量的GPR使用3%/2 mm标准,在绝对剂量、全局归一和10%的剂量阈值的模式下为(96.6±3.8)%,且最大值和最小值分别为100%和78.8%。为了更好地评价模型的分类性能, 将测量的GPR平均值的99.5%,即96.1%,作为GPR分类的容差限值,GPR大于此容差限值时,测量得出的GPR结果表示为“通过”,否则为“失败”。
2. 特征提取: 放射组学特征是指从放射图像中提取的半定量和/或定量特征,结合人工智能技术在放射治疗领域发挥重要应用[8]。本研究采取等剂量线(最大剂量的10%)包括的范围作为放射组学特征提取的区域。使用Python 3.7中radiomics库进行特征的批量提取,其中图像类型包括原始图像、小波变换图像和高斯滤波图像,总共提取1 130个特征,分为7种不同类型特征:形状特征(shape features 2D/3D), 一阶特征(first order features),灰度共生矩阵特征(gray level co-occurrence matrix, GLCM),灰度级大小区域矩阵特征(gray level size zone matrix, GLSZM),灰度游程矩阵特征(gray level run length matrix, GLRLM),相邻灰度差矩阵特征(neighboring gray tone difference matrix, NGTDM),灰度依赖矩阵特征(gray level dependence matrix, GLDM)。
3. 数据预处理: 将整个数据集进行随机划分,其中80%的数据(156个病例)用作训练集,20%的数据用于测试集。由于数据存在不平衡情况,使用了分层抽样技术,使得训练集和测试集中各类数据的比例与原始数据保持一致。先在训练集上做归一化处理,然后再将这种转换应用到测试集上,以防止测试数据信息的泄漏。
4. 特征选择: 作为构建机器学习预测模型的关键步骤,能够避免高维度数据灾难问题,减少训练时间,增加模型的可解释性,减少过拟合以增强模型的泛化性能[9-10]。使用基于极端随机树算法的嵌入法来进行特征选择,该算法由于其分裂点选择的随机化,能够建立纯随机的树以减少方差,区别于其他基于树的算法[11]。在训练数据上得到了所有变量对目标值的相对重要性排序,然后根据对模型性能的评估最终筛选出11个特征作为模型的输入。
5. 模型建立与评估: 选取了随机森林(random forest, RF)[12]、支持向量机(support vector machine, SVM)[13]、自适应增强(adaptive boosting, AdaBoost)[14]、梯度提升决策树(gradient boosting decision trees, GBDT)[15]4种机器学习分类算法对训练数据进行拟合,然后在测试集上进行预测,对模型超参数进行调整以获得更好的模型分类性能。
采用精确度、灵敏度、特异度、F1分数及受试者工作特征曲线(receiver operating characteristic curve, ROC)下面积(area under the curve, AUC)来对二分类模型性能进行评估。所有建模和分析过程都在Python 3.7上完成。
结果1. 特征选择结果:表 1显示了通过特征筛选后作为模型输入的11个特征。
![]() |
表 1 选择作为模型输入的特征 Table 1 Features selected as model inputs |
2. 超参数取值:表 2显示了4种模型经过参数调整后使用的主要超参数值。
![]() |
表 2 4种模型使用主要超参数值 Table 2 Main hyperparameter values used by the four models |
3. 特征重要性评估:图 1展示了4种不同模型在测试集上通过SHAP值对输入特征进行排序,并显示每个特征对模型输出的影响分布,不同颜色代表特征值高低(红色高、蓝色低)。
![]() |
A. 随机森林模型;B. 支持向量机模型;C. 自适应增强模型;D. 梯度提升决策树模型 图 1 4种不同模型下特征重要性评估 A.The random forest model; B. The support vector machine model; C.The adaptive boosting model; D.The gradient boosting decision tree model Figure 1 Feature importance assessment under four different models |
4. 分类性能评估: 表 3显示了4种模型在测试集上性能评估指标的比较,图 2展现了4种模型的ROC曲线比较。
![]() |
表 3 4种模型的性能评估指标比较 Table 3 Comparison of performance evaluation metrics of the four models |
![]() |
图 2 4种不同模型在测试集上的受试者工作特征曲线 Figure 2 ROC curves of the four different models on the test set |
讨论
剂量验证作为临床放射治疗工作中重要步骤,随着肿瘤患者数量的增加需要占用大量的时间和公共医疗资源,对于GPR的临床决策,建立机器学习分类预测模型有助于医学物理人员在不进行实际测量的情况下判断计划的“通过”或“失败”。机器学习结合放射组学的方法在建立GPR分类预测模型方面研究较少,Hirashima等[4]首次从多个治疗部位数据中提取的放射组学特征建立机器学习预测GPR的模型并对比评估了使用计划复杂性特征建立的预测模型,且表明数据集包含多个肿瘤部位将影响模型的分类性能。本研究中使用RF、SVM、AdaBoost、GBDT 4种机器学习模型在3%/2 mm标准下来预测盆腔IMRT计划的GPR分类能力。结果显示4种模型的AUC值均在0.8以上,其中最高为达到0.87的SVM和GBDT模型,3种基于树的集成模型在灵敏度上均达到0.9以上,在F1分数与灵敏度上GBDT模型表现最佳,在精确度和特异度上SVM模型得分最高。综合评估指标,4种模型中GBDT模型和SVM模型性能表现更佳,且优于同一标准下Hirashima等[4]的结果。原因可能是本研究数据来源于盆腔这一特定部位,能够在一定程度上提高分类预测模型的性能。
Park等[16-18]研究表明由GLCM计算的纹理特征是剂量分布复杂性的重要指标,且与计划实施准确性的相关性比常规调制指数更好。在本项研究中也得到了类似的结果,筛选的11个作为最终输入的特征中有7个属于GLCM类,并且根据输入特征的重要性排序显示4种模型中最重要的特征为wavelet-LLL_glcm_Imc2、wavelet-LLL_glcm_Idmn、wavelet-LLH_glcm_ClusterTendency,可见放射组学特征GLCM是调强放疗GPR分类预测模型中的重要指标。此外研究也表明GLSZM类,GLRLM类特征对GPR分类预测模型也有较大的影响。为了更好地解释机器学习模型的输出,采用了SHAP对特征的重要性进行评估[19],在每个模型中,可以根据SHAP值的变化趋势来解释每个特征对模型输出的相关影响,并且同一特征在不同模型输出的贡献解释也不尽相同。
这项研究中选取的盆腔肿瘤患者数据主要集中在妇科肿瘤,未来将选取更多的盆腔部位不同肿瘤类型(直肠、前列腺、膀胱等)的病例数据,对预测模型作进一步的验证。在本次模型构建中仅使用一种机器和质量控制设备的组合,不同生产厂家的治疗计划系统、直线加速器和测量设备的组合也会对预测模型的分类性能产生影响,未来的研究中,可以选取不同机器设备的组合建立预测模型,进一步提高模型预测的泛化性能。考虑到输入特征对不同的放射治疗技术的普适性,仅选择基于剂量文件提取的放射组学特征来进行建模,未来可针对某一特定的部位选取不同治疗技术治疗的患者数据构建预测模型。多机构验证结果对机器学习预测模型作为临床决策是非常必要的,Valdes等[20]已证明建立IMRT计划的GPR预测模型在不同机构上的可行性和有效性,未来将采用不同放疗机构的数据集来建立具有更好的通用性和鲁棒性的预测模型。
综上所述,针对盆腔肿瘤调强放疗计划,可以采用基于放射组学特征的机器学习方法来构建γ通过率的预测模型,且SVM模型和GBDT模型的分类性能要优于RF模型和AdaBoost模型,有助于让医学物理人员有时间重点关注那些“失败”的计划,在临床决策上提供安全高效的个体化质量保证管理。
利益冲突 本研究中全体作者未接受相关公司的任何赞助,不涉及任何不正当财务利益和冲突
作者贡献声明 陈路桥负责采集数据、分析数据、文章撰写; 倪千喜、曹锦佳分析审阅结果并指导论文的撰写和修改; 李啸洲负责采集数据、统计分析
[1] |
Kalet AM, Luk SMH, Phillips MH. Radiation therapy quality assurance tasks and tools: the many roles of machine learning[J]. Med Phys, 2020, 47(5): e168-e177. DOI:10.1002/mp.13445 |
[2] |
Chan MF, Witztum A, Valdes G. Integration of AI and machine learning in radiotherapy QA[J]. Front Artif Intell, 2020, 3: 577620. DOI:10.3389/frai.2020.577620 |
[3] |
Li J, Wang LE, Zhang X, et al. Machine learning for patient-specific quality assurance of VMAT: prediction and classification accuracy[J]. Int J Radiat Oncol Biol Phys, 2019, 105(4): 893-902. DOI:10.1016/j.ijrobp.2019.07.049 |
[4] |
Hirashima H, Ono T, Nakamura M, et al. Improvement of prediction and classification performance for gamma passing rate by using plan complexity and dosiomics features[J]. Radiother Oncol, 2020, 153: 250-257. DOI:10.1016/j.radonc.2020.07.031 |
[5] |
Osman AFI, Maalej NM. Applications of machine and deep learning to patient-specific IMRT/VMAT quality assurance[J]. J Appl Clin Med Phys, 2021, 22(9): 20-36. DOI:10.1002/acm2.13375 |
[6] |
Wall PDH, Fontenot JD. Application and comparison of machine learning models for predicting quality assurance outcomes in radiation therapy treatment planning[J]. Inform Med Unlocked, 2020, 18: 100292. DOI:10.1016/j.imu.2020.100292 |
[7] |
Miften M, Olch A, Mihailidis D, et al. Tolerance limits and methodologies for IMRT measurement-based verification QA: recommendations of AAPM Task Group No. 218[J]. Med Phys, 2018, 45(4): e53-e83. DOI:10.1002/mp.12810 |
[8] |
Arimura H, Soufi M, Kamezawa H, et al. Radiomics with artificial intelligence for precision medicine in radiation therapy[J]. J Radiat Res, 2019, 60(1): 150-157. DOI:10.1093/jrr/rry077 |
[9] |
Guyon I, Elisseeff A. An introduction to variable and feature selection[J]. J Mach Learn Res, 2003, 3: 1157-1182. DOI:10.1162/153244303322753616 |
[10] |
Chandrashekar G, Sahin F. A survey on feature selection methods[J]. Comput Electr Eng, 2014, 40(1): 16-28. DOI:10.1016/j.compeleceng.2013.11.024 |
[11] |
Geurts P, Ernst D, Wehenkel L. Extremely randomized trees[J]. Mach Learn, 2006, 63(1): 3-42. DOI:10.1007/s10994-006-6226-1 |
[12] |
Breiman L. Random forests[J]. Mach Learn, 2001, 45(1): 5-32. DOI:10.1023/A:1010933404324 |
[13] |
Cortes C, Vapnik V. Support-vector networks[J]. Mach Learn, 1995, 20(3): 273-297. DOI:10.1007/BF00994018 |
[14] |
Schapire RE. Explaining adaboost[M]//Empirical inference. Springer, Berlin, Heidelberg, 2013: 37-52. DOI: 10.1007/978-3-642-41136-6_5.
|
[15] |
Anghel A. Benchmarking and optimization of gradient boosting decision tree algorithms[DB/OL]. https://arxiv.org/abs/1809.04559, 2019-1-17/2023-1-15.
|
[16] |
Park SY, Kim IH, Ye SJ, et al. Texture analysis on the fluence map to evaluate the degree of modulation for volumetric modulated arc therapy[J]. Med Phys, 2014, 41(11): 111718. DOI:10.1118/1.4897388 |
[17] |
Park SY, Park JM, Sung W, et al. Texture analysis on the edge-enhanced fluence of VMAT[J]. Radiat Oncol, 2015, 10: 74. DOI:10.1186/s13014-015-0382-z |
[18] |
Park JM, Kim JI, Park SY. Prediction of VMAT delivery accuracy with textural features calculated from fluence maps[J]. Radiat Oncol, 2019, 14(1): 235. DOI:10.1186/s13014-019-1441-7 |
[19] |
Marcílio WE, Eler DM. From explanations to feature selection: assessing shap values as feature selection mechanism[C]. 202033rd SIBGRAPI conference on Graphics, Patterns and Images (SIBGRAPI). Porto de Galinhas, Brazil, 2020.
|
[20] |
Valdes G, Chan MF, Lim SB, et al. IMRT QA using machine learning: a multi-institutional validation[J]. J Appl Clin Med Phys, 2017, 18(5): 279-284. DOI:10.1002/acm2.12161 |