2. 北京航空航天大学自动化科学与电气工程学院,北京 100083
2. School of Aeronautic Science and Engineering, Beihang University, Beijing 100083, China
肺癌目前是全世界最常见的癌症之一,其死亡率高居第一位[1]。在肺癌患者中,有60%~70%的患者需要接受放射治疗[2]。放疗的目标是既要保证肺癌计划靶区(planning target volume, PTV)接受高剂量照射从而尽可能杀死癌细胞,又要尽量保护肿瘤周围的危及器官(organs at risk,OARs)。为实现这一目标,放疗物理师设计放疗计划时需要通过迭代寻优的方式寻找最佳剂量体积直方图(dose volume histogram,DVH)参数约束。由于不同患者的最佳参数设置会随着肿瘤和危及器官的形态、位置等的个体差异而变化[3],制定放疗计划的过程费时费力。剂量预测能够为物理师提供个性化的DVH参数约束,节省迭代寻优的时间,有助于提高放疗的疗效和安全性[4]。近年来,基于U-Net及其变体网络实现较高精度的剂量预测已成为新的研究方向[5]。通过残差连接[6-8]、注意力机制[9-12]等优化方式,研究者实现了精准剂量预测。本研究基于Res-Unet基础网络开发了一种引入大核空洞卷积模块和多头注意力机制的多头注意力(MHA)-resunet网络,通过提高模型感受野来提取PTV与OARs相对位置关系的全局信息,从而实现高精度肺癌剂量预测。
材料与方法 1、数据集构建本研究实验数据集来自中国人民解放军总医院第7医学中心(已获该中心伦理委员会批准,批准号:2023-151)。以随机数表法从2018年至今接受根治性放疗的患者中随机收集了151例不同肿瘤大小和位置分布的非小细胞肺癌(non-small cell lung cancer,NSCLC)患者的胸部影像数据,患者入组时签署知情同意书。所有患者均采用仰卧位固定方式,并在美国飞利浦16排大孔径CT扫描仪(大孔径CT,美国飞利浦医疗设备公司)上以5 mm层厚和5 mm层间隔采集CT图像,单张CT图像的像素矩阵大小为512 × 512。为了方便训练,物理师将计划靶区的处方剂量统一标准化为60 Gy/30次。根据国际辐射单位与测量委员会(ICRU)83号报告[13],所有患者计划均进行剂量均一性的校正,使95%体积的PTV接受100%的处方剂量。所有患者计划均采用容积旋转调强放疗(volume modulated arc therapy,VMAT)技术,由主任放疗医师进行计划批准。治疗计划在Monaco治疗计划系统(版本:5.11)上完成,网格计算精度为3 mm,机架角度为180°起始,2个完整弧,准直器角度为0°。
每例患者影像数据包括CT图像、PTV和OARs轮廓以及真实计划剂量的Dicom格式文件。首先从上述Dicom格式文件中解析出png格式的CT图像、PTV的二值化图像、OARs的标签化图像以及剂量分布图像。所有图像均为灰度图。解析过程中,为避免CT信息丢失对训练的影响,同时突出显示PTV,本研究将CT图从-1 000 Hu到1 000 Hu归一化为0到1,再将像素值乘以255。对于PTV二值化图像,将PTV区域像素点全部设置为255像素值,背景区域设置为0像素值。对于OARs标签化图像,将左肺、右肺、心脏、脊髓、食管区域内像素点分别设置为80、120、160、200、240像素值,背景区域设置为0像素值。对于剂量分布图像,将原始的剂量分布图归一化到0到255之间。为了加速神经网络训练收敛,训练前将png格式的CT图像、靶区、OARs图像、剂量分布图像素值统一除以255作归一化处理。数据集以随机数表法分为训练集(91例)、验证集(30例)和测试集(30例)。为了去除图像上下两端的空白或体架区域,对所有图像进行剪切操作。首先计算出数据集中所有患者剂量图中剂量不为0的像素点的最大纵坐标122和最小纵坐标450,然后在此最大最小纵坐标基础上各向外拓宽20以预防未来出现患者骨架较大的情况,因此剪切后的纵坐标区域为102到470。即由512 × 512图像剪切为368 × 512图像。经过归一化处理的影像数据集用于MHA-resunet训练、验证与测试。
2、MHA-resunet网络架构Res-Unet通过多次上下采样和残差卷积层的堆叠能提取到丰富的多层次纹理特征和语义特征,并通过残差连接抑制深层网络梯度消失的情况。本研究在Res-Unet网络的基础上,设计了引入大核空洞卷积模块和多头交叉自注意力模块的MHA-resunet网络。
传统U-Net网络通过跳层连接融合了浅层结构特征和深层语义特征,但浅层特征经过的卷积层较少,提取的特征中仍包含一些诸如身体支架的冗余噪声信息。MHA-resunet网络通过引入交叉自注意力门控模块,以深层特征指导浅层特征的过滤,同时自注意力机制会引入全局的感受野,有利于靶区与OARs相对位置特征的提取,结构如图 1所示。模块由浅层特征与上一级的深层特征交叉运算实现。与传统自注意力机制不同的是,由深层特征通过全连接层得到Q、K矩阵,由浅层特征得到V矩阵。然后网络通过计算深层特征与浅层特征的交叉自注意力,学习全局上下文信息,实现对信息冗余的浅层特征的过滤操作,进而使网络的注意力集中于与剂量预测任务相关的结构信息,如PTV与OARs的形状位置信息。
![]() |
图 1 多头注意力模块图 Figure 1 Multihead attention block diagram |
相对于其他病种,肺癌的靶区与OARs分布较为分散,而射线照射靶区往往先穿过OARs。因此若要提高网络预测精度,应提高网络对靶区与OARs长距离特征关系的提取能力。传统U-Net网络通过多个最大池化层提高了网络感受野,但对于肺癌放疗剂量预测任务来说仍显不足。为了提高网络的有效感受野,从而提高网络对图像的理解和表达能力,本研究在网络编码区与解码区的连接区域,引入了大核空洞卷积模块。大核空洞卷积模块主要由一个大小为7 × 7,空洞率为2的卷积核和3 × 3的卷积核并联形成,本模块旨在以较小的内存代价,尽可能扩大网络的感受野,提取不同尺度的空间信息。通过计算网络输出对输入的梯度,可以得到网络的有效感受野范围,Res-Unet和引入大核空洞卷积模块的MHA-resunet的有效感受野对比如图 2所示。在网络的编码区和解码区之间的连接区域,Res-Unet使用残差卷积块,MHA-resunet使用大核空洞卷积模块。有效感受野即计算连接区域两种模块输出的特征图中心特征点对输入的CT、PTV、OARs图的梯度之和,由图可见大核空洞卷积模块对有效感受野的扩大十分显著。
![]() |
图 2 Res-Unet和MHA-resunet有效感受野对比图A. Res-Unet;B. MHA-resunet Figure 2 Comparison of effective receptive field between Res-Unet and MHA-resunet A. Res-Unet; B.MHA-resunet |
MHA-resunet网络主要分为编码区、解码区以及两者的连接区,左半部分为编码区域,每层经过一个残差卷积块提取PTV与OARs的细节纹理特征,然后通过一个最大池化下采样获取PTV与OARs不同尺度的特征。解码区每层同样由一个残差卷积块组成,通过上采样操作逐层恢复分辨率,最终恢复为与CT图像相同分辨率的结果。连接区由大核空洞卷积模块组成,旨在尽可能提高模型有效感受野。第3、4层的跳层连接部分引入交叉自注意力模块,以深层特征过滤浅层特征中的冗余信息。网络整体结构如图 3所示。
![]() |
注:OAR. 危及器官;PTV. 计划靶区 图 3 MHA-resunet整体结构图 |
本研究的深度学习框架为基于TensorFlow的Keras,Python版本为3.6。结合前文提出的MHA-resunet网络,基于具有8 GB显存的NVIDIA GeForce GTX1070 Ti显卡进行网络训练、验证与测试。MHA-resunet使用均方误差(mean square error, MSE)作为损失函数,初始学习率设置为4×10-5,优化器选取Adam优化器,超参数α设置为10-4,β1为0.9,β2为0.99。设定30个训练周期(epoch)。每个训练周期后在测试集30例患者数据下进行验证,当损失函数值< 0.001时终止迭代,共耗时约4 h。最终选择验证集表现最好的参数进行网络测试。
为了对提出的网络进行有意义的性能比较,本研究选择了3种医学图像领域先进网络Res-Unet残差网络、Atten-Unet注意力门控网络、DCNN密集空洞卷积网络与MHA-resunet在相同数据集下进行训练、验证与测试,从而评估所提出网络的性能。通过视觉对比和定量评估的方式将本研究网络与3种先进网络进行性能比较。
3、评价指标本研究通过靶区和危及器官的区域内剂量平均绝对误差(mean absolute error, MAE)对网络预测结果进行体素级评估,计算每位患者靶区和危及器官区域内MAE,然后对测试集所有患者取均值和标准差进行量化对比,MAE计算公式如下:
$ \mathrm{MAE}=\frac{\sum\nolimits_{i=1}^N\left(\left|D_{\mathrm{Pre}}(i)-D_{\mathrm{GT}}(i)\right|\right)}{N} $ | (1) |
式中,N为PTV或OARs区域内的体素数量,DPre(i)为体素i点的预测剂量,DGT(i)为体素i点的真实计划剂量。MAE用来衡量在该区域内预测剂量与真实计划剂量的误差,MAE越小表示PTV或OARs内的剂量预测精度越高。
本研究通过对比预测结果与真实计划的关键剂量学指标,实现对4种网络的预测剂量分布的评估,预测的关键指标的均值与方差越接近真实计划结果说明网络性能越好。剂量预测的关键指标如下:Dx:PTV或者OARs的x%体积接受的剂量;Vx:PTV或者OARs接受大于x Gy剂量的体积百分比;Dmax:PTV或者OARs接受的最大剂量;Dmean:PTV或者OARs接受的平均剂量。这些剂量体积参数是物理师设计计划时需要手动调整的参数,剂量体积参数的预测精度会直接影响物理师制定计划的效率。
适形性指数(conformity index,CI)[13]:
$ \mathrm{CI}=\frac{V_{\mathrm{T}, \text { ref }}}{V_{\mathrm{T}}} \times \frac{V_{\mathrm{T}, \text { ref }}}{V_{\mathrm{ref}}} $ | (2) |
式中,VT, ref为其处方剂量所覆盖的PTV体积;VT为PTV的体积,Vref为处方剂量所覆盖的体积。CI值在0到1之间,越接近1表明剂量分布中的处方剂量等剂量面与PTV的重合性越好。
均匀性指数(homogeneity index,HI)[13]:
$ \mathrm{HI}=\frac{D_2-D_{98}}{D_{\mathrm{P}}} $ | (3) |
式中,DP为处方剂量,D2和D98分别为2%和98%的PTV接受到的剂量。HI值在0到1之间,主要用于评估剂量分布的均匀度,HI越接近0表明剂量强度分布越均匀。
4、统计学处理采用SPSS 23.0软件对数据进行统计学处理。计量资料符合正态分布,用x±s表示,两组间比较采用配对t检验方法。P < 0.05为差异有统计学意义。
结果 1、预测与真实计划视觉对比图 4为从测试数据集中以随机数表法选择的4例患者的预测剂量与真实计划剂量分布比较示意图。左边两列是患者的CT图像和真实计划剂量分布。中间的4列和最后4列分别为Res-Unet,Atten-Unet、DCNN和MHA-resunet获得的预测剂量分布及与真实计划剂量分布的体素差异。由图可知,MHA-resunet预测的剂量分布与真实计划剂量分布一致性较好,此外,在4种网络的对比中,MHA-resunet的预测剂量分布体素级误差最小。
![]() |
图 4 测试集4例患者的网络预测剂量及与真实计划剂量分布对比示意图 Figure 4 Comparison of predicted dose distribution of the four models and relative error to manual dose distribution in four patients of the test set |
图 5描绘了真实计划(实线)和Res-Unet、Atten-Unet、DCNN及本研究提出的MHA-resunet剂量预测(虚线)获得的DVH。由图可知,MHA-resunet网络预测的PTV与OARs的剂量体积曲线与真实计划的剂量体积曲线几乎完全重合。精确的DVH曲线将帮助放疗物理师设定放疗计划所需的关键参数,设定参数将更加符合资深放疗物理师制作计划的经验。
![]() |
图 5 4种网络预测与真实计划的剂量体积直方图A. Res-Unet;B. Atten-Unet;C. DCNN;D. MHA-resunet Figure 5 Comparison between DVH predicted by four models and DVH planned manually A. Res-Unet and real plan; B. Atten-Unet and real plan; C. DCNN and real plan; D. MHA-resunet and real plan |
2、PTV与OARs平均剂量误差统计
表 1列出了4种网络在PTV与OARs区域体素级的MAE,可以发现本研究所提网络MHA-resunet在PTV和除心脏外的全部OARs区域误差均值最小。PTV和OARs内的MAE表现了神经网络对图像中PTV和OARs的重点信息的关注程度。PTV和OARs内的MAE越小,网络生成的DVH越精准。
![]() |
表 1 30例测试集患者的PTV与OARs区域内剂量平均绝对误差对比(Gy,x±s) Table 1 Comparison of mean absolute error of dose in the PTV and OARs predicted by the models for test set of 30 patients(Gy, x±s) |
表 2列出了测试集所有患者预测剂量和真实计划剂量学指标的平均值及其标准差(x±s)。这些剂量学指标均为肺癌患者放疗计划制作的常用指标,MHA-resunet在15项指标中的10项上取得了预测均值更接近真实计划的结果。结果表明,MHA-resunet足以为放疗物理师的计划设计提供参考指标。
![]() |
表 2 30例测试集患者预测的剂量体积参数与真实计划参数对比(x±s) Table 2 Comparison of dose volume parameters predicted by different models and ground truth data for test set of 30 patients(x±s) |
讨论
本研究开发了一种新型的融入大核空洞卷积和交叉自注意力模块的MHA-resunet架构,可以准确预测肺癌放疗计划的剂量分布。基于深度学习的剂量预测算法可以学习放疗物理师的计划制作经验,从而在短时间内生成较为理想的计划参数,减少了物理师迭代寻优的时间。
与之前基于Res-Unet的剂量预测网络相比[6-8],本研究延续了通过残差模块抑制梯度消失问题的方法。然而传统的U型网络特征提取能力有限,为了提升网络的特征提取能力,研究者使用密集连接[14-17]、空洞卷积[18-21]、级联网络[22-24]、改进损失函数[25-26]等方式对U型网络进行了改进。但对于肺癌图像Res-Unet及上述改进方法仍存在感受野较小的问题。本研究针对肺癌图像特点,通过两个模块的引入增强了模型的有效感受野,并且过滤了Res-Unet浅层特征中与剂量预测任务无关的噪声信息。与Res-Unet、Atten-Unet、DCNN相比,本研究提出的方法在PTV与OARs区域误差和关键医学指标误差上均取得了最好的结果,预测剂量分布与物理师真实计划剂量分布差距较小,使其适用于作为参考协助放疗医生和物理师设计放疗计划,有助于提高放疗计划设计的质量和效率。
考虑到网络的浅层特征包含PTV与OARs的形状大小等纹理信息的同时,还包含部分无关噪声信息。MHA-resunet在网络分辨率较低的区域采用了多头交叉自注意力机制来过滤跳层连接传递的浅层特征。数据预处理中通过剪除CT图像空白区域避免了自注意力机制中算力的浪费。以往研究如Atten-Unet网络以注意力门控机制重新赋予浅层特征权重[12],但是其注意力是通过特征之间的简单相加激活获得的,与之相比MHA-resunet交叉自注意力机制形成了深层与浅层特征信息的深度交叉融合,并且实现了全局感受野,MHA-resunet在PTV上取得了1.51 Gy的平均剂量误差,比Atten-Unet降低了9.0%。
为了提升网络感受野,提高网络对PTV与OARs相对位置关系的学习能力,大核空洞卷积模块被引入进来。在以往的研究中,主要通过两种方式提高U-Net网络感受野,一种方法是直接使用大核卷积[27],然而为了实现足够大的感受野将付出难以承受的内存成本,另一种方法则是如DCNN网络使用多层3×3空洞卷积进行堆叠[19],但该方法易出现因层数加深而导致的网格化问题和梯度消失问题,不利于PTV与OARs的纹理边缘等浅层特征的学习。相比于DCNN,MHA-resunet通过大核空洞卷积避免了层数过多带来的梯度消失问题,对PTV与OARs的浅层特征提取能力更强,本研究网络的PTV的剂量学指标均比DCNN更接近真实计划剂量。
本研究的两个主要模块仍存在一定局限性。自注意力模块内存成本相对较高,MHA-resunet只对编码的第3、4层特征使用该模块。下一步研究方向将围绕轻量化的自注意力模块,使其能够在更多场景下发挥作用。另一方面,大核空洞卷积模块需要多次实验选取最佳卷积核大小和空洞率。下一步将研究参数自适应调整的大核空洞卷积模块,从而适应不同类型的肿瘤放疗剂量预测任务。当剂量预测精度进一步提升,将能够生成放疗计划系统可读取的可执行文件,自动计划结果由剂量物理师审阅和修改,大大提高放疗计划的制作效率。
综上所述,本研究构建的MHA-resunet网络对肺癌VMAT放疗计划剂量预测有较高的精确度,在一定程度上满足临床放疗需求。由于模块的可插入性较好,有望进一步推广到其他部位肿瘤放疗计划剂量预测。
利益冲突 所有研究者未因进行该研究接受任何不正当职务或利益,在此对研究的独立性和科学性予以保证
作者贡献声明 张海峰负责论文的撰写、修改;郁艳军负责临床数据的收集;张富利负责研究设计、技术指导和论文修改参考文献
[1] |
Adjei AA. Lung cancer worldwide[J]. J Thorac Oncol, 2019, 14(6): 956. DOI:10.1016/j.jtho.2019.04.001 |
[2] |
Vinod SK, Hau E. Radiotherapy treatment for lung cancer: Current status and future directions[J]. Respirology, 2020, 25(Suppl 2): 61-71. DOI:10.1111/resp.13870 |
[3] |
Hussein M, Heijmen B, Verellen D, et al. Automation in intensity modulated radiotherapy treatment planning-a review of recent innovations[J]. Br J Radiol, 2018, 91(1092): 20180270. DOI:10.1259/bjr.20180270 |
[4] |
Mancosu P, Lambri N, Castiglioni I, et al. Applications of artificial intelligence in stereotactic body radiation therapy[J]. Phys Med Biol, 2022, 67(16): 16T. DOI:10.1088/1361-6560/ac7e18 |
[5] |
Babier A, Zhang B, Mahmood R, et al. OpenKBP: The open-access knowledge-based planning grand challenge and dataset[J]. 2021, 48(9): 5549-5561.
|
[6] |
Liu Z, Fan J, Li M, et al. A deep learning method for prediction of three-dimensional dose distribution of helical tomotherapy[J]. Med Phys, 2019, 46(5): 1972-1983. DOI:10.1002/mp.13490 |
[7] |
Kearney V, Chan JW, Haaf S, et al. DoseNet: a volumetric dose prediction algorithm using 3D fully-convolutional neural networks[J]. Phys Med Biol, 2018, 63(23): 235022. DOI:10.1088/1361-6560/aaef74 |
[8] |
Liu JP, Zhang X, Cheng XL, et al. A deep learning-based dose prediction method for evaluation of radiotherapy treatment planning[J]. J Radiat Res Appl Sci, 2024, 17(1): 100757. DOI:10.1016/j.jrras.2023.100757 |
[9] |
Shin DS, Kim KH, Kang SW, et al. Dose super-resolution in prostate volumetric modulated arc therapy using cascaded deep learning networks[J]. Front Oncol, 2020, 10: 593381. DOI:10.3389/fonc.2020.593381 |
[10] |
Cros S, Bouttier H, Nguyen-Tan PF, et al. Combining dense elements with attention mechanisms for 3D radiotherapy dose prediction on head and neck cancers[J]. J Appl Clin Med Phys, 2022, 23(8): e13655. DOI:10.1002/acm2.13655 |
[11] |
Adabi S, Tsen TC, Yuan Y. Predicting 3D dose distribution with scale attention network for prostate cancer radiotherapy[J]. Proc SPIE Int Soc Opt Eng, 2022, 12034: 1203417. DOI:10.1117/12.2611769 |
[12] |
Schlemper J, Oktay O, Schaap M, et al. Attention gated networks: Learning to leverage salient regions in medical images[J]. Med Image Anal, 2019, 53: 197-207. DOI:10.1016/j.media.2019.01.012 |
[13] |
Das IJ, Andersen A, Chen ZJ, et al. State of dose prescription and compliance to international standard (ICRU-83) in intensity modulated radiation therapy among academic institutions[J]. Pract Radiat Oncol, 2017, 7(2): e145-e155. DOI:10.1016/j.prro.2016.11.003 |
[14] |
Nguyen D, Jia X, Sher D, et al. 3D radiotherapy dose prediction on head and neck cancer patients with a hierarchically densely connected U-net deep learning architecture[J]. Phys Med Biol, 2019, 64(6): 065020. DOI:10.1088/1361-6560/ab039b |
[15] |
Miki K, Kusters M, Nakashima T, et al. Evaluation of optimization workflow using custom-made planning through predicted dose distribution for head and neck tumor treatment[J]. Phys Med, 2020, 80: 167-174. DOI:10.1016/j.ejmp.2020.10.028 |
[16] |
Barragán-Montero AM, Nguyen D, Lu W, et al. Three-dimensional dose prediction for lung IMRT patients with deep neural networks: robust learning from heterogeneous beam configurations[J]. Med Phys, 2019, 46(8): 3679-3691. DOI:10.1002/mp.13597 |
[17] |
Liu Y, Chen Z, Wang J, et al. Dose prediction using a three-dimensional convolutional neural network for nasopharyngeal carcinoma with tomotherapy[J]. Front Oncol, 2021, 11: 752007. DOI:10.3389/fonc.2021.752007 |
[18] |
Gronberg MP, Gay SS, Netherton TJ, et al. Technical note: Dose prediction for head and neck radiotherapy using a three-dimensional dense dilated U-net architecture[J]. Med Phys, 2021, 48(9): 5567-5573. DOI:10.1002/mp.14827 |
[19] |
Song Y, Hu J, Liu Y, et al. Dose prediction using a deep neural network for accelerated planning of rectal cancer radiotherapy[J]. Radiother Oncol, 2020, 149: 111-116. DOI:10.1016/j.radonc.2020.05.005 |
[20] |
Zhang J, Liu S, Yan H, et al. Predicting voxel-level dose distributions for esophageal radiotherapy using densely connected network with dilated convolutions[J]. Phys Med Biol, 2020, 65(20): 205013. DOI:10.1088/1361-6560/aba87b |
[21] |
Zhan B, Xiao J, Cao C, et al. Multi-constraint generative adversarial network for dose prediction in radiotherapy[J]. Med Image Anal, 2022, 77: 102339. DOI:10.1016/j.media.2021.102339 |
[22] |
Liu S, Zhang J, Li T, et al. Technical note: A cascade 3D U-Net for dose prediction in radiotherapy[J]. Med Phys, 2021, 48(9): 5574-5582. DOI:10.1002/mp.15034 |
[23] |
Xu X, Lian C, Yap PT, et al. Prediction of optimal dosimetry for intensity-modulated radiotherapy with a cascaded auto-content deep learning model[J]. Int J Radiat Oncol Biol Phys, 2021, 111(3S): e113. DOI:10.1016/j.ijrobp.2021.07.522 |
[24] |
Osman A, Tamam NM. Attention-aware 3D U-Net convolutional neural network for knowledge-based planning 3D dose distribution prediction of head-and-neck cancer[J]. J Appl Clin Med Phys, 2022, 23(7): e13630. DOI:10.1002/acm2.13630 |
[25] |
Zimmermann L, Faustmann E, Ramsl C, et al. Technical note: Dose prediction for radiation therapy using feature-based losses and one cycle learning[J]. Med Phys, 2021, 48(9): 5562-5566. DOI:10.1002/mp.14774 |
[26] |
Jhanwar G, Dahiya N, Ghahremani P, et al. Domain knowledge driven 3D dose prediction using moment-based loss function[J]. Phys Med Biol, 2022, 67(18): 185017. DOI:10.1088/1361-6560/ac8d45 |
[27] |
Wangle B, Qin J, Lv LR, et al. MLKCA-Unet: Multiscale large-kernel convolution and attention in Unet for spine MRI segmentation[J]. Optik, 2023, 272: 170277. DOI:10.1016/j.ijleo.2022.170277 |