基于深度学习的鼻咽喉内窥镜图像部位识别系统

xiaoxiao1天前  8


本发明涉及深度学习和医学图像处理的,尤其是指一种基于深度学习的鼻咽喉内窥镜图像部位识别系统。


背景技术:

1、内窥镜在临床扮演着至关重要的角色,为医生提供了直观、全面的视角,以便深入人体内部观察、诊断和治疗各种疾病。内窥镜的临床应用极为广泛,涵盖了从鼻咽喉、胃肠道、呼吸道到泌尿系统等多个领域。内窥镜部位识别的准确性对于疾病的诊断和治疗具有重要意义。通过内窥镜的观察,医生可以迅速准确地识别病变部位,从而为后续的病理活检、手术等提供精确指导。同时,准确的部位识别也有助于医生更好地了解病变的性质、范围和程度,为制定个性化的治疗方案提供有力支持。但是对于一些难以识别的部位,例如下咽与喉部,当内窥镜部位识别不准确时,医生可能会错误地判断病变的位置、性质和范围,从而导致误诊。这可能会延误患者的治疗时机,增加疾病的进展风险。基于不准确的部位识别,医生可能会进行不必要或无效的治疗,这不仅会增加患者的痛苦和经济负担,还可能对患者的健康造成进一步的损害。在内窥镜手术或检查过程中,如果部位识别不准确,可能会增加手术风险,如误伤正常组织、血管或器官,导致出血、感染等并发症。

2、随着近年来深度学习地快速发展,以卷积神经网络为代表的算法被应用到图像部位识别中。与传统图像处理算法的算法相比,深度学习方法具有更强的鲁棒性和更好的易用性,同时能加速部位识别的速度。使用自动鼻咽喉内窥镜图像部位识别方案可以显著减轻医务人员的负担,简化医疗资源的使用,还可以作为医生辅助诊断决策的参考。但目前应用于鼻咽喉的内窥镜图像部位识别方案较少,为此,需要更多研究扩大深度学习在这一方向的应用。


技术实现思路

1、本发明的目的在于考虑鼻咽喉内窥镜图像部位识别任务复杂问题以及实时性要求高的特点,提出了一种基于深度学习的鼻咽喉内窥镜图像部位识别系统,可有效填补深度学习在鼻咽喉内窥镜图像部位识别的空缺,保证了部位识别的准确性和实时性。

2、为实现上述目的,本发明所提供的技术方案为:基于深度学习的鼻咽喉内窥镜图像部位识别系统,包括:

3、数据获取模块,用于获取包含多个鼻咽喉内窥镜图像的原始图像数据集并进行裁剪处理,得到去除无效信息只包含内窥镜视场区域的裁剪图像数据集;

4、数据预处理模块,用于对裁剪图像数据集进行预处理,得到大小一致并归一化的预处理图像数据集;

5、数据增强模块,用于对预处理图像数据集中的图像进行随机数据增强,得到增强的数据集;

6、训练模块,使用增强的数据集训练改进的resnet-34神经网络,使用交叉熵损失函数作为网络训练的损失函数,得到训练后性能最优的改进的resnet-34神经网络;其中,改进的resnet-34神经网络中具体的改进为:将最后全连接层的输出节点数修改,以匹配部位识别任务中的类别数量,同时在训练过程中调整学习率,每10个训练周期,学习率下降0.1倍;

7、识别模块,应用训练后性能最优的改进的resnet-34神经网络对待测的内窥镜图像进行识别,并输出网络的识别结果。

8、进一步,所述数据获取模块利用opencv库对原始图像数据集进行裁剪,去除对于部位识别无效的信息,包括拍摄日期、被摄者性别和被摄者年龄,只保留内窥镜视场区域的图像。

9、进一步,所述数据预处理模块执行以下操作:

10、对裁剪图像数据集进行大小缩放,即将输入图像的大小调整为给定的256×256;

11、对大小缩放后的图像数据集进行中心裁剪,即将调整大小后的图像依据给定的224×224从图像的中心裁剪;

12、对中心裁剪后的图像数据集进行张量转换,即将中心裁剪后的图像转换为张量形式,并且初步归一化;

13、对转换为张量后的图片进行归一化,将已进行初步归一化的张量归一化为每个通道均值和标准差均为0.5的张量形式图像,得到预处理图像数据集。

14、进一步,所述数据增强模块执行以下操作:

15、对预处理图像数据集进行随机的角度旋转操作,即将预处理图像数据集中的图像沿着中间像素点随机旋转20°以内的任意角度,图像旋转后,对图像空白部分进行填充;

16、对旋转后的图像进行随机的亮度调整,即将图像rgb的每个像素点亮度调整为原来亮度在0.5-1.5范围中的随机一个倍数;

17、对亮度调整后的图像进行随机的对比度调整,即将图像rgb的每个像素点对比度调整为原来对比度在0.5-1.5范围中的随机一个倍数;

18、对对比度调整后的图像进行随机的饱和度调整,即将图像rgb的每个像素点饱和度调整为原来饱和度在0.5-1.5范围中的随机一个倍数;

19、对饱和度调整后的图像进行随机的色调调整,即将图像rgb的每个像素点色调调整为原来色调在0.5-1.5范围中的随机一个倍数;

20、对色调调整后的图像进行大小缩放,即将色调调整后的图像的大小调整为给定的256×256;

21、对大小缩放后的图像进行中心裁剪,即将调整大小后的图像依据给定的224×224从图像的中心裁剪;

22、对中心裁剪后的图像进行张量转换,即将中心裁剪后的图像转换为张量形式,并且初步归一化;

23、对转换为张量后的图片进行归一化,将已进行初步归一化的张量归一化为每个通道均值和标准差均为0.5的张量形式图像,得到增强的数据集。

24、进一步,所述训练模块执行以下操作:

25、利用timm库载入预训练resnet-34神经网络,冻结预训练resnet-34神经网络卷积层的全部参数,修改最后全连接层的输出节点数,以匹配部位识别任务中的类别数量;

26、对于部位识别任务,设置交叉熵损失函数作为网络的损失函数,输入数据x分为c个不同的类别,对于每个输入数据,定义一个c维的向量y,其中yi表示x属于第i个类别的概率,假设真实标签是一个c维的向量y,其中只有一个元素为1,其余元素为0,指示输入数据x所属的类别,使用交叉熵损失l(x,y)来衡量网络预测结果和真实标签之间的差距,公式如下:

27、

28、式中,xi表示真实标签的第i个元素,yi表示网络预测x属于第i个类别的概率;

29、超参数调整,即将学习率设置为0.001,设置优化算法为adam算法,设置批量大小为32,设置训练周期为70,在训练过程中调整学习率,每10个训练周期,学习率下降0.1倍,训练结束后选择一组结果最优的训练参数迁移到改进的resnet-34神经网络中。

30、进一步,所述识别模块执行以下操作:

31、载入经训练模块训练后性能最好的改进的resnet-34神经网络,在部位识别时,将输入的内窥镜图像调整大小为给定的256×256;

32、对大小调整后的图像进行张量转换,并且初步归一化;

33、将已进行初步归一化的张量归一化为每个通道均值和标准差均为0.5的张量形式图像,输入训练后性能最优的改进的resnet-34神经网络,网络输出识别的部位名称作为预测结果。

34、本发明与现有技术相比,具有如下优点与有益效果:

35、1、本发明的首要优点在于其高精度的识别能力。通过利用深度学习算法,特别是resnet-34神经网络,本发明能够从大量的内窥镜图像中学习并提取出复杂的特征模式。这使得改进后的resnet-34神经网络能够准确地识别出鼻咽喉各个部位。与传统的图像识别方法相比,本发明不仅提高了识别的准确率,还显著提升了处理速度,从而大大提高了图像处理的效率。

36、2、本发明还具有高度自适应性。通过对不同部位的内窥镜图像进行训练,改进后的resnet-34神经网络能够学习到各种独特的图像特征,进而提升其在真实场景中的识别性能。这种自适应性使得基于深度学习的鼻咽喉内窥镜图像部位识别具有更强的泛化能力,能够应对各种复杂的临床情况,具有广泛的应用前景,值得推广。


技术特征:

1.基于深度学习的鼻咽喉内窥镜图像部位识别系统,其特征在于,包括:

2.根据权利要求1所述的基于深度学习的鼻咽喉内窥镜图像部位识别系统,其特征在于,所述数据获取模块利用opencv库对原始图像数据集进行裁剪,去除对于部位识别无效的信息,包括拍摄日期、被摄者性别和被摄者年龄,只保留内窥镜视场区域的图像。

3.根据权利要求1所述的基于深度学习的鼻咽喉内窥镜图像部位识别系统,其特征在于,所述数据预处理模块执行以下操作:

4.根据权利要求1所述的基于深度学习的鼻咽喉内窥镜图像部位识别系统,其特征在于,所述数据增强模块执行以下操作:

5.根据权利要求1所述的基于深度学习的鼻咽喉内窥镜图像部位识别系统,其特征在于,所述训练模块执行以下操作:

6.根据权利要求1所述的基于深度学习的鼻咽喉内窥镜图像部位识别系统,其特征在于,所述识别模块执行以下操作:


技术总结
本发明公开了一种基于深度学习的鼻咽喉内窥镜图像部位识别系统,包括:数据获取模块,用于获取包含多个鼻咽喉内窥镜图像的原始图像数据集并进行裁剪处理,得到去除无效信息只包含内窥镜视场区域的裁剪图像数据集;数据预处理模块,用于对裁剪图像数据集进行预处理,得到大小一致并归一化的预处理图像数据集;数据增强模块,用于对预处理图像数据集中的图像进行随机数据增强,得到增强的数据集;训练模块,使用增强的数据集训练改进的ResNet‑34神经网络,得到训练好的改进的ResNet‑34神经网络;识别模块,应用训练好的改进的ResNet‑34神经网络对待测的内窥镜图像进行识别,并输出识别结果。本发明可对鼻咽喉内窥镜图像进行准确且快速的部位识别。

技术研发人员:杨荣骞,雷佳茵,阳维
受保护的技术使用者:华南理工大学
技术研发日:
技术公布日:2024/9/23

最新回复(0)