本发明涉及生物医药,具体的是一种基于机器学习算法的风险分层评估方法及系统。
背景技术:
1、现有esrd患者的死亡预测模型均基于常规统计方法构建,c指数均未超过0.8,经外部验证的模型中也缺乏专门针对中国透析人群的预测模型。传统统计方法在整合多维临床特征时的能力远不及机器学习,且可能存在一些对预后影响较大的因素未纳入分析,目前的预测效能欠佳。此外,部分评分系统较为复杂,临床实用性不高。因此,目前尚无实用性较强、准确性较高的适用于预测中国初始透析人群死亡风险的评分系统在临床广泛使用,不能早期预警死亡高风险人群,临床干预往往相对滞后,使得透析人群的高死亡率问题仍需解决。
技术实现思路
1、为解决上述背景技术中提到的不足,本发明的目的在于提供一种基于机器学习算法的风险分层评估方法及系统,能够对初始透析患者死亡风险进行分层,从而识别死亡高风险人群。
2、第一方面,本发明的目的可以通过以下技术方案实现:一种基于机器学习算法的风险分层评估方法,方法包括以下步骤:
3、获取患者相关数据,将其中一个独立中心数据作为验证集,其余患者相关数据进行随机分配,得到训练集、测试集;
4、将训练集的患者数据输入至基于随机森林算法的预测模型内,构建风险得分计算公式得到风险评分,利用等宽分段原则对风险得分进行分段,其中,分段包括:低、中、高危风险人群;
5、将测试集数据输入至训练后的基于随机森林算法的预测模型内,进行参数调整;将验证集数据用于训练后的基于随机森林算法的预测模型评估,并验证风险评分系统对高、中、低危风险人群的区分度。
6、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述患者相关数据包括人口学特征、合并症、合并用药、实验室检查及胸或腹部ct图像,其中胸或腹部ct图像需包含第一腰椎横突层面。
7、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述第一腰椎横突层面的胸或腹部ct图像,利用image j软件对该层面的体成分密度和面积进行测量。
8、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述将患者相关数据进行随机分配通过利用lasso回归和boruta算法进行特征筛选得到年龄、心血管疾病史、糖尿病史、血清胱抑素c、血清白蛋白、血清肌酐以及胸或腹部ct图像上第一腰椎横突水平用image j软件测量的两个指标:骨骼肌密度和低质量肌肉面积/骨骼肌面积之比。
9、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述基于随机森林算法的预测模型利用gini系数对筛选出的特征进行重要性排序并分配特征权重。
10、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述利用gini系数分配特征权重后构建风险得分系统计算公式,利用风险得分系统计算公式计算风险得分。
11、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述风险得分计算公式如下:
12、score=22.961×[年龄age得分]+17.229×[胱抑素c cysc得分]+15.297×[白蛋白alb得分]+14.44×[血清肌酐scr得分]+12.587×[骨骼肌密度smd得分]+12.377×[低衰减值肌肉面积/骨骼肌面积lama/sma得分]+3.113×[心血管疾病cvds得分]+1.996×[糖尿病diabetes得分]。
13、第二方面,为了达到上述目的,本发明公开了一种基于机器学习算法的风险分层评估系统,包括:
14、数据处理模块,用于获取患者相关数据,将其中一个独立中心数据作为验证集,其余患者相关数据进行随机分配,得到训练集、测试集;
15、模型训练模块,用于将训练集的患者数据输入至基于随机森林算法的预测模型内,构建风险得分计算公式得到风险评分,利用等宽分段原则对风险得分进行分段,其中,分段包括:低、中、高危风险人群;
16、风险评估模块,用于将测试集数据输入至训练后的基于随机森林算法的预测模型内,进行参数调整;将验证集数据用于训练后的基于随机森林算法的预测模型评估,并验证风险评分系统对高、中、低危风险人群的区分度。
17、结合第二方面,在第二方面的某些实现方式中,该系统还包括:所述数据处理模块内患者相关数据包括人口学特征、合并症、合并用药、实验室检查及胸或腹部ct图像;
18、或者数据处理模块内胸或腹部ct图像需包含腰1横突层面,利用image j软件对该层面的体成分密度和面积进行测量;
19、或者数据处理模块内将患者相关数据进行随机分配通过利用lasso回归和boruta算法进行特征筛选得到年龄、心血管疾病史、糖尿病史、血清胱抑素c、血清白蛋白、血清肌酐以及胸或腹部ct图像上第一腰椎横突水平用image j软件测量的两个指标:骨骼肌密度和低质量肌肉面积/骨骼肌面积之比;
20、优选地,模型训练模块基于随机森林算法的预测模型利用gini系数对筛选出的特征进行重要性排序并分配特征权重;
21、优选地,模型训练模块内利用gini系数分配特征权重后构建风险得分系统计算公式,利用风险得分系统计算公式计算风险得分;
22、优选地,风险评估模块内风险得分计算公式如下:
23、score=22.961×[年龄age得分]+17.229×[胱抑素c cysc得分]+15.297×[白蛋白alb得分]+14.44×[血清肌酐scr得分]+12.587×[骨骼肌密度smd得分]+12.377×[低衰减值肌肉面积/骨骼肌面积lama/sma得分]+3.113×[心血管疾病cvds得分]+1.996×[糖尿病diabetes得分]。
24、在本发明的另一方面,为了达到上述目的,公开了一种终端设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,所述存储器中存储有能够在处理器上运行的计算机程序,所述处理器加载并执行计算机程序时,采用了如上所述的一种基于机器学习算法的风险分层评估方法。
25、本发明的有益效果:
26、本发明构建的预测模型性能优良,构建的风险得分系统,经内外数据集验证,其泛化能力较强,使得在透析初始即可早期识别死亡高风险患者以及风险的风层评估。
1.一种基于机器学习算法的风险分层评估方法,其特征在于,方法包括以下步骤:
2.根据权利要求1所述的一种基于机器学习算法的风险分层评估方法,其特征在于,所述患者相关数据包括人口学特征、合并症、合并用药、实验室检查及胸或腹部ct图像,其中胸或腹部ct图像需包含第一腰椎横突层面。
3.根据权利要求2所述的一种基于机器学习算法的风险分层评估方法,其特征在于,所述第一腰椎横突层面的胸或腹部ct图像,利用image j软件对该层面的体成分密度和面积进行测量。
4.根据权利要求3所述的一种基于机器学习算法的风险分层评估方法,其特征在于,所述将患者相关数据进行随机分配得到训练集,通过利用lasso回归和boruta算法进行特征筛选得到年龄、心血管疾病史、糖尿病史、血清胱抑素c、血清白蛋白、血清肌酐以及胸或腹部ct图像上第一腰椎横突水平用image j软件测量的两个指标:骨骼肌密度和低质量肌肉面积/骨骼肌面积之比。
5.根据权利要求1所述的一种基于机器学习算法的风险分层评估方法,其特征在于,所述基于随机森林算法的预测模型利用gini系数对筛选出的特征进行重要性排序并分配特征权重。
6.根据权利要求5所述的一种基于机器学习算法的风险分层评估方法,其特征在于,所述利用gini系数分配特征权重后构建风险得分系统计算公式,利用风险得分系统计算公式计算风险得分。
7.根据权利要求6所述的一种基于机器学习算法的风险分层评估方法,其特征在于,所述风险得分计算公式如下:
8.一种基于机器学习算法的风险分层评估系统,其特征在于,包括:
9.根据权利要求8所述的一种基于机器学习算法的风险分层评估系统,其特征在于,所述数据处理模块内患者相关数据包括人口学特征、合并症、合并用药、实验室检查及胸或腹部ct图像,其中胸或腹部ct图像需包含第一腰椎横突层面;
10.一种终端设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,其特征在于,所述存储器中存储有能够在处理器上运行的计算机程序,所述处理器加载并执行计算机程序时,采用了权利要求1至7中任一项所述的一种基于机器学习算法的风险分层评估方法。