一种2型糖尿病风险预测模型的构建系统的制作方法

专利检索2022-05-11  9



1.本发明涉及健康管理领域,尤其涉及一种2型糖尿病风险预测模型的构建系统。


背景技术:

2.随着经济的发展、生活水平提高及人口老龄化,人类的疾病谱正在发生显著的变化,慢性非传染性疾病已成为威胁人类健康的主要原因。2型糖尿病是以高血糖为主要标志的内分泌代谢性疾病,其患病率逐年增高。加之其并发症多,治疗时间长,治疗费用大,给社会带来沉重的负担。
3.由于2型糖尿病起病比较隐蔽,早期症状不明显,很难在初发时即获确诊,造成我国2型糖尿病知晓率低,未诊断率偏高,这使得糖尿病防控存在不小的障碍。未诊断的患者,很可能是根本不知道自己已患病,需要及早检查,以免引发冠心病、脑梗等致残致死的重大疾病。现有医学技术无法高效实现对2型糖尿病的预测,这样容易错过糖尿病的最佳防范时机。


技术实现要素:

4.有鉴于此,本发明提出了一种2型糖尿病风险预测模型的构建系统,旨在解决无法高效地对2型糖尿病进行预测,从而导致无法及时治疗和预防的问题。本发明通过对数据进行单因素分析和多因素logistic回归分析,构建2型糖尿病风险预测模型,并利用roc曲线,对风险预测模型的预测效能进行评价。
5.本发明的技术方案是这样实现的:
6.本发明提出了一种2型糖尿病风险预测模型的构建系统,其包括以下模块;
7.数据采集模块,用于获取对居民的行为生活方式、健康状况的问卷调查结果;
8.数据分析模块,用于对调查获得的数据进行单因素分析和多因素logistic回归分析,筛选出危险因素的特征变量;
9.模型构建模块,用于以危险因素的特征变量为基础,构建2型糖尿病风险预测模型;
10.风险预测模块,用于对各危险因素进行评分加权,得出各危险因素的权重值,构建危险评分体系,利用危险评分体系,对2型糖尿病风险进行预测;
11.价值评估模块,用于绘制roc曲线判断风险预测模型诊断价值的大小,对风险预测模型的预测效能进行评价。
12.优选的,数据采集模块中,对居民的行为生活方式、健康状况进行问卷调查,具体包括:
13.基本情况,包括年龄、性别、婚姻状况、职业、文化水平、居住地、身高、体重、腰围、过敏史等;
14.健康情况,包括家族患病史、慢病患病情况、血压水平(未服降压药)等;
15.健康行为,包括吸烟、被动吸烟、饮酒、饮食(高盐、高糖、高脂、蔬果摄入情况等)、
睡眠、运动等。
16.在以上技术方案的基础上,优选的,数据采集模块中,选取社区内20岁以上居民作为调查对象,适用于临床医学上的有效调查对象。
17.优选的,模型构建模块中,构建2型糖尿病风险预测模型的过程中,采用logistic回归模型,具体包括以下单元:
18.患病情况赋值单元,用于以因变量y表示患病情况,患2型糖尿病时赋值y=1,未患病时y=0,p表示糖尿病患病率:p(y=1);
19.影响因素赋值单元,用于对患病情况y的影响因素xn进行赋值,当危险因素为二分类变量时,将危险因素赋值x=1,不是危险因素x=0;当危险因素为多分类时,采用哑变量进行统一赋值;
20.模型公式推导单元,用于建立糖尿病的logistics回归模型,在多因素的影响下糖尿病的发病概率p(y=1|x1,x2,
……
xn),回归模型公式为:
21.logti(p)=β0 β1x1 β2x2
……
βnxn,
22.经过变换后,可得到
[0023][0024]
在以上技术方案的基础上,优选的,风险预测模块中,构建危险评分体系的过程,具体包括以下单元:
[0025]
预处理单元,用于将各回归系数β值同时除以最小回归系数βm:
[0026][0027]
变量定义单元,用于将新系数按四舍五入法取整数部分,各自变量对应的危险分数si为:
[0028][0029]
总分值sc为各危险分数相加的和:
[0030]
sc=s1 s2
……
sn;
[0031]
公式推导单元,用于将logistics回归模型简化为新的预测模型,公式为:
[0032][0033]
在以上技术方案的基础上,优选的,模型构建模块中,使用随机上升梯度算法来建立logistic回归模型,将随机梯度上升算法的迭代次数变成可设置。
[0034]
优选的,价值评估模块中,采用roc曲线下面积来判断模型诊断价值的大小,以0.5为界限,roc曲线下的面积>0.5可认为有临床诊断价值,≤0.5则认为无临床诊断价值。
[0035]
本发明的一种2型糖尿病风险预测模型的构建系统相对于现有技术具有以下有益效果:
[0036]
(1)本发明通过对数据进行单因素分析和多因素logistic回归分析,构建2型糖尿病风险预测模型,确定危险因素对应的权重值,以达到量化危险因素与疾病关系的目的,可
以更加直观地对2型糖尿病的致病因素进行分析,对于后续的风险判断提供了有效的数据;
[0037]
(2)使用随机上升梯度算法来建立logistic回归模型,将随机梯度上升算法的迭代次数变成可设置,提高随机梯度上升算法的分类效果,相对于没有设置迭代次数来说,这种方法的收敛速度会更快,使得建立模型更加高效;
[0038]
(3)采用roc曲线下面积来判断模型诊断价值的大小,在建立模型分析2型糖尿病之前,需要利用roc对模型价值进行判断,起到一个避免误差过大的作用,筛选出高价值的预测模型。
附图说明
[0039]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]
图1为本发明的一种2型糖尿病风险预测模型的构建系统结构图;
[0041]
图2为本发明模型构建模块30的单元结构示意图;
[0042]
图3为本发明风险预测模块40的单元结构示意图。
具体实施方式
[0043]
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
[0044]
如图1所示,本发明的一种2型糖尿病风险预测模型的构建系统,包括以下模块:数据采集模块10,数据分析模块20,模型构建模块30,风险预测模块40和价值评估模块50。
[0045]
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明,应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0046]
本发明提供了一种2型糖尿病风险预测模型的构建系统的具体实施例,以下是实施例的具体内容。
[0047]
数据采集模块10,用于查阅2型糖尿病相关的文献,结合糖尿病专家的意见,选取社区20岁以上居民3585名作为调查对象,对居民的行为生活方式、健康状况进行问卷调查。
[0048]
具体的,调查内容包括:1、基本情况:年龄、性别、婚姻状况、职业、文化水平、居住地、身高、体重、腰围、过敏史等;2、健康情况:家族患病史、慢病患病情况、血压水平(未服降压药)等;3、健康行为:吸烟、被动吸烟、饮酒、饮食(高盐、高糖、高脂、蔬果摄入情况等)、睡眠、运动等;调查后检查问卷的完整性以确保数据的可靠性,剔除有漏答和错答的问卷后进行数据录入,录入后进行逻辑纠错,保证数据的真实性。
[0049]
数据分析模块20,用于采用spss软件对数据进行单因素分析和多因素logistic回归分析,筛选出危险因素的特征变量。
[0050]
优选的,经单因素分析,对糖尿病的患病率有影响的因素包括:年龄、性别、婚姻状
况、文化水平、bmi(体重(kg)/身高(米)的平方)、腰围、吸烟、被动吸烟、饮酒、运动、蔬果摄入情况、高糖饮食、高盐饮食、高脂饮食、血压水平、糖尿病家族史,以上这些因素的差异均有统计学意义(p<0.05);将以上因素作为自变量,以是否患有糖尿病作为因变量,采用逐步回归法确立糖尿病的危险因素;分析结果显示,年龄(βi=1.520)、bmi(βi=1.476)、腰围(βi=1.656)、糖尿病家族史(βi=1.997)、吸烟(βi=1.372)、血压水平(βi=1.325)、运动(βi=1.368)、蔬果摄入情况(βi=1.117)、高糖饮食(βi=2.193)、高脂饮食(βi=1.879)的居民糖尿病患病率高。
[0051]
模型构建模块30,用于以危险因素的特征向量为基础,构建2型糖尿病风险预测模型。
[0052]
如图2所示,优选的,模型构建模块30中,构建2型糖尿病风险预测模型的过程中,采用logistic回归模型,具体包括以下单元:
[0053]
患病情况赋值单元,用于以因变量y表示患病情况,患2型糖尿病时赋值y=1,未患病时y=0,p表示糖尿病患病率:p(y=1);
[0054]
影响因素赋值单元,用于对患病情况y的影响因素xn进行赋值,当危险因素为二分类变量时,将危险因素赋值x=1,不是危险因素x=0;当危险因素为多分类时,采用哑变量进行统一赋值;
[0055]
模型公式推导单元,用于建立糖尿病的logistics回归模型,在多因素的影响下糖尿病的发病概率p(y=1|x1,x2,
……
xn),回归模型公式为:
[0056]
logti(p)=β0 β1x1 β2x2
……
βnxn,
[0057]
经过变换后,可得到
[0058][0059]
在以上技术方案的基础上,优选的,模型构建模块30中,使用随机上升梯度算法来建立logistic回归模型,将随机梯度上升算法的迭代次数变成可设置,提高随机梯度上升算法的分类效果。
[0060]
风险预测模块40,用于对各危险因素进行评分加权,得出各危险因素的权重值,构建危险评分体系。
[0061]
如图3所示,在以上技术方案的基础上,优选的,风险预测模块40中,构建危险评分体系的过程,具体包括以下单元:
[0062]
预处理单元,用于将各回归系数β值同时除以最小回归系数βm:
[0063][0064]
变量定义单元,用于将新系数按四舍五入法取整数部分,各自变量对应的危险分数si为:
[0065][0066]
总分值sc为各危险分数相加的和:
[0067]
sc=s1 s2
……
sn;
[0068]
公式推导单元,用于将logistics回归模型简化为新的预测模型,公式为:
[0069][0070]
具体的,根据logistic回归分析结果,得到最小回归系数为0.187,建立糖尿病的危险评分体系,各危险因素中最低分为0分,最高分为4分,总分值为0-27分。其中年龄(3分)、腰围(3分)、血压(2分)、糖尿病家族史(4分)、bmi(3分)、高脂饮食(3分)、高糖饮食(4分)、吸烟(2分)、运动(2分)、蔬果摄入情况(1分)。
[0071]
在以上技术方案的基础上,优选的,根据公式推导单元的公式,将原回归模型简化为只有一个自变量的新的危险评分模型:
[0072][0073]
模型评分范围为0-27分,最小预测概率值为5.44%,最高预测概率值为89.96%;随着危险分数从0增长到27,其预测患病也从5.44%到89.96%上升,总体呈上升趋势,危险分数得分越高,患病可能性也越大。
[0074]
价值评估模块50,用于绘制roc曲线判断风险预测模型诊断价值的大小,对风险预测模型的预测效能进行评价。
[0075]
优选的,价值评估模块50中,采用roc曲线下面积来判断模型诊断价值的大小,以0.5为界限,roc曲线下的面积>0.5可认为有临床诊断价值,≤0.5则认为无临床诊断价值。
[0076]
具体的,绘制roc曲线的步骤为:已经得出2型糖尿病预测模型的样本被划分为正类的概率score值,按照大小排序;从高到低,依次将“score”值作为阈值,当测试样本属于正样本的概率大于或等于这个阈值时,我们认为它为正样本,否则为负样本;每次选取一个不同的阈值,得到一组fpr(false positive rate,假正例率)和tpr(true positive rate,真正例率),以fpr值为横坐标和tpr值为纵坐标,即roc曲线上的一点;根据每个坐标点,绘制roc曲线图。
[0077]
根据实验数据可得,2型糖尿病风险预测模型的roc曲线面积为0.836,评价结果表明,2型糖尿病风险预测模型辨别能力效果较好。
[0078]
2型糖尿病风险预测模型主要适用于20岁以上人群,通过年龄、腰围、血压、糖尿病家族史、bmi、每天运动时间、蔬果摄入情况、高糖饮食、高脂饮食、吸烟等因素作为自变量建立预测规则,实现待测人群未来10年内2型糖尿病患病风险评估,并针对不同风险和单个危险因素水平给出相应提示和建议,为临床2型糖尿病的早筛提供了指导性建议。
[0079]
总而言之,本发明首先进行调查获取数据,然后通过对数据进行单因素分析和多因素logistic回归分析,构建2型糖尿病风险预测模型,确定危险因素对应的权重值,以达到量化危险因素与疾病关系的目的,可以更加直观地对2型糖尿病的致病因素进行分析,对于后续的风险判断提供了有效的数据;其中,使用随机上升梯度算法来建立logistic回归模型,将随机梯度上升算法的迭代次数变成可设置,提高随机梯度上升算法的分类效果,相对于没有设置迭代次数来说,这种方法的收敛速度会更快,使得建立模型更加高效;最后,采用roc曲线下面积来判断模型诊断价值的大小,保证了筛选后的预测模型更加准确有效。
[0080]
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
转载请注明原文地址:https://win.8miu.com/read-950375.html

最新回复(0)