一种帕金森病基因-环境交互作用的可视化输出方法、服务器及存储介质与流程

专利检索2025-03-18  20


本技术涉及模型构建领域,具体而言,涉及一种帕金森病基因-环境交互作用的可视化输出方法、服务器及存储介质。


背景技术:

1、帕金森病(parkinson’s disease,pd)又称为震颤麻痹,是一种随着年龄增长其发病率也随之增加的神经变性病,有研究表明在50岁以下人群中pd发病率较低,60岁以后pd发病率快速上升,约在80岁左右时达到顶峰。pd的主要病理特征为进行性的黑质致密部(substantia nigra pars compacta,snpc)中脑多巴胺能(midbrain dopaminergic,mda)神经元的丢失、α-突触核蛋白的聚积以及路易小体(lewy body)的形成。随着老龄化时代的到来,pd自然也受到了更广泛的关注,有研究预计到2050年全球将有超过1200万的pd患者,其中约有500万患者来自中国;由于pd患者的神经元变性以不可逆的方式持续进展,所以pd患者的预后通常较差,这将会给家庭和国家都带来沉重的医疗、经济和社会负担。

2、虽然pd的主要临床表现为运动迟缓、肌强直、静止性震颤以及姿势平衡障碍等运动症状,但是pd也可以表现出如嗅觉或味觉减退的感觉障碍,便秘、排尿障碍、多汗等自主神经功能障碍,抑郁、焦虑等精神障碍,睡眠障碍以及认知障碍等非运动症状,而且这些非运动症状通常早于运动症状出现,也同样严重降低患者的生活质量,给病人和家属带来沉重的经济心理负担。因此,pd在不同个体中的临床表型和病理生理特征往往差异较大,而且与诸如路易体痴呆、多系统萎缩以及进行性核上性麻痹等其他神经变性病的表型存在重叠,这无疑给pd的临床诊断带来了极大的挑战,目前pd诊断的金标准仍然是患者尸检时的神经病理学评估。因此,为了有效改善患者预后,切实减轻患者经济负担,目前迫切需要新的方法辅助pd的早期诊疗,积极控制患者的病情发展。

3、迄今为止,虽然pd的确切病因尚未研究清楚,但是目前普遍认为pd的发生是由老化因素、环境因素、以及遗传因素三者的联合作用所导致的。自1997年polymeropoulos等人在一个意大利pd大家系中通过连锁定位分析确定了第一个pd致病基因snca以来,后陆续发现了prkn,uchl1,park7,lrrk2,pink1,polg,htra2,atp13a2,fbxo7,gigyf2,gba,pla2g6,eif4g1,vps35,dnajc6,synj1,dnajc13,tmem230,vps13c,lrp10等一批基因发生突变后均可导致pd发病。随着第二代测序技术(高通量测序)的出现,大大降低了个体化基因检测的准入门槛,使大规模的全基因组关联研究(genome-wide association study,gwas)成为可能。国际帕金森病基因组学联盟(international parkinson disease genomicsconsortium,ipdgc)最新一次的meta-gwas分析共识别到了90个pd风险变异,所解释pd的遗传度约为16~36%。此外,1-甲基-4-苯基-1,2,3,6-四氢吡啶(mptp)、鱼藤酮(rotenone和百草枯(paraquat)等各种环境暴露也是pd的常见病因,其中mptp和rotenone更是常用来构建pd的细胞模型或动物模型。

4、在现代遗传学研究中,识别基因与环境因素之间互动作用对于揭示疾病的复杂性和多因素遗传背景至关重要。尽管目前已开发出多种分析基因-环境互作的方法,这些方法主要集中在处理数量性状和二元性状。具体方法包括:(1)似然比检验方法:此方法通过比较每个检测位点在备择假设下的无约束模型与零假设下的约束模型,进行大规模的模型拟合操作,适用于全基因组分析。然而,该过程涉及数百万次的模型拟合,导致分析时间长,可能延续数月之久。(2)score检验方法:该检验考虑了边际遗传效应,在每个待检验位点执行一次约束模型拟合。与似然比检验相似,其同样面临全基因组分析中的大量模型拟合和长时间运算的问题。(3)两步骤方法:该方法首先根据边际遗传效应筛选位点,但在筛选过程中可能排除了含有基因-环境互作效应的位点,且不能为全基因组范围内的表型组关联分析提供必要的统计数据。(4)spage方法:适用于大样本量二元性状,通过条件期望和鞍点近似计算p值,提高了运算效率。特别适用于病例对照不平衡和罕见变异分析,控制了第一类错误率,具有高统计效力。然而,仅限于二元性状分析,不适用于其他复杂性状。

5、尽管上述方法在特定条件下有效,但全基因组范围内识别基因-环境互作效应的研究,尤其是在大型生物样本库中研究如帕金森病等疾病的遗传背景时,仍面临方法速度慢、适用性限制等问题。因此,亟需一种能够快速、准确适用于各类性状的基因-环境交互作用分析的新方法。

6、虽然目前存在多种统计学方法可以用于交互作用的分析,但是如上文所示不同的分析方法都有自己的适用条件,并不一定都适用于大型生物样本库中帕金森病的数据结构,因此想要针对大型生物样本库中帕金森病患者进行基因-环境交互作用研究需要专业的技能。

7、为此提出本发明。


技术实现思路

1、为了进一步研究pd的发病原因,辅助pd的早期诊疗,本发明开发了一套分析流程服务器及存储介质,在此基础上构建帕金森病基因-环境交互作用模型的方法。本发明的目的在于克服上述现有技术存在的缺陷,提供一种准确的针对帕金森病患者的基因与不同环境因素交互作用模型的构建方法、服务器及存储介质,以解决无法简单、快速的实现帕金森病中基因与环境因素交互作用识别的问题,来辅助帕金森的病因学研究。采用本发明方法可以快捷地进行pd中基因与环境的交互作用分析,并对结果进行可视化,辅助pd的病因学研究。本发明的方法解决了无法简单、快速的实现pd中基因-环境交互作用分析的技术问题。

2、本发明的技术方案如下:

3、本发明第一方面公开了一种帕金森病基因-环境交互作用的可视化输出方法,包括如下步骤:

4、(1)获取数据并预处理;

5、(2)对获取的数据进行质量控制,然后对数据进行降维;

6、(3)交互作用模型的构建;

7、(4)交互作用的结果的可视化输出。

8、优选地,步骤(1)获取数据并预处理步骤包括:从大型生物样本库中获取最新的数据;对获取到的数据进行提取和清洗,将其分类为表型数据、基因型数据、环境因素数据和混杂因素数据;将分类后的数据处理为后续构建模型所需要的文件格式。

9、优选地,步骤(2)对获取的数据进行质量控制步骤包括:将基于生物样本库中的人群种族信息进行分组,然后基于纳入队列的基因型信息计算测序结果中样本和变异缺失率、哈代-温伯格平衡检验的p值,排除低质量的测序数据;采用样本的基因型数据计算杂合度对样本进行质量控制,排除低质量的样本;最后基于生物样本库中的亲缘关系信息,使纳入的样本之间没有亲缘关系。

10、优选地,步骤(2)对数据进行降维步骤包括:去除基因型数据中缺失数据较多或低变异的碱基位点;将基因型数据转化为0,1,2并对数据进行中心化和标准化;对标准化后的基因型得分构建协方差矩阵;计算该矩阵的特征向量的特征值;对计算得到的特征值进行转换,得到基因型数据降维后的特征值,并基于前三个特征值进行可视化来判断基因型数据质量。

11、优选地,步骤(3)交互作用模型的构建步骤包括:将逻辑回归模型选作基础模型用于构建交互模型;选择lrt with penalized firth regression来对逻辑回归的结果进行校正;最终构建出来的基因和环境交互作用模型为g(μ)=eα+gβ+(gxe)γ。

12、优选地,步骤(4)交互作用的结果的可视化输出步骤包括:对基因和环境交互作用模型g(μ)=eα+gβ+(gxe)γ分别做出4个不同的空假设,包括:(1)h0:β=0givenγ=0,(2)h0:β=0,(3)h0:γ=0,(4)h0:β=γ=0,完成统计推断;其中add-control代表一个基因变异的边际效应分析,对应假设1;add-int_snp为交互作用中基因变异的主效应分析,对应假设2;add-int_snpxtd=1为交互作用分析中,基因变异与环境的交互效应分析,对应假设3;add-int_snp_2df为交互作用分析中,交互效应与主效应联合效应分析,对应假设4。

13、优选地,步骤(4)交互作用的结果的可视化输出为基于r语言对交互作用结果进行可视化。

14、本发明第二方面公开了所述的方法用于帕金森病的基因与环境交互作用的识别。

15、本发明第三方面公开了一种服务器,用于执行上述的方法。

16、本发明第四方面公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时,使得所述的服务器执行帕金森病的基因与环境交互作用识别。

17、本发明的有益效果:

18、本发明的帕金森病基因-环境交互作用的可视化输出方法,针对大型生物样本库的通用数据结构开发了一套从数据提取到交互作用结果可视化的分析流程,本流程在全基因组范围内高效准确地分析基因与环境因素之间的交互作用,克服现有技术的局限,降低了应用于大型生物样本库中帕金森病患者的全基因组范围的基因环境交互作用研究的分析门槛。本发明的方法通过引入先进的数学模型和算法优化,实现了对数量性状和二元性状以及更广泛的复杂性状的基因环境交互作用的高效分析,准确地估计帕金森病中基因与环境交互作用模型的参数,实现全基因组范围的交互作用关联分析。大幅度缩短了全基因组分析所需时间,提高了分析的准确性和适用性,实现了帕金森病基因环境交互作用的可视化输出。同时,本发明的方法还特别考虑了罕见变异的分析,保证了在高度不平衡的病例对照比例下,来进行针对帕金森病的基因环境交互作用研究,从而辅助帕金森病的病因学研究。


技术特征:

1.一种帕金森病基因环境交互作用的可视化输出方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,步骤(1)获取数据并预处理步骤包括:从大型生物样本库中获取最新的数据;对获取到的数据进行提取和清洗,将其分类为表型数据、基因型数据、环境因素数据和混杂因素数据;将分类后的数据处理为后续构建模型所需要的文件格式。

3.根据权利要求1所述的方法,其特征在于,步骤(2)对获取的数据进行质量控制步骤包括:将基于生物样本库中的人群种族信息进行分组,然后基于纳入队列的基因型信息计算测序结果中样本和变异缺失率、哈代-温伯格平衡检验的p值,排除低质量的测序数据;采用样本的基因型数据计算杂合度对样本进行质量控制,排除低质量的样本;最后基于生物样本库中的亲缘关系信息,使纳入的样本之间没有亲缘关系。

4.根据权利要求3所述的方法,其特征在于,步骤(2)对数据进行降维步骤包括:去除基因型数据中缺失数据较多或低变异的碱基位点;将基因型数据转化为0,1,2并对数据进行中心化和标准化;对标准化后的基因型得分构建协方差矩阵;计算该矩阵的特征向量的特征值;对计算得到的特征值进行转换,得到基因型数据降维后的特征值,并基于前三个特征值进行可视化来判断基因型数据质量。

5.根据权利要求1所述的方法,其特征在于,步骤(3)交互作用模型的构建步骤包括:将逻辑回归模型选作基础模型用于构建交互模型;选择lrt with penalized firthregression来对逻辑回归的结果进行校正;最终构建出来的基因和环境交互作用模型为g(μ)=eα+gβ+(gxe)γ。

6.根据权利要求5所述的方法,其特征在于,步骤(4)交互作用的结果的可视化输出步骤包括:对基因和环境交互作用模型g(μ)=eα+gβ+(gxe)γ分别做出4个不同的空假设,包括:(1)h0:β=0givenγ=0,(2)h0:β=0,(3)h0:γ=0,(4)h0:β=γ=0,完成统计推断;其中add-control代表一个基因变异的边际效应分析,对应假设1;add-int_snp为交互作用中基因变异的主效应分析,对应假设2;add-int_snpxtd=1为交互作用分析中,基因变异与环境的交互效应分析,对应假设3;add-int_snp_2df为交互作用分析中,交互效应与主效应联合效应分析,对应假设4。

7.根据权利要求1所述的方法,其特征在于,步骤(4)交互作用的结果的可视化输出为基于r语言对交互作用结果进行可视化。

8.根据权利要求1-7任一所述的方法用于帕金森病的基因与环境交互作用的识别。

9.一种服务器,其特征在于,用于执行权利要求1-7任一所述的方法。

10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时,使得权利要求9所述的服务器执行帕金森病的基因与环境交互作用识别。


技术总结
本发明公开了一种帕金森病基因环境交互作用的可视化输出方法,包括如下步骤:(1)获取数据并预处理;(2)对获取的数据进行质量控制,然后对数据进行降维;(3)交互作用模型的构建;(4)交互作用的结果的可视化输出。本发明还公开了所述帕金森病基因环境交互作用的可视化输出方法用于帕金森病的基因与环境交互作用的识别、以及执行所述方法的服务器和存储介质。

技术研发人员:李萌,王峥,管莹,赵贵虎,朱洲海,李滨,彭琪媛,李津臣
受保护的技术使用者:云南中烟工业有限责任公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1151115.html

最新回复(0)