本发明涉及生物信息学,特别涉及一种微生物-药物关联预测方法。
背景技术:
1、微生物在人体中扮演着重要的角色,被称为人体的“被遗忘”的器官。它们对我们的健康起着保护作用,包括抵御病原体、改善代谢能力和增强免疫力。然而,当微生物群落中出现有益功能缺失或者有害功能存在时,它们可能对健康和疾病产生重要影响。微生物群落中有益功能缺失,有害微生物的活动会导致某些疾病。然而,在治疗过程中使用抗生素可能会对微生物群落产生附带损害,例如,一种难辨梭状芽孢杆菌(clostridiumdifficile)感染与有益微生物功能缺失和多样性下降有关;一些研究表明,肥胖与拟杆菌门的显著减少和厚壁菌门的增加有关;2型糖尿病患者中,厚壁菌门也会减少。为了治疗这些疾病,一般使用抗生素来恢复有益功能的缺失和消除有害微生物的活动。然而,由于抗生素的过度使用,会导致微生物产生耐药性,不仅会降低抗生素的疗效,还对人类健康带来威胁。经过研究超过70%的细菌对至少一种常见抗生素具有耐药性。因此目前急需识别微生物-药物(microbe-drug)之间的关联以尽量对人体健康减少损害,同时微生物-药物(microbe-drug)之间的关联能够指导针对具有耐药性的微生物寻找新的药物组合和进行药物重定位。
2、除了微生物在调节疾病和健康中的作用外,它们还可能参与调控药物的活性和毒性。一些研究表明,微生物群落对药物的活性和毒性起着关键作用。例如,某些微生物增加地高辛的毒性,降低吗啡的清除率,使某些铜绿假单胞菌的吗啡auc升高,使辛伐他汀曲线下面积(auc)升高221%,改变华法林的活性,增加伊立替康的毒性。然而,目前我们对微生物与药物之间的关联机制了解还不够,因此无法了解为什么某些药物在某些人群中表现出良好的反应,而其他药物可能会引起副作用。因此,目前需要深入研究微生物与药物之间的相互作用,以便更好地理解它们在人体中的作用,并有助于指导开发更个体化和高效的治疗药物。
3、传统方式通过合成和评估数百至数千个化合物的活性,证明生物活性、选择性和生物利用度以及低毒性的实验验证微生物药物关联关系,然而这种方式一般需要持续几年的时间进行实验,费时费力,因此目前获取微生物-药物关联关系的方法还存在效率低、成本高的问题。
技术实现思路
1、本发明目的是为了解决现有获取微生物-药物关联关系的方法还存在效率低、成本高的问题而提出了一种微生物-药物关联预测方法。
2、一种微生物-药物关联预测方法具体过程为:
3、步骤一、获取已知关联关系的微生物-药物关联数据集,并构建微生物-药物关联矩阵a;
4、步骤二、利用微生物-药物关联矩阵a获取微生物高斯相互作用谱核相似度矩阵mg和药物高斯相互作用谱核相似度矩阵dg;
5、步骤三、获取微生物-药物关联数据集中包含的药物和微生物,获取药物间结构相似性矩阵ds和微生物间的序列相似性矩阵ms;
6、步骤四、利用步骤二获得的矩阵mg和步骤三获得的矩阵ms获取微生物融合相似性矩阵mf,利用步骤二获得的矩阵dg和步骤三获得的矩阵ds获取药物融合相似性矩阵df;
7、步骤五、利用步骤一获得的微生物-药物关联矩阵a将矩阵mf和df拼接,获得关联特征矩阵x;
8、步骤六、利用矩阵x训练vae-gan模型,然后对vae-gan模型微调,从而获得微生物潜在非线性特征矩阵mv和药物潜在非线性特征矩阵dv.;
9、步骤七、取微生物-药物关联矩阵a的前k个最大主对角元素构建对角矩阵a′,采用奇异值分解方法svd对矩阵a′分解获得微生物线性特征矩阵vk和药物线性特征矩阵uk;
10、步骤八、将步骤一获得的微生物-药物关联矩阵a、步骤六获得的dv和mv.、步骤七获得的vk和uk串联获得最终嵌入特征,将最终嵌入特征作为第二训练集,利用第二训练集训练mlp模型,获得训练好的mlp模型;
11、步骤九、获取待预测关联关系的药物和微生物,获得待预测关联关系药物的潜在非线性特征矩阵和线性特征矩阵,获取待预测关联关系微生物的潜在非线性特征矩阵和线性特征矩阵,将微生物-药物关联矩阵a、待预测关联关系的药物潜在非线性特征矩阵和线性特征矩阵、待预测关联关系微生物的潜在非线性特征矩阵和线性特征矩阵关联,获得待预测关联关系药物-微生物的最终嵌入特征,将待预测关联关系药物-微生物的最终嵌入特征输入到训练好的mlp模型中,获得待预测关联关系的药物和微生物的关联关系。
12、进一步地,所述步骤一中的获取已知关联关系的微生物-药物关联数据集,并构建微生物-药物关联矩阵a,具体为:
13、
14、其中,a(i,j)是矩阵a中的第i行第j列元素,nd是药物种类数量,nm是微生物种类数量,di是第i个药物,mj是第j个微生物。
15、进一步地,所述步骤二中的利用微生物-药物关联矩阵a获取微生物高斯相互作用谱核相似度矩阵mg和药物高斯相互作用谱核相似度矩阵dg,具体为:
16、
17、
18、
19、
20、其中,mg(mj,mj′)是第j个微生物和第j′个微生物的高斯相互作用谱核相似度,dg(di,di′)是第i个药物和i′个药物的高斯相互作用谱核相似度,ηm是归一化的微生物核宽带,ηd是归一化的药物核宽带,η′m是原始微生物核宽带,η′d是原始药物核宽带,是矩阵a第j列向量,是矩阵a第j′列向量,是矩阵a第i行向量,是矩阵a第i′行向量。
21、进一步地,所述步骤三中的获取药物间结构相似性矩阵ds和微生物间的序列相似性矩阵ms,具体为:
22、步骤三一、获取药物化学式,并将药物化学式输入到smiles系统中,获得药物间结构相似性矩阵ds:
23、
24、其中,ds(di,di′)是药物di与药物di′间的结构相似性;
25、步骤三二、从string v11数据库检索到微生物的蛋白质序列间的相似度ms(mj,mj′),从而获得微生物间的序列相似性矩阵ms。
26、进一步地,所述步骤四中的利用步骤二获得的矩阵mg和步骤三获得的矩阵ms获取微生物融合相似性矩阵mf,利用步骤二获得的矩阵dg和步骤三获得的矩阵ds获取药物融合相似性矩阵df,具体为:
27、
28、
29、其中,df(di,di′)是药物di与药物di′的融合相似性,mf(mj,mj′)是微生物mj与微生物mj′的融合相似性。
30、进一步地,所述步骤五中的利用步骤一获得的微生物-药物关联矩阵a将矩阵mf和df拼接,获得关联特征矩阵x,具体为:
31、
32、其中,是df的第i行药物特征,是mf的第j行微生物特征,为和通过关联矩阵a串联组合,xi′是矩阵x的第i′行。
33、进一步地,所述步骤六中的利用矩阵x训练vae-gan模型,然后对vae-gan模型微调,从而获得微生物潜在非线性特征矩阵mv和药物潜在非线性特征矩阵dv.,具体为:
34、步骤六一、建立vae-gan模型;
35、所述vae-gan模型包括:生成器、判别器;
36、所述生成器为变分自编码器vae,包括:编码层、解码层;
37、所述编码器层利用矩阵x进行变分操作获得中间层隐向量z,并将中间层隐向量z发送给解码层;
38、所述利用矩阵x进行变分操作获得中间层隐向量z,具体为:
39、z=μ+e*exp(ε)
40、ε=logσ2
41、μ=encoder(x)=f1(x)
42、σ2=encoder(x)=f2(x)
43、其中,μ是矩阵x中数据的均值,ε是中间变量,σ2是矩阵x中数据的方差,f1()是编码层中均值的前向传播函数,f2()是编码层中方差的前向传播函数,e是方差对数,e服从标准高斯分布n(0,1);
44、中间层隐向量z的空间分布为:
45、
46、其中,p(z|x)指的是隐向量z的条件概率分布,p(x)是矩阵x中数据的分布,p(z)是中间层隐向量的空间分布;
47、所述解码层利用中间层隐向量z对矩阵x重构,获得重构后的矩阵x′,并将x′发送给判别器;
48、所述利用中间层隐向量z对矩阵x重构,获得重构后的矩阵x′,具体为:
49、x′=decoder(z)=f3(z)
50、其中,f3()是编码层到解码层的前向传播函数;
51、所述判别器为wgan-gp的判别器;所述判别器用于判别x′的是真实数据的概率估计,具体为:
52、vp=dis({x,x′},{c,c′})
53、其中,dis()表示判别器对输入数据的预测,vp是样本是真实数据的概率估计,c是x的真实标签,c′是生成器生成数据的标签,x′是生成器生成的数据;
54、步骤六二、利用矩阵x训练vae-gan模型,获得训练好的vae-gan模型;
55、训练编码层的损失函数,具体为:
56、
57、其中,losskl是编码层的损失函数;
58、训练解码层的损失函数,具体为:
59、
60、其中,lossrecon是解码层的损失函数;
61、训练判别器的损失函数,具体为:
62、
63、其中,λ是惩罚系数,表示来自真实数据分布和生成数据分布之间均匀采样获得的数据点,表示判别器对的梯度;
64、步骤六三、将矩阵x中的数据作为第一训练集中的正例样本,随机获取与正例样本数量相同的负例样本,将正例样本和负例样本两两拼接构成第一训练集,利用第一训练集对训练好的vae-gan模型中的生成器再次训练,将再次训练好的vae-gan模型作为微调后的生成器;
65、步骤六四、将与矩阵x大小相同的随机噪声矩阵输入到微调后的vae-gan模型获取微生物潜在非线性特征矩阵mv和药物潜在非线性特征矩阵dv.;
66、所述随机噪声矩阵由从-1到1均匀分布的随机数组成。
67、进一步地,利用第一训练集对训练好的vae-gan模型中的生成器再次训练采用以下损失函数:
68、
69、xf=connecting({xknown,xunknown},{c1,c0})
70、其中,g(xknown)表示生成器对已知关联数据的再生成;g(xunknown)表示生成器对未知关联数据的再生成,xf是第一训练集,xknown是第一训练集中的正例样本,xunknown是第一训练集中的负例样本,c1是第一训练集中的正例样本的标签,c0是第一训练集中的负例样本的标签。
71、进一步地,所述步骤七中的取微生物-药物关联矩阵a的前k个最大主对角元素构建对角矩阵a′,采用奇异值分解方法svd对矩阵a′分解获得微生物线性特征矩阵vk和药物线性特征矩阵uk,具体为:
72、
73、其中,uk是药物线性特征矩阵,vk是微生物线性特征矩阵,∑k是a′的奇异值矩阵,k是矩阵分解维度。
74、进一步地,所述步骤八中的将步骤一获得的微生物-药物关联矩阵a、步骤六获得的dv和mv.、步骤七获得的vk和uk串联获得最终嵌入特征,将最终嵌入特征作为第二训练集,利用第二训练集训练mlp模型,获得训练好的mlp模型,具体为:
75、步骤八一、将矩阵a、uk与dv串联获得药物最终嵌入特征矩阵zd,将a、vk与mv.串联获得微生物最终嵌入特征矩阵zm,利用zd和zm获取最终稿嵌入特征矩阵t:
76、
77、zd=connecting(uk,a,dv)
78、zm=connecting(vk,at,mv)
79、其中,zd是药物最终嵌入特征矩阵,zm是微生物最终嵌入特征矩阵,是zd中的第i行,是zm中的第j行,tij是药物di和微生物mj关联后的最终嵌入特征;
80、步骤八二、将最终嵌入特征矩阵t作为第二训练集,利用第二训练集训练mlp模型,将训练好的mlp作为微生物-药物关联预测模型;
81、利用第二训练集训练mlp模型,具体为:
82、tl=relu(tl-1wl+bl)
83、
84、其中,l是隐藏层的层数;tl是第l层隐藏层的输出,wl是第l层隐藏层可学习参数矩阵,bl是第l层隐藏层偏置,是微生物-药物关联预测分数;
85、训练mlp模型采用如下损失函数:
86、
87、其中,yij是第二训练集中的正例样本标签,表示预测为正例样本的概率,1-yij是第二训练集中的负例样本标签,表示预测为负例样本的概率,n是第二训练集中的微生物-药物关联对总数目,y+表示第二训练集中正例样本标号集合,y-是第二训练集中负例样本标号集合。
88、本发明的有益效果为:
89、本发明采用由微生物高斯相互作用谱核相似性与微生物序列相似性相融合的方法得到微生物融合相似性矩阵;由药物结构相似性与药物高斯相互作用谱核相似性相融合的方法得到药物融合相似性矩阵,两种相似性的融合填补了潜在的关联信息。本发明的vae通过约束隐变量z服从标准正态分布(kl散度)以及重构数据实现了转换映射,从而通过数据的潜在分布提取了数据的潜在特征;本发明提出的vae-gan模型结合了vae和gan的优点,能够在稳定模型训练的同时,对数据的潜在分布有更好的控制,使得提取潜在特征更高效,从而提升了获取微生物-药物关联关系的效率。本发明用vae-gan提取非线性特征,用奇异值分解得到线性特征,把线性特征、非线性特征与关联矩阵拼接嵌入到具有两个隐藏层的多层感知机中,在不丢失原始信息的基础上串联潜在的线性与非线性特征,进一步揭示了隐藏在数据之下的未知关联关系,本发明无需通过大量实验获取微生物和药物之间的关联关系,降低了实验成本。
1.一种微生物-药物关联预测方法,其特征在于所述方法具体过程为:
2.根据权利要求1所述的一种微生物-药物关联预测方法,其特征在于:所述步骤一中的获取已知关联关系的微生物-药物关联数据集,并构建微生物-药物关联矩阵a,具体为:
3.根据权利要求2所述的一种微生物-药物关联预测方法,其特征在于:所述步骤二中的利用微生物-药物关联矩阵a获取微生物高斯相互作用谱核相似度矩阵mg和药物高斯相互作用谱核相似度矩阵dg,具体为:
4.根据权利要求3所述的一种微生物-药物关联预测方法,其特征在于:所述步骤三中的获取药物间结构相似性矩阵ds和微生物间的序列相似性矩阵ms,具体为:
5.根据权利要求4所述的一种微生物-药物关联预测方法,其特征在于:所述步骤四中的利用步骤二获得的矩阵mg和步骤三获得的矩阵ms获取微生物融合相似性矩阵mf,利用步骤二获得的矩阵dg和步骤三获得的矩阵ds获取药物融合相似性矩阵df,具体为:
6.根据权利要求5所述的一种微生物-药物关联预测方法,其特征在于:所述步骤五中的利用步骤一获得的微生物-药物关联矩阵a将矩阵mf和df拼接,获得关联特征矩阵x,具体为:
7.根据权利要求6所述的一种微生物-药物关联预测方法,其特征在于:所述步骤六中的利用矩阵x训练vae-gan模型,然后对vae-gan模型微调,从而获得微生物潜在非线性特征矩阵mv和药物潜在非线性特征矩阵dv,具体为:
8.根据权利要求7所述的一种微生物-药物关联预测方法,其特征在于:利用第一训练集对训练好的vae-gan模型中的生成器再次训练采用以下损失函数:
9.根据权利要求8所述的一种微生物-药物关联预测方法,其特征在于:所述步骤七中的取微生物-药物关联矩阵a的前k个最大主对角元素构建对角矩阵a′,采用奇异值分解方法svd对矩阵a′分解获得微生物线性特征矩阵vk和药物线性特征矩阵uk,具体为:
10.根据权利要求9所述的一种微生物-药物关联预测方法,其特征在于:所述步骤八中的将步骤一获得的微生物-药物关联矩阵a、步骤六获得的dv和mv、步骤七获得的vk和uk串联获得最终嵌入特征,将最终嵌入特征作为第二训练集,利用第二训练集训练mlp模型,获得训练好的mlp模型,具体为: