CRISPR脱靶效应预测方法与系统

专利检索2025-07-07  29


本发明涉及合成生物学基因编辑,尤其涉及一种crispr脱靶效应预测方法与系统。


背景技术:

1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。

2、clustered regularly interspaced short palindromic repeats(crispr)-crispr相关蛋白9(cas9)系统(crispr-cas9系统)是一种可应用于基因组工程的先进技术。它是一个双组分系统,其中cas9内切酶被引导到pam上游的dna靶序列,并与sgrna互补,允许靶序列的碱基被编辑。它有潜力应用于基因治疗和农业生产力。但是crispr-cas9系统脱靶问题很大。各种问题比如错误序列匹配,无法保证基因编辑的专一性。

3、通过诸如guide-seq、site-seq、circle-seq、digenome-seq等测序技术来量化脱靶的影响,可有助于优化crispr-cas9系统。虽然这些技术在准确性方面有很好的表现,但考虑到时间、金钱和劳动力成本,引入计算机方法来量化脱靶的影响可能会节省成本。此外,机器学习方法捕捉潜在特征的能力可以帮助研究人员提高crispr-cas9系统的效率和特异性。

4、利用人工特征和机器学习模型,上述研究取得了可喜的进展。此外,一些研究在两个方面进一步发展了脱靶效率预测的能力:(1)上述机器学习方法的输入主要是手工特征,有效地促进了机器学习的脱靶效率预测。然而,这些手工制作的特征可能会增加专门化和异构性,导致机器学习模型的泛化能力较弱。在仅使用序列特征的情况下,已有几个研究显示了良好的脱靶效应预测性能;(2)上述机器学习模型在挖掘数据特征和进行预测方面的能力仍然有限,一些研究表明深度学习模型具有更强的脱靶效应预测能力。然而,这些方法只考虑脱靶问题中的错配,而忽略了靶dna和引导rna序列之间的插入和缺失,这也影响了脱靶效应问题。

5、一些可以应用于indels的深度学习模型都在自己的实验中展示了它们的能力。然而,它们都使用或运算来人为地压缩目标上和目标外序列的编码,在一定程度上限制了输入特征的表示空间。同时,他们使用的模型具有相对较小的体系结构,限制了泛化能力和将其应用于具有不同特征的数据集的能力。综上所述,现有的脱靶效应预测模型仍有改进的空间。


技术实现思路

1、为了解决上述背景技术中存在的技术问题,本发明提供一种crispr脱靶效应预测方法与系统,本发明设计了一种脱靶效应预测模型,旨在通过在计算机技术层面上的改进来提高脱靶效应预测能力。

2、为了实现上述目的,本发明采用如下技术方案:

3、本发明的第一个方面提供一种crispr脱靶效应预测方法。

4、crispr脱靶效应预测方法,包括:

5、获取中靶脱靶序列对、中靶序列和脱靶序列;

6、对中靶脱靶序列对、中靶序列和脱靶序列均进行词嵌入编码和位置编码处理,得到中靶脱靶序列对特征、中靶序列特征和脱靶序列特征;

7、将中靶脱靶序列对特征、中靶序列特征和脱靶序列特征分别输入到三个网络分支中进行特征提取,得到第一特征、第二特征和第三特征;

8、将第一特征、第二特征和第三特征进行融合,经全连接层,得到预测值。

9、进一步地,进行所述词嵌入编码的过程包括:设定一个字典,将碱基和碱基对转换为词嵌入编码需要的词索引向量,通过嵌入层对所述词索引向量进行编码,得到词向量矩阵。

10、更进一步地,进行所述词嵌入编码的过程包括:在20位的靶点序列和3位的pam序列之上又加了一位,形成24位长度的碱基序列或碱基对序列,通过字典将24位长度的碱基序列或碱基对序列编码为词索引向量,通过嵌入层对所述词索引向量进行编码,得到词向量矩阵。

11、更进一步地,所述嵌入层采用以下公式编码:

12、ve=vi×m

13、其中,vi表示与词典中的序号对应的独热码编码的词索引向量,假设词典大小为sa,那么vi的形状为[24,sa];假设词嵌入长度为lb,那么嵌入层参数矩阵m的形状为[sa,lb],则嵌入层输出的词向量矩阵ve形状为[24,lb]。

14、更进一步地,进行所述位置编码的过程包括:对词向量矩阵进行位置编码,得到自适应离散信息间的距离的包含位置信息的编码。

15、进一步地,每个所述网络分支包括自注意力层和卷积层,通过自注意力层强化中靶脱靶序列对特征、中靶序列特征和脱靶序列特征,通过卷积层提取得到第一特征、第二特征和第三特征。

16、本发明的第二个方面提供一种crispr脱靶效应预测系统。

17、crispr脱靶效应预测系统,包括:

18、数据获取模块,其被配置为:获取中靶脱靶序列对、中靶序列和脱靶序列;

19、编码模块,其被配置为:对中靶脱靶序列对、中靶序列和脱靶序列均进行词嵌入编码和位置编码处理,得到中靶脱靶序列对特征、中靶序列特征和脱靶序列特征;

20、特征提取模块,其被配置为:将中靶脱靶序列对特征、中靶序列特征和脱靶序列特征分别输入到三个网络分支中进行特征提取,得到第一特征、第二特征和第三特征;

21、预测模块,其被配置为:将第一特征、第二特征和第三特征进行融合,经全连接层,得到预测值。

22、本发明的第三个方面提供一种计算机可读存储介质。

23、一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的crispr脱靶效应预测方法中的步骤。

24、本发明的第四个方面提供一种计算机设备。

25、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的crispr脱靶效应预测方法中的步骤。

26、本发明的第五个方面提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如第一个方面所述的crispr脱靶效应预测方法中的步骤。

27、与现有技术相比,本发明的有益效果是:

28、与其他可应用于indel的工作相比,本发明将中靶和脱靶序列对、中靶序列和脱靶序列,进行编码后输入到脱靶效应预测模型中,编码方式的目的是将特征从人工编码转换成脱靶效应预测模型中国的可自适应的词向量编码,从而减少人工编码造成的信息损失。

29、本发明采用的脱靶效应预测模型(crispr-m)的三个分支分别对应三个输入特征,即脱靶序列对特征、中靶序列特征和脱靶序列特征,每个分支分别基于卷积神经网络和循环神经网络处理各自对应的输入特征,三个分支的输出结果拼接后,经过几层全连接层处理后形成最后的输出。

30、本发明收集了多个种类的mismatch和indel的测试数据,并在单独indel、单独mismatch和mismatch与indel都有的测试集中进行了交叉验证,在roc、prc、斯皮尔逊系数、fscore等方面均表现出有竞争力的表现,甚至大幅优于最近的几个模型。

31、本发明对脱靶效应预测模型捕捉到的特征做了可视化分析,统计了不同位置的碱基替换对模型预测分数的影响,揭示了错配和indel对于脱靶效应的影响,验证了模型的有效性。


技术特征:

1.crispr脱靶效应预测方法,其特征在于,包括:

2.根据权利要求1所述的crispr脱靶效应预测方法,其特征在于,进行所述词嵌入编码的过程包括:设定一个字典,将碱基和碱基对转换为词嵌入编码需要的词索引向量,通过嵌入层对所述词索引向量进行编码,得到词向量矩阵。

3.根据权利要求2所述的crispr脱靶效应预测方法,其特征在于,进行所述词嵌入编码的过程包括:在20位的靶点序列和3位的pam序列之上又加了一位,形成24位长度的碱基序列或碱基对序列,通过字典将24位长度的碱基序列或碱基对序列编码为词索引向量,通过嵌入层对所述词索引向量进行编码,得到词向量矩阵。

4.根据权利要求3所述的crispr脱靶效应预测方法,其特征在于,所述嵌入层采用以下公式编码:

5.根据权利要求2-4任一项所述的crispr脱靶效应预测方法,其特征在于,进行所述位置编码的过程包括:对词向量矩阵进行位置编码,得到自适应离散信息间的距离的包含位置信息的编码。

6.根据权利要求1所述的crispr脱靶效应预测方法,其特征在于,每个所述网络分支包括自注意力层和卷积层,通过自注意力层强化中靶脱靶序列对特征、中靶序列特征和脱靶序列特征,通过卷积层提取得到第一特征、第二特征和第三特征。

7.crispr脱靶效应预测系统,其特征在于,包括:

8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的crispr脱靶效应预测方法中的步骤。

9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的crispr脱靶效应预测方法中的步骤。

10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1-6中任一项所述的crispr脱靶效应预测方法中的步骤。


技术总结
本发明涉及合成生物学基因编辑技术领域,提供了一种CRISPR脱靶效应预测方法与系统。该方法包括,获取中靶脱靶序列对、中靶序列和脱靶序列;对中靶脱靶序列对、中靶序列和脱靶序列均进行词嵌入编码和位置编码处理,得到中靶脱靶序列对特征、中靶序列特征和脱靶序列特征;将中靶脱靶序列对特征、中靶序列特征和脱靶序列特征分别输入到三个网络分支中进行特征提取,得到第一特征、第二特征和第三特征;将第一特征、第二特征和第三特征进行融合,经全连接层,得到预测值。

技术研发人员:刘健,孙嘉良,陈娇
受保护的技术使用者:南开大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1156004.html

最新回复(0)