一种基于DNA链特异性的长链非编码RNA的综合鉴定方法

专利检索2025-08-01  20


本发明涉及高通量测序和生物信息技术分析领域,尤其涉及一种基于dna链特异性的长链非编码rna的综合鉴定方法。


背景技术:

1、长链非编码rna(long noncoding rna,lncrna)是一类长度大于200个核苷酸(nt)的生物分子,它们最初被认为是基因组的转录垃圾。近年来,通过比较基因组学、进化生物学、分子生物学和生物化学等方法,lncrna已经被发现有如下特征:广泛的类型和起源机制;转录水平低;缺乏或丧失蛋白质编码能力;可检测的序列保守性低;组织乃至细胞特异性强;分子功能和生物功能多样。一系列的序列、结构、功能乃至进化特征可以很好的将lncrna基因与其他基因,尤其是蛋白编码基因区分开来。已有很多研究表明,lncrna不仅与动物的生殖发育、多器官建成、代谢衰老和多种疾病进程紧密相关,也在植物的生长发育、信号转导,以及对生物和非生物胁迫的响应中扮演重要的角色。显然,系统地鉴定和筛选lncrna是开展lncrna研究的必要条件和重要基础。

2、随着下一代测序(next-generation sequencing,ngs)技术的发展和普及,转录组测序(rna sequencing,简称rna-seq)逐渐成为一种从转录水平回答生物学问题的成熟方法。转录组与蛋白质组、代谢组等等有机结合进而形成的多组学联合研究范式也变得越来越重要。实际上,无论是在动物植物微生物领域,全球科研人员上传至sequence readarchive(sra)等平台的公开可获取rna-seq数据非常庞杂。但是,海量的rna-seq数据并没有得到充分挖掘和利用,其中蕴藏着丰富的且未被解析的转录信息,尤其是lncrna。lncrna的转录本与蛋白编码基因的信使mrna的结构模块相似,也具有5'帽子、3'poly a尾巴、外显子、内含子、utr。那么,基于poly a的rna-seq技术就可以同时捕捉到mrna和lncrna转录本。并且最近很多研究表明,在蛋白编码基因之间存在的基因间lncrna(lincrna),以及与很多蛋白编码基因转录方向相反的天然反义转录lncrna在动植物的生物学进程中发挥重要作用。所以,通过rna-seq细致挖掘新的lncrna转录本及其基因对于深入研究lncrna功能提供了机会。

3、本实验室诸多工作都涉及rna-seq及其下游的分子鉴定和表征,并已取得了一定成果(zheng et al.,2023;chang et al.,2020;yang et al.,2014)。lncrna的挖掘立足于上游的基础rna-seq数据处理流程,目前的很多方法都可以高质量地完成这一环节,而下游的非编码转录本筛选才是挖掘lncrna的关键。利用单一软件可以进行转录本的非编码能力的评估,进而剔除有蛋白质编码潜力的转录本,相关软件程序如cpat、cpc2、cnci等。但是,在实际的lncrna鉴定中仅依赖单一软件的预测结果必然是武断的。此外,还需要考察转录本的基因与蛋白编码基因的基因组相对位置、转录水平高低等因素。

4、lncrna鉴定工作如火如荼。结合国内外研究团队的相关优秀工作,下面重点介绍最近10年内几组lncrna的鉴定方法,表一对其进行了详细的比较和说明。(1)2014年,国际著名期刊genome biology报道的一项工作鉴定了一组有关水稻有性生殖的lncrna,其中只利用了一种非编码能力评估模型,并且没有考虑其他ncrna的存在(zhang et al.,2014)。(2)“plar”是一个非常完备的lncrna筛选方案,但关于序列特征的编码能力分析有所欠缺,亟需优化(hezroni et al.,2015)。(3)植物著名杂志the plant journal在2018年公布的一个鉴定水稻lncrna的方案比较完善(yuan et al.,2018),然而其过滤掉很多低转录水平的isoforms,并且似乎仅局限于水稻一个物种。(4)德国海德堡大学分子生物学中心的研究团队在国际顶刊nature报道了七种哺乳动物七种器官在不同发育过程中lncrna的动态变化(sarropoulos et al.,2019)。其中,相关鉴定流程忽略了rrnas、trnas、snornas、mirna等ncrna的过滤环节。(5)最近本实验室基于最新的青稞基因组,对黑色和白色青稞籽粒中沿发育梯度的rna-seq数据进行了lncrna的生物信息学挖掘,绘制了第一张包含青稞籽粒lncrnas的花青素合成途径图谱(zheng et al.,2023)。显然,很多lncrna筛选方案或多或少都没有彻底把握lncrna的基本特征,直接影响lncrna的鉴定数目和质量(cai et al.,2021;di et al.,2022;huang et al.,2024)。

5、综上所述,由于目前有关lncrna的筛选策略不够全面、不够完善,还存在很大的优化空间,另外也不易将其推广至人、哺乳动物及植物等所有生物中。

6、【参考文献】

7、[1]chang,s.;chen,y.;jia,s.;li,y.;liu,k.;lin,z.;wang,h.;chu,z.;liu,j.;xi,c.;et al.auxin apical dominance governed by the osasp1-ostif1 complexdetermines distinctive rice caryopses development on different branches.plosgenetics 2020,16,1–22,doi:10.1371/journal.pgen.1009157.

8、[2]yang,y.;guo,j.;yan,p.;li,y.;liu,k.;gao,p.;zhao,h.;chen,y.;wang,y.;timko,m.p.;et al.transcriptome profiling identified multiple jasmonate zim-domain proteins involved in the regulation of alkaloid biosynthesis intobacco by-2cells.plant molecular biology reporter 2015,33,153–166,doi:10.1007/s11105-014-0740-2.

9、[3]zhang,y.c.;liao,j.y.;li,z.y.;yu,y.;zhang,j.p.;li,q.f.;qu,l.h.;shu,w.s.;chen,y.q.genome-wide screening and functional analysis identify a largenumber of long noncoding rnas involved in the sexual reproduction ofrice.genome biology 2014,15,512,doi:10.1186/s13059-014-0512-1/figures/7.

10、[4]hezroni,h.;koppstein,d.;schwartz,m.g.;avrutin,a.;bartel,d.p.;ulitsky,i.principles of long noncoding rna evolution derived from directcomparison of transcriptomes in 17species.cell reports 2015,11,1110–1122,doi:10.1016/j.celrep.2015.04.023.

11、[5]yuan,j.;li,j.;yang,y.;tan,c.;zhu,y.;hu,l.;qi,y.;lu,z.j.stress-responsive regulation of long non-coding rna polyadenylation in oryzasativa.plant journal 2018,93,814–827,doi:10.1111/tpj.13804.

12、[6]sarropoulos,i.;marin,r.;cardoso-moreira,m.;kaessmann,h.developmental dynamics of lncrnas across mammalian organs andspecies.nature 2019,571,510–514,doi:10.1038/s41586-019-1341-x.

13、[7]zheng,k.;wu,x.;xue,x.;li,w.;wang,z.;chen,j.;zhang,y.;qiao,f.;zhao,h.;zhang,f.;et al.transcriptome screening of long noncoding rnas and theirtarget protein-coding genes unmasks a dynamic portrait of seed coatcoloration associated with anthocyanins in tibetan hullessbarley.international journal of molecular sciences 2023,24,10587,doi:10.3390/ijms241310587.

14、[8]cai d,han jj.aging-associated lncrnas are evolutionarily conservedand participate in nfκb signaling.nat aging.2021may;1(5):438-453.doi:10.1038/s43587-021-00056-0.

15、[9]di marsico m,paytuvi gallart a,sanseverino w,aiese ciglianor.greenc 2.0:a comprehensive database of plant long non-coding rnas.nucleicacids res.2022jan 7;50(d1):d1442-d1447.doi:10.1093/nar/gkab1014.

16、[10]huang w,xiong t,zhao y,heng j,han g,wang p,zhao z,shi m,li j,wangj,wu y,liu f,xi jj,wang y,zhang qc.computational prediction and experimentalvalidation identify functionally conserved lncrnas from zebrafish tohuman.nat genet.2024jan;56(1):124-135.doi:10.1038/s41588-023-01620-7.


技术实现思路

1、为了克服上述现有lncrna筛选技术存在的不足,本发明借助转录组学手段并融合生物信息学方法,提供一种基于dna链特异性,并系统鉴定lncrna的策略方法及思路,解决现有技术中对转录本的筛选不够精准和适用范围较窄的问题,将多个分析模型和数据库有机联用,深度优化lncrna鉴定流程,大幅提高挖掘lncrna转录本的能力和准确度。

2、本发明采用的技术方案是:一种基于dna链特异性的长链非编码rna的综合鉴定方法,包括如下步骤:

3、s1:构建目标转录本筛选池子;

4、s2:依据lncrna基本特征评估候选转录本的lncrna忠实性,获得lncrna基因的转录本;

5、s3:根据候选lncrna的核酸序列,分析长链非编码转录本的基本特征。

6、步骤s1中,构建目标转录本筛选池子包括:

7、s1.1:获取目标物种的rna-seq测序数据。rna-seq测序数据可以从不同网站获得,目前ncbi(national center for biotechnology information)下属的sra(sequenceread archive)是最重要的数据库。sra是ncbi定义的二代数据存储格式,ncbi官方推荐软件sra-tools可便捷的单独或批量下载测序数据文件。构建目标物种转录本筛选池的相关文件可包含单一物种的单一样本、不同样本、无生物重复、多生物重复。如果需要同时考察不同物种的lncrna,则需要分别构建池。

8、s1.2:对测序数据进行质量过滤。优选的,利用fastqc和fastx_toolkit软件进行质量控制,去除测序数据中的低质量reads。

9、s1.3:获取目标物种的基因组序列和注释信息。下面步骤以及s2、s3步骤需要使用物种的基因组序列及注释信息。不同物种已公布基因组相关数据可从ncbi下属的assembly中获得。此外,ensembl是一个涉及动植物微生物的基因组信息平台,支持比较基因组学、功能基因的相关研究。目标物种的基因组核酸序列、gtf/gff3注释信息、cds序列、蛋白质氨基酸序列均可从以上网站下载。

10、s1.4:组装目标物种的转录组。优选的,使用bowtie2软件构建基因组检索索引,随后联合tophat2与cufflinks软件将reads读段回帖至基因组并完成转录组组装(使用截断高斯分布模型)。

11、s1.5:计算转录本的fpkm值。优选的,根据样本类型和生物重复情况,对组装好的数据文件进行合并,使用cuffdiff对每个loci和其转录本进行定量分析,通过count值计算转录本的fpkm值(fragments per kilobase of transcript per million fragments)。另外,整理reads成功映射的已注释蛋白编码基因对应转录本数量。

12、步骤s2中,依据lncrna基本特征评估候选转录本的lncrna忠实性,包括但不限于以下内容:

13、s2.1:排除与蛋白编码基因完全重叠的转录本;

14、lncrna的产生机制多样,可以从蛋白编码基因位点产生,可依赖转座产生,可从其他lncrna基因复制产生,也可在dna序列中从头产生。这就造成了lncrna与蛋白质蛋白编码基因转录本完全重叠或部分重叠的现象。为了减少数据分析压力,必须先剔除与已经注释蛋白编码基因完全重叠的转录本。优选的,依据cuffcompare提取目标转录本并合并。

15、s2.2:依据核酸序列长度过滤转录本;

16、长链非编码rna以其长度特征与其他非编码转录本区分开来,且一般认定lncrna的长度不小于200nt。手动编写python脚本过滤长度小于200nt的isoforms。

17、s2.3:根据表达水平进行转录本筛选;

18、由于lncrna的转录水平较低,所以根据cuffdiff对转录本的定量结果,保留定量正常的isoforms且fpkm≥0.1。其他方法中,这一相关参数阈值往往过高。

19、步骤s2.4-2.6从三个角度综合判别dna链特异性编码潜能,过滤编码基因转录本。

20、s2.4:基于物种基因组特征评估编码潜力;

21、特殊的进化和产生机制可以给lncrna序列带来一些不同于蛋白编码基因的特征。首先,考虑到不同物种基因组特征存在或多或少的差异,故以目标物种基因组的内在编码区列和非编码序列为基础构建逻辑回归模型,利用cpat软件计算物种基因组特异的codingprobability cutoff score和performance,进而对转录本进行筛选。现有很多鉴定流程中,并没有使用针对物种基因组特异的cutoff,即不同物种依然使用相同cutoff值(如huang et al.,2024)。

22、s2.5:基于序列内在特征评估编码潜力;

23、需要详尽地分析序列的内在特征以区别编码基因转录本,考察序列的fickettscore、orf长度、orf完整性和等电点,使用cpc2软件评估转录本编码潜力。再次,逐一计算isoforms的开放阅读框orf长度和gc含量(lgc软件),判定转录本的蛋白编码潜力。其他方法中,没有将物种特异的基因组特征和转录本序列的自身gc含量特征合并分析。

24、s2.6:基于蛋白结构域特征评估编码潜力;

25、有研究发现一些lncrna可以编码几十多个氨基酸小肽,但本发明只关注传统意义的不翻译任何肽段的lncrna。依据简并的三联密码子规则得到转录本假定的氨基酸序列,并利用blast算法与蛋白质数据库pfam进行比对,评估转录本中潜在的蛋白结构域。

26、s2.7:根据转录本的一级序列和预测的二级结构,过滤其他非编码rna转录本,包括rrna、trna、snorna、snrna和mirna前体;

27、作为一种优选方案,首先使用cmscan程序和rna数据库rfam分析转录本,以过滤rrna、trna、snorna、snrna和mirna前体。为了进一步考察剩余潜在mirna前体序列,基于microrna数据库mirbase使用blast算法对转录本的一级序列进行比对,随后利用mirena和rnafold软件验证筛选到的mirna前体转录本。这里,计算了rna分子的最小自由能并预测二级结构,根据空间结构相似性过滤潜在的mirna前体。利用打包perl脚本可对转录本进行分析,最终所保留的成员即为lncrna基因的转录本序列。

28、步骤s3中,根据候选lncrna的核酸序列,分析非编码转录本的基本特征,包括但不限于以下内容:

29、s3.1:lncrna的类型与数目统计;

30、基于rna-seq数据,可将lncrna分为几类:天然反义转录lncrna(naturalantisense transcripts,nats);基因间lncrna(lincrnas);重叠的lnrna(overlappinglnrnas,ot-lncrnas)等。使用feelnc对lncrna进行分类。其他方法中忽视了对反义转录lncrna的分类及其重要性。

31、s3.2:lncrna的序列特征描述;

32、统计lncrna的长度、gc含量及外显子数目。

33、与现有技术相比,本发明的有益效果:

34、本发明所提供的一种基于dna链特异性的长链非编码rna的综合鉴定方法,涉及生物信息技术分析领域,具体包括:首先以rna-seq数据为基础构建目标转录本筛选池子;为了强化转录本的lncrna忠实性,特别放低了isoforms的转录水平,综合物种基因组特征、序列内在特征和蛋白结构域特征评估dna链特异性编码潜力,并开创地结合一级序列和二级结构考察转录本中潜在的其他非编码rna序列,进而评估候选转录本的lncrna忠实性;最后根据候选lncrna的核酸序列,简单比较分析lncrna的基本特征。一方面,本方法适用于分析所有生物类型所有样本的rna-seq数据,普适性强。另外一方面,本方法从全转录组水平实现对生物样本中lncrna的系统鉴定研究,最大程度地使转录本贴合lncrna基本特征,解决了现有技术中lncrna鉴定方法不全面不忠实的问题。使用本发明方法鉴定出的lncrna数量是一个已发表方法的1.33倍,挖掘出的全新lncrna是其原有数量的30%,大幅提高了挖掘lncrna转录本能力和准确度。

35、表一lncrna忠实度评估策略对比

36、

37、注:○为存在,x为不存在。


技术特征:

1.一种基于dna链特异性的长链非编码rna的综合鉴定方法,包括如下步骤:

2.如权利要求1所述的综合鉴定方法,其特征在于,步骤s1包括:

3.如权利要求2所述的综合鉴定方法,其特征在于,步骤s1.2中利用fastqc和fastx_toolkit软件去除低质量reads和reads中的接头;步骤1.4中使用bowtie2软件构建基因组检索索引,然后联合软件tophat2与cufflinks将reads读段回帖至基因组并完成转录组组装。

4.如权利要求1所述的综合鉴定方法,其特征在于,在步骤s2中,基于物种基因组特征的评估方法是:利用cpat软件计算目标物种基因组特异的coding probability cutoffscore和performance,进而对转录本进行筛选,保留非编码转录本。

5.如权利要求1所述的综合鉴定方法,其特征在于,在步骤s2中,基于序列内在特征的评估方法包括:使用cpc2软件考察序列的fickett score、orf长度、orf完整性和等电点,计算coding probability得分;使用lgc软件计算序列的gc含量和orf长度,判定转录本的coding potential得分;同时满足coding probability<0.5和coding potential<0的序列为非编码转录本。

6.如权利要求1所述的综合鉴定方法,其特征在于,在步骤s2中,基于蛋白结构域特征的评估方法是:依据简并的三联密码子规则得到转录本假定的氨基酸序列,并利用blast算法将其与蛋白质数据库pfam进行比对,评估转录本中潜在的蛋白结构域。

7.如权利要求1所述的综合鉴定方法,其特征在于,在步骤s2的最后一步,先使用rna数据库rfam和microrna数据库mirbase分析转录本,以过滤rrna、trna、snorna、snrna和mirna前体;进一步考察剩余潜在mirna前体序列,使用blast算法对转录本的一级序列进行比对,随后利用mirena和rnafold软件计算rna分子的最小自由能并预测二级结构,根据空间结构相似性过滤潜在的mirna前体;利用打包perl脚本所保留的成员即为lncrna基因的转录本。

8.如权利要求1所述的综合鉴定方法,其特征在于,步骤s3包括:

9.如权利要求8所述的综合鉴定方法,其特征在于,步骤s3.1中使用feelnc对lncrna进行分类,包括:天然反义转录lncrna、基因间lncrna、重叠的lnrna。


技术总结
本发明公开了一种基于DNA链特异性的长链非编码RNA的综合鉴定方法,包括:构建目标转录本筛选池子;为强化转录本的lncRNA忠实性,特别放低了isoforms的转录水平,综合物种基因组特征、序列内在特征和蛋白结构域特征评估DNA链特异性编码潜力,并开创地结合一级序列和二级结构考察转录本中潜在的其他非编码RNA序列;最后根据候选lncRNA的核酸序列分析其基本特征。本方法适用于分析所有生物类型所有样本的RNA‑seq数据,普适性强;最大程度地使转录本贴合lncRNA基本特征,解决了现有技术中lncRNA鉴定方法不全面不忠实的问题。与现有技术相比,本发明大幅提高了挖掘lncRNA转录本能力和准确度,为后续深入开展lncRNA的功能及机制研究提供技术支撑与参考方法。

技术研发人员:韩生成,张凡凡,王英典,郑凯峰
受保护的技术使用者:北京师范大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1157236.html

最新回复(0)