基于互相关系数的rna二级结构序列相似性表达方法
【技术领域】
[0001 ]本发明设及新的Ξ维图像表示方法和互相关系数表征RNA二级结构序列的相似 性,具体讲的是新的Ξ维表示方法来表示RNA特征序列并且用互相关系数来刻画RNA二级结 构的相似程度,其属于序列相似性分析领域。
【背景技术】
[0002] 序列比对就是将序列间的碱基进行对齐,通过一定的打分机制使所得的分数最 高,其所得的分数反应了序列间的相似程度。目前序列比对的算法很多,大部分是采用动态 规划思想。化edleman和Wunsch在1970年最早提出双序列全局比对的化edleman-Wwunsch算 法,是一种动态规划算法,后来Smish和Waterman在1981提出双序列局部比对的Smish-Waterman算法。但是动态规划算法会随着序列数量的增加,序列比对的算法复杂性按指数 规律增长。
[0003] 近年来,非序列方法得到了非常迅速的发展,其最大的特点就是大大增加了计算 的效率。运种方法就是将序列看成一个整体并将其转化为数学对象来进行分析。一种方法 是将序列转化为代数对象,如数值序列、向量、矩阵等,利用现行代数概率统计等数学理论 进行研究。另一种方法是将序列曲线化,将序列相似性分析转化为曲线相似性分析的比较, 如DNA序列的二维表示和Ξ维表示。通过计算曲线间的差异将图形转化为矩阵,利用各个曲 线对应的矩阵不变量差异来刻画序列的相似性。此外还有采用信息论的方法,如Kolmogrov 复杂度法、Kul化ack-Leibler偏差法、概率法等。
[0004] DNA,RNA都有一级二级Ξ级结构。一级结构是指四种碱基的排列顺序。DNA的二级 结构是指两条脱氧多核巧酸链反向平行盘绕所形成的双螺旋结构。RNA二级结构是指RNA单 链自身回折形成的部分碱基对(baSe pairS)和单链交替的茎环结构,所W RNA二级结构比 DNA二级结构要复杂的多。DNA的Ξ级结构是指DNA中单链与双链、双链之间的相互作用形成 的Ξ链或四链结构。RNAS级结构则是由各二级结构单元(motif)之间相互作用并在空间中 形成稳定的定位和取向而构成.RNA的种类有主要有核糖体RNA,转移RNA W及信使RNA.他们 的主要功能是参与蛋白质的合成。因此,RNA二级结构的研究有助于了解它们W及蛋白质之 间的关系,更好的研究物种之间的关系。DNA本质上仅有一种功能即编码信息,而RNA含有很 多种类,其行使的功能也比DNA要多。后来发现的反义RNAW及具有催化作用的RNA细胞核小 分子RNA,核仁小分子RNA都具有重要的生物学功能和广阔的应用前景。
[000引用于计算RNA二级结构之间的相似性的算法很多。到目前为止,几乎所有的运种比 较是基于RNA的结构的比对:一个距离函数或一个得分函数用来插入,删除和字母替换用于 在被比较的结构之中。使用距离函数,可W计算出的RNA结构之间的相似性。
[0006]根据一些研究人员的对DNA序列的研究工作,廖和王提出用图表来表示RNA二级结 构,然后得出一些数值不变量,从图形来比较RNA二级结构。自那时W来,不同的图形表示方 法被广泛应用到研究RNA二级结构之间的相似性分析。图形表示的优点是,其数据具有可视 性,能够帮助识别RNA二级结构之间的主要区别。此外,根据该表示,一些数值特征被选择为 不变量应用到各种RNA二级结构的比较中。
[0007] 本专利主要研究RNA序列的相似性,首先将RNA序列转化为图形,我们在原有图形 表示的基础上,提出一种新的Ξ维的图形表示。然后从中提取出我们所需要的数值序列,最 后通过我们提出的互相关系数公式来分析九种病毒的相似性。
【发明内容】
[0008] 鉴于已有生产方法存在的缺陷,本发明提供本发明的目的在于提供基于互相关系 数的RNA二级结构序列相似性表达方法,首先,在原有的二维表示方法上,提出了一种新的 Ξ维表示方法,新的表示方法能够消除原有的表示方法的退化现象。然后,从新的表示图形 中,提取出数值特征-新定义的互相关系数来刻画RNA序列的相似性。新的Ξ维表示方法和 数值特征都能够很好的反应生物信息,防止生物信息的丢失。
[0009] 为实现上述目的,本发明所采用的方法是基于互相关系数的RNA二级结构序列相 似性表达方法,具体方法步骤如下:
[0010] S1、将RNA二级结构用RNA二级结构特征序列表示;
[0011] S2、将RNA二级结构特征序列中的每个碱基对应到Ξ维空间中的初始位置;
[0012] S3、利用碱基对应公式将每条RNA二级结构特征序列的碱基映射成Ξ维空间中的 一系列的点,将运些点按顺序连接得到RNA二级结构的Ξ维图形表示,该Ξ维图形表示是在 原有二维表示的基础上改进而得到的;
[0013] S4、将所有待比较的序列连接成一个长序列,并将长序列代入到S3中,得到长序列 的Ξ维图形表示;
[0014] S5、将每一条待比较的序列与S4中得到的长序列做比较,代入到互相关系数公式 中,得到每一条待比较的序列的相关系数;
[0015] S6、通过S5中所得到的相关系数求出两两待比较的序列之间的欧氏距离,用得到 的欧氏距离来表示RNA二级结构序列的相似性。
[0016] 所述S1中RNA二级结构特征序列是将RNA二级结构序列应用混浊游戏表示方法来 表示碱基,将碱基对中的碱基和自由基中的碱基用不同的方式来表示,同时按照前后碱基 之间的关系顺序得到RNA二级结构的特征序列,具体为:
[0017] 将RNA序列用一系列的碱基来表示,碱基对中的碱基用A,U,G,C来表示,而自由基 中的碱基用护1/表示,运样便可W得到RNA二级结构的特征序列;将每个碱基对应到Ξ 维空间中不同的初始位置,初始位置如下:
[0020]碱基对应公式为知瓜马)=((.Vi + .、)/ 2,妃1十私)/ 2,1-1巧,其中Xi,y i,Z i表示将 碱基表示成Ξ维空间的Ξ个维度的数值,Λ表示碱基代表的初始数值。
[002。 利用碱基对应公式(λ-,.,肛Ζ,·)=(知1 + .\ )/2,(义-1 +.V,, )/2,1-1/7)将每条RNA二级结构 特征序列的碱基映射成Ξ维空间中的一系列的点,将运些点按顺序连接可W得到RNA二级 结构的新的图形表示。原来的二维的序列表示只是一个二维的表示,其初始化公式如下:
[0024] 映射成二维空间中的点的公式为(.V·),,)=似,-1 +X、)/2,化1 +.1,,,)/巧。运是原有 的二维图形表示。在所有计算X、,的公式中,^,的计算公式如下:
[0025]
[0026] 在提取数值特征时,我们提取的是互相关系数,是在原有的自相关系数的基础上 提出的,自相关公式是自身序列与自身序列的自相关系数,公式为:
[0027]
[002引其中η=1,2,……10,hi是序列第i个碱基的坐标。每个序列都有10维的自相关系 数,加上序列中每个碱基的概率组成一个18维的向量,最后求得每个向量之间的欧氏距离 作为最后的数值特征来刻画相似度。
[0029] 自相关系数不能直观的反应出序列之间的关系,所W我们提出互相关系数来刻画 数值特征。在提取互相关系数时,首先将所有的要比较的序列连接成一个长序列;然后再求 出要比较的序列跟连接成的长序列之间的互相关系数,其中互相关系数公式为:
[0030]
[0031] 其中Nx是要比较的序列的长度,而Ny是连接成的长序列的长度,於是X序列上第i 个碱基的坐标,坐标就是Ξ维表示出的序列的坐标。最后求出两两之间的互相关系数的欧 氏距离,用其作为数值特征刻画相似程度。
[0032] 本发明与现有技术相比具有W下优点:
[0033] 1、新的Ξ维表示方法消除了原有表示方法的退化现象,能够使图形与序列一一对 应;
[0034] 2、新的数值特征公式比较简单,方便计算;
[0035] 3、将新的数值特征-互相关系数应用到RNA二级结构相似性分析中,采用了一定的 小波变换的思想,能更好的反映出两
序列之间的相似程度,能使提取数值特征更加简单。
[0036] 4将混浊游戏表示方法应用到RNA特征序列表示方法上,一是考虑了RNA特征序列 前后碱基之间的关系,二是,其表示方法唯一,能够消除二维表示方法的退化现象,序列与 图像是一一对应的关系,很方便提取数值特征。
【附图说明】
[0037] 图1 AIMV-3的结构图;
[003引图2 AIMV-3的二维图形表示;
[0039] 图3 AIMV-3的Ξ维图形表示;
[0040] 图4互相关系数表;
[0041] 图5 9种病毒相似程度表;
[0042] 图6本发明的结构简图。
【具体实施方式】
[0043] 本发明的实施例是在W本发明技术方案为前提下进行实施的,给出了详细的实施 方式和具体的操作过程,但本发明的保护范围不限于下述实施例。
[0044] 实施例1
[0045] 下面结合附图对本发明作进一步说明,详细步骤如下所示:
[0046] 步骤1:将RNA序列用一系列的碱基来表示,碱基对中的碱基和自由基用不同的方 法来表示,自由基碱基用A、U、G、C表示,碱基对中的碱基用y、IJ/、护、(/表示,由此可W得到 RNA二级结构的特征序列。如图1为AIMV-3的结构图,其特征序列为AUGClTC/A/lTG/C/A/ AAACU' G' C' A' U' G' A' AUGCC' C' C' UAAG' G' G' AUGC(从5'到3');
[0047] 步骤2:将每个碱基对应到Ξ维空间中不同的初始位置,对应初始位置如下:
[0050] 步骤3:利用碱基对应公式将每条RNA二级结构特征序列的碱基映射成Ξ维空间中 的一系列的点,将运些点按顺序连接可W得到RNA二级结构的新的图形表示,其映射公式为 (和乂.,马)=((.Vi + )/2,(义-1 + 於i)/2,1-1/〇。图2为AIMV-3的二维图形表示,图3为AIMV-3的 Ξ维图形表示,Ξ维图形表示是在原有二维表示的基础上改进而得到的。
[0051] 步骤4:将要比较的所有序列连接成一个新的长序列,并带入到S3中,可W得到其 Ξ维图形表示;
[0052] 步骤5:将要比较的每一条序列与S4中新的序列做比较,带入到新的提出的互相关 系数公式中,便可W得到每个相关系数,互相关系数公式如下:
[0053]
[0054] 步骤6:将所求得相关系数求出两两之间的欧氏距离,将得到的数值作为相似度来 刻画相似程度。
[00巧]实施例2
[0056] 步骤1:将9种RNA病毒用序列表示出来,自由基碱基用A、U、G、C表示,碱基对中的碱 基用A/、IJ/、护、C/表示,运样就可W将病毒RNA用特征序列表示出来;
[0057] 步骤2:将碱基初始化,初始化碱基如下:
[0060] 步骤3:将特征序列按照映射公式映射到Ξ维空间空的点上,其公式如下:
[0061]
[0062] 其中Λ.,y、'.公式如下
[0063]
[0064] -次连接Ξ维空间的点,运样就可将9种病毒RNA用图形表示出来。
[0065] 步骤4:将要比较的所有序列连接成一个新的长序列,并将要比较的每一条序列与 S4中新的序列做比较,带入到新的提出的互相关系数公式中,便可W得到每个相关系数,互 相关系数值见图4,互相关系数公式如下:
[0066]
[0067] 步骤5:将所求得相关系数求出两两之间的欧氏距离,将得到的数值作为相似度来 刻画相似程度,求得的欧氏距离见图5。
[0068] 由欧氏距离公式我们可W看出,九种病毒之间的欧氏距离越小,他们之间越相似。 由图5我们可W看出AVII与0比1?¥-3、(:^-3、11?1¥-3、6]\1¥-3之间的欧氏距离分别是0.0015、 0.0089、0.0076、0.0047,运些距离均小于0.01,同时4¥11与了5¥-3的欧式距离是0.0103,也 是比较接近于0.01,可W得出运6个物种之间是比较相似的,它们可归为一类。同时,AIMV-3 和APMV-3、PDV-3的欧氏距离分别为0.0099、0.0009、0.0090,它们之间的相似性比较高,被 归为一类。而现有的实验研究表明,运9种病毒中,AVII、CiLRV-3、CVV-3、LRMV-3、EMV-3、 了5¥-3是一类的,4加¥-3、4口1¥-3、口0¥-3是一类的,本文的结论与其是一致的,由此可^证明 本文的方法是可行的。
[0069] 综述所述,本发明提出了新的Ξ维的RNA二级结构的表示方法,能够消除退化现 象,使图形与序列一一对应。其次提出了新的数值特征-互相关系数来表示相似程度,在求 互相关系数的过程中,我们还采用了小波变换的思想,它能够反应出位置和频率的信息,能 更好的体现出两序列之间的相似程度。将方法应用到9种病毒的分类预测中,得到的结果与 现有的实验结果一致,证明了该方法的有效性。
[0070] W上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其 构思W等同替换或改变,都应涵盖在本发明的保护范围内。
【主权项】
1. 基于互相关系数的RNA二级结构序列相似性表达方法,其特征在于,步骤如下: 51、 将RNA二级结构用RNA二级结构特征序列表示; 52、 将RNA二级结构特征序列中的每个碱基对应到三维空间中的初始位置; 53、 利用碱基对应公式将每条RNA二级结构特征序列的碱基映射成三维空间中的一系 列的点,将这些点按顺序连接得到RNA二级结构的三维图形表示; 54、 将所有待比较的序列连接成一个长序列,并将长序列代入到S3中,得到长序列的三 维图形表示; 55、 将每一条待比较的序列与S4中得到的长序列做比较,代入到互相关系数公式中,得 到每一条待比较的序列的相关系数; 56、 通过S5中所得到的相关系数求出两两待比较的序列之间的欧氏距离,用得到的欧 氏距离来表示RNA二级结构序列的相似性。2. 根据权利要求1所述的基于互相关系数的RNA二级结构序列相似性表达方法,其特征 在于:所述Sl中RNA二级结构特征序列是将RNA二级结构序列应用混沌游戏表示方法来表示 碱基,将碱基对中的碱基和自由基中的碱基用不同的方式来表示,同时按照前后碱基之间 的关系顺序得到RNA二级结构的特征序列。3. 根据权利要求1所述的基于互相关系数的RNA二级结构序列相似性表达方法,其特征 在于:所述碱基对应公式为 (? ^yi?zi)= ((?-1 + ^) / :2, (yM +ysJt 2,1-1 / O; X1,yi,21表示将碱基表示成三维空间的三个维度的数值,气.3?表示碱基代表的初始数 值。4. 根据权利要求1所述的基于互相关系数的RNA二级结构序列相似性表达方法,其特征 在于:所述S5中互相关系数的公式为其中r是互相关系数,Nx是待 比较序列的长度,Ny是长序列的长度,Af是X序列上第i个碱基的坐标,坐标就是三维图像形 表示出的序列的坐标。
【专利摘要】本发明涉及序列相似性分析领域,设计了一种基于混沌游戏的新的RNA三维表示方法和基于互相关系数的RNA二级结构相似性分析。该方法在原有的二维表示方法上,提出了一种三维表示方法,新的表示方法能够消除原有的表示方法的退化现象。然后,从新的表示图形中,提取出数值特征-新定义的互相关系数来刻画RNA序列的相似性。最后,将该方法应用到9种RNA病毒上来分析方法的可行性。实验结果表明,我们的方法不仅具有可行性,而且从聚类分析的角度看,我们的实验室结果更有利于提取有效数据。
【IPC分类】G06F19/18
【公开号】CN105488358
【申请号】CN201510860771
【发明人】张强, 邢姗姗, 王宾, 魏小鹏
【申请人】大连大学
【公开日】2016年4月13日
【申请日】2015年12月1日