一种埃博拉病毒gp基因的分子进化分析方法
【技术领域】
[0001] 本发明设及病毒基因进化分析技术领域,更具体的设及一种埃博拉病毒GP基因的 分子进化分析方法。
【背景技术】
[0002] 埃博拉出血热是一种由负链RNA病毒引起的致死性极高的流行病,埃博拉病是由 于1976年首次在刚果共和国爆发,因此W其附近的埃博拉河命名。2014年在西非包括尼日 利亚、利比亚、几内亚和塞内加尔等国家爆发了历史上最严重的一次埃博拉出血热,被世界 卫生组织列为"国际关注的突发公共卫生事件"。埃博拉出血热的致死率高达90%,患者多 表现为出血热和多器官衰竭,由埃博拉病毒引起。埃博拉病毒和马尔堡病毒一起属于线状 病毒类。目前为止,对埃博拉出血热没有标准的治疗方法,支持性治疗是目前唯一的有效策 略,与此同时也没有有效的疫苗。
[0003] 埃博拉病毒是一个单股负链RNA病毒,目前根据爆发的地点分为五个亚型:苏丹埃 博拉巧B0V-S),泰国森林埃博拉化B0V-T),本迪布焦埃博拉巧B0V-B),扎伊尔埃博拉化B0V-Z)和莱斯顿埃博拉化B0V-R)。除了邸0V-R之外的其他亚型都能感染人类,但是不同亚型具 有不同的生物学特征和毒性。
[0004] 埃博拉病毒的全基因组是一条负链RNA,包含屯个基因,按照结构顺序分别为NP-VP35-VP40-GP-VP30-VP24-L,其中NP为病毒的核蛋白;VP35位病毒结构蛋白,与病毒的转录 过程相关;VP40是与病毒内膜相关的基质蛋白;GP是I型跨膜蛋白;VP30是病毒结构蛋白; VP24是小型膜蛋白;L是一种RNA聚合酶。已有研究表明,正是GP,VP40和VP24S种与膜相偶 联的蛋白在埃博拉病毒的毒粒装配和致病过程中起到了关键的作用。因此对运Ξ种蛋白基 因的研究对了解埃博拉病毒的致病性和机制具有重要的意义。为此,本发明提供了一种埃 博拉病毒GP基因的分子进化分析方法。
【发明内容】
[0005] 本发明的目的在于提供一种埃博拉病毒GP基因的分子进化分析方法,用W研究埃 博拉病毒GP基因。
[0006] 本发明提供一种埃博拉病毒GP基因的分子进化分析方法,该方法包括数据准备、 分子进化分析、正向选择位点分析和进化速率分析;
[0007] 所述数据准备是从NCBI基因库中获取所有埃博拉病毒的全基因组,通过化rl编程 获得各个基因的编码序列。
[000引进一步,所述分子进化分析包括:
[0009] 将获得的所有基因的编码序列都在MEGA6中利用CLUSTALW算法进行比对;
[0010] 利用邸AST VI.8.1对序列的进化速率进行估计,并且利用贝叶斯方法估计序列的 最可能共同祖先TMRCA,使用皿Y模型和不相关正态分布的时钟模型进行分析,并估计所有 密码子位置的相对替换速率。
[0011 ]进一步,所述正向选择位点分析是利用化Bayes 3.1.1的模型构建贝叶斯进化,并 且用PAML软件包中的随机位点模型和分支位点模型来分析四种亚型的选择压力。
[0012]进一步,所述进化速率分析包括:
[OOU] 利用邸AST V 1.8.1来估计序列的进化速率;
[0014] 利用BEAST vl.8.1来估计每个密码子位点的相对替换率。
[0015] 本发明提供了一种埃博拉病毒GP基因的分子进化分析方法,该方法包括数据准 备、分子进化分析、正向选择位点分析和进化速率分析。本发明能够通过对不同分型的正向 选择位点和进化分析W更好的了解埃博拉病毒在不同地区的进化W及传播特征。
【附图说明】
[0016] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W 根据运些附图获得其他的附图。
[0017]图巧本发明实施例利用BEAST构建的进化树。
【具体实施方式】
[0018] 本发明实施例提供一种埃博拉病毒GP基因的分子进化分析方法,包括:数据准备、 分子进化分析、正向选择位点分析和进化速率分析。
[0019] 所述数据准备是从NCBI基因库中获取所有埃博拉病毒的全基因组,通过化rl编程 获得各个基因的编码序列。所述分子进化分析包括:将获得的所有基因的编码序列都在 MEGA6中利用CLUSTALW算法进行比对;利用BEAST V1.8.1对序列的进化速率进行估计,并且 利用贝叶斯方法估计序列的最可能共同祖先TMRCA,使用HKY模型和不相关正态分布的时钟 模型进行分析,并估计所有密码子位置的相对替换速率。所述正向选择位点分析是利用 化Bayes 3.1.1的模型构建贝叶斯进化,并且用PAML软件包中的随机位点模型和分支位点 模型来分析四种亚型的选择压力。所述进化速率分析包括:利用BEAST vl. 8.1来估计序列 的进化速率;利用BEAST vl. 8.1来估计每个密码子位点的相对替换率。
[0020] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0021] 本发明实施例提供的一种埃博拉病毒GP基因的分子进化分析方法,该方法具体包 括:数据准备、分子进化分析、正向选择位点分析和进化速率分析。
[0022] 数据准备:从NCBI基因库中获取所有埃博拉病毒的全基因组,通过化rl编程获得 各个基因的编码序列。
[0023] 在本发明实施例中,用到的所有的埃博拉病毒的全基因组都是从NCBI基因库中下 载得到,通过化rl编程获得各个基因的编码序列,所有的序列都已知时间和地点。文章中所 用序列均为mRNA序列,序列中不包含终止密码子。共有53条序列,包括从1976年到2014年在 不同地区测序得到的序列。其中包括31条来自扎依尔的序列,10条来自苏丹的序列,7条来 自莱斯顿的序列W及5条来自本迪布焦的序列(见表1)。所有的序列分析都基于由从埃博拉 病毒全序列中利用per 1语言编程提取出的GP基因而得。
[0024] 表1.文中所有埃博拉序列的序列号
[0025]
[0027]分子进化分析:包括:将获得的所有基因的编码序列都在MEGA6中利用化USTALW算 法进行比对;利用BEAST VI. 8.1对序列的进化速率进行估计,并且利用贝叶斯方法估计序 列的最可能共同祖先TMRCA
,使用HKY模型和不相关正态分布的时钟模型进行分析,并估计 所有密码子位置的相对替换速率。
[002引除了莱斯顿亚型巧B0V-R)的GP基因含有2031个位点外,其他埃博拉亚型的GP基因 都含有2028个位点,所有53条序列都在MEGA6中利用CLUSTALW算法进行比对。
[0029]在本发明实施例中,利用BEAST vl.8.1对序列的进化速率进行估计,并且利用贝 叶斯方法估计了序列的最可能共同祖先(TMRCA),分析使用了 HKY模型和不相关正态分布的 时钟模型(uncorrelated lognormal relaxed clock model)。并且估计了所有密码子位置 的相对替换速率。
[0030] 程序运行了 100,000,000代,前10,000代被废弃处理。利用TYacer VI. 5化ttp: // evolve.zoo.OX.ac.uk)查看分析结果,查看TMRCA和ESS(effective samples sizes有效的 样本大小),当ESS大于200时可认为结果良好。利用化eeAnnotator program vl .8整合一致 树。
[0031] 正向选择位点分析:
[0032] 正向选择位点分析是利用化Bayes 3.1.1的模型构建贝叶斯进化,并且用PAML软 件包中的随机位点模型和分支位点模型来分析四种亚型的选择压力。
[0033] 在本发明实施例中,为了估计GP基因的选择压力,利用化Bayes 3.1.1的模型构建 贝叶斯进化,并且用PAML软件包中的随机位点模型和分支位点模型来分析四种亚型的选择 压力。
[0034] 选择压力用非同义替换率dN和同义替换率dS的比率ω来衡量(co=dN/dS),当ω 大于1时说明非同义替换率高于同义替换率,非同义突变是有利的,因此属于正向选择;当 ω=1时,非同义突变与同义突变W相同的速率被固定,认为选择压力为中性选择;当ω小 于1时,非同义突变是有害的,为了降低其固定速率,选择压力偏向净化选择。PAML软件中包 含的程序包提供了各种模型来检测选择压力W及正向选择位点,随机位点模型中Μ0和M3来 检测是否有正向选择,Ml比较M2和Μ7比较Μ8来检测正向选择的位点。不同模型的比较分别 应用似然比检验(LRT)的卡方分布来选择更加拟合数据的模型。
[0035] 在本发明实施例中,正向选择位点用PAML软件包codeml程序中随机位点模型来检 巧。,模型之间用似然比检验来检验其与数据的拟合性(表2),表3中是检测出的正向选择位 点。在莱斯顿型埃博拉化B0V-R)中共发现了 11个正向选择位点,扎依尔型埃博拉化B0V-Z) 中发现了 6个正向选择位点,在苏丹型埃博拉化B0V-S)中发现了 4个正向选择位点W及在本 迪布焦型埃博拉化B0V-B)中发现了6个正向选择位点,运些位点在M8模型中计算出的先验 概率均大于50 %。
[0036] 表2.在随机位点模型和模型之间的似然比检验
[0037]
[0039] 说明:吨,参数数目;1化,极大似然值的对数值;κ,转换颠换率;壯,自由度。
[0040] 表3.各个模型检测出的正向选择位点
[0041]
[0042] 说明:所有位点的先验概率值都表示在其后的括号中。
[0043] 进化速率分析:
[0044] 进化速率分析包括:利用BEAST vl.8.1来估计序列的进化速率;利用BEAST vl. 8.1来估计每个密码子位点的相对替换率。
[0045] 在本发明实施例中,用肥AST vl.8.1来估计序列的进化速率,所有序列的平均进 化速率是6.884E-4(95%HPD 2.7137E-4to 11.285E-4)个位点每年。
[0046] 每个密码子位点的相对替换率也用邸AST vl.8.1估计,密码子第一个位置上的替 换率为0.709(95%HPD 0.6534to 0.7641)位点每年,第二个密码子位置上的替换率为0.49 (95%册D 0.4458to 0.5359)位点每年,第Ξ个密码子位置上的替换率为1.801(95%册D 1.73to 1.87)。BEAST构建的进化树如图1所示。
[0047] 尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造 性概念,则可对运些实施例作出另外的变更和修改。所W,所附权利要求意欲解释为包括优 选实施例W及落入本发明范围的所有变更和修改。
[004引显然,本领域的技术人员可W对本发明进行各种改动和变型而不脱离本发明的精 神和范围。运样,倘若本发明的运些修改和变型属于本发明权利要求及其等同技术的范围 之内,则本发明也意图包含运些改动和变型在内。
【主权项】
1. 一种埃博拉病毒GP基因的分子进化分析方法,其特征在于,该方法包括数据准备、分 子进化分析、正向选择位点分析和进化速率分析; 所述数据准备是从NCBI基因库中获取所有埃博拉病毒的全基因组,通过Perl编程获得 各个基因的编码序列。2. 如权利要求1所述的方法,其特征在于,所述分子进化分析包括: 将获得的所有基因的编码序列都在MEGA6中利用CLUSTALW算法进行比对; 利用BEASTvl.8.1对序列的进化速率进行估计,并且利用贝叶斯方法估计序列的最可 能共同祖先TMRCA,使用HKY模型和不相关正态分布的时钟模型进行分析,并估计所有密码 子位置的相对替换速率。3. 如权利要求1所述的方法,其特征在于,所述正向选择位点分析是利用M r B a y e s 3.1.1的模型构建贝叶斯进化,并且用PAML软件包中的随机位点模型和分支位点模型来分 析四种亚型的选择压力。4. 如权利要求1所述的方法,其特征在于,所述进化速率分析包括: 利用BEASTvl.8.1来估计序列的进化速率; 利用BEASTvl.8.1来估计每个密码子位点的相对替换率。
【专利摘要】本发明公开了一种埃博拉病毒GP基因的分子进化分析方法,该方法包括数据准备、分子进化分析、正向选择位点分析和进化速率分析;所述数据准备是从NCBI基因库中获取所有埃博拉病毒的全基因组,通过Perl编程获得各个基因的编码序列。本发明能够通过对不同分型的正向选择位点和进化分析以更好的了解埃博拉病毒在不同地区的进化以及传播特征。
【IPC分类】G06F19/00
【公开号】CN105488356
【申请号】CN201610044325
【发明人】宋长新, 马克, 李安强, 陈晓芳, 景毓筱, 徐星
【申请人】青海师范大学
【公开日】2016年4月13日
【申请日】2016年1月20日