RSS订阅

实验方法

啮齿类5种动物mtDNA序列的变异及比较进化研究

2020年10月26日 浏览量: 评论(0) 来源:《遗传标记在实验动物遗传质量控制中的应用》 作者:宋国华 责任编辑:yjcadmin

一、前言

鼠科动物中国地鼠(cricetulus griseus)(2n=22)、金黄地鼠(mesocricetus auratus)(2n=44)、田鼠(microtus kikuchii)(2n=42)、小鼠(mils musculus)(2n=40)、大鼠(rattus norvegicus)(2n=42)的进化关系一直是有争论的问题,整个哺乳类性染色体进化是从X1X1X2X2~X1X2Y到XX~XY1Y2,最后进化到高等哺乳动物的 XX~XY形式。但Geist指出,偶蹄类的比较形态学在分类及进化研究中不总是有意义的,因为这些动物的形态学特征随环境的变化而呈现出很大的差异,而染色体组型仅仅是物种的特征之一,单凭这些分析物种的条缘关系还是远远不够的。

哺乳动物线粒体DNA(mtDNA)是共价闭合环状双链DNA,大小为16.5 kb左右,每个细胞中有1000~10000个拷贝。线粒体DNA基因组结构简单稳定,属母系遗传,缺乏重组,其DNA变化主要来源于突变而非重组,因而通过对线粒体DNA的差异可以忠实地再现哺乳动物的母系进化史。同时随着分子生物学和计算机技术的发展,大片断测序和序列分析已不再困难,所以利用线粒体序列研究进化关系的方法得到越来越多研究者的青睐。但由于分析的基因片断较短,提供的信息量有限,得出的结论是初步的,如要得出更准确的结论还需要更多的线粒体序列信息。

利用本实验室测定的鼠科仓鼠亚科动物中国地鼠、金黄地鼠和已经测定的田鼠、小鼠、大鼠的线粒体全基因组序列,采用目前国际上较为公认的方法,将它们各自的13个蛋白编码基因、22个tRNA、2个rRNA和1个控制区分别连接成一个单独的序列,统计它们碱基长度和组成,计算12S rRNA和16S rRNA的遗传距离和分歧时间,分析控制区序列和遗传相似度,计算蛋白编码基因的碱基和氨基酸的差异,以人为外群(登录号NC_001807),基于连接在一起的13个蛋白编码基因的氨基酸序列,用MEGA4.0软件通过邻位相连法(NJ)、P-distances参数模型、最大简约性法(MP)、最小进化法(ME)和非加权成对平均数法(UPGMA)构建进化树,探讨中国地鼠、金黄地鼠、田鼠、小鼠、大鼠的进化关系,为鼠科动物资源保护提供基础资料。

二、分析方法

用和中国地鼠类似的方法测定了金黄地鼠的线粒体全基因组序列,已提交GenBank,登录号为EU660218。将中国地鼠、金黄地鼠和台湾田鼠、小鼠、大鼠各自的13个蛋白编码基因、22个tRNA、2个rRNA和1个控制区分别连接成一个单独的序列,DNAstar-EditSeq软件统计这些序列和控制区的碱基长度和碱基组成差异, Mega软件Kimura双参数模型计算了它们的13种蛋白编码基因的核苷酸序列间差异。用DNAstar-MegAlign软件Jotun Hein法计算氨基酸序列间的差异,分析13个蛋白编码基因之间变异大小,同时以Mega 4软件Kimura双参数模型计算基于rRNA的遗传距离和估算分歧时间,用Clustal W 1.83比对控制区分析序列变异。用 Clustal W 1.83对它们各自连接在一起的13个蛋白编码基因进行比对,以人(NC_001807)为外群,用Mega软件Kimura双参数模型和通过邻位相连法(NJ)、最大简约法(MP)、最小进化法(ME)、非加权成对平均数法(UPGMA)构建进化树,系统树各分支置信度由Bootstrap法检验,共2000次循环,根据进化树讨论中国地鼠、金黄地鼠和台湾田鼠、小鼠、大鼠的进化关系。其他未提及的程序设置为系统默认值。

三、分析结果

1.中国地鼠、金黄地鼠和台湾田鼠、小鼠、大鼠线粒体碱基组成特点  从表8-8中可以看出中国地鼠、金黄地鼠、小鼠、大鼠的线粒体结构的序列长度和碱基组成都非常接近,其中蛋白编码基因间的差异最小,而控制区序列的差异最大,A+T含量大于G+C,在58.71%~63.81%,这些特征都与其他哺乳动物一致,显示哺乳动物线粒体基因组序列的稳定性。中国地鼠、金黄地鼠、小鼠、大鼠分别和台湾田鼠比较,蛋白编码基因差异比控制区序列的差异大。

 

2.中国地鼠、金黄地鼠、台湾田鼠、小鼠和大鼠的13个蛋白基因的碱基组成分析  在鼠科动物的13个蛋白基因序列中,A、T、C、G碱基的平均含量为32.4%、29.6%、26.2%和11.9%,碱基组成的百分比中显示出了G的相对缺乏(表8-9)。在这5条13个蛋白基因序列中,我们研究表明其核苷酸的变异存在很大的差异。其中4种颠换(A→G,G→A,C→T,T→C)的频率比8种转换(A→C,A→T,C→G,G→T,以及前4种的反向取代)的频率要高;平均发生碱基转换1473个,颠换1576个,其转换/颠换比为0.9,而第一位碱基的转换和颠换分别为631个和688个,其比值为0.9;第二位碱基的转换和颠换分别为441个和413个,其比值为1.1;第三位转换和颠换分别为401个和474个,其比值为0.8。这说明核苷酸的颠换多于转换。

3.中国地鼠、金黄地鼠和台湾田鼠、小鼠、大鼠线粒体蛋白编码基因序列分析  中国地鼠、金黄地鼠和台湾田鼠、小鼠、大鼠都属于啮齿目鼠科动物,表8-10描述了它们之间蛋白编码基因和氨基酸序列相互差异,在中国地鼠和金黄地鼠之间核苷酸差异从19.1%(COX2)到37.1%(ND4L),平均值为25.5%,氨基酸差异从3.2%(COX1)到32.4%(ND4L),平均值为16.22%。中国地鼠和小鼠之间的核苷酸差异从19.9%(COX3)到69.8%(ND6),平均值为33.32%,氨基酸差异从3.4%(COX1)到53.6%(ND6),平均值为25.61%。中国地鼠和大鼠之间的核苷酸差异从21.3%(COX3)到70.6%(ND6),平均值为34.75%,氨基酸差异从4.8%(COX1)到54.7%(ATPase8),平均值为26.54%。中国地鼠和台湾田鼠之间的核苷酸差异从21.5%(COX1)到67.6%(ND6),平均值为33.02%,氨基酸差异从4.4%(COX1)到37.1%(ND2),平均值为20.75%。金黄地鼠和小鼠之间的核苷酸差异从19.9%(COX1)到66.7%(ND6),平均值为32.22%,氨基酸差异从4.2%(COX1)到51.3%(ND6),平均值为23.93%。金黄地鼠和大鼠之间的核苷酸差异从20.1%(COX3)到68.6%(ND6),平均值为33.71%,氨基酸差异从4.0%(COX1)到51.3%(ND6),平均值为25.24%。金黄地鼠和台湾田鼠之间的核苷酸差异从20.8%(COX2)到66.3%(ND6),平均值为31.80%,氨基酸差异从5.0%(COX1)到35.5%(ND4L),平均值为20.84%。小鼠和大鼠之间的核苷酸差异从16.3%(ATP6)到29.7%(ND2),平均值为22.22%,氨基酸差异从1.8%(COX2)到26.4%(ND4L),平均值为15.22%。台湾田鼠和小鼠之间的核苷酸差异从21.2%(COX1)到37.7%(ND6),平均值为29.63%,氨基酸差异从6.4%(CYTB)到52.3%(ND6),平均值为23.6%。台湾田鼠和大鼠之间的核苷酸差异从20.9%(COX3)到39.1%(ND6),平均值为28.29%,氨基酸差异从5.4%(COX1)到50.6%(ND6),平均值为21.35%。总体上的核苷酸差异为小鼠/大鼠<中国地鼠/金黄地鼠<台湾田鼠/大鼠<台湾小鼠<金黄地鼠/台湾田鼠<金黄地鼠/小鼠<中国地鼠/台湾田鼠<中国地鼠/小鼠<金黄地鼠/大鼠<中国地鼠/大鼠;氨基酸差异为小鼠/大鼠<中国地鼠/金黄地鼠<中国地鼠/台湾田鼠<金黄地鼠/台湾田鼠<台湾田鼠/大鼠<台湾/小鼠<金黄地鼠/小鼠<金黄地鼠/大鼠<中国地鼠/小鼠<中国地鼠/大鼠。显示这6种动物中小鼠和大鼠有更近的亲缘关系,中国地鼠和金黄地鼠有近的亲缘关系,中国地鼠和小鼠、大鼠的亲缘关系稍远。

中国地鼠mtDNA各蛋白编码序列以及其编码的氨基酸序列与其他物种相比(表8-10),与金黄地鼠的相应序列最相近。与大鼠mtDNA各蛋白编码序列以及其编码的氨基酸序列差异较大。另外,正如文献综述中所述,在比较的各物种mtDNA蛋白编码序列中,细胞色素亚单位基因相对较保守,其中COX1最保守(Peng Cui,  et al. 2007),中国地鼠与其他4个物种之间的相似性达到95%以上,与金黄地鼠的相似性,氨基酸序列达96.8%,核苷酸序列达79.6%。其次是Cyt b基因序列,再次是ND各亚单位序列和ATPases序列。同时氨基酸差异大部分明显低于核苷酸差异,这是由于许多核苷酸突变是同义突变不导致氨基酸变化。以变异最大的中国地鼠/大鼠的ND6为例,核苷酸差异为70.6%,氨基酸差异为54.7%,氨基酸突变共有20处,核苷酸突变共有328处,其中有308处的突变没有产生氨基酸差异,为同义突变(排序图略)。

4.中国地鼠、金黄地鼠、台湾田鼠、小鼠和大鼠(5种动物)基于13个蛋白基因的进化研究  将中国地鼠、金黄地鼠、台湾田鼠、小鼠和大鼠(5种动物)的13个蛋白基因的氨基酸序列按顺序连接在一起,用Clustwal 1.83进行比对,用Mega 4计算Kimura 2-parameter遗传距离(表8-11)。

为了进一步讨论这5种鼠科动物的进化关系,我们计算了基于13个蛋白基因连接在一起的遗传距离。以人为外群,基于连接在一起的13个蛋白编码基因的氨基酸序列构建进化树,结果表明在任何分析中bootstrap值小于50%的进化支持都需谨慎对待,只有在bootstrap值大于70%时,该进化枝才比较可信(Kimball R T,1999)。其数值越高,支持率越高,树的置信度越高。图8-6中可以看出邻位相连法(NJ法)、最大简约法(MP法)、最小进化法(ME法)和非加权成对平均数法(UPGMA法)得到的结果一致,依据这4种方法构建的分子进化树,可以看出这5种啮齿类动物分为2枝,中国地鼠和金黄地鼠聚在一起,置信度为100%,然后和台湾田鼠聚在一枝,小鼠和大鼠聚为一枝,置信度为100%,最后和中国地鼠、金黄地鼠、台湾田鼠聚在一起,bootstrap值NJ法、MP法、ME法、UPGMA法均大于98%,最后和外群(人)聚在一起,结果可信。说明从大鼠的祖先演化而来。

5.中国地鼠、金黄地鼠和台湾田鼠、小鼠、大鼠rRNA遗传距离与分歧时间  

除蛋白编码基因外,12S rRNA和16S rRNA也是研究物种间种群进化关系的重要手段。以连接在一起的rRNA基因用Clustal X和MEGA计算它们的遗传距离,并用“每百万年线粒体碱基取代率为2%”(Irwin D M, 1991;Meyer A C, 1990)假定估计其分歧时间,由表8-12可看出小鼠和大鼠分歧时间较小,也就是说它们较为近缘,中国地鼠和金黄地鼠较为近缘,其次中国地鼠和台湾田鼠的亲缘关系较近。中国地鼠和金黄地鼠、大鼠、小鼠、田鼠的分歧时间分别是在5.95、8.30、8.30和8.10百万年前。这和NCBI中动物分类相一致。

6.中国地鼠、金黄地鼠和台湾田鼠、小鼠、大鼠线粒体D-loop区比较分析

(1)5种鼠科动物线粒体D-loop区碱基长度和组成分析:根据所测定的中国地鼠和金黄地鼠的线粒体全长序列中定位它们的控制区,以及GenBank中小鼠、大鼠、田鼠的控制区全序列,这些控制区由于出现重复序列或插入缺失等原因导致有一些长度变化,长度在867~922 bp之间(表8-13),但它们的碱基组成非常接近,碱基百分比T>A>C>G,A+T含量平均值(61.814%)远高于G+C含量(38.186%),鸟嘌呤G的含量很低,约在12.82%左右。而中国地鼠、金黄地鼠、台湾田鼠、小鼠和大鼠的线粒体全基因组碱基组成的腺嘌呤A含量在33%左右、胸腺嘧啶T含量在29%左右,与控制区有一些差异。吴孝兵(2003)等在扬子鳄动物线粒体基因组研究中的结论一致,这可能是哺乳动物的共性所在。

(2)5种啮齿类动物线粒体D-loop区的序列比对、遗传距离和遗传相似度:在这5条D-loop基因序列中,我们发现其核苷酸的变异差异也存在很大的差异,平均发生碱基转换148个,颠换201个,其转换/颠换比为0.7,而第一位碱基的转换和颠换分别为47个和65个,其比值为0.7;第二位碱基的转换和颠换分别为53个和72个,其比值为0.7;第三位转换和颠换分别为48个和64个,其比值为0.7。平均转换率为17.8%,平均颠换率为23.3%,这说明核苷酸的颠换多于转换。用 DNAStar的Megalign程序计算控制区的遗传相似度(percent similarity),用MEGA软件Kimura双参数模型计算控制区的遗传距离(genetic distance)(表8-14),最大遗传相似度75.5%存在于小鼠和大鼠之间,中国地鼠和金黄地鼠之间的遗传相似度为75.2%,台湾田鼠和中国地鼠、金黄地鼠、小鼠、大鼠之间的遗传距离都比较大。属内遗传距离均较小,属间遗传距离较大。这一结果符合分类学上的种属间的亲缘关系。

D-loop区的序列比对(图8-7)中能够看出中间区域为一个较为保守的区域,其轻链A的含量低,以维持链替代的D环结构,两侧的区域为富含A的可变区,具有高度的序列变异。临近tRNA Pro 区域是整个D-loop区中A含量最高而C含量最低的区域,并且含有与终止有关的序列。

四、讨论

1.5种动物的13个蛋白基因的核苷酸和氨基酸的差异  中国地鼠、金黄地鼠和台湾田鼠、小鼠、大鼠都属于啮齿类鼠科动物,它们之间蛋白编码基因的核苷酸差异明显高于氨基酸序列相互差异,造成这种现象的原因可能是由于密码子的兼并性。即使核苷酸发生了替换,但为同义突变,其编码的氨基酸并没有变化。如中国地鼠和金黄地鼠之间核苷酸差异从19.1%(COX2)到37.1%(ND4L),平均值为25.5%,氨基酸差异从3.2%(COX1)到32.4%(ND4L),平均值为16.22%。在比较的各物种mtDNA蛋白编码序列中,细胞色素亚单位基因相对较保守,其中COX1最保守,其次是Cyt b基因序列,再次是ND各亚单位序列和ATPases序列,这和其他哺乳动物类似。

无论核苷酸的差异还是氨基酸的差异,都和序列的碱基替换和颠换有密切的关系。在它们的核苷酸替换中,转换与颠换之比(TS/TV)随相邻两侧(5'和3')碱基A+T含量增加而减少,表明此基因序列中核苷酸替换受其相邻碱基组成的影响。同时还受到其他因素的影响,如基因复制、转录和表达的环境影响。其中,对于蛋白质编码基因,一个因素可能就是其三联体密码子的第一、二核苷酸的强约束力对其基因序列的核苷酸替换有较大的影响作用。另外,由于线粒体内具有较高浓度的内外源诱变剂,以及错误复制和不完善的修复,造成线粒体DNA具有较快的进化速率,这也可能影响核苷酸替换的偏好性。动物线粒体基因组非编码序列核苷酸替换偏好性与其相邻碱基组成的相关性还有待研究。通过研究核基因组和核外基因组(叶绿体基因组和线粒体基因组)中核苷酸替换偏好性与其相邻碱基组成的相关性,将有利于深入了解分子进化的动力学,进而完善目前以位点突变是相对独立为假设的分子进化中性模型。

2. 5种动物的线粒体控制区的差异线  粒体控制区(control region, CR)又称 D-loop区(displacement loop),是mtDNA中的非编码序列,长度在800~1400bp之间。由于在进化过程中选择压力相对较小,具有较线粒体其他区域有更多的多态性,其碱基替换率是mtDNA其他区段的2.8~5倍,因而是探讨近缘种间和种内遗传变异的良好指标。D-loop区的序列比对图中能够看出中间区域为一个较为保守的区域,两侧的区域为富含A的可变区,具有高度的序列变异。对5种动物的线粒体控制区序列分析表明,其中平均A+T含量61.814%,远高于G+C含量38.186%。该结果与其他鼠类动物线粒体控制区A+T含量特别高的研究结果相符。碱基转换(Ts)/颠换(Tv)可以作为多重替换(multiple substitutions)程度的一个指标,也可以衡量序列间自分歧以来各位点发生替换的饱和程度。本研究中国地鼠、金黄地鼠、小鼠、大鼠、田鼠的TS/TV平均在0.7左右,说明这5种动物D-loop基因序列替换远未达到饱和,它们之间分歧时间不长。

3.关于构建进化树的分析  在利用基因序列比较构建基因树或者系统树的同时,应该采用全基因组序列或更多的序列资料,以防止由于部分序列变异的不均衡性造成的假象而提供错误的信息。随着研究的深入,以mtDNA中完整的基因序列或多个基因序列协同而获得遗传信息来探讨物种的系统发育,将是今后研究的发展方向(Felsentein J,1988)。基于此我们测定了它们的线粒体全基因组,但并没有用全基因组来构建进化树,因为有些序列并不能反映物种的进化关系,反而会钝化其他序列的进化分析,所以选择目前国际上较为常用的方法,将它们的线粒体所编码的氨基酸序列连接起来构建进化树(Kim K S, 1998),这种方法在其他哺乳动物的分析中已经得到广泛应用,但在仓鼠科动物的系统发育分析中尚属首次。我们把5种啮齿类动物的13个蛋白基因的氨基酸序列分别连接起来,用4种方法MP法、NJ法、ME法、UPGMA法分别构建的进化树,发现构建的4种进化树几乎相同,仅在分枝的置信度上有差别,但都高于98%,认为用13个蛋白基因的氨基酸序列构建的进化树结果可信,认为大鼠和小鼠是较原始的物种,中国地鼠和金黄地鼠为较晚的物种,是由大鼠的祖先演化来的。

如果基因序列较短,用不同方法构建进化树时会出现分歧。在系统发育的研究中,往往由于不同的系统发育树构建方法获得的结果不尽相同而引起争议。在研究中人们一般根据对某些方法的了解程度或个人喜好选择具体方法。通过比较各种方法的优缺点,有助于我们更好地应用这些方法,对分子系统学研究具有重要的参考价值(Nei M, 1996;Felsenstein J, 1988)。Saitou和Imanishi(1989)以及Hasegawa等(1991)应用模型树和计算机模拟方法比较了MP法、NJ法、ME法和ML法分析的结果。结果表明:在进化速率恒定的前提下,MP法比NJ法略差;最小进化法和NJ法相近;MP法的结果质量依赖于选用的序列进化模型。在进化速率可变的前提下,MP法略差于转换距离法和NJ法;ML法的结果最优。然而,如果转换替代的频率大大高于颠换替代时,NJ法要优于ML法的结果。

点击这里给我发消息 点击这里给我发消息 点击这里给我发消息