当前位置 :主页 > 基金课题 > 科研心得 >
精确物种进化地位:系统进化树的构建

   进化树也称种系树,英文名叫“Phyligenetic tree”, 根据蛋白质的序列或结构差异关系可构建分子进化树。进化树给出分支层次或拓扑图形,它是产生新的基因复制或享有共同祖先的生物体的歧异点的一种反映,树枝的长度反映当这些事件发生时就存在的蛋白质与现在的蛋白质之间的进化距离。根据进化树不仅可以研究从单细胞有机体到多细胞有机体的生物进化过程,而且可以粗略估计现存的各类种属生物的分歧时间。通过蛋白质的分子进化树分析,从分子水平研究物种进化提供了新的手段,可以比较精确的确定某物种的进化地位。对于物种分类问题,蛋白质的分子进化树亦可作为一个重要的依据。


构建进化树的方法包括两种


      1. 序列进化树,是序列类似性比较,主要是基于氨基酸相对突变率矩阵(常用PAM250)计算不同序列差异性积分作为它们的差异性量度;


      2. 结构进化树,是在难以通过序列比较构建序列进化树的情况下,通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立的。


分析一个完整的进化树需要以下几个步骤


   1. 要对所分析的多序列目标进行排列。做ALIGNMENT的软件很多,最经常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。

   2. 构建一个进化树。构建进化树的算法主要分为两类:独立元素法和距离依靠法。

   独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的;独立元素法又包括最大简约性法和最大可能性法。

   最大简约性法(MP)特点如下

   i 所要比较的序列的碱基差别小

   ii 对于序列上的每一个碱基有近似相等的变异率

   iii 没有过多的颠换/转换的倾向

   iv 所检验的序列的碱基数目较多(大于几千个碱基)

   最大可能性法(ML)分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。

   距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。它包括除权配对法(UPGMAM)和邻位相连法。UPGMAM假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟。这种算法得到的进化树相对来说不是很准确,现在已经很少使用。邻位相连法(NJ)是一个经常被使用的算法,它构建的进化树相对准确,而且计算快捷。其缺点是序列上的所有位点都被同等对待,而且,所分析的序列的进化距离不能太大。

   3. 对进化树进行评估。主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。

   在构建系统进化树软件的选择方面,有如下几点:

   1. 构建NJ树,可以用PHYLIP或者MEGA。MEGA图形化的软件,使用非常方便。MEGA软件为初学者的首选。虽然多序列比对工具ClustalW/X自带了一个NJ的建树程序,但是该程序只有p- distance模型,而且构建的树不够准确,一般不用来构建进化树。

   2. 构建MP树,最好的工具是PAUP,但该程序属于商业软件,并不对学术免费。而MEGA和PHYLIP也可以用来构建MP树。MEGA是图形化的软件,使用方便,而PHYLIP则是命令行格式的软件,使用较为繁琐。对于近缘序列的进化树构建,MP方法几乎是最好的。

   3. 构建ML树可以使用PHYML,速度最快。或者使用Tree-puzzle,速度也较快,并且该程序做蛋白质序列的进化树效果比较好。Tree- puzzle程序是命令行格式的,需要学习DOS命令。PHYML只有适用于64位的版本。 BioEdit集成了一些PHYLIP的程序,用来构建进化树。

   实际构建过程中需要注意的一些问题:

   1. 如果对核酸序列进行分析,并且是CDS编码区的核酸序列,需要将核酸序列分别先翻译成氨基酸序列,进行比对,然后再对应到核酸序列上。

   2. 无论是核酸序列还是蛋白序列,一般应当先做成 FASTA格式。FASTA格式的序列,第一行由符号“>”开头,后面跟着序列的名称,可以自定义,将所有的FASTA格式的序列存放在同一个文件中。

   3. 构建NJ或者MP树需要先将序列做多序列比对的处理。一般使用ClustalX进行多序列比对的分析。而构建ML树则不需要预先的多序列比对,直接使用FASTA格式即可。


       想了解更多相关知识,请关注: http://www.chinazglab.com/ 

上一篇:miRNA在阿尔茨海默病中的作用及其治疗前景
下一篇:单克隆抗体制备程序之一:动物免疫
分享到: