演化论基础#
1. 选择#
1.1. 自然选择#
定义:生物在自然界竞争中,适应者能生存和生殖,不适应者被淘汰。
定向选择(directional selection):某些等位基因的频率或性状向”单一”方向移动。
稳定选择(stabilizing selection):处于中间的性状被保留,处于两端的性状被淘汰。
间断选择(disruption selection):处于两端的性状被保留,处于中间的性状被淘汰
频率依赖选择(frequency-dependent selection):某种基因型能否被保留,取决于其频率
1.2. Hardy-Weinberg 平衡#
无突变、无自然选择、无迁徙、随机交配、大种群情况下,基因频率符合:
1.3. 适应#
适应(adapt):生物的某种结构、行为及基因或蛋白质等生物大分子的功能有利于该生物顺利地在自然环境中成功繁殖。
适合度(fitness,f):某类生物实体(基因型)繁殖的平均能力,即被自然所”选留”的程度。
选择系数(selection coefficient,s): 与适合度相反,用于度量自然选择对某种基因型及其后代的淘汰的作用。
2. 中性演化学说#
由日本进化生物学家木村资生(Kimura Motoo,1924∼1994)
2.1. 遗传变异#
变异方式
染色体重组:父本、母本染色体片段互换
染色体突变:染色体片段重复、插入、丢失、重排等 基因组(整套染色体)的加倍
等位基因:同一物种的某个基因座(locus)上序列有所差异的基因
等位酶(allozyme):由等位基因编码的酶
同工酶(isozyme):生物体内催化相同反应而分子结构不同的酶
多态性
固定(fixation): 某个等位基因在种群中的频率为 100%。
蛋白质的多态性是由选择上中性的等位基因被遗传漂变随机固定的,多态性是分子演化的一个阶段
度量
一致性(identity):指两个或两个以上的序列中组成完全相同的部分
相似性(Similarity):特征相像,来源不确定(用在分子生物学上主要是指理化性质相似的氨基酸)
同源性(Homology):来源于一个共同祖先若两个基因或蛋白质的序列一致性或相似性很高
DNA 核苷酸序列的一致性 > 60%
蛋白质氨基酸序列的一致性 > 30%,则它们具有相同或相似的生物学功能,且很可能是同源的
2.2. 中性演化理论#
突变得到的等位基因并未带来正面、负面影响,即中性的\(s = 0\)
\(s>0\),被选择保留;
\(s<0\),被选择淘汰
演化速率
\(k = ν\)
其中,\(ν\)为每代、每个配子的突变速率
与种群大小无关
观点
承认负选择(negative selection)
强调功能约束(functional constrain)
承认正选择(positive selection),但力量很小
功能的约束造成不同的基因突变速率不一样:功能重要的部分变化会影响其功能,这部分的变化均受负选择的作用;功能不很重要的部分变化不影响其功能,被随机保留
2.3. 近中性演化理论#
有效种群:一个种群中能将其基因连续传递到下一代的个体均值。
相当于理想状态下(种群大小稳定,世代间没有重叠,所有个体以相同的概率给下一代贡献配子)种群的大小。
\(|s| ⩽ 1/N_e\)
\(N_e\)为有效种群大小
影响\(N_e\)的主要因素
参与生殖个体性别的比例相差很大
参与生殖个体贡献给下一代的配子数有差异:交配权掌握在少数个体手中
种群中个体数在短期内呈周期性变化
不同世代之间有重叠
一个物种由多个遗传相对隔离的亚种群构成
3. 蛋白演化#
3.1. 氨基酸替代速率#
设:不同位点上的氨基酸替代速率相同,即使不相同,平均替代速率也很小
令
\(n_{aa}\):所比较序列的氨基酸数目 \(d_{aa}\):所比较两个序列中差异的氨基酸数目
则两个序列氨基酸相差的程度
\(p_d = d_{aa}/n_{aa}\)
又
\(K_{aa}\):两个同源序列中每个位点氨基酸的平均替代数
\(K_{aa} = -\ln(1 - p_d)\)
\(T\):两个同源序列分歧的时间
可得,每年每个位点氨基酸的替代速率
\(k_{aa} = K_{aa} / (2T)\)
3.2. 分子钟#
定义:一个特定的大分子(蛋白质或 DNA)在所有的演化谱系中具有恒定的演化速率,即线性演化。
两个大分子(物种)分歧的时间
时间很难预测
最准的是用化石或地质事件
相对速率 : 用一分歧时间早于所研究的物种作参考
先决条件:演化速率恒定(必须事先验证)
分子钟的局限性
并非所有的核酸或蛋白质分子都符合分子钟学说
并非基因的所有部分都符合分子钟学说
不同的修复系统
生命周期的不同
代谢速率
同一个分子不同的部位速率不同
密码子的三个碱基演化速率有差异
4. 核酸演化#
4.1. 碱基替代模型#
置换(Transition):嘌呤 ↔ 嘌呤,嘧啶 ↔ 嘧啶 颠换(Transversion):嘌呤 ↔ 嘧啶 同义替代(synonymous substitution):不影响所编码氨基酸的碱基改变 非同义替代(non-synonymous substitution):影响所编码氨基酸 的碱基改变
4.1.1. 单参数模型(Jukes-Cantor)#
设:每种碱基被另一种碱基替代的速率为\(α\),则每种碱基被其他碱基的替代速率\(λ\)有
4.1.2. 双参数模型(Kimura)#
设:碱基置换和颠换的速率不一样
\(α\):碱基置换的速率
\(β\):碱基颠换的速率
![nuc-models](images/ch3/nuc-models.png)
当时间无穷大时,两个模型趋于一致
4.2. 非编码区#
4.2.1. J-C 模型#
令\(p\)为两序列中发生变化的碱基的比例,则
4.2.2. K-2 模型#
令
\(𝑷\):置换碱基的比例 \(Q\):颠换碱基的比例
则
\(x= 1/(1– 2P – Q), y = 1/(1 - 2Q)\)
可得
4.3. 编码区#
一般 start 和 stop codon 不予考虑
三类碱基
兼并性(0): 无论替代哪个碱基,编码的氨基酸都变,如编码 Pro 的第一二个碱基
兼并性(2): 有两个碱基可替代,编码的氨基酸不变,如编码 His 的第三个碱基
兼并性(4): 无论替代四个碱基中的哪一个,编码的氨基酸不变,编码 Pro 的第三个碱基
每类位点的总替代数
0 兼并性位点:K_0(全部非同义替代)
4 兼并性位点:K_4(全部同义替代)
2 兼并性位点:K_2(一半为同义替代,一半为非同义替代)
核酸的演化速率
\(K\)为每个位点碱基的平均替代数 \(K_S\)(同义替代位点的平均替代数) \(K_A\)(非同义替代位点的平均替代数)
\(K = K_0 + K_2 + K_4\)
\(K_A/K_S\)值
根据中性演化理论,在中性选择下,同义替代位点和非同义替代位点上发生的替代被固定的概率相同。故,\(K_A/K_S = 1\)
由此可推测
\(K_A/K_S < 1\):造成氨基酸改变的替代少,为负选择
\(K_A/K_S > 1\):造成氨基酸改变的替代多,为正选择
4.4. 基因组#
生物 |
ORF |
---|---|
Mycoplasma genitalium |
480 |
E. coli |
4, 277 |
yeasts |
6, 246 |
roundworms |
19, 223 |
Arabidopsis thaliana |
25, 498 |
Orhithorhychus anatinus |
18, 527 |
Homo sapiens |
> 30, 000 |
Glycine max |
> 50, 000 |
5. 物种的形成和灭绝#
5.1. 物种定义#
表征种:形态上相似的一类生物
没有一个一致公认的标准
较为实用
生物种:有潜在的相互交配能力的自然种群,且其后代可育。
不能用于快速鉴定物种
不适用于无性繁殖的物种及化石物种
生态种:生存在相同的一个生态位(niche)的个体之和
强调生境对生物的作用
可能存在平行演化
将不同生境的同一物种称为不同的”生态型”
不同的物种代表了演化过程中的不同阶段
谱系(lineage):由一个祖先(物种)所产生 的所有后代(物种)及其相互关系
5.2. 隔离#
5.2.1. 地理隔离#
异域隔离:自然灾害造成的新的生境,被分开的种群、新迁移而来的种群中产生的变异被随机固定,或被不同的选择压力固定
在自然界无法杂交,在人工干预下,杂种可育
邻域隔离:生境的逐渐变化,居群两端的个体也发生分化,中间的过渡带即杂种带受到自然选择压力
同域隔离:分化的两个物种在同一区域。原理上说是可能的,但在现实中更少,主要存在于昆虫和寄生动物中,宿主的改变可能会造成新物种的产生。
5.2.2. 有性生殖隔离#
合子前隔离
时间隔离:发情期或花期在不同的季节
行为隔离:性行为分化,导致不能相互吸引
机械隔离:生殖器或花器官的结构不允许
配子隔离:卵细胞和精子不能相互吸引
合子后隔离
受精卵不能发育
杂种不育
杂种后代生存力或生育力降低
5.3. 物种灭绝#
狭义:过去的 50 年里,在野外再也未被发现的物种
广义:一个物种最后一个个体的死亡
5.3.1. 灭绝类型#
谱系
真灭绝:一个谱系的灭绝
假灭绝:由于新物种的产生而造成的
种群遗传学
生态灭绝:数量太少,遗传变异丧失
物种
全部灭绝:地球上任何地方均没有该物种的存在
野外灭绝:人工饲养,但野外不存在
局部灭绝:某个地区不存在,而其他地区存在
5.4. 灭绝原因#
内部:物种固有的特性所决定的
遗传多样性低
繁殖力弱
遗传漂变 + 人类活动
定向选择 + 人类造成的环境变化
外部
物种所需要的生境的消失
高度特化的生物
5.5. 学说与假说#
间断平衡学说
物种的演化由长期的”静止”状态和短暂的”变化”状态交替完成,变化产生新的物种
物种的形成是”直线”分支式的
缺少分子遗传机制
Gaia 假说
地球是一个有生命的、能自我调节的大系统
地球上的生物产生了使自己适于生存的环境,并不断调节该环境使之更适于生存
生命在积极地控制外界条件,包括生物圈中纯物理的方面,如温度、海水酸度、大气组成,以至于地球最好地保持可居住性
6. 物种起源#
6.1. 人造生命#
生命的定义
能进行新陈代谢、生长、繁殖、变异、应激反应等等的一个复杂系统
自然选择驱动的演化是生命的最重要的特征之一
6.1.1. 进展#
细菌中存在限制性内切酶(Hamilton Smith,Nobel Prize for 1978):切断外源 DNA
Mycoplasma genitalium,480 个不重复基因(1995)
最简单的原核细胞:需要约 300 个基因(1999)
“合成”噬菌体 ΦX174(5, 386 bp,2003)
合成了一种细菌的基因组 Mycoplasma mycoides JCVI-syn1.0,1079 kb,将其”组装”进了 Mycoplasma capricolum 的”壳”中(2010)
对已合成的细菌的基因组 Mycoplasma mycoides JCVI-syn1.0 进行基因突变,然后将其”组装”进 Mycoplasma capricolum 的”壳”中(2016)
6.2. 生物分子起源#
6.2.1. 生物大分子起源#
第一个有信息的分子是 RNA(Francis Crick,1968)
发现有催化作用的 RNA(Thomas Cech,1986)
磷酸化
氨酰转移
肽键的形成
碳键的形成
形成 RNA 聚合体
被脂膜包裹着的”原细胞”(protocell)模型中,在 Mg²⁺ 和柠檬酸盐的存在下,核酶可催化 RNA 的复制(2013)
到目前为止,只发现 7 种核酶,自然的核酶催化速率很慢
最早的原核细胞:LUCA,含有两类细菌的基因
固定 CO₂、N₂
喜热,生活在和氧气隔绝的地方
6.2.2. 线粒体起源#
内共生学说:真核生物吞食原核生物后,后者与寄主细胞不断磨合,最终与之共生。
最接近原核生物的真核生物线粒体为 Reclinomonas americana(1997)
来自不同谱系生物物种的线粒体中所有 gene 均能在 Reclinomonas americana 中找着
很可能单系
最接近真核生物线粒体的原核生物为 Rickettsia prowazekii(1998)
6.2.3. 叶绿体起源#
内共生起源:蓝细菌
单系起源
6.3. 适应度景观#
根据演化理论,以下特征足以产生演化:
复制者:一批能够以某种方式复制的智能体。
突变:一些种群中的变化,也就是个体之间的差异。
生存和繁殖差异:个体之间的差异必须影响其生存或繁殖的能力。
为了模拟这些特征,需要定义智能体种群,智能体代表个体。每个智能体都有遗传信息,称为基因型,这是智能体繁殖时复制的信息。在 NK 模型中 [1],基因型由 N 个二进制数字的序列表示,K 表示景观的凸凹度(landscape ruggedness)。为了产生突变,创建具有多种基因型的种群。最后,为了产生生存和繁殖差异,定义一个函数,将每个基因型映射为一个适应度(fitness),其中适应度是一个关于智能体的生存或繁殖能力的度量。
6.4. 证据#
化石
客观、直观、真实地反映生物的过去
可遇不可求
质地年代的确定
地理位置
6.4.1. 极性的确定#
特征的一些状态,谁先谁后,即祖征还是衍征
纵向对比法:化石资料
横向对比法:外类群(out-group)分析法:设外类群的特征状态较为古老
最简约树:用 bootstrap 等方法检查,若 70%以上的树都支持一种分支,应较为可靠;100%为最好,50%以下则不太可信