F4-Ratio与D统计对比-混合比例与基因流检测
F4 Ratio vs D统计 - 混合比例量化与基因流检测对比
📊 方法对比总览
| 维度 | F4 Ratio | D统计 (ABBA-BABA) |
|---|---|---|
| 目的 | 量化混合比例 | 检测基因流方向与显著性 |
| 群体数 | 5个群体 | 4个群体 |
| 输出 | 混合比例 α (0-1) | D值 + Z-score |
| 信息类型 | 定量 | 定性+半定量 |
| 使用场景 | 已知混合,估计比例 | 检测是否存在基因流 |
| 前提条件 | 需先确认混合存在 | 可独立用于发现基因流 |
🧮 F4 Ratio - 混合比例定量估计
核心原理
估计目标群体X中来自源群体A的祖先成分比例
公式
α = f4(X, C; A, O) / f4(B, C; A, O)
其中:
- X = 目标混合群体
- A, B = 两个祖先源群体
- C = 与X更接近的参考群体
- O = 外群 (Outgroup)
α = X中来自A的祖先成分比例 (0 ≤ α ≤ 1)
理解F4统计的基础
**f4(W, X; Y, Z)**测量的是:
- W和X的遗传漂移相关性 vs Y和Z的遗传漂移相关性
- 如果f4 = 0 → 符合系统发育树(无额外基因流)
- 如果f4 ≠ 0 → 存在偏离树的信号(可能是混合或选择)
Kim et al. 2020案例解读
研究设计 (Figure 3c)
α = f4(AFH, AAI; AFT, OUT) / f4(EUT, AAI; AFT, OUT)
目标:估计非洲混合牛(AFH)中来自非洲普通牛(AFT)的比例
各群体角色:
- X = AFH:目标混合群体(African Hybrid)
- A = AFT:祖先源1(African Taurine,普通牛)
- B = EUT:祖先源2的"纯净"代表(European Taurine)
- C = AAI:参考群体(African Indicine,瘤牛)
- O = OUT:外群(普通牛和瘤牛的共同祖先)
为什么用EUT替代AAI作为分母?
- EUT是"纯净"的普通牛,没有瘤牛混合
- 可以作为"100%普通牛"的标准
- 分母 = 如果完全是普通牛,f4应该是多少
结果解读
假设结果显示:
α = 0.65
含义:
- AFH中有 65%来自AFT(非洲普通牛)
- AFH中有 35%来自AAI(非洲瘤牛)
技术细节
1. 标准误估计
SE(α) = SE[f4(X,C;A,O)] / f4(B,C;A,O)
- 通过分块jackknife计算
- 删除每个染色体或染色体片段,重新计算α
- SE反映估计的不确定性
2. 置信区间
95% CI = α ± 1.96 × SE(α)
3. 假设检验
Z = α / SE(α)
检验 H0: α = 0(无来自A的贡献)
⚠️ 使用注意事项
1. 群体选择至关重要
❌ 错误选择:
- B不是A的"纯净"代表 → α偏差
- C与X关系不明确 → 违背假设
- O选择不当 → 信号混淆
✅ 正确选择:
- B应该是纯净的祖先源代表
- C应该与X有明确的系统发育关系
- O应该是可靠的外群(如不同物种)
2. 不能检测复杂混合
- 假设只有两个祖先源
- 如果实际有3+个源 → 结果难以解释
- 需要先用f3统计确认只有两个源
3. 混合时间的影响
- 近期混合:估计较准确
- 古老混合:
- 遗传漂移和重组可能混淆信号
- 标准误增大
- 需要结合染色体片段分析验证
🔍 D统计 (ABBA-BABA Test) - 基因流检测
核心原理
检测4个群体之间是否存在违背系统发育树的基因流
基本公式
D(P1, P2; P3, O) = (n_ABBA - n_BABA) / (n_ABBA + n_BABA)
其中:
- P1, P2 = 两个姐妹群体(系统发育树上的最近共同祖先)
- P3 = 外群体(与P1、P2有更远的关系)
- O = 外群 (Outgroup)
位点模式解读
系统发育树结构
┌─── P1
┌───┤
│ └─── P2
────┤
└─────── P3
等位基因模式
对于每个SNP位点,观察4个群体的等位基因:
ABBA模式:
P1: A (祖先型)
P2: B (衍生型) ← 这里有衍生等位基因
P3: B (衍生型) ← 这里也有衍生等位基因
O: A (祖先型)
→ 暗示 P2和P3之间有基因流
BABA模式:
P1: B (衍生型) ← 这里有衍生等位基因
P2: A (祖先型)
P3: B (衍生型) ← 这里也有衍生等位基因
O: A (祖先型)
→ 暗示 P1和P3之间有基因流
结果解读
D = 0:无基因流
n_ABBA ≈ n_ABBA
→ 符合系统发育树
→ 无额外基因流
D > 0:P2和P3之间有基因流
n_ABBA > n_BABA
→ P2和P3共享更多衍生等位基因
→ 存在P3 → P2的基因流(或相反)
D < 0:P1和P3之间有基因流
n_BABA > n_ABBA
→ P1和P3共享更多衍生等位基因
→ 存在P3 → P1的基因流(或相反)
统计检验
Z-score计算
Z = D / SE(D)
- SE通过分块jackknife或加权块bootstrap估计
- |Z| > 3 通常认为显著
P值
p-value = 2 × Φ(-|Z|)
其中Φ是标准正态分布的累积分布函数
Kim et al. 2020中的应用
虽然原文主要用f3和f4 ratio,但D统计可以用来验证:
D(AFT, EUT; AAI, OUT)
预期:
- 如果D显著 ≠ 0 → 存在瘤牛(AAI)与某个普通牛群体的基因流
- 结合f3的负值 → 确认混合方向
⚠️ 使用注意事项
1. 不能直接量化比例
- D统计只能告诉你是否存在基因流
- 不能告诉你多少比例
- D的绝对值大小不等于混合比例
2. 假设群体关系正确
- 依赖于预先知道的系统发育树
- 如果树拓扑错误 → D值难以解释
3. 不对称混合的影响
- 如果P1和P2都与P3有混合,但比例不同
- D可能检测到信号,但方向性不明确
4. 选择的干扰
- 如果P2和P3独立经历相同的选择压力
- 可能产生假阳性的基因流信号
🔄 方法整合:完整工作流程
Step 1: 初步检测 - D统计
D(P1, P2; P3, O)
目标:是否存在基因流?
结果:如果|D|显著 > 0 → 继续
Step 2: 混合确认 - F3统计
f3(X; A, B)
目标:X是否是A和B的混合后代?
结果:如果f3显著 < 0 → 继续
Step 3: 比例量化 - F4 Ratio
α = f4(X, C; A, O) / f4(B, C; A, O)
目标:X中来自A的比例是多少?
结果:α ± SE(α)
Step 4: 验证 - 染色体片段分析
- Local ancestry inference (如RFMix, MOSAIC)
- Haplotype-based方法 (如ChromoPainter)
- 直接观察染色体上的祖先片段
📊 实际案例:非洲混合牛
完整分析流程
1️⃣ D统计 - 初步检测
D(AFT, EUT; AAI, OUT) ≠ 0
→ 存在基因流信号
2️⃣ F3统计 - 确认混合
f3(AFH; AFT, AAI) < 0 (显著)
→ AFH确实是AFT和AAI的混合
3️⃣ F4 Ratio - 量化比例
α = 0.65 ± 0.05
→ AFH中65%来自AFT,35%来自AAI
4️⃣ 染色体验证
- 观察AFH个体染色体上的AFT vs AAI片段
- 验证全基因组平均比例
🎯 应用到中国黄牛研究
推荐工作流程
Phase 1: 基因流检测
D(北方黄牛, 欧洲牛; 印度瘤牛, 野牛)
D(南方黄牛, 欧洲牛; 印度瘤牛, 野牛)
预期:两个D值都显著 → 都有瘤牛渗入
Phase 2: 混合确认
f3(各中国黄牛品种; 欧洲牛, 印度瘤牛)
预期:所有品种f3 < 0(但数值可能不同)
Phase 3: 比例估计
α(品种) = f4(品种, 欧洲牛; 印度瘤牛, 野牛) / f4(参考欧洲牛, 欧洲牛; 印度瘤牛, 野牛)
预期:
- 南方品种:α较低(瘤牛成分更高)
- 北方品种:α较高(普通牛成分更高)
Phase 4: 地理模式
- 绘制α值的地理分布图
- 与环境变量(温度、湿度)关联
- 与表型(耐热性、瘤峰大小)关联
🔗 相关方法链接
参见:
📚 关键文献
方法原理
-
D统计原始论文:
- Green et al. (2010) Science - "A draft sequence of the Neandertal genome"
- Durand et al. (2011) Molecular Biology and Evolution
-
F4 Ratio原理:
- Patterson et al. (2012) Genetics - "Ancient admixture in human history"
- Reich et al. (2012) Nature - "Reconstructing Native American population history"
-
方法比较:
- Peter (2016) Genetics - "Admixture, Population Structure, and F-Statistics"
牛基因组应用
- Kim et al. (2020) Nature Genetics - "The genome landscape of indigenous African cattle"
- Chen et al. (2018) Science - 中国黄牛全基因组研究
🛠️ 软件工具
ADMIXTOOLS套件
# D统计
qpDstat -p parfile
# F3统计
qp3Pop -p parfile
# F4 Ratio
qpF4ratio -p parfile
ADMIXTOOLS2 (R包)
library(admixtools)
# D统计
qpdstat(data, p1, p2, p3, o)
# F4 Ratio
qpf4ratio(data, X, A, B, C, O)