F4-Ratio与D统计对比-混合比例与基因流检测

F4 Ratio vs D统计 - 混合比例量化与基因流检测对比

📊 方法对比总览

维度 F4 Ratio D统计 (ABBA-BABA)
目的 量化混合比例 检测基因流方向与显著性
群体数 5个群体 4个群体
输出 混合比例 α (0-1) D值 + Z-score
信息类型 定量 定性+半定量
使用场景 已知混合,估计比例 检测是否存在基因流
前提条件 需先确认混合存在 可独立用于发现基因流

🧮 F4 Ratio - 混合比例定量估计

核心原理

估计目标群体X中来自源群体A的祖先成分比例

公式

α = f4(X, C; A, O) / f4(B, C; A, O)

其中:

α = X中来自A的祖先成分比例 (0 ≤ α ≤ 1)


理解F4统计的基础

**f4(W, X; Y, Z)**测量的是:


Kim et al. 2020案例解读

研究设计 (Figure 3c)

α = f4(AFH, AAI; AFT, OUT) / f4(EUT, AAI; AFT, OUT)

目标:估计非洲混合牛(AFH)中来自非洲普通牛(AFT)的比例

各群体角色

为什么用EUT替代AAI作为分母?

结果解读

假设结果显示:

α = 0.65

含义


技术细节

1. 标准误估计

SE(α) = SE[f4(X,C;A,O)] / f4(B,C;A,O)

2. 置信区间

95% CI = α ± 1.96 × SE(α)

3. 假设检验

Z = α / SE(α)
检验 H0: α = 0(无来自A的贡献)

⚠️ 使用注意事项

1. 群体选择至关重要

错误选择

正确选择

2. 不能检测复杂混合

3. 混合时间的影响


🔍 D统计 (ABBA-BABA Test) - 基因流检测

核心原理

检测4个群体之间是否存在违背系统发育树的基因流

基本公式

D(P1, P2; P3, O) = (n_ABBA - n_BABA) / (n_ABBA + n_BABA)

其中:


位点模式解读

系统发育树结构

        ┌─── P1
    ┌───┤
    │   └─── P2
────┤
    └─────── P3

等位基因模式

对于每个SNP位点,观察4个群体的等位基因:

ABBA模式

P1: A (祖先型)
P2: B (衍生型)  ← 这里有衍生等位基因
P3: B (衍生型)  ← 这里也有衍生等位基因
O:  A (祖先型)

→ 暗示 P2和P3之间有基因流

BABA模式

P1: B (衍生型)  ← 这里有衍生等位基因
P2: A (祖先型)
P3: B (衍生型)  ← 这里也有衍生等位基因
O:  A (祖先型)

→ 暗示 P1和P3之间有基因流


结果解读

D = 0:无基因流

n_ABBA ≈ n_ABBA
→ 符合系统发育树
→ 无额外基因流

D > 0:P2和P3之间有基因流

n_ABBA > n_BABA
→ P2和P3共享更多衍生等位基因
→ 存在P3 → P2的基因流(或相反)

D < 0:P1和P3之间有基因流

n_BABA > n_ABBA
→ P1和P3共享更多衍生等位基因
→ 存在P3 → P1的基因流(或相反)

统计检验

Z-score计算

Z = D / SE(D)

P值

p-value = 2 × Φ(-|Z|)

其中Φ是标准正态分布的累积分布函数


Kim et al. 2020中的应用

虽然原文主要用f3和f4 ratio,但D统计可以用来验证:

D(AFT, EUT; AAI, OUT)

预期


⚠️ 使用注意事项

1. 不能直接量化比例

2. 假设群体关系正确

3. 不对称混合的影响

4. 选择的干扰


🔄 方法整合:完整工作流程

Step 1: 初步检测 - D统计

D(P1, P2; P3, O)

目标:是否存在基因流?
结果:如果|D|显著 > 0 → 继续


Step 2: 混合确认 - F3统计

f3(X; A, B)

目标:X是否是A和B的混合后代?
结果:如果f3显著 < 0 → 继续


Step 3: 比例量化 - F4 Ratio

α = f4(X, C; A, O) / f4(B, C; A, O)

目标:X中来自A的比例是多少?
结果:α ± SE(α)


Step 4: 验证 - 染色体片段分析


📊 实际案例:非洲混合牛

完整分析流程

1️⃣ D统计 - 初步检测

D(AFT, EUT; AAI, OUT) ≠ 0

→ 存在基因流信号

2️⃣ F3统计 - 确认混合

f3(AFH; AFT, AAI) < 0 (显著)

→ AFH确实是AFT和AAI的混合

3️⃣ F4 Ratio - 量化比例

α = 0.65 ± 0.05

→ AFH中65%来自AFT,35%来自AAI

4️⃣ 染色体验证


🎯 应用到中国黄牛研究

推荐工作流程

Phase 1: 基因流检测

D(北方黄牛, 欧洲牛; 印度瘤牛, 野牛)
D(南方黄牛, 欧洲牛; 印度瘤牛, 野牛)

预期:两个D值都显著 → 都有瘤牛渗入

Phase 2: 混合确认

f3(各中国黄牛品种; 欧洲牛, 印度瘤牛)

预期:所有品种f3 < 0(但数值可能不同)

Phase 3: 比例估计

α(品种) = f4(品种, 欧洲牛; 印度瘤牛, 野牛) / f4(参考欧洲牛, 欧洲牛; 印度瘤牛, 野牛)

预期

Phase 4: 地理模式


🔗 相关方法链接

参见:


📚 关键文献

方法原理

  1. D统计原始论文

    • Green et al. (2010) Science - "A draft sequence of the Neandertal genome"
    • Durand et al. (2011) Molecular Biology and Evolution
  2. F4 Ratio原理

    • Patterson et al. (2012) Genetics - "Ancient admixture in human history"
    • Reich et al. (2012) Nature - "Reconstructing Native American population history"
  3. 方法比较

    • Peter (2016) Genetics - "Admixture, Population Structure, and F-Statistics"

牛基因组应用

  1. Kim et al. (2020) Nature Genetics - "The genome landscape of indigenous African cattle"
  2. Chen et al. (2018) Science - 中国黄牛全基因组研究

🛠️ 软件工具

ADMIXTOOLS套件

# D统计
qpDstat -p parfile

# F3统计
qp3Pop -p parfile

# F4 Ratio
qpF4ratio -p parfile

ADMIXTOOLS2 (R包)

library(admixtools)

# D统计
qpdstat(data, p1, p2, p3, o)

# F4 Ratio
qpf4ratio(data, X, A, B, C, O)