F3统计-三群体混血检测
F3统计 (Three-Population Test) - 三群体混血检测
📌 核心原理
F3统计用于检测一个群体是否是另外两个群体的混血后代
基本公式
f3(A; B, C) = E[(A - B)(A - C)]
其中:
- A = 目标群体(待检测是否为混血)
- B, C = 两个潜在的祖先源群体
- E[...] = 期望值(跨基因组所有位点计算)
🔍 结果解读
负值 → 混血证据 ⭐
f3 < 0 且 Z-score显著
→ 群体A确实是B和C的混血后代
为什么是负值?
- 如果A是B和C的混血:A的等位基因频率介于B和C之间
- (A-B)和(A-C)会反向变化:
- 当A更接近B时:(A-B)小,(A-C)大
- 当A更接近C时:(A-B)大,(A-C)小
- 两者相乘后求和 → 负值
正值 → 非混血或其他关系
f3 > 0
→ A不是B和C的直接混血
→ 或者A、B、C之间存在其他进化关系
📊 实际应用案例:Kim et al. 2020
研究问题
非洲混血牛(African Hybrid, AFH)是否是非洲普通牛(AFT)和非洲瘤牛(AAI)的混血?
检验设计
f3(AFH; AFT, AAI)
结果
- 显著负值 (具体数值见原文Figure 3)
- Z-score显著
- 结论:AFH确实是AFT和AAI的混血后代
关键发现
通过不同品种的f3值可以推断:
- 更负的f3值 → 混血程度更高
- 略负的f3值 → 混血程度较低
- 可以区分不同程度的基因渗入
🧮 计算细节
数据要求
- 基因型数据:SNP芯片或全基因组测序
- 群体样本:每个群体至少5-10个个体
- 质控:MAF过滤、LD修剪
常用软件
- ADMIXTOOLS (qp3Pop)
- TreeMix
- ADMIXTOOLS2 (R包)
统计检验
Z-score = f3 / SE(f3)
- SE通过分块jackknife或bootstrap估计
- |Z| > 3 通常认为显著
⚠️ 注意事项与局限
1. 负值的必要性
❌ 只有显著负值才能确认混血
✅ 正值不能排除混血(可能有其他原因)
2. 祖先源选择很重要
- 如果B和C不是真正的祖先源 → 可能得到正值
- 需要基于系统发育树或PCA合理选择
3. 混血时间的影响
- 古老混血:f3可能不显著(信号衰减)
- 近期混血:f3显著负值
- 结合其他方法(如染色体片段分析)更准确
4. 假阳性控制
- 多重检验校正(Bonferroni)
- 检验多个(B, C)组合以验证结论
🔗 与其他方法的关联
F3 vs F4 ratio
- F3:检测是否混血(定性)
- F4 ratio:估计混血比例(定量)
- 工作流程:先用F3确认混血 → 再用F4 ratio估计比例
F3 vs D统计
- F3:三群体,检测A是否是B×C的混血
- D统计:四群体,检测基因流方向
- 互补:F3确认混血,D统计确认流向
F3 vs Admixture
- F3:基于等位基因频率的统计检验(假设自由)
- Admixture:基于模型的祖先成分估计(需假设K值)
- 优势:F3更适合检测不对称混血
📚 经典文献
-
原始方法:
- Reich et al. (2009) Nature - "Reconstructing Indian population history"
-
方法详解:
- Patterson et al. (2012) Genetics - "Ancient admixture in human history"
-
牛基因组应用:
- Kim et al. (2020) Nature Genetics - "The genome landscape of indigenous African cattle"
🎯 应用到中国黄牛研究
潜在应用
f3(中国黄牛品种; 欧洲普通牛, 印度瘤牛)
预期:
- 应该得到显著负值(已知中国黄牛是混血)
- 不同品种的f3值可能不同:
- 南方品种:可能更负(瘤牛成分更高)
- 北方品种:可能不那么负(普通牛成分更高)
进一步分析
结合F4 ratio定量估计:
- 各品种的瘤牛/普通牛混血比例
- 地理梯度模式
- 与环境适应的关联