05.RDA结果解读

RDA 结果解读:双序图(Biplot)的读法

RDA(Redundancy Analysis,冗余分析)是景观基因组学中最常用的 GEA 方法之一,其输出的双序图有固定的解读逻辑,掌握后可以直接"看图说话"。


一、RDA 图中的三类对象

① 样本点    每个点 = 一个个体(野生种群)或一个品种(家养动物)
② 环境变量箭头    每个箭头 = 一个环境变量
③ 坐标轴    RDA1、RDA2... = 约束排序轴(被环境变量约束的遗传变异方向)

二、读"信号与哪个环境因子相关"的三条规则

规则一:看箭头方向(最重要)

箭头方向代表该环境变量梯度增大的方向。

位置关系 含义
样本点在箭头延长线方向 该样本对应的环境值较高
样本点在箭头反方向 该样本对应的环境值较低
样本点与箭头垂直 该变量对该样本影响较小

以 Su et al. 2026(山荆子)为例

结论:"NE 种群的适应信号与 BIO4 相关" 的意思是,NE 种群在 RDA 空间里的位置与 BIO4 箭头方向高度一致,暗示 BIO4 是驱动 NE 与其他种群遗传分化的关键气候因子。

规则二:看箭头长度

箭头越长 → 该变量对遗传变异的解释能力越强

Su et al. 中 BIO4 和 BIO5 箭头明显比 BIO2 长,说明温度季节性和最热月温度是最重要的驱动因子。

规则三:看箭头夹角

夹角 含义
夹角小 两变量高度正相关(共线,信息冗余)
夹角 ≈ 90° 两变量基本独立
夹角 ≈ 180° 两变量负相关

这是做变量筛选(VIF 或相关系数过滤)的直观依据:如果两个箭头几乎重叠,它们在 RDA 中携带的信息是冗余的,需要保留其中一个。


三、"适应信号"的含义

RDA 本质上是约束排序:强迫遗传变异只在能被环境变量解释的方向上排列。

⚠️ 重要注意:RDA 本身不能证明因果关系,只能说明相关。确认是适应性选择还需要后续候选基因功能验证(如转录组数据、EHH 分析)。


四、家养动物 vs 野生种群:分析单元的区别

维度 野生种群(如山荆子) 家养动物品种(如牛)
分析单元 个体基因型(0/1/2) 品种等位基因频率(0–1)
环境变量 每个个体的采样地环境值 每个品种原产地的环境值
RDA 图中的点 一个点 = 一个个体 一个点 = 一个品种
原因 个体有独立地理坐标,采样地 = 适应地 采样地 ≠ 适应地,需用原产地匹配

家养动物必须用品种级别,因为选择压力作用于品种整体,且同一品种个体往往来自同一农场,环境值相同,用个体级别只会引入冗余噪音。


五、pRDA:控制地理效应

普通 RDA 的信号来源混杂:

遗传变异 ~ 气候变量
    实际包含:
    (1) 气候驱动的真实适应性信号  ← 目标
    (2) 地理隔离导致的种群分化   ← 混杂
    (3) 种群历史(瓶颈、漂变)   ← 混杂

解决方案:partial RDA(偏 RDA)

# 将地理坐标作为条件变量偏出去
pRDA <- rda(geno_freq ~ bio2 + bio4 + bio5 + bio12 + bio13 + bio17 
            + Condition(Latitude_N + Longitude_E), 
            data = env_data)

最佳实践

注意:气候和地理本身高度相关(纬度高→温度低),过度偏掉地理效应可能同时移除真实气候适应信号,需权衡。


六、Su et al. 2026 案例总结

image.png

文章用 6 个精选 BIO 变量(BIO2/4/5/12/13/17)做 RDA,结果:

该研究未做 pRDA,是其方法上的一个局限——RDA 结果中可能混入地理隔离信号。


相关笔记