05.RDA结果解读

RDA 结果解读：双序图（Biplot）的读法

RDA（Redundancy Analysis，冗余分析）是景观基因组学中最常用的 GEA 方法之一，其输出的双序图有固定的解读逻辑，掌握后可以直接"看图说话"。

一、RDA 图中的三类对象

① 样本点    每个点 = 一个个体（野生种群）或一个品种（家养动物）
② 环境变量箭头    每个箭头 = 一个环境变量
③ 坐标轴    RDA1、RDA2... = 约束排序轴（被环境变量约束的遗传变异方向）

二、读"信号与哪个环境因子相关"的三条规则

规则一：看箭头方向（最重要）

箭头方向代表该环境变量梯度增大的方向。

位置关系	含义
样本点在箭头延长线方向	该样本对应的环境值较高
样本点在箭头反方向	该样本对应的环境值较低
样本点与箭头垂直	该变量对该样本影响较小

以 Su et al. 2026（山荆子）为例：

BIO5（最热月最高温）箭头指向右侧 → 右侧的 HB2/NW 种群所在地区夏季更热
BIO4（温度季节性）箭头指向左侧 → 左侧的 NE 种群冬夏温差更大
BIO17（最干季降水）箭头偏向左上 → NE 种群最干季降水更少

结论："NE 种群的适应信号与 BIO4 相关" 的意思是，NE 种群在 RDA 空间里的位置与 BIO4 箭头方向高度一致，暗示 BIO4 是驱动 NE 与其他种群遗传分化的关键气候因子。

规则二：看箭头长度

箭头越长 → 该变量对遗传变异的解释能力越强

Su et al. 中 BIO4 和 BIO5 箭头明显比 BIO2 长，说明温度季节性和最热月温度是最重要的驱动因子。

规则三：看箭头夹角

夹角	含义
夹角小	两变量高度正相关（共线，信息冗余）
夹角 ≈ 90°	两变量基本独立
夹角 ≈ 180°	两变量负相关

这是做变量筛选（VIF 或相关系数过滤）的直观依据：如果两个箭头几乎重叠，它们在 RDA 中携带的信息是冗余的，需要保留其中一个。

三、"适应信号"的含义

RDA 本质上是约束排序：强迫遗传变异只在能被环境变量解释的方向上排列。

样本点在 RDA 空间里的位置 = 该样本在环境梯度上的遗传响应模式
某群体与某箭头方向一致 = 该群体的遗传组成被该环境变量塑造
这种塑造关系即为"适应信号"

⚠️ 重要注意：RDA 本身不能证明因果关系，只能说明相关。确认是适应性选择还需要后续候选基因功能验证（如转录组数据、EHH 分析）。

四、家养动物 vs 野生种群：分析单元的区别

维度	野生种群（如山荆子）	家养动物品种（如牛）
分析单元	个体基因型（0/1/2）	品种等位基因频率（0–1）
环境变量	每个个体的采样地环境值	每个品种原产地的环境值
RDA 图中的点	一个点 = 一个个体	一个点 = 一个品种
原因	个体有独立地理坐标，采样地 = 适应地	采样地 ≠ 适应地，需用原产地匹配

家养动物必须用品种级别，因为选择压力作用于品种整体，且同一品种个体往往来自同一农场，环境值相同，用个体级别只会引入冗余噪音。

五、pRDA：控制地理效应

普通 RDA 的信号来源混杂：

遗传变异 ~ 气候变量
    实际包含：
    (1) 气候驱动的真实适应性信号  ← 目标
    (2) 地理隔离导致的种群分化   ← 混杂
    (3) 种群历史（瓶颈、漂变）   ← 混杂

解决方案：partial RDA（偏 RDA）

# 将地理坐标作为条件变量偏出去
pRDA <- rda(geno_freq ~ bio2 + bio4 + bio5 + bio12 + bio13 + bio17 
            + Condition(Latitude_N + Longitude_E), 
            data = env_data)

最佳实践：

同时跑普通 RDA 和 pRDA，分开报告
做 Variation Partitioning（方差分解），量化"纯气候"、"纯地理"、"共同解释"各占比例
条件变量建议用多项式项（经度²、纬度²、经×纬），更完整控制空间自相关
也可将 LFMM2 的潜在因子（K 个）作为条件变量，效果往往优于直接用坐标

注意：气候和地理本身高度相关（纬度高→温度低），过度偏掉地理效应可能同时移除真实气候适应信号，需权衡。

六、Su et al. 2026 案例总结

文章用 6 个精选 BIO 变量（BIO2/4/5/12/13/17）做 RDA，结果：

RDA1 轴分离 HB2/NW（正端，高温高湿）vs NE（负端，高温季节性+干旱）
HB2/NW 适应信号主导因子：BIO5（最热月最高温）、BIO13（最湿月降水）
NE 适应信号主导因子：BIO4（温度季节性）、BIO17（最干季降水）

该研究未做 pRDA，是其方法上的一个局限——RDA 结果中可能混入地理隔离信号。