基因组偏移 Genomic Offset
基因组偏移(Genomic Offset)
景观基因组学中用于预测种群在未来气候变化下适应风险的核心方法。从"现在的适应"延伸到"未来的脆弱性"。
一、核心概念
什么是 Genomic Offset
当前气候 → 种群基因组已适应当前环境(基因型-环境匹配)
↓ 气候变化
未来气候 → 环境变了,但基因组还是原来的
两者之间的"错位程度" = Genomic Offset
Offset 越大 → 基因组与未来环境越不匹配 → 适应风险越高
本质上是用当前 GEA 鉴定出的适应性位点建模,计算"当前基因型预测的环境"与"未来实际环境"之间的距离。用适应性位点而非全基因组 SNP,是因为只有适应性位点才反映气候驱动的遗传变异。
二、三种 Offset 类型
| 类型 | 含义 | 回答的问题 |
|---|---|---|
| Local offset | 原地不动,当前基因组与未来气候的错位 | "如果种群留在原地,适应有多困难?" |
| Forward offset | 种群向外迁移到更适合未来气候的地方,需要多大遗传变化 | "迁移能帮上忙吗?往哪里迁?" |
| Reverse offset | 周边种群迁来"捐献"基因,能否帮助本地适应 | "有没有合适的遗传资源供体?" |
三种类型联合分析,比只报告 local offset 信息量大得多:
- local + reverse 都高(紫色)→ 原地适应难,又找不到合适基因供体 → 双重困境
- forward 高(绿色)→ 需要向外迁移,但有路可走
- local 低(蓝色)→ 相对安全,基因组与未来环境基本匹配
三、计算方法:梯度森林(Gradient Forest, GF)
GF 是目前 Genomic Offset 分析的主流方法:
Step 1:用当前 GEA 候选位点 + 当前气候变量,训练 GF 模型
→ 学习"等位基因频率如何随环境变化"
Step 2:将训练好的模型投影到未来气候变量
→ 预测"未来环境下预期的等位基因频率"
Step 3:计算当前基因型与未来预期基因型之间的欧氏距离
→ 即 Genomic Offset 值
R 实现(gradientForest 包)
library(gradientForest)
# Step 1:训练 GF 模型
gf_model <- gradientForest(
data = cbind(env_current, geno_freq), # 环境变量 + 等位基因频率
predictor.vars = colnames(env_current),
response.vars = colnames(geno_freq),
ntree = 500
)
# Step 2:转换当前和未来气候到遗传空间
current_transformed <- predict(gf_model, env_current)
future_transformed <- predict(gf_model, env_future)
# Step 3:计算 Genomic Offset(欧氏距离)
genomic_offset <- sqrt(rowSums((future_transformed - current_transformed)^2))
四、未来气候数据从哪来
WorldClim 2.1 CMIP6 降尺度数据:
https://worldclim.org/data/cmip6/cmip6climate.html
标准做法是选多个 GCM 取平均,降低单一模型的不确定性:
| 常用模型 | 机构 | 国家 |
|---|---|---|
| ACCESS-CM2 | Australian Community Climate and Earth System Simulator | 🇦🇺 澳大利亚 |
| CMCC-ESM2 | Centro Euro-Mediterraneo sui Cambiamenti Climatici | 🇮🇹 意大利 |
| GISS-E2-1-G | NASA Goddard Institute for Space Studies | 🇺🇸 美国 |
排放情景(SSP):
| 情景 | 含义 | 2100年预估升温 |
|---|---|---|
| SSP245 | 中等排放,部分减排措施落实 | +2.7°C |
| SSP585 | 高排放,化石燃料照旧使用 | +4.4°C |
时间段:通常选 2060s(2041–2060)、2080s(2061–2080)、2100s(2081–2100)
所有这些数据格式均为 GeoTIFF,与当前气候变量提取方式完全相同,可以直接用 terra::extract() 按坐标提取。
五、案例:Su et al. 2026(山荆子)
分析设计
- 候选位点:GEA(LFMM ∩ RDA)交叉验证的核心适应位点(3,671 SNPs + 214 SVs)
- 气候模型:ACCESS-CM2、CMCC-ESM2、GISS-E2-1-G 三模型取平均
- 情景:SSP245 + SSP585
- 时间段:2060s、2080s、2100s
- 投影范围:约 78,000 个地理网格
主要结果
空间分布(2081–2100):
- 高 offset 热点:东部和东南部,尤其是朝鲜半岛附近沿海地区
- 低 offset 区域:西部内陆
- SSP585 下整体 offset 显著高于 SSP245
三色合成图区域解读:
| 区域 | 颜色 | 主要压力 |
|---|---|---|
| 东北内陆 | 紫色(红+蓝) | local + reverse 双高,双重困境 |
| 东部沿海 | 黄绿色 | forward 压力为主,需向外迁移 |
| 内陆中部 | 深绿色 | forward 为主但压力低 |
种群间比较:
- NE(东北)种群在所有时间段和所有 offset 类型下始终最高,且持续增大
- 与 Figure 2 的逻辑闭环:NE 多样性最低 + ROH 最高 → 遗传弹药少 → 未来适应风险最大
与有害负荷的关系:
- Local/reverse offset 与有害突变负荷无显著相关(R²=0.0018,P=0.12)
- Forward offset 与有害突变负荷显著正相关(R²=0.23,P=4×10⁻⁹)
- 解释:携带更多纯合有害突变的种群,迁移时面临更大适应障碍
六、方法局限性
- ⚠️ 生态有效性未验证:offset 大不等于种群一定灭绝,还取决于表型可塑性、迁移能力、微生境缓冲
- ⚠️ 假设适应性遗传架构不变:GF 模型用的是当前候选位点,但气候变化可能激活新的适应途径
- ⚠️ 外推风险:对采样范围之外的区域预测不确定性更大
- ⚠️ 是基因组层面的上限估计,实际风险可能低于预测值
七、如何应用到牛研究
| 维度 | 山荆子(野生植物) | 牛(家养动物) |
|---|---|---|
| 气候压力传导 | 直接作用于个体 | 通过饲养管理间接作用 |
| 迁移能力 | 受地理隔离制约 | 人为引种可"瞬间迁移" |
| 分析意义 | 预测自然种群命运 | 识别哪些品种与未来气候最不匹配,指导育种资源优先保护 |
牛研究中做 Genomic Offset 的价值:
- 识别高风险品种(基因组与未来气候错位最严重)
- 为气候适应育种提供遗传资源优先级排序
- 如果文章有"保护遗传资源"或"气候韧性育种"角度,加上去说服力强
数据准备:
- 完成 GEA 分析(LFMM2 + RDA + BayPass 交叉),获得核心适应位点
- 从 WorldClim CMIP6 下载未来气候 BioClim 变量(同一套,只是未来版本)
- 按品种原产地坐标提取当前和未来环境值
- 训练 GF 模型 → 计算 offset → 可视化