TAG | 贝叶斯神经网络实现高精度可解释的基因组预测
基因组选择技术正在改变动植物育种的节奏。通过全基因组分子标记估算育种值,育种家能够更早更准地锁定优良基因型,缩短育种周期,提升遗传增益。但随着研究深入,两个问题逐渐凸显:深度学习模型预测虽准,但内部逻辑难以解读;多数方法只给出单一预测值,无法评估结果的可信程度。
燕山大学孙瑾团队联合国际玉米小麦改良中心、康奈尔大学等机构,在Theoretical and Applied Genetics 发表新研究:Bayesian neural networks for genomic prediction: uncertainty quantification and SNP interpretation with SHAP and GWAS,提出一套融合贝叶斯神经网络与可解释性分析的基因组预测框架,为作物育种提供兼具高精度、不确定性量化和生物学可解读性的新方案。

方法上的两处关键改进
研究团队构建了基于LASSO正则化的贝叶斯神经网络模型。与传统神经网络不同,贝叶斯方法将模型参数视为概率分布而非固定值,通过变分推断近似后验分布,在预测的同时输出每个样本的不确定性估计。LASSO的引入则有效处理了基因组数据标记数远大于样本数的典型难题,筛选出对性状预测贡献显著的核心标记,提升模型稳定性与计算效率。
针对深度学习黑箱问题,团队同步开发了GSMeSP解释框架。该工具整合SHAP值分析与全基因组关联研究信号,通过加权排序策略,从预测贡献和统计显著性两个维度共同评估每个SNP的重要性。这种方法既保留了机器学习捕捉非线性互作的能力,又借助传统遗传学分析增强生物学合理性,帮助研究者定位真正与目标性状相关的功能位点。

棉花小麦双数据集验证效果
研究使用包含1385份陆地棉种质的面板进行主体分析,材料跨越25年、42个田间试验,基因型数据涵盖12296个高质量SNP,表型覆盖皮棉产量、衣分、纤维长度、强度、马克隆值等8个关键性状。为检验方法泛化能力,团队额外采用包含634个小麦重组自交系、44826个SNP的独立数据集进行交叉验证。
在棉花数据上,贝叶斯神经网络模型在全部8个性状上均优于传统线性模型、支持向量机、随机森林及多种深度学习基准方法,预测准确性提升幅度介于0.46%至47.85%之间。小麦数据集的验证结果同样显示该方法在不同作物、不同遗传背景下的稳健表现。

预测结果附带可信区间,育种决策更稳妥
该框架的另一实用价值在于提供样本级别的95%可信区间。对于多数性状,预测区间宽度仅占表型范围的12%至17%,表明模型具有较高置信度;而衣分和短纤维指数等性状区间较宽,提示其遗传架构更复杂或受环境影响更大。育种家可结合预测值与区间宽度,优先选择预测表现优且置信度高的材料进入下一轮测试,降低因模型过度自信导致的决策风险。


从模型输出找到关键基因位点
通过GSMeSP分析,研究团队识别出一批具有生物学意义的候选位点。约70%的高排名SNP位于棉花D亚基因组,其中D05染色体在纤维长度、衣分和整齐度三个性状中均呈现显著富集,提示该区域可能存在调控纤维发育的关键基因簇。例如,排名靠前的SNP 8590位于已知纤维合成基因GhCesA4-1-D07下游872bp处,为后续功能验证提供了明确靶点。
依赖图分析还揭示了标记间的非线性互作模式。以纤维长度为例,两个核心SNP之间存在条件依赖关系:一个位点的效应方向会受到另一个位点基因型的调节。这类互作信息在传统线性模型中难以捕捉,但对理解复杂性状的遗传基础具有重要价值。


代码已开源
研究团队已将贝叶斯神经网络框架的完整代码公开在GitHub:https://github.com/GSBreeder/BNNs/tree/main,支持不确定性量化与SHAP分析模块的直接调用。方法设计兼顾预测性能与计算可行性,可在常规服务器配置下运行,便于育种单位集成到现有选择流程中。
随着高通量表型与基因型数据的持续积累,如何将算法优势转化为育种实效成为关键。这项工作通过方法创新与生物学验证的结合,为深度学习在作物遗传改良中的可信应用提供了可参考的路径。后续研究可进一步整合环境协变量、拓展多组学数据融合,并探索自适应权重策略以提升不同性状下的解释稳健性。
关于GS项目,米源生物可以服务代跑目前所有已开源的算法和模型,包括传统线性模型和机器学习、现在流行的深度学习算法,也可服务提供代码以及帮忙部署环境。若现有算法不满足需求,可进行科研合作,定制化开发算法。
比如,这是给客户复现论文中GS内容的一个小项目:【项目案例】定制7种常见基因组选择(GS)模型的核心代码。当然也还有在执行的不宜公开的大项目。
GS技术本身并不复杂,关键在于如何有效地与现有育种流程体系相结合。中国种企要真正落地应用GS,不能照搬国外模式,要符合国情,这里面还有很多的坑要踩。如果企业有决心做育种升级,想要避坑的,我们可提供全程GS陪跑的商业化服务,包括育种流程设计、数据标准化采集与处理、GS建模与迭代优化、材料选择等等。
以上种种,希望能加速您的科研以及帮助智能育种项目落地。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)