过去几年,鱼类相关研究正在快速进入多组学时代。一方面,鱼类是全球最重要的动物蛋白来源之一,和水产养殖、食品安全、经济发展密切相关;另一方面,鱼类又是研究性别决定、发育调控、环境适应、疾病抗性、进化与多样性的重要模型和资源对象。

但问题也很明显:数据越来越多,真正好用的平台却并不多。目前鱼类研究已经积累了大量基因组、RNA-seq、miRNA-seq、单细胞转录组、ATAC-seq、ChIP-seq、WGBS、Hi-C以及蛋白组数据,但这些数据往往分散在不同项目、不同文章和不同数据库中。研究者常常要在多个平台之间反复跳转,自己下载、清洗、整合、比对,成本很高。

更关键的是,许多现有数据库通常只覆盖某一类数据,比如表达数据、单细胞或者miRNA;真正能把基因组、转录组、表观组和蛋白组系统串起来的平台,尤其在鱼类领域,并不多见。

今天我们分享的这篇华中农业大学团队发表于Nucleic Acids Research的文章,介绍的正是这样一个面向鱼类研究的综合资源平台:iFish。

  • 网址:https://gonglab.hzau.edu.cn/iFish/

图片

 iFish包含哪些数据信息?

作者整合了88种鱼类的多组学数据,总计13,377个高通量数据,处理后的数据量超过40TB。数据库覆盖了从遗传变异到基因表达、从表观修饰到蛋白表达的多个层面,规模和完整性都很突出。

图片

01 基因组

iFish共收录了88个鱼类基因组组装,包括76个染色体级组装和12个高质量scaffold级组装。此外,数据库还整合了23个物种的884个全基因组重测序(WGS)数据集,鉴定出:137,037,750个SNP和45,523,666个InDel。

这些变异都经过统一流程处理和注释,用户可以直接按基因名或SNP ID进行检索。

02 转录组

这是iFish最有分量的部分之一。数据库整合了9797个bulk RNA-seq数据集(32个物种)、840个miRNA-seq数据集(14个物种)、293个scRNA-seq数据集(6个物种)。基于这些数据集,系统识别并定量了:1,873,956 个mRNA、287,873个lncRNA、197,554个circRNA、5,371个pre-miRNA、6,068个mature miRNA。

也就是说,iFish并不只有表达数据,而是把鱼类中的编码RNA和非编码RNA都尽可能纳入了统一框架。

03 表观组

iFish还整合了1563个表观组数据集,包括:696个ChIP-seq、642个ATAC-seq、131个WGBS、94个Hi-C。论文中还提到,数据库收录了123,598,249个ATAC-seq peaks和80,226,584个ChIP-seq peaks,在鱼类领域,这样的整合力度相当可观。

04 蛋白组

除核酸组学外,iFish 还纳入了50个蛋白组项目,支持蛋白表达谱查询,使得研究者能够从转录层进一步延伸到蛋白层。

 如何使用iFish?

除了整合收录以上数据集外,iFish还提供基因注释、RNA表达数据、基因共表达网络和转录因子调控网络等信息,此外数据库还支持交互式浏览、可视化分析及数据下载功能。

图片

01基因注释和同源信息

作者在数据库中整理了约270万条基因注释信息,并进行了跨物种同源基因识别。这意味着研究者不仅能看某个物种里的一个基因,还能很快追踪它在其他鱼类中的同源基因和保守情况。

如何查找同源基因?

点击最上方菜单栏“Genomics”,弹出下拉菜单。

图片

点击“Homologous genes”,即可查看同源基因。

图片

02 转录因子

在转录因子模块(菜单栏Genomics点击Transcription factor (TF))中,数据库收集了27种鱼类的已知TF,并在61种鱼类中鉴定了新的TF,并将其注释至相应的转录因子家族。用户可以查询所选TF家族和物种的详细遗传信息。

点击最上方菜单栏“Genomics”,弹出下拉菜单。

图片

点击“Transcription factor”。

图片

03 基因共表达网络

平台进一步构建了289,090,210对基因共表达关系,点击菜单“Function”弹出下拉菜单,再点击“Co-expression”。

图片

弹出如下界面。

图片

在这个共表达模块中,用户可以选择物种和组织,输入RNA ID或基因符号,并设置Rho阈值(范围:0.8~1,默认值:0.9)以获取与查询RNA相关的共表达基因。点击“搜索”按钮将显示包含物种、组织、RNA ID、类型、相关基因、基因类型、基因符号、Rho和FDR列的表格。下面是一个共享表达网络。中央圆表示被查询的基因,并与相关基因相连。红色圆表示lncRNA,绿色圆表示circRNA,蓝色圆表示mRNA。

图片

除了网络外,并列出详细的共表达相关的基因,点击右上角绿色“Download Table”,即可下载。

图片

04 转录因子TF-gene调控网络

数据库还构建了281,328,748对TF–gene调控关系。点击“Function”,再点击“TF regulation network”。

图片

选择物种,输入基因,点击search。

图片

即可得到Gene-TF-motif网络和TF-Target network表格。

图片

图片

05 非编码RNA

相比很多鱼类数据库只覆盖mRNA或单一数据类型,iFish把lncRNA、circRNA、miRNA的识别、定量、保守性和部分功能关联分析都纳入了平台。

如果你的研究关注lncRNA在发育或抗病中的作用、circRNA 的组织特异性表达、miRNA与靶基因调控、ncRNA的跨物种保守性,那么iFish可能会比传统数据库更有帮助。

以miRNA为例,点击菜单栏“Transcriptomics”,点击下拉菜单“miRNA”。选择物种, 输入ncRNA ID,点击Search。

图片

可以看到miRNA的信息和表达数据,可以看到该ncRNA在不同组织的表达分布。

图片

图片

如点击miRNA信息右边的“Details”。可以看到完整信息,包括Sequence模块中的序列信息和Neighboring Genes模块中的相邻基因。

图片

案例演示

为了展示iFish的实际用途,文章以斑马鱼的dmrt1为例进行了演示。

dmrt1是鱼类性别决定和雄性发育研究中非常经典的基因,在多种鱼类中都被证明与睾丸分化和雄性发育密切相关。通过iFish的gene search功能,研究者可以围绕dmrt1快速完成以下操作:

  • 查看基因的基本注释和基因组位置

  • 在JBrowse中浏览其基因区域

  • 查看其在不同组织中的表达情况

  • 调用TF–gene网络信息

  • 查询其在睾丸组织中的共表达基因

结果显示,dmrt1在睾丸中高表达,与已有研究结论一致。

这个案例很有代表性。它说明iFish的核心价值不是简单告诉你“这个基因存在”,而是能帮助你围绕一个目标基因,快速把表达、调控和功能线索串起来。

图片

对于iFish更多的功能,大家感兴趣的可以自行探索。尽管iFish已经相当完整,但文章也坦诚提到了当前版本的局限。首先,真正成对的多组学样本仍然有限。其次,随着测序技术发展,未来还会有更多高质量基因组、T2T组装和泛基因组资源出现,数据库还需要持续更新。

此外,作者也提到未来计划引入AI驱动的多组学整合流程和大语言模型辅助查询引擎,这部分如果真正落地,可能会进一步提升数据库的使用门槛友好度。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐