高效的AI时代!一个下午帮我写了一个论文爬取工具BioSci-Radar
以前做后端,前端,搭建网站得折腾很久,包括UI设计等自己看到舒服的程度真的要弄很久。现在动用Yi点点Token,轻松做一个顺手的文献查阅工具~
真的会感叹,AI 时代很多事情的门槛正在被重新定义。有些过去“想做但懒得做”的小工具。AI赋能,一个人一台电脑半天时间就能落地,真正为自己服务。
目前没有上云,只能本地部署:

- Github:https://github.com/T-Zevin/BioSci-Radar

它不是一个“大而全”的平台,也不是那种需要注册登录、上云部署、配置很多东西才能开始用的系统。它更像是一个面向个人研究工作流的本地文献检索工具:打开页面,输入关键词,抓取文献,做简单汇总,然后快速浏览、筛选、定位值得看的论文。
我自己平时做得比较多的是多组学分析相关的内容,同时也会关注一些机器学习、深度学习、生物计算方法学方向的文章。现实情况是,这几类文献往往分散在不同来源里:PubMed 肯定是会去看的,但是预印本的有时忘了或者懒得去翻,这些有的在 bioRxiv,有的在 medRxiv,有的在 arXiv。平时一个个搜、一个个翻,效率并不高。尤其是当我只是想快速回答一个问题,比如:
- 最近有没有和
spatial transcriptomics相关的新东西? LUAD和多组学整合有没有值得看的方法学论文?- 有没有适合迁移到生信分析里的
graph neural network文章? - 某个方向最近到底是在做应用研究,还是方法创新更多?
这些问题并不一定需要复杂的数据库系统,也不一定非要做成正式产品。对我来说,更重要的是:能快点看到东西,能快点判断值不值得深入看。
所以我做了 BioSci-Radar 这么个玩意。
BioSci-Radar 是做什么的?

可以简单理解成一句话:
一个面向生物信息学、多组学和可迁移 ML/DL 方法的本地文献浏览工作台。
它目前支持从这些来源抓取论文:
PubMedbioRxivmedRxivarXiv
抓下来之后,不是简单把标题堆出来,而是会做一些适合“先扫一遍”的整理工作,比如:
- 按关键词聚焦抓取
- 汇总高频主题和标签
- 统计来源分布
- 区分论文类型
- 做分页浏览
- 中英文双语切换
- 导出 Markdown
- 后续还能同步到 Notion
也就是说,它现在更像一个本地研究工作台,而不是纯命令行抓取脚本。
目前它能做什么?
1. 从本地网页直接开始
打开页面后,不用先敲一堆命令,也不用先准备数据库。
首页就是一个双语欢迎界面,可以直接输入关键词,或者点示例关键词开始检索。
2. 支持聚焦式检索
比如你可以输入:
LUAD, spatial transcriptomicssingle-cell multiomics, tumor microenvironmentgraph neural network, omics integrationfoundation model, computational biology
它会围绕这些主题去抓相关结果,而不是只按固定配置死板运行。
3. 看频数和主题概览
抓完之后,不只是看论文列表,还可以先看一个简要概览:
- 哪些关键词出现得多
- 哪些主题更集中
- 哪些来源结果更多
- 哪类论文占比更高

这个步骤非常有用,因为很多时候你并不是立刻要逐篇精读,而是先判断“这个方向最近到底在发生什么”。
4. 支持分页浏览
文献多的时候,分页浏览会比一大坨列表舒服很多。
你可以边筛边看,不会被长页面淹没。

5. 双语界面
目前支持 中文 / English 切换。
我自己本地用中文更顺手,但如果后面放到 GitHub、给别人看,英文界面也更方便。
6. 导出 Markdown
如果某次抓取结果你觉得不错,还可以导出 Markdown,后面整理到笔记、仓库、Notion 都比较方便。
适合谁用?
我觉得它现在比较适合几类人:
- 做生物信息学、多组学分析的研究者
- 同时关注应用论文和算法论文的人
- 想搭一个轻量本地工具,而不是一上来就做完整 SaaS 的人
- 有自己固定研究兴趣,需要反复追踪某些关键词的人
当然,现在这个版本还是偏个人工作流工具。
它不是云服务,也不是多人协作平台,目前主要就是为了提升我自己的检索和初筛效率。
我对它的定位
这个小玩意毕竟只花了半天时间弄的,运行是完全没问题的。但是会有很多没有考虑到的点,例如爬取速度,这个要均衡,太慢破坏使用体验,太快会被网站gank,当然也会有我想不到的瑕疵,铺开使用需要慢慢健全。
现阶段我对 BioSci-Radar 的定位很明确:
它不是为了替代 PubMed,也不是为了替代大型文献平台。
它是一个更贴近我个人研究习惯的本地入口。
很多时候,一个工具是否有价值,不在于功能堆得多满,而在于它是不是足够顺手,能不能真的被你每天打开。
BioSci-Radar 对我来说,就是这样一个东西:不求大而全,但求能用、顺手、足够快。
后面我应该还会继续慢慢补一些东西,比如:
- 更细一点的论文分类
- 更好的摘要整理
- 更方便的导出和同步
- 对生信和算法论文更贴合的标签体系
但就目前来说,它已经能完成我最需要的那件事:
快速聚焦一个方向,看看最近有哪些值得我花时间的文献。
如果你平时也会看生信、多组学或者方法学论文,也欢迎试试看,或者提提想法。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)