摘要:本文探讨了潜在知识图谱的概念,并通过实验评估Microsoft GraphRAG在药物发现领域的应用。从科学文献中构建隐式关系图,测试其检索和合成能力,揭示LLM在复杂查询中的优势与局限。适合AI与药物研发专业人士参考。

在人工智能与药物发现的交叉领域,知识图谱作为一种强大的工具,能够从海量非结构化数据中提取隐含关系,帮助研究者快速识别潜在药物靶点。近年来,Microsoft推出的GraphRAG系统,以其动态构建潜在知识图谱的能力,备受关注。本文基于一篇Medium文章的实验内容,详细阐述潜在知识图谱的核心原理,并通过实际实施案例,评估GraphRAG在处理科学文献时的效能。该实验聚焦于药物发现靶点识别,旨在为企业、研究机构和投资者提供实用洞见,帮助优化AI驱动的研发流程。

潜在知识图谱:隐式关系的强大表示

知识图谱传统上依赖预定义的结构,如本体(ontologies),来捕捉实体间的明确关系。然而,在复杂的数据环境中,许多关系是隐含的,无法通过固定框架完全表达。这时,潜在知识图谱(Latent Knowledge Graphs)应运而生。这些图谱是通过学习数据中的隐式模式生成的图表示形式,无需预设结构,就能捕捉实体间的潜在连接。

具体而言,潜在图谱通过以下机制推断隐藏连接:

  • 解耦嵌入(Disentangled Embeddings):将对象特征分离,例如在医学图像中区分手术工具与器官。这种方法打破了传统图谱的本体约束,实现更灵活的表示。
  • 图神经网络(Graph Neural Networks):利用链接预测(link prediction)技术,预测未观察到的边际关系。
  • 多尺度关系编码(Multi-scale Relation Encoding):结合局部对象位置与全局场景上下文,提供全面的语义理解。

这些技术使得潜在图谱特别适用于非结构化数据,如科学论文或临床报告。

Microsoft的GraphRAG便是这一理念的典型应用。它是一种基于文本的潜在图谱系统,通过大型语言模型(LLM)动态提取和总结内容,以增强检索增强生成(RAG)式的检索与推理能力。GraphRAG的核心在于“即时”构建知识图谱,避免了传统方法中手动标注的繁琐过程。然而,一个显著挑战是依赖LLM可能引入幻觉(hallucinations)和语义漂移(semantic drift),特别是在特征提取和社区报告生成阶段。

GraphRAG不涉及知识图谱嵌入的深入讨论,如距离匹配与语义匹配的 grounding 问题(感兴趣读者可参考相关文献)。本文重点通过实验验证其在 grounding 方面的表现。

实验设计:从科学文献构建潜在知识图谱

为评估GraphRAG在药物发现中的潜力,本实验的主要目标包括:

  • 从科学文章中构建潜在知识图谱。
  • 测试系统检索和合成信息的能力,针对多种科学问题。
  • 观察不同LLM在聊天/合成组件中的影响,对查询成功率和答案质量的影响。

未来计划包括将事实 grounding 到流行生物医学本体,并重新评估结果。

实验语料通过Perplexity.AI辅助收集,聚焦药物发现靶点识别的高质量开放访问资源,如PubMed Central (PMC)、Europe PMC、bioRxiv等。最终选定6篇相关PDF文章,并使用Microsoft的MarkItDown库转换为Markdown格式,便于处理。

使用的文章包括:

  • A comprehensive map of molecular drug targets (PMC6314433)
  • Therapeutic target database update 2022 (bioRxiv/TTD)
  • Leveraging big data to transform target selection (PMC4785018)
  • Comprehensive Survey of Recent Drug Discovery Using Big Data (Europe PMC)
  • Discovering protein drug targets using knowledge graph (bioRxiv)
  • Utilizing graph machine learning within drug discovery (bioRxiv)

这些文章覆盖了分子靶点映射、大数据应用、知识图谱在靶点发现中的作用等主题,提供了一个代表性的药物发现语料库。

实验环境搭建在M1-Max Mac Studio上,使用Ollama运行本地模型进行索引,通过Openrouter.ai的模型进行查询。LLM选择考虑成本与性能平衡,例如OpenAI的gpt-4o-mini在科学任务中表现突出。

示例查询:测试GraphRAG的科学推理能力

为全面评估系统,设计了以下10个针对药物发现的查询。这些问题涵盖新兴靶点识别、蛋白质验证、多组学整合等专业主题,旨在模拟研究者和投资者的实际需求:

  1. “What are emerging therapeutic targets for non-small cell lung cancer identified in the last five years?”(过去五年内非小细胞肺癌的新兴治疗靶点是什么?)
  2. “Which proteins have been implicated as druggable targets in CRISPR screens for metabolic diseases?”(在代谢疾病的CRISPR筛选中,哪些蛋白被暗示为可药物化靶点?)
  3. “List novel kinase targets associated with resistance to current melanoma therapies.”(列出与当前黑色素瘤疗法耐药相关的 novel 激酶靶点。)
  4. “Summarize recent advances in computational methods for target identification in rare genetic disorders.”(总结罕见遗传障碍中靶点识别的计算方法最新进展。)
  5. “What are the most frequently validated targets in published high-throughput screening studies for neurodegenerative diseases?”(在已发表的高通量筛选研究中,神经退行性疾病的最常验证靶点是什么?)
  6. “Which disease pathways have newly identified protein targets with available structural data?”(哪些疾病通路中新识别的蛋白靶点具有可用结构数据?)
  7. “Find articles reporting on target deconvolution methods in phenotypic drug discovery.”(查找报道表型药物发现中靶点解卷积方法的文章。)
  8. “Summarize the use of knowledge graphs for predicting novel drug-target interactions.”(总结知识图谱在预测新型药物-靶点相互作用中的应用。)
  9. “What are the most cited targets for immuno-oncology drug development in the last three years?”(过去三年免疫肿瘤药物开发中最被引用的靶点是什么?)
  10. “Which targets have been identified using multi-omics integration in cardiovascular disease research?”(在心血管疾病研究中使用多组学整合识别的靶点有哪些?)

这些查询强调了GraphRAG在处理特定领域、时间敏感和综合性问题时的能力。

(此处插入图像:GraphRAG,由Midjourney生成,展示系统架构的视觉化表示,包括文本提取、图构建和查询响应流程。)

实验结果:性能分析与洞见

在实验中,OpenAI的gpt-4o-mini展现出最佳的性能与成本平衡。它成功处理了大多数复杂总结和信息提取查询,并在Openrouter.ai的科学排行榜上位居第一。

GraphRAG的合成能力依赖于索引文档中的信息。如果关键事实缺失,再强的提示工程或模型也无法生成准确答案。这在高度特定的查询中尤为明显,例如要求排名列表(如“最被引用”)或量化细节时,系统表现欠佳。除非输入数据结构化或明确提及,否则本地搜索也难以优化。这可能源于语料规模有限。

同一模型和数据下,不同运行对Query 5的变异结果,突显了LLM的概率性质(即幻觉风险),以及文档块检索和映射步骤的变异性。对于需要高确定性的应用,这是一个关键考虑因素。

总体而言,GraphRAG结合gpt-4o-mini,在索引科学文章语料并提供详细、综合答案方面表现出色。它能处理领域特定复杂问题,生成连贯的合成报告。小型模型如gpt-4o-nano适合简单查询或极端成本限制,但在大规模综合中可能力不从心。

对于因信息缺失失败的查询(如Query 2、9、10),解决方案在于 curation 更全面的输入文档。这强调了语料质量对系统效能的重要性。

图统计与社区分析:深入GraphRAG的内部机制

作为Graph爱好者的额外福利,实验生成的图统计显示:从6篇文章中提取了3224个实体、2242个关系,并生成了约167个社区报告。

知识图谱以“人”节点作为参考起点:个人链接到其出版物,并进一步扩展。默认提取提示使用组织、姓名、地理作为实体示例,因此这些类型被优先识别。修改实体提取特征的细节可参考官方文档;系统还支持使用NLTK工具包进行特征提取。

这些图随后被分组为社区,每个社区生成总结报告。例如,前两个社区的总结可能涵盖药物靶点数据库更新与大数据在靶点选择中的作用。

社区报告被向量化,与其他数据一同搜索(它们拥有独立嵌入)。GraphRAG虽不直接使用知识嵌入,但通过多层嵌入(详见第7节的三层嵌入描述)缓解了边际和关系绑定问题。

值得一提的是,所有提示均为默认,但提示调优指南可进一步提升性能。其中,Auto Tune工具类似于基于能力问题的实体生成方法,能自动优化提取过程。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐