这篇来自WordLift团队的论文提出了一个关键洞察:单纯嵌入JSON-LD结构化数据对RAG系统帮助有限,但将其转化为"增强型实体页面"后,准确率可提升近30%

研究团队对比了7种实验条件,涵盖编辑、法律、旅游、电商四大领域,通过2,443次独立评估发现:

  • 纯HTML + JSON-LD仅带来+0.17的微小提升(效应量d=0.18)
  • 增强型实体页面在标准RAG中提升+29.6%,在Agentic RAG中提升+29.8%
  • 增强+版本(Enhanced+)达到最高绝对分数(准确率4.85/5)

方案原理

核心架构

论文构建了一个模拟Google AI Mode的实验系统:

  • 检索层:Vertex AI Vector Search 2.0(混合语义+关键词搜索)
  • 推理层:Google Agent Development Kit(ADK)支持ReAct式多步推理
  • 数据层:WordLift知识图谱提供可解析URI的Schema.org实体

图片

增强型实体页面设计

区别于传统JSON-LD隐藏在<script>标签中,增强页面将结构化数据"显性化":

  • 自然语言摘要:从结构化数据生成的可读描述
  • 可见的实体导航:带可解析URI的关联实体链接
  • llms.txt风格指令:为AI代理提供显式操作指南
  • Schema.org面包屑:提供层级上下文
  • 神经搜索技能引用:支持跨实体发现

图片

Agentic RAG工作流

代理通过三种工具协作:

  1. search_documents:向量检索
  2. follow_entity_link:通过内容协商解析实体URI(支持JSON-LD/Turtle/HTML)
  3. search_knowledge_graph:跨图谱神经搜索

代理可执行最多2跳链接遍历,平均每查询调用2.0次工具。

关键结论

图片

为什么JSON-LD单独不够?

当前大多数RAG系统将页面视为"扁平文本",JSON-LD块常被截断或淹没。研究显示,在扁平摄入架构下,JSON-LD几乎无增益(p=0.024但效应量极小)。

增强页面的"链接物化"机制

核心突破在于将知识图谱中的关联数据物化为页面上的自然语言

  • 纯HTML仅包含URI引用(如data.wordlift.io/wl12345
  • 增强页面解析这些URI,将坐标、价格、营业时间等渲染为可读文本
  • 这使LLM在单次检索中即可获得原本需要多跳遍历的信息

Agent的互补角色

有趣的是,当文档格式已优化时,Agent几乎不提升准确率(C3:4.69 vs C6:4.70)。Agent的主要价值在于:

  • 补偿劣质内容:在纯HTML上提升+0.74
  • 提升检索效率:在增强页面上,Agent跟随的链接数从1.0降至0.4,但准确率更高

领域差异性

效果大小与领域特征强相关:

  • 电商(BlackBriar):基线已高(4.92),提升最小(+0.07)——产品页本身已包含丰富事实
  • 旅游(SalzburgerLand):基线2.19,提升最大(+2.47)——关键数据(坐标、菜系)原仅存在于图谱中
  • 编辑/法律:中等提升(+1.50至+2.73)

图片

实践启示

对RAG系统设计

  • 结构化数据感知摄入:应像Google爬虫那样单独提取JSON-LD,而非扁平化处理
  • 实体感知分块:避免在固定字符限制处截断结构化数据块
  • 混合检索:结合向量搜索与图谱遍历

可信度

增强页面确保人机同源——AI看到的结构化数据与人类看到的HTML内容完全一致,通过内容协商从同一URI服务,避免"AI优化内容"与"人类可读内容"脱节的风险。

论文亮点:这项研究不仅验证了语义网愿景在生成式AI时代的价值,更提供了可落地的"增强实体页面"模板,为从"文档排名"向"推理优化"的范式转变提供了实证基础。

假如你从2026年开始学大模型,按这个步骤走准能稳步进阶。

接下来告诉你一条最快的邪修路线,

3个月即可成为模型大师,薪资直接起飞。
img

阶段1:大模型基础

img

阶段2:RAG应用开发工程

img

阶段3:大模型Agent应用架构

img

阶段4:大模型微调与私有化部署

img

配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇
在这里插入图片描述
img

img

img

img
img

配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐