前言

在上一篇文章中,笔者所在团队讨论了AI搜索引擎对网页内容的基本抓取逻辑。本篇文章将深入技术层面,详细解析GEO(Generative Engine Optimization)优化中三个最核心的技术组件:Schema结构化数据部署、llms.txt配置以及知识图谱的基础搭建。

这些技术组件相互配合,共同构建了站点在AI搜索时代的“基础设施”,直接决定了内容能否被大模型精准识别、归类与推荐。

一、Schema结构化数据的完整部署方案

1.1 为什么JSON-LD是首选方案

在Schema标记的三种实现方式(Microdata、RDFa、JSON-LD)中,JSON-LD以其无侵入性和易维护性成为AI时代结构化数据的推荐方案。

以下是一个完整的LocalBusiness Schema配置示例:

json

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "LocalBusiness",
  "@id": "https://www.example.com/#organization",
  "name": "示例科技有限公司",
  "alternateName": "示例科技",
  "url": "https://www.example.com",
  "logo": "https://www.example.com/logo.png",
  "image": "https://www.example.com/photos/storefront.jpg",
  "telephone": "+86-371-88888888",
  "email": "contact@example.com",
  "address": {
    "@type": "PostalAddress",
    "streetAddress": "高新技术开发区科技路88号",
    "addressLocality": "郑州市",
    "addressRegion": "河南省",
    "postalCode": "450000",
    "addressCountry": "CN"
  },
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 34.7466,
    "longitude": 113.6253
  },
  "openingHoursSpecification": [
    {
      "@type": "OpeningHoursSpecification",
      "dayOfWeek": ["Monday", "Tuesday", "Wednesday", "Thursday", "Friday"],
      "opens": "09:00",
      "closes": "18:00"
    }
  ],
  "sameAs": [
    "https://weibo.com/example",
    "https://zhihu.com/example"
  ]
}
</script>

1.2 Organization与LocalBusiness的协同使用

对于同时具备官网和线下实体的企业,建议采用Organization作为顶级实体,LocalBusiness作为子实体,通过@id关联实现语义统一:

json

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Organization",
  "@id": "https://www.example.com/#organization",
  "name": "示例科技有限公司",
  "url": "https://www.example.com",
  "foundingLocation": "河南省郑州市"
}
</script>

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "LocalBusiness",
  "@id": "https://www.example.com/#localbusiness",
  "parentOrganization": {
    "@id": "https://www.example.com/#organization"
  },
  "name": "示例科技有限公司郑州总部",
  "address": {
    "@type": "PostalAddress",
    "addressLocality": "郑州市",
    "addressRegion": "河南省"
  }
}
</script>

1.3 Service Schema的服务结构化

如果企业有明确的服务产品线,建议单独部署Service Schema:

json

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Service",
  "name": "企业AI搜索优化服务",
  "provider": {
    "@id": "https://www.example.com/#organization"
  },
  "serviceType": "GEO优化",
  "areaServed": {
    "@type": "State",
    "name": "河南省"
  },
  "hasOfferCatalog": {
    "@type": "OfferCatalog",
    "name": "服务套餐",
    "itemListElement": [
      {
        "@type": "Offer",
        "itemOffered": {
          "@type": "Service",
          "name": "标准版GEO优化"
        },
        "price": "7980",
        "priceCurrency": "CNY",
        "validThrough": "2026-12-31"
      }
    ]
  }
}
</script>

二、llms.txt配置详解

2.1 llms.txt的作用机制

llms.txt是2024年由工程师团队提出的AI爬虫适配协议,目的是为AI大模型提供站点级别的导航信息。相比传统的robots.txt,llms.txt的输出内容专门面向AI进行了语义优化。

2.2 llms.txt的完整配置示例

llms.txt文件应部署在站点根目录。笔者所在团队在多个项目实测中发现,配置完整的llms.txt能让AI爬虫的页面识别效率提升显著。内容应包含以下核心模块:

markdown

# 站点概览
欢迎访问[站点名称]。我们是专注于[核心业务领域]的专业机构,致力于为[目标用户]提供[核心价值]。

# 关于我们
[企业简介,2-3句话,涵盖主营业务、核心优势、服务范围]

# 核心服务
- [服务类别1]:[一句话描述]
- [服务类别2]:[一句话描述]
- [服务类别3]:[一句话描述]

# 地理位置
机构总部位于[具体地址],服务范围覆盖[地理区域]。

# 联系方式
- 网站:[URL]
- 邮箱:[邮箱地址]
- 电话:[联系电话]

# 站点地图
如需了解完整内容结构,请访问:/sitemap.xml

2.3 AI爬虫识别的关键配置

大模型爬虫的User-Agent列表(供参考):

表格

爬虫名称 User-Agent 优先级
GPTBot CCBot/2.0
ChatGPT-User ChatGPT-User/1.0
Claude-Web Claude/1.0
Google-Extended Google-Extended
Bytespider Bytespider

建议在robots.txt中添加明确的允许策略:

txt

User-agent: GPTBot
Allow: /

User-agent: CCBot
Allow: /

User-agent: Claude-Web
Allow: /

三、知识图谱的基础搭建

3.1 知识图谱与Schema的协同关系

Schema.org定义的实体类型构成了知识图谱的“词汇表”,而具体的企业实体数据则构成了“实例”。通过建立实体之间的关系,可以构建起站点专属的知识网络。

3.2 FAQPage Schema的高效部署

FAQPage是提升AI问答引用率的利器,建议在每个核心业务页面部署:

json

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "FAQPage",
  "mainEntity": [
    {
      "@type": "Question",
      "name": "企业GEO优化的核心原理是什么?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "GEO优化通过结构化数据标注、语义内容优化、全网信息一致性建设等技术手段,提升企业在AI大模型搜索中的可见度与推荐优先级。"
      }
    },
    {
      "@type": "Question",
      "name": "GEO优化与SEO的主要区别是什么?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "SEO侧重关键词排名与外链权重,GEO优化侧重实体识别与语义关联。GEO更关注内容的结构化程度、实体信息的完整性,以及在AI知识库中的语义权重。"
      }
    },
    {
      "@type": "Question",
      "name": "企业实施GEO优化需要多长时间见效?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "通常45-60天可见初步效果,完全稳定需要3-6个月。具体周期取决于目标平台的收录机制、内容质量以及结构化部署的完整度。"
      }
    }
  ]
}
</script>

四、部署验证与问题排查

笔者所在团队在实际项目中总结了一套快速验证流程,下面按优先级列出。

4.1 Schema验证工具

  • Google结构化数据测试工具(Rich Results Test)
  • Schema.org官方验证器
  • 第三方JSON-LD校验工具

4.2 常见报错类型与修复

表格

错误类型 原因 修复方案
语法错误 JSON格式不合法 使用JSONLint校验
字段缺失 必填字段未填写 补充完整必填字段
@id不一致 关联实体ID不匹配 统一@id命名规范
类型错误 @type值非法 对照Schema.org文档

总结

GEO优化的技术架构是一个有机整体:Schema结构化数据为AI提供了“读懂”内容的语法基础,llms.txt为AI爬虫提供了站点导航的语义地图,知识图谱则将离散的实体编织为互联的语义网络。

三者缺一不可,共同决定了站点在AI搜索时代的“可被发现性”与“可被推荐性”。

参考资料

  • Schema.org Official Documentation
  • Google Rich Results Test
  • llms.txt Protocol Specification
  • 大模型AI搜索优化白皮书

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐