AI 搜索已经 527% 增长,你的开源项目却还在被 ChatGPT “视而不见”?
在真实的内容生产场景里,最常见的挫败不是文章写得不够好,而是你花几个月打磨的开源项目、文档、博客,在 ChatGPT、Claude、Perplexity 里搜名字时却完全“隐身”。朋友随口一问 AI 就能被主动推荐,而你明明 README 写得清晰、代码质量在线,却连个引用都拿不到。这就是大多数独立开发者、开源作者正在经历的真实卡点:传统 SEO 还在拼 Google 前 10,AI 搜索却已经用完全不同的逻辑在挑内容——结构清晰、来源可靠、能被模型一眼“读懂”的页面,才是它真正会引用的对象。
我起初也和大多数人一样,把精力全砸在刷排名、加 meta 标签、堆关键词上。后来看到几个小伙伴的项目被 AI 主动推荐,才意识到问题根本不在“刷流量”,而在“让 AI 真正读懂你”。花一个小时做对 robots.txt、llms.txt 和结构化知识入口,就能让现有内容对大模型的可见度发生质变。这不是投机取巧,而是把内容从“给人看的”升级成“同时给 AI 看的”——产品本身永远是核心,但这一小时的配置,能把你的品牌可见性直接拉到下一个量级。
为什么 AI 搜索和传统 SEO 的底层逻辑已经彻底分道扬镳
传统搜索拼的是 PageRank 和前 10 名位置,而 AI Overview 83% 的引用来源居然来自排名前 10 之外的页面。它看的是结构是否清晰、数据是否可信、内容是否能被直接切片复用。2025 年上半年 AI 搜索同比涨 527%,ChatGPT 周活已接近 9 亿,单次引荐转化率大概是传统搜索的 5 倍。但目前它仍只占总流量的不到 1%,更像是长期品牌资产而非短期流量游戏——值得花一个小时,却完全不值得花一周去刷垃圾内容。
想象一下 AI 像一位极度挑剔的招聘 HR:简历(你的页面)如果第一眼没用清晰的标题、结构化的关键信息、相互引用的关系网,它直接扔进回收站。反之,哪怕你的 Google 排名不高,只要结构对了,它就能顺着线索把你所有项目串成一个完整故事。
第一关:robots.txt 必须精准分类放行,而不是一刀切
很多人把 robots.txt 当成简单开关,要么全屏蔽 AI 爬虫,要么全放开,这其实是在自断后路。AI 爬虫其实分四类,干的事完全不同:
- 训练型(GPTBot、ClaudeBot、Meta-ExternalAgent、CCBot):拿你的内容去继续训练模型。屏蔽它们不影响当前搜索结果,只是不让内容进未来训练集。
- 检索/搜索型(OAI-SearchBot、Claude-SearchBot、PerplexityBot):实时抓取用来回答用户问题。屏蔽 = 从 AI 搜索里彻底消失。
- 用户触发型(ChatGPT-User、Claude-User 等):用户把你的 URL 贴进聊天框时才触发。屏蔽后用户让 AI “总结这个页面”就啥也拿不到。
- 未声明型(Bytespider、Grok 爬虫等):不报身份,不一定守规则。
我的做法是明确允许检索型和用户触发型,坚决屏蔽训练型和未声明型。这样既保护了内容不被滥训,又最大化了当前可见性。
# 允许搜索和检索爬虫
User-agent: OAI-SearchBot
User-agent: Claude-SearchBot
User-agent: PerplexityBot
Allow: /
# 屏蔽训练爬虫
User-agent: GPTBot
User-agent: ClaudeBot
Disallow: /
# 未声明爬虫也屏蔽
User-agent: *
Disallow: /admin/
Disallow: /private/
第二关:llms.txt —— 给 AI 的一张“结构化名片”
llms.txt 是专门给 AI 看的 Markdown 文件,放在站点根目录,作用相当于“AI 专属关于我们”。目前 BuiltWith 已追踪到 84 万+ 网站部署,包括 Anthropic、Cloudflare、Stripe、Vercel,但大样本调研显示采用率仍只有 10% 左右,先做就有明显先发优势。
格式极其简单,直接用 Markdown 写清楚站点定位、关键页面、作者信息、相互引用关系。我维护的几个站点(tw93.fun、weekly.tw93.fun、yobi.tw93.fun)在 llms.txt 里互相引用,形成网状结构——AI 无论从哪个入口进来,都能顺藤摸瓜找到全部内容。
做完后可以提交到 directory.llmstxt.cloud、llmstxt.site 以及 GitHub llms-txt-hub,加速被发现。
另一个小技巧:在页面 <head> 加一行:
<link rel="alternate" type="text/markdown" href="/README.md" title="Markdown Version">
Claude Code 和 Cursor 已经会主动请求 text/markdown,这其实是 1997 年 HTTP/1.1 就有的标准行为。
第三关:给 AI 建一个专属“知识入口”而不是零散抓取
与其让 AI 在各个页面零敲碎打,不如主动给它一个结构化入口。我做的 Yobi 项目就是这个思路:提供三层内容——llms.txt(概览)、llms-full.txt(30-60KB 完整版)、每个核心项目的独立 Markdown 页面,再加上 /api/profile、/api/projects 等 JSON 端点,数据从 GitHub API 实时拉取 + ISR 缓存一小时刷新。
关键是叙事结构而不是单纯列表:写一段把所有项目串起来的整体定位、关系、技术方向,让 AI 在回答“你是谁”或者“这个团队做什么”时,有完整故事可讲,而不是一堆零散 bullet points。
每个项目再单独给一个自然语言 URL 的独立页面(/projects/pake),带可引用摘要、特性、竞品对比、使用场景、安装命令。Ahrefs 研究显示,这种页面的被引用率远高于 ID 式的页面。
子域名权重低,记得把关键数据镜像到主域名,让 AI 在同一个域名下就能拿到全部。
GEO 实战 vs 传统 SEO 的决策矩阵
| 维度 | 传统 SEO | GEO(AI 可见性优化) | 长期胜出关键 |
|---|---|---|---|
| 核心指标 | PageRank + 前 10 名 | 结构清晰度 + 可切片复用性 + 相互引用 | 模型理解成本 |
| 内容长度偏好 | 短摘要 + 关键词密度 | 1000-3000 词、可拆分的长内容 | 信息密度与可复用性 |
| 引用概率 | 依赖排名 | 语义相似度 + 叙事结构 + llms.txt | 结构化信号 |
| 维护成本 | 持续刷排名 | 一次配置 + 自动同步 | 系统化而非手工 |
| 风险 | 算法更新随时失效 | 几乎零风险(提升内容本身) | 本质提升 |
| 适合人群 | 大站流量党 | 独立开发者、开源作者、内容创作者 | 长期品牌资产 |
从表里可以看出,GEO 真正厉害的地方在于它不是“加法”,而是把现有内容的潜力彻底释放——你本来就有的高质量文档,只要多给 AI 一个“结构化名片”,就能被主动引用。
真正该避开的坑和已经被验证无效的技巧
我试过也看到别人踩过的坑包括:
- 各种非官方 meta 标签(ai-content-url、llms 等),主流 AI 都不认。
- HTML 注释里塞提示,AI 解析器直接过滤。
- User-Agent 嗅探返回不同内容(cloaking),会被惩罚。
- 过度依赖 JSON-LD,实验显示多数 LLM 只是把它当普通文本读。
- 为了刷分强行加 FAQ,反而有害——数据表明纯 FAQ 格式会降低影响力。
Princeton 和 IIT Delhi 的 KDD 2024 论文以及后续大规模实验反复验证:具体数据、横向对比、有步骤结构的页面影响力高出 50% 以上;内容越长、标题越多、越贴合用户真实问题,被引用的概率就越高。品牌被第三方引用(Reddit、Hacker News)的效果是自引用的 6.5 倍,所以 llms.txt 提供的可信锚点特别重要。
最后一步:配置完等爬虫刷新,然后自己验证
整个基础配置大概一个小时,知识页面和 API 端点多花点时间,但一旦搭好,后续 GitHub Action 每天自动同步,维护成本几乎为零。配置完隔几天去 ChatGPT、Perplexity、Claude 搜自己的项目名,看看引用来源和描述准确度变化,就能直观感受到效果。
AI 引用目前归因还不完美(CJR 测试显示大量错误),但这不影响我们做结构化的意义——它让你的内容更容易被准确获取,而不是靠运气。
如果你也有自己的产品、博客、开源项目,不妨现在就花一小时试试。把这篇文章扔给 Claude Code,它甚至能帮你生成大部分配置。产品本身才是核心竞争力,但让 AI “读懂”你,从来都是最低成本、最高回报的品牌杠杆。
你在做 GEO 优化的过程中,遇到过哪些爬虫、llms.txt 或者知识页面结构化的真实问题?欢迎在评论区分享你的配置心得,我们一起把 AI 可见性这条路径打磨得更清晰、更可落地。
我是紫微AI,在做一个「人格操作系统(ZPF)」。后面会持续分享AI Agent和系统实验。感兴趣可以关注,我们下期见。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)