AI 搜索已经 527% 增长，你的开源项目却还在被 ChatGPT “视而不见”？

紫微AI

326人浏览 · 2026-05-02 11:19:59

紫微AI · 2026-05-02 11:19:59 发布

在真实的内容生产场景里，最常见的挫败不是文章写得不够好，而是你花几个月打磨的开源项目、文档、博客，在 ChatGPT、Claude、Perplexity 里搜名字时却完全“隐身”。朋友随口一问 AI 就能被主动推荐，而你明明 README 写得清晰、代码质量在线，却连个引用都拿不到。这就是大多数独立开发者、开源作者正在经历的真实卡点：传统 SEO 还在拼 Google 前 10，AI 搜索却已经用完全不同的逻辑在挑内容——结构清晰、来源可靠、能被模型一眼“读懂”的页面，才是它真正会引用的对象。

我起初也和大多数人一样，把精力全砸在刷排名、加 meta 标签、堆关键词上。后来看到几个小伙伴的项目被 AI 主动推荐，才意识到问题根本不在“刷流量”，而在“让 AI 真正读懂你”。花一个小时做对 robots.txt、llms.txt 和结构化知识入口，就能让现有内容对大模型的可见度发生质变。这不是投机取巧，而是把内容从“给人看的”升级成“同时给 AI 看的”——产品本身永远是核心，但这一小时的配置，能把你的品牌可见性直接拉到下一个量级。

为什么 AI 搜索和传统 SEO 的底层逻辑已经彻底分道扬镳

传统搜索拼的是 PageRank 和前 10 名位置，而 AI Overview 83% 的引用来源居然来自排名前 10 之外的页面。它看的是结构是否清晰、数据是否可信、内容是否能被直接切片复用。2025 年上半年 AI 搜索同比涨 527%，ChatGPT 周活已接近 9 亿，单次引荐转化率大概是传统搜索的 5 倍。但目前它仍只占总流量的不到 1%，更像是长期品牌资产而非短期流量游戏——值得花一个小时，却完全不值得花一周去刷垃圾内容。

想象一下 AI 像一位极度挑剔的招聘 HR：简历（你的页面）如果第一眼没用清晰的标题、结构化的关键信息、相互引用的关系网，它直接扔进回收站。反之，哪怕你的 Google 排名不高，只要结构对了，它就能顺着线索把你所有项目串成一个完整故事。

第一关：robots.txt 必须精准分类放行，而不是一刀切

很多人把 robots.txt 当成简单开关，要么全屏蔽 AI 爬虫，要么全放开，这其实是在自断后路。AI 爬虫其实分四类，干的事完全不同：

训练型（GPTBot、ClaudeBot、Meta-ExternalAgent、CCBot）：拿你的内容去继续训练模型。屏蔽它们不影响当前搜索结果，只是不让内容进未来训练集。
检索/搜索型（OAI-SearchBot、Claude-SearchBot、PerplexityBot）：实时抓取用来回答用户问题。屏蔽 = 从 AI 搜索里彻底消失。
用户触发型（ChatGPT-User、Claude-User 等）：用户把你的 URL 贴进聊天框时才触发。屏蔽后用户让 AI “总结这个页面”就啥也拿不到。
未声明型（Bytespider、Grok 爬虫等）：不报身份，不一定守规则。

我的做法是明确允许检索型和用户触发型，坚决屏蔽训练型和未声明型。这样既保护了内容不被滥训，又最大化了当前可见性。

# 允许搜索和检索爬虫
User-agent: OAI-SearchBot
User-agent: Claude-SearchBot
User-agent: PerplexityBot
Allow: /

# 屏蔽训练爬虫
User-agent: GPTBot
User-agent: ClaudeBot
Disallow: /

# 未声明爬虫也屏蔽
User-agent: *
Disallow: /admin/
Disallow: /private/

第二关：llms.txt —— 给 AI 的一张“结构化名片”

llms.txt 是专门给 AI 看的 Markdown 文件，放在站点根目录，作用相当于“AI 专属关于我们”。目前 BuiltWith 已追踪到 84 万+ 网站部署，包括 Anthropic、Cloudflare、Stripe、Vercel，但大样本调研显示采用率仍只有 10% 左右，先做就有明显先发优势。

格式极其简单，直接用 Markdown 写清楚站点定位、关键页面、作者信息、相互引用关系。我维护的几个站点（tw93.fun、weekly.tw93.fun、yobi.tw93.fun）在 llms.txt 里互相引用，形成网状结构——AI 无论从哪个入口进来，都能顺藤摸瓜找到全部内容。

做完后可以提交到 directory.llmstxt.cloud、llmstxt.site 以及 GitHub llms-txt-hub，加速被发现。

另一个小技巧：在页面 <head> 加一行：

<link rel="alternate" type="text/markdown" href="/README.md" title="Markdown Version">

Claude Code 和 Cursor 已经会主动请求 text/markdown，这其实是 1997 年 HTTP/1.1 就有的标准行为。

第三关：给 AI 建一个专属“知识入口”而不是零散抓取

与其让 AI 在各个页面零敲碎打，不如主动给它一个结构化入口。我做的 Yobi 项目就是这个思路：提供三层内容——llms.txt（概览）、llms-full.txt（30-60KB 完整版）、每个核心项目的独立 Markdown 页面，再加上 /api/profile、/api/projects 等 JSON 端点，数据从 GitHub API 实时拉取 + ISR 缓存一小时刷新。

关键是叙事结构而不是单纯列表：写一段把所有项目串起来的整体定位、关系、技术方向，让 AI 在回答“你是谁”或者“这个团队做什么”时，有完整故事可讲，而不是一堆零散 bullet points。

每个项目再单独给一个自然语言 URL 的独立页面（/projects/pake），带可引用摘要、特性、竞品对比、使用场景、安装命令。Ahrefs 研究显示，这种页面的被引用率远高于 ID 式的页面。

子域名权重低，记得把关键数据镜像到主域名，让 AI 在同一个域名下就能拿到全部。

GEO 实战 vs 传统 SEO 的决策矩阵

维度	传统 SEO	GEO（AI 可见性优化）	长期胜出关键
核心指标	PageRank + 前 10 名	结构清晰度 + 可切片复用性 + 相互引用	模型理解成本
内容长度偏好	短摘要 + 关键词密度	1000-3000 词、可拆分的长内容	信息密度与可复用性
引用概率	依赖排名	语义相似度 + 叙事结构 + llms.txt	结构化信号
维护成本	持续刷排名	一次配置 + 自动同步	系统化而非手工
风险	算法更新随时失效	几乎零风险（提升内容本身）	本质提升
适合人群	大站流量党	独立开发者、开源作者、内容创作者	长期品牌资产

从表里可以看出，GEO 真正厉害的地方在于它不是“加法”，而是把现有内容的潜力彻底释放——你本来就有的高质量文档，只要多给 AI 一个“结构化名片”，就能被主动引用。

真正该避开的坑和已经被验证无效的技巧

我试过也看到别人踩过的坑包括：

各种非官方 meta 标签（ai-content-url、llms 等），主流 AI 都不认。
HTML 注释里塞提示，AI 解析器直接过滤。
User-Agent 嗅探返回不同内容（cloaking），会被惩罚。
过度依赖 JSON-LD，实验显示多数 LLM 只是把它当普通文本读。
为了刷分强行加 FAQ，反而有害——数据表明纯 FAQ 格式会降低影响力。

Princeton 和 IIT Delhi 的 KDD 2024 论文以及后续大规模实验反复验证：具体数据、横向对比、有步骤结构的页面影响力高出 50% 以上；内容越长、标题越多、越贴合用户真实问题，被引用的概率就越高。品牌被第三方引用（Reddit、Hacker News）的效果是自引用的 6.5 倍，所以 llms.txt 提供的可信锚点特别重要。