6 月 5 日网站正式上线。到 6 月 8 日下午,三天多时间,AI 爬虫来了 264 次。

这数据本身没什么值得吹的。但翻完 nginx 日志之后,里面的一些规律值得记下来——因为做 GEO 的人虽然多,分享原始数据的很少。

三天数据

所有数据来自服务器 /var/log/nginx/access.log,直接 grep 统计,没有过滤:

爬虫 运营方 3天访问次数
ClaudeBot Anthropic 132
GPTBot OpenAI 124
Bingbot Microsoft 58
GoogleOther Google 38
OAI-SearchBot OpenAI 27
Bytespider 字节跳动 33
Baiduspider 百度 23
PerplexityBot Perplexity 9
Amazonbot Amazon 9
cohere-ai Cohere 7
CCBot Common Crawl 7

下面这张表比上面那张重要:

爬虫 3天访问次数
DeepSeekBot 0
MoonshotBot(Kimi) 0
YuanbaoBot(元宝) 0

ClaudeBot 和 GPTBot 占了总量的 60% 以上。中国 AI 平台只有 Bytespider(字节/豆包)来了,DeepSeek、Kimi、元宝的爬虫影子都没见到。

爬虫在抓什么

按 URL 统计:

URL 访问次数
/robots.txt 48
/sitemap.xml 36
/(首页) 30
/sitemap-ai.xml 19
/index.xml(RSS) 11
/blog/ 6

爬虫优先级非常清楚:先找 robots.txt,再看 sitemap,然后才是内容。14 篇博客只有 5 篇被访问过,每篇 3-5 次。

中国 AI 爬虫为什么没来

查了很多资料,一个发现:DeepSeek、Kimi、豆包、元宝——这四个中国主流 AI 平台,全部没有官方站长提交入口。Google 有 Search Console,Bing 有 Webmaster Tools,字节/百度有自己的站长平台。但这些 AI 搜索没有。

它们怎么发现新内容?我的猜测是依赖两个渠道:Bing 索引(DeepSeek 的搜索后端)和平台内容外链(知乎、CSDN、掘金等)。独立网站如果不在这两套系统里有信号,这些爬虫就不会来。

这和西方 AI 爬虫完全不同。GPTBot 和 ClaudeBot 在你放行 robots.txt 之后几小时就会来,行为类似传统搜索引擎爬虫。

写了两个工具

排查过程很烦——robots.txt 手动翻、nginx 日志手动 grep、JSON-LD 手动验证。于是写了 geovis,把这些检查合成一个命令:

python geovis.py your-domain.com

会检查 15 家 AI 爬虫(包括 Bytespider、DeepSeekBot、MoonshotBot、YuanbaoBot)的 robots.txt 访问状态、llms.txt、sitemap、JSON-LD,输出 0-100 评分。

单文件 Python,零依赖。现有的 GEO 检测工具都没覆盖中国 AI 平台,所以最后自己写了。


代码和模板:github.com/huang871015/geo-optimization-guide

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐