网站上线3天，我被AI爬虫访问了264次

Nister_GEO · 2026-06-08 17:45:29 发布

6 月 5 日网站正式上线。到 6 月 8 日下午，三天多时间，AI 爬虫来了 264 次。

这数据本身没什么值得吹的。但翻完 nginx 日志之后，里面的一些规律值得记下来——因为做 GEO 的人虽然多，分享原始数据的很少。

所有数据来自服务器 /var/log/nginx/access.log，直接 grep 统计，没有过滤：

下面这张表比上面那张重要：

ClaudeBot 和 GPTBot 占了总量的 60% 以上。中国 AI 平台只有 Bytespider（字节/豆包）来了，DeepSeek、Kimi、元宝的爬虫影子都没见到。

按 URL 统计：

爬虫优先级非常清楚：先找 robots.txt，再看 sitemap，然后才是内容。14 篇博客只有 5 篇被访问过，每篇 3-5 次。

查了很多资料，一个发现：DeepSeek、Kimi、豆包、元宝——这四个中国主流 AI 平台，全部没有官方站长提交入口。Google 有 Search Console，Bing 有 Webmaster Tools，字节/百度有自己的站长平台。但这些 AI 搜索没有。

它们怎么发现新内容？我的猜测是依赖两个渠道：Bing 索引（DeepSeek 的搜索后端）和平台内容外链（知乎、CSDN、掘金等）。独立网站如果不在这两套系统里有信号，这些爬虫就不会来。

这和西方 AI 爬虫完全不同。GPTBot 和 ClaudeBot 在你放行 robots.txt 之后几小时就会来，行为类似传统搜索引擎爬虫。

排查过程很烦——robots.txt 手动翻、nginx 日志手动 grep、JSON-LD 手动验证。于是写了 geovis，把这些检查合成一个命令：

python geovis.py your-domain.com

会检查 15 家 AI 爬虫（包括 Bytespider、DeepSeekBot、MoonshotBot、YuanbaoBot）的 robots.txt 访问状态、llms.txt、sitemap、JSON-LD，输出 0-100 评分。

单文件 Python，零依赖。现有的 GEO 检测工具都没覆盖中国 AI 平台，所以最后自己写了。

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AtomGit 6 月：AtomCode CodingPlan 上线 GLM-5.2！

行业 Agent 黑客松圆满收官：打通行业落地“最后一公里”

openJiuwen 总 Star 突破 3.3 万，与 AtomGit 携手构筑 AI Agent 的开源“生态飞轮”

查看更多评论

已为社区贡献4条内容

温馨提示：您尚未绑定手机号