robots.txt 审计实战:别让一行规则挡住整站收录
一份 robots.txt 写错就可能让整站从搜索结果消失。本文讲怎么做 robots 检查,看懂 User-agent 分组、Disallow 误屏蔽、Sitemap 声明,以及上线和迁移时最容易踩的几个坑。
robots.txt 审计实战:别让一行规则挡住整站收录
robots.txt 是网站根目录下一个不起眼的纯文本文件,可它的杀伤力被严重低估了。它告诉搜索引擎哪些路径可以抓、哪些不要碰。写对了没人注意,写错一行,搜索引擎可能几周内把你的页面慢慢从结果里清掉,而你还在排查内容质量、外链、服务器响应这些更显眼的方向。
我自己排查过一次自然流量在两周内掉了三成的站点,翻了半天页面和日志,最后发现是测试环境那份 Disallow: / 跟着模板一起被发到了生产。这种错误肉眼扫一遍 robots.txt 不一定看得出来,因为它就两行字,看起来人畜无害。下面把审计 robots.txt 时要盯的几件事拆开讲。
先看 Disallow,这一行能屏蔽整站
robots.txt 里最危险的一行是:
User-agent: *
Disallow: /
Disallow: / 表示禁止抓取根目录下的一切,等于对所有爬虫关门。它和 Disallow:(冒号后留空,表示不禁止任何路径)只差一个斜杠,后果天差地别。审计时第一件事就是搜全文有没有这种全站禁止规则,确认它是不是本该只留在测试环境的。
类似要小心的还有宽泛的通配规则,比如 Disallow: /*? 想挡掉带参数的 URL,却可能连分页、筛选这些有收录价值的页面一起挡掉。规则越宽,误伤越大。
看懂 User-agent 分组
robots.txt 按 User-agent 把规则分成若干组,每组的 Allow 和 Disallow 只对它声明的爬虫生效。常见的坑是同一个文件里既有 User-agent: * 的通用组,又有 User-agent: Googlebot 的专用组,而爬虫只会匹配最具体的那一组,通用组里的规则对它不再生效。
所以审计时要把每个 User-agent 分组单独看:Googlebot 这组到底允许抓什么、禁止什么,别想当然以为通用组的规则会叠加上去。分组一多,人工对照很容易看漏,这正是我把它丢进 Robots.txt 审计器 跑一遍的原因,它会把每个 user-agent 的 allow 和 disallow 规则分组列清楚。
Sitemap 声明别漏
robots.txt 还承担一个正向职责:声明 Sitemap 位置,例如
Sitemap: https://example.com/sitemap.xml
这一行帮助搜索引擎更快发现你的页面清单。审计时确认它存在、URL 是完整的绝对地址、并且指向的 sitemap 真实可访问。Sitemap 声明不受 User-agent 分组限制,放在文件任何位置都生效,但漏写是常态,尤其是手写 robots.txt 的小站。
一个真实例子
来看一段实际审计中遇到的 robots.txt:
User-agent: *
Disallow: /admin/
Disallow: /staging/
Disallow:/
Noindex: /old/
Sitemap: example.com/sitemap.xml
跑一遍审计,能挑出三个问题。第一,第四行 Disallow:/(斜杠前没空格、独立成行)是全站禁止规则,显然是从测试环境带过来的,必须删掉,否则整站不被抓。第二,Noindex: 这个指令主流搜索引擎并不当作可靠的索引控制,想让页面不收录应该用页面级的 noindex meta 标签,而不是写在 robots.txt 里。第三,Sitemap 那行写的是 example.com/sitemap.xml,缺了协议头,应该是 https://example.com/sitemap.xml 这样的绝对地址,否则可能不被识别。
三个问题里,任意一个都足以让一次上线变成事故,而它们藏在六行文本里,扫一眼真不容易全抓到。
上线和迁移时的固定动作
把 robots.txt 审计变成上线检查清单里的固定一步,能省掉很多事后救火。每次发布或迁移前,确认三件事:关键目录没有被误挡、Sitemap 声明完整且可访问、测试环境用的宽泛禁止规则没有跟着发到生产。迁移时尤其要对比新旧两份 robots.txt 的差异,旧规则常常会悄悄影响新版站点。
如果你的 robots.txt 里 Sitemap 或 Disallow 指向了一堆 URL,想批量核对这些地址是否还有效,可以先用 URL 提取器 把它们抽出来再逐个检查。把纯文本配置变成可审计、可导出的规则表,比对着原文一行行猜要快得多。
robots.txt 短归短,它是搜索引擎进入你网站的第一道门。审计它不需要多高深的技巧,需要的是别嫌它小、别凭印象、每次改动都过一遍。
Made by Toolora · Updated 2026-06-13