robots.txt是存储在网站根目录下的文本协议文件,通过定义User-agent和Disallow/Allow指令,指导搜索引擎爬虫的抓取行为。该文件可阻止爬虫访问敏感目录(如/admin)、重复内容或动态页面(包含?参数的URL),从而提升有效索引率。
User-agent: *
适配所有爬虫,或指定特定爬虫(如Googlebot)Disallow: /private/
(末尾斜杠表示整个目录)Allow: /public/file.html
规范语法需遵循以下要点:
User-agent: *
)Disallow: /img
匹配/img.jpg和/img/子目录Disallow: /img/
仅限制/img/目录下的内容Disallow: /*.php$
禁止抓取php文件Allow: /downloads/*.pdf
允许特定类型文件典型错误包含:
/admin/
而非/admin)最佳实践建议采用分层配置,例如:
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ User-agent: Googlebot-Image Allow: /images/logo.png Disallow: /images/
# 目录下
# intr_t
# span
# amount
# item_intr
# dianxin
# png
# alt
# fanw
# intr_b
# 全角
# 测试工具
# 需注意
# 如何正确
# 文本文件
# 该文件
# 而非
# 建站
# 英文
# 多个