如何正确编写robots文件规范？.txt

日期：2025-03-11 00:00 / 作者：网络

一、robots.txt文件的核心作用

robots.txt是存储在网站根目录下的文本协议文件，通过定义User-agent和Disallow/Allow指令，指导搜索引擎爬虫的抓取行为。该文件可阻止爬虫访问敏感目录（如/admin）、重复内容或动态页面（包含?参数的URL），从而提升有效索引率。

创建文件：在服务器根目录新建名为robots.txt的纯文本文件，确保编码为UTF-8
定义用户代理：使用User-agent: *适配所有爬虫，或指定特定爬虫（如Googlebot）
设置访问规则：
- 禁止目录：Disallow: /private/（末尾斜杠表示整个目录）
- 允许特定文件：Allow: /public/file.html
验证语法：通过Google Search Console的robots测试工具检测规则有效性

规范语法需遵循以下要点：

指令区分大小写，必须使用英文冒号+空格（如User-agent: *）
路径匹配规则：
- Disallow: /img 匹配/img.jpg和/img/子目录
- Disallow: /img/ 仅限制/img/目录下的内容
通配符应用：
- Disallow: /*.php$ 禁止抓取php文件
- Allow: /downloads/*.pdf 允许特定类型文件

典型错误包含：

最佳实践建议采用分层配置，例如：

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
User-agent: Googlebot-Image
Allow: /images/logo.png
Disallow: /images/