参考资料

  1. robots.txt disallow
  2. 百度收录解析与操作指南
  3. 优化robots.txt提升搜索抓取效率
  4. 360站长平台
  5. robots.txt 禁止所有
  6. 如何检查网站是否被百度收录?
  7. robots.txt是什么
  8. robots.txt 在哪里

robots.txt 语法

robots.txt 文件用于指示网络爬虫(如搜索引擎的爬虫)如何访问网站的页面。其基本语法如下:

  1. User-agent: 指定爬虫的名称。* 表示所有爬虫。

    User-agent: *
  2. Disallow: 禁止爬虫访问的路径。

    Disallow: /private/
  3. Allow: 允许爬虫访问的路径(通常与 Disallow 结合使用)。

    Allow: /public/
  4. Sitemap: 指定网站地图的位置。

    Sitemap: https://example.com/sitemap.xml

示例:

User-agent: *
Disallow: /private/
Allow: /public/
Sitemap: https://example.com/sitemap.xml