robots.txt 文件用于指示网络爬虫(如搜索引擎的爬虫)如何访问网站的页面。其基本语法如下:

  1. User-agent: 指定爬虫的名称。* 表示所有爬虫。

    1. User-agent: *
  2. Disallow: 禁止爬虫访问的路径。

    1. Disallow: /private/
  3. Allow: 允许爬虫访问的路径(通常与 Disallow 结合使用)。

    1. Allow: /public/
  4. Sitemap: 指定网站地图的位置。

    1. Sitemap: https://example.com/sitemap.xml

示例:

  1. User-agent: *
  2. Disallow: /private/
  3. Allow: /public/
  4. Sitemap: https://example.com/sitemap.xml

本篇文章内容来源于:robots.txt 语法