robots.txt 是一个文本文件,用于指导网络爬虫(如搜索引擎的爬虫)如何访问和抓取网站的内容。它通常放置在网站的根目录下,通过指定允许或禁止爬虫访问的路径来控制爬虫的行为。

基本格式

User-agent: [爬虫名称]
Disallow: [禁止访问的路径]
Allow: [允许访问的路径]

示例

  1. 禁止所有爬虫访问整个网站

    User-agent: *
    Disallow: /
  2. 允许所有爬虫访问整个网站

    User-agent: *
    Disallow:
  3. 禁止特定爬虫访问特定目录

    User-agent: Googlebot
    Disallow: /private/
  4. 允许特定爬虫访问特定目录

    User-agent: Bingbot
    Allow: /public/

注意事项

  • robots.txt 只是一个建议,爬虫可以选择忽略它。

  • 敏感信息不应仅依赖 robots.txt 来保护,应使用其他安全措施。

  • 使用 robots.txt 可以优化搜索引擎的抓取效率,避免不必要的资源浪费。

本篇文章内容来源于:robots.txt利用