robots.txt文件用于指示网络爬虫如何与网站交互,其基本格式包含多个规则。每个规则通常包含两个部分:User-agent和Disallow指令。以下是基本的robots.txt文件格式示例:其中,User-agent指定了哪些爬虫应用这些规则,星号(*)代表所有爬虫。Disallow指定了不允许爬取的网页路径或文件。根据需要,可以定义多个User-agent规则。
以下是一个基本的robots.txt文件示例内容:User-agent: *Disallow: / (禁止所有爬虫访问网站的所有页面)或者可以具体指定某些爬虫可以访问网站内容,例如:User-agent: GooglebotDisallow: /admin (禁止Google爬虫访问网站的后台管理页面)Allow: /public (允许Google爬虫访问网站的公开页面)