在robots.txt檔案中,可以使用User-agent指令來指定爬蟲使用的使用者代理字串。這可以用於個性化配置,例如為特定爬蟲設定特定的抓取規則或限制。
以下是一些常見的robots.txt檔案中的User-agent指令示例:
User-agent: *
Disallow: /private/
User-agent: *
Disallow: /private/
User-agent: * Disallow: /private/
這個指令適用於所有的爬蟲 User-Agent,指示它們不應訪問網站根目錄下的/private/目錄。
User-agent: Googlebot
Disallow: /images/
Allow: /images/public/
User-agent: Googlebot
Disallow: /images/
Allow: /images/public/
User-agent: Googlebot Disallow: /images/ Allow: /images/public/
這個指令僅適用於Googlebot爬蟲,指示它不應訪問網站根目錄下的/images/目錄,但允許訪問/images/public/目錄。
User-agent: Bingbot
Disallow: /
User-agent: Bingbot
Disallow: /
User-agent: Bingbot Disallow: /
這個指令僅適用於Bingbot爬蟲,指示它不應訪問網站的任何內容,也就是禁止整個網站的訪問。
User-agent: *
Crawl-delay: 10
User-agent: *
Crawl-delay: 10
User-agent: * Crawl-delay: 10
這個指令適用於所有的爬蟲 User-Agent,指示它們在訪問網站的不同頁面之間應該間隔至少10秒。
這些只是一些例子,robots.txt檔案中的User-agent指令可以根據具體需求進行配置。每個指令都指定了特定的User-Agent和對應的規則,用於控制爬蟲在網站上的訪問和抓取行為。請注意,User-agent指令是逐行處理的,按照順序匹配第一個可匹配的User-Agent,因此需謹慎編寫規則,以確保正確的爬蟲訪問行為。
更多蜘蛛指令,請參閱《深入瞭解Robots.txt及如何規範地編寫》