LemurWebCrawler

基本資訊

LemurWebCrawler的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲，可能存在資訊不明的情況。

使用者代理

關於LemurWebCrawler蜘蛛或者爬蟲的使用者代理字串，IP地址和伺服器，所在地等資訊如下表格所示：

使用者代理字串: The Lemur Web Crawler/Nutch-1.3 (Lemur Web Crawler; http://boston.lti.cs.cmu.edu/crawler_12/; admin@lemurproject.org)

來源

IP地址(1)	伺服器名稱	所屬國家
128.2.207.79	boston-cluster.lti.cs.cmu.edu	US

使用者代理字串: The Lemur Web Crawler/Nutch-1.3 (Lemur Web Crawler; http://boston.lti.cs.cmu.edu/crawler_12/; admin@lemurproject.org)

來源

IP地址(1)	伺服器名稱	所屬國家
128.2.207.79	boston-cluster.lti.cs.cmu.edu	US

訪問控制

瞭解如何控制LemurWebCrawler訪問許可權，避免LemurWebCrawler抓取行為不當。

對於未知蜘蛛或者爬蟲。它的用途對網站來說可能是好的，也可能是壞的，這取決於它是什麼。所以說，這需要站長進一步分析判斷這些尚不明確的爬蟲行為，再作最終決定。但，根據以往的經驗，未宣告行為目的及未命名的蜘蛛爬蟲，通常都有不可告人的祕密，我們理應對其行為進行控制，比如攔截。

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 LemurWebCrawler 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛，以檢查它是否真正遵循這些規則。

# robots.txt

# 下列程式碼一般情況可以攔截該代理

User-agent: LemurWebCrawler

Disallow: /

# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: LemurWebCrawler Disallow: /

# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: LemurWebCrawler
Disallow: /

您無需手動執行此操作，可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

基本資訊