
如何做搜尋引擎蜘蛛日誌分析
搜尋引擎蜘蛛日誌檔案是一種非常強大但未被站長充分利用的檔案,分析它可以獲取有關每個搜尋引擎如何爬取網站內容的相關資訊點,及檢視搜尋引擎蜘蛛在一段時間內的行為。
IP地址(8) | 伺服器名稱 | 所屬國家 |
---|---|---|
83.99.151.64 | product-search-83-99-151-64.geedo.com | LV |
83.99.151.69 | product-search-83-99-151-69.geedo.com | LV |
83.99.151.71 | product-search-83-99-151-71.geedo.com | LV |
83.99.151.70 | product-search-83-99-151-70.geedo.com | LV |
83.99.151.65 | product-search-83-99-151-65.geedo.com | LV |
83.99.151.68 | product-search-83-99-151-68.geedo.com | LV |
83.99.151.67 | product-search-83-99-151-67.geedo.com | LV |
83.99.151.66 | product-search-83-99-151-66.geedo.com | LV |
IP地址(5) | 伺服器名稱 | 所屬國家 |
---|---|---|
81.198.74.4 | crawler-81-198-74-4.bot.geedo.com | LV |
109.229.213.23 | host-109-229-213-23.icoms.lv | LV |
46.23.42.42 | balticom-23-42-42.balticom.lv | LV |
212.142.103.56 | balticom-142-103-56.balticom.lv | LV |
83.99.151.65 | balticom-151-65.balticom.lv | LV |
對於未知蜘蛛或者爬蟲。它的用途對網站來說可能是好的,也可能是壞的,這取決於它是什麼。所以說,這需要站長進一步分析判斷這些尚不明確的爬蟲行為,再作最終決定。 但,根據以往的經驗,未宣告行為目的及未命名的蜘蛛爬蟲,通常都有不可告人的祕密,我們理應對其行為進行控制,比如攔截。
您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 GeedoBot 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: GeedoBot Disallow: /
您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。
GeedoBot是一個用於掃描網頁的程式,特別是網上商店,以找到供全世界購買的產品。
Mozilla/5.0 (compatible; GeedoBot; +http://www.geedo.com/bot.html)
使用反向DNS查詢來檢查GeedoBot的真實性:
1. 從你的日誌中對訪問的IP地址執行反向DNS查詢。驗證域名是否以bot.geedo.com結尾。
# host 81.198.74.4 4.74.198.81.in-addr.arpa domain name pointer crawler-81-198-74-4.bot.geedo.com.
2. 對檢索到的域名進行DNS前向查詢。驗證它是否與原始訪問的IP地址相匹配
# host crawler-81-198-74-4.bot.geedo.com crawler-81-198-74-4.bot.geedo.com has address 81.198.74.4
不提供IP地址的公開列表,因為它們可能會改變。
為了限制GeedoBot,使用速率限制指令,設定請求之間的最小間隔時間(秒)。
User-agent: GeedoBot Crawl-delay: 10
如果您想阻止GeedoBot訪問您的某些內容,您可以通過指定GeedoBot為使用者代理來實現這一目的:
User-agent: GeedoBot Disallow: /forum