為什麼要控制Googlebot抓取速度?

為什麼要控制Googlebot抓取速度?

有時會很高興地看到,Google幾乎是在瞬間抓取您的網站。但這對於大多數網站來說不是必需的,因為內容可能每天更新一次,甚至更長的時間間隔。在內容沒有更新的這種情況下,搜尋引擎爬蟲或機器人繼續在網站上尋找更新是沒有意義的。

在本文中,我們將瞭解您為什麼要控制Googlebot以及如何控制Googlebot和其他搜尋引擎爬蟲的抓取速度。

為什麼要控制Googlebot抓取速度?

當您有多個站點或更大的站點時,搜尋引擎機器人的持續爬取將對伺服器效能產生不利影響。因此,有必要控制爬取您網站的機器人的爬取速率,而Googlebot是您在許多情況下應該控制的第一個。

  • 無論是搜尋引擎機器人還是真實使用者,都會使用您的伺服器資源。
  • 高爬取率將導致高CPU利用率,最終可能需要為額外資源支付更多費用。在共享託管環境中,您的主機可能會停止服務以保護託管在同一伺服器上的其他站點。
  • 當Googlebot抓取網站時,網站上的真實使用者可能會感到緩慢。特別是當您擁有電子商務網站時,必須控制Googlebot和其他經常抓取的機器人。

如果您的網站較小且流量有限,您可能不會看到機器人有任何問題。當您有多個站點每天吸引成千上萬的訪問者時,您會注意到由於爬蟲的活動導致CPU使用率猛增。當CPU利用率很高時,您可能會收到來自託管公司的警告訊息,或者您的帳戶將被暫停,要求您採取必要的措施。

如何監控Googlebot?

有兩種方法可以監控Googlebot的抓取活動。一種是從您的Google Search Console中進行檢查,另一種是從您的託管帳戶進行監控。

登入到您的Google Search Console帳戶並導航到“設定”,然後抓取>抓取統計資訊>開啟報告。在這裡,您可以檢視過去90天時間範圍內的Googlebot活動。您將看到三個圖表——每天抓取的頁面、每天下載的千位元組以及下載頁面所花費的時間(以毫秒為單位)。這些圖表將讓您全面瞭解Googlebot在您的網站上所做的事情。

Googlebot在您的網站上抓取資料統計

Googlebot在您的網站上抓取資料統計

第二種也是最有效的方法是通過您的主機帳戶監控伺服器上的活動。登入到您的託管帳戶並查詢其中一種統計報告工具。在這種情況下,我們使用幾乎所有共享託管服務提供商(如Bluehost、SiteGround等)提供的Awstats進行解釋。

開啟Awstats應用程式並選擇您的站點以檢視統計資訊。在“Robots / Spider visitors”部分檢視最活躍的機器人列表。

從Awstats監控機器人

從Awstats監控機器人

 

您還可以使用WordFence等外掛來監控實時流量和Googlebot活動。

當然,我們的蜘蛛分析外掛也可以實現爬蟲統計及行為分析,安裝啟用外掛後,當然是統計了一段時間的資料,點選蜘蛛分析>蜘蛛概況,然後選擇最近30天,在趨勢圖下列選單選擇為Googlebot,即可檢視Googlebot最近30天URL爬取的數量。

Googlebot最近30天URL爬取

 

如何控制Googlebot的抓取速度?

當您注意到Googlebot正在抓取您的網站並消耗大量頻寬時,就該控制抓取速度了。一些託管公司通過在robots.txt檔案中新增條目來自動控制抓取延遲。您可以從Google Search Console手動控制Googlebot的抓取速度。登入到您的Search Console帳戶後,開啟您的資源的抓取速度設定頁面,選擇您需要設定谷歌蜘蛛爬取速度的網站。

在Google Search Console中訪問抓取控制設定

在Google Search Console中訪問抓取控制設定

您將在“抓取速度”部分看到兩個選項。

Googlebot抓取速度控制

  • 讓Google優化我的網站(推薦)
  • 限制Google的最大抓取速度

選擇第二個單選按鈕並將進度條向下拖動到任何所需的速率。這將設定每秒的請求數和抓取請求之間的秒數。

注:除非谷歌爬取導致您的網站效能下降嚴重,否則完全沒必要修改谷歌爬蟲的爬取速度,這一塊的控制,谷歌做得相當優秀。

新的抓取速度設定將在90天內有效,並在到期後自動重置為第一個選項“讓Google為我的網站進行優化”。

必應呢?

與Googlebot類似,您也可以在Bing Webmaster Tools下限制Bingbot。登入到您的帳戶後,導航到“配置 > 爬網控制元件”,即可進行相關的設定。

必應網站管理員工具中的抓取控制

必應網站管理員工具中的抓取控制

通過選擇圖表上的藍色框來調整抓取速度。

其他搜尋引擎爬蟲

除了Google和Bing,還有許多其他機器人可以抓取您的網站。您可以使用通用.htaccess指令阻止所有其他機器人。在您的.htaccess檔案中新增以下程式碼以阻止除Google、Bing、MSN、MSR、Yandex和Twitter之外的所有機器人。所有其他機器人將被重定向到本地主機IP地址 127.0.0.1。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
#Disable bad bots
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^$ [OR]
RewriteCond %{HTTP_USER_AGENT} (bot|crawl|robot)
RewriteCond %{HTTP_USER_AGENT} !(bing|Google|msn|MSR|Twitter|Yandex) [NC]
RewriteRule ^/?.*$ "http\:\/\/127\.0\.0\.1" [R,L]
#Disable bad bots RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^$ [OR] RewriteCond %{HTTP_USER_AGENT} (bot|crawl|robot) RewriteCond %{HTTP_USER_AGENT} !(bing|Google|msn|MSR|Twitter|Yandex) [NC] RewriteRule ^/?.*$ "http\:\/\/127\.0\.0\.1" [R,L]
#Disable bad bots
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^$ [OR]
RewriteCond %{HTTP_USER_AGENT} (bot|crawl|robot)
RewriteCond %{HTTP_USER_AGENT} !(bing|Google|msn|MSR|Twitter|Yandex) [NC]
RewriteRule ^/?.*$ "http\:\/\/127\.0\.0\.1" [R,L]

您還可以通過IP地址攔截方式部分蜘蛛的訪問和爬取拒絕

 

小結

有必要監視和控制您網站上的爬蟲活動,以便將託管伺服器的CPU利用率保持在允許的範圍內。我們已經解釋了一些方法,還有許多其他方法可以阻止壞機器人。與您的主機討論並確保您做正確的事情並且只阻止不良機器人也是一個好主意。

最後,小編的建議是,如國內站長,像谷歌、百度、bing及搜狗等搜尋引擎的蜘蛛訪問爬取,非必要情況儘可能不要去幹預。倒是一些不知名蜘蛛爬蟲,我們應該儘可能將它們拒之門外,以免浪費伺服器資源(這可以通過蜘蛛統計分析外掛,實現智慧攔截)。

評論留言