Google每天至少使用一次Googlebot抓取工具來抓取網頁並將其編入索引。通常,抓取基於您在Google Search Console中提交的XML Sitemap。但是,與普通內容網站相比,新聞網站的抓取頻率可能會發生變化並且速度會更快。同樣,Bing也使用Bingbot爬蟲來爬取頁面。一方面,網站管理員希望Google和Bing立即索引他們的頁面,另一方面,在某些情況下,您必須阻止這些爬蟲來停止爬取整個網站或您網站上的某些頁面。
在本文中,我們將解釋如何遮蔽Googlebot和Bingbot,遮蔽爬蟲後會發生什麼以及出現爬取問題的常見原因。
攔截Googlebot和Bingbot
根據您需要的嚴重程度,有多種方法可以阻止您的網頁訪問Google和Bing。
1. 使用Robots.txt進行攔截
阻止爬蟲的最流行和最常見的方法是在robots.txt檔案中使用指令。例如,插入以下行將攔截Google和Bing訪問您網站上的頁面。
User-agent: Googlebot Disallow: /your-page-url User-agent: Bingbot Disallow: /your-page-url
儘管Google和Bing遵循robots.txt檔案,但如果被阻止的頁面是從另一篇已編入索引的文章連結的,它就不起作用。它可以來自您的網站,也可以來自您無法控制的外部網站。
2. 使用.htaccess來阻止
雖然不常見,但有些人更喜歡使用.htaccess指令來阻止爬蟲。這類似於攔截Googlebot和Bingbot的IP地址,從而阻止對上述頁面或目錄的完全訪問。
RewriteEngine On RewriteCond %{REQUEST_URI} ^/your-page-url RewriteRule ^(.*)$ - [F,L]
3. 攔截Googlebot和Bingbot IP地址
上述方法的問題是您需要具有伺服器訪問許可權才能編輯檔案。此外,您在編輯robots.txt和.htaccess檔案時也可能會出錯。另一種有效的選擇是使用阻止Googlebot和Bingbot IP地址。Google和Bing為爬蟲提供更新後的IP地址,您可以將其用於阻止目的。這些IP地址採用JSON格式,您需要從中提取IP範圍並使用。請記住,這些是用於Googlebot和Bingbot搜尋爬蟲,而不是用於其他目的,例如AdSense爬蟲或Microsoft廣告爬蟲。
使用主機面板
如果您有伺服器訪問許可權,則可以使用主機面板中提供的IP Blocker工具。例如,HostGator在其cPanel的“SECURITY”部分下提供了一個名為IP Deny Manager的“IP Blocker”應用程式。
HostGator cPanel中的IP攔截器
您可以在所有cPanel託管公司中找到類似的工具,例如Bluehost。單擊IP Blocker應用程式並提供Googlebot或Bingbot的IP範圍以攔截訪問。例如,您可以使用以下方法之一提供Googlebot IP地址:
- 使用JSON檔案中給出的CIDR格式,如 66.249.64.0/27。
- 隱含的IP範圍,如 66.249.66.0-255
- 萬用字元範圍如 66.249.*.*
- 只需輸入googlebot.com,因為大多數Goolgebot使用者代理都來自此主機名。
在cPanel中攔截Googlebot和Bingbot
通常,攔截一個或幾個IP地址就足以攔截訪問。但是,您可以使用萬用字元或主機名來阻止整個訪問。
使用WordPress外掛
否則,如果您使用的是WordPress之類的內容管理系統,那麼您有很多安全外掛可以攔截來自站點管理員面板的機器人和IP地址,而無需訪問託管帳戶。例如,SiteGround Security外掛允許您監控網站的實時流量。您可以根據使用者代理名稱找到Googlebot和 Bingbot IP地址,並在管理面板中單擊幾下即可阻止。
在SiteGround安全外掛中攔截IP
這些是有效的方法,尤其是當您想攔截Google和Bing訪問您的整個網站時。
您還可以使用蜘蛛統計分析外掛,通過外掛的蜘蛛攔截功能來對Google和Bing蜘蛛進行攔截,您可以通過IP或者蜘蛛名進行快速攔截。
該外掛同時還具備網站搜尋引擎蜘蛛爬取資料統計,頁面爬取日誌檢視,蜘蛛訪問路徑等功能,屬於WordPress站長必不可少的SEO輔助外掛。
4. 隱藏授權頁面
這對於通過設定許可權來限制搜尋引擎對頁面的訪問非常有用。例如,銀行和會員網站將個性化內容隱藏在登入授權後面,這樣搜尋引擎就無法訪問這些內容。基於內容的機密性,您可能需要應用防火牆、阻止使用者配置檔案等。強烈建議聘請開發人員並在所需目錄級別正確設定限制,以便Google不會抓取禁止部分。
控制爬行速率或爬行頻率
如果您發現Googlebot和Bingbot對伺服器資源的消耗較高,您可以控制抓取速度或抓取頻率。抓取速度是Googlebot或Bingbot每秒發出的從您的網站獲取內容的請求數。對於高流量網站,控制爬蟲程式的爬取速度對於調整伺服器資源至關重要。詳細瞭解如何在Bing網站管理員工具中更改Bingbot的抓取速度。
但是,Google會自動使用優化的抓取速度從您的網站抓取內容。您可以從Google Search Console帳戶檢視此內容。如果您對當前的抓取頻率不滿意,請向Google提出特殊要求。新的抓取速度將在接下來的90天內有效,並在該期限後重置為優化設定。詳細瞭解為什麼您應該控制Googlebot抓取速度。
攔截Googlebot和Bingbot時會發生什麼?
當您阻止頁面或站點URL時,您將分別在Google Search Console和Bing網站管理員工具中看到不同型別的錯誤。以下是您會在Search Console帳戶中注意到的一些常見錯誤:
- 當您使用robots.txt指令時,URL被Robots.txt阻止。
- 帶有類似“提交的URL似乎是一個軟404”的404錯誤訊息 。
- 部分抓取或頁面沒有內容錯誤。
如果管理您網站的人錯誤地阻止了您網站上的頁面,您可以檢查“覆蓋範圍”部分下的Google Search Console錯誤並修復它們。
但是,在攔截IP或使用.htaccess方法時,您可能不會發現問題。簡單的方法是使用Google Search Console中的URL檢查工具、Google PageSpeed Insights或移動友好的測試工具來測試是否可以抓取實時頁面。當Googlebot被阻止訪問該頁面時,您將看到錯誤和呈現的空白頁面。
小結
您可以使用上述方法之一來攔截Googlebot和Bingbot抓取您的網站。但是,請確保在阻止您網站的特定頁面或部分時避免錯誤。特別是,攔截IP地址是最危險的操作,它會將您的網頁從Google搜尋中完全刪除。您可能需要重新提交頁面並等待重新索引,這可能會導致流量下降,從而導致收入下降。因此,如果您不確定如何攔截Googlebot和Bingbot,請與您的託管公司聯絡。或者,聘請開發人員進行自定義開發工作,例如將機密內容隱藏在授權後面。
評論留言