如何攔截Google和Bing訪問您的網站?

如何攔截Google和Bing訪問您的網站?

Google每天至少使用一次Googlebot抓取工具來抓取網頁並將其編入索引。通常,抓取基於您在Google Search Console中提交的XML Sitemap。但是,與普通內容網站相比,新聞網站的抓取頻率可能會發生變化並且速度會更快。同樣,Bing也使用Bingbot爬蟲來爬取頁面。一方面,網站管理員希望Google和Bing立即索引他們的頁面,另一方面,在某些情況下,您必須阻止這些爬蟲來停止爬取整個網站或您網站上的某些頁面。

在本文中,我們將解釋如何遮蔽Googlebot和Bingbot,遮蔽爬蟲後會發生什麼以及出現爬取問題的常見原因。

攔截Googlebot和Bingbot

根據您需要的嚴重程度,有多種方法可以阻止您的網頁訪問Google和Bing。

1. 使用Robots.txt進行攔截

阻止爬蟲的最流行和最常見的方法是在robots.txt檔案中使用指令。例如,插入以下行將攔截Google和Bing訪問您網站上的頁面。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
User-agent: Googlebot
Disallow: /your-page-url
User-agent: Bingbot
Disallow: /your-page-url
User-agent: Googlebot Disallow: /your-page-url User-agent: Bingbot Disallow: /your-page-url
User-agent: Googlebot
Disallow: /your-page-url
User-agent: Bingbot
Disallow:  /your-page-url

儘管Google和Bing遵循robots.txt檔案,但如果被阻止的頁面是從另一篇已編入索引的文章連結的,它就不起作用。它可以來自您的網站,也可以來自您無法控制的外部網站。

2. 使用.htaccess來阻止

雖然不常見,但有些人更喜歡使用.htaccess指令來阻止爬蟲。這類似於攔截Googlebot和Bingbot的IP地址,從而阻止對上述頁面或目錄的完全訪問。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
RewriteEngine On
RewriteCond %{REQUEST_URI} ^/your-page-url
RewriteRule ^(.*)$ - [F,L]
RewriteEngine On RewriteCond %{REQUEST_URI} ^/your-page-url RewriteRule ^(.*)$ - [F,L]
RewriteEngine On
RewriteCond %{REQUEST_URI} ^/your-page-url
RewriteRule ^(.*)$ - [F,L]

3. 攔截Googlebot和Bingbot IP地址

上述方法的問題是您需要具有伺服器訪問許可權才能編輯檔案。此外,您在編輯robots.txt和.htaccess檔案時也可能會出錯。另一種有效的選擇是使用阻止Googlebot和Bingbot IP地址。GoogleBing為爬蟲提供更新後的IP地址,您可以將其用於阻止目的。這些IP地址採用JSON格式,您需要從中提取IP範圍並使用。請記住,這些是用於Googlebot和Bingbot搜尋爬蟲,而不是用於其他目的,例如AdSense爬蟲或Microsoft廣告爬蟲。

使用主機面板

如果您有伺服器訪問許可權,則可以使用主機面板中提供的IP Blocker工具。例如,HostGator在其cPanel的“SECURITY”部分下提供了一個名為IP Deny Manager的“IP Blocker”應用程式。

HostGator cPanel中的IP攔截器

HostGator cPanel中的IP攔截器

您可以在所有cPanel託管公司中找到類似的工具,例如Bluehost。單擊IP Blocker應用程式並提供Googlebot或Bingbot的IP範圍以攔截訪問。例如,您可以使用以下方法之一提供Googlebot IP地址:

  • 使用JSON檔案中給出的CIDR格式,如 66.249.64.0/27。
  • 隱含的IP範圍,如 66.249.66.0-255
  • 萬用字元範圍如 66.249.*.*
  • 只需輸入googlebot.com,因為大多數Goolgebot使用者代理都來自此主機名。

在cPanel中攔截Googlebot和Bingbot

在cPanel中攔截Googlebot和Bingbot

通常,攔截一個或幾個IP地址就足以攔截訪問。但是,您可以使用萬用字元或主機名來阻止整個訪問。

使用WordPress外掛

否則,如果您使用的是WordPress之類的內容管理系統,那麼您有很多安全外掛可以攔截來自站點管理員面板的機器人和IP地址,而無需訪問託管帳戶。例如,SiteGround Security外掛允許您監控網站的實時流量。您可以根據使用者代理名稱找到Googlebot和 Bingbot IP地址,並在管理面板中單擊幾下即可阻止。

在SiteGround安全外掛中攔截IP

在SiteGround安全外掛中攔截IP

這些是有效的方法,尤其是當您想攔截Google和Bing訪問您的整個網站時。

您還可以使用蜘蛛統計分析外掛,通過外掛的蜘蛛攔截功能來對Google和Bing蜘蛛進行攔截,您可以通過IP或者蜘蛛名進行快速攔截。

蜘蛛統計分析外掛概覽

該外掛同時還具備網站搜尋引擎蜘蛛爬取資料統計,頁面爬取日誌檢視,蜘蛛訪問路徑等功能,屬於WordPress站長必不可少的SEO輔助外掛。

4. 隱藏授權頁面

這對於通過設定許可權來限制搜尋引擎對頁面的訪問非常有用。例如,銀行和會員網站將個性化內容隱藏在登入授權後面,這樣搜尋引擎就無法訪問這些內容。基於內容的機密性,您可能需要應用防火牆、阻止使用者配置檔案等。強烈建議聘請開發人員並在所需目錄級別正確設定限制,以便Google不會抓取禁止部分。

控制爬行速率或爬行頻率

如果您發現Googlebot和Bingbot對伺服器資源的消耗較高,您可以控制抓取速度或抓取頻率。抓取速度是Googlebot或Bingbot每秒發出的從您的網站獲取內容的請求數。對於高流量網站,控制爬蟲程式的爬取速度對於調整伺服器資源至關重要。詳細瞭解如何在Bing網站管理員工具中更改Bingbot的抓取速度

但是,Google會自動使用優化的抓取速度從您的網站抓取內容。您可以從Google Search Console帳戶檢視此內容。如果您對當前的抓取頻率不滿意,請向Google提出特殊要求。新的抓取速度將在接下來的90天內有效,並在該期限後重置為優化設定。詳細瞭解為什麼您應該控制Googlebot抓取速度

攔截Googlebot和Bingbot時會發生什麼?

當您阻止頁面或站點URL時,您將分別在Google Search Console和Bing網站管理員工具中看到不同型別的錯誤。以下是您會在Search Console帳戶中注意到的一些常見錯誤:

  • 當您使用robots.txt指令時,URL被Robots.txt阻止。
  • 帶有類似“提交的URL似乎是一個軟404”的404錯誤訊息 。
  • 部分抓取或頁面沒有內容錯誤。

如果管理您網站的人錯誤地阻止了您網站上的頁面,您可以檢查“覆蓋範圍”部分下的Google Search Console錯誤並修復它們。

但是,在攔截IP或使用.htaccess方法時,您可能不會發現問題。簡單的方法是使用Google Search Console中的URL檢查工具、Google PageSpeed Insights或移動友好的測試工具來測試是否可以抓取實時頁面。當Googlebot被阻止訪問該頁面時,您將看到錯誤和呈現的空白頁面。

小結

您可以使用上述方法之一來攔截Googlebot和Bingbot抓取您的網站。但是,請確保在阻止您網站的特定頁面或部分時避免錯誤。特別是,攔截IP地址是最危險的操作,它會將您的網頁從Google搜尋中完全刪除。您可能需要重新提交頁面並等待重新索引,這可能會導致流量下降,從而導致收入下降。因此,如果您不確定如何攔截Googlebot和Bingbot,請與您的託管公司聯絡。或者,聘請開發人員進行自定義開發工作,例如將機密內容隱藏在授權後面。

評論留言