有時候有些網站URL地址,我們並不需要被搜尋引擎收錄索引。若發生了意外的情況,我們應該如何處理?大部分搜尋引擎都提供移除網址的服務,本文將以谷歌為例,詳細說明各種情況!
有很多方法可以從谷歌中移除網址。但是沒有一種方法是可以適合所有情況。使用哪個方法需要你去做判斷。
重要的是,使用錯誤的方法不僅會導致頁面無法按預期從谷歌索引中刪除,而且還會對SEO產生負面影響。
為了快速確定哪種移除方法最適合你,全文實行分章節,你可以更具自己的情況跳到本文的相關部分。
本文中你可以學到:
如何檢查網址是否被索引
我通常看到SEO人員檢查頁面是否被編入索引的做法是使用 site: 方法在谷歌中搜尋(例如 site:url地址)。雖然 site: 搜尋對於識別如果顯示在搜尋結果中可能有問題的網站頁面時很有用。但是你需要注意,結果並不是絕對的。事實上它上不會告訴你頁面是否是索引。它們可能顯示的是谷歌已知的頁面,但這並不意味著它們有資格在沒有site:指令的情況下依然顯示在常規搜尋結果中。
舉個例子,site: 搜尋後的結果依然包括跳轉頁面以及製作過Canonical標籤的頁面。同時,當你site搜尋一個域名時,谷歌可能會顯示的是另外一個域名的標題以及描述的結果。比如我們可以看下 moz.com這個站點(原來是seomoz.com)搜尋任何指向 moz.com 的關鍵詞時,展示的SERP結果都是 moz.com,但是當我們 site:seomoz.com 的時候,結果卻像下方這樣:
這個之所以重要是因為,很多SEO會在這裡誤判,在谷歌當中移除原來的老域名連結。這會導致 PageRank(頁面權重) 無法正常傳遞。我看過很多的案例,很多人誤以為是因為操作失誤導致 site:舊域名的時候依然有結果,所以開始“修復”這些問題。實際這些操作卻在傷害網站。
檢查網頁是否索引的方法是檢視 Google Search Console 中的覆蓋率報告,或者是使用網址檢查功能檢測單一的頁面。這些工具會告訴你頁面是否被索引,同時還會提供額外的資訊說明谷歌是如何處理這些頁面的。如何你沒有這個工具的話,那麼也可以直接在谷歌當中搜尋你頁面的URL。
在Ahrefs中,你可以在 “Top pages(熱門頁面)”報告中找到參與排名的頁面。通常我們看到的都是參與自然關鍵詞排名的頁面結果,這就意味著這些頁面很可能是索引的。這裡需要注意的是,你需要檢視最後我們發現這個頁面的日期,在我們發現這個頁面的時候它是索引狀態,但是索引狀態會跟隨時間而變化。
如果某一個特定的URL有問題,需要從索引中移除。你可以通過檢視本文最開始流程圖,找到最好的解決方法,並且檢視下方對應的方法進行處理。
5種從谷歌移除網址的方法
方法1: 刪除內容
如果你刪除了內容,並且伺服器返回404(未找到)或410(丟失)的狀態碼,那麼在谷歌再次抓取這個頁面之後就會從索引中移除這些頁面。在移除之前,頁面依然可能會在搜尋結果中展現出來。即使頁面已經被刪除,有可能快取的頁面依然會被臨時的展示給使用者。
你也許會想要其它的方法:
- 我需要儘快移除網址. 檢視URL移除工具。
- 我希望保留連結權重. 檢視設定規範頁面方法。
- 我需要頁面對使用者可見. 檢視noindex方法或者限制訪問方法是否能滿足你的需求。
方法2: Noindex
使用 noindex meta robots 標籤、或者是使用 x‑robots 頭部請求可以告訴搜尋引擎在索引中移除本頁面。 meta robots標籤適用於頁面,x‑robots適用於頁面以及其它格式的資源(比如:pdf)。因為這些標籤需要被搜尋引擎發現——所以不要用robots.txt進行遮蔽。同時需要注意,將這些頁面移除索引可能會導致連結無法傳遞權重。
Noindex meta robots 標籤示例:
<meta name="robots" content="noindex">
X‑robots noindex 頭部求情示例:
HTTP/1.1 200 OK X-Robots-Tag: noindex
你也許會需要其它的一些解決方法:
- 我不希望使用者訪問這個頁面. 檢視訪問限制方法。
- 我需要保留連結權重. 檢視設定規範頁面方法。
方法3: 訪問限制
如果你希望頁面只能被特定使用者訪問,而不被搜尋引擎發現,那麼你可以使用下面三種方式中的一種:
- 設定特殊的登入訪問系統;
- HTTP認證 (需要密碼才可以訪問);
- IP 白名單 (只允許特定IP訪問頁面)
這種設定方法非常適合內網環境、會員限定內容、暫存內容、測試站點、或者是正在開發中的站點。它只會允許除搜尋引擎以外的特定使用者訪問,這樣搜尋引擎就不會索引這些頁面。
你可能需要其它的方法:
- 我需要儘快移除網址. 檢視URL移除工具。在特殊情況中,你需要隱藏的內容可能已經被快取了,這時你需要儘快移除網址,防止使用者看到內容。
方法4: URL移除工具
這個工具的名稱可能會讓你誤解它的工作原理。這個工具只會臨時的隱藏特定內容。谷歌依然會發現並抓取內哦讓那個,但是頁面不會展示給使用者。在谷歌中會持續6個月的時間,而在Bing中也有相同的功能,但是時間只會持續3個月。這個工具建議在極為特殊的情況下使用。比如安全問題、資訊洩露、個人身份資訊(PII)等等。針對谷歌你可以使用移除工具,對於Bing可以看如何遮蔽URL。
如果你希望在更長時間內的移除這個內容,那麼除了使用移除工具之外你還要配合使用其它的方法(noindex或者刪除內容)。又或者是阻止擁有連結的使用者繼續訪問內容(刪除或訪問限制)。這只是給你一個快速隱藏內容的方法,但是從索引中移除依然需要時間。這個過程可能最快也需要一天的時間。
方法5: 設定規範頁面
當你的頁面有很多個版本,而你需要將連結權重聚集到一個特定的頁面上時,你需要做的就是設定規範頁面。這個主要是用來防止重複內容的,同時它可以將多個版本頁面的權重聚集到一個特定的索引頁面上。
你有多個方法可以設定規範頁面
- 設定Canonical權威標籤. 這個可以將一個你需要展示給使用者的頁面設定為另外一個頁面的權威頁面。如果頁面是重複或者內容十分相近,那麼這種方法是可行的。如果內容差異很大,那麼Caononical標記可能會被忽略,因為這個標記只有提示作用,而並非命令。
- 跳轉. 跳轉可以讓訪客或者搜尋引擎蜘蛛從一個頁面跳轉到另外一個頁面。301跳轉在SEO當中用的是非常多的。它可以告訴搜尋引擎最終的網址是什麼,同時可以將原頁面的權重整合到最終頁面上。302臨時跳轉則告訴搜尋引擎需要保留原網址的索引同時依然保留權重。
- 處理URL引數. URL引數一般在網址最後顯示,通常會包含一個“問號”(比如:ahrefs.com?this=parameter)。這個工具可以讓你告訴谷歌應該如何處理不同引數的頁面。舉個例子,你可以告訴谷歌內容會隨引數變化而變化、或者告訴谷歌引數只是用來做統計用的。
如何確認移除的優先順序
如果你有多個頁面要從谷歌索引中移除,那麼應優考慮它們的優先順序。
高優先順序:這些頁面通常與安全或與機密資料相關。這包括個人資料(PII)、客戶資料或特有資訊。
中優先順序:通常涉及針對特定使用者組的內容。比如公司內網、員工限定、會員限定、暫存、測試、或正在開發的站點。
低優先順序:這些頁面通常涉及重複內容。比如同一個頁面擁有多個URL、帶引數的URL、快取頁、測試頁、或者是依然在開發中的頁面。
需要避免的常見的移除問題
我想介紹幾種我經常會看的到移除問題,以及每種問題會導致什麼後果。以幫助大家瞭解為何移除不起作用。
在 robots.txt 中設定 Noindex
谷歌之前曾經支援過在 robots.txt 中設定Noindex。但是這並非官方的做法,同時現在也正式的取消支援這樣的設定方法。許多之前這麼設定的網站可能會傷害到自己。
在 robots.txt 設定了不抓取
抓取和索引是兩個事情。即使設定不抓取該頁面,谷歌依然可以通過外鏈或內鏈索引這個頁面。即使谷歌沒有抓取到頁面內容,它依然會通過其它的一些訊號(比如指向該頁面的錨文字)來生成標題並展示在搜尋結果中。
設定 Nofollow
通常人們會把這個和 noindex 混淆,因為經常有人在頁面上使用 nofollow 並希望谷歌不索引這個頁面。之前 Nofollow 是設定在頁面上的連結中,用來阻止谷歌抓取被指向頁面中的內容。但是現在情況變了。谷歌現在依然可以抓取這些頁面。之前 Nofollow 還被用於限制頁面與頁面之間的權重傳遞。同樣,現在也不行了。在過去,如果頁面有其它的連結入口谷歌依然可以通過其它的入口發現該頁面。
小提示. 您可以通過安裝Smart SEO Tool外掛設定所有外部連結為nofollow,以防止頁面權重向其他網站URL地址傳遞。
你可以在Ahrefs Site Audit(網站診斷)中的Page Explorer(頁面分析)中使用篩選功能,檢視被Nofollow的頁面:
一般我們不會給頁面所有的連結都設定nofollow,所以這裡應該檢索不到結果,或者是隻檢索出很少的結果。如果有,我建議你檢查這些結果,看看這些頁面是否是需要設定為 Noindex、或者選擇一個合適的方式處理、又或者是直接刪除頁面。
你還可以在Link Explorer(連結分析)中檢視是否又單獨被設定為 Nofollow 的連結:
將設定了Noindex的頁面Canonical到了另外一個URL
這兩個設定是有衝突的。Noindex代表從索引中移除頁面,而Canonical則告訴谷歌另外一個頁面是原頁面的權威頁面。這個可能只有在谷歌忽視 Noindex 標記並把 Canonical 作為主要訊號,權重傳遞才會生效。 但是這種情況不是絕對會發生的。這其中是一套演算法,可能Noindex會被當成是一種訊號,那麼頁面就無法進行權重整合。
你可以在Site Audit(網站診斷)中的 Page Explorer(頁面分析)功能中找到那些 Noindex 並且Canonical標籤指向不是自己的頁面結果:
設定Noindex之後等待谷歌抓取,然後設定了抓取遮蔽
通常這會發生在下面兩種情況:
- 頁面設定了遮蔽抓取但是已經被索引,於是設定了Noindex,同時開啟了抓取,讓谷歌抓取並看到Noindex設定後,再次遮蔽抓取。
- 針對需要移除的頁面設定了Noindex標籤,並且在谷歌抓取並處理後,遮蔽了抓取。
不管是哪一種情況,最終都是遮蔽了抓取。但是如果你還記,剛才我們就說過抓取不等於索引。即使這些頁面被遮蔽了,但是依然會被索引。
如何移除非自己網站的內容
如果是你的內容,被用在了另外一個網站上,你可以根據Digital Millennium Copyright Act (DMCA)版權法提出索賠。你可以使用谷歌版權申訴工具進行版權申訴,從而要求刪除任何受版權保護的內容。
如果你是在歐盟,你可以根據法院的被遺忘權,要求刪除包含有關你的資訊的內容。你可以使用 “歐盟隱私刪除表格” 申請要求刪除個人資訊。
移除圖片
如果你想從谷歌中移除圖片,最簡單的方法是使用 Robots.txt。正如我們之前提到的,在robots.txt當中進行遮蔽並不是官方的做法,但是對於圖片資源來說,遮蔽抓取卻是最好的方式。
針對單一圖片:
User-agent: Googlebot-Image Disallow: /images/dogs.jpg
針對所有圖片:
User-agent: Googlebot-Image Disallow: /
最後
你如何移除你的頁面是根據實際情況決定的。我們已經討論了幾個方法,但是如果你仍然感到困惑,那麼請再看一遍流程圖。
你也可以通過谷歌提供的法律問題排查工具來刪除內容。
(via ahrefs.com 譯者,Park Cheng, 文章有改動)
評論留言