如果百度或者谷歌沒有收錄你的網站,那麼網站自然不會出現在搜尋結果,無法獲得的搜尋引擎自然流量。關於百度收錄的相關問題,也是站長圈子屢見不鮮的話題。
今天就與大家一起分享下如何讓百度快速收錄網站的11個小技巧(不僅針對百度,其實適用於所有搜尋引擎),本文會教你如何解決以下這三個問題:
- 你的整個站點沒有被索引;
- 一部分頁面有索引,而其他的沒有;
- 新發布的頁面並沒有唄即時索引。
但是首先,請確保我們保持一致,並充分理解索引的意義。
什麼是抓取和索引?
無論是百度還是Google,都是通過抓取來發現新的網頁,然後將這些網頁新增到索引中。他們使用稱為Googlebot、Baiduspider的網路爬蟲來進行此操作(如果你的WordPress網站安裝了Spider Analyser,你會發現許多型別的爬蟲)。
很困惑?讓我們來對一些名詞做一些解釋:
- 抓取:在網頁上跟蹤超連結以發現新內容的過程。
- 索引:將網頁儲存在龐大的資料庫中的過程。
- 網路爬蟲:一種執行抓取的程式。
- Googlebot:谷歌的網路爬蟲。
- Baiduspider:百度的網路爬蟲。
當你在百度或者Google搜尋內容時,其實是在要求百度或Google返回其索引中的所有相關頁面。 由於通常有成千上萬的網頁符合要求,因此百度或者Google的排名演算法會盡力對網頁進行排序,以便你會首先看到最好的和最相關的結果。
我這裡要闡述的一個要點是,索引和排名是兩個不同的事情。
索引為了是參與,而排名是為了獲勝。
如果你都沒有參與是不可能獲得獲勝的。
如何檢查你的頁面是否被索引了
進入百度或者谷歌搜尋引擎,然後進行如下搜尋 site:yourdomain.com
這裡的數字顯示的是百度或者谷歌大致的索引頁面數量。
如果你想檢查某個具體的頁面是否被索引的話,同樣也可以進行這樣的操作site:詳細的網址
(此方法僅適合谷歌,百度則直接搜尋URL地址),或者使用搜尋推送收錄外掛的收錄查詢功能(僅支援百度收錄查詢) 。
如果沒有任何結果的話,就說明頁面沒有被索引。
如果你是Google Search Console的使用者的話,你只需要檢視覆蓋率額報告就可以找到精準的索引資料。你只需要進入:
Google Search Console > 索引 > 覆蓋率
檢視有效頁面的數量(包括警告頁面數量)。
如果這兩個數字的總和不是零,那麼Google至少會將你網站上的某些頁面編入索引。 如果沒有,那麼你可能遇到嚴重的問題,因為你的網頁均未被索引。
如果要查詢網站在百度搜尋的整體收錄情況,也可以通過百度搜尋資源平臺檢視。
百度搜尋資源平臺 > 搜尋服務 > 索引量
小提示.不是Google Search Console使用者或者百度搜尋資源平臺?免費註冊一個。每個關心從Google或百度獲得流量的站長都應使用Google Search Console或者百度搜尋資源平臺,這個很重要。此外,百度索引量也可以通過百度統計檢視:百度統計> 優化分析 > 百度索引量。
除上述site命令的方法,你也可以使用Google Search Console來檢測特定頁面是否被谷歌索引。你只需要將頁面URL放入URL檢測工具中。
如果頁面被索引,那麼會顯示“URL is on Google(URL在谷歌中)”。
如果頁面沒有被索引,那麼這裡會顯示“URL is not on Google(URL不在谷歌中)”
如何讓谷歌或者百度收錄網站頁面
你的網站或者頁面沒有被谷歌或者百度收錄?
如果是谷歌搜尋引擎,你可以嘗試使用以下這些:
- 進入Google Search Console。
- 進入URL檢測工具。
- 將需要索引的URL貼上到搜尋框中。
- 等待谷歌檢測URL。
- 點選“請求編入索引”按鈕。
如果是百度搜尋引擎,則可以嘗試:
- 進入百度搜尋資源平臺。
- 進入連結提交或者普通收錄-資源提交-手動提交。
- 將需要百度收錄的URL貼上到指定位置,然後確定提交。
- 等待百度蜘蛛爬取收錄。
當你釋出新帖子或頁面時,最好這麼操作。你實際上是在告訴Google,你已經在網站上新增了一些新內容,它們應該去看看。
但是,請求編入收錄索引不太可能解決舊頁面的索引問題,並且這只是一個最原始的方式,提交連結不能確保你的URL一定被收錄,尤其是百度。
如果要全面解決網站搜尋引擎收錄問題,請按照下面的清單進行診斷並解決問題。
下方是一些解決方法的快速訪問連結,你可能已經試過其中一些:
- 去除Robots.txt中的抓取阻礙
- 去除不必要的noindex標籤
- 將需要索引的頁面包含在網站地圖中
- 去除不必要的canonical標籤
- 檢查頁面是否是孤島頁面
- 修復不必要的內部nofollow連結
- 在“強力”頁面中加入內部連結
- 確保頁面獨特並且有價值
- 去除或優化低質量頁面 (優化“抓取預算”)
- 建立高質量的外鏈
- 使用一切可用的推送方式
1) 去除Robots.txt中的抓取阻礙
Google或者百度沒有索引整個網站?這可能是由於robots.txt檔案存在抓取阻礙導致的。
進入yourdomain.com/robots.txt檢查詳細的問題。
檢查是否右下方的這兩段中的任意一個程式碼:
(1)這樣的規則將會告訴谷歌不要索引你的網站;
User-agent: Googlebot Disallow: /
(2)這樣的規則將會告訴百度不要索引你的網站;
User-agent: Baiduspider Disallow: /
(3)這樣的規則將會告訴所有搜尋引擎不要索引你的網站;
User-agent: * Disallow: /
上述三個規則不允許搜尋引擎蜘蛛抓取網站上的任何頁面。要解決此問題,你只需要刪除它們,就這麼簡單。
如果百度或者谷歌只是沒有為單個網頁編制索引,也有可能是robots.txt中的某個程式碼導致的。
要檢測單個URL是否因robots.txt沒有被谷歌搜尋引擎索引收錄:
請將URL貼上到Google Search Console中的URL檢測工具中。點選覆蓋率板塊以顯示更多詳細資訊,然後查詢“是否允許抓取? 否:被robots.txt阻止”錯誤。
這就代表,頁面被robots.txt阻止了。
要檢測單個URL是否因為robots.txt沒有被百度收錄索引:
進入網站關聯的百度搜尋資源平臺,找到robots選單,選擇對應的站點名稱,點選檢測並更新後,在校驗出輸入你要驗證的URL地址,點選校驗。(不過不太好使,老用不了,這個功能)
如果是這種情況,請重新檢查你的robots.txt檔案中是否有與該頁面或相關目錄有關的“Disallow”規則。
在需要的情況下移除這段程式碼即可。
2) 去除不必要的noindex標籤
如果你告訴谷歌不索引某個網頁,谷歌是不會為其編制索引的。這可以讓一部分頁面保持隱祕。有兩種方法可以做到這一點:
方法1:meta標籤
在頁面的<head>
中如果出現如下任意程式碼,則不會被谷歌或者百度收錄索引:
<meta name=“robots” content=“noindex”>
<meta name=“googlerobot” content=“noindex”>
<meta name=“baiduspider” content=“noindex”>
這是一個針對爬蟲的meta標記,它告訴搜尋引擎它們是否可以為該頁面編制索引。
小提示. 核心的引數是“noindex”,如果出現了“noindex”就代表頁面設定了不索引。
如果你想找到網上所有擁有noindex meta標籤的頁面,你只需要使用Ahrefs的網站診斷工具做個檢測即可。然後進入Indexability (可索引性)報告。尋找“Noindex page(不索引頁面)“提示。
點選後檢視所有被遮蔽的頁面。刪除那些需要索引頁面的noindex meta標籤。
方法2:X‑Robots-Tag
網路爬蟲遵循X-Robots-Tag的HTTP響應標頭。你可以使用伺服器端指令碼語言(例如PHP)、. htaccess檔案中的內容或通過更改伺服器配置來實現此效果。
Google Search Console中的URL檢查工具可告訴你,是否是由於此標頭而阻止Google抓取頁面。只需輸入URL,然後查詢“允許索引?否:在“ X‑Robots-Tag” http標頭中檢測到“ noindex”標記。
如果你想檢測整個站點是否存在這樣的問題,那麼可以使用Ahrefs的網站診斷工具,並且在Page Explorer (頁面分析)篩選框中選擇“Robots information in HTTP header(檢查HTTP表頭的Robots資訊)”進行檢視:
同時,告訴網站開發者,修改需要要索引的頁面的表頭。
推薦閱讀: 使用X-Robots-Tag HTTP表頭進行特定的SEO:技巧和竅門
3) 將需要索引的頁面包含在網站地圖中
網站地圖會告訴Google或者百度等搜尋引擎網站上的哪些頁面很重要,哪些不重要。它同時也可以為搜尋引擎的抓取頻率做一些指導。
一般情況下搜尋引擎應該都能夠在你的網站上找到網頁,無論它們是否在站點地圖中,但將它們包括在網站地圖內仍然是一種很好的做法。畢竟,沒必要讓百度或者谷歌進行毫無意義的抓取。
要檢查網頁是否在你的站點地圖中,請使用Google Search Console中的URL檢查工具。如果你看到“URL不在Google上”和“站點地圖:不適用”,則表明該URL不在你的站點地圖中或未建立索引。
沒有使用Google Search Console?進入你的網站地圖,通常是這個地址:yourdomain.com/sitemap.xml,然後搜尋這個頁面的URL。
或者,你想找到所有的不在網站地圖中,但有需要索引的頁面,你只需要使用你Ahrefs網站診斷工具。進入Page Explorer (頁面分析),並進行如下篩選:
這些頁面應該在你的網站地圖中,所以新增進去。新增後,通過下方的Ping方法告訴谷歌你已經更新了這個網站地圖。
http://www.google.com/ping?sitemap=http://yourwebsite.com/sitemap_url.xml
將後方的提示換成你的網站地圖地址,你應該可以收到下方這樣的訊息:
這樣可以讓谷歌加速索引你的頁面。
關於生成WordPress網站Sitemap
有很多WordPress專用的SEO優化外掛都支援生成Sitemap網站地圖,比如All in One SEO,Yoast SEO,Google XML Sitemaps或者我們的Smart SEO Tool。
Smart SEO Tool外掛支援生成標準的XML網站地圖,並且能夠將網站地圖更新通知到谷歌和Bing搜尋引擎;並且生成的地圖檔案滿足部分搜尋引擎單個檔案不超過50000條URL地址的要求。
注:提交sitemap地圖,務必遵循“非索引型Sitemap地址提交”。
4) 去除不必要的canonical標籤
Canonical標籤會告訴搜尋引擎哪個是頁面的首選版本。它看起來像這樣:
<link rel=“canonical” href=“/page.html”/>
大多數頁面沒有canonical標籤,也就是所謂的自引用的canonical標籤。這就告訴Google或者百度等搜尋引擎該頁面本身就是首選版本,同時可能是唯一的版本。換句話說,你希望對該頁面建立索引。
但是,如果你的頁面有不規範的canonical標籤,那麼有可能在告訴百度或者Google等搜尋引擎錯誤的首選版本。在這種情況下,你的頁面將不會被索引。
檢測canonical標籤,你只需要使用谷歌的URL檢測工具(百度好像沒有類似的工具,也不太遵守這個規則)。如果你的頁面的canonical標籤指向了另外一個頁面被,你看可以看到“具有Canonical標籤的備用頁面”的提示。
如果這個不應該出現,你希望當前頁面被索引,那麼只需要去除該頁面的canonical標籤即可。
重要 請注意,canonical標籤並不總是不好的。帶有這些標籤的大多數頁面都會有它們的原因。如果你看到你的頁面具有canonical標籤,請檢查對應的頁面。如果確實是該頁面的首選版本,並且也無需索引該頁面,則應該保留canonical標記。
如果你想快速找到整個站點上有問題的canonical標籤,可以使用Ahrefs網站診斷工具進行檢測,進入Page Explorer (頁面分析)並使用以下設定:
這會在站點地圖中查詢帶有非自引用canonical標籤的頁面。幾乎可以肯定的是,你希望對站點地圖中的頁面建立索引,因此,如果此過濾器返回任何結果,則你需要進一步進行排查。
這些頁面很可能具有錯誤的canonical標籤,或者一開始就不應該放在你的網站地圖中。
5) 檢查頁面是否是孤島頁面
孤島頁面指的是那些沒有內部連結支撐的頁面。
由於Google通過抓取連結發現新內容,因此他們無法通過該過程發現孤島頁面。網站訪客也將無法找到這些內容。
為了檢測孤島頁面,嘗試使用Ahrefs網站診斷工具。然後點選 Links(連結)報告,並檢視“孤島頁面 (沒有任何指向連結)”錯誤:
這會顯示出所有可索引、在站點地圖中顯示的、但沒有內部指向連結的所有頁面。
重要 這個只有在下方兩種情況下才能夠正常檢測出結果:
- 所有需要索引的頁面都在你的網站地圖中。
- 在Ahrefs的Site Audit最開始,將選擇使用網站地圖中的頁面選項打勾。
不確定要索引的所有頁面都在站點地圖中嗎?嘗試這個:
- 下載你網站上的所有頁面 (可以通過你的CMS來實現)
- 抓取你的整個站點 (使用像Ahrefs網站診斷這樣的工具)
- 對比兩組URL。
任何沒有在抓取時找到的URL都屬於孤島頁面
你可以通過以下兩種中任意一個方法解決孤島問題:
- 如果頁面不重要,那麼將它刪除,並移出網站地圖。
- 如果頁面和重要,將他放到你的內鏈結構中去。
6) 修復不必要的內部nofollow連結
Nofollow連結指的是那些有著 rel="nofollow"
標記的連結。它們會組織 頁面權重的傳遞。同時百度或者谷歌並不會抓取Nofollow連結。
這裡是谷歌針對這個做的說明:
本質上,使用nofollow會導致我們從抓取目錄中刪除目標連結。但是,如果其他網站在不使用nofollow的情況下連結到目標頁面,或者這些URL是在站點地圖中提交給Google的,則目標頁面仍可能會出現在我們的索引中。
簡而言之,你需要確保指向索引頁面的連結是follow狀態的。
為此,請使用Ahrefs的網站診斷工具對網站進行抓取。檢查Links(連結)報告中是否出現“Page has nofollow incoming internal links only(頁面僅具有nofollow的指向連結)”的錯誤:
假設你要Google索引該頁面,請從這些指向連結中刪除nofollow標記。如果不是,請刪除該頁面或對該頁面進行noindex處理。
推薦閱讀:Nofollow連結詳解及使用注意事項
7) 在“強力”頁面中加入內部連結
Google通過抓取你的網站來發現新內容。如果你忽略了內部連結到相關頁面,則它可能找不到這個頁面。
解決此問題的一種簡單方法是在網站中新增一些內部連結。你可以在建立索引的任何網頁上執行此操作。但是,如果你希望Google儘可能快地為頁面建立索引,則可以在一些“強力的”頁面上建立一些內部連結。
為什麼?因為相比於一些不太重要的頁面,Google會更快地抓取此類頁面。
做法就是,進入Ahrefs網站分析輸入你的域名,並檢視 Best by links(最佳連結)報告。
這將顯示網站上的所有頁面,按URL Rating(網址評分)進行排序。換句話說,它首先顯示的是權重最高的頁面。
檢視列表並查詢相關頁面,可以在這些頁面上新增一些目標頁面的內部連結。
例如,如果我們希望對“網站測速效能測試深入淺出教學”文章進行內鏈的製作,那麼“如何實現WordPress影象和視訊懶載入”這個頁面就可以提供一個相關的內部連結。
然後,當Google或者百度下次重新抓取頁面時,就會看到並抓取該連結。
專家建議 在你新增完內部連結之後,將該頁面貼上到Google的URL檢查工具中。點選“請求編入索引”按鈕,以使Google知道頁面上的某些內容已更改,它需要儘快對其進行重新抓取。這可以加快Google發現內部連結並因此發現你要索引的頁面的程序。如果針對百度搜尋引擎,也可以利用百度搜尋資源平臺的URL提交功能。不過稍後,我們會專門針對URL提交進行詳細的說明。
8) 確保頁面獨特並且有價值
Google不太可能將低質量的網頁編入索引,因為它們對使用者沒有任何價值。以下是Google的John Mueller對2018年建立索引的看法:
We never index all known URLs, that’s pretty normal. I’d focus on making the site awesome and inspiring, then things usually work out better.
(我們從不索引內容重複的URL,這很正常。我會把重點放在內容具備獨特性及價值性的網站上,否則搜尋變得索然無味。)
— @JohnMu January 3, 2018
不管是谷歌或者百度,還是其他搜尋引擎,如果你希望網站或網頁編入收錄索引,則它必須“有價值並且有意義”。
如果你的頁面已經排除了技術問題但還是不索引,那麼可能就是頁面的價值不足。因此,你需要重新審視頁面並問自己:這個頁面真的有價值嗎?如果使用者從搜尋結果中點選該頁面,會在該頁面找到有用的內容嗎?
如果對上述兩個問題的回答均為否,那麼你就需要改進你的內容。
你可以通過 Ahrefs網站診斷工具、碼迷SEO工具以及 URL Profiler 工具來找到那些低質量的頁面。 進入Ahrefs的Site Audit(網站診斷)中的Page Explorer (頁面分析)板塊,並且進行如下設定:
這個可以反饋那些內容比較單薄的頁面,當前這些頁面也沒有自然流量。換句話說,它們沒有被索引的可能性很大。
將報告匯出後,將所有的連結站跳到URL Profiler工具中,並且做一個谷歌索引檢測。
不得不說,碼迷SEO的內容質量報告也是一個非常不錯的工具,該工具可以根據你給出的關鍵詞和URL地址,對URL頁面進行內容質量不同維度的評分並給出詳細的修改意見。包括TDK資訊修改,相關詞密度建議等:
重要 如果你要對很多頁面(即超過100個頁面)進行此操作,建議使用代理。否則,你將面臨被Google禁止使用IP的風險。如果你無法這麼做,那麼另一種選擇是在Google上搜尋“free bulk Google indexation checker(免費批量Google索引檢查器)”。有一些這樣的工具存在,但大多數一次只能限制在25頁以下。
檢查所有未編入索引的頁面是否存在質量問題。進行必要的改進,然後在Google Search Console中請求重新請求編入索引。
同時你也需要注意重複內容的問題。 Google或者百度對重複或幾乎重複的頁面都不會感興趣,收錄索引的概率極低(當然,這也取決於你網站的域名評級,如果域名權重高,這個規律則不一定了)。使用Site Audit(網站診斷)中的 Duplicate content(重複內容)報告來檢查這些問題。
9) 去除或優化低質量頁面 (優化“抓取預算”)
網站上的劣質頁面過多,會浪費谷歌的抓取預算。
這裡是 谷歌對此做的說明:
在低價值頁面上浪費伺服器資源,會使抓取有價值內容的頻率下降,這可能會導致在站點上發現大量新內容時出現延遲。
可以將其視為導師在給論文進行評分,其中一個就是你的論文。如果他們要審閱10篇論文,那麼他們很快就會看到你的論文。如果他們要審閱一百個,那將花費更長的時間。如果有成千上萬的話,那麼他們的工作量就太高了,他們可能永遠也無法對你的內容進行打分。
Google確實指出:抓取預算[…]並不是大多數站長都需要擔心的事情,並且“如果網站的頁面少於幾千個”,則都可以對其進行有效的抓取。
不過,從你的網站上刪除低質量的頁面絕不是一件壞事。它只會產生積極影響。
你可以用Ahrefs的內容檢測模板來檢測那些有問題、不相關並可以刪除的頁面。
重要 但相對於刪除頁面,小編更建議採用內容重建的方式來優化低質量的內容。關於內容重建,可以參考“炒冷飯也是做好SEO的一種手段”一文。畢竟大量刪除文章可能會產生大量的404錯誤URL地址,這本身對SEO優化也是一個嚴重的打擊。
10) 建立高質量的外鏈
外鏈告訴搜尋引擎這個頁面很重要。畢竟,如果有人連結到它,則它必須具有一定的價值。這些是百度或者谷歌等搜尋引擎想要索引的頁面。
百度或者Google不僅會索引帶有外鏈的網頁。有很多(上億的)沒有外鏈的頁面也編入了索引。但是,由於搜尋引擎認為具有高質量連結的頁面更為重要,因此與不具有高質量連結的頁面相比,它們抓取和重新抓取的速度可能更快。這會使得索引邊的更快。
關於如何獲得高質量外鏈的做法,建議閱讀“外鏈建設在SEO中的重要性及策略”。
11)使用一切可用的推送方式
雖然無論是百度、谷歌,還是其他搜尋引擎,他們都會通過蜘蛛來爬取網際網路各個網站的頁面資訊(前提你沒有攔截蜘蛛)。但再強大的蜘蛛群,對於龐大的網際網路資料,也無法實時顧及所有網站。
那麼,站長要如何將網站最新更新告知搜尋引擎呢?
前面提交的手動提交URL、Sitemap提交和通知、內鏈和外鏈佈局是其中方式,然後,站長不要忽視百度提供的API介面提交資料。
目前百度搜尋引擎提供的推送方式包括:
- 快速收錄推送(需要配額許可權);
- 普通收錄的自動推送、主動推送;
- 小程式的天級和周級推送。
此外,Bing搜尋引擎也提供API提交的渠道,雖然Bing在搜尋引擎的市場份額少得可憐,但再小的佔比,龐大的網際網路使用者基數,這數字也是可觀的。只要能從中分得一杯甚至一勺羹,那也是不錯的。
關於百度或者Bing的API推送,可以考慮使用搜尋推送收錄外掛來實現。
索引 ≠ 排名
在Google還是百度上獲得索引、收錄,並不代表你能獲得排名或者是流量。
這是兩個不同的東西。
索引意味著搜尋引擎已經看到了你的網站,但是並不意味著你的內容值得搜尋引擎對特定關鍵詞進行排序。
這就是SEO需要做的——優化網頁以針對特定關鍵詞進行排名的藝術。
簡單的來說,SEO包含:
- 找到你的使用者在搜尋什麼;
- 圍繞話題創作內容;
- 針對目標關鍵詞進行優化;
- 外鏈建設;
- 對頁面內容進行更新,保持“新鮮”。
… 以及一些文章:
延伸閱讀
- WordPress網站SEO優化實用基礎指南
- JavaScript與SEO之間的藕斷絲連關係
- 如何提升網站域名權重(搜尋引擎網站評級)
- 什麼博文內容長度最有利於SEO優化
- 如何做好頁面關鍵詞查詢、佈局及優化
最後
搜尋引擎不索引你網站或頁面的原因只有兩個:
- 技術性問題導致它無法索引;
- 它認為你的內容沒有價值,不值得被索引。
這兩個問題很可能同時存在。但是,我想說技術問題要普遍得多。技術問題還可能導致低質量內容的自動生成(例如,分頁問題)。
儘管如此,通過上面的檢查表多數是可以解決索引問題的。
只要記住索引≠排名即可。如果你想對任何有價值的關鍵詞進行排名,並吸引源源不斷的自然流量,那麼SEO就是至關重要的。
然後,SEO優化無非來來去去就那些要點:“全面提升WordPress部落格SEO的13種方法”,重點還得看站長是否能夠遵守這些規則並持久做站。
簡言概之,優質的內容——網站優化——連結建設——搜尋引擎推送,反覆實踐,各個擊破。相信總會有驚喜來臨之時!
(via ahrefs.com 譯者,Park Cheng,文章有改動)
評論留言
脣槍舌劍 (1)
HoleHub
2022.6.12 23:06
很有用