如何做搜尋引擎蜘蛛日誌分析

蜘蛛日誌分析

搜尋引擎蜘蛛日誌檔案是一種非常強大但未被站長充分利用的檔案,分析它可以獲取有關每個搜尋引擎如何爬取網站內容的相關資訊點,及檢視搜尋引擎蜘蛛在一段時間內的行為。

憑空去猜想搜尋引擎蜘蛛毫無意義,日誌資料可以幫助站長準確分析正在發生的事情。這就是為什麼SEO人員分析搜尋引擎蜘蛛日誌檔案至關重要的原因,即使原始訪問日誌可能很難從客戶端(或主機,伺服器和開發團隊)那裡獲取也是如此。

什麼是搜尋引擎蜘蛛

蜘蛛是搜尋引擎用於爬取各大網站資料資訊的工具,搜尋引擎不可能脫離網站內容憑空對每個網站的頁面進行排名。搜尋引擎依賴蜘蛛對全網的網站進行全面爬取,包括站點地圖、站點資源、站點結構、站點頁面資料等等,然後再依賴計算機對資料全面多維度分析後,再給予站點權重。

什麼是搜尋引擎蜘蛛日誌

伺服器本身並沒有針對蜘蛛的獨立訪問日誌。但伺服器會全面記錄所有對網站進行訪問的資料,包括正常的客戶端訪問資料、搜尋引擎蜘蛛的訪問資料及其他爬網工具的資料。

也就是說,搜尋引擎蜘蛛日誌屬於伺服器站點訪問日誌的一部分。下面是一條百度搜尋引擎蜘蛛的訪問日誌示例:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
220.181.108.160 - - [28/JAN/2021:19:16:21 +0800] "GET / HTTP/1.1" 200 5374 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
220.181.108.160 - - [28/JAN/2021:19:16:21 +0800] "GET / HTTP/1.1" 200 5374 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
220.181.108.160 - - [28/JAN/2021:19:16:21 +0800] "GET / HTTP/1.1" 200 5374 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

分析搜尋引擎蜘蛛訪問日誌的重要性

分析搜尋引擎蜘蛛日誌檔案可以幫助您深入瞭解以下事項:

  1. 確切驗證可以或不能爬取的內容。
  2. 檢視搜尋引擎蜘蛛在其爬網期間遇到的響應。
  3. 識別蜘蛛爬網問題,這些問題可能具有更廣泛的基於站點的含義(例如層次結構或內部連結結構)。
  4. 檢視搜尋引擎優先考慮的頁面,幫助你瞭解哪些頁面可能被搜尋引擎評估為更重要。
  5. 發現搜尋引擎蜘蛛爬取預算可能被浪費的地方。

除了其他資料(例如爬取或外部連結)以外,還可以發現有關搜尋引擎蜘蛛行為的更多資訊。

蜘蛛爬網預算的定義

在我們學習本教學之前,瞭解搜尋蜘蛛爬網預算非常有必要,該預算本質上是搜尋引擎可以並且想要為網站執行爬網任務的URL數量。

基於網站對請求的響應速度的“抓取速度限制”,以及“抓取需求”,URL的受歡迎程度,更改頻率以及搜尋引擎對索引中“陳舊性”的容忍度,所有這些都會影響任意搜尋引擎蜘蛛的爬取速度、效率及數量。

Google解釋說:“許多低附加值URL可能會對網站的爬取和索引產生負面影響”。他們的研究發現,低附加值URL按重要性順序分為以下幾類。

  • 多面導航和URL引數。
  • 重複內容。
  • 軟錯誤頁面。
  • 頁面被黑。
  • 垃圾主機伺服器(超售虛擬主機。
  • 低質量和垃圾郵件內容。

注:多面導航,即Faceted navigation,指同一頁面存在多個URL地址,但又未定義統一的權威連結

因此,避免蜘蛛浪費時間和精力對有用URL進行爬取就顯得非常關鍵詞,讓搜尋引擎蜘蛛對重複內容頁面進行爬取只會導致重要頁面爬取延遲。

在本教學中,我們將使用Spider Analyser-用於統計分析蜘蛛的工具外掛,來說明如何通過各種方式分析日誌檔案,從而幫助站長獲得更多搜尋蜘蛛資訊資料。

如何使用 Spider Analyser 外掛分析蜘蛛日誌

1. 蜘蛛抓取概況

外掛的蜘蛛概況可幫助您總體上了解網站的蜘蛛爬網預算。該頁面顯示今天、昨天和最近30天總共已爬網了多少個唯一URL,以及平均每天爬網的唯一URL的數量。

蜘蛛爬取概況

除此之外,蜘蛛概況還可以讓站長快速瞭解Top10蜘蛛、Top10蜘蛛爬取URL及Top10熱門文章等資料。如果要分析總體趨勢,這將非常有用。

2. 識別被爬取的網址

通過執行模擬抓取,站長工具,資料分析,XML網站地圖,或直接從資料庫匯出等等,有很多方法可以從網站收集和分析URL 。但是這些方法都不能準確告訴您搜尋引擎蜘蛛已爬取了哪些URL。

Spider Analyser站長工具外掛的基礎是能夠準確驗證搜尋蜘蛛已爬取了哪些URL。

您可以通過安裝啟用蜘蛛分析外掛,進入WordPress後臺的“蜘蛛分析-蜘蛛日誌”,然後選擇需要統計的“蜘蛛名稱”及“統計時間週期”,即可檢視該段時間,網站哪些連結被特定的搜尋引擎蜘蛛所爬取。如下圖所示:

蜘蛛日誌列表

3. 確定低附加值網址

能夠檢視被爬取的URL及其頻率,可以幫助您發現潛在的爬網預算浪費地方,例如帶引數,分面導航,多餘空格或重複的URL。您可以使用搜尋功能搜尋問號(?),幫助你識別浪費爬網預算的地方,例如URL引數。

通過“蜘蛛分析-訪問路徑”,輸入“?”進行搜尋,如果需要分析特定搜尋引擎蜘蛛,則可以在所有蜘蛛下拉選單選擇指定蜘蛛:

蜘蛛訪問路徑

在這種情況下,我們可以關閉WordPress分頁顯示評論。您還可以進一步從列表URL地址發現規律搜尋URL片段搜尋特定URL連結。這可以幫助您能夠快速瀏覽爬網的URL,並發現任何模式,例如重複,或錯誤的特別長的相對連結。

還有許多其他方法可以識別潛在的浪費蜘蛛爬網預算的地方,我們將在本教學中繼續探討這些方法。

注:帶?的連結不一定是為必要的,站長應該根據實際情況判斷。但當存在多個URL的相同頁面時,務必在頁面說明權威連結

4. URL被爬取的頻率(最多或最少)

搜尋引擎蜘蛛爬取頁面的頻率取決於多種因素,例如內容更改的頻率以及索引器的重要性-搜尋引擎認為頁面的重要性。儘管並不是最重要的URL就會被爬取得越多那麼簡單,但將其作為指標可以幫助站長識別網站可能存在的潛在問題很有幫助。

你可以通過外掛的多個頁面位置去分析URL被爬取的頻率:

(1)訪問路徑列表

進入蜘蛛分析的“訪問路徑”頁面,選擇蜘蛛名稱、頁面型別及時間週期,即可檢視特定蜘蛛在時間段內容爬取URL的頻率,如下圖:

蜘蛛訪問路徑列表

(2)熱門文章

如果你只需要瞭解文章型別的URL的蜘蛛爬取頻率,則只需要進入蜘蛛分析的“熱門文章”列表,即可檢視所有文章指定時間週期不同搜尋引擎蜘蛛的爬取頻率:

蜘蛛訪問熱門文章列表

這可以幫助您發現與網站結構,層次結構,內部連結等有關的更深層次的問題。在執行蜘蛛日誌分析的每一個步驟中,您都可以問自己,搜尋引擎是否在浪費他們的時間來爬網URL,又或者蜘蛛是否對什麼型別的內容或者URL更感興趣。

5. 子目錄抓取頻率

以不同的方式考慮爬網頻率也很有用。如果您具有直觀的URL結構,則按子目錄聚合的爬網細節會非常強大。這也是通過外掛的訪問路徑列表來分析。

您可以發現網站的哪些部分被最多爬行。比如首頁、分類頁、獨立頁、標籤頁、Sitemap,還是其他部分?如下圖所示:

蜘蛛訪問目錄

6. 不同搜尋引擎蜘蛛抓取頻率

您可以分析不同搜尋引擎蜘蛛對你的網站的爬取頻率,這可以幫助您深入瞭解每個搜尋引擎對你的網站評定的權重,以便於你針對該搜尋引擎作有針對性的SEO優化。

蜘蛛清單列表

在分析的時間段內,被爬網的唯一URL的數量,將幫助您捋清每個搜尋引擎蜘蛛對你的網站的爬取積極性。

7. 發現抓取錯誤

外掛可讓您快速分析搜尋引擎針對其爬網的每個URL所接收到的最後響應程式碼。在“蜘蛛日誌”頁面下,您可以使用過濾器檢視任何404錯誤,又或者301或302狀態碼爬取。

這個資料非常有幫助,站長應該及時處理404錯誤的URL,以免搜尋引擎蜘蛛因為頻繁的404報錯,而降低對你的網站的爬取頻次甚至放棄爬取,進而影響對你的網站評級。

然後,301或者302重定向連結,如果是不必要的重定向,應該儘快將產生重定向的連結修改為重定向的目標連結。

蜘蛛抓取錯誤

8. 按子目錄檢視錯誤

在訪問路徑頁面,通過直觀的URL結構進行檢視,發現網站的哪些部分遇到了最多的技術錯誤。

蜘蛛爬取目錄錯誤

這可以幫助診斷影響站點特定區域的問題,如果出現一類URL的404錯誤,千萬不要忽視,要第一時間進行處理。

9. 檢查重定向

您可以檢視搜尋引擎蜘蛛請求響應程式碼為301或者302重定向的每個URL。進入蜘蛛日誌,選擇狀態碼為301或者302,可以檢視這些內容。

重定向URL篩選

記住,301或者302響應狀態碼不一定是非正常的,當切勿在頁面內部防止會出現重定向狀態的URL連結。對於不必要的301或者302重定向,應及時修復為重定向目標URL連結。

10. 識別攔截偽蜘蛛

外掛所統計記錄的並非全部是真實的蜘蛛,要識別偽蜘蛛,你只需要訪問蜘蛛列表,切換至偽蜘蛛標籤頁,即可檢視所有偽蜘蛛。

偽蜘蛛列表

對於偽蜘蛛,建議站長將其新增至攔截列表避免浪費資源。除此之外,對於其他你可能不需要的蜘蛛,如工具型別的蜘蛛等,也可以考慮新增到攔截列表,因為很多時候這些蜘蛛的爬取,對網站毫無意義。

關於偽蜘蛛:又稱假蜘蛛,虛假蜘蛛,可能未某些別有用心的人偽裝成真實的蜘蛛,對你的網站進行採集,又或者其他非法行為。面具者,偽君子也!

11. 分析未收錄文章

站長可以訪問外掛的熱門文章列表,選擇指定的蜘蛛及未收錄狀態、時間週期,來查詢未收錄的文章清單,以幫助您進一步分析文章未被收錄的原因。

這些未能夠被收錄的文章的主要原因可能在:

  • (1)文章內容過少;
  • (2)與其他頁面連結過少。

對於未收錄的文章,我們的建議是,進一步豐富文章內容進行內容重建,並且應該合理地在網站其他被收錄的文章或者爬取較為頻繁的頁面佈局這些未收錄的URL,以便於搜尋引擎蜘蛛抓取、收錄。

未收錄文章分析

不要止步於上

還有許多其他資料來源可與蜘蛛分析外掛一起進行結合分析,例如網站資料統計,站長工具,XML Sitemaps等。本教學旨在通過幾個要點說明如何使用蜘蛛分析站長工具外掛來深入發現搜尋引擎蜘蛛對網站的爬取行為,以幫助站長進一步做WordPress SEO優化

評論留言