內容採集,或者我們喜歡稱之為“內容竊取”,自網際網路誕生以來一直是一個問題。對於任何定期釋出或使用搜尋引擎優化 (SEO ) 的人來說,這實際上可能會讓人非常惱火。
什麼是內容採集?
內容採集基本上是指有人獲取您的內容並在他們自己的網站上使用它(手動或使用外掛或機器人自動),而不給您署名或信用。這通常是希望以某種方式獲得流量、SEO或新使用者。這實際上違反了美國和其他一些國家的版權法。谷歌也不寬恕這一點,並建議您應該建立自己的獨特內容。
以下是 谷歌提到的幾個採集內容的例子:
- 從其他網站複製和重新發布內容而不新增任何原始內容或價值的網站
- 從其他網站複製內容、稍作修改(例如,通過替換同義詞或使用自動化技術)並重新發布的網站
- 從其他站點複製內容提要但不為使用者提供某種型別的獨特組織或利益的站點
- 專門從其他網站嵌入內容(例如視訊、影象或其他媒體)的網站,但對使用者沒有實質性的附加價值
不要將這與內容聯合( content syndication )混淆,後者通常是在您重新發布自己的內容以擴大覆蓋範圍時。聯合內容也可以由第三方完成,但這與內容抓取之間存在細微差別。如果有人在聯合內容,則應始終使用特殊標籤,例如 rel=canonical
或noindex
。
現在有很多第三方WordPress外掛可以讓你自動抓取第三方RSS源。雖然開發人員的意圖是好的,但不幸的是,這些意圖有時會被濫用並用於內容採集。WordPress如此受歡迎的原因之一是易於使用,但有時也會適得其反。
內容採集農場的例項
當同一個所有者在數十個網站上抓取內容時,我們稱它們為“農場”。這些通常很容易發現,因為WordPress網站所有者通常在所有網站上使用相同的主題,甚至域名之間的差異也很小。
我們在今天的帖子中使用了一個活生生的例子!我們毫不羞恥地指出這些型別的網站,因為它們沒有提供任何價值,只會否定內容釋出者所做的辛勤工作。這是內容抓取農場的示例。我們存檔了每個連結,以防網站將來出現故障。您可以單擊它們中的每一個,並檢視它們都使用相同的主題和相同的抓取內容。通常,刮板會從許多不同的來源獲取內容,我們的部落格就是其中之一。
- thetechworld.xyz(存檔連結)
- mytechnewstoday.org(存檔連結)
- mytechcrunch.com(存檔連結)
- technewssites.xyz(存檔連結)
- technewssites.info(存檔連結)
- www.thetechworld.info(存檔連結)
- www.mytechnewstoday.xyz(存檔連結)
- www.futuretechnologynews.info(存檔連結)
- futuretechnologynews.xyz(存檔連結)
您可以在下面看到,他們只是逐字逐句地採集部落格文章。
採集示例
如何找到他們?
找到它們的最簡單方法之一是使用Copyscape(不支援中文)或Ahrefs之類的工具 (如果它們也在複製您的內部連結)。Copyscape甚至允許您提交站點地圖檔案,並讓它在掃描網路並查詢內容時自動通知您。
文案
您還可以使用“allintitle”標籤手動搜尋Google。只需輸入標籤以及您的文章標題即可。
使用allintitle標籤搜尋Google
allintitle關鍵字提示Google僅在文章標題中搜尋這些詞。第二種也是更有效的方法是在您的帖子中搜尋一些文字,搜尋詞用雙引號括起來。加上雙引號告訴谷歌搜尋完全相同的文字。您的標題搜尋可能會出現誤報,因為有人可能會使用相同的標題,但第二種方法更有效,因為有人不太可能擁有完全相同的句子或段落。
內容採集會影響搜尋引擎優化嗎?
您可能遇到的下一個問題是,這對SEO有何影響?因為在上面的示例中,內容採集農場沒有使用rel=canonical
標籤、給予信用或noindex
標籤。這意味著當Google bot抓取它時,它會認為這是他們的原始內容。你可能認為這不公平。你是對的,它不是。我們釋出了內容,然後他們只是抓取它。然而,在你開始恐慌之前,瞭解幕後真正發生的事情很重要。
首先,即使Google爬蟲可能會將其視為他們的內容,但Google演算法很可能不會。谷歌並不愚蠢,並且有許多規則和檢查來確保原始內容所有者仍然獲得信譽。我們怎麼知道呢?好吧,讓我們從SEO的角度來看看這些帖子中的每一個。
示例中這個網站早在2017年11月就採集了別人的部落格文章,所以如果要排名的話,它有足夠的時間來排名。因此,啟動Ahrefs工具並檢查他們的文章當前排名的關鍵字。我們可以看到它沒有為任何關鍵字排名。因此,就自然流量而言,他們根本沒有從這篇文章中受益。
內容採集SEO
如果我們在Ahrefs中提取我們的原始部落格文章,我們可以看到我們對96個關鍵字進行了排名。
原創內容搜尋引擎優化
當Google看到您可能認為是重複的內容時,它會使用許多不同的訊號和資料點來確定最初是誰編寫了內容以及應該對哪些內容進行排名。這裡有幾個例子:
- 釋出日期(儘管在這種情況下,內容是在同一天抓取的)
- 域許可權和頁面排名。是的,Google內部可能仍在使用頁面排名
- 社會訊號
- 交通
- 反向連結
同樣,這些都是安全的假設,因為沒有人真正知道Google使用什麼。但這裡的重點是,您可能不需要因為有人抓取您的內容而失眠。但是,您仍然可能想對此做點什麼。別人用你自己的內容來超越你也不是不可能的。我們將在下面進一步討論。
我們如何處理內容採集
建立有用的、獨特的和值得分享的內容並不容易,它會佔用你很多寶貴的時間(而且通常會花費很多錢),所以你絕對應該保護它。但這裡有一些額外的原因,您可能不想忽略刮板。
- 如果一個擁有大量流量的網站正在抓取您的內容並使用它來補充其他內容,那麼他們很可能從中受益。這絕對是不對的,因為您是內容的原始所有者。
- 像這樣的事情會嚴重扭曲您的報告工具中的資料,讓您的生活更加艱難。例如,這些將顯示在Ahrefs或Majestic等工具的反向連結報告中。你越大,它就越混亂。
- 您是否希望完全信任 Google 以確定他們的內容還是您的內容是原始內容?儘管他們對此非常聰明,但我們肯定不會。此外,即使他們的帖子沒有任何關鍵字的搜尋引擎排名,它實際上已被Google索引(如下所示)。
採集的內容已編入索引
聯絡網站所有者並提交DMCA投訴
為確保我們在信用到期時獲得信用,我們通常首先聯絡網站所有者並請求刪除。我們建議建立一些您可以重複使用的電子郵件模板,以加快此過程,而不是浪費您的時間。如果我們在幾次嘗試後沒有收到他們的訊息,我們會更進一步並提出DMCA投訴。
DMCA投訴可能有點棘手,因為您需要查詢網站的IP、查詢主機等。但不用擔心,我們已經記錄了如何輕鬆提交DMCA投訴的所有步驟,以及追蹤所有者。您也可以直接向Google提出合法刪除請求。
就上面的實時案例研究示例而言,似乎是時候採取下一步行動了,因為我們無法聯絡到網站所有者。
更新拒絕檔案
為確保這些不會以任何方式影響我們的網站(無論DMCA投訴發生了什麼),我們還將這些整個域新增到我們的拒絕檔案中。這告訴谷歌我們不想與他們有任何關係,並且我們不會試圖以任何方式操縱SERP。
如果您為更高質量的網站執行此操作,您也可以只提交URL以進行拒絕,而不是提交整個域。儘管通常我們看不到高質量的網站抓取內容。
第 1 步
在Ahrefs中,我們選擇有問題的域,然後單擊“Disavow Domains”。這確保了該內容抓取網站中的所有內容都不會影響我們。
Ahrefs拒絕域
在處理這些型別的問題時,Ahrefs的偉大之處在於其“隱藏拒絕連結”選項。然後,它會自動隱藏域和URL,以後不會出現在您的主報告中。這對於組織和保持理智非常有幫助,特別是如果您專門使用Ahrefs來管理反向連結。
隱藏拒絕的連結
第 2 步
正如您在下面看到的,我們將來自內容抓取農場的所有域新增到Ahrefs中的拒絕連結部分。下一步是單擊“匯出”並獲取我們需要在Google Search Console中提交的拒絕檔案 (TXT) 。
匯出拒絕檔案
第 3 步
然後轉到Google的Disavow Tool。選擇您的Google Search Console個人資料,然後點選“Disavow LINKS”。
拒絕連結
第 4 步
選擇您從Ahrefs匯出的拒絕檔案並提交。這將覆蓋您之前的拒絕檔案。如果您以前沒有使用過Ahrefs並且已經存在拒絕檔案,建議您下載當前檔案,將其與新檔案合併,然後上傳。從那時起,如果您只使用Ahrefs,您可以簡單地上傳和覆蓋。
拒絕檔案
遮蔽爬蟲的IP
您還可以更進一步,阻止爬蟲的IP。一旦您確定了異常流量(有時很難做到),您可以使用.htaccess檔案或Nginx規則在您的伺服器上阻止它。或者,如果您使用的是Sucuri或Cloudflare等第三方WAF,它們也有攔截IP的選項。
小結
內容採集農場可能並不總是影響您的SEO,但它們絕對不會為使用者增加任何價值。我們強烈建議您花一些時間將它們取下來。我們有一整張Trello卡片專門用於處理“刪除”請求。這有助於使網路成為每個人都更好的地方,並確保您的獨特內容只會在您的網站上看到和排名。
此外,我們建議站長們,一味地原封不動地採集內容,很難讓網站有很好的排名。如果您希望做一個內容聚合站點,我們建議:
(1)堅持做一定比例的原創內容,我們無法給出一個準確的佔比,但對於新站而言,原創內容理應占更大的比例;
(2)即使是內容採集,應該考慮對內容進行一定的深加工,用工具也好,手動重新編輯也好;
(3)使用搜尋推送外掛,將內容及時推送至搜尋引擎。
評論留言