您是否正在尋找一種方法來防止垃圾評論傳送者和詐騙者使用內容抓取工具採集您的WordPress部落格內容?
作為網站所有者,看到有人在未經許可的情況下采集您的內容,從中獲利,在Google等搜尋引擎上的排名超過您,這是非常令人沮喪的。
在本教程中,我們將介紹什麼是部落格內容採集、如何減少和防止內容採集,甚至如何利用內容抓取來為自己謀利。
什麼是部落格內容抓取?
部落格內容採集抓取是指從眾多來源獲取內容並在另一個站點上重新發布的內容。通常這是通過您部落格的RSS Feed自動完成的。
內容抓取現在非常容易,任何人都可以啟動WordPress網站,放置免費或商業主題,並安裝一些外掛,這些外掛將從選定的部落格中採集內容。
為什麼內容抓取工具會採集我的內容?
我們的一些使用者問我們為什麼要採集我的內容?簡單的答案是因為你很棒。事實是,這些內容抓取者別有用心。以下是有人會採集您的內容的幾個原因:
- 聯盟佣金– 有一些骯髒的聯盟營銷人員只是想利用該系統賺取額外的錢。他們將使用您的內容和其他人的內容通過搜尋引擎為他們的網站帶來流量。這些網站通常針對特定的利基市場,因此他們有正在推廣的相關產品。
- 潛在客戶生成——我們經常看到律師和房地產經紀人這樣做。他們希望在自己的小社羣中看起來像行業領導者。他們沒有足夠的頻寬來製作高質量的內容,所以他們出去從其他來源抓取內容。有時,他們甚至沒有意識到這一點,因為他們每月支付30美元來新增內容並幫助他們獲得更好的SEO。我們過去遇到過不少這樣的情況。
- 廣告收入——有些人只想建立一個知識“中心”。為特定領域的使用者提供一站式服務。我們經常注意到我們的網站內容正在被抓取。刮板者總是回答說,我這樣做是為了社羣的利益。除了該網站貼滿廣告。
這些只是有人會採集您的內容的幾個原因。
如何捕捉內容爬蟲?
捕獲內容抓取工具是一項乏味的任務,可能會佔用大量時間。您可以通過幾種方法來捕獲內容抓取工具。
用你的文章標題在谷歌搜尋
是的,這聽起來很痛苦。這種方法可能不值得,特別是如果你正在寫一個非常流行的話題。
引用
如果您在文章中新增內部連結,如果網站採集您的內容,您會注意到引用。這種方式幾乎是告訴您他們正在刮您的內容。
如果您使用Akismet,那麼很多這些引用將顯示在垃圾評論資料夾中。同樣,這僅在您的文章中有內部連結時才有效。
Ahrefs
如果您可以使用Ahrefs之類的 SEO 工具,則可以監控您的反向連結並留意被盜內容。
如何處理內容抓取工具
人們在處理內容採集工具時採用的方法很少:無所作為方法、刪除方法或利用它們的方法。
讓我們來看看每一個。
什麼都不做的方法
這是迄今為止您可以採取的最簡單的方法。通常最受歡迎的博主會推薦這個,因為它需要很多時間來對抗爬蟲。
現在很明顯,如果是像Smashing Magazine、CSS-Tricks、Problogger等知名部落格,那麼他們就不必擔心了。他們是谷歌眼中的權威網站。
然而,我們知道一些好的網站被標記為採集工具,因為谷歌認為他們的採集工具是原始內容。因此,在我們看來,這種方法並不總是最好的。
採取措施
這與“什麼都不做”的方法完全相反。在這種方法中,您只需聯絡抓取工具並要求他們刪除內容。
如果他們拒絕這樣做或根本不回覆您的請求,那麼您可以向他們的主機提交DMCA(數字千年版權法案)。
根據我們的經驗,大多數抓取網站都沒有可用的聯絡表格。如果他們這樣做,然後利用它。如果他們沒有聯絡表,那麼您需要進行Whois查詢。
您可以在管理聯絡人上看到聯絡資訊。通常行政和技術聯絡人是相同的。
它還將顯示域註冊商。大多數知名的網路託管公司和域名註冊商都有DMCA表格或電子郵件。您可以看到這個特定的人使用HostGator,因為他們的域名伺服器。HostGator有一個DMCA投訴表格。
如果名稱伺服器類似於ns1.theirdomain.com,那麼您必須通過反向IP查詢和搜尋IP進行更深入的挖掘。
您還可以使用DMCA.com的第三方服務進行刪除。
Jeff Starr在他的文章中建議你應該遮蔽壞人的IP。訪問您的日誌以獲取其IP地址,然後在您的根.htaccess檔案中使用以下內容阻止它:
Deny from 123.456.789
您還可以通過執行以下操作將它們重定向到虛擬Feed:
RewriteCond %{REMOTE_ADDR} 123\.456\.789\. RewriteRule .* http://dummyfeed.com/feed [R,L]
正如Jeff建議的那樣,您可以在這裡獲得真正的創意。將它們傳送到包含Lorem Ipsum的非常大的文字提要。你可以給他們傳送一些噁心的壞事圖片。您還可以將它們直接傳送回他們自己的伺服器,從而導致無限迴圈,從而使他們的網站崩潰。
我們採取的最後一種方法是利用它們。
如何利用內容抓取工具
這是我們處理內容抓取工具的方法,結果非常好。它有助於我們的SEO以及幫助我們賺取額外收入。
大多數抓取工具使用您的RSS Feed來採集您的內容。所以這些是你可以做的一些事情:
- 內部連結– 您需要大量連結您的部落格文章。當您的文章中有內部連結時,它可以幫助您增加瀏覽量並降低您自己網站的跳出率。其次,它可以從採集您內容的人那裡獲得反向連結。最後,它允許您採集他們的觀眾。如果您是一位才華橫溢的博主,那麼您就會了解內部連結的藝術。您必須將連結放在有趣的關鍵字上。讓使用者很容易點選它。如果你這樣做,那麼刮板的觀眾也會點選它。就像那樣,你從他們的網站上帶走了一個訪問者,然後把他們帶回了他們本來應該去的地方。
- 使用附屬連結自動連結關鍵字– 很少有像ThirstyAffiliates這樣的外掛會自動用附屬連結替換指定的關鍵字,
- 使用RSS頁尾發揮創意– 您可以使用多合一SEO外掛將自定義專案新增到您的RSS頁尾。您可以在此處新增任何您想要的內容。我們知道有些人喜歡向他們的 RSS 閱讀器宣傳他們自己的產品。所以他們會新增橫幅。你猜怎麼著,現在這些橫幅也將出現在這些刮刀的網站上。在我們的案例中,我們總是在RSS Feed中的文章底部新增一點免責宣告。通過這樣做,我們從“他們”的網站獲得原始文章的反向連結,讓谷歌和其他搜尋引擎知道我們是權威的。它還讓他們的使用者知道該網站正在採集我們的內容。
檢視我們的指南,瞭解如何在WordPress中控制您的RSS Feed頁尾以獲取更多提示和想法。
如何減少和防止WordPress部落格抓取
考慮到如果您採用我們的大量內部連結方法、新增附屬連結、RSS橫幅等,您將有可能將內容抓取減少到很好的程度。如果您採納Jeff Starr的重定向內容抓取工具的建議,那也將阻止這些抓取工具。除了我們上面分享的內容之外,您還可以使用其他一些技巧。
完整與摘要RSS Feed
部落格社羣一直在爭論是否有完整的RSS Feed或摘要RSS Feed。我們不會詳細討論該辯論,但是擁有僅摘要RSS Feed的優點之一是您可以防止內容抓取。
您可以通過轉到WordPress管理後臺並轉到設定 » 閱讀來更改設定。然後更改設定對於feed中的每篇文章,包含全文或者摘要。
引用垃圾評論
Trackbacks和Pingbacks肯定有很大的用處,但是,它們現在經常被濫用。
主題通常會在評論下方或評論中顯示引用和pingback。這使垃圾郵件傳送者有動力抓取您的網站併傳送引用。如果您錯誤地批准了它,那麼他們會得到一個反向連結並從您的網站上提及。當然,您可以在所有文章中禁用引用。
採集內容是否有效
有可能。如果您看到來自爬蟲站點的大量流量,那麼它可以。
然而,在大多數情況下,事實並非如此。您應該始終嘗試刪除您的內容。但是您會意識到隨著您的部落格變大,幾乎不可能跟蹤所有內容抓取工具。國外網站博主會發出DMCA投訴,但是一般情況下,大部分博主知道還有很多其他網站在採集他們的內容,只是他們無暇顧及。
我們希望本教程能幫助您防止WordPress內容被採集抓取。您可能還想瞭解如何實現WordPress圖片被盜鏈,及通過蜘蛛統計分析外掛攔截不需要的爬蟲。
評論留言