MojeekBot

MojeekBot蜘蛛/爬蟲屬於搜尋引擎型別,由Mojeek Ltd.開發執行。您可以繼續閱讀下方資訊,以深入瞭解MojeekBot基本資訊,使用者代理和訪問控制等。

基本資訊

MojeekBot的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲,可能存在資訊不明的情況。
蜘蛛/爬蟲名稱
MojeekBot
型別
搜尋引擎
開發商
Mojeek Ltd.
當前狀態
活動

使用者代理

關於MojeekBot蜘蛛或者爬蟲的使用者代理字串,IP地址和伺服器,所在地等資訊如下表格所示:
MojeekBot/0.11
使用者代理字串
Mozilla/5.0 (compatible; MojeekBot/0.11; +https://www.mojeek.com/bot.html)
首次出現
2022-05-03 08:11:42
最後出現
2025-01-10 14:53:46
遵循robots.txt
來源
IP地址(1) 伺服器名稱 所屬國家
5.102.173.71 crawl-5-102-173-71.mojeek.com GB
使用者代理字串
Mozilla/5.0 (compatible; MojeekBot/0.10; +https://www.mojeek.com/bot.html)
首次出現
2020-09-28 15:55:21
最後出現
2022-05-07 08:46:56
遵循robots.txt
來源
IP地址(1) 伺服器名稱 所屬國家
5.102.173.71 crawl-5-102-173-71.mojeek.com GB
使用者代理字串
Mozilla/5.0 (compatible; MojeekBot/0.9; +https://www.mojeek.com/bot.html)
首次出現
2020-06-30 00:42:06
最後出現
2020-09-29 03:17:47
遵循robots.txt
來源
IP地址(1) 伺服器名稱 所屬國家
5.102.173.71 crawl-5-102-173-71.mojeek.com GB
使用者代理字串
Mozilla/5.0 (compatible; MojeekBot/0.7; +https://www.mojeek.com/bot.html)
首次出現
2019-11-11 18:44:54
最後出現
2020-06-27 11:53:16
遵循robots.txt
來源
IP地址(1) 伺服器名稱 所屬國家
5.102.173.71 crawl-5-102-173-71.mojeek.com GB
使用者代理字串
Mozilla/5.0 (compatible; MojeekBot/0.8.1; +https://www.mojeek.com/bot.html)
首次出現
2020-06-25 14:46:51
最後出現
2020-06-27 04:38:34
遵循robots.txt
來源
IP地址(1) 伺服器名稱 所屬國家
5.102.173.71 crawl-5-102-173-71.mojeek.com GB
使用者代理字串
Mozilla/5.0 (compatible; MojeekBot/0.6; http://www.mojeek.com/bot.html)
首次出現
2014-01-21 08:15:00
最後出現
2014-06-30 06:45:59
遵循robots.txt
來源
IP地址(1) 伺服器名稱 所屬國家
5.102.173.71 crawl-5-102-173-71.mojeek.com GB
使用者代理字串
Mozilla/5.0 (compatible; MojeekBot/0.6; http://www.mojeek.com/bot.html)
首次出現
2014-01-21 08:15:00
最後出現
2014-06-30 06:45:59
遵循robots.txt
來源
IP地址(1) 伺服器名稱 所屬國家
5.102.173.71 crawl-5-102-173-71.mojeek.com GB
使用者代理字串
Mozilla/5.0 (compatible; MojeekBot/0.5; http://www.mojeek.com/bot.html)
首次出現
2013-09-18 08:15:00
最後出現
2013-10-23 18:32:27
遵循robots.txt
來源
IP地址(1) 伺服器名稱 所屬國家
5.102.173.71 crawl-5-102-173-71.mojeek.com GB
使用者代理字串
Mozilla/5.0 (compatible; MojeekBot/0.2; http://www.mojeek.com/bot.html#relaunch)
首次出現
2010-11-29 20:06:54
最後出現
2010-11-28 11:55:54
遵循robots.txt
來源
IP地址(1) 伺服器名稱 所屬國家
81.149.13.26 81-149-13-26.mojeek.com UK
使用者代理字串
MojeekBot/0.2 (archi; http://www.mojeek.com/bot.html)
首次出現
2009-12-19 17:57:00
最後出現
2009-12-18 12:14:48
遵循robots.txt
來源
IP地址(1) 伺服器名稱 所屬國家
195.74.55.164 b1-164-55-74-195.mojeek.com TR
83.67.53.154 i-83-67-53-154.freedom2surf.net UK
使用者代理字串
MojeekBot/0.2 (archi; http://www.mojeek.com/bot.html)
首次出現
2009-12-19 17:57:00
最後出現
2009-12-18 12:14:48
遵循robots.txt
來源
IP地址(1) 伺服器名稱 所屬國家
83.67.53.154 i-83-67-53-154.freedom2surf.net UK

訪問控制

瞭解如何控制MojeekBot訪問許可權,避免MojeekBot抓取行為不當。

是否攔截MojeekBot?

一般不要攔截。搜尋引擎爬蟲為搜尋引擎提供動力,是使用者發現您網站的有效途徑。事實上,攔截搜尋引擎爬蟲可能會嚴重減少網站的自然流量。

通過Robots.txt攔截

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 MojeekBot 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: MojeekBot
Disallow: /
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: MojeekBot Disallow: /
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: MojeekBot
Disallow: /

您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

更多資訊

MojeekBot是Mojeek搜尋引擎的網路爬蟲。儘管Mojeek已經盡力考慮到網站管理員、網站所有者和主機,但不幸的是,錯誤和誤差是不可避免的。如果您發現Mojeek的機器人有任何不當行為,抓取了不應該抓取的頁面或目錄,或者您只是有一般的詢問,請與Mojeek聯絡

抓取頻率

無論成功與否,MojeekBot都不應該在同一時間段內從你的網站上請求超過一個頁面。MojeekBot目前不支援非標準的Robots.txt抓取延遲指令。

Robots.txt

MojeekBot遵從機器人排除標準。MojeekBot將服從第一個含有 “MojeekBot “的使用者代理的記錄。如果沒有這樣的記錄,它將服從第一個使用者代理為 “*”的條目。

MojeekBot不會檢索任何含有禁止字串的URL的檔案,即:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
User-agent: *
Disallow: /private
User-agent: * Disallow: /private
User-agent: *
Disallow: /private

這將導致所有包含”/private“字串的URL被禁止。例如,以下所有的內容都不會被檢索到。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
/private/
/private.html
/private/ /private.html
/private/
/private.html

元標籤

Mojeek的引擎遵守noindex、nocache和nofollow元標籤。如果你把以下內容放在你的頁面頭部。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
<META NAME="robots" CONTENT="noindex">
<META NAME="robots" CONTENT="noindex">。
<META NAME="robots" CONTENT="noindex">。

MojeekBot會檢索到該頁面,但不會對該檔案進行索引,也不會將其輸入搜尋資料庫。

驗證MojeekBot

為了驗證這是一個真正的MojeekBot訪問你的網站,執行兩個步驟,首先,對訪問的IP地址進行反向DNS查詢:-

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
> host 5.102.173.71
71.173.102.5.in-addr.arpa domain name pointer crawl-5-102-173-71.mojeek.com.
> host 5.102.173.71 71.173.102.5.in-addr.arpa domain name pointer crawl-5-102-173-71.mojeek.com.
> host 5.102.173.71
71.173.102.5.in-addr.arpa domain name pointer crawl-5-102-173-71.mojeek.com.

這應該可以解析為mojeek.com域名內的一個名字。現在通過對上述響應進行前向DNS查詢,檢查這是不是一個錯誤的反向DNS:-

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
> host crawl-5-102-173-71.mojeek.com
crawl-5-102-173-71.mojeek.com has address 5.102.173.71
> host crawl-5-102-173-71.mojeek.com crawl-5-102-173-71.mojeek.com has address 5.102.173.71
> host crawl-5-102-173-71.mojeek.com
crawl-5-102-173-71.mojeek.com has address 5.102.173.71

現在應該會返回原來訪問的IP地址,如果不是,就不是真正的MojeekBot。

常見蜘蛛/爬蟲

Common Spiders
Mithril
Mithril蜘蛛/爬蟲屬於搜尋引擎型別,由University of Michigan開發執行。您可以繼續閱讀下方資訊,以深入瞭解Mithril基本資訊,使用者代理和訪問控制等。
fynd.bot crawler
fynd.bot crawler蜘蛛/爬蟲屬於搜尋引擎型別,由fynd.bot開發執行。您可以繼續閱讀下方資訊,以深入瞭解fynd.bot crawler基本資訊,使用者代理和訪問控制等。
Alibaba crawler
Alibaba crawler蜘蛛/爬蟲屬於搜尋引擎型別,由Alibaba Group開發執行。您可以繼續閱讀下方資訊,以深入瞭解Alibaba crawler基本資訊,使用者代理和訪問控制等。
Googlebot
GoogleBot蜘蛛/爬蟲屬於搜尋引擎型別,由Google Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解GoogleBot基本資訊,使用者代理和訪問控制等。
Swisscows Crawler
Swisscows Crawler蜘蛛/爬蟲屬於搜尋引擎型別,由Swisscows AG開發執行。您可以繼續閱讀下方資訊,以深入瞭解Swisscows Crawler基本資訊,使用者代理和訪問控制等。
star-finder.de Bot
star-finder.de Bot蜘蛛/爬蟲屬於搜尋引擎型別,由projektnet開發執行。您可以繼續閱讀下方資訊,以深入瞭解star-finder.de Bot基本資訊,使用者代理和訪問控制等。
SeznamBot
SeznamBot蜘蛛/爬蟲屬於搜尋引擎型別,由Seznam.cz, a.s.開發執行。您可以繼續閱讀下方資訊,以深入瞭解SeznamBot基本資訊,使用者代理和訪問控制等。
MojeekBot
MojeekBot蜘蛛/爬蟲屬於搜尋引擎型別,由Mojeek Ltd.開發執行。您可以繼續閱讀下方資訊,以深入瞭解MojeekBot基本資訊,使用者代理和訪問控制等。

相關文章

Related Articles