MojeekBot

MojeekBot蜘蛛/爬虫属于搜索引擎类型,由Mojeek Ltd.开发运行。您可以继续阅读下方信息,以深入了解MojeekBot基本信息,用户代理和访问控制等。

基本信息

MojeekBot的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
MojeekBot
类型
搜索引擎
开发商
Mojeek Ltd.
当前状态
活动

用户代理

关于MojeekBot蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
MojeekBot/0.11
用户代理字符串
Mozilla/5.0 (compatible; MojeekBot/0.11; +https://www.mojeek.com/bot.html)
首次出现
2022-05-03 08:11:42
最后出现
2025-01-10 14:53:46
遵循robots.txt
来源
IP地址(1) 服务器名称 所属国家
5.102.173.71 crawl-5-102-173-71.mojeek.com GB
用户代理字符串
Mozilla/5.0 (compatible; MojeekBot/0.10; +https://www.mojeek.com/bot.html)
首次出现
2020-09-28 15:55:21
最后出现
2022-05-07 08:46:56
遵循robots.txt
来源
IP地址(1) 服务器名称 所属国家
5.102.173.71 crawl-5-102-173-71.mojeek.com GB
用户代理字符串
Mozilla/5.0 (compatible; MojeekBot/0.9; +https://www.mojeek.com/bot.html)
首次出现
2020-06-30 00:42:06
最后出现
2020-09-29 03:17:47
遵循robots.txt
来源
IP地址(1) 服务器名称 所属国家
5.102.173.71 crawl-5-102-173-71.mojeek.com GB
用户代理字符串
Mozilla/5.0 (compatible; MojeekBot/0.7; +https://www.mojeek.com/bot.html)
首次出现
2019-11-11 18:44:54
最后出现
2020-06-27 11:53:16
遵循robots.txt
来源
IP地址(1) 服务器名称 所属国家
5.102.173.71 crawl-5-102-173-71.mojeek.com GB
用户代理字符串
Mozilla/5.0 (compatible; MojeekBot/0.8.1; +https://www.mojeek.com/bot.html)
首次出现
2020-06-25 14:46:51
最后出现
2020-06-27 04:38:34
遵循robots.txt
来源
IP地址(1) 服务器名称 所属国家
5.102.173.71 crawl-5-102-173-71.mojeek.com GB
用户代理字符串
Mozilla/5.0 (compatible; MojeekBot/0.6; http://www.mojeek.com/bot.html)
首次出现
2014-01-21 08:15:00
最后出现
2014-06-30 06:45:59
遵循robots.txt
来源
IP地址(1) 服务器名称 所属国家
5.102.173.71 crawl-5-102-173-71.mojeek.com GB
用户代理字符串
Mozilla/5.0 (compatible; MojeekBot/0.6; http://www.mojeek.com/bot.html)
首次出现
2014-01-21 08:15:00
最后出现
2014-06-30 06:45:59
遵循robots.txt
来源
IP地址(1) 服务器名称 所属国家
5.102.173.71 crawl-5-102-173-71.mojeek.com GB
用户代理字符串
Mozilla/5.0 (compatible; MojeekBot/0.5; http://www.mojeek.com/bot.html)
首次出现
2013-09-18 08:15:00
最后出现
2013-10-23 18:32:27
遵循robots.txt
来源
IP地址(1) 服务器名称 所属国家
5.102.173.71 crawl-5-102-173-71.mojeek.com GB
用户代理字符串
Mozilla/5.0 (compatible; MojeekBot/0.2; http://www.mojeek.com/bot.html#relaunch)
首次出现
2010-11-29 20:06:54
最后出现
2010-11-28 11:55:54
遵循robots.txt
来源
IP地址(1) 服务器名称 所属国家
81.149.13.26 81-149-13-26.mojeek.com UK
用户代理字符串
MojeekBot/0.2 (archi; http://www.mojeek.com/bot.html)
首次出现
2009-12-19 17:57:00
最后出现
2009-12-18 12:14:48
遵循robots.txt
来源
IP地址(1) 服务器名称 所属国家
195.74.55.164 b1-164-55-74-195.mojeek.com TR
83.67.53.154 i-83-67-53-154.freedom2surf.net UK
用户代理字符串
MojeekBot/0.2 (archi; http://www.mojeek.com/bot.html)
首次出现
2009-12-19 17:57:00
最后出现
2009-12-18 12:14:48
遵循robots.txt
来源
IP地址(1) 服务器名称 所属国家
83.67.53.154 i-83-67-53-154.freedom2surf.net UK

访问控制

了解如何控制MojeekBot访问权限,避免MojeekBot抓取行为不当。

是否拦截MojeekBot?

一般不要拦截。搜索引擎爬虫为搜索引擎提供动力,是用户发现您网站的有效途径。事实上,拦截搜索引擎爬虫可能会严重减少网站的自然流量。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 MojeekBot 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: MojeekBot
	Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

更多信息

MojeekBot是Mojeek搜索引擎的网络爬虫。尽管Mojeek已经尽力考虑到网站管理员、网站所有者和主机,但不幸的是,错误和误差是不可避免的。如果您发现Mojeek的机器人有任何不当行为,抓取了不应该抓取的页面或目录,或者您只是有一般的询问,请与Mojeek联系

抓取频率

无论成功与否,MojeekBot都不应该在同一时间段内从你的网站上请求超过一个页面。MojeekBot目前不支持非标准的Robots.txt抓取延迟指令。

Robots.txt

MojeekBot遵从机器人排除标准。MojeekBot将服从第一个含有 “MojeekBot “的用户代理的记录。如果没有这样的记录,它将服从第一个用户代理为 “*”的条目。

MojeekBot不会检索任何含有禁止字符串的URL的文件,即:

User-agent: *
Disallow: /private

这将导致所有包含”/private“字符串的URL被禁止。例如,以下所有的内容都不会被检索到。

/private/
/private.html

元标签

Mojeek的引擎遵守noindex、nocache和nofollow元标签。如果你把以下内容放在你的页面头部。

<META NAME="robots" CONTENT="noindex">。

MojeekBot会检索到该页面,但不会对该文件进行索引,也不会将其输入搜索数据库。

验证MojeekBot

为了验证这是一个真正的MojeekBot访问你的网站,执行两个步骤,首先,对访问的IP地址进行反向DNS查询:-

> host 5.102.173.71
71.173.102.5.in-addr.arpa domain name pointer crawl-5-102-173-71.mojeek.com.

这应该可以解析为mojeek.com域名内的一个名字。现在通过对上述响应进行前向DNS查询,检查这是不是一个错误的反向DNS:-

> host crawl-5-102-173-71.mojeek.com
crawl-5-102-173-71.mojeek.com has address 5.102.173.71

现在应该会返回原来访问的IP地址,如果不是,就不是真正的MojeekBot。

常见蜘蛛/爬虫

Common Spiders

相关文章

Related Articles