Crawler4j

Crawler4j蜘蛛/爬虫属于未分类类型,由Yasser Ganjisaffar开发运行。您可以继续阅读下方信息,以深入了解Crawler4j基本信息,用户代理和访问控制等。

基本信息

Crawler4j的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
Crawler4j
类型
其他
开发商
Yasser Ganjisaffar
当前状态
活动

用户代理

关于Crawler4j蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
Crawler4j
用户代理字符串
crawler4j (https://github.com/yasserg/crawler4j/)
首次出现
2015-06-26 08:12:54
最后出现
2021-12-15 11:51:43
遵循robots.txt
来源
IP地址(169) 服务器名称 所属国家
68.83.191.117 c-68-83-191-117.hsd1.pa.comcast.net US
203.213.108.253 203-213-108-253.static.tpgi.com.au AU
5.10.13.12 cust-5-10-13-12.pools.tk-bodensee.net DE
52.58.51.168 ec2-52-58-51-168.eu-central-1.compute.amazonaws.com DE
82.165.224.156 crawlbap27.1and1.org DE
82.165.224.164 crawlbap35.1and1.org DE
82.165.224.212 crawlbap83.1and1.org DE
82.165.224.252 crawlbap123.1and1.org DE
82.165.224.220 crawlbap91.1and1.org DE
82.165.224.228 crawlbap99.1and1.org DE
用户代理字符串
crawler4j (http://code.google.com/p/crawler4j/)
首次出现
2011-07-10 10:35:23
最后出现
2018-01-26 09:37:36
遵循robots.txt
未知
来源
IP地址(66) 服务器名称 所属国家
78.111.120.31 u120-31.static.grapesc.cz CZ
160.16.113.81 tk2-232-25827.vs.sakura.ne.jp JP
160.16.241.202 tk2-262-40948.vs.sakura.ne.jp JP
218.18.3.167 ? CN
153.156.71.182 p4934182-ipngnfx01marunouchi.tokyo.ocn.ne.jp JP
38.106.143.231 cip-231.trustwave.com US
128.143.137.126 grayson.cs.virginia.edu US
217.162.118.164 217-162-118-164.dynamic.hispeed.ch CH
109.207.29.2 salt-ext.roke.co.uk GB
80.244.17.1 ? CY
用户代理字符串
crawler4j for XQuery
首次出现
2015-11-24 05:12:00
最后出现
2015-11-22 00:18:29
遵循robots.txt
来源
IP地址(1) 服务器名称 所属国家
141.7.43.55 shc-rn-55.gecko.hs-heilbronn.de DE
68.83.191.117 c-68-83-191-117.hsd1.pa.comcast.net US
203.213.108.253 203-213-108-253.static.tpgi.com.au AU
5.10.13.12 cust-5-10-13-12.pools.tk-bodensee.net DE
52.58.51.168 ec2-52-58-51-168.eu-central-1.compute.amazonaws.com DE
82.165.224.156 crawlbap27.1and1.org DE
82.165.224.164 crawlbap35.1and1.org DE
82.165.224.212 crawlbap83.1and1.org DE
82.165.224.252 crawlbap123.1and1.org DE
82.165.224.220 crawlbap91.1and1.org DE
82.165.224.228 crawlbap99.1and1.org DE
78.111.120.31 u120-31.static.grapesc.cz CZ
160.16.113.81 tk2-232-25827.vs.sakura.ne.jp JP
160.16.241.202 tk2-262-40948.vs.sakura.ne.jp JP
218.18.3.167 ? CN
153.156.71.182 p4934182-ipngnfx01marunouchi.tokyo.ocn.ne.jp JP
38.106.143.231 cip-231.trustwave.com US
128.143.137.126 grayson.cs.virginia.edu US
217.162.118.164 217-162-118-164.dynamic.hispeed.ch CH
109.207.29.2 salt-ext.roke.co.uk GB
80.244.17.1 ? CY
195.250.140.18 195.250.140.18 CZ
用户代理字符串
crawler4j for XQuery
首次出现
2015-11-24 05:12:00
最后出现
2015-11-22 00:18:29
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
195.250.140.18 195.250.140.18 CZ

访问控制

了解如何控制Crawler4j访问权限,避免Crawler4j抓取行为不当。

是否拦截Crawler4j?

对于未知蜘蛛或者爬虫。它的用途对网站来说可能是好的,也可能是坏的,这取决于它是什么。所以说,这需要站长进一步分析判断这些尚不明确的爬虫行为,再作最终决定。 但,根据以往的经验,未声明行为目的及未命名的蜘蛛爬虫,通常都有不可告人的秘密,我们理应对其行为进行控制,比如拦截。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 Crawler4j 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: Crawler4j
	Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

常见蜘蛛/爬虫

Common Spiders
DataForSeo bot
DataForSeo bot蜘蛛/爬虫属于类型,由DataForSEO OU开发运行。您可以继续阅读下方信息,以深入了解DataForSeo bot基本信息,用户代理和访问控制等。
CloudFlare crawler
CloudFlare crawler蜘蛛/爬虫属于类型,由CloudFlare, Inc.开发运行。您可以继续阅读下方信息,以深入了解CloudFlare crawler基本信息,用户代理和访问控制等。
Odin
Odin蜘蛛/爬虫属于类型,由Cyble, Inc.开发运行。您可以继续阅读下方信息,以深入了解Odin基本信息,用户代理和访问控制等。
Chrome Privacy Preserving Prefetch Proxy
Chrome Privacy Preserving Prefetch Proxy蜘蛛/爬虫属于类型,由Google Inc.开发运行。您可以继续阅读下方信息,以深入了解Chrome Privacy Preserving Prefetch Proxy基本信息,用户代理和访问控制等。
EFF crawler
EFF crawler蜘蛛/爬虫属于类型,由Electronic Frontier Foundation开发运行。您可以继续阅读下方信息,以深入了解EFF crawler基本信息,用户代理和访问控制等。
Modat crawler
Modat crawler蜘蛛/爬虫属于类型,由Modat B.V.开发运行。您可以继续阅读下方信息,以深入了解Modat crawler基本信息,用户代理和访问控制等。
FirmoGraph
FirmoGraph蜘蛛/爬虫属于类型,由firmograph.io开发运行。您可以继续阅读下方信息,以深入了解FirmoGraph基本信息,用户代理和访问控制等。
fluid
fluid蜘蛛/爬虫属于类型,由leak.info开发运行。您可以继续阅读下方信息,以深入了解fluid基本信息,用户代理和访问控制等。

相关文章

Related Articles