webarchiv.cz

webarchiv.cz蜘蛛/爬虫属于类型,由National Library of the Czech Republic开发运行。您可以继续阅读下方信息,以深入了解webarchiv.cz基本信息,用户代理和访问控制等。

基本信息

webarchiv.cz的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
webarchiv.cz
类型
其他
开发商
National Library of the Czech Republic
当前状态
活动

用户代理

关于webarchiv.cz蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
heritrix/3.4.0
用户代理字符串
Mozilla/5.0 (compatible; heritrix/3.4.0-20210923 +http://webarchiv.cz/kontakty/)
首次出现
2021-12-29 12:06:48
最后出现
2022-01-01 17:19:03
遵循robots.txt
未知
来源
IP地址(5) 服务器名称 所属国家
195.113.133.205 crawler05.webarchiv.cz CZ
195.113.133.213 crawler13.webarchiv.cz CZ
195.113.133.218 crawler18.webarchiv.cz CZ
195.113.133.216 crawler16.webarchiv.cz CZ
195.113.133.214 crawler14.webarchiv.cz CZ
用户代理字符串
Mozilla/5.0 (compatible; heritrix/3.4.0-SNAPSHOT-2019-04-18T15:23:13Z +http://webarchiv.cz/kontakty/)
首次出现
2019-06-20 06:13:46
最后出现
2021-03-04 04:58:48
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
195.113.133.200 crawler00.webarchiv.cz CZ
195.113.133.201 crawler01.webarchiv.cz CZ
用户代理字符串
Mozilla/5.0 (compatible; heritrix/3.4.0-SNAPSHOT-2019-05-22T20:43:22Z +http://webarchiv.cz/kontakty/)
首次出现
2019-07-31 22:07:22
最后出现
2020-12-14 13:17:59
遵循robots.txt
未知
来源
IP地址(7) 服务器名称 所属国家
195.113.133.200 crawler00.webarchiv.cz CZ
195.113.133.201 crawler01.webarchiv.cz CZ
195.113.133.205 crawler05.webarchiv.cz CZ
195.113.133.213 crawler13.webarchiv.cz CZ
195.113.133.218 crawler18.webarchiv.cz CZ
195.113.133.216 crawler16.webarchiv.cz CZ
195.113.133.214 crawler14.webarchiv.cz CZ
195.113.133.207 crawler07.webarchiv.cz CZ
195.113.133.217 crawler17.webarchiv.cz CZ
195.113.133.211 crawler11.webarchiv.cz CZ
195.113.133.195 ? CZ
195.113.133.220 ? CZ
195.113.133.197 ? CZ
195.113.133.198 195.113.133.198 CZ
195.113.133.194 ? CZ
195.113.133.199 ? CZ
用户代理字符串
Mozilla/5.0 (compatible; heritrix/3.4.0-SNAPSHOT-2019-05-22T20:43:22Z +http://webarchiv.cz/kontakty/)
首次出现
2019-07-31 22:07:22
最后出现
2020-12-14 13:17:59
遵循robots.txt
未知
来源
IP地址(7) 服务器名称 所属国家
195.113.133.216 crawler16.webarchiv.cz CZ
195.113.133.213 crawler13.webarchiv.cz CZ
195.113.133.218 crawler18.webarchiv.cz CZ
195.113.133.207 crawler07.webarchiv.cz CZ
195.113.133.214 crawler14.webarchiv.cz CZ
195.113.133.217 crawler17.webarchiv.cz CZ
195.113.133.211 crawler11.webarchiv.cz CZ
用户代理字符串
Mozilla/5.0 (compatible; heritrix/3.2.0 +http://webarchiv.cz/kontakty/)
首次出现
2014-12-18 07:21:11
最后出现
2019-04-24 06:49:06
遵循robots.txt
未知
来源
IP地址(13) 服务器名称 所属国家
195.113.133.200 crawler00.webarchiv.cz CZ
195.113.133.213 crawler13.webarchiv.cz CZ
195.113.133.214 crawler14.webarchiv.cz CZ
195.113.133.216 crawler16.webarchiv.cz CZ
195.113.133.207 crawler07.webarchiv.cz CZ
195.113.133.211 crawler11.webarchiv.cz CZ
195.113.133.201 crawler01.webarchiv.cz CZ
195.113.133.218 ? CZ
195.113.133.217 crawler17.webarchiv.cz CZ
195.113.133.205 crawler05.webarchiv.cz CZ
用户代理字符串
Mozilla/5.0 (compatible; heritrix/3.1.2-SNAPSHOT-20130207.001528 +http://webarchiv.cz/kontakty/)
首次出现
2014-03-16 21:23:52
最后出现
2014-03-16 21:23:52
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
195.113.134.1 cou.cdh.nkp.cz CZ
用户代理字符串
Mozilla/5.0 (compatible; heritrix/1.14.3 +http://www.webarchiv.cz)
首次出现
2009-10-25 00:11:32
最后出现
2012-01-09 09:03:15
遵循robots.txt
未知
来源
IP地址(7) 服务器名称 所属国家
195.113.134.47 crawler03.webarchiv.cz CZ
195.113.134.48 crawler04.webarchiv.cz CZ
195.113.192.151 har.webarchiv.cz CZ
195.113.192.152 raptor.webarchiv.cz CZ
195.113.134.30 195.113.134.30 CZ
195.113.134.44 crawler00.webarchiv.cz CZ
195.113.134.45 crawler01.webarchiv.cz CZ
用户代理字符串
Mozilla/5.0 (compatible; heritrix/1.14.2 +http://www.webarchiv.cz)
首次出现
2010-01-12 09:58:22
最后出现
2010-01-12 09:58:22
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
195.113.192.151 har.webarchiv.cz CZ
用户代理字符串
Mozilla/5.0 (compatible; heritrix/1.12.1 +http://www.webarchiv.cz)
首次出现
2009-05-31 22:15:00
最后出现
2009-04-21 00:23:12
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
195.113.192.151 har.webarchiv.cz CZ

访问控制

了解如何控制webarchiv.cz访问权限,避免webarchiv.cz抓取行为不当。

是否拦截webarchiv.cz?

对于未知蜘蛛或者爬虫。它的用途对网站来说可能是好的,也可能是坏的,这取决于它是什么。所以说,这需要站长进一步分析判断这些尚不明确的爬虫行为,再作最终决定。 但,根据以往的经验,未声明行为目的及未命名的蜘蛛爬虫,通常都有不可告人的秘密,我们理应对其行为进行控制,比如拦截。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 webarchiv.cz 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: webarchiv.cz
	Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

常见蜘蛛/爬虫

Common Spiders
DataForSeo bot
DataForSeo bot蜘蛛/爬虫属于类型,由DataForSEO OU开发运行。您可以继续阅读下方信息,以深入了解DataForSeo bot基本信息,用户代理和访问控制等。
CloudFlare crawler
CloudFlare crawler蜘蛛/爬虫属于类型,由CloudFlare, Inc.开发运行。您可以继续阅读下方信息,以深入了解CloudFlare crawler基本信息,用户代理和访问控制等。
Odin
Odin蜘蛛/爬虫属于类型,由Cyble, Inc.开发运行。您可以继续阅读下方信息,以深入了解Odin基本信息,用户代理和访问控制等。
Chrome Privacy Preserving Prefetch Proxy
Chrome Privacy Preserving Prefetch Proxy蜘蛛/爬虫属于类型,由Google Inc.开发运行。您可以继续阅读下方信息,以深入了解Chrome Privacy Preserving Prefetch Proxy基本信息,用户代理和访问控制等。
EFF crawler
EFF crawler蜘蛛/爬虫属于类型,由Electronic Frontier Foundation开发运行。您可以继续阅读下方信息,以深入了解EFF crawler基本信息,用户代理和访问控制等。
Modat crawler
Modat crawler蜘蛛/爬虫属于类型,由Modat B.V.开发运行。您可以继续阅读下方信息,以深入了解Modat crawler基本信息,用户代理和访问控制等。
FirmoGraph
FirmoGraph蜘蛛/爬虫属于类型,由firmograph.io开发运行。您可以继续阅读下方信息,以深入了解FirmoGraph基本信息,用户代理和访问控制等。
fluid
fluid蜘蛛/爬虫属于类型,由leak.info开发运行。您可以继续阅读下方信息,以深入了解fluid基本信息,用户代理和访问控制等。

相关文章

Related Articles