webarchiv.cz

webarchiv.cz蜘蛛/爬蟲屬於其他型別,由National Library of the Czech Republic開發執行。您可以繼續閱讀下方資訊,以深入瞭解webarchiv.cz基本資訊,使用者代理和訪問控制等。

基本資訊

webarchiv.cz的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲,可能存在資訊不明的情況。
蜘蛛/爬蟲名稱
webarchiv.cz
型別
其他
開發商
National Library of the Czech Republic
當前狀態
活動

使用者代理

關於webarchiv.cz蜘蛛或者爬蟲的使用者代理字串,IP地址和伺服器,所在地等資訊如下表格所示:
heritrix/3.4.0
使用者代理字串
Mozilla/5.0 (compatible; heritrix/3.4.0-20210923 +http://webarchiv.cz/kontakty/)
首次出現
2021-12-29 12:06:48
最後出現
2022-01-01 17:19:03
遵循robots.txt
未知
來源
IP地址(5) 伺服器名稱 所屬國家
195.113.133.205 crawler05.webarchiv.cz CZ
195.113.133.213 crawler13.webarchiv.cz CZ
195.113.133.218 crawler18.webarchiv.cz CZ
195.113.133.216 crawler16.webarchiv.cz CZ
195.113.133.214 crawler14.webarchiv.cz CZ
使用者代理字串
Mozilla/5.0 (compatible; heritrix/3.4.0-SNAPSHOT-2019-04-18T15:23:13Z +http://webarchiv.cz/kontakty/)
首次出現
2019-06-20 06:13:46
最後出現
2021-03-04 04:58:48
遵循robots.txt
未知
來源
IP地址(2) 伺服器名稱 所屬國家
195.113.133.200 crawler00.webarchiv.cz CZ
195.113.133.201 crawler01.webarchiv.cz CZ
使用者代理字串
Mozilla/5.0 (compatible; heritrix/3.4.0-SNAPSHOT-2019-05-22T20:43:22Z +http://webarchiv.cz/kontakty/)
首次出現
2019-07-31 22:07:22
最後出現
2020-12-14 13:17:59
遵循robots.txt
未知
來源
IP地址(7) 伺服器名稱 所屬國家
195.113.133.200 crawler00.webarchiv.cz CZ
195.113.133.201 crawler01.webarchiv.cz CZ
195.113.133.205 crawler05.webarchiv.cz CZ
195.113.133.213 crawler13.webarchiv.cz CZ
195.113.133.218 crawler18.webarchiv.cz CZ
195.113.133.216 crawler16.webarchiv.cz CZ
195.113.133.214 crawler14.webarchiv.cz CZ
195.113.133.207 crawler07.webarchiv.cz CZ
195.113.133.217 crawler17.webarchiv.cz CZ
195.113.133.211 crawler11.webarchiv.cz CZ
195.113.133.195 ? CZ
195.113.133.220 ? CZ
195.113.133.197 ? CZ
195.113.133.198 195.113.133.198 CZ
195.113.133.194 ? CZ
195.113.133.199 ? CZ
使用者代理字串
Mozilla/5.0 (compatible; heritrix/3.4.0-SNAPSHOT-2019-05-22T20:43:22Z +http://webarchiv.cz/kontakty/)
首次出現
2019-07-31 22:07:22
最後出現
2020-12-14 13:17:59
遵循robots.txt
未知
來源
IP地址(7) 伺服器名稱 所屬國家
195.113.133.216 crawler16.webarchiv.cz CZ
195.113.133.213 crawler13.webarchiv.cz CZ
195.113.133.218 crawler18.webarchiv.cz CZ
195.113.133.207 crawler07.webarchiv.cz CZ
195.113.133.214 crawler14.webarchiv.cz CZ
195.113.133.217 crawler17.webarchiv.cz CZ
195.113.133.211 crawler11.webarchiv.cz CZ
使用者代理字串
Mozilla/5.0 (compatible; heritrix/3.2.0 +http://webarchiv.cz/kontakty/)
首次出現
2014-12-18 07:21:11
最後出現
2019-04-24 06:49:06
遵循robots.txt
未知
來源
IP地址(13) 伺服器名稱 所屬國家
195.113.133.200 crawler00.webarchiv.cz CZ
195.113.133.213 crawler13.webarchiv.cz CZ
195.113.133.214 crawler14.webarchiv.cz CZ
195.113.133.216 crawler16.webarchiv.cz CZ
195.113.133.207 crawler07.webarchiv.cz CZ
195.113.133.211 crawler11.webarchiv.cz CZ
195.113.133.201 crawler01.webarchiv.cz CZ
195.113.133.218 ? CZ
195.113.133.217 crawler17.webarchiv.cz CZ
195.113.133.205 crawler05.webarchiv.cz CZ
使用者代理字串
Mozilla/5.0 (compatible; heritrix/3.1.2-SNAPSHOT-20130207.001528 +http://webarchiv.cz/kontakty/)
首次出現
2014-03-16 21:23:52
最後出現
2014-03-16 21:23:52
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
195.113.134.1 cou.cdh.nkp.cz CZ
使用者代理字串
Mozilla/5.0 (compatible; heritrix/1.14.3 +http://www.webarchiv.cz)
首次出現
2009-10-25 00:11:32
最後出現
2012-01-09 09:03:15
遵循robots.txt
未知
來源
IP地址(7) 伺服器名稱 所屬國家
195.113.134.47 crawler03.webarchiv.cz CZ
195.113.134.48 crawler04.webarchiv.cz CZ
195.113.192.151 har.webarchiv.cz CZ
195.113.192.152 raptor.webarchiv.cz CZ
195.113.134.30 195.113.134.30 CZ
195.113.134.44 crawler00.webarchiv.cz CZ
195.113.134.45 crawler01.webarchiv.cz CZ
使用者代理字串
Mozilla/5.0 (compatible; heritrix/1.14.2 +http://www.webarchiv.cz)
首次出現
2010-01-12 09:58:22
最後出現
2010-01-12 09:58:22
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
195.113.192.151 har.webarchiv.cz CZ
使用者代理字串
Mozilla/5.0 (compatible; heritrix/1.12.1 +http://www.webarchiv.cz)
首次出現
2009-05-31 22:15:00
最後出現
2009-04-21 00:23:12
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
195.113.192.151 har.webarchiv.cz CZ

訪問控制

瞭解如何控制webarchiv.cz訪問許可權,避免webarchiv.cz抓取行為不當。

是否攔截webarchiv.cz?

對於未知蜘蛛或者爬蟲。它的用途對網站來說可能是好的,也可能是壞的,這取決於它是什麼。所以說,這需要站長進一步分析判斷這些尚不明確的爬蟲行為,再作最終決定。 但,根據以往的經驗,未宣告行為目的及未命名的蜘蛛爬蟲,通常都有不可告人的祕密,我們理應對其行為進行控制,比如攔截。

通過Robots.txt攔截

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 webarchiv.cz 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: webarchiv.cz
Disallow: /
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: webarchiv.cz Disallow: /
	# robots.txt
	# 下列程式碼一般情況可以攔截該代理
	
	User-agent: webarchiv.cz
	Disallow: /

您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

常見蜘蛛/爬蟲

Common Spiders
companyspotter
companyspotter蜘蛛/爬蟲屬於其他型別,由CompanySpotter BV開發執行。您可以繼續閱讀下方資訊,以深入瞭解companyspotter基本資訊,使用者代理和訪問控制等。
DataForSeo bot
DataForSeo bot蜘蛛/爬蟲屬於其他型別,由DataForSEO OU開發執行。您可以繼續閱讀下方資訊,以深入瞭解DataForSeo bot基本資訊,使用者代理和訪問控制等。
CloudFlare crawler
CloudFlare crawler蜘蛛/爬蟲屬於其他型別,由CloudFlare, Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解CloudFlare crawler基本資訊,使用者代理和訪問控制等。
Odin
Odin蜘蛛/爬蟲屬於其他型別,由Cyble, Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Odin基本資訊,使用者代理和訪問控制等。
Chrome Privacy Preserving Prefetch Proxy
Chrome Privacy Preserving Prefetch Proxy蜘蛛/爬蟲屬於其他型別,由Google Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Chrome Privacy Preserving Prefetch Proxy基本資訊,使用者代理和訪問控制等。
EFF crawler
EFF crawler蜘蛛/爬蟲屬於其他型別,由Electronic Frontier Foundation開發執行。您可以繼續閱讀下方資訊,以深入瞭解EFF crawler基本資訊,使用者代理和訪問控制等。
Modat crawler
Modat crawler蜘蛛/爬蟲屬於其他型別,由Modat B.V.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Modat crawler基本資訊,使用者代理和訪問控制等。
FirmoGraph
FirmoGraph蜘蛛/爬蟲屬於其他型別,由firmograph.io開發執行。您可以繼續閱讀下方資訊,以深入瞭解FirmoGraph基本資訊,使用者代理和訪問控制等。

相關文章

Related Articles