NLNZ_IAHarvester

基本信息

NLNZ_IAHarvester的基本信息如下表。但部分不是很规范的蜘蛛和爬虫，可能存在信息不明的情况。

蜘蛛/爬虫名称: NLNZ_IAHarvester

类型: 其他

开发商: National Library of New Zealand

当前状态: 活动

用户代理

关于NLNZ_IAHarvester蜘蛛或者爬虫的用户代理字符串，IP地址和服务器，所在地等信息如下表格所示：

用户代理字符串: Mozilla/5.0 (compatible; NLNZ_IAHarvester2024/3.3.0; +https://natlib.govt.nz/publishers-and-authors/web-harvesting/domain-harvest)

首次出现: 2024-05-14 11:16:02

最后出现: 2024-05-28 09:17:42

遵循robots.txt: 未知

来源

IP地址(2)	服务器名称	所属国家
207.241.235.85	wbgrp-crawl047.us.archive.org	US
207.241.234.202	wbgrp-crawl044.us.archive.org	US

用户代理字符串: Mozilla/5.0 (compatible; NLNZ_IAHarvester2017/3.3.0 +https://natlib.govt.nz/publishers-and-authors/web-harvesting/domain-harvest)

首次出现: 2017-04-07 15:10:42

最后出现: 2017-04-11 10:56:22

遵循robots.txt: 未知

来源

IP地址(1)	服务器名称	所属国家
207.241.231.103	wbgrp-svc211.us.archive.org	US

用户代理字符串: Mozilla/5.0 (compatible; NLNZ_IAHarvester2016/3.3.0 +https://natlib.govt.nz/publishers-and-authors/web-harvesting/domain-harvest)

首次出现: 2016-01-20 07:10:00

最后出现: 2017-03-30 03:46:06

遵循robots.txt: 未知

来源

IP地址(4)	服务器名称	所属国家
207.241.231.59	wbgrp-crawl204.us.archive.org	US
207.241.226.40	wbgrp-crawl006.us.archive.org	US
207.241.226.41	wbgrp-crawl005.us.archive.org	US
207.241.226.39	wbgrp-crawl007.us.archive.org	US

用户代理字符串: Mozilla/5.0 (compatible; NLNZ_IAHarvester2014 +http://natlib.govt.nz/about-us/current-initiatives/web-harvest-2014)

首次出现: 2014-12-06 08:10:00

最后出现: 2014-12-05 18:15:14

遵循robots.txt: 未知

来源

IP地址(1)	服务器名称	所属国家
207.241.226.40	wbgrp-crawl006.us.archive.org	US
207.241.226.42	wbgrp-crawl004.us.archive.org	US
207.241.226.41	wbgrp-crawl005.us.archive.org	US

用户代理字符串: Mozilla/5.0 (compatible; NLNZ_IAHarvester2014 +http://natlib.govt.nz/about-us/current-initiatives/web-harvest-2014)

首次出现: 2014-12-06 08:10:00

最后出现: 2014-12-05 18:15:14

遵循robots.txt: 未知

来源

IP地址(1)	服务器名称	所属国家
207.241.226.42	wbgrp-crawl004.us.archive.org	US

用户代理字符串: Mozilla/5.0 (compatible; NLNZ_IAHarvester2013 +http://natlib.govt.nz/about-us/current-initiatives/web-harvest-2012)

首次出现: 2013-01-19 04:48:06

最后出现: 2013-02-08 08:15:56

遵循robots.txt: 未知

来源

IP地址(4)	服务器名称	所属国家
207.241.226.39	wbgrp-crawl007.us.archive.org	US
207.241.226.42	wbgrp-crawl004.us.archive.org	US
207.241.226.44	wbgrp-crawl002.us.archive.org	US
207.241.226.40	wbgrp-crawl006.us.archive.org	US

用户代理字符串: Mozilla/5.0 (compatible; NLNZ_IAHarvester2013 +http://natlib.govt.nz/about-us/current-initiatives/web-harvest-2012)

首次出现: 2013-01-19 04:48:06

最后出现: 2013-02-08 08:15:56

遵循robots.txt: 未知

来源

IP地址(4)	服务器名称	所属国家
207.241.226.39	wbgrp-crawl007.us.archive.org	US
207.241.226.44	wbgrp-crawl002.us.archive.org	US
207.241.226.42	wbgrp-crawl004.us.archive.org	US
207.241.226.40	wbgrp-crawl006.us.archive.org	US

用户代理字符串: Mozilla/5.0 (compatible; archive.org_bot/3.1.2 +http://natlib.govt.nz/about-us/current-initiatives/web-harvest-2012)

首次出现: 2013-01-11 18:03:00

最后出现: 2013-01-11 18:03:01

遵循robots.txt: 未知

来源

IP地址(1)	服务器名称	所属国家
207.241.226.65	wbgrp-crawl001.us.archive.org	US

访问控制

了解如何控制NLNZ_IAHarvester访问权限，避免NLNZ_IAHarvester抓取行为不当。

是否拦截NLNZ_IAHarvester？

对于未知蜘蛛或者爬虫。它的用途对网站来说可能是好的，也可能是坏的，这取决于它是什么。所以说，这需要站长进一步分析判断这些尚不明确的爬虫行为，再作最终决定。但，根据以往的经验，未声明行为目的及未命名的蜘蛛爬虫，通常都有不可告人的秘密，我们理应对其行为进行控制，比如拦截。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 NLNZ_IAHarvester 或限制其访问权限。我们建议安装 Spider Analyser 插件，以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: NLNZ_IAHarvester
	Disallow: /

您无需手动执行此操作，可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

如何使用WordPress数据包管理应用程序状态

管理任何 WordPress 应用程序的状态（如何处理和组织数据）都是一项挑战。随着项目的发展，跟踪数据流并确保各组件更新的一致性变得越来越困难。WordPress 数据包可以在这方面提供帮助，因为它为状态管理提供了一个强大的解决方案。本文将介绍 WordPress 数据包，探讨其关键概念、实施策略和最佳实践。

NLNZ_IAHarvester

基本信息

用户代理

访问控制

是否拦截NLNZ_IAHarvester？

通过Robots.txt拦截

站长工具

常见蜘蛛/爬虫

相关文章