Spider

Spider蜘蛛/爬虫属于爬虫类型,由Unknown Author开发运行。您可以继续阅读下方信息,以深入了解Spider基本信息,用户代理和访问控制等。

基本信息

Spider的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
Spider
类型
爬虫
开发商
Unknown Author
当前状态
活动

用户代理

关于Spider蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
Spider_Bot/3.0
用户代理字符串
Spider_Bot/3.0
首次出现
2021-09-09 07:24:12
最后出现
2023-08-18 19:05:12
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
2600:3c00::f03c:92ff:fe2d:bbf6 2600:3c00::f03c:92ff:fe2d:bbf6 US
用户代理字符串
Spider
首次出现
2021-10-25 12:20:07
最后出现
2021-10-25 12:20:07
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
207.154.223.24 kraftwerk.reclaimhosting.com DE
91.239.200.82 gelf16.thinline.cz CZ
184.168.101.66 ip-184-168-101-66.ip.secureserver.net US
52.204.198.138 ec2-52-204-198-138.compute-1.amazonaws.com US
207.148.122.245 207.148.122.245.vultr.com SG
45.33.61.188 li1080-188.members.linode.com US
45.79.86.151 li1185-151.members.linode.com US
8.9.8.142 8.9.8.142.vultr.com US
45.77.207.43 45.77.207.43.vultr.com US
50.62.161.45 p3plcpnl0278.prod.phx3.secureserver.net US
141.98.83.139 141.98.83.139 PA
198.199.125.129 mail.cookie-script.com NL
用户代理字符串
Spider2.0
首次出现
2021-09-07 18:43:55
最后出现
2021-09-07 18:43:55
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
91.123.157.56 91.123.157.56 UA
用户代理字符串
XYZ Spider
首次出现
2020-09-22 05:38:38
最后出现
2020-09-22 05:38:38
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
62.152.55.125 main3.iadmin.ru RU
用户代理字符串
spiderbot
首次出现
2015-12-03 12:16:32
最后出现
2016-05-14 22:12:25
遵循robots.txt
未知
来源
IP地址(6) 服务器名称 所属国家
54.183.221.205 ec2-54-183-221-205.us-west-1.compute.amazonaws.com US
54.67.36.215 ec2-54-67-36-215.us-west-1.compute.amazonaws.com US
54.215.213.65 ec2-54-215-213-65.us-west-1.compute.amazonaws.com US
54.219.133.79 ec2-54-219-133-79.us-west-1.compute.amazonaws.com US
54.183.162.123 ec2-54-183-162-123.us-west-1.compute.amazonaws.com US
54.183.201.243 ec2-54-183-201-243.us-west-1.compute.amazonaws.com US
用户代理字符串
Spider/Bot
首次出现
2015-12-04 11:16:22
最后出现
2015-12-04 11:16:22
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
91.221.66.52 host-91-221-66-52.creanova.org FI

访问控制

了解如何控制Spider访问权限,避免Spider抓取行为不当。

是否拦截Spider?

可以考虑拦截。。爬虫通常会下载公开的互联网内容,这些内容默认情况下可以免费访问。不过,如果你不希望你的内容被用于未经授权的目的,你应该拦截它们。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 Spider 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: Spider
	Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

常见蜘蛛/爬虫

Common Spiders

相关文章

Related Articles