Splash

Splash蜘蛛/爬虫属于爬虫类型,由Zyte开发运行。您可以继续阅读下方信息,以深入了解Splash基本信息,用户代理和访问控制等。

基本信息

Splash的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
Splash
类型
爬虫
开发商
Zyte
当前状态
活动

用户代理

关于Splash蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
Splash
用户代理字符串
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/602.1 (KHTML, like Gecko) splash Version/10.0 Safari/602
首次出现
2022-04-21 20:14:52
最后出现
2022-04-21 21:21:42
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
45.146.204.152 45.146.204.152 GB
74.85.210.138 74.85.210.138 US
188.240.49.6 188.240.49.6 US
103.251.167.10 this-is-a-TOR-EXIT-NODE.union NL
207.244.252.135 m14435.contaboserver.net US
194.124.247.4 194.124.247.4 GB
45.66.177.139 45.66.177.139 GB
139.28.123.92 139.28.123.92 GB
45.154.193.43 45.154.193.43 GB
217.9.18.84 217.9.18.84 GB
3.86.82.0 ec2-3-86-82-0.compute-1.amazonaws.com US
3.84.24.248 ec2-3-84-24-248.compute-1.amazonaws.com US
172.105.36.254 172-105-36-254.ip.linodeusercontent.com IN
3.120.243.195 ec2-3-120-243-195.eu-central-1.compute.amazonaws.com DE
195.201.86.130 static.130.86.201.195.clients.your-server.de DE
35.205.240.69 69.240.205.35.bc.googleusercontent.com BE
34.76.161.99 99.161.76.34.bc.googleusercontent.com US
34.77.20.92 92.20.77.34.bc.googleusercontent.com US
104.199.11.99 99.11.199.104.bc.googleusercontent.com BE
192.158.28.133 133.28.158.192.bc.googleusercontent.com US
35.187.19.247 247.19.187.35.bc.googleusercontent.com US
34.77.147.121 121.147.77.34.bc.googleusercontent.com US
136.243.74.184 static.184.74.243.136.clients.your-server.de DE
159.69.137.134 static.134.137.69.159.clients.your-server.de DE
62.3.25.48 62.3.25.48 IE
136.243.129.165 static.165.129.243.136.clients.your-server.de DE
78.46.91.252 static.252.91.46.78.clients.your-server.de DE
51.158.125.26 26-125-158-51.instances.scw.cloud FR
163.172.188.13 13-188-172-163.instances.scw.cloud FR
163.172.162.101 101-162-172-163.instances.scw.cloud FR
196.19.199.41 196.19.199.41 US
51.15.226.71 71-226-15-51.instances.scw.cloud FR
51.15.201.79 79-201-15-51.instances.scw.cloud FR
51.158.97.202 202-97-158-51.instances.scw.cloud FR
3.144.9.251 ec2-3-144-9-251.us-east-2.compute.amazonaws.com US
3.19.58.18 ec2-3-19-58-18.us-east-2.compute.amazonaws.com US
85.94.197.203 itvpn.adsender.us IT
67.220.86.160 main-db.shadowmap.com US
202.120.37.109 202.120.37.109 CN
35.90.121.79 ec2-35-90-121-79.us-west-2.compute.amazonaws.com US
146.70.189.181 146.70.189.181 IE
用户代理字符串
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/602.1 (KHTML, like Gecko) splash Version/10.0 Safari/602
首次出现
2022-04-21 20:14:52
最后出现
2022-04-21 21:21:42
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
3.120.243.195 ec2-3-120-243-195.eu-central-1.compute.amazonaws.com DE
用户代理字符串
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/602.1 (KHTML, like Gecko) splash Version/9.0 Safari/602.1
首次出现
2018-07-22 05:48:34
最后出现
2020-09-22 11:48:56
遵循robots.txt
未知
来源
IP地址(63) 服务器名称 所属国家
195.201.86.130 static.130.86.201.195.clients.your-server.de DE
35.205.240.69 69.240.205.35.bc.googleusercontent.com BE
34.76.161.99 99.161.76.34.bc.googleusercontent.com US
34.77.20.92 92.20.77.34.bc.googleusercontent.com US
104.199.11.99 99.11.199.104.bc.googleusercontent.com BE
192.158.28.133 133.28.158.192.bc.googleusercontent.com US
35.187.19.247 247.19.187.35.bc.googleusercontent.com US
34.77.147.121 121.147.77.34.bc.googleusercontent.com US
136.243.74.184 static.184.74.243.136.clients.your-server.de DE
159.69.137.134 static.134.137.69.159.clients.your-server.de DE

访问控制

了解如何控制Splash访问权限,避免Splash抓取行为不当。

是否拦截Splash?

可以考虑拦截。。爬虫通常会下载公开的互联网内容,这些内容默认情况下可以免费访问。不过,如果你不希望你的内容被用于未经授权的目的,你应该拦截它们。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 Splash 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: Splash
	Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

常见蜘蛛/爬虫

Common Spiders

相关文章

Related Articles