newspaper

newspaper蜘蛛/爬虫属于爬虫类型,由Unknown Author开发运行。您可以继续阅读下方信息,以深入了解newspaper基本信息,用户代理和访问控制等。

基本信息

newspaper的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
newspaper
类型
爬虫
开发商
Unknown Author
当前状态
活动

用户代理

关于newspaper蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
newspaper/0.2.8
用户代理字符串
newspaper/0.2.8
首次出现
2021-05-19 12:20:39
最后出现
2024-05-27 06:02:29
遵循robots.txt
来源
IP地址(3228) 服务器名称 所属国家
117.193.201.151 117.193.201.151 IN
120.138.12.154 ws154-12.138.120.rcil.gov.in IN
202.58.245.233 portal.vpn.sbv.gov.vn VN
3.138.116.42 ec2-3-138-116-42.us-east-2.compute.amazonaws.com US
3.137.37.131 ec2-3-137-37-131.us-east-2.compute.amazonaws.com US
20.90.109.203 20.90.109.203 GB
34.91.225.181 181.225.91.34.bc.googleusercontent.com NL
34.90.126.33 ? NL
34.147.40.21 ? NL
34.147.127.59 ? NL
54.88.225.242 ec2-54-88-225-242.compute-1.amazonaws.com US
103.28.246.155 103.28.246.155 IN
184.73.75.23 ec2-184-73-75-23.compute-1.amazonaws.com US
78.135.112.175 78.135.112.175 TR
78.135.112.166 78.135.112.166 TR
218.190.230.72 218.190.230.72 HK
75.101.208.201 ec2-75-101-208-201.compute-1.amazonaws.com US
2604:5040:11:582::95e2 2604:5040:11:582::95e2 US
44.200.177.228 ec2-44-200-177-228.compute-1.amazonaws.com US
34.233.123.243 ec2-34-233-123-243.compute-1.amazonaws.com US
169.59.167.225 e1.a7.3ba9.ip4.static.sl-reverse.com US
用户代理字符串
newspaper/0.3.0
首次出现
2021-12-28 01:18:20
最后出现
2023-08-29 09:00:29
遵循robots.txt
来源
IP地址(73) 服务器名称 所属国家
35.204.103.93 93.103.204.35.bc.googleusercontent.com NL
34.141.192.60 ? NL
34.141.255.134 134.255.141.34.bc.googleusercontent.com NL
34.147.76.100 100.76.147.34.bc.googleusercontent.com NL
34.90.35.127 ? NL
34.90.194.252 ? NL
34.90.180.130 ? NL
34.141.144.103 ? NL
34.91.242.250 ? NL
34.147.97.54 54.97.147.34.bc.googleusercontent.com NL
34.237.145.43 ec2-34-237-145-43.compute-1.amazonaws.com US
3.234.224.12 ec2-3-234-224-12.compute-1.amazonaws.com US
用户代理字符串
newspaper/0.0.8
首次出现
2016-07-25 15:53:57
最后出现
2016-07-25 15:53:57
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
54.204.192.10 ec2-54-204-192-10.compute-1.amazonaws.com US

访问控制

了解如何控制newspaper访问权限,避免newspaper抓取行为不当。

是否拦截newspaper?

可以考虑拦截。。爬虫通常会下载公开的互联网内容,这些内容默认情况下可以免费访问。不过,如果你不希望你的内容被用于未经授权的目的,你应该拦截它们。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 newspaper 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: newspaper
	Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

常见蜘蛛/爬虫

Common Spiders

相关文章

Related Articles