PagePeeker

PagePeeker蜘蛛/爬虫属于快照类型,由PAGEPEEKER SRL开发运行。您可以继续阅读下方信息,以深入了解PagePeeker基本信息,用户代理和访问控制等。

基本信息

PagePeeker的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
PagePeeker
类型
快照
开发商
PAGEPEEKER SRL
当前状态
活动

用户代理

关于PagePeeker蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
PagePeeker/3.0
用户代理字符串
Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36 (compatible; PagePeeker/3.0; +https://pagepeeker.com/robots/)
首次出现
2019-03-29 11:51:34
最后出现
2023-12-18 13:51:56
遵循robots.txt
来源
IP地址(5) 服务器名称 所属国家
88.99.245.93 ? DE
94.130.238.229 ? DE
88.99.3.154 ? DE
94.130.162.177 static.177.162.130.94.clients.your-server.de DE
136.243.102.17 static.17.102.243.136.clients.your-server.de DE
用户代理字符串
Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36 (compatible; PagePeeker/3.0; +https://pagepeeker.com/robots/)
首次出现
2019-10-24 03:06:06
最后出现
2021-02-15 19:29:18
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
88.99.3.154 static.154.3.99.88.clients.your-server.de DE
用户代理字符串
Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36 (compatible; PPBot/2.1; +https://pagepeeker.com/robots/)
首次出现
2019-01-23 09:21:55
最后出现
2019-03-13 04:21:16
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
136.243.102.17 static.17.102.243.136.clients.your-server.de DE
用户代理字符串
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21 PagePeeker/2.1; +http://pagepeeker.com/robots/
首次出现
2012-10-09 22:17:42
最后出现
2012-11-17 11:18:58
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
46.4.120.2 templatix.org DE
85.10.246.235 r26.pagepeeker.com DE
用户代理字符串
PagePeeker.com
首次出现
2011-11-15 20:40:47
最后出现
2012-01-31 15:42:20
遵循robots.txt
未知
来源
IP地址(4) 服务器名称 所属国家
188.40.82.149 r22.pagepeeker.com DE
188.40.84.81 pagepeeker.com DE
46.4.120.2 templatix.org DE
176.9.146.12 r25.pagepeeker.com DE
85.10.246.235 r26.pagepeeker.com DE
5.9.49.41 r28.pagepeeker.com DE
176.9.24.168 r20.pagepeeker.com DE
46.4.32.18 pagepeeker.com DE
用户代理字符串
PagePeeker.com
首次出现
2011-11-15 20:40:47
最后出现
2012-01-31 15:42:20
遵循robots.txt
未知
来源
IP地址(4) 服务器名称 所属国家
176.9.24.168 r20.pagepeeker.com DE
188.40.82.149 r22.pagepeeker.com DE
46.4.120.2 templatix.org DE
46.4.32.18 pagepeeker.com DE

访问控制

了解如何控制PagePeeker访问权限,避免PagePeeker抓取行为不当。

是否拦截PagePeeker?

这取决于你。数字存档通常是为了保存历史记录。如果你出于某种原因不想成为历史记录的一部分,你可以拦截这类型的蜘蛛爬虫。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 PagePeeker 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: PagePeeker
	Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

更多信息

PagePeeker使用户能够从网页上生成屏幕截图和缩略图。

PagePeeker的技术专注于三个点,并试图在每个点上实现完美:

速度

当包含缩略图的页面加载时,它可以同时访问PagePeeker的服务器,请求缩略图 20 个。将其乘以数千名客户,其中一些客户拥有高流量的网站,您会发现速度对于良好的缩略图服务至关重要。这就是PagePeeker的技术大放异彩的地方。它可以同时处理来自商用硬件的数千个请求。这使PagePeeker能够实现小于 5 秒的渲染时间和每个请求的显示时间小于 100 毫秒。

可靠性

有这么多网站依靠PagePeeker的服务看起来不错,想象一下如果它崩溃会发生什么。PagePeeker的客户的网站看起来很糟糕,他们的客户保留率会受到影响,一般来说,这对业务不利。这就是为什么PagePeeker要确保这种情况永远不会发生。我们使用多台服务器、冗余互联网连接和可靠的扩展策略来实现高度可靠的服务。即使PagePeeker的软件在商用硬件上运行,PagePeeker也尽可能使用顶级服务器,因此您可以确保PagePeeker的服务是可靠的。

准确性

您可能想知道为什么准确性会成为缩略图服务的问题。毕竟,页面是缩小的,有时太大了,以至于很难识别它们。对于PagePeeker的一些高级客户来说,这很重要。PagePeeker已经看到PagePeeker的服务以我们从未设想过的方式使用。例如,有些使用完全没有缩小的屏幕截图,因此捕获的页面必须与原始页面相同。PagePeeker的机器人在这方面非常出色,您自己完成的屏幕截图和它完成的屏幕截图绝对没有区别。

常见蜘蛛/爬虫

Common Spiders
Googlebot
GoogleBot蜘蛛/爬虫属于搜索引擎类型,由Google Inc.开发运行。您可以继续阅读下方信息,以深入了解GoogleBot基本信息,用户代理和访问控制等。
SeznamBot
SeznamBot蜘蛛/爬虫属于搜索引擎类型,由Seznam.cz, a.s.开发运行。您可以继续阅读下方信息,以深入了解SeznamBot基本信息,用户代理和访问控制等。
WordPress.com bots
WordPress.com bots蜘蛛/爬虫属于信息流类型,由Automattic Inc.开发运行。您可以继续阅读下方信息,以深入了解WordPress.com bots基本信息,用户代理和访问控制等。
Hatena
Hatena蜘蛛/爬虫属于获取器类型,由Hatena Co., Ltd.开发运行。您可以继续阅读下方信息,以深入了解Hatena基本信息,用户代理和访问控制等。
hyperhost.ua crawler
hyperhost.ua crawler蜘蛛/爬虫属于快照类型,由HyperHost Ukraine开发运行。您可以继续阅读下方信息,以深入了解hyperhost.ua crawler基本信息,用户代理和访问控制等。
bingbot
Bingbot蜘蛛/爬虫属于搜索引擎类型,由Microsoft Corporation.开发运行。您可以继续阅读下方信息,以深入了解Bingbot基本信息,用户代理和访问控制等。
PhantomJsCloud.com
PhantomJsCloud.com蜘蛛/爬虫属于快照类型,由Novaleaf Software Co. Ltd.开发运行。您可以继续阅读下方信息,以深入了解PhantomJsCloud.com基本信息,用户代理和访问控制等。
Daumoa
Daumoa蜘蛛/爬虫属于搜索引擎类型,由Kakao Corp.开发运行。您可以继续阅读下方信息,以深入了解Daumoa基本信息,用户代理和访问控制等。

相关文章

Related Articles