Feedspotbot

Feedspotbot蜘蛛/爬虫属于信息流类型,由Feedspot开发运行。您可以继续阅读下方信息,以深入了解Feedspotbot基本信息,用户代理和访问控制等。

基本信息

Feedspotbot的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
Feedspotbot
类型
信息流
开发商
Feedspot
当前状态
活动

用户代理

关于Feedspotbot蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
Feedspot/1.0
用户代理字符串
Mozilla/5.0 (compatible; Feedspot/1.0 (+https://www.feedspot.com/fs/fetcher; like FeedFetcher-Google)
首次出现
2018-10-08 08:40:34
最后出现
2025-01-10 07:19:03
遵循robots.txt
来源
IP地址(19) 服务器名称 所属国家
52.26.159.11 ec2-52-26-159-11.us-west-2.compute.amazonaws.com US
54.189.114.202 ec2-54-189-114-202.us-west-2.compute.amazonaws.com US
35.164.178.38 ec2-35-164-178-38.us-west-2.compute.amazonaws.com US
44.239.58.113 ec2-44-239-58-113.us-west-2.compute.amazonaws.com US
52.89.120.202 ec2-52-89-120-202.us-west-2.compute.amazonaws.com US
52.35.141.177 ec2-52-35-141-177.us-west-2.compute.amazonaws.com US
143.198.72.22 ? US
52.34.161.249 ec2-52-34-161-249.us-west-2.compute.amazonaws.com US
44.241.148.94 ec2-44-241-148-94.us-west-2.compute.amazonaws.com US
44.233.151.127 ec2-44-233-151-127.us-west-2.compute.amazonaws.com US
44.241.181.80 ec2-44-241-181-80.us-west-2.compute.amazonaws.com US
100.20.80.33 ec2-100-20-80-33.us-west-2.compute.amazonaws.com US
35.84.123.54 ec2-35-84-123-54.us-west-2.compute.amazonaws.com US
50.112.183.254 ec2-50-112-183-254.us-west-2.compute.amazonaws.com US
67.60.3.229 67-60-3-229.cpe.sparklight.net US
52.41.34.172 ec2-52-41-34-172.us-west-2.compute.amazonaws.com US
100.21.245.151 ec2-100-21-245-151.us-west-2.compute.amazonaws.com US
52.43.148.198 ec2-52-43-148-198.us-west-2.compute.amazonaws.com US
35.160.211.129 ec2-35-160-211-129.us-west-2.compute.amazonaws.com US
用户代理字符串
Mozilla/5.0 (compatible; Feedspot/1.0 (+https://www.feedspot.com/fs/fetcher; like FeedFetcher-Google)
首次出现
2018-10-08 08:40:34
最后出现
2022-09-03 15:43:09
遵循robots.txt
未知
来源
IP地址(11) 服务器名称 所属国家
44.233.151.127 ec2-44-233-151-127.us-west-2.compute.amazonaws.com US
52.35.141.177 ec2-52-35-141-177.us-west-2.compute.amazonaws.com US
54.189.114.202 ec2-54-189-114-202.us-west-2.compute.amazonaws.com US
52.89.120.202 ec2-52-89-120-202.us-west-2.compute.amazonaws.com US
35.84.123.54 ec2-35-84-123-54.us-west-2.compute.amazonaws.com US
35.160.211.129 ec2-35-160-211-129.us-west-2.compute.amazonaws.com US
100.20.80.33 ec2-100-20-80-33.us-west-2.compute.amazonaws.com US
44.241.148.94 ec2-44-241-148-94.us-west-2.compute.amazonaws.com US
50.112.183.254 ec2-50-112-183-254.us-west-2.compute.amazonaws.com US
44.239.58.113 ec2-44-239-58-113.us-west-2.compute.amazonaws.com US
用户代理字符串
Feedspot http://www.feedspot.com
首次出现
2015-08-27 09:59:08
最后出现
2018-10-06 05:22:21
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
54.186.248.49 ec2-54-186-248-49.us-west-2.compute.amazonaws.com US
54.245.252.119 ec2-54-245-252-119.us-west-2.compute.amazonaws.com US
用户代理字符串
Mozilla/5.0 (compatible; Feedspotbot/1.0; +http://www.feedspot.com/fs/bot)
首次出现
2015-09-14 07:45:00
最后出现
2018-10-05 11:14:45
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
54.186.248.49 ec2-54-186-248-49.us-west-2.compute.amazonaws.com US

访问控制

了解如何控制Feedspotbot访问权限,避免Feedspotbot抓取行为不当。

是否拦截Feedspotbot?

通常不需要。除非您不希望信息流网站或者APP对您的网站内容进行抓取,网站也不提供Feed订阅服务,则可以考虑拦截此类型爬虫。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 Feedspotbot 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: Feedspotbot
	Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

更多信息

Feedspot Fetcher是Feedspot在用户向其Feedspot帐户添加Feed时获取RSS/Atom Feed的方式。Fetcher根据feed的更新频率,定期抓取feed。在大多数情况下,每小时最多抓取2次feed网址。以下是网站管理员最常问到的关于这个用户控制的feed爬取器如何工作的一些问题。

常问问题

爬虫多长时间取一次feed?

平均而言,爬虫每小时抓取feed的次数不应超过一次。如果提要经常更新且被许多用户关注,则每小时最多可抓取2次。在某些情况下,如果feed更新不那么频繁,它们会在3至6小时内被抓取一次。

为什么Crawler不遵循robots.txt文件?

Crawler只有在用户明确将其添加到他们的Feedspot账户后才会检索feeds。由于爬虫的请求来自于将feed添加到Feedspot帐户的人类用户的明确行动,而不是来自自动爬虫,因此爬虫不遵循robots.txt准则。抓取器有助于减少您的带宽消耗。例如,即使一个feed被几个用户关注,它也只被抓取一次,从而减少您服务器上的负载。

我如何要求Feedspot不抓取我的所有Feeds或部分Feeds?

您可以通过您的官方邮箱将您的要求或问题发到 team@feedspot.com,标题为Feedspot Fetcher,Feedspot将尝试在24-48小时内作出回应。

为什么Crawler从我们的 “私人 “网络服务器下载信息?

Crawler是应已将其添加到Feedspot账户的用户的要求检索信息的。该请求有可能来自知道您的 “私人 “服务器的用户,或错误地输入了该服务器。

为什么Crawler试图从我的服务器下载不正确的链接,或从一个不存在的服务器下载?

Crawler是应已将其添加到Feedspot帐户的用户的要求而检索提要的。有可能是用户请求的Feed URL位置不存在,也可能是打字错误。

Feedspot是从单个IP还是从多个IP抓取的?

爬虫是分布式系统,在多台机器上运行。爬虫可能使用几个IP来抓取。识别它的最好方法是使用用户代理字符串:Feedspot/1.0。

你们支持Pubsub/push技术吗?

是的。Feedspot 支持 Pubsub/push 中心。如果您的Feeds宣传推送中心,Feedspot将订阅更新并减少抓取Feed的次数。

如果上述常见问题未能解决您的问题,你可以把你的问题发到 team@feedspot.com,标题为 Feedspot Fetcher,Feedspot会尽量在 24-48 小时内答复。

常见蜘蛛/爬虫

Common Spiders
Twitterbot
Twitterbot蜘蛛/爬虫属于获取器类型,由X Corp.开发运行。您可以继续阅读下方信息,以深入了解Twitterbot基本信息,用户代理和访问控制等。
SeznamBot
SeznamBot蜘蛛/爬虫属于搜索引擎类型,由Seznam.cz, a.s.开发运行。您可以继续阅读下方信息,以深入了解SeznamBot基本信息,用户代理和访问控制等。
Blogtrottr
Blogtrottr蜘蛛/爬虫属于信息流类型,由Blogtrottr Ltd.开发运行。您可以继续阅读下方信息,以深入了解Blogtrottr基本信息,用户代理和访问控制等。
RSSingBot
RSSingBot蜘蛛/爬虫属于信息流类型,由RSSING.COM开发运行。您可以继续阅读下方信息,以深入了解RSSingBot基本信息,用户代理和访问控制等。
WordPress.com bots
WordPress.com bots蜘蛛/爬虫属于信息流类型,由Automattic Inc.开发运行。您可以继续阅读下方信息,以深入了解WordPress.com bots基本信息,用户代理和访问控制等。
Feedspotbot
Feedspotbot蜘蛛/爬虫属于信息流类型,由Feedspot开发运行。您可以继续阅读下方信息,以深入了解Feedspotbot基本信息,用户代理和访问控制等。
Discordbot
Discordbot蜘蛛/爬虫属于获取器类型,由Discord Inc.开发运行。您可以继续阅读下方信息,以深入了解Discordbot基本信息,用户代理和访问控制等。
Awario crawler
Awario crawler蜘蛛/爬虫属于营销类型,由Link-Assistant.Com开发运行。您可以继续阅读下方信息,以深入了解Awario crawler基本信息,用户代理和访问控制等。

相关文章

Related Articles