CriteoBot

基本信息

CriteoBot的基本信息如下表。但部分不是很规范的蜘蛛和爬虫，可能存在信息不明的情况。

蜘蛛/爬虫名称: CriteoBot

类型: 营销

开发商: Criteo S.A.

当前状态: 活动

用户代理

关于CriteoBot蜘蛛或者爬虫的用户代理字符串，IP地址和服务器，所在地等信息如下表格所示：

用户代理字符串: CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/)

首次出现: 2021-03-23 04:44:53

最后出现: 2023-05-18 04:10:49

遵循robots.txt: 未知

来源

IP地址(36)	服务器名称	所属国家
178.250.2.58	178.250.2.58	FR
178.250.0.23	178.250.0.23	FR
178.250.0.19	178.250.0.19	FR
178.250.0.18	178.250.0.18	?
178.250.0.63	178.250.0.63	FR
178.250.0.20	178.250.0.20	FR
178.250.0.21	178.250.0.21	FR
178.250.2.59	178.250.2.59	FR
178.250.0.22	178.250.0.22	FR
178.250.2.57	178.250.2.57	FR
178.250.2.195	178.250.2.195	FR
178.250.0.200	178.250.0.200	FR
178.250.0.205	178.250.0.205	FR
178.250.0.206	178.250.0.206	FR
178.250.0.204	178.250.0.204	FR
178.250.2.193	178.250.2.193	FR
178.250.2.63	178.250.2.63	FR
178.250.2.61	178.250.2.61	FR
178.250.0.208	178.250.0.208	FR
178.250.0.201	178.250.0.201	FR

访问控制

了解如何控制CriteoBot访问权限，避免CriteoBot抓取行为不当。

是否拦截CriteoBot？

一般不需要拦截，尤其是如果你自己也受益于搜索引擎优化服务。不过，如果你担心服务器资源占用等问题，且您都不使用这些工具，当然也可以选择拦截它们。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 CriteoBot 或限制其访问权限。我们建议安装 Spider Analyser 插件，以检查它是否真正遵循这些规则。

# robots.txt

# 下列代码一般情况可以拦截该代理

User-agent: CriteoBot

Disallow: /

# robots.txt # 下列代码一般情况可以拦截该代理 User-agent: CriteoBot Disallow: /

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: CriteoBot
	Disallow: /

您无需手动执行此操作，可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

更多信息

什么是CriteoBot?

Criteo爬虫（CriteoBot）是一个访问网页并分析其内容的软件，以便在网页上提供相关广告。

Criteo 爬虫通过以下用户代理识别：

CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/)

CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/)

为什么Criteo爬虫会访问我的网站？

Criteo是一家全球领先的技术公司，为全世界的营销人员提供可信赖的、有影响力的广告。Criteo通过技术使各种规模的公司更好地了解和服务他们的客户。Criteo正在建立上下文广告服务，以帮助其出版商合作伙伴更好地实现其内容的货币化，并通过将其广告与相关网页更好地结合来支持广告商。

为了支持其情境服务，Criteo将通过抓取网页来分析公共网络内容。Criteo的技术将识别特定网页上的内容类别。
例如：一篇关于运动和跑鞋的文章将被归入 “运动 “类别和 “跑步 “子类别。

Criteo爬虫何时访问我的网站？

只有当您的网站向Criteo发送请求，在您的域名上发布广告时，Criteo爬虫才会尝试访问URL。Criteo爬虫会限制对您网站的访问。只有在编制的类别不再可用或不再是最新的时候，爬虫才会请求访问您的网站。

在我的网站上抓取哪些数据？

爬虫不会提取或存储任何源代码；它只提供页面公开内容的数据，如语言和内容的类别（如体育>跑步）。

Criteo Crawler是一个符合隐私的系统。抓取器不会访问浏览您网站的用户数据。抓取器只访问互联网上公开的数据。

我怎样才能授权CriteoBot？

许多高级出版商明确允许Criteo Crawler访问他们的网站。出版商从Criteo对其库存的分类中获益，以优化目标活动。

要批准 Criteo 爬虫，请在 robots.txt 中添加一个单独的段落，如下所示。

User-agent: CriteoBot/0.1

Disallow:

User-agent: CriteoBot/0.1 Disallow:

User-agent: CriteoBot/0.1
Disallow:

我怎样才能排除CriteoBot？

如果您希望排除Criteo爬虫不访问您网站的特定部分，请在robots.txt中添加一个单独的段落，并指定您想排除的路径，如下所示。

User-agent: CriteoBot/0.1

Disallow: /path/

User-agent: CriteoBot/0.1 Disallow: /path/

User-agent: CriteoBot/0.1
Disallow: /path/

如果您希望排除Criteo爬虫完全不访问您的网站，请在robots.txt中单独添加一段，如下所示。

User-agent: CriteoBot/0.1

Disallow: /

User-agent: CriteoBot/0.1 Disallow: /

User-agent: CriteoBot/0.1
Disallow: /

注意：Criteo爬虫尊重爬行延迟指令（最长30秒，我们接受小数点，如0.1）。

CriteoBot

基本信息

用户代理

访问控制

是否拦截CriteoBot？

通过Robots.txt拦截

更多信息

什么是CriteoBot?

为什么Criteo爬虫会访问我的网站？

Criteo爬虫何时访问我的网站？

在我的网站上抓取哪些数据？

我怎样才能授权CriteoBot？

我怎样才能排除CriteoBot？

更多信息

站长工具

常见蜘蛛/爬虫

相关文章