CriteoBot

CriteoBot蜘蛛/爬虫属于营销类型,由Criteo S.A.开发运行。您可以继续阅读下方信息,以深入了解CriteoBot基本信息,用户代理和访问控制等。

基本信息

CriteoBot的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
CriteoBot
类型
营销
开发商
Criteo S.A.
当前状态
活动

用户代理

关于CriteoBot蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
CriteoBot/0.1
用户代理字符串
CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/)
首次出现
2021-03-23 04:44:53
最后出现
2023-05-18 04:10:49
遵循robots.txt
未知
来源
IP地址(36) 服务器名称 所属国家
178.250.2.58 178.250.2.58 FR
178.250.0.23 178.250.0.23 FR
178.250.0.19 178.250.0.19 FR
178.250.0.18 178.250.0.18 ?
178.250.0.63 178.250.0.63 FR
178.250.0.20 178.250.0.20 FR
178.250.0.21 178.250.0.21 FR
178.250.2.59 178.250.2.59 FR
178.250.0.22 178.250.0.22 FR
178.250.2.57 178.250.2.57 FR
178.250.2.195 178.250.2.195 FR
178.250.0.200 178.250.0.200 FR
178.250.0.205 178.250.0.205 FR
178.250.0.206 178.250.0.206 FR
178.250.0.204 178.250.0.204 FR
178.250.2.193 178.250.2.193 FR
178.250.2.63 178.250.2.63 FR
178.250.2.61 178.250.2.61 FR
178.250.0.208 178.250.0.208 FR
178.250.0.201 178.250.0.201 FR

访问控制

了解如何控制CriteoBot访问权限,避免CriteoBot抓取行为不当。

是否拦截CriteoBot?

一般不需要拦截,尤其是如果你自己也受益于搜索引擎优化服务。不过,如果你担心服务器资源占用等问题,且您都不使用这些工具,当然也可以选择拦截它们。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 CriteoBot 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: CriteoBot
	Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

更多信息

什么是CriteoBot?

Criteo爬虫(CriteoBot)是一个访问网页并分析其内容的软件,以便在网页上提供相关广告。

Criteo 爬虫通过以下用户代理识别:

CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/)

为什么Criteo爬虫会访问我的网站?

Criteo是一家全球领先的技术公司,为全世界的营销人员提供可信赖的、有影响力的广告。Criteo通过技术使各种规模的公司更好地了解和服务他们的客户。Criteo正在建立上下文广告服务,以帮助其出版商合作伙伴更好地实现其内容的货币化,并通过将其广告与相关网页更好地结合来支持广告商。

为了支持其情境服务,Criteo将通过抓取网页来分析公共网络内容。Criteo的技术将识别特定网页上的内容类别。
例如:一篇关于运动和跑鞋的文章将被归入 “运动 “类别和 “跑步 “子类别。

Criteo爬虫何时访问我的网站?

只有当您的网站向Criteo发送请求,在您的域名上发布广告时,Criteo爬虫才会尝试访问URL。Criteo爬虫会限制对您网站的访问。只有在编制的类别不再可用或不再是最新的时候,爬虫才会请求访问您的网站。

在我的网站上抓取哪些数据?

爬虫不会提取或存储任何源代码;它只提供页面公开内容的数据,如语言和内容的类别(如体育>跑步)。

Criteo Crawler是一个符合隐私的系统。抓取器不会访问浏览您网站的用户数据。抓取器只访问互联网上公开的数据。

我怎样才能授权CriteoBot?

许多高级出版商明确允许Criteo Crawler访问他们的网站。出版商从Criteo对其库存的分类中获益,以优化目标活动。

要批准 Criteo 爬虫,请在 robots.txt 中添加一个单独的段落,如下所示。

User-agent: CriteoBot/0.1
Disallow:

我怎样才能排除CriteoBot?

如果您希望排除Criteo爬虫不访问您网站的特定部分,请在robots.txt中添加一个单独的段落,并指定您想排除的路径,如下所示。

User-agent: CriteoBot/0.1
Disallow: /path/

如果您希望排除Criteo爬虫完全不访问您的网站,请在robots.txt中单独添加一段,如下所示。

User-agent: CriteoBot/0.1
Disallow: /

注意:Criteo爬虫尊重爬行延迟指令(最长30秒,我们接受小数点,如0.1)。

更多信息

如果您需要了解更多关于爬虫的信息,如果您是Criteo的直接合作伙伴,请联系您的Criteo代表,或向Criteo发送电子邮件:crawler@criteo.com

常见蜘蛛/爬虫

Common Spiders
Googlebot
GoogleBot蜘蛛/爬虫属于搜索引擎类型,由Google Inc.开发运行。您可以继续阅读下方信息,以深入了解GoogleBot基本信息,用户代理和访问控制等。
Online Domain Tools
Online Domain Tools蜘蛛/爬虫属于监控类型,由AITIS s.r.o.开发运行。您可以继续阅读下方信息,以深入了解Online Domain Tools基本信息,用户代理和访问控制等。
AhrefsBot
AhrefsBot蜘蛛/爬虫属于营销类型,由Ahrefs Pte Ltd开发运行。您可以继续阅读下方信息,以深入了解AhrefsBot基本信息,用户代理和访问控制等。
SEMrushBot
SEMrushBot蜘蛛/爬虫属于营销类型,由Semrush Inc开发运行。您可以继续阅读下方信息,以深入了解SEMrushBot基本信息,用户代理和访问控制等。
DotBot
DotBot蜘蛛/爬虫属于营销类型,由SEOmoz, Inc.开发运行。您可以继续阅读下方信息,以深入了解DotBot基本信息,用户代理和访问控制等。
SentiBot
SentiBot蜘蛛/爬虫属于营销类型,由SentiOne开发运行。您可以继续阅读下方信息,以深入了解SentiBot基本信息,用户代理和访问控制等。
Awario crawler
Awario crawler蜘蛛/爬虫属于营销类型,由Link-Assistant.Com开发运行。您可以继续阅读下方信息,以深入了解Awario crawler基本信息,用户代理和访问控制等。
ZoomBot
ZoomBot蜘蛛/爬虫属于营销类型,由SEO Cube S.r.l.开发运行。您可以继续阅读下方信息,以深入了解ZoomBot基本信息,用户代理和访问控制等。

相关文章

Related Articles