Exabot

Exabot蜘蛛/爬虫属于快照类型,由Dassault Systemes开发运行。您可以继续阅读下方信息,以深入了解Exabot基本信息,用户代理和访问控制等。

基本信息

Exabot的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
Exabot
类型
搜索引擎 , 快照
开发商
Dassault Systemes
当前状态
活动

用户代理

关于Exabot蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
Exabot-Thumbnails
用户代理字符串
Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Exabot-Thumbnails)
首次出现
2012-02-09 20:52:00
最后出现
2023-09-21 07:34:26
遵循robots.txt
来源
IP地址(3) 服务器名称 所属国家
178.255.215.98 thumb1.exabot.com FR
178.255.215.97 thumb0.exabot.com FR
193.47.80.77 tc-gw.exabot.com FR
用户代理字符串
Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot)
首次出现
2009-05-11 05:50:00
最后出现
2023-06-06 08:11:36
遵循robots.txt
来源
IP地址(48) 服务器名称 所属国家
178.255.215.82 crawl18.exabot.com FR
178.255.215.80 crawl16.exabot.com FR
178.255.215.85 crawl21.exabot.com FR
178.255.215.72 crawl08.exabot.com FR
178.255.215.87 crawl23.exabot.com FR
178.255.215.95 crawl31.exabot.com FR
178.255.215.74 crawl10.exabot.com FR
178.255.215.94 crawl30.exabot.com FR
178.255.215.73 crawl09.exabot.com FR
178.255.215.77 crawl13.exabot.com FR
13.59.112.196 ec2-13-59-112-196.us-east-2.compute.amazonaws.com US
178.255.215.65 crawl01.exabot.com FR
67.220.86.236 236-86-220-67.clients.gthost.com US
185.176.220.71 298811.2cloud.eu LV
3.145.193.50 ec2-3-145-193-50.us-east-2.compute.amazonaws.com US
3.94.96.145 ec2-3-94-96-145.compute-1.amazonaws.com US
78.153.140.222 hostglobal.plus GB
51.20.85.161 ec2-51-20-85-161.eu-north-1.compute.amazonaws.com SE
用户代理字符串
Mozilla/5.0 (compatible; Exabot/3.0; http://www.exabot.com/go/robot)
首次出现
2018-05-23 11:00:15
最后出现
2022-05-02 06:09:58
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
178.255.215.65 crawl01.exabot.com FR
用户代理字符串
Mozilla/5.0 (compatible; Exabot PyExalead/3.0; +http://www.exabot.com/go/robot)
首次出现
2017-01-09 10:26:30
最后出现
2019-02-21 13:20:42
遵循robots.txt
来源
IP地址(1) 服务器名称 所属国家
178.255.215.128 mhx-gw16.exabot.com FR
用户代理字符串
Mozilla/5.0 (compatible; Exabot/3.0 (BiggerBetter); +http://www.exabot.com/go/robot)
首次出现
2009-10-11 04:47:46
最后出现
2015-01-21 08:57:00
遵循robots.txt
未知
来源
IP地址(22) 服务器名称 所属国家
178.255.215.84 crawl316.exabot.com FR
178.255.215.81 crawl313.exabot.com FR
178.255.215.85 crawl317.exabot.com FR
178.255.215.87 crawl319.exabot.com FR
83.167.62.170 crawl308.exabot.com US
178.255.215.91 crawl323.exabot.com FR
83.167.62.165 crawl303.exabot.com US
83.167.62.164 crawl302.exabot.com US
178.255.215.86 crawl318.exabot.com FR
83.167.62.185 crawl323.exabot.com US
178.255.215.90 crawl322.exabot.com FR
83.167.62.179 crawl317.exabot.com US
193.47.80.92 eq-gw.exabot.com FR
178.255.215.88 crawl320.exabot.com FR
178.255.215.89 crawl321.exabot.com FR
178.255.215.128 mhx-gw16.exabot.com FR
83.167.62.162 crawl300.exabot.com US
178.255.215.80 crawl312.exabot.com FR
83.167.62.171 crawl309.exabot.com US
178.255.215.82 crawl314.exabot.com FR
83.167.62.166 crawl304.exabot.com US
83.167.62.169 crawl307.exabot.com US
用户代理字符串
Mozilla/5.0 (compatible; ExaleadCloudView/5;)
首次出现
2014-03-20 05:24:12
最后出现
2014-03-20 05:24:14
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
194.44.28.54 194.44.28.54 UA
用户代理字符串
Mozilla/5.0 (compatible; ExaleadCloudview/6;)
首次出现
2013-12-06 15:10:24
最后出现
2013-12-06 15:10:27
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
178.255.215.130 mhx-gw18.exabot.com FR
用户代理字符串
Mozilla/5.0 (compatible; Exabot-Images/3.0; +http://www.exabot.com/go/robot)
首次出现
2009-05-11 05:50:00
最后出现
2011-03-01 18:07:19
遵循robots.txt
未知
来源
IP地址(8) 服务器名称 所属国家
193.47.80.92 eq-gw.exabot.com FR
83.167.62.180 crawl318.exabot.com US
83.167.62.182 crawl320.exabot.com US
83.167.62.185 crawl323.exabot.com US
193.47.80.136 crawl104.exabot.com FR
193.47.80.140 crawl108.exabot.com FR
193.47.80.141 crawl109.exabot.com FR
193.47.80.147 crawl115.exabot.com FR

访问控制

了解如何控制Exabot访问权限,避免Exabot抓取行为不当。

是否拦截Exabot?

一般不要拦截。搜索引擎爬虫为搜索引擎提供动力,是用户发现您网站的有效途径。事实上,拦截搜索引擎爬虫可能会严重减少网站的自然流量。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 Exabot 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: Exabot
	Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

更多信息

怎样才能使我的网站出现在搜索结果中?

有几个因素决定了一个特定的网站是否会出现在搜索结果中以及出现在哪里。这些因素可能包括与该特定网站有链接的网站数量,以及网页的内容。

此外,Exalead的搜索结果是按照每个用户查询的相关程度来组织的。因此,一个网站的位置将根据输入的搜索词而改变。

如果你的网站是新的,并且没有从其他网站链接过来,你可以使用Exabot的提交表格来提交你的网站,这样它就有可能被索引,从而被列入Exabot的搜索结果中。

我如何将我的网站提交给Exalead搜索引擎?

如果您的网站是由已经被Exalead搜索索引收录的其他网站链接的,您不需要做任何事情。在Exabot进行下一次索引时,您的网站将被 “抓取”(索引)并加入Exabot的引擎中。如果您的网站是新的,并且没有来自其他网站的链接,请使用Exabot的提交表格来提交您的网站。

为什么 “Exabot “会抓取我的网站?

“Exabot “是Exalead的爬虫的用户代理。它的作用是收集和索引来自世界各地的数据以提供给Exabot的搜索引擎。Exabot代理抓取您的网站,以便其内容可以被纳入Exabot的主索引,从而被纳入Exabot的搜索结果页面。

Exalead爬虫是否尊重robots.txt文件和robots META标签中记录的规则?

是的。Exalead的Exabot爬虫完全遵守robots.txt和robots meta标签的标准。请访问robotstxt.org获取更多关于这些规范的信息。Exalead也支持特殊字符*和$,这在最初的规范中并不包括。

Robots.txt标准:

  • 为了防止对某一特定目录的网页进行索引(例如,足球),请在 robots.txt 文件中输入以下内容:
    User-agent: Exabot
    Disallow: football
  • 要防止对特定文件类型(例如.gif)的索引,请在 robots.txt 文件中输入以下内容:
    User-agent: Exabot
    Disallow: *.gif$
  • 要防止对动态页面的索引,在你的 robots.txt 文件中输入以下内容:
    User-agent: Exabot
    Disallow: *?

Robots META标签标准:

  • 为了防止爬虫对你的网站的某个页面进行索引,在页面的<HEAD>部分放置以下META标签:
    <meta name="ROBOTS" content="NOINDEX, NOFOLLOW">
  • 要授权爬虫索引一个页面,但指示它们不要跟踪外部链接,请使用以下标签:
    <meta name="ROBOTS" content="NOFOLLOW">

您的爬虫在抓取网站时是否限制其带宽?

是的,使用几种方法:

  • Exabot尊重页面之间三秒的延迟。
  • Exabot使用 “最后修改/如果修改过 “机制来刷新静态内容,如果您的服务器支持这一功能的话。
  • Exabot使用 “ETag / If no match “机制来刷新动态内容,如果你的服务器支持这一功能。
  • Exabot使用HTTP压缩技术(gzip/deflate),将传输的八进制数减少到文件大小的五分之一左右,如果您的服务器支持这一功能的话。
  • Exabot在抓取多媒体文件(如MP3)时限制使用带宽。
  • Exabot使用检测算法来避免将带宽用于索引非相关的多媒体内容。

你也可以通过在你的robots.txt文件中添加以下文本来指定所需的抓取延迟:

User-agent: Exabot
Crawl-delay: 10

虽然您可以根据自己的需要调节爬行延迟时间,但请记住,指定的爬行延迟时间越长,您的网站被索引的速度就越慢。

Exalead爬虫会抓取哪些类型的文件?

爬虫会抓取HTML内容,以及流行的办公文件格式(.pdf、Word、Excel、Powerpoint、Corel WordPerfect、Open Office和Rich Text Format)、Shockwave Macromedia Flash以及其他多媒体内容。

我怎样才能排除我的网站被Exalead爬虫抓取?

创建一个名为robots.txt的简单文本文件,键入以下规则,并将该文件放在您网站的根目录中:

User-agent: Exabot
Disallow: /

欲了解更多信息,请参考问题4。

我如何保护我网站的某些部分不被Exalead爬虫抓取?

在您的robots.txt文件中键入以下规则,用 “football “作为示例目录的名称:

User-agent: Exabot
Disallow: /football

欲了解更多信息,请参考问题4。

我怎样才能保护我的网站中只有某些页面不被Exalead爬虫抓取?

要保护特定页面不被Exalead爬虫抓取,必须在您网站的HTML文件中的 “head “标签之间使用一个特殊的META标签。

  • 如果您不希望Exalead爬虫跟踪您网站某个页面的特定链接,但仍希望该页面被索引,您必须添加以下META标签。<meta name=”robots” content=”nofollow”>。
  • 如果你不希望一个特定的页面被索引,但你希望该页面与你网站上其他页面的链接被跟踪,你必须添加以下META标签。<meta name=”robots” content=”noindex”>。
  • 你可以把这两个标签结合起来,以排除对网页和所含链接的索引,如下所示。<meta name=”robots” content=”nofollow,noindex”>。

请访问robots.txt获取更多信息。

我如何要求Exalead爬虫刷新我网站的索引?

这完全是自动的,在Exabot的爬虫下次抓取您的网站时就会完成。但是,如果您希望加快这一过程,请使用Exabot的网站提交表格提交该页面。

我如何从索引中删除一个页面?

如果一个页面不再是可索引的(因为它是错误的或被robots.txt文件排除的),它将在下次引擎抓取网站时被删除。为了加快这一过程,你可以使用Exabot的网站提交表将该页面提交给引擎,它将在那时从索引中被删除。

你也可以使用一个HTML元标签来阻止Exalead爬虫对某些页面进行索引。这个标签被放置在你的页面的<head>部分。

  • 要防止爬虫索引你的网站上的某个页面,在页面的<head>部分放置以下元标签:<meta name="ROBOTS" content="NOINDEX, NOFOLLOW">
  • 要允许爬虫索引一个页面,但指示它们不要跟踪外部链接,请使用以下标签:<meta name="ROBOTS" content="NOFOLLOW">

我如何向Exalead表明我的网站已经搬迁?

从你以前的网站的每个页面添加一个永久重定向301到新的网站。当Exabot刷新你的网站索引时,它将删除以前网站的链接,并以新网站的链接取代它们。如果你想加快这个过程,你可以使用Exabot的网站提交表格向搜索引擎提交旧的和新的主页。

如何测试我的robots.txt文件?

你可以使用robots.txt分析工具来:

  • 检查特定的URL,看你的robots.txt文件是否允许或阻止它们。
  • 看看Exabot在解析你的robots.txt文件的任何行时是否有问题。
  • 测试对你的 robots.txt 文件的修改。

这个工具允许你验证你的 robots.txt 文件是否排除或允许访问某些URL。每次测试都会刷新文件,因此你可以实时测试。相比之下,爬虫使用的文件的 “实时 “版本(你的网络服务器上的版本)每天只刷新一次。因此,在对实时版本所做的修改生效之前,预计会有一点延迟。

为什么我的网站的缩略图预览图像看起来很奇怪?

Exabot用来创建缩略图的渲染工具类似于Safari浏览器(KHTMLHTML布局引擎)。如果您的站点在Safari中呈现不好,Exalead生成的缩略图也可能呈现不好。Exabot建议您优化您的网站,以便在Safari/Konqueror中显示,这样生成的缩略图将具有尽可能高的质量。

此外,Exalead缩略图生成器还无法解释Flash文件。如果您的网站使用Flash,并且缩略图未按您的意愿显示,Exabot建议您为不支持Flash的浏览器指定要显示的替代图像。Exabot的引擎将使用此图像创建缩略图。要提供替代图像,请在包含Flash动画的“object”标记中的“embed”标记之后添加一个“img”标记。请参见下面的示例。有关更多信息,请参阅Flash文档。

示例:

<object classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,29,0" width="530" height="80"> 
<param name="movie" value="media/movie.swf" /> <param name="quality" value="high" /> 
<embed src="media/movie.swf" quality="high" pluginspage="http://www.macromedia.com/go/getflashplayer" type="application/x-shockwave-flash" width="530" height="80"></embed> 
<img src="media/image.jpg" alt="Our product showcase"></img> 
</object>

常见蜘蛛/爬虫

Common Spiders

相关文章

Related Articles