Exabot

Exabot蜘蛛/爬蟲屬於搜尋引擎型別,由Dassault Systemes開發執行。您可以繼續閱讀下方資訊,以深入瞭解Exabot基本資訊,使用者代理和訪問控制等。

基本資訊

Exabot的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲,可能存在資訊不明的情況。
蜘蛛/爬蟲名稱
Exabot
型別
搜尋引擎 , 快照
開發商
Dassault Systemes
當前狀態
活動

使用者代理

關於Exabot蜘蛛或者爬蟲的使用者代理字串,IP地址和伺服器,所在地等資訊如下表格所示:
Exabot-Thumbnails
使用者代理字串
Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Exabot-Thumbnails)
首次出現
2012-02-09 20:52:00
最後出現
2023-09-21 07:34:26
遵循robots.txt
來源
IP地址(3) 伺服器名稱 所屬國家
178.255.215.98 thumb1.exabot.com FR
178.255.215.97 thumb0.exabot.com FR
193.47.80.77 tc-gw.exabot.com FR
使用者代理字串
Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot)
首次出現
2009-05-11 05:50:00
最後出現
2023-06-06 08:11:36
遵循robots.txt
來源
IP地址(48) 伺服器名稱 所屬國家
178.255.215.82 crawl18.exabot.com FR
178.255.215.80 crawl16.exabot.com FR
178.255.215.85 crawl21.exabot.com FR
178.255.215.72 crawl08.exabot.com FR
178.255.215.87 crawl23.exabot.com FR
178.255.215.95 crawl31.exabot.com FR
178.255.215.74 crawl10.exabot.com FR
178.255.215.94 crawl30.exabot.com FR
178.255.215.73 crawl09.exabot.com FR
178.255.215.77 crawl13.exabot.com FR
13.59.112.196 ec2-13-59-112-196.us-east-2.compute.amazonaws.com US
178.255.215.65 crawl01.exabot.com FR
67.220.86.236 236-86-220-67.clients.gthost.com US
185.176.220.71 298811.2cloud.eu LV
3.145.193.50 ec2-3-145-193-50.us-east-2.compute.amazonaws.com US
3.94.96.145 ec2-3-94-96-145.compute-1.amazonaws.com US
78.153.140.222 hostglobal.plus GB
51.20.85.161 ec2-51-20-85-161.eu-north-1.compute.amazonaws.com SE
使用者代理字串
Mozilla/5.0 (compatible; Exabot/3.0; http://www.exabot.com/go/robot)
首次出現
2018-05-23 11:00:15
最後出現
2022-05-02 06:09:58
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
178.255.215.65 crawl01.exabot.com FR
使用者代理字串
Mozilla/5.0 (compatible; Exabot PyExalead/3.0; +http://www.exabot.com/go/robot)
首次出現
2017-01-09 10:26:30
最後出現
2019-02-21 13:20:42
遵循robots.txt
來源
IP地址(1) 伺服器名稱 所屬國家
178.255.215.128 mhx-gw16.exabot.com FR
使用者代理字串
Mozilla/5.0 (compatible; Exabot/3.0 (BiggerBetter); +http://www.exabot.com/go/robot)
首次出現
2009-10-11 04:47:46
最後出現
2015-01-21 08:57:00
遵循robots.txt
未知
來源
IP地址(22) 伺服器名稱 所屬國家
178.255.215.84 crawl316.exabot.com FR
178.255.215.81 crawl313.exabot.com FR
178.255.215.85 crawl317.exabot.com FR
178.255.215.87 crawl319.exabot.com FR
83.167.62.170 crawl308.exabot.com US
178.255.215.91 crawl323.exabot.com FR
83.167.62.165 crawl303.exabot.com US
83.167.62.164 crawl302.exabot.com US
178.255.215.86 crawl318.exabot.com FR
83.167.62.185 crawl323.exabot.com US
178.255.215.90 crawl322.exabot.com FR
83.167.62.179 crawl317.exabot.com US
193.47.80.92 eq-gw.exabot.com FR
178.255.215.88 crawl320.exabot.com FR
178.255.215.89 crawl321.exabot.com FR
178.255.215.128 mhx-gw16.exabot.com FR
83.167.62.162 crawl300.exabot.com US
178.255.215.80 crawl312.exabot.com FR
83.167.62.171 crawl309.exabot.com US
178.255.215.82 crawl314.exabot.com FR
83.167.62.166 crawl304.exabot.com US
83.167.62.169 crawl307.exabot.com US
使用者代理字串
Mozilla/5.0 (compatible; ExaleadCloudView/5;)
首次出現
2014-03-20 05:24:12
最後出現
2014-03-20 05:24:14
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
194.44.28.54 194.44.28.54 UA
使用者代理字串
Mozilla/5.0 (compatible; ExaleadCloudview/6;)
首次出現
2013-12-06 15:10:24
最後出現
2013-12-06 15:10:27
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
178.255.215.130 mhx-gw18.exabot.com FR
使用者代理字串
Mozilla/5.0 (compatible; Exabot-Images/3.0; +http://www.exabot.com/go/robot)
首次出現
2009-05-11 05:50:00
最後出現
2011-03-01 18:07:19
遵循robots.txt
未知
來源
IP地址(8) 伺服器名稱 所屬國家
193.47.80.92 eq-gw.exabot.com FR
83.167.62.180 crawl318.exabot.com US
83.167.62.182 crawl320.exabot.com US
83.167.62.185 crawl323.exabot.com US
193.47.80.136 crawl104.exabot.com FR
193.47.80.140 crawl108.exabot.com FR
193.47.80.141 crawl109.exabot.com FR
193.47.80.147 crawl115.exabot.com FR

訪問控制

瞭解如何控制Exabot訪問許可權,避免Exabot抓取行為不當。

是否攔截Exabot?

一般不要攔截。搜尋引擎爬蟲為搜尋引擎提供動力,是使用者發現您網站的有效途徑。事實上,攔截搜尋引擎爬蟲可能會嚴重減少網站的自然流量。

通過Robots.txt攔截

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 Exabot 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: Exabot
Disallow: /
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: Exabot Disallow: /
	# robots.txt
	# 下列程式碼一般情況可以攔截該代理
	
	User-agent: Exabot
	Disallow: /

您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

更多資訊

怎樣才能使我的網站出現在搜尋結果中?

有幾個因素決定了一個特定的網站是否會出現在搜尋結果中以及出現在哪裡。這些因素可能包括與該特定網站有連結的網站數量,以及網頁的內容。

此外,Exalead的搜尋結果是按照每個使用者查詢的相關程度來組織的。因此,一個網站的位置將根據輸入的搜尋詞而改變。

如果你的網站是新的,並且沒有從其他網站連結過來,你可以使用Exabot的提交表格來提交你的網站,這樣它就有可能被索引,從而被列入Exabot的搜尋結果中。

我如何將我的網站提交給Exalead搜尋引擎?

如果您的網站是由已經被Exalead搜尋索引收錄的其他網站連結的,您不需要做任何事情。在Exabot進行下一次索引時,您的網站將被 “抓取”(索引)並加入Exabot的引擎中。如果您的網站是新的,並且沒有來自其他網站的連結,請使用Exabot的提交表格來提交您的網站。

為什麼 “Exabot “會抓取我的網站?

“Exabot “是Exalead的爬蟲的使用者代理。它的作用是收集和索引來自世界各地的資料以提供給Exabot的搜尋引擎。Exabot代理抓取您的網站,以便其內容可以被納入Exabot的主索引,從而被納入Exabot的搜尋結果頁面。

Exalead爬蟲是否尊重robots.txt檔案和robots META標籤中記錄的規則?

是的。Exalead的Exabot爬蟲完全遵守robots.txt和robots meta標籤的標準。請訪問robotstxt.org獲取更多關於這些規範的資訊。Exalead也支援特殊字元*和$,這在最初的規範中並不包括。

Robots.txt標準:

  • 為了防止對某一特定目錄的網頁進行索引(例如,足球),請在 robots.txt 檔案中輸入以下內容:
    Plain text
    Copy to clipboard
    Open code in new window
    EnlighterJS 3 Syntax Highlighter
    User-agent: Exabot
    Disallow: football
    User-agent: Exabot Disallow: football
    User-agent: Exabot
    Disallow: football
  • 要防止對特定檔案型別(例如.gif)的索引,請在 robots.txt 檔案中輸入以下內容:
    Plain text
    Copy to clipboard
    Open code in new window
    EnlighterJS 3 Syntax Highlighter
    User-agent: Exabot
    Disallow: *.gif$
    User-agent: Exabot Disallow: *.gif$
    User-agent: Exabot
    Disallow: *.gif$
  • 要防止對動態頁面的索引,在你的 robots.txt 檔案中輸入以下內容:
    Plain text
    Copy to clipboard
    Open code in new window
    EnlighterJS 3 Syntax Highlighter
    User-agent: Exabot
    Disallow: *?
    User-agent: Exabot Disallow: *?
    User-agent: Exabot
    Disallow: *?

Robots META標籤標準:

  • 為了防止爬蟲對你的網站的某個頁面進行索引,在頁面的<HEAD>部分放置以下META標籤:
    Plain text
    Copy to clipboard
    Open code in new window
    EnlighterJS 3 Syntax Highlighter
    <meta name="ROBOTS" content="NOINDEX, NOFOLLOW">
    <meta name="ROBOTS" content="NOINDEX, NOFOLLOW">
    <meta name="ROBOTS" content="NOINDEX, NOFOLLOW">
  • 要授權爬蟲索引一個頁面,但指示它們不要跟蹤外部連結,請使用以下標籤:
    Plain text
    Copy to clipboard
    Open code in new window
    EnlighterJS 3 Syntax Highlighter
    <meta name="ROBOTS" content="NOFOLLOW">
    <meta name="ROBOTS" content="NOFOLLOW">
    <meta name="ROBOTS" content="NOFOLLOW">

您的爬蟲在抓取網站時是否限制其頻寬?

是的,使用幾種方法:

  • Exabot尊重頁面之間三秒的延遲。
  • Exabot使用 “最後修改/如果修改過 “機制來重新整理靜態內容,如果您的伺服器支援這一功能的話。
  • Exabot使用 “ETag / If no match “機制來重新整理動態內容,如果你的伺服器支援這一功能。
  • Exabot使用HTTP壓縮技術(gzip/deflate),將傳輸的八進位制數減少到檔案大小的五分之一左右,如果您的伺服器支援這一功能的話。
  • Exabot在抓取多媒體檔案(如MP3)時限制使用頻寬。
  • Exabot使用檢測演算法來避免將頻寬用於索引非相關的多媒體內容。

你也可以通過在你的robots.txt檔案中新增以下文字來指定所需的抓取延遲:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
User-agent: Exabot
Crawl-delay: 10
User-agent: Exabot Crawl-delay: 10
User-agent: Exabot
Crawl-delay: 10

雖然您可以根據自己的需要調節爬行延遲時間,但請記住,指定的爬行延遲時間越長,您的網站被索引的速度就越慢。

Exalead爬蟲會抓取哪些型別的檔案?

爬蟲會抓取HTML內容,以及流行的辦公檔案格式(.pdf、Word、Excel、Powerpoint、Corel WordPerfect、Open Office和Rich Text Format)、Shockwave Macromedia Flash以及其他多媒體內容。

我怎樣才能排除我的網站被Exalead爬蟲抓取?

建立一個名為robots.txt的簡單文字檔案,鍵入以下規則,並將該檔案放在您網站的根目錄中:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
User-agent: Exabot
Disallow: /
User-agent: Exabot Disallow: /
User-agent: Exabot
Disallow: /

欲瞭解更多資訊,請參考問題4。

我如何保護我網站的某些部分不被Exalead爬蟲抓取?

在您的robots.txt檔案中鍵入以下規則,用 “football “作為示例目錄的名稱:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
User-agent: Exabot
Disallow: /football
User-agent: Exabot Disallow: /football
User-agent: Exabot
Disallow: /football

欲瞭解更多資訊,請參考問題4。

我怎樣才能保護我的網站中只有某些頁面不被Exalead爬蟲抓取?

要保護特定頁面不被Exalead爬蟲抓取,必須在您網站的HTML檔案中的 “head “標籤之間使用一個特殊的META標籤。

  • 如果您不希望Exalead爬蟲跟蹤您網站某個頁面的特定連結,但仍希望該頁面被索引,您必須新增以下META標籤。<meta name=”robots” content=”nofollow”>。
  • 如果你不希望一個特定的頁面被索引,但你希望該頁面與你網站上其他頁面的連結被跟蹤,你必須新增以下META標籤。<meta name=”robots” content=”noindex”>。
  • 你可以把這兩個標籤結合起來,以排除對網頁和所含連結的索引,如下所示。<meta name=”robots” content=”nofollow,noindex”>。

請訪問robots.txt獲取更多資訊。

我如何要求Exalead爬蟲重新整理我網站的索引?

這完全是自動的,在Exabot的爬蟲下次抓取您的網站時就會完成。但是,如果您希望加快這一過程,請使用Exabot的網站提交表格提交該頁面。

我如何從索引中刪除一個頁面?

如果一個頁面不再是可索引的(因為它是錯誤的或被robots.txt檔案排除的),它將在下次引擎抓取網站時被刪除。為了加快這一過程,你可以使用Exabot的網站提交表將該頁面提交給引擎,它將在那時從索引中被刪除。

你也可以使用一個HTML元標籤來阻止Exalead爬蟲對某些頁面進行索引。這個標籤被放置在你的頁面的<head>部分。

  • 要防止爬蟲索引你的網站上的某個頁面,在頁面的<head>部分放置以下元標籤:<meta name="ROBOTS" content="NOINDEX, NOFOLLOW">
  • 要允許爬蟲索引一個頁面,但指示它們不要跟蹤外部連結,請使用以下標籤:<meta name="ROBOTS" content="NOFOLLOW">

我如何向Exalead表明我的網站已經搬遷?

從你以前的網站的每個頁面新增一個永久重定向301到新的網站。當Exabot重新整理你的網站索引時,它將刪除以前網站的連結,並以新網站的連結取代它們。如果你想加快這個過程,你可以使用Exabot的網站提交表格向搜尋引擎提交舊的和新的主頁。

如何測試我的robots.txt檔案?

你可以使用robots.txt分析工具來:

  • 檢查特定的URL,看你的robots.txt檔案是否允許或阻止它們。
  • 看看Exabot在解析你的robots.txt檔案的任何行時是否有問題。
  • 測試對你的 robots.txt 檔案的修改。

這個工具允許你驗證你的 robots.txt 檔案是否排除或允許訪問某些URL。每次測試都會重新整理檔案,因此你可以實時測試。相比之下,爬蟲使用的檔案的 “實時 “版本(你的網路伺服器上的版本)每天只重新整理一次。因此,在對實時版本所做的修改生效之前,預計會有一點延遲。

為什麼我的網站的縮圖預覽影象看起來很奇怪?

Exabot用來建立縮圖的渲染工具類似於Safari瀏覽器(KHTMLHTML佈局引擎)。如果您的站點在Safari中呈現不好,Exalead生成的縮圖也可能呈現不好。Exabot建議您優化您的網站,以便在Safari/Konqueror中顯示,這樣生成的縮圖將具有儘可能高的質量。

此外,Exalead縮圖生成器還無法解釋Flash檔案。如果您的網站使用Flash,並且縮圖未按您的意願顯示,Exabot建議您為不支援Flash的瀏覽器指定要顯示的替代影象。Exabot的引擎將使用此影象建立縮圖。要提供替代影象,請在包含Flash動畫的“object”標記中的“embed”標記之後新增一個“img”標記。請參見下面的示例。有關更多資訊,請參閱Flash文件。

示例:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
<object classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,29,0" width="530" height="80">
<param name="movie" value="media/movie.swf" /> <param name="quality" value="high" />
<embed src="media/movie.swf" quality="high" pluginspage="http://www.macromedia.com/go/getflashplayer" type="application/x-shockwave-flash" width="530" height="80"></embed>
<img src="media/image.jpg" alt="Our product showcase"></img>
</object>
<object classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,29,0" width="530" height="80"> <param name="movie" value="media/movie.swf" /> <param name="quality" value="high" /> <embed src="media/movie.swf" quality="high" pluginspage="http://www.macromedia.com/go/getflashplayer" type="application/x-shockwave-flash" width="530" height="80"></embed> <img src="media/image.jpg" alt="Our product showcase"></img> </object>
<object classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,29,0" width="530" height="80"> 
<param name="movie" value="media/movie.swf" /> <param name="quality" value="high" /> 
<embed src="media/movie.swf" quality="high" pluginspage="http://www.macromedia.com/go/getflashplayer" type="application/x-shockwave-flash" width="530" height="80"></embed> 
<img src="media/image.jpg" alt="Our product showcase"></img> 
</object>

常見蜘蛛/爬蟲

Common Spiders
fynd.bot crawler
fynd.bot crawler蜘蛛/爬蟲屬於搜尋引擎型別,由fynd.bot開發執行。您可以繼續閱讀下方資訊,以深入瞭解fynd.bot crawler基本資訊,使用者代理和訪問控制等。
Alibaba crawler
Alibaba crawler蜘蛛/爬蟲屬於搜尋引擎型別,由Alibaba Group開發執行。您可以繼續閱讀下方資訊,以深入瞭解Alibaba crawler基本資訊,使用者代理和訪問控制等。
Googlebot
GoogleBot蜘蛛/爬蟲屬於搜尋引擎型別,由Google Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解GoogleBot基本資訊,使用者代理和訪問控制等。
Swisscows Crawler
Swisscows Crawler蜘蛛/爬蟲屬於搜尋引擎型別,由Swisscows AG開發執行。您可以繼續閱讀下方資訊,以深入瞭解Swisscows Crawler基本資訊,使用者代理和訪問控制等。
star-finder.de Bot
star-finder.de Bot蜘蛛/爬蟲屬於搜尋引擎型別,由projektnet開發執行。您可以繼續閱讀下方資訊,以深入瞭解star-finder.de Bot基本資訊,使用者代理和訪問控制等。
SeznamBot
SeznamBot蜘蛛/爬蟲屬於搜尋引擎型別,由Seznam.cz, a.s.開發執行。您可以繼續閱讀下方資訊,以深入瞭解SeznamBot基本資訊,使用者代理和訪問控制等。
MojeekBot
MojeekBot蜘蛛/爬蟲屬於搜尋引擎型別,由Mojeek Ltd.開發執行。您可以繼續閱讀下方資訊,以深入瞭解MojeekBot基本資訊,使用者代理和訪問控制等。
Bravebot
Bravebot蜘蛛/爬蟲屬於搜尋引擎型別,由Brave Software Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Bravebot基本資訊,使用者代理和訪問控制等。

相關文章

Related Articles