CorpusCrawler

CorpusCrawler蜘蛛/爬蟲屬於其他型別,由NLP – at the Faculty of Informatics, Masaryk University, Brno開發執行。您可以繼續閱讀下方資訊,以深入瞭解CorpusCrawler基本資訊,使用者代理和訪問控制等。

基本資訊

CorpusCrawler的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲,可能存在資訊不明的情況。
蜘蛛/爬蟲名稱
CorpusCrawler
型別
其他
開發商
NLP - at the Faculty of Informatics, Masaryk University, Brno
當前狀態
無效

使用者代理

關於CorpusCrawler蜘蛛或者爬蟲的使用者代理字串,IP地址和伺服器,所在地等資訊如下表格所示:
CorpusCrawler 2.0.25
使用者代理字串
CorpusCrawler 2.0.25 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
首次出現
2010-01-16 01:44:50
最後出現
2010-01-16 01:58:45
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
147.251.45.17 apollo.fi.muni.cz EU
使用者代理字串
CorpusCrawler 2.0.24 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
首次出現
2010-01-16 00:10:02
最後出現
2010-01-16 01:19:26
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
147.251.45.17 apollo.fi.muni.cz EU
使用者代理字串
CorpusCrawler 2.0.22 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
首次出現
2010-01-15 21:10:20
最後出現
2010-01-14 05:00:33
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
147.251.45.17 apollo.fi.muni.cz EU
使用者代理字串
CorpusCrawler 2.0.21 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
首次出現
2010-01-12 20:27:32
最後出現
2010-01-12 20:27:32
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
147.251.45.17 apollo.fi.muni.cz EU
使用者代理字串
CorpusCrawler 2.0.20 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
首次出現
2010-01-10 16:57:49
最後出現
2010-01-12 16:05:41
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
147.251.45.17 apollo.fi.muni.cz EU
使用者代理字串
CorpusCrawler 2.0.19 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
首次出現
2010-01-09 17:33:58
最後出現
2010-01-10 15:34:25
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
147.251.45.17 apollo.fi.muni.cz EU
使用者代理字串
CorpusCrawler 2.0.17 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
首次出現
2010-01-09 03:49:30
最後出現
2010-01-09 11:18:53
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
147.251.45.17 apollo.fi.muni.cz EU
使用者代理字串
CorpusCrawler 2.0.15 (http://corpora.fi.muni.cz/crawler/)
首次出現
2010-01-13 20:14:04
最後出現
2010-01-05 20:37:45
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
147.251.45.17 apollo.fi.muni.cz EU
使用者代理字串
CorpusCrawler 2.0.14 (http://corpora.fi.muni.cz/crawler/)
首次出現
2010-01-03 17:50:00
最後出現
2010-01-03 13:59:48
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
147.251.45.17 apollo.fi.muni.cz EU
使用者代理字串
CorpusCrawler 2.0.13 (http://corpora.fi.muni.cz/crawler/)
首次出現
2009-05-11 05:50:00
最後出現
2010-01-03 03:48:35
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
147.251.45.17 apollo.fi.muni.cz EU
使用者代理字串
CorpusCrawler 2.0.12 (http://corpora.fi.muni.cz/crawler/)
首次出現
2009-05-11 05:50:00
最後出現
2010-01-02 15:07:23
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
147.251.45.17 apollo.fi.muni.cz EU
使用者代理字串
CorpusCrawler 2.0.10 (http://corpora.fi.muni.cz/crawler/)
首次出現
2009-12-26 20:34:33
最後出現
2009-12-26 06:09:29
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
147.251.45.17 apollo.fi.muni.cz EU
使用者代理字串
CorpusCrawler 2.0.9 (http://corpora.fi.muni.cz/crawler/)
首次出現
2009-12-19 16:46:42
最後出現
2009-12-19 20:16:30
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
147.251.45.17 apollo.fi.muni.cz EU
使用者代理字串
CorpusCrawler 2.0.8 (http://corpora.fi.muni.cz/crawler/)
首次出現
2009-12-17 01:44:59
最後出現
2009-12-17 02:42:56
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
147.251.45.17 apollo.fi.muni.cz EU
使用者代理字串
CorpusCrawler 2.0.0 (http://corpora.fi.muni.cz/crawler/)
首次出現
2009-12-16 20:27:04
最後出現
2009-12-15 06:56:05
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
147.251.45.17 apollo.fi.muni.cz EU

訪問控制

瞭解如何控制CorpusCrawler訪問許可權,避免CorpusCrawler抓取行為不當。

是否攔截CorpusCrawler?

對於未知蜘蛛或者爬蟲。它的用途對網站來說可能是好的,也可能是壞的,這取決於它是什麼。所以說,這需要站長進一步分析判斷這些尚不明確的爬蟲行為,再作最終決定。 但,根據以往的經驗,未宣告行為目的及未命名的蜘蛛爬蟲,通常都有不可告人的祕密,我們理應對其行為進行控制,比如攔截。

通過Robots.txt攔截

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 CorpusCrawler 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: CorpusCrawler
Disallow: /
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: CorpusCrawler Disallow: /
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: CorpusCrawler
Disallow: /

您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

更多資訊

NLP中心的體例

  • ske.fi.muni.cz 提供:
  • 為馬薩里克大學的員工和學生提供Sketch引擎
  • NLP中心(正在)開發的語料庫:
    語料庫(lang) 數以百萬計的tokens
    NEW: English (ClueWeb09)1 82,581
    Russian 20,162
    English 12,968
    French 12,369
    Japanese 11,113
    Polish 9,567
    Spanish (American) 8,719
    Arabic 6,637
    Czech 5,818
    Turkish 4,125
    Hungarian 3,184
    Italian 3,077
    German 2,844
    Spanish (European) 2,459
    Chinese 2,107
    Portuguese (European) 948
    Slovak 876
    Bulgarian 849
    Norwegian 770
    Korean 561
    czes (Czech) 465
    Estonian 324
    Kazakh 139
    Azerbaijani 115
    Tajik 52
    Uzbek 25
    Kyrgyz 24
    Turkmen 2
    DESAM (Czech) 1
  • 與Lexical Computing Ltd.合作開發的軟體:
  • NLP中心的語料庫相關專案:

如有必要,請聯絡 corpadm@aurora.fi.muni.cz

常見蜘蛛/爬蟲

Common Spiders
companyspotter
companyspotter蜘蛛/爬蟲屬於其他型別,由CompanySpotter BV開發執行。您可以繼續閱讀下方資訊,以深入瞭解companyspotter基本資訊,使用者代理和訪問控制等。
DataForSeo bot
DataForSeo bot蜘蛛/爬蟲屬於其他型別,由DataForSEO OU開發執行。您可以繼續閱讀下方資訊,以深入瞭解DataForSeo bot基本資訊,使用者代理和訪問控制等。
CloudFlare crawler
CloudFlare crawler蜘蛛/爬蟲屬於其他型別,由CloudFlare, Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解CloudFlare crawler基本資訊,使用者代理和訪問控制等。
Odin
Odin蜘蛛/爬蟲屬於其他型別,由Cyble, Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Odin基本資訊,使用者代理和訪問控制等。
Chrome Privacy Preserving Prefetch Proxy
Chrome Privacy Preserving Prefetch Proxy蜘蛛/爬蟲屬於其他型別,由Google Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Chrome Privacy Preserving Prefetch Proxy基本資訊,使用者代理和訪問控制等。
EFF crawler
EFF crawler蜘蛛/爬蟲屬於其他型別,由Electronic Frontier Foundation開發執行。您可以繼續閱讀下方資訊,以深入瞭解EFF crawler基本資訊,使用者代理和訪問控制等。
Modat crawler
Modat crawler蜘蛛/爬蟲屬於其他型別,由Modat B.V.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Modat crawler基本資訊,使用者代理和訪問控制等。
FirmoGraph
FirmoGraph蜘蛛/爬蟲屬於其他型別,由firmograph.io開發執行。您可以繼續閱讀下方資訊,以深入瞭解FirmoGraph基本資訊,使用者代理和訪問控制等。

相關文章

Related Articles