CorpusCrawler
CorpusCrawler蜘蛛/爬蟲屬於其他型別,由NLP – at the Faculty of Informatics, Masaryk University, Brno開發執行。您可以繼續閱讀下方資訊,以深入瞭解CorpusCrawler基本資訊,使用者代理和訪問控制等。
基本資訊
CorpusCrawler的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲,可能存在資訊不明的情況。
- 蜘蛛/爬蟲名稱
- CorpusCrawler
- 型別
- 其他
- 開發商
-
NLP - at the Faculty of Informatics, Masaryk University, Brno
- 當前狀態
-
無效
使用者代理
關於CorpusCrawler蜘蛛或者爬蟲的使用者代理字串,IP地址和伺服器,所在地等資訊如下表格所示:
CorpusCrawler 2.0.25
-
CorpusCrawler 2.0.25
-
CorpusCrawler 2.0.24
-
CorpusCrawler 2.0.22
-
CorpusCrawler 2.0.21
-
CorpusCrawler 2.0.20
-
CorpusCrawler 2.0.19
-
CorpusCrawler 2.0.17
-
CorpusCrawler 2.0.15
-
CorpusCrawler 2.0.14
-
CorpusCrawler 2.0.13
-
CorpusCrawler 2.0.12
-
CorpusCrawler 2.0.10
-
CorpusCrawler 2.0.9
-
CorpusCrawler 2.0.8
-
CorpusCrawler 2.0.0
- 使用者代理字串
- CorpusCrawler 2.0.25 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
- 首次出現
- 2010-01-16 01:44:50
- 最後出現
- 2010-01-16 01:58:45
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 使用者代理字串
- CorpusCrawler 2.0.24 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
- 首次出現
- 2010-01-16 00:10:02
- 最後出現
- 2010-01-16 01:19:26
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 使用者代理字串
- CorpusCrawler 2.0.22 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
- 首次出現
- 2010-01-15 21:10:20
- 最後出現
- 2010-01-14 05:00:33
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 使用者代理字串
- CorpusCrawler 2.0.21 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
- 首次出現
- 2010-01-12 20:27:32
- 最後出現
- 2010-01-12 20:27:32
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 使用者代理字串
- CorpusCrawler 2.0.20 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
- 首次出現
- 2010-01-10 16:57:49
- 最後出現
- 2010-01-12 16:05:41
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 使用者代理字串
- CorpusCrawler 2.0.19 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
- 首次出現
- 2010-01-09 17:33:58
- 最後出現
- 2010-01-10 15:34:25
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 使用者代理字串
- CorpusCrawler 2.0.17 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
- 首次出現
- 2010-01-09 03:49:30
- 最後出現
- 2010-01-09 11:18:53
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 使用者代理字串
- CorpusCrawler 2.0.15 (http://corpora.fi.muni.cz/crawler/)
- 首次出現
- 2010-01-13 20:14:04
- 最後出現
- 2010-01-05 20:37:45
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 使用者代理字串
- CorpusCrawler 2.0.14 (http://corpora.fi.muni.cz/crawler/)
- 首次出現
- 2010-01-03 17:50:00
- 最後出現
- 2010-01-03 13:59:48
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 使用者代理字串
- CorpusCrawler 2.0.13 (http://corpora.fi.muni.cz/crawler/)
- 首次出現
- 2009-05-11 05:50:00
- 最後出現
- 2010-01-03 03:48:35
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 使用者代理字串
- CorpusCrawler 2.0.12 (http://corpora.fi.muni.cz/crawler/)
- 首次出現
- 2009-05-11 05:50:00
- 最後出現
- 2010-01-02 15:07:23
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 使用者代理字串
- CorpusCrawler 2.0.10 (http://corpora.fi.muni.cz/crawler/)
- 首次出現
- 2009-12-26 20:34:33
- 最後出現
- 2009-12-26 06:09:29
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 使用者代理字串
- CorpusCrawler 2.0.9 (http://corpora.fi.muni.cz/crawler/)
- 首次出現
- 2009-12-19 16:46:42
- 最後出現
- 2009-12-19 20:16:30
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 使用者代理字串
- CorpusCrawler 2.0.8 (http://corpora.fi.muni.cz/crawler/)
- 首次出現
- 2009-12-17 01:44:59
- 最後出現
- 2009-12-17 02:42:56
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 使用者代理字串
- CorpusCrawler 2.0.0 (http://corpora.fi.muni.cz/crawler/)
- 首次出現
- 2009-12-16 20:27:04
- 最後出現
- 2009-12-15 06:56:05
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
訪問控制
瞭解如何控制CorpusCrawler訪問許可權,避免CorpusCrawler抓取行為不當。
是否攔截CorpusCrawler?
對於未知蜘蛛或者爬蟲。它的用途對網站來說可能是好的,也可能是壞的,這取決於它是什麼。所以說,這需要站長進一步分析判斷這些尚不明確的爬蟲行為,再作最終決定。
但,根據以往的經驗,未宣告行為目的及未命名的蜘蛛爬蟲,通常都有不可告人的祕密,我們理應對其行為進行控制,比如攔截。
通過Robots.txt攔截
您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 CorpusCrawler 或限制其訪問許可權。我們建議安裝 Spider Analyser
外掛,以檢查它是否真正遵循這些規則。
User-agent: CorpusCrawler
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: CorpusCrawler
Disallow: /
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: CorpusCrawler
Disallow: /
您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。
更多資訊
NLP中心的體例
- ske.fi.muni.cz 提供:
- 為馬薩里克大學的員工和學生提供Sketch引擎
- NLP中心(正在)開發的語料庫:
語料庫(lang) |
數以百萬計的tokens |
NEW: English (ClueWeb09)1 |
82,581 |
Russian |
20,162 |
English |
12,968 |
French |
12,369 |
Japanese |
11,113 |
Polish |
9,567 |
Spanish (American) |
8,719 |
Arabic |
6,637 |
Czech |
5,818 |
Turkish |
4,125 |
Hungarian |
3,184 |
Italian |
3,077 |
German |
2,844 |
Spanish (European) |
2,459 |
Chinese |
2,107 |
Portuguese (European) |
948 |
Slovak |
876 |
Bulgarian |
849 |
Norwegian |
770 |
Korean |
561 |
czes (Czech) |
465 |
Estonian |
324 |
Kazakh |
139 |
Azerbaijani |
115 |
Tajik |
52 |
Uzbek |
25 |
Kyrgyz |
24 |
Turkmen |
2 |
DESAM (Czech) |
1 |
- 與Lexical Computing Ltd.合作開發的軟體:
- NLP中心的語料庫相關專案:
如有必要,請聯絡 corpadm@aurora.fi.muni.cz