CorpusCrawler CorpusCrawler

蜘蛛/爬虫名称
CorpusCrawler
开发商
NLP - at the Faculty of Informatics, Masaryk University, Brno
官网
nlp.fi.muni.cz
当前状态
无效
  • CorpusCrawler 2.0.25
  • CorpusCrawler 2.0.24
  • CorpusCrawler 2.0.22
  • CorpusCrawler 2.0.21
  • CorpusCrawler 2.0.20
  • CorpusCrawler 2.0.19
  • CorpusCrawler 2.0.17
  • CorpusCrawler 2.0.15
  • CorpusCrawler 2.0.14
  • CorpusCrawler 2.0.13
  • CorpusCrawler 2.0.12
  • CorpusCrawler 2.0.10
  • CorpusCrawler 2.0.9
  • CorpusCrawler 2.0.8
  • CorpusCrawler 2.0.0
用户代理字符串
CorpusCrawler 2.0.25 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
类型
首次出现
2010-01-16 01:44:50
最后出现
2010-01-16 01:58:45
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.24 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
类型
首次出现
2010-01-16 00:10:02
最后出现
2010-01-16 01:19:26
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.22 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
类型
首次出现
2010-01-15 21:10:20
最后出现
2010-01-14 05:00:33
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.21 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
类型
首次出现
2010-01-12 20:27:32
最后出现
2010-01-12 20:27:32
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.20 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
类型
首次出现
2010-01-10 16:57:49
最后出现
2010-01-12 16:05:41
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.19 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
类型
首次出现
2010-01-09 17:33:58
最后出现
2010-01-10 15:34:25
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.17 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
类型
首次出现
2010-01-09 03:49:30
最后出现
2010-01-09 11:18:53
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.15 (http://corpora.fi.muni.cz/crawler/)
类型
首次出现
2010-01-13 20:14:04
最后出现
2010-01-05 20:37:45
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.14 (http://corpora.fi.muni.cz/crawler/)
类型
首次出现
2010-01-03 17:50:00
最后出现
2010-01-03 13:59:48
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.13 (http://corpora.fi.muni.cz/crawler/)
类型
首次出现
2009-05-11 05:50:00
最后出现
2010-01-03 03:48:35
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.12 (http://corpora.fi.muni.cz/crawler/)
类型
首次出现
2009-05-11 05:50:00
最后出现
2010-01-02 15:07:23
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.10 (http://corpora.fi.muni.cz/crawler/)
类型
首次出现
2009-12-26 20:34:33
最后出现
2009-12-26 06:09:29
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.9 (http://corpora.fi.muni.cz/crawler/)
类型
首次出现
2009-12-19 16:46:42
最后出现
2009-12-19 20:16:30
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.8 (http://corpora.fi.muni.cz/crawler/)
类型
首次出现
2009-12-17 01:44:59
最后出现
2009-12-17 02:42:56
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.0 (http://corpora.fi.muni.cz/crawler/)
类型
首次出现
2009-12-16 20:27:04
最后出现
2009-12-15 06:56:05
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU

NLP中心的体例

  • ske.fi.muni.cz 提供:
  • 为马萨里克大学的员工和学生提供Sketch引擎
  • NLP中心(正在)开发的语料库:
    语料库(lang) 数以百万计的tokens
    NEW: English (ClueWeb09)1 82,581
    Russian 20,162
    English 12,968
    French 12,369
    Japanese 11,113
    Polish 9,567
    Spanish (American) 8,719
    Arabic 6,637
    Czech 5,818
    Turkish 4,125
    Hungarian 3,184
    Italian 3,077
    German 2,844
    Spanish (European) 2,459
    Chinese 2,107
    Portuguese (European) 948
    Slovak 876
    Bulgarian 849
    Norwegian 770
    Korean 561
    czes (Czech) 465
    Estonian 324
    Kazakh 139
    Azerbaijani 115
    Tajik 52
    Uzbek 25
    Kyrgyz 24
    Turkmen 2
    DESAM (Czech) 1
  • 与Lexical Computing Ltd.合作开发的软件:
  • NLP中心的语料库相关项目:

如有必要,请联系 corpadm@aurora.fi.muni.cz

常见问题

FAQs
查看更多 >