CLARIN bot（MaCoCu）

基本信息

CLARIN bot的基本信息如下表。但部分不是很规范的蜘蛛和爬虫，可能存在信息不明的情况。

蜘蛛/爬虫名称: CLARIN bot

类型: 其他

开发商: CLARIN.SI

当前状态: 活动

用户代理

关于CLARIN bot蜘蛛或者爬虫的用户代理字符串，IP地址和服务器，所在地等信息如下表格所示：

用户代理字符串: Mozilla/5.0 (compatible; CLASSLA-web; +https://www.clarin.si/info/classla-web-crawler/)

首次出现: 2024-03-06 14:22:23

最后出现: 2024-08-10 06:01:10

遵循robots.txt: 未知

来源

IP地址(2)	服务器名称	所属国家
77.240.183.233	toad6.sketchengine.eu	CZ
95.87.154.11	macocu-crawl1.ijs.si	?

用户代理字符串: Mozilla/5.0 (compatible; MaCoCu; +https://www.clarin.si/info/macocu-massive-collection-and-curation-of-monolingual-and-bilingual-data/)

首次出现: 2021-07-26 18:18:53

最后出现: 2023-03-02 14:31:44

遵循robots.txt: 未知

来源

IP地址(2)	服务器名称	所属国家
95.87.154.12	macocu-crawl2.ijs.si	SI
95.87.154.11	macocu-crawl1.ijs.si	SI

访问控制

了解如何控制CLARIN bot访问权限，避免CLARIN bot抓取行为不当。

是否拦截CLARIN bot？

对于未知蜘蛛或者爬虫。它的用途对网站来说可能是好的，也可能是坏的，这取决于它是什么。所以说，这需要站长进一步分析判断这些尚不明确的爬虫行为，再作最终决定。但，根据以往的经验，未声明行为目的及未命名的蜘蛛爬虫，通常都有不可告人的秘密，我们理应对其行为进行控制，比如拦截。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 CLARIN bot 或限制其访问权限。我们建议安装 Spider Analyser 插件，以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: CLARIN bot
	Disallow: /

您无需手动执行此操作，可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

更多信息

MaCoCu

MaCoCu是一个由CEF资助的项目，目的是收集、整理和丰富欧盟成员国和候选国的12种资源不足的语言在互联网上的单语和平行数据。阿尔巴尼亚语、波斯尼亚语、保加利亚语、克罗地亚语、希腊语、冰岛语、马其顿语、马耳他语、黑山语、塞尔维亚语、斯洛文尼亚语和土耳其语。单语数据的收集是由斯洛文尼亚卢布尔雅那的Jožef Stefan研究所进行。