CLARIN bot

CLARIN bot蜘蛛/爬虫属于类型,由CLARIN.SI开发运行。您可以继续阅读下方信息,以深入了解CLARIN bot基本信息,用户代理和访问控制等。

基本信息

CLARIN bot的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
CLARIN bot
类型
其他
开发商
CLARIN.SI
当前状态
活动

用户代理

关于CLARIN bot蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
CLASSLA-web
用户代理字符串
Mozilla/5.0 (compatible; CLASSLA-web; +https://www.clarin.si/info/classla-web-crawler/)
首次出现
2024-03-06 14:22:23
最后出现
2024-08-10 06:01:10
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
77.240.183.233 toad6.sketchengine.eu CZ
95.87.154.11 macocu-crawl1.ijs.si ?
用户代理字符串
Mozilla/5.0 (compatible; MaCoCu; +https://www.clarin.si/info/macocu-massive-collection-and-curation-of-monolingual-and-bilingual-data/)
首次出现
2021-07-26 18:18:53
最后出现
2023-03-02 14:31:44
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
95.87.154.12 macocu-crawl2.ijs.si SI
95.87.154.11 macocu-crawl1.ijs.si SI

访问控制

了解如何控制CLARIN bot访问权限,避免CLARIN bot抓取行为不当。

是否拦截CLARIN bot?

对于未知蜘蛛或者爬虫。它的用途对网站来说可能是好的,也可能是坏的,这取决于它是什么。所以说,这需要站长进一步分析判断这些尚不明确的爬虫行为,再作最终决定。 但,根据以往的经验,未声明行为目的及未命名的蜘蛛爬虫,通常都有不可告人的秘密,我们理应对其行为进行控制,比如拦截。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 CLARIN bot 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: CLARIN bot
	Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

更多信息

MaCoCu

MaCoCu是一个由CEF资助的项目,目的是收集、整理和丰富欧盟成员国和候选国的12种资源不足的语言在互联网上的单语和平行数据。阿尔巴尼亚语、波斯尼亚语、保加利亚语、克罗地亚语、希腊语、冰岛语、马其顿语、马耳他语、黑山语、塞尔维亚语、斯洛文尼亚语和土耳其语。单语数据的收集是由斯洛文尼亚卢布尔雅那的Jožef Stefan研究所进行。

网络抓取

我们运行一个网络爬虫,从网络上下载文本。我们使用的软件是SpiderLing,由捷克共和国Masaryk大学的自然语言处理中心开发。

MaCoCu对下载的数据做什么?

MaCoCu感兴趣的是语言的使用,而不是下载文本的内容。检索到的文本将被清理,去掉重复的内容,并加上文本类型信息的注释。用于计算语言学研究的文本库和用于自然语言处理任务的语言模型将利用这些数据建立。

如果我不希望我的网站被抓取怎么办?

MaCoCu的爬虫程序遵守机器人排除标准。您可以通过创建robots.txt文件,限制对您网站上部分或全部网页的访问。MaCoCu的爬虫程序的用户代理标识是MaCoCu。如果您想阻止我们的爬虫抓取您的网站,就应该在您的 robots.txt 文件中包括这些内容。

User-agent: MaCoCu
Disallow: /

请注意,爬虫在第一次访问您的网站时就会读取您的 robots.txt,因此任何修改都将在爬虫下次运行时生效,而不是立即生效。

常见蜘蛛/爬虫

Common Spiders
DataForSeo bot
DataForSeo bot蜘蛛/爬虫属于类型,由DataForSEO OU开发运行。您可以继续阅读下方信息,以深入了解DataForSeo bot基本信息,用户代理和访问控制等。
CloudFlare crawler
CloudFlare crawler蜘蛛/爬虫属于类型,由CloudFlare, Inc.开发运行。您可以继续阅读下方信息,以深入了解CloudFlare crawler基本信息,用户代理和访问控制等。
Odin
Odin蜘蛛/爬虫属于类型,由Cyble, Inc.开发运行。您可以继续阅读下方信息,以深入了解Odin基本信息,用户代理和访问控制等。
Chrome Privacy Preserving Prefetch Proxy
Chrome Privacy Preserving Prefetch Proxy蜘蛛/爬虫属于类型,由Google Inc.开发运行。您可以继续阅读下方信息,以深入了解Chrome Privacy Preserving Prefetch Proxy基本信息,用户代理和访问控制等。
EFF crawler
EFF crawler蜘蛛/爬虫属于类型,由Electronic Frontier Foundation开发运行。您可以继续阅读下方信息,以深入了解EFF crawler基本信息,用户代理和访问控制等。
Modat crawler
Modat crawler蜘蛛/爬虫属于类型,由Modat B.V.开发运行。您可以继续阅读下方信息,以深入了解Modat crawler基本信息,用户代理和访问控制等。
FirmoGraph
FirmoGraph蜘蛛/爬虫属于类型,由firmograph.io开发运行。您可以继续阅读下方信息,以深入了解FirmoGraph基本信息,用户代理和访问控制等。
fluid
fluid蜘蛛/爬虫属于类型,由leak.info开发运行。您可以继续阅读下方信息,以深入了解fluid基本信息,用户代理和访问控制等。

相关文章

Related Articles