IP地址(2) | 服务器名称 | 所属国家 |
---|---|---|
77.240.183.233 | toad6.sketchengine.eu | CZ |
95.87.154.11 | macocu-crawl1.ijs.si | ? |
IP地址(2) | 服务器名称 | 所属国家 |
---|---|---|
95.87.154.12 | macocu-crawl2.ijs.si | SI |
95.87.154.11 | macocu-crawl1.ijs.si | SI |
对于未知蜘蛛或者爬虫。它的用途对网站来说可能是好的,也可能是坏的,这取决于它是什么。所以说,这需要站长进一步分析判断这些尚不明确的爬虫行为,再作最终决定。 但,根据以往的经验,未声明行为目的及未命名的蜘蛛爬虫,通常都有不可告人的秘密,我们理应对其行为进行控制,比如拦截。
您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 CLARIN bot 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。
# robots.txt # 下列代码一般情况可以拦截该代理 User-agent: CLARIN bot Disallow: /
您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。
MaCoCu是一个由CEF资助的项目,目的是收集、整理和丰富欧盟成员国和候选国的12种资源不足的语言在互联网上的单语和平行数据。阿尔巴尼亚语、波斯尼亚语、保加利亚语、克罗地亚语、希腊语、冰岛语、马其顿语、马耳他语、黑山语、塞尔维亚语、斯洛文尼亚语和土耳其语。单语数据的收集是由斯洛文尼亚卢布尔雅那的Jožef Stefan研究所进行。
我们运行一个网络爬虫,从网络上下载文本。我们使用的软件是SpiderLing,由捷克共和国Masaryk大学的自然语言处理中心开发。
MaCoCu感兴趣的是语言的使用,而不是下载文本的内容。检索到的文本将被清理,去掉重复的内容,并加上文本类型信息的注释。用于计算语言学研究的文本库和用于自然语言处理任务的语言模型将利用这些数据建立。
MaCoCu的爬虫程序遵守机器人排除标准。您可以通过创建robots.txt文件,限制对您网站上部分或全部网页的访问。MaCoCu的爬虫程序的用户代理标识是MaCoCu。如果您想阻止我们的爬虫抓取您的网站,就应该在您的 robots.txt 文件中包括这些内容。
User-agent: MaCoCu Disallow: /
请注意,爬虫在第一次访问您的网站时就会读取您的 robots.txt,因此任何修改都将在爬虫下次运行时生效,而不是立即生效。