Wikipedia crawler

Wikipedia crawler蜘蛛/爬虫属于链接检测类型，由Wikimedia Foundation Inc开发运行。您可以继续阅读下方信息，以深入了解Wikipedia crawler基本信息，用户代理和访问控制等。

基本信息

Wikipedia crawler的基本信息如下表。但部分不是很规范的蜘蛛和爬虫，可能存在信息不明的情况。

蜘蛛/爬虫名称: Wikipedia crawler

类型: 链接检测

开发商: Wikimedia Foundation Inc

当前状态: 活动

用户代理

关于Wikipedia crawler蜘蛛或者爬虫的用户代理字符串，IP地址和服务器，所在地等信息如下表格所示：

用户代理字符串: IABot/2.0 (+https://meta.wikimedia.org/wiki/InternetArchiveBot/FAQ_for_sysadmins) (Checking if link from Wikipedia is broken and needs removal)

首次出现: 2019-09-21 07:32:50

最后出现: 2024-12-10 05:45:33

遵循robots.txt: 未知

来源

IP地址(3)	服务器名称	所属国家
185.15.56.22	instance-cyberbot-exec-iabot-01.cyberbot.wmflabs.org	US
185.15.56.29	instance-cyberbot-exec-iabot-02.cyberbot.wmflabs.org	NL
185.15.56.1	nat.cloudgw.eqiad1.wikimediacloud.org	US

用户代理字符串: IABot: Checking if link from Wikipedia is broken and needs removal - See https://meta.wikimedia.org/wiki/InternetArchiveBot/FAQ_for_sysadmins

首次出现: 2019-04-19 05:00:12

最后出现: 2019-09-09 08:13:37

遵循robots.txt: 未知

来源

IP地址(1)	服务器名称	所属国家
185.15.56.22	instance-cyberbot-exec-iabot-01.cyberbot.wmflabs.org	US

用户代理字符串: COIBotParser/2.0

首次出现: 2019-08-09 09:08:31

最后出现: 2019-08-09 09:08:31

遵循robots.txt: 未知

来源

IP地址(1)	服务器名称	所属国家
185.15.56.1	nat.openstack.eqiad1.wikimediacloud.org	NL

用户代理字符串: German Wikipedia Broken Weblinks Bot; contact: gifti@tools.wmflabs.org

首次出现: 2015-02-21 09:58:19

最后出现: 2017-02-14 08:13:11

遵循robots.txt: 未知

来源

IP地址(1)	服务器名称	所属国家
208.80.155.255	internal-server-nat.wmflabs.org	US

访问控制

了解如何控制Wikipedia crawler访问权限，避免Wikipedia crawler抓取行为不当。

是否拦截Wikipedia crawler？

通常不需要。链接检测类爬虫的爬取行为一般也不是自发性的，仅当认为提交网站链接检测请求，这些爬虫才会对网站的链接进行抓取和检测。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 Wikipedia crawler 或限制其访问权限。我们建议安装 Spider Analyser 插件，以检查它是否真正遵循这些规则。

# robots.txt

# 下列代码一般情况可以拦截该代理

User-agent: Wikipedia crawler

Disallow: /

# robots.txt # 下列代码一般情况可以拦截该代理 User-agent: Wikipedia crawler Disallow: /

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: Wikipedia crawler
	Disallow: /

您无需手动执行此操作，可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

站长工具

我们为站长量身定做的高效工具集。

查看全部工具

常见蜘蛛/爬虫

Common Spiders

Online Domain Tools

Online Domain Tools蜘蛛/爬虫属于监控类型，由AITIS s.r.o.开发运行。您可以继续阅读下方信息，以深入了解Online Domain Tools基本信息，用户代理和访问控制等。

UASlinkChecker

UASlinkChecker蜘蛛/爬虫属于链接检测类型，由Udger s.r.o.开发运行。您可以继续阅读下方信息，以深入了解UASlinkChecker基本信息，用户代理和访问控制等。

WPMU DEV crawler

WPMU DEV crawler蜘蛛/爬虫属于链接检测类型，由Incsub, LLC开发运行。您可以继续阅读下方信息，以深入了解WPMU DEV crawler基本信息，用户代理和访问控制等。

Wikipedia crawler

Dead Link Checker

Dead Link Checker蜘蛛/爬虫属于链接检测类型，由Slogical Corporation开发运行。您可以继续阅读下方信息，以深入了解Dead Link Checker基本信息，用户代理和访问控制等。

Urlcheckr

Urlcheckr蜘蛛/爬虫属于链接检测类型，由Device Independent开发运行。您可以继续阅读下方信息，以深入了解Urlcheckr基本信息，用户代理和访问控制等。

MB-SiteCrawler

MB-SiteCrawler蜘蛛/爬虫属于链接检测类型，由Marco Beierer开发运行。您可以继续阅读下方信息，以深入了解MB-SiteCrawler基本信息，用户代理和访问控制等。

BrokenLinkCheck.com

BrokenLinkCheck.com蜘蛛/爬虫属于链接检测类型，由brokenlinkcheck.com开发运行。您可以继续阅读下方信息，以深入了解BrokenLinkCheck.com基本信息，用户代理和访问控制等。

如何使用Google AI Studio（新手入门教程）

这份 Google AI Studio 指南在复杂的机器学习技术和实际应用之间架起了一座桥梁。无论您是开发人员、数据科学家还是业务专家，这个基于网络的平台都能为您提供机会，让您轻松便捷地进行实验、原型设计和部署人工智能驱动的解决方案。

什么是RAG系统中的偏见？

本文探讨了人工智能中的公平性、RAG 带来的不同公平性风险、为什么会出现这种情况、如何减轻这种情况以及对未来的建议。

MoCha：Meta在会说话的角色合成方面的获得电影级飞跃

Meta 发布了一篇研究论文，并提供了他们的新视频生成模型 MoCha（电影角色动画生成器）的演示示例。但它如何在这个日益拥挤的领域中脱颖而出？它与 Sora、Pika 或其他当前的人工智能视频生成模型有何不同？更重要的是，作为创作者、开发者或研究者，如何利用它为自己谋福利？我们将在本篇文章中探讨这些问题。让我们一起来解码 Meta 的 MoCha。

如何隐藏或显示WordPress区块内容

对于任何 WordPress 开发人员或设计人员来说，控制在什么情况下可以看到什么内容都是非常有价值的工具。您选择的方法–是现成的插件还是自定义代码–取决于您的具体需求和技术专长。

开放源码和开放权重模型之间有何区别？

随着越来越多的人使用大型语言模型（LLM），“开放权重”和“开源模型”等术语变得很常见。但究竟什么是开放权重和开源模型呢？本文将解释模型权重、开放权重和开源模型之间的区别，以及为什么这对开发人员和研究人员很重要。

利用Canvas模式轻松构建和共享ChatGPT工具

ChatGPT 的 Canvas 模式中有一项功能正在改变我们共享和协作数字工具的方式。它不再只是共享文本，现在你可以创建并与任何人共享实际的工作工具和迷你应用程序。

如何将WordPress网站设置为维护模式（故障排除和自定义页面教程）

与普通页面不同的是，维护页面使用 503 标准 HTTP 状态代码，告诉搜索引擎宕机是暂时的，避免搜索引擎优化惩罚。在本文中，我们将教你几种不同的方法来实现这种维护页面。

构建从屏幕截图自动检测代码错误的多代理系统

人工智能能否仅通过分析屏幕截图就能检测并修复编码错误？答案是肯定的。这种创新方法利用人工智能和推理从图像中识别编码错误，提出准确的解决方案，并解释其背后的逻辑。

Wikipedia crawler

基本信息

用户代理

访问控制

是否拦截Wikipedia crawler？

通过Robots.txt拦截

更多信息

关于InternetArchiveBot

InternetArchiveBot如何运作

启动和停止机器人

配置机器人

请求特定的文章

关于InternetArchiveBot的常见问题

站长工具

常见蜘蛛/爬虫

相关文章