MediaWiki crawler
MediaWiki crawler蜘蛛/爬虫属于类型,由Wikimedia Foundation Inc开发运行。您可以继续阅读下方信息,以深入了解MediaWiki crawler基本信息,用户代理和访问控制等。
基本信息
MediaWiki crawler的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
- 蜘蛛/爬虫名称
- MediaWiki crawler
- 类型
- 其他
- 开发商
-
Wikimedia Foundation Inc
- 当前状态
-
活动
用户代理
关于MediaWiki crawler蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
Pywikibot/9.0.0.dev0
-
Pywikibot/9.0.0.dev0
-
Pywikibot/8.0.0.dev0
-
Pywikibot/7.3.0.dev0
-
Pywikibot/7.0.0.dev0
-
Pywikibot/6.2.0.dev0
- 用户代理字符串
- wlc3 Pywikibot/9.0.0.dev0 (g18371) requests/2.31.0 Python/3.10.12.final.0
- 首次出现
- 2024-01-19 03:02:05
- 最后出现
- 2024-01-19 03:02:05
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
185.102.189.20 |
host-185-102-189-20.jmdi.pl |
PL |
- 用户代理字符串
- wlc3 Pywikibot/8.0.0.dev0 (g17442) requests/2.28.1 Python/3.10.6.final.0
- 首次出现
- 2023-01-04 22:21:24
- 最后出现
- 2023-01-04 22:21:24
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
185.102.189.20 |
host-185-102-189-20.jmdi.pl |
PL |
- 用户代理字符串
- wlc3 Pywikibot/7.3.0.dev0 (g16522) requests/2.26.0 Python/3.8.10.final.0
- 首次出现
- 2022-05-10 23:06:16
- 最后出现
- 2022-05-10 23:06:16
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
185.102.189.20 |
host-185-102-189-20.jmdi.pl |
PL |
- 用户代理字符串
- wlc3 Pywikibot/7.0.0.dev0 (g15566) requests/2.26.0 Python/3.8.10.final.0
- 首次出现
- 2021-10-28 19:23:30
- 最后出现
- 2021-10-29 11:44:11
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
185.102.189.20 |
host-185-102-189-20.jmdi.pl |
PL |
- 用户代理字符串
- wlc3 Pywikibot/6.2.0.dev0 (g14905) requests/2.25.1 Python/3.8.5.final.0
- 首次出现
- 2021-05-25 03:31:39
- 最后出现
- 2021-05-25 03:31:39
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
185.102.189.20 |
host-185-102-189-20.jmdi.pl |
PL |
访问控制
了解如何控制MediaWiki crawler访问权限,避免MediaWiki crawler抓取行为不当。
是否拦截MediaWiki crawler?
对于未知蜘蛛或者爬虫。它的用途对网站来说可能是好的,也可能是坏的,这取决于它是什么。所以说,这需要站长进一步分析判断这些尚不明确的爬虫行为,再作最终决定。
但,根据以往的经验,未声明行为目的及未命名的蜘蛛爬虫,通常都有不可告人的秘密,我们理应对其行为进行控制,比如拦截。
通过Robots.txt拦截
您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 MediaWiki crawler 或限制其访问权限。我们建议安装 Spider Analyser
插件,以检查它是否真正遵循这些规则。
# robots.txt
# 下列代码一般情况可以拦截该代理
User-agent: MediaWiki crawler
Disallow: /
您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。