
如何做搜索引擎蜘蛛日志分析
搜索引擎蜘蛛日志文件是一种非常强大但未被站长充分利用的文件,分析它可以获取有关每个搜索引擎如何爬取网站内容的相关信息点,及查看搜索引擎蜘蛛在一段时间内的行为。
IP地址(1) | 服务器名称 | 所属国家 |
---|---|---|
185.104.248.7 | firstbyte-23.domengood.ru | RU |
185.195.24.62 | ? | RU |
185.195.24.52 | firstbyte-3.domengood.ru | RU |
62.24.252.133 | host-62-24-252-133.as13285.net | UK |
69.28.58.3 | web3.alexiadns.com | US |
62.24.181.135 | host-62-24-181-135.as13285.net | UK |
112.95.147.149 | 112.95.147.149 | CN |
69.28.58.14 | web14.alexiadns.com | US |
69.28.58.16 | web16.alexiadns.com | US |
69.28.58.17 | 69.28.58.17 | US |
69.28.58.15 | 69.28.58.15 | US |
69.28.58.13 | 69.28.58.13 | US |
69.28.58.8 | web8.alexiadns.com | US |
185.195.24.69 | fb6.domengood.ru | RU |
IP地址(1) | 服务器名称 | 所属国家 |
---|---|---|
69.28.58.8 | web8.alexiadns.com | US |
IP地址(1) | 服务器名称 | 所属国家 |
---|---|---|
69.28.58.41 | web41.alexiadns.com | US |
69.28.58.43 | web43.alexiadns.com | US |
69.28.58.42 | 69.28.58.42 | US |
61.233.25.166 | 61.233.25.166 | CN |
69.28.58.12 | web12.alexiadns.com | US |
69.28.58.39 | web39.alexiadns.com | US |
69.28.58.7 | 69.28.58.7 | US |
69.28.58.5 | web5.alexiadns.com | US |
69.28.58.6 | web6.alexiadns.com | US |
69.28.58.8 | web8.alexiadns.com | US |
74.222.3.186 | 74.222.3.186 | US |
IP地址(1) | 服务器名称 | 所属国家 |
---|---|---|
74.222.3.186 | 74.222.3.186 | US |
对于未知蜘蛛或者爬虫。它的用途对网站来说可能是好的,也可能是坏的,这取决于它是什么。所以说,这需要站长进一步分析判断这些尚不明确的爬虫行为,再作最终决定。 但,根据以往的经验,未声明行为目的及未命名的蜘蛛爬虫,通常都有不可告人的秘密,我们理应对其行为进行控制,比如拦截。
您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 HuaweiSymantecSpider 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。
# robots.txt # 下列代码一般情况可以拦截该代理 User-agent: HuaweiSymantecSpider Disallow: /
您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。