YioopBot

蜘蛛/爬虫名称: YioopBot

开发商: SeekQuarry, LLC

官网: www.seekquarry.com

当前状态: 活动

YioopBot
YioopBot
YioopBot
YioopBot
YioopBot
YioopBot
gofind

用户代理字符串: Mozilla/5.0 (compatible; YioopBot; +https://www.yioop.com/bot.php)

类型: 搜索引擎

首次出现: 2019-07-15 18:47:22

最后出现: 2020-09-22 17:34:17

遵循robots.txt

IP地址: 5

来源

IP地址	服务器名称	所属国家
173.13.143.76	173-13-143-76-sfba.hfc.comcastbusiness.net	US
173.13.143.74	173-13-143-74-sfba.hfc.comcastbusiness.net	US
173.13.143.78	173-13-143-78-sfba.hfc.comcastbusiness.net	US

用户代理字符串: Mozilla/5.0 (compatible; Please Name Your robot; +http://192.168.1.33:23481/yioop/bot.php)

类型: 搜索引擎

首次出现: 2018-09-25 08:59:59

最后出现: 2018-09-25 09:03:10

遵循robots.txt

IP地址: 1

来源

IP地址	服务器名称	所属国家
95.31.13.58	shabuninairina.static.corbina.ru	RU

用户代理字符串: Mozilla/5.0 (compatible; YioopBot; +http://173.13.143.74/bot.php)

类型: 搜索引擎

首次出现: 2013-01-07 13:05:46

最后出现: 2015-10-15 17:48:39

遵循robots.txt

IP地址: 2

来源

IP地址	服务器名称	所属国家
173.13.143.74	173-13-143-74-sfba.hfc.comcastbusiness.net	US
173.13.143.78	173-13-143-78-sfba.hfc.comcastbusiness.net	US

用户代理字符串: Mozilla/5.0 (compatible; TestBot; +http://localhost/yioop/bot.php)

类型: 搜索引擎

首次出现: 2015-08-25 07:44:05

最后出现: 2015-08-25 07:44:05

遵循robots.txt

IP地址: 1

来源

IP地址	服务器名称	所属国家
78.69.113.163	78-69-113-163-no49.tbcn.telia.com	SE

用户代理字符串: Mozilla/5.0 (compatible; YioopBot; +http://www.yioop.com/bot.php)

类型: 搜索引擎

首次出现: 2012-03-12 19:24:27

最后出现: 2012-11-18 00:22:43

遵循robots.txt

IP地址: 2

来源

IP地址	服务器名称	所属国家
173.13.143.76	173-13-143-76-sfba.hfc.comcastbusiness.net	US
173.13.143.74	173-13-143-74-sfba.hfc.comcastbusiness.net	US
173.13.143.78	173-13-143-78-sfba.hfc.comcastbusiness.net	US
95.31.13.58	shabuninairina.static.corbina.ru	RU
78.69.113.163	78-69-113-163-no49.tbcn.telia.com	SE

用户代理字符串: Mozilla/5.0 (compatible; YioopBot; +http://www.yioop.com/bot.php)

类型: 搜索引擎

首次出现: 2012-03-12 19:24:27

最后出现: 2012-11-18 00:22:43

遵循robots.txt

IP地址: 2

来源

IP地址	服务器名称	所属国家
173.13.143.74	173-13-143-74-sfba.hfc.comcastbusiness.net	US
173.13.143.78	173-13-143-78-sfba.hfc.comcastbusiness.net	US

用户代理字符串: Mozilla/5.0 (compatible; gofind; +http://govid.mobi/bot.php)

类型: 搜索引擎

首次出现: 2012-04-09 10:20:42

最后出现: 2012-04-06 19:37:19

遵循robots.txt

IP地址: 1

来源

IP地址	服务器名称	所属国家
69.60.122.130	69.60.122.130	US

如何识别Yioop Bot

估计你来到这个网站是因为你注意到了来自一个用户代理的流量，该代理以字符串的形式识别自己。

Mozilla/5.0 (compatible; YioopBot; +http://www.yioop.com/bot.php)

如果该IP地址也是173.13.143.73至78，那么你就来到了正确的地方，可以了解到可能是谁在抓取你的网站。如果是不同的IP地址，那么就有其他人劫持了我的爬虫的名字。

谁在运行Yioop Bot

几年前，Chris Pollett开始在家用机器上进行实验，以创建一个2500万页的索引。Chris Pollett选择2500万作为目标，因为这是在1998年关于谷歌的原始论文中抓取的页面数量。Chris Pollett终于在2011年10月初实现了这个目标。Chris Pollett的下一个目标是在我的家用机器上抓取1亿个页面–这是Nutch在2003年的演示中抓取的数字。这是在2012年2月5日至3月14日期间通过Yioop实现的。以下是Chris Pollett已经/正在进行的较长时间的抓取列表：

May. 24, 2019 – . 测试爬行序列，希望能在新的十亿页爬行中达到高潮。
Oct. 10, 2014 – Oct 15, 2015 . 十亿个页面。
Jul. 31, 2013 – Nov. 11, 2013 . 3.34亿个页面。
Dec. 17, 2012 – Mar. 14, 2013 . 2.76亿页。
May, 2012 – July, 2012 . 2.5亿个页面。

抓取结果被用于一个实际的搜索引擎，可在http://www.yioop.com/。这个网站得到来自世界各地的查询。这个搜索引擎和爬虫的GPLv3源代码可在http://www.seekquarry.com/。如果你真的很无聊，你可以在你的网站上实际测试这个软件，以确认或反驳下面描述的内容。如果你发现了错误，最好能给Chris Pollett写信，地址在本文末尾。

Yioop Bot爬行网站的频率

Yioop Bot目前是在少量的机器上零星地运行（不是连续地）。每台机器有大约4-6个取样器进程。每个采集器在任何时候最多打开100-300个连接。在一个典型的情况下，这些连接不会都到同一个主机上。

你如何改变Yioop Bot对你网站的抓取方式

Yioop Bot理解robots.txt（必须是robots.txt而不是robot.txt）文件，并将服从其中的命令，但阻止抓取网站主机页面（又称登陆页）的命令除外。也就是说，如果你有一个命令阻止像http://foo.com/some_path，Yioop将遵守它；但Yioop仍然可能下载页面http://foo.com/。robots.txt必须放在你网站的根目录下，以便遵守其指令。Yioop不会在子文件夹中寻找robots.txt文件。一个简单的robots.txt文件可以阻止Yioop！抓取除主机url页面、cool_stuff文件夹及其子文件夹以外的任何文件夹，它看起来像：

User-agent: YioopBot	
Disallow: /
Allow: /cool_stuff/

YioopBot也服从HTML ROBOTS元标签，内容包括none, noindex, nofollow, noarchive, nosnippet。一个使用noindex, nofollow指令的HTML页面示例可能看起来如下。

<!DOCTYPE html >
<html>
<head><title>Meta Robots Example</title>
<meta name="ROBOTS" content="NOINDEX,NOFOLLOW" />
<!-- The members of the content attribute must be comma separated, 
whitespace will be ignored-->
</head>
<body>
<p>Stuff robots shouldn't put in their index.
<a href="/somewhere">A link that nofollow will prevent from being followed</a></p>
</body>
</html>

YioopBot不使用开放目录或雅虎目录数据，所以隐含地支持noodp和noydir。YioopBot不分大小写地进行匹配。在文档的头部，人们也可以使用rel canonical语法指定一个对应于当前页面的规范页面。比如说：

<link rel="canonical" href="http://my.canonical.page.com/" />

可能会出现在一个有url http://my.canonical.page.com/?t=gratuitous_token 的页面上，以表明这个页面和规范页面是一样的。在HTML文档中，Yioop Bot会尊重锚定指令。例如，以下链接不会被Yioop Bot跟踪：

<a href="/somewhere_else" rel="nofollow" >This link would not be followed by YioopBot</a>

Yioop Bot进一步理解了对robots.txt标准的Crawl-delay扩展，也理解了Sitemap指令。比如说：

User-agent: YioopBot	
Crawl-Delay: 10 # YioopBot will wait 10 seconds between requests
Sitemap: http://www.mycoolsite.com/mycoolsitemap.xml.gz #YioopBot will eventually download

对于非HTML页面，你可以控制Yioop Bot如何索引，跟踪链接，以及Yioop！如何在Yioop！中显示这些页面的结果。网站上显示这些网页的结果，通过使用X-Robots-Tag HTTP头。例如，如果你的网络服务器在实际页面数据（如PDF文件）之前，作为其HTTP响应头的一部分，发送以下内容：

X-Robots-Tag: nosnippet

那么，如果该PDF文件作为搜索结果的一部分出现，那么搜索结果中的链接下就不会有片段文本。如果你想为一个非html文件指定一个规范的链接，你可以使用一个HTTP头，比如。

Link: <http://my.canonical.page.com/sub_dir/my.pdf>; rel="canonical"

关于 robots.txt 和 Meta 标签处理的更多具体信息

在处理robots.txt文件时，如果Disallow和Allow行有冲突，YioopBot会优先考虑Allow指令，而不是Disallow指令，因为robots.txt的默认行为是允许一切，除了明确不允许的内容。

如果一个网页有一个noindex元标签，那么它就不会出现在搜索结果中，前提是Yioop！已经实际下载了该网页。如果Yioop！没有下载该网页，或者被robots.txt文件禁止下载该网页，那么该网页的链接就有可能出现在搜索结果中。这可能发生在另一个页面链接到给定的页面，而Yioop提取了这个链接及其文本，并在搜索结果中使用它们。人们可以通过在Yioop！中输入info:URL查询并查看结果来检查一个URL是否被下载。

当处理robots.txt文件时，YioopBot首先寻找YioopBot用户代理块，并提取其中列出的所有允许和不允许路径。一旦成功，这些就构成了YioopBot用来限制其访问你的网站的路径。如果它找不到任何这样的块，它就会不分大小写地搜索可能包含通配符*的User-Agent名称，这些名称与YioopBot的名称匹配。例如，*oop*，*Bot*，等等。然后，它解析所有这些块，并使用它们来限制对你的网站的访问。特别是，如果你有一个块 “User-Agent: *”，后面有允许和禁止规则，但没有YioopBot的块，那么这些路径将是YioopBot使用和尊重的。
根据网站地图规范，网站地图指令与任何特定的用户代理没有关联。因此，Yioop会在它所做的范围内处理它发现的任何此类指令。

在2012年3月（v 0.86）之前，YioopBot在处理允许和禁止路径时，不理解这些路径中的*或$。”*”和”$”是谷歌、雅虎和必应支持的原始 robots.txt 规范的扩展。从2012年3月起，YioopBot可以理解这些扩展。因此，举例来说，人们可以通过设置Disallow路径来阻止访问你的网站上包含查询字符串的页面，例如：

Disallow: /*?

Yioop！利用cURL库来下载网页。在2012年3月（v0.86）之前，Yioop！使用cURL的自动跟踪重定向。这意味着Yioop! 有时会跟随URL缩短链接或其他重定向到一个robots.txt会拒绝它访问的页面。自2012年3月起，Yioop！不使用cURL的这一功能，而是提取一个链接，该链接必须通过与所有其他链接一样的排队和robots.txt检查。

Yioop Bot改变其行为的速度有多快

当我的机器爬行时间超过一天时，它们会缓存 robots.txt 文件。它们使用缓存的指令，而不是重新请求robots.txt文件，24小时后才再次对robots.txt文件进行新的请求。因此，如果你改变了你的robots.txt文件，在我的爬虫注意到这些变化之前，可能需要花一点时间。

联系信息

如果您对Chris Pollett的爬虫有任何疑问，请随时联系Chris Pollett（chris@pollett.org）。

常见问题

FAQs

搜索引擎蜘蛛对移动设备和桌面设备的处理有何不同？
搜索引擎蜘蛛对移动设备和桌面设备的处理可以有一些不同之处。以下是一些常见的区别：
1. 移动友好性检查：搜索引擎蜘蛛会检查网站的移动友好性。对于移动设备，它们倾向于优先索引和显示移动友好的网站。这包括响应式网站设计、适应移动屏幕大小和触摸屏幕等移动设备特性的网站。
2. 移动内容索引：对于移动设备，搜索引擎蜘蛛可能会独立地索引移动版本的内容。这是因为移动和桌面设备的用户需求和搜索行为可能不完全相同。蜘蛛可能会更加重视移动设备用户的搜索结果和体验。
3. 网页加载速度：搜索引擎蜘蛛会注意网页的加载速度，尤其是对于移动设备。移动设备的网络连接通常比桌面设备慢，因此网页的加载速度对于移动设备用户来说更加重要。蜘蛛会考虑网页的加载性能并可能将其作为排名因素之一。
4. 移动应用索引：对于包含应用页面的网站，搜索引擎蜘蛛还可以索引移动应用的相关内容。这使得移动应用可以在搜索结果中显示，并提供用户直接链接到应用的可能性。
尽管搜索引擎蜘蛛对移动设备和桌面设备的处理可能略有不同，但总体目标是提供最佳的用户体验和相关的搜索结果。因此，为了获得良好的搜索可见性，建议采取以下措施：采用响应式网站设计、优化移动页面和内容、确保快速加载速度，并提供高质量和有价值的用户体验。
如何识别和避免被搜索引擎蜘蛛认为是“过度优化”？
可以通过以下几种方式来识别和避免被搜索引擎蜘蛛认为是“过度优化”：
- 分析竞争对手的网站：了解竞争对手的网站是如何进行搜索引擎优化的，可以帮助站长识别哪些是过度的优化手段，从而避免使用这些手段。
- 不要过分依赖关键词：虽然关键词在搜索引擎优化中很重要，但不要过分依赖关键词。要在保证网页质量和用户体验的前提下，合理使用关键词。
- 不要大量建立链接：建立外部链接是提高网站排名的重要方法之一，但不要大量建立没有价值的链接。这些链接不仅不会提高网站的相关性和排名，还可能被搜索引擎视为垃圾内容。
- 不要重复发布相同的内容：重复发布相同的内容不仅不会增加网站的相关性和排名，还可能被搜索引擎视为垃圾内容。因此，站长要避免重复发布相同的内容，并保持网站内容的新鲜度。
搜索引擎蜘蛛如何处理重复的内容？
搜索引擎蜘蛛在处理重复内容时，会采用一些策略来判断哪些内容是重要的，哪些是不重要的。例如，如果两个网页的内容完全相同，那么搜索引擎可能会选择只保留其中一个网页的版本，或者根据链接的质量来确定哪个版本更重要。此外，有些搜索引擎还会使用相似性算法来检测内容之间的相似性，并将相似的内容进行分组，以便用户在搜索时能够更快速地找到所需的信息。

搜索引擎蜘蛛在处理重复内容时会采取一些处理策略，以确保搜索结果的质量和多样性。以下是搜索引擎蜘蛛处理重复内容的常见方法：
1. 索引和排重：搜索引擎蜘蛛会首先抓取网页内容，并将其添加到搜索引擎的索引中。在索引过程中，蜘蛛会使用去重算法，比较页面内容的相似性，并识别和排除重复的页面，以确保不会重复显示相同或几乎相同的结果。
2. 选择最佳内容：如果搜索引擎发现多个重复的页面，而这些页面并非恶意重复，蜘蛛会尝试选择其中最佳的一个显示在搜索结果中。该选择通常基于一系列因素，如页面权威性、原创性、用户体验等。
3. 高质量内容优先：搜索引擎普遍偏向于显示高质量、独特且原创的内容。如果多个页面包含相同或相似的内容，但其中一个被认为是高质量和权威的来源，搜索引擎可能会选择该来源作为主要显示的页面。
需要注意的是，尽管搜索引擎蜘蛛会处理重复内容，但重复内容本身可能对搜索引擎优化（SEO）产生负面影响。重复内容可能导致搜索引擎索引中的页面混淆和竞争，从而降低特定页面的排名和可见性。因此，在设计和维护网站时，应避免出现重复内容，保持页面的独特性和价值。
什么是sitemap，它与搜索引擎蜘蛛有何关系？

sitemap（网站地图）是一种XML文件，它包含了网站中所有网页的URL地址和这些页面的更新频率、更改频率等元数据。网站地图可以帮助搜索引擎蜘蛛更好地了解网站的架构和内容，从而更好地爬取网站中的网页。

搜索引擎蜘蛛是搜索引擎的自动程序，负责浏览互联网并收集网页内容，用于搜索引擎的索引和排名。当搜索引擎蜘蛛访问一个网站时，它通常会首先查找网站的sitemap。通过查看sitemap，蜘蛛可以了解网站的整体结构和可抓取的页面。这样，搜索引擎蜘蛛可以更加全面地抓取网站的内容，并将其添加到搜索引擎的索引中。

通过提供一个完整且准确的sitemap，网站所有可访问的页面都可以被搜索引擎蜘蛛发现和索引。这有助于确保网站的所有重要页面都被搜索引擎收录，从而提高页面在搜索引擎结果中的可见性和排名机会。

总结而言，sitemap是一个包含网站页面信息的XML文件，它将网站结构呈现给搜索引擎蜘蛛，以帮助其更好地抓取和索引网站内容。
如何优化网站的加载速度以改善搜索引擎排名？
可以通过以下几种方式来优化网站的加载速度以改善搜索引擎排名：
1. 优化图片和文件大小：压缩和优化图片和文件的大小，可以减少加载时间。使用图片压缩工具和文件压缩工具来减小文件大小，同时保持图片质量。
2. 缓存内容：使用缓存技术可以减少重复的服务器请求和响应时间，从而提高加载速度。通过使用缓存插件或缓存服务器来缓存网站内容，可以加快网站速度。
3. 优化代码和样式：减少网站代码和样式的复杂性可以加快加载速度。使用简洁的HTML、CSS和JavaScript代码，避免使用过多的嵌套和复杂的样式，同时压缩CSS和JavaScript文件。
4. 使用CDN加速：CDN（Content Delivery Network）可以将网站内容从用户最近的服务器中快速传输，从而加速加载速度。使用CDN服务可以提高网站的速度和可用性，同时提高搜索引擎排名。
5. 优化数据库：如果网站使用数据库来存储数据，可以通过优化数据库来提高加载速度。使用索引来加速数据库查询，优化数据表的大小和结构，同时减少数据库的查询次数。
6. 使用缓存插件或服务器：使用缓存插件或服务器可以提高网站的加载速度和性能。这些插件或服务器可以将网站内容缓存到内存中，从而加速网站的速度。
7. 优化服务器配置：优化服务器配置可以提高网站的加载速度和性能。例如，调整服务器的并发连接数、开启gzip压缩等。
总的来说，加载速度是影响搜索引擎排名的重要因素之一。通过以上方法优化网站的加载速度可以提高搜索引擎排名，从而获得更好的流量和转化率。
如何提高网站被搜索引擎蜘蛛抓取的频率？
可以通过以下几种方式来提高网站被搜索引擎蜘蛛抓取的频率：
- 增加链接的多样性：除了在网站内部进行链接的优化之外，还可以增加外部链接的数量和多样性，这样可以增加搜索引擎蜘蛛爬取网站的入口，提高抓取频率。
- 与其他网站建立良好的链接关系：与其他网站建立良好的链接关系可以让搜索引擎蜘蛛更容易地找到你的网站，从而提高抓取频率。
- 更新网站内容：经常更新网站内容可以让搜索引擎蜘蛛认为你的网站是活跃的、有价值的，从而增加抓取频率。
- 优化网站结构：优化网站结构可以让搜索引擎蜘蛛更容易地理解网站的内容和结构，从而更容易地爬取网站。