IP地址 | 服务器名称 | 所属国家 |
---|---|---|
173.13.143.76 | 173-13-143-76-sfba.hfc.comcastbusiness.net | US |
173.13.143.74 | 173-13-143-74-sfba.hfc.comcastbusiness.net | US |
173.13.143.78 | 173-13-143-78-sfba.hfc.comcastbusiness.net | US |
IP地址 | 服务器名称 | 所属国家 |
---|---|---|
95.31.13.58 | shabuninairina.static.corbina.ru | RU |
IP地址 | 服务器名称 | 所属国家 |
---|---|---|
173.13.143.74 | 173-13-143-74-sfba.hfc.comcastbusiness.net | US |
173.13.143.78 | 173-13-143-78-sfba.hfc.comcastbusiness.net | US |
IP地址 | 服务器名称 | 所属国家 |
---|---|---|
78.69.113.163 | 78-69-113-163-no49.tbcn.telia.com | SE |
IP地址 | 服务器名称 | 所属国家 |
---|---|---|
173.13.143.76 | 173-13-143-76-sfba.hfc.comcastbusiness.net | US |
173.13.143.74 | 173-13-143-74-sfba.hfc.comcastbusiness.net | US |
173.13.143.78 | 173-13-143-78-sfba.hfc.comcastbusiness.net | US |
95.31.13.58 | shabuninairina.static.corbina.ru | RU |
78.69.113.163 | 78-69-113-163-no49.tbcn.telia.com | SE |
IP地址 | 服务器名称 | 所属国家 |
---|---|---|
173.13.143.74 | 173-13-143-74-sfba.hfc.comcastbusiness.net | US |
173.13.143.78 | 173-13-143-78-sfba.hfc.comcastbusiness.net | US |
IP地址 | 服务器名称 | 所属国家 |
---|---|---|
69.60.122.130 | 69.60.122.130 | US |
估计你来到这个网站是因为你注意到了来自一个用户代理的流量,该代理以字符串的形式识别自己。
Mozilla/5.0 (compatible; YioopBot; +http://www.yioop.com/bot.php)
如果该IP地址也是173.13.143.73至78,那么你就来到了正确的地方,可以了解到可能是谁在抓取你的网站。如果是不同的IP地址,那么就有其他人劫持了我的爬虫的名字。
几年前,Chris Pollett开始在家用机器上进行实验,以创建一个2500万页的索引。Chris Pollett选择2500万作为目标,因为这是在1998年关于谷歌的原始论文中抓取的页面数量。Chris Pollett终于在2011年10月初实现了这个目标。Chris Pollett的下一个目标是在我的家用机器上抓取1亿个页面–这是Nutch在2003年的演示中抓取的数字。这是在2012年2月5日至3月14日期间通过Yioop实现的。以下是Chris Pollett已经/正在进行的较长时间的抓取列表:
抓取结果被用于一个实际的搜索引擎,可在http://www.yioop.com/。这个网站得到来自世界各地的查询。这个搜索引擎和爬虫的GPLv3源代码可在http://www.seekquarry.com/。如果你真的很无聊,你可以在你的网站上实际测试这个软件,以确认或反驳下面描述的内容。如果你发现了错误,最好能给Chris Pollett写信,地址在本文末尾。
Yioop Bot目前是在少量的机器上零星地运行(不是连续地)。每台机器有大约4-6个取样器进程。每个采集器在任何时候最多打开100-300个连接。在一个典型的情况下,这些连接不会都到同一个主机上。
Yioop Bot理解robots.txt(必须是robots.txt而不是robot.txt)文件,并将服从其中的命令,但阻止抓取网站主机页面(又称登陆页)的命令除外。也就是说,如果你有一个命令阻止像http://foo.com/some_path,Yioop将遵守它;但Yioop仍然可能下载页面http://foo.com/。robots.txt必须放在你网站的根目录下,以便遵守其指令。Yioop不会在子文件夹中寻找robots.txt文件。一个简单的robots.txt文件可以阻止Yioop!抓取除主机url页面、cool_stuff文件夹及其子文件夹以外的任何文件夹,它看起来像:
User-agent: YioopBot Disallow: / Allow: /cool_stuff/
YioopBot也服从HTML ROBOTS元标签,内容包括none, noindex, nofollow, noarchive, nosnippet。一个使用noindex, nofollow指令的HTML页面示例可能看起来如下。
<!DOCTYPE html > <html> <head><title>Meta Robots Example</title> <meta name="ROBOTS" content="NOINDEX,NOFOLLOW" /> <!-- The members of the content attribute must be comma separated, whitespace will be ignored--> </head> <body> <p>Stuff robots shouldn't put in their index. <a href="/somewhere">A link that nofollow will prevent from being followed</a></p> </body> </html>
YioopBot不使用开放目录或雅虎目录数据,所以隐含地支持noodp和noydir。YioopBot不分大小写地进行匹配。在文档的头部,人们也可以使用rel canonical语法指定一个对应于当前页面的规范页面。比如说:
<link rel="canonical" href="http://my.canonical.page.com/" />
可能会出现在一个有url http://my.canonical.page.com/?t=gratuitous_token 的页面上,以表明这个页面和规范页面是一样的。在HTML文档中,Yioop Bot会尊重锚定指令。例如,以下链接不会被Yioop Bot跟踪:
<a href="/somewhere_else" rel="nofollow" >This link would not be followed by YioopBot</a>
Yioop Bot进一步理解了对robots.txt标准的Crawl-delay扩展,也理解了Sitemap指令。比如说:
User-agent: YioopBot Crawl-Delay: 10 # YioopBot will wait 10 seconds between requests Sitemap: http://www.mycoolsite.com/mycoolsitemap.xml.gz #YioopBot will eventually download
对于非HTML页面,你可以控制Yioop Bot如何索引,跟踪链接,以及Yioop!如何在Yioop!中显示这些页面的结果。网站上显示这些网页的结果,通过使用X-Robots-Tag HTTP头。例如,如果你的网络服务器在实际页面数据(如PDF文件)之前,作为其HTTP响应头的一部分,发送以下内容:
X-Robots-Tag: nosnippet
那么,如果该PDF文件作为搜索结果的一部分出现,那么搜索结果中的链接下就不会有片段文本。如果你想为一个非html文件指定一个规范的链接,你可以使用一个HTTP头,比如。
Link: <http://my.canonical.page.com/sub_dir/my.pdf>; rel="canonical"
在处理robots.txt文件时,如果Disallow和Allow行有冲突,YioopBot会优先考虑Allow指令,而不是Disallow指令,因为robots.txt的默认行为是允许一切,除了明确不允许的内容。
如果一个网页有一个noindex元标签,那么它就不会出现在搜索结果中,前提是Yioop!已经实际下载了该网页。如果Yioop!没有下载该网页,或者被robots.txt文件禁止下载该网页,那么该网页的链接就有可能出现在搜索结果中。这可能发生在另一个页面链接到给定的页面,而Yioop提取了这个链接及其文本,并在搜索结果中使用它们。人们可以通过在Yioop!中输入info:URL查询并查看结果来检查一个URL是否被下载。
当处理robots.txt文件时,YioopBot首先寻找YioopBot用户代理块,并提取其中列出的所有允许和不允许路径。一旦成功,这些就构成了YioopBot用来限制其访问你的网站的路径。如果它找不到任何这样的块,它就会不分大小写地搜索可能包含通配符*的User-Agent名称,这些名称与YioopBot的名称匹配。例如,*oop*,*Bot*,等等。然后,它解析所有这些块,并使用它们来限制对你的网站的访问。特别是,如果你有一个块 “User-Agent: *”,后面有允许和禁止规则,但没有YioopBot的块,那么这些路径将是YioopBot使用和尊重的。
根据网站地图规范,网站地图指令与任何特定的用户代理没有关联。因此,Yioop会在它所做的范围内处理它发现的任何此类指令。
在2012年3月(v 0.86)之前,YioopBot在处理允许和禁止路径时,不理解这些路径中的*或$。”*”和”$”是谷歌、雅虎和必应支持的原始 robots.txt 规范的扩展。从2012年3月起,YioopBot可以理解这些扩展。因此,举例来说,人们可以通过设置Disallow路径来阻止访问你的网站上包含查询字符串的页面,例如:
Disallow: /*?
Yioop!利用cURL库来下载网页。在2012年3月(v0.86)之前,Yioop!使用cURL的自动跟踪重定向。这意味着Yioop! 有时会跟随URL缩短链接或其他重定向到一个robots.txt会拒绝它访问的页面。自2012年3月起,Yioop!不使用cURL的这一功能,而是提取一个链接,该链接必须通过与所有其他链接一样的排队和robots.txt检查。
当我的机器爬行时间超过一天时,它们会缓存 robots.txt 文件。它们使用缓存的指令,而不是重新请求robots.txt文件,24小时后才再次对robots.txt文件进行新的请求。因此,如果你改变了你的robots.txt文件,在我的爬虫注意到这些变化之前,可能需要花一点时间。
如果您对Chris Pollett的爬虫有任何疑问,请随时联系Chris Pollett(chris@pollett.org)。
搜索引擎蜘蛛对移动设备和桌面设备的处理可以有一些不同之处。以下是一些常见的区别:
尽管搜索引擎蜘蛛对移动设备和桌面设备的处理可能略有不同,但总体目标是提供最佳的用户体验和相关的搜索结果。因此,为了获得良好的搜索可见性,建议采取以下措施:采用响应式网站设计、优化移动页面和内容、确保快速加载速度,并提供高质量和有价值的用户体验。
可以通过以下几种方式来识别和避免被搜索引擎蜘蛛认为是“过度优化”:
搜索引擎蜘蛛在处理重复内容时,会采用一些策略来判断哪些内容是重要的,哪些是不重要的。例如,如果两个网页的内容完全相同,那么搜索引擎可能会选择只保留其中一个网页的版本,或者根据链接的质量来确定哪个版本更重要。此外,有些搜索引擎还会使用相似性算法来检测内容之间的相似性,并将相似的内容进行分组,以便用户在搜索时能够更快速地找到所需的信息。
搜索引擎蜘蛛在处理重复内容时会采取一些处理策略,以确保搜索结果的质量和多样性。以下是搜索引擎蜘蛛处理重复内容的常见方法:
需要注意的是,尽管搜索引擎蜘蛛会处理重复内容,但重复内容本身可能对搜索引擎优化(SEO)产生负面影响。重复内容可能导致搜索引擎索引中的页面混淆和竞争,从而降低特定页面的排名和可见性。因此,在设计和维护网站时,应避免出现重复内容,保持页面的独特性和价值。
sitemap(网站地图)是一种XML文件,它包含了网站中所有网页的URL地址和这些页面的更新频率、更改频率等元数据。网站地图可以帮助搜索引擎蜘蛛更好地了解网站的架构和内容,从而更好地爬取网站中的网页。
搜索引擎蜘蛛是搜索引擎的自动程序,负责浏览互联网并收集网页内容,用于搜索引擎的索引和排名。当搜索引擎蜘蛛访问一个网站时,它通常会首先查找网站的sitemap。通过查看sitemap,蜘蛛可以了解网站的整体结构和可抓取的页面。这样,搜索引擎蜘蛛可以更加全面地抓取网站的内容,并将其添加到搜索引擎的索引中。
通过提供一个完整且准确的sitemap,网站所有可访问的页面都可以被搜索引擎蜘蛛发现和索引。这有助于确保网站的所有重要页面都被搜索引擎收录,从而提高页面在搜索引擎结果中的可见性和排名机会。
总结而言,sitemap是一个包含网站页面信息的XML文件,它将网站结构呈现给搜索引擎蜘蛛,以帮助其更好地抓取和索引网站内容。
可以通过以下几种方式来优化网站的加载速度以改善搜索引擎排名:
总的来说,加载速度是影响搜索引擎排名的重要因素之一。通过以上方法优化网站的加载速度可以提高搜索引擎排名,从而获得更好的流量和转化率。
可以通过以下几种方式来提高网站被搜索引擎蜘蛛抓取的频率: