IP地址 | 服务器名称 | 所属国家 |
---|---|---|
117.83.232.56 | 117.83.232.56 | CN |
54.236.1.12 | crawl-54-236-1-12.pinterest.com | US |
IP地址 | 服务器名称 | 所属国家 |
---|---|---|
54.236.1.11 | crawl-54-236-1-11.pinterest.com | US |
54.236.1.13 | crawl-54-236-1-13.pinterest.com | US |
188.95.153.187 | crawl-bc5f99bb.pinterestcrawler.com | IT |
94.139.48.153 | crawl-5e8b3099.pinterestcrawler.com | ES |
121.91.80.179 | crawl-795b50b3.pinterestcrawler.com | GB |
206.232.57.44 | crawl-cee8392c.pinterestcrawler.com | MX |
78.138.30.106 | crawl-4e8a1e6a.pinterestcrawler.com | AU |
154.37.68.52 | crawl-9a254434.pinterestcrawler.com | AT |
58.97.255.227 | crawl-3a61ffe3.pinterestcrawler.com | FR |
209.209.255.227 | 209.209.255.227 | MX |
117.83.232.56 | 117.83.232.56 | CN |
54.236.1.12 | crawl-54-236-1-12.pinterest.com | US |
89.19.42.174 | crawl-59132aae.pinterestcrawler.com | BR |
213.255.250.196 | crawl-d5fffac4.pinterestcrawler.com | DE |
217.194.144.38 | 217.194.144.38 | CA |
IP地址 | 服务器名称 | 所属国家 |
---|---|---|
54.236.1.12 | crawl-54-236-1-12.pinterest.com | US |
54.236.1.13 | crawl-54-236-1-13.pinterest.com | US |
IP地址 | 服务器名称 | 所属国家 |
---|---|---|
54.236.1.13 | crawl-54-236-1-13.pinterest.com | US |
54.236.1.11 | crawl-54-236-1-11.pinterest.com | US |
IP地址 | 服务器名称 | 所属国家 |
---|---|---|
54.236.1.11 | ec2-54-236-1-11.compute-1.amazonaws.com | US |
54.236.1.13 | ec2-54-236-1-13.compute-1.amazonaws.com | US |
54.236.1.68 | ec2-54-236-1-68.compute-1.amazonaws.com | US |
54.236.1.74 | ec2-54-236-1-74.compute-1.amazonaws.com | US |
54.236.1.72 | ec2-54-236-1-72.compute-1.amazonaws.com | US |
54.236.1.79 | ec2-54-236-1-79.compute-1.amazonaws.com | US |
54.236.1.71 | ec2-54-236-1-71.compute-1.amazonaws.com | US |
54.236.1.70 | ec2-54-236-1-70.compute-1.amazonaws.com | US |
54.236.1.73 | ec2-54-236-1-73.compute-1.amazonaws.com | US |
54.236.1.75 | ec2-54-236-1-75.compute-1.amazonaws.com | US |
IP地址 | 服务器名称 | 所属国家 |
---|---|---|
54.236.1.12 | crawl-54-236-1-12.pinterest.com | US |
54.236.1.13 | ec2-54-236-1-13.compute-1.amazonaws.com | US |
54.236.1.11 | ec2-54-236-1-11.compute-1.amazonaws.com | US |
54.236.1.74 | ec2-54-236-1-74.compute-1.amazonaws.com | US |
54.236.1.68 | ec2-54-236-1-68.compute-1.amazonaws.com | US |
54.236.1.72 | ec2-54-236-1-72.compute-1.amazonaws.com | US |
54.236.1.79 | ec2-54-236-1-79.compute-1.amazonaws.com | US |
54.236.1.71 | ec2-54-236-1-71.compute-1.amazonaws.com | US |
54.236.1.70 | ec2-54-236-1-70.compute-1.amazonaws.com | US |
54.236.1.73 | ec2-54-236-1-73.compute-1.amazonaws.com | US |
54.236.1.75 | ec2-54-236-1-75.compute-1.amazonaws.com | US |
54.236.1.7 | ec2-54-236-1-7.compute-1.amazonaws.com | US |
54.236.1.4 | ec2-54-236-1-4.compute-1.amazonaws.com | US |
54.236.1.3 | ec2-54-236-1-3.compute-1.amazonaws.com | US |
IP地址 | 服务器名称 | 所属国家 |
---|---|---|
54.236.1.7 | ec2-54-236-1-7.compute-1.amazonaws.com | US |
54.236.1.4 | ec2-54-236-1-4.compute-1.amazonaws.com | US |
54.236.1.3 | ec2-54-236-1-3.compute-1.amazonaws.com | US |
IP地址 | 服务器名称 | 所属国家 |
---|---|---|
54.82.14.182 | ec2-54-82-14-182.compute-1.amazonaws.com | US |
54.81.171.36 | ec2-54-81-171-36.compute-1.amazonaws.com | US |
23.20.24.147 | ec2-23-20-24-147.compute-1.amazonaws.com | US |
54.237.150.66 | ec2-54-237-150-66.compute-1.amazonaws.com | US |
54.237.197.55 | ec2-54-237-197-55.compute-1.amazonaws.com | US |
54.211.68.214 | ec2-54-211-68-214.compute-1.amazonaws.com | US |
54.234.164.192 | ec2-54-234-164-192.compute-1.amazonaws.com | US |
50.16.155.205 | ec2-50-16-155-205.compute-1.amazonaws.com | US |
23.20.84.153 | ec2-23-20-84-153.compute-1.amazonaws.com | US |
54.224.131.213 | ec2-54-224-131-213.compute-1.amazonaws.com | US |
为帮助人们发现并做他们喜爱的事情,Pinterest 创建由数十亿 Pin 图组成的数据库。为了保护 Pinterest 用户并提供最高品质的内容,Pinterest 使用网络爬虫程序(Pinterest bot)来帮助 Pinterest 识别 Pin 图后方页面上的数据。
这些页面包含丰富的信号,使 Pinterest 能够作出推断给出更好的建议,打击垃圾邮件,并显示有用的信息。为充分利用这些信号,Pinterest 经常获取、存储和处理与 Pin 图关联的页面内容。
Pinterest 爬虫程序访问你的网站主要有三个原因:
当真正的 Pinterest 爬虫程序访问你的网站时,它将发送一个有效的 Pinterest 用户代理并通过 Pinterest 运营的网络进行连接。
Pinterest 爬虫程序遵循机器人排除标准 (robots.txt),配置为限制针对你网站的并发请求速率。请勿在你的网站配置代码中固定这些 IP 地址,因为爬虫程序使用的地址可能会在未经通知的情况下发生更改。
Pinterest bot 的用户代理是:
Pinterest/0.2 (+https://www.pinterest.com/bot.html) Mozilla/5.0(compatible; Pinterestbot/1.0;+https://www.pinterest.com/bot.html)Mozilla/5.0(Linux; Android 6.0.1;Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Pinterestbot/1.0;+https://www.pinterest.com/bot.html)
Pinterest bot 的 IP 是动态的,经常变化,但始终在 54.236.1.001 到 54.236.1.255 范围内。
Pinterest 爬虫程序主要使用美国 IP 地址进行爬取。Pinterest 也可能使用美国之外的 IP 地址进行爬取以支持本地化的数据。
美国 IP 地址的范围始终为:54.236.1.XXX。
非美国 IP 地址没有固定范围。如果你担心有人伪装成 Pinterest 爬虫程序访问你的网站,请按照下一部分中的步骤验证其真实性,而非依赖于 IP 范围检查。
如果某个客户端可以发送有效的 Pinterest 用户代理,且持续向你发送流量,但此客户端无法通过上述 DNS 测试,请联系 Pinterest。
如需修改 Pinterest 爬虫程序的行为,你需要更新站点的 robots.txt 文件。确保将 robots.txt 文件放置于主域名上,因为 Pinterest 不支持子域名上的 robots.txt 文件。
较大的爬取延迟值会影响你的内容在 Pinterest 上的分发和推荐。因此,爬取延迟值最大限定为 1,大于 1 的任何值都将被视为 1。如果你需设置更大的爬取延迟值,请联系 Pinterest
user-agent: Pinterestbot Crawl-delay: 0.2
user-agent: Pinterestbot disallow: /
user-agent: Pinterestbot disallow: /directory1/
user-agent: Pinterestbot disallow: /directory1/ allow: /directory1/subdirectory1/
user-agent: Pinterestbot disallow: /directory1/ allow: /directory1/subdirectory1/ crawl-delay: 0.2
搜索引擎蜘蛛对移动设备和桌面设备的处理可以有一些不同之处。以下是一些常见的区别:
尽管搜索引擎蜘蛛对移动设备和桌面设备的处理可能略有不同,但总体目标是提供最佳的用户体验和相关的搜索结果。因此,为了获得良好的搜索可见性,建议采取以下措施:采用响应式网站设计、优化移动页面和内容、确保快速加载速度,并提供高质量和有价值的用户体验。
可以通过以下几种方式来识别和避免被搜索引擎蜘蛛认为是“过度优化”:
搜索引擎蜘蛛在处理重复内容时,会采用一些策略来判断哪些内容是重要的,哪些是不重要的。例如,如果两个网页的内容完全相同,那么搜索引擎可能会选择只保留其中一个网页的版本,或者根据链接的质量来确定哪个版本更重要。此外,有些搜索引擎还会使用相似性算法来检测内容之间的相似性,并将相似的内容进行分组,以便用户在搜索时能够更快速地找到所需的信息。
搜索引擎蜘蛛在处理重复内容时会采取一些处理策略,以确保搜索结果的质量和多样性。以下是搜索引擎蜘蛛处理重复内容的常见方法:
需要注意的是,尽管搜索引擎蜘蛛会处理重复内容,但重复内容本身可能对搜索引擎优化(SEO)产生负面影响。重复内容可能导致搜索引擎索引中的页面混淆和竞争,从而降低特定页面的排名和可见性。因此,在设计和维护网站时,应避免出现重复内容,保持页面的独特性和价值。
sitemap(网站地图)是一种XML文件,它包含了网站中所有网页的URL地址和这些页面的更新频率、更改频率等元数据。网站地图可以帮助搜索引擎蜘蛛更好地了解网站的架构和内容,从而更好地爬取网站中的网页。
搜索引擎蜘蛛是搜索引擎的自动程序,负责浏览互联网并收集网页内容,用于搜索引擎的索引和排名。当搜索引擎蜘蛛访问一个网站时,它通常会首先查找网站的sitemap。通过查看sitemap,蜘蛛可以了解网站的整体结构和可抓取的页面。这样,搜索引擎蜘蛛可以更加全面地抓取网站的内容,并将其添加到搜索引擎的索引中。
通过提供一个完整且准确的sitemap,网站所有可访问的页面都可以被搜索引擎蜘蛛发现和索引。这有助于确保网站的所有重要页面都被搜索引擎收录,从而提高页面在搜索引擎结果中的可见性和排名机会。
总结而言,sitemap是一个包含网站页面信息的XML文件,它将网站结构呈现给搜索引擎蜘蛛,以帮助其更好地抓取和索引网站内容。
可以通过以下几种方式来优化网站的加载速度以改善搜索引擎排名:
总的来说,加载速度是影响搜索引擎排名的重要因素之一。通过以上方法优化网站的加载速度可以提高搜索引擎排名,从而获得更好的流量和转化率。
可以通过以下几种方式来提高网站被搜索引擎蜘蛛抓取的频率: