Google的网络爬虫不断在互联网上搜索新的和更新的网页。
当这些爬虫为站点的内容编制索引时,它们不仅仅使用该信息来提供搜索结果。他们备份页面并将它们添加到名为 Google Cache 的统一数据库中。
您可能已经使用 Google 缓存查看已关闭或未正确加载的旧版本网站。但是您知道您也可以使用它来解决您网站上的问题吗?它甚至可以帮助您进行SEO工作。
本文介绍了Google Cache及其检查方法。我们还将了解Google缓存如何提供帮助 – 以及何时不应过分依赖它。
- 什么是谷歌缓存?
- 为什么Google缓存很重要
- 如何查看Google缓存
- 使用Google缓存的原因
- Google缓存的限制
- 为什么找不到缓存的网页?
- 如何解决网站缓存页面的问题
- 如何从Google缓存中删除页面
什么是谷歌缓存?
Google缓存页面是在Google抓取过程中获取的页面内容的原始HTML备份。谷歌缓存作为一个整体由这些备份页面组成。
如果您查看网站的缓存版本,它可能看起来很像该网站在被抓取时的样子。但有几个原因有时会出现与您预期不同的情况。
两个主要原因是:
- 网页由您的浏览器呈现,而不是由 Google呈现。这可能会导致与网站的当前版本存在差异。
- JavaScript不会保存到缓存中,因此您网站的某些部分可能会丢失。
在缓存页面的顶部,您会看到一个横幅,显示三件事:
- 缓存页面的URL — 这通常是您要访问的URL。在某些情况下,例如重定向的URL,它会有所不同。
- 缓存此版本页面的日期– 您可以查看您正在查看的缓存页面是昨天还是上周创建的。这不一定是最后一次抓取您的网页;我们稍后会讲到。
- 版本— 您可以选择查看完整版本、纯文本版本或页面来源。完整版向您显示浏览器呈现的页面。纯文本版本已关闭CSS且不显示图像,但您仍会看到超链接。单击查看源代码会显示页面的源代码:
闪电博主页的缓存版本示例
为什么Google缓存很重要
Google Cache的主要用途是供人们浏览互联网。它允许他们查看已关闭或加载有问题的网页。
作为网站所有者,Google缓存至关重要还有其他原因。您希望您的网站永远不会关闭或出现故障,但它确实发生了。拥有缓存可使用户可以使用您的内容,即使某些内容无法正常工作。
您还可以使用您网站的缓存版本来了解您的网站是如何编入索引的并诊断问题。请继续阅读以了解更多信息。
如何查看Google缓存
您如何从Google搜索引擎结果访问缓存的Google页面取决于您使用的设备类型。在桌面Web浏览器中,您有两个选择:
- 您可以点击指向Google搜索结果中页面缓存版本的链接。
- 可以直接进入页面。
在移动浏览器上,您只能选择使用直接URL。
从Google搜索结果查看缓存页面
即使您有从搜索结果页面查看缓存站点的经验,您也可能希望阅读本文,因为Google在2021年初改变了查找缓存链接的方式。
首先,在Google上搜索您要查看的页面。在搜索结果中页面的URL旁边,您应该会看到一个下拉的三角图标。单击它们,会出现一个标有“页库存档”的弹出窗口:
Google 的“页库存档”功能
此功能目前处于测试阶段。它旨在让您在单击之前了解有关站点的更多信息(例如它是否安全)。
在某些情况下,您可能看不到页库存档按钮。这可能意味着页面没有被缓存;我们稍后会讨论这意味着什么。
但是,如果您使用的是移动设备,则不会看到任何页面的按钮。在这种情况下,请继续阅读以了解查看缓存页面的其他方法。
修改URL查看缓存页面
对于这种方法,您必须知道要查看的页面的URL。只需进入cache:website.xyz
搜索栏。
例如,cache:www.wbolt.com
将带您直接访问我们缓存的主页。
查看谷歌缓存的其他工具
您不需要任何特殊工具来查看缓存页面;谷歌本身就让它变得非常容易。但是有一些工具具有您可能喜欢的功能。
Chrome的Web缓存查看器扩展程序允许您右键单击任何链接以查看页面的Google缓存版本和Wayback Machine Web存档版本。
来自Small SEO Tools的Google Cache Checker可让您一次查看最多五个页面缓存的URL和日期:
谷歌缓存检查器
使用Google缓存查看页面的旧版本
您的页面说它是昨天缓存的,但您想查看上周的版本。谷歌缓存可以吗?
抱歉不行。
Google只能向您显示缓存页面的一个版本。要查看以前的网站版本,您可以使用Wayback Machine之类的工具,这是过去网页版本的存档。
看看我们以前的样子!
Wayback Machine上的2016 闪电博网站。
使用Google缓存的原因
事实是,还有其他工具可用于完成以下所有工作——在许多情况下,是更复杂的工具。
但是Google缓存因其快速且易于检查而难以匹敌。这使其成为监视网页某些方面的一种有价值的方式。
作为网站所有者,您可以通过以下五种方式使用Google缓存。
1.检查重复内容
有时,您单击缓存的链接并进入与您预期不同的页面。
发生这种情况的原因之一是重复的内容。当Google看到两个高度相似的页面时,它可能会决定不在索引中将它们分开。这导致只有一个被保存在缓存中。
Google 在同一链接下缓存多个页面可以提醒您您的网站上有重复的内容。重复的内容不仅会造成令人困惑的缓存情况——它对SEO不利。
请借此机会检查这两个页面并找到区分它们的方法。
2. 验证Google是否遵循您的规范标签
也许您网站上的重复内容是有意为之,但您已添加rel=canonical
标签来告诉Google抓取哪个版本。
检查您不想抓取的页面之一的Google缓存版本。您应该被带到规范页面的缓存。
3. 确保您的营销工作已被抓取
您已经加大了SEO或内容制作的力度,并且希望确保Google正在将这些更改编入索引。
快速查看页面的缓存版本可以告诉您它已被抓取。
请注意,如果您的更改未出现在缓存页面上,则它们可能仍被编入索引。如果您担心,可以前往Google Search Console的URL Inspector进行确认。但是,如果您在缓存中看到您的更新,您就知道它们已被编入索引,并将开始影响您的搜索结果排名。
4. 密切关注竞争对手网站的变化
当竞争对手突然占据您的位置时,您会关心自己的事情,享受您在关键关键字的搜索结果顶部的位置。他们做了什么才能到达那里?您可以使用Google缓存来查找。将他们的缓存页面与当前版本进行比较——您将能够看到竞争对手最近所做的更改。
5. 检索您网站的最新版本
您应该始终备份您的网站,以防万一。也就是说,有时最坏的情况会发生,即使是最有准备的人。
虽然您网站的Google缓存版本不会取代完整备份,但它有时确实可以让您在灾难发生之前查看页面的外观。您可以使用它来检索丢失的旧内容或代码。
Google缓存的限制
谷歌的缓存可以提供有用的信息,如果有什么东西看起来很奇怪,它可能值得调查。但谷歌缓存有一些已知的限制。
谷歌缓存不会告诉你你的页面最后一次抓取的时间
让我们从最大的误解之一开始。
很多人认为每次Googlebot抓取页面时都会更新缓存。关于这个主题的许多其他文章会告诉您使用缓存来查看您的页面被抓取的频率。
这不是真的。
我们知道,因为谷歌的约翰·穆勒 (John Mueller) 在帮助主题中亲自告诉我们,他说:
一般来说,我们并不总是在每次抓取页面时更新缓存页面。特别是当页面没有显着变化时,我们可能会选择只保留 [原文如此] 上的旧日期。
这是一个专业提示:如果您正在寻找有关Google抓取您网站的频率、原因以及使用哪些漫游器的信息,请忘记缓存。该数据位于Google Search Console上。您可以在侧边栏中的“设置”下找到抓取报告。
但是,您只能在域级别查看此信息。Search Console不会告诉您每个页面的抓取频率。
页面可能无法正确呈现
幸运的是,在这方面已经取得了一些进展。Google的Web Rendering Service用于在Web上呈现实时页面,它曾经基于过时的Chrome版本。因此,最新的浏览器有时呈现缓存页面的方式与Google呈现的当前页面不同。
自2019年以来,Google Web Rendering Service使用最新版本的Chrome。
但是,如果您的Chrome版本较旧,或者您使用的是其他浏览器,则缓存页面可能无法正确呈现。
另一个渲染问题与缺少资源有关。Google备份的代码可能会引用CSS或JavaScript等资源。如果这些资源不再存在或已更改,则页面将无法正确呈现。
显示错误页面
我们已经研究了重复的内容或不正确的规范标签如何导致Google缓存显示错误的页面。正如您可能想象的那样,这限制了查看特定网页缓存的用处。
某些页面未缓存
这可能会让人感到意外,但事实证明,许多页面根本没有被缓存。
一个普遍的误解是,未缓存的网站意味着Google认为它不是必不可少的,但这不一定是真的。接下来,我们将查看页面可能不会被缓存的一些原因。
为什么我找不到缓存的网页?
并非所有被抓取的页面都被缓存。如果您的页面没有缓存版本,请不要惊慌!这并不意味着您的页面尚未编入索引。
404错误表示页面没有缓存版本
如果您担心它确实没有被编入索引,您可以使用Google Search Console的URL Inspector进行检查。
为了证明索引页面并不总是被缓存,我们回到谷歌的约翰穆勒。在Twitter上,他回答了一位用户询问未缓存页面的问题:
我们不会缓存我们索引的所有页面,所以这可能会发生。有时需要一段时间,有时我们根本不缓存它。
当用户问他未缓存的网站是否总是低质量时,他说:
它可以是各种奇怪的技术怪癖的页面。缓存有点独立,所以它不代表我们索引和排名的内容。
换句话说,缓存页面不是排名因素。即使您的网页没有缓存版本,您也可以将其置于搜索结果的顶部。
但是未缓存的页面仍然值得研究。您可以探索几种不同的可能性。
您的页面是基于JavaScript的
与其他网页相比,Google可以更轻松地为某些基于JavaScript的网页编制索引。但是许多JavaScript页面最终都没有缓存,甚至没有索引。
这是因为大多数HTML直到JavaScript执行后才会加载。如果没有可索引的内容,Google将不会创建缓存页面。
元标记阻止缓存
在你的网页的HTML代码元标记noindex
是指页面无法通过谷歌进行索引,另外noarchive
也会阻止谷歌缓存阻止它。任何一个都将导致页面不被谷歌缓存。
也许这正是你想要的。但是如果您没有意识到页面上有一个noindex
ornoarchive
标记,删除它可以解决您的缓存丢失问题。
该页面是重复的(或谷歌认为是)
如果Google确定您的两个页面是重复的,请想办法使它们独一无二。考虑每个页面的不同搜索意图。
如何解决网站缓存页面的问题
您的页面不必被缓存,但如果您想实现它,您可以做一些事情。
将您的页面提交给Google
如果您担心Google根本没有将您的网页编入索引,您可以查看Google Search Console。
在Search Console顶部的 URL 检查搜索栏中输入页面的URL。如果是“URL is on Google”的结果,则该页面已被编入索引。如果该页面最近发生了变化,并且您认为Google未将新版本编入索引,则可以单击请求编入索引,请求Google对其重新编入索引。
您可能还会得到“Page is not on Google”的结果。如果这样做,请向下滚动,您将能够看到有关该页面的一些详细信息。例如,您可以检查该页面是否允许抓取以及用户选择的规范是否与Google选择的规范相匹配。要请求索引,请单击请求索引:
Google Search Console-URL索引请求
如果你希望您的网站页面URL可以主动提交至Google Search Console,请求编入索引,您可以安装搜索推送插件来实现。
检查常见站点问题
我们已经介绍了您的页面可能不会被缓存的几个原因,例如大量JavaScript和重复的内容。
除此之外,鼓励频繁索引的最好办法就是创建一个高质量的站点。确保您已针对移动设备优化了您的网站,并且您的网站速度很高。
如果您的页面加载时间太慢,它甚至会减慢Google的漫游器速度,从而导致索引延迟。
如何从Google缓存中删除页面
我们认为Google缓存非常有用,但出于各种原因,您可能不希望将旧版本的网页存储在Google的服务器上。例如,您可能不希望停产产品的页面可用。
防止页面缓存的一种方法是使用上面提到的noindex
和noarchive
标签。如果您想保留页面但从不希望它们被缓存,这些标签是理想的永久解决方案。
您也可以直接要求Google从Google缓存中删除网址。要做到这一点,去谷歌搜索控制台,并单击侧边栏的删除。然后单击新要求。此时,您有两个选项:暂时删除网址和清除缓存的网址。
临时删除意味着该网址在大约六个月内不会出现在Google搜索结果中。缓存也会消失。该页面将在再次上线时重新索引并重新缓存(如果您不希望发生这种情况,则必须添加元标记)。
清除缓存的URL正是它听起来的样子。缓存会被移除,但是当网站被抓取时页面会被再次缓存。
如果您希望更新页面的旧版本消失,这是一个很好的方法。您还可以通过在更改页面后提交用于索引的页面来推动Google更新页面的缓存。
小结
谷歌缓存并不是传闻中的一切。你不能用它来检查你的网站上次被抓取的时间——拥有它不会提高你的搜索引擎排名。有时,它存储的网站版本很奇怪、不完整或完全错误。
但谷歌缓存对网站所有者有其用处。这是检查您的网站是如何编入索引的一种快速方法,它可以帮助您发现和诊断问题。您还可以使用Google Search Console来提高您的搜索引擎排名。
评论留言