Google Search Console “抓取统计信息”报告解读

Google Search Console中有一份很有用但很难找到的报告(尤其是SEO新手)。它是每个SEO专业人士都需要的报告,但目前只有极少数的Google SEO从业人员在使用它。

我说的这份报告就是GSC中Crawl 统计报告(抓取统计信息报告)。

在本文中,您将了解Crawl 统计报告为何如此重要、如何在GSC中找到它以及如何使用它获得SEO的机会。

“抓取统计信息”报告解读

如何访问抓取统计报告?

网站所有者可以通过登录Google  Search Console 并打开“资源设置(Settings)”页面来找到抓取统计报告。

访问抓取统计报告

“抓取统计信息”报告总共分成了三个部分:一段时间内抓取数据变化情况的图表、分组的抓取数据、主机状态问题的概要和详细信息。

它们将帮助您了解 Googlebot 如何抓取您的网站,可让您:

  • 在显示一段时间内变化情况的图表中查看 Google 的抓取历史记录
  • 查看您的网站返回的文件类型和文件大小
  • 在示例列表中查看抓取请求详情
  • 在主机状态视图中跟踪网站的可访问性问题

在下文中,我将继续详细解释每个部分的使用方法。

如何解读“抓取统计信息”报告?

1. 一段时间内抓取数据变化情况的图表

打开Crawl 统计报告后,您首先会看到一个摘要图表,其中包括抓取请求总数、下载内容总大小和平均响应时间。

抓取数据变化情况的图表

(1)抓取请求总数

抓取请求总数衡量在给定时间段内抓取您网站上的网址的总数,以表明 Google 抓取您网站的频率。这些包括成功和不成功的抓取请求。不成功的请求可能是由于 DNS 问题、服务器连接问题、重定向循环问题或由于robots.txt文件不可用而从未进行的提取。  

需要注意的是,该报告显示了大多数(但不是全部)抓取请求。这意味着您在服务器日志中看到的内容与抓取统计报告中的内容可能存在差异。

如果您看到抓取请求总数突然下降,则可能发生了下列情况之一:

  1. 您的一个或多个页面上可能有损坏的代码(如 HTML)或不受支持的内容。如果您最近添加了新代码,这可能就是问题所在。您可以通过W3 的验证器之检查您的代码 ,看看它是否正常工作。
  2. 您添加了新的(或非常宽泛的)robots.txt 规则。请务必只屏蔽需要屏蔽的资源。如果 Google 需要依靠特定的资源(如 CSS 或 JavaScript)才能理解相应内容,请确保您没有禁止 Googlebot 访问这些资源。
  3. 如果您的网站对请求的响应速度很缓慢,Googlebot 将会限制请求的数量,以免您的服务器超载。请查看“抓取统计信息”报告,看看您网站的响应速度是否下降了。
  4. 您的网站内容陈旧以及更新频率低。谷歌喜欢新鲜内容已经不是什么秘密了。如果您的网站包含较多的旧内容,抓取率可能会下降。

(2)下载内容总大小

下载内容总大小是反映 Google 在给定时间段内的抓取过程中下载了多少内容的指标。如果您的平均值很高,则表明 Google 会经常抓取您的网站并下载大量内容。但是,高平均值也可能意味着 Google 抓取您的网站的时间太长。也就是说,良好的平均响应时间可以抵消这个问题,因为它们很好地表明了网站的抓取效率。

(3)平均响应时间

平均响应时间指搜索引擎请求页面内容需要多长时间,系统会将与网页关联的每项资源计为单独的响应。注意平均响应时间的持续增加。谷歌表示它可能不会立即影响抓取速度,但它是一个很好的指标,表明您的服务器可能无法处理所有负载。

2. 主机状态详细信息

主机状态数据可让您检查网站在过去 90 天内的总体可访问性。当您单击以获取主机状态详细信息时,您会发现三个类别:

主机状态详细信息

(1)robots.txt 抓取

图表会显示抓取期间 robots.txt 请求的失败率。Google 会经常请求此文件,如果请求没有返回有效文件(已填充或为空)或 404(文件不存在)响应,Google 会减慢对您网站的抓取速度或停止抓取该网站,直到能获得可接受的 robots.txt 响应为止。

(2)DNS 解析

图表会显示抓取期间 DNS 服务器未识别您的主机名或未响应的情况。如果您看到错误,请与您的注册商联系,确保您的网站设置正确且您的服务器已连接到互联网。

(3)服务器连接

图表会显示抓取期间服务器无响应或未提供针对网址的完整响应的情况。对于服务器连接,尤其要查看您是否通过 robots.txt 适当地控制了您网站的抓取和索引,以及您是否需要提高您的网站处理流量的能力。

3. 分组的抓取数据

抓取请求细分卡篇会显示多个细分项,以帮助您了解 Google 抓取工具在您的网站中找到的内容。具体来说,有以下四种:

分组的抓取数据

(1)响应类型

抓取响应类型显示 Google 在抓取您的网站时收到的响应。它们按代码(如 200、301、302、404 和 5xx)分组,并给出一个百分比来表示它们使用了多少抓取预算。数据基于总请求数,而非网址。

除非您是在进行网站重组或网站迁移,否则大多数响应类型应为 200 或其他“良好”类型的响应。

(2)所提取网址的文件类型

文件类型显示用于各种类型文件(例如 HTML、Javascript、CSS、图像、视频和音频等)的抓取预算百分比。了解 Google 请求特定类型资源(如 Javascript 和 CSS)的频率可以更好地为许多不同的技术SEO策略提供信息,例如您希望在网站上使用的渲染类型。

如果您的网站充满了图片,并且图片搜索对您的 SEO 策略至关重要,那么此报告也会有很大帮助——您可以了解 Googlebot 抓取您的图片的能力。

(3)抓取请求的目的

抓取统计报告将抓取目的分为两类:

  • 为刷新目的而抓取的 URL(重新抓取已知页面)。
  • 为发现目的而抓取的 URL(首次抓取的 URL)。

如果您最近添加了大量新内容或提交了新站点地图,您可能会在此细分中看到“发现”抓取的增加。如果您的页面内容变化很快,您可能会在此细分中看到更大比例的“刷新”抓取。

(4)Googlebot 类型

最后,抓取统计报告为您提供了用于抓取您网站的 Googlebot 类型的详细分类。

您可以了解移动或桌面Googlebot以及图像、视频和广告bot发出的请求的百分比。

以下是有关如何使用有关Googlebot代理抓取您网站的信息的一些提示:

  • 您的主要抓取工具(Googlebot 智能手机或Googlebot 桌面版,但最有可能是Googlebot 智能手机)应该是发出大部分请求的用户代理。
  • AdsBot爬虫每两周爬取一次网站(根据 Google 文档)
  • 在网站上创建动态搜索广告的新目标(使用页面 Feed 或 URL_Equals)后,AdBots爬虫活动可能会出现峰值。

结语

任何网站都可以使用抓取统计报告来了解Google如何抓取网站以进一步解决收录问题。然而,它无疑对大型网站最有用,例如不断更新现有内容和推出新内容的电商网站。

没有抓取,就没有索引。没有索引,您就无法排名。因此,如果您发现您的网站收录存在问题,请前往查看 Crawl Stats 报告。这是您 SEO 之旅中至关重要的一步!

error: Content is protected !!