如何分析与解决Google 中的“已发现 – 尚未编入索引”

解决网站收录问题是SEO人最棘手的问题之一。而如果您运营的是大型网站(网站页面数量超过100万),这个问题可能棘手到让人寝食难安。

在Google Search Console索引报告中看到的“已抓取 – 尚未编入索引”、“已发现 – 尚未编入索引”、“重复网页(Google 选择的规范网页与用户指定的不同)”、“重定向错误”等问题全都让人头大。

在这篇文章中,我们将探讨如何分析与解决“已发现 – 尚未编入索引”的问题。希望能帮助各位小伙伴顺利增加网站收录量。

已发现 - 尚未编入索引

已发现 – 尚未编入索引(Discovered – currently not indexed)是什么意思?

根据Google官方文档定义,已发现 – 尚未编入索引(Discovered – currently not indexed)是指“Google 已发现相应网页,但尚未抓取该网页。这通常意味着,Google 想要抓取该网址,但这样预计会导致网站过载;因此,Google 重新安排了抓取时间。这就是该网页的上次抓取日期在报告中为空的原因。”

已发现 - 尚未编入索引

从Google给出的解释来看,造成“已发现 – 尚未编入索引”的似乎只是技术原因 —— Google已尝试抓取该网址,但该网站已超载,Google 将重新安排以后的抓取时间。但很多小伙伴可能也会发现,有时候左等右等,也没等来Google的重新抓取。“已发现 – 尚未编入索引”的页面数量,有增无减。

这是因为,除了抓取预算的原因外,在 Google 看来,“已发现 – 当前未编入索引”的另一个原因可能是您的网站未达到特定的质量阈值。

尽管Google是世界上最大的公司之一,但它在计算能力方面的资源也是有限的。它不能保证抓取每个网页并将其编入索引,它会将有限的资源留给被认为有价值和高质量的网站。

“已发现 – 尚未编入索引”的5 个解决方案

1. 提交请求索引

如果您只看到几个页面有 “已发现 — 尚未编入索引”的问题,试着通过 Google Search Console(GSC)要求索引。

操作步骤:打开Google Search Console > 选择您要执行的网页对应的网站 > 在“检查网页网址”输入存在“已发现 — 尚未编入索引”问题的URL > 如果URL目前没有被索引,点击 “请求编入索引 “按钮 > 如果一切顺利,您应该会看到一条消息,告诉您该 URL 被添加到优先抓取队列中。

注意:您可以提交多少个URL是有限制的,虽然Google没有明确说明,但您通常每天可以提交 10–15 个URL。因此这种方式适用于只有少量页面被列入“已发现 — 尚未编入索引”的网站。

提交请求索引

2. 提高内容质量

Google 无法抓取和索引网络上的所有内容。谷歌将专注于抓取更高质量的页面,并可能完全跳过抓取低质量的页面。因此,如果您的网站有大量的内容处于“已发现 – 当前未编入索引”的状态,您可能需要重点解决页面内容质量的问题。

此外,Google 的 John Mueller 还提到“已发现 – 上未编入索引”可能是由站点范围的内容质量问题引起的。这也回答了为什么Google在还未抓取一个网页时就判定它是低质量的 —— 因为它可能根据已经抓取过的类似网页作为参考。如果Google在您的网站抓取的大部分网页质量都很低,那么Google有理由认为剩余未抓取的部分质量也很低。

以下是几种常见的低质量内容类型:

  • 短内容 —— 300 字或更少
  • 重复内容 —— 内容与其他网页非常相似
  • 内容写得不好 —— 没有为读者提供任何价值
  • AI创建的内容 —— 人工智能写作工具越来越受欢迎,但它们很少能在没有人类参与的情况下创造有用的内容。 
  • 机器翻译的内容 —— 如果您使用翻译工具进行内容本地化,那么翻译将差强人意。在这种情况下,它对搜索者不是特别有用。
  • 抄袭的内容 ——  我觉得不用多说, 从其他网站获取内容并试图掩盖它是受版权保护的内容的想法是肮脏的且涉及法律问题。

总的来说 —— 确保您发布的内容值得在谷歌搜索中被索引。谷歌将更有可能发布新鲜、原创且对搜索用户具有真正价值的内容。如果您的内容质量较低,要么改进内容,要么就告诉搜索引擎不要索引它,这样搜索引擎可以优先抓取更重要的页面。

3. 做好内链

内部链接是指从您网站的一个页面到另一个页面的链接,谷歌通常会认为内部链接数量很少的页面 URL 是不重要的,可能不会对其进行索引。通过正确使用内部链接,您既可以帮助 Googlebot 找到您的网站内容,又可以提高其排名靠前的机会。

内部链接的一些最佳实践包括:

  • 确定您的核心内容并将其他页面链接到它
  • 基于层次结构链接页面,例如,将核心页面链接到补充页面,反之亦然
  • 不要过度优化锚文本
  • 链接到孤岛页面

4. 优化抓取预算

“已发现 –尚未编入索引”还可能是“抓取预算”有限所致。

Google 在抓取网站上投入的时间和资源通常称为网站的“抓取预算”。 决定网站抓取预算的因素有: 

  • 抓取容量上限:Googlebot 不希望在抓取您的网站时,导致您的服务器过载。为防止出现这种情况,Googlebot 会计算抓取容量上限,即 Googlebot 最多可以使用多少同时载入的并行连接来抓取网站,以及各次抓取之间的时间延迟。
  • 抓取需求:通常,Google 在抓取网站时会根据需要来分配抓取时间,具体取决于该网站的规模、更新频率、网页质量和相关性(与其他网站相比)。

任何网站都可能遇到抓取预算问题。但是,这在大型网站中更为普遍。网站越大,越有可能因为抓取预算不足而出现未抓取的页面。要想增加抓取预算,只有两种方法,一是提升服务器容量以促进抓取,二是提高网站内容对搜索用户的价值。两者相比,后者更为重要。

根据Google官方文档,可遵循以下最佳实践,以便最大限度地提高抓取效率:

(1) 管理网址目录

使用适当的工具告知 Google 要抓取哪些网页和不抓取哪些网页。如果 Google 花费太多时间抓取不适合编入索引的网址,Googlebot 就可能认为不值得花时间查看您网站的其余部分(或为此增加您的抓取预算)。具体的操作包括:

  • 整合重复内容
  • 使用 robots.txt 屏蔽对搜索引擎来说不重要的网页
  • 针对永久移除的网页返回 404 或 410 状态代码
  • 消除 soft 404 错误
  • 及时更新站点地图
  • 避免使用很长的重定向链

(2) 提高网页的加载速度

如果 Google 能够更快地加载和渲染您的网页,Google或许可以从您的网站中读取更多内容。

(3) 监控网站抓取情况

监控您的网站在抓取过程中是否会出现可用性问题,并寻找方式来提高抓取效率。

(4) 避免服务器过载

抓取问题还可能是因为您的服务器过载(响应速度比预期慢)。如果 Googlebot 由于您的服务器过载而无法访问某个页面,它将缩减其抓取活动(抓取需求)。这可能会导致您的某些内容无法被抓取。谷歌将来会尝试重新访问您的网站,但整个索引过程会延迟。

您可以通过检查Google Search Console 上的抓取统计信息或托管服务器上的抓取日志了解服务器的运行状况。如果您发现平均响应时间和 5xx 错误代码(服务器过载)增加,请考虑升级您的网络托管基础设施或提高网站性能。

5. 增加外链

外链是谷歌用来决定一个页面是否有价值和值得抓取的信号之一,如果您的网页没有或很少有高质量的外链,这可能是谷歌 “不优先 “抓取的原因之一。因此,获得高质量的外链也能帮助谷歌发现您的内容,并更快地将其编入索引。 

结语

“已抓取 – 尚未编入索引”已经是一个越来越普遍的问题,也给各大站长(尤其大型网站的站长)带来巨大的“麻烦”。

如果您在 Google Search Console 上看到 Discovered – Currently Not Indexed的状态,请逐一对照以上解决方案找到适合您的方法。

另外需要提及的是,这种情况还经常出现在新网站上 —— 这是合理现象。如果您的新网站也有此类情况,那么您主要应该做得是不断发布高质量的内容以及优化内链结构,这个问题会随时间自然解决。

error: Content is protected !!