什么是软404 (Soft 404)& 如何修复它们
您可能已经非常熟悉404 (not found) 错误代码——它告诉您找不到您想要访问的信息。但部分SEO查看他们的 Google Search Console报告时,他们还发现自己的网站上还有很多软404 (Soft 404)错误。
什么是软404错误?为什么会发生这种错误?这种错误对网站有什么影响?您可以做些什么来处理这些错误?
从本文中,我们将向您详细解释什么是软404、软 404 对您的网站的影响、可能导致它们的原因以及您可以采取哪些措施来修复它们。
Contents
什么是软404?
Soft 404 错误是一个网址,会在返回的页面中向用户表明目标网页不存在,同时还会返回 200 (success) 状态代码。在某些情况下,软 404 可能是一个不含任何主要内容的页面或是一个空页面。简单来说,软 404 错误是指网站服务器为页面发送 200 (success) 状态,但Google认为该页面应返回 404 代码。
如果Google认为一个页面是Soft 404, 它会减缓这个页面的抓取速度。
从搜索引擎的角度来看,检测软 404 是必不可少的,原因有两个:
- Google资源有限。网络无限大,根本不可能爬取所有页面。这就是为什么谷歌需要优先考虑并选择哪些页面值得抓取。省略软 404 可以让它专注于更有价值的页面,从而提高其抓取效率。
- Google希望向用户展示高质量的页面。如果 Google 怀疑某个页面不存在,那么很明显没有人想找到它,并且它不应该出现在搜索结果页面上。
Soft 404 如何影响您的网站
Soft 404如何影响您的网站可能因被Google 归类为软 404 的页面类型而异 —— Google有时能正确识别Soft 404页面,但有时它也会在对页面进行分类时出错。
如果 Google 是正确的并且该页面确实不存在,那么主要后果就是浪费您的抓取预算。您的抓取预算表示 Google 可以并希望在您的网站上抓取的页面数量。例如,如果您有 100,000 个页面,并且您的抓取预算允许抓取 50,000 个,那么确保将预算用于有价值的页面至关重要。如果 Google 将您的抓取预算浪费在抓取软 404 上,那么可能某些重要的且能为您带来流量的页面就不能被抓取了。
如果错误地将正常的页面归类为Soft 404,这些页面将不会被索引,也不会带来自然流量。 在这种情况下,您可以在Google Search Console请求Google “验证修正情况”。
如何检测软 404?
您可以在 Google Search Console 的“覆盖率”报告中查看 Google 将哪些页面报告为软 404。
如果 Google 认为某个页面是软 404,它可以为其分配以下两种状态之一:
- 软 404(已排除类别)
- 网址已提交,但貌似会返回软 404 错误(错误类别)
这两种状态的之间的唯一区别是Google发现URL的方式不同。在“网址已提交,但貌似会返回软 404 错误”状态下, Google在您的站点地图中找到了它们。同时,在“软 404”状态下,Google自己找到了这些URL。
您可以通过单击这些状态中的任何一个来查看报告软 404 的各个URL的列表。此数据可用于导出,但有 1,000 个 URL 限制。
此外,覆盖率报告不是您可以查看 URL 状态的唯一位置——您也通过Google Search Console 中的URL 检查工具检查URL的状态。如果您想检查多个 URL,您还可以使用URL Inspection API并一次检查多达 2,000 个 URL。
如果您发现覆盖率报告和 URL 检查工具中的状态存在差异,则可能只是索引覆盖率报告出现延迟。在这种情况下,以URL 检查工具的数据为准,因为它会显示更新的数据。
移动设备与桌面设备上的软 404 检测
2021年6月,Google改变了它检测软404的方式:它以不同的方式看待桌面和移动设备,但Google Search Console 只根据移动版本报告状态。因此如果只有桌面版本被标记为软 404,它可能不会向您显示对应的状态。
什么会导致软 404 以及如何修复它
Google可能将页面归类为Soft 404的常见原因有以下几个:
- 404 页面响应 200 HTTP 状态代码
- 不相关的重定向
- 页面内容很少或没有内容
- 页面包含类似 404 的字词
- 渲染错误
1. 404 页面响应 200 HTTP 状态代码
如果一个页面实际上是一个 404 页面,但它返回 200 HTTP 状态码,Google 会将其归类为软 404。
如果您有自定义 404 页面,则需要特别注意这一点。自定义 404 页面能帮助您的用户在页面不存在时继续浏览您的网站。但是,这些页面返回 200 HTTP 状态代码的情况并不少见。您应该避免这种情况,因为 Google 会继续抓取这些页面,这会浪费您的抓取预算。
此问题的解决方案是为不存在的页面返回正确的状态代码(404 Not Found)。
2. 不相关的重定向
重定向到不相关的页面是一种不好的做法,这可能会使用户感到困惑。这就是为什么如果 Google 检测到重定向指向一个不相关的页面,搜索引擎可能会将该页面视为软 404。
要解决此问题,请始终重定向到相关页面。
3. 页面内容很少或没有内容
页面上的内容很少或没有内容可能会使 Google 认为该页面是空的,并将其归类为软 404。 例如电商网站,他们可能经常有各种产品上架下架,部分下架的产品页面可能为空。又或者如果您使用 WordPress,并且设置了一系列标签,那么您尚未使用的任何标签都将显示为空页面。这些将生成软 404 错误。
处理该问题的一种方法是阻止空页的索引。毕竟,如果它是一个空页面,它对您的用户没有帮助,也不应该被索引。此时,您可以通过添加一个noindex 元标记告诉搜索引擎您不希望该页面被索引。
此外,如果您的网站上有很多内容稀薄的页面,您或许应该重新考虑您的网站是否需要这些页面。毕竟这些内容稀薄的页面会以两种方式对您的网站产生负面影响:
- 它们可能会浪费您的抓取预算,并且
- 如果您有很多低质量、可索引的页面,Google 可能会认为您的整个网站缺乏质量,并决定停止经常抓取您的网站。
4. 页面包含类似 404 的字词
有时,如果某个页面包含通常出现在 404 页面上的字词,则 Google可能会错误地识别该页面。例如,当电商网站上的产品页面使用“缺货”或“产品不可用”等术语时,Google可能错误地判断这些页面为Soft 404。
要解决此问题,您可以删除这些易引起搜索引擎误解的字词。
5. 渲染问题
渲染是 Google 看到您的内容的必要步骤。如果搜索引擎看不到它,它可能会认为该页面是空的,并将其归类为软 404。
Google不能渲染您的网站内容的原因之一是您在robots.txt 中组织了 CSS 或 JavaScript 等资源。Robots.txt 是一个文件,可让您指定搜索引擎机器人可以抓取哪些页面,哪些不能。如果 Google 无法访问渲染所需的资源,它将无法看到内容。 要了解 Google 是否能正确呈现您的内容,请使用 Google Search Console 中的 URL 检查工具。您可以检查各个网址并了解 Google 如何查看您的网页。如果内容丢失,则表明存在渲染问题。
要解决此问题,请确保 Google 有权访问渲染所需的资源。检查您的 robots.txt 文件并确保允许抓取 CSS 和 JavaScript。
结语
检查并修复Soft 404是非常重要的。这样做可确保Soft 404页面不会浪费您的抓取预算或将有价值的页面排除在索引之外而损害您的网站。
以下是本文的主要内容,可帮助您避免软 404:
- 如果页面不存在,请确保它返回 404 HTTP 状态代码
- 创建重定向时,请始终确保您重定向到相关内容
- 不要在 robots.txt 中阻止渲染所必需的资源,例如 CSS 或 JavaScript 文件
- 如果您有空页面,请添加 noindex 元标记或从您的站点中删除这些页面
- 注意使用类似 404 的短语。如果您注意到您的页面(例如缺货产品)被标记为软 404,请尝试删除这些字词或使用不同的术语。
关注微信公众号,快速获得一手教程!