Canonical标签:最佳实践、常见错误及其对 SEO 的影响
任何网站都可能出现重复内容问题——即便您可能不知道您的某些内容被视为重复内容。此时,Canonical标签可让您指定多个重复页面中的哪个是页面的主要、首选版本。
如果没有Canonical规范标签,搜索引擎将自己选择规范版本。而且,它们很可能会选择一个不具有代表性的页面。这会严重影响您的搜索可见性和排名。
在这篇文章中,我们将解释什么是Canonical规范标签、什么时候应该使用Canonical、如何正确使用Canonical,以及使用Canonical时需避免的常见错误。
Contents
一、什么是Canonical标签?
Canonical标签是一段代码,当该页面存在多个版本时,它指示页面的主要(规范)版本。 使用规范标签,您可以告诉搜索引擎应该将哪个 URL 编入索引并出现在搜索结果中。
实现规范标签的最常见技术是将link rel=”canonical”代码片段添加到页面的 HTML 中,例如:
<link rel="canonical" href="https://example.com/sample-page/" />
该代码表示规范页面是上述指定的 URL。
规范标签主要用于解决重复内容问题——但搜索引擎是如何判断哪些内容是重复的呢?
二、搜索引擎和重复内容
重复内容的问题源于一个简单的事实,即搜索引擎爬虫查看页面的方式与用户不同。
对于搜索引擎爬虫,以下每个 URL 都不同:
- http://example.com
- https://example.com
- https://example.com/index.php
- http://example.com/index.php
- http://www.example.com
当用户在上面每个页面看到相同的内容时,爬虫却将每个 URL 地址视为一个单独的实体,即使多个页面具有相同的内容。
对于电子商务网站来说,重复内容问题往往特别严重。但重复内容的问题不仅限于电商网站,许多现代网站会自动将标签和参数添加到 URL导致重复内容的产生。以下是产生重复内容最常见的原因:
1. 为了支持多种设备类型:
https://example.com/guide/google-seo
https://m.example.com/guide/google-seo
2. 为了启用搜索参数或会话 ID 等所需的动态网址:
https://www.example.com/products?category=dresses&color=red
https://www.example.com/dresses/red/reddress.html
3. 当您将同一篇博文同时放在多个版块中时,博客系统会自动保存多个网址
https://blog.example.com/dresses/red-dresses-are-awesome/
https://blog.example.com/red-things/red-dresses-are-awesome/
4. 服务器已配置为针对 www/非 www http/https 和协议端口变体提供相同的内容:
http://example.com/red-dresses
https://example.com/red-dresses
http://www.example.com/red-dresses
http://example.com:80/red-dresses
https://example.com:443/red-dresses
5. 您在相应博客上提供的要转载到其他网站上的内容与这些网域中的原有内容完全重复或部分重复:
https://news.example.com/red-dresses-for-every-day-155672.html(转载博文)
https://blog.example.com/dresses/red-dresses-are-awesome/3245/(原始博文)
无论基于何种原因,当搜索引擎遇到重复的内容时,它们很难做出决定:
- 应该索引哪个页面,
- 哪个页面应该为相关关键字排名,以及
- 他们是否应该将排名信号合并到一个 URL 下,或者将其拆分到多个页面。
这个时候,就需要给您在一组重复页面中,使用Canonical标签之处最具代表性的一个页面,帮助Google做出选择。
三、为什么规范标签很重要?
重复内容是一个复杂的主题,但是当搜索引擎抓取具有相同(或非常相似)内容的许多 URL 时,可能会导致许多 SEO 问题。而通过添加规范标签,您可以:
1. 指定应出现在搜索结果中的页面
搜索引擎旨在提供最佳的用户体验——这就是为什么它们很少会在搜索结果中显示多个版本的相同内容。规范标签让您有机会提高最具代表性的页面版本的搜索可见性,这可以增加该页面的自然流量并转化为商业利益。
2. 增强规范页面的排名信号
其他网站可能会链接到您网页的不同重复版本,从而稀释搜索引擎在排名期间考虑的信号。
当您使用规范标签时,您告诉搜索引擎应该将来自其他网站的链接都整合至规范页面从而增强规范页面的排名信号。此外,同网站或跨网站的重复内容将不再需要在搜索引擎中争夺排名或流量。
3. 不鼓励抓取重复页面
如果您添加规范标签,则搜索引擎不太可能会在知道它们是副本的情况下继续抓取这些重复页面。这是一个让您的规范页面被更有效地抓取的机会,这可以对您网站的索引状态产生积极影响。
四、何时应该使用规范标签
现在我们知道了规范标签对SEO的重要性了,那么应该在何时使用规范标签呢?以下是规范标签的一些常见用例:
1. 修复网站常见的重复内容
如果您的网站存在以下问题,那么您需要添加规范标签。
- 可以从不同的 URL 访问主页(例如 www.domain.com、domain.com、www.domain.com/index.html 等)
- 可以使用或不使用尾部斜杠 (“/”) 访问页面
- 可以不区分大小写访问页面
- 内容以不同的版本呈现(例如印刷版、PDF 等)
- 该 URL 在没有 SSL 加密的 HTTP 版本下仍然可用
2. 产品过滤和分类
电子商务网站典型的过滤和排序选项通常被添加到 URL 的查询字符串——这会产生大量重复的内容。规范化过滤和排序页面将帮助您的规范版本排名更高,并防止搜索引擎不必要地抓取重复内容。
3. URL 中的冗余参数
如果参数不用于跟踪、不能更改内容并且不向 URL 添加有意义的信息,则 参数对于页面可能是多余的。此外,它们可能会导致您的网站不能被充分抓取。
4. 跟踪参数和会话 ID
跟踪参数可以跟踪活动或用户旅程,但它们不会更改页面的内容,因此也应该规范化。
5. 转载内容
转载内容意味着一段内容在另一个网站上被重新发布。 实施规范标签有助于将作品的所有权归属于原始发布者。
五、如何向页面添加规范标签
您有多种方法可以添加规范标签。以下我们介绍常用的4种。
1. rel=canonical <link> 标记
在 HTML 中添加规范标签是实现它的最常用方法。您可以将以下代码添加到 HTML重复页面的 <head> 部分并粘贴规范版本的 URL:
<link rel=”canonical” href=”https://example.com” />
假设我们有三个重复的页面 – 页面A、B、C,我们决定选择页面A作为首选页面。
页面A:https://example.com/page-a
页面B:https://example.com/page-b
页面C:https://example.com/page-c
在这种情况下,我们将相同的<link rel=”canonical” href=”https://example.com/page-a” />添加到页面A、页面B和页面C。
注意:此方法仅适用于 HTML 页面,因此如果您想规范化其他类型的文件,请使用 HTTP 标头。
2. rel=canonical HTTP 标头
对于像 PDF 这样的文档,由于没有网页的 <head> 部分,因此无法在网页开头插入权威内容标签。碰到这种情况,您需要使用 HTTP 标头来设置权威页面。
例如,如果您通过多个网址显示某个 PDF 文件,可以返回 rel=”canonical” HTTP 标头,将该 PDF 文件的规范网址告知 Googlebot:
Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"
注意:要使用此解决方案,您需要访问您网站的服务器。
3. 站点地图
您可以为您的每个网页选择一个规范网址,然后通过站点地图提交这些规范网址。您在站点地图中列出的所有网页都会被视为向系统建议的规范网页;Google 会根据内容相似度决定哪些网页是重复网页(如果有)。
4.在CMS中添加规范标签
1)在 WordPress 中设置权威内容标签
您可以安装 Yoast SEO插件 ,它会自动添加自引用权威内容标签。若想要设置自定义权威页面,请使用每个帖子或网页上的“高级”部分。
2)在 Shopify 中设置权威内容标签
Shopify 自身默认为产品和博客添加自引用权威内容标签。若想要设置自定义权威页面,您可以直接编辑模板(.liquid)文件。
3)在 Squarespace 中设置权威内容标签
与 Shopify 的情况一样, Squarespace 也会默认添加自引用网址。但是,如果想添加自定义权威页面,则需要直接编辑代码。
六、Google 如何选择规范页面?
请务必注意,Googlebot 并不总是遵循您的规范标签 —— 它仅将您设置的规范标签视作一种建议。
实际上,Google在选择规范版本时会 考虑许多其他页面因素。这些因素包括:
- 重定向
- 站点地图
- URL结构
- 内链和外链
- HTTPS协议的使用
您可以用URL 检查工具来检查 Google 是否尊重您的规范标签或选择了不同的标签。
七、使用规范标签的最佳实践和常见错误
遵循规范标签最佳实践有助于降低搜索引擎将错误版本的页面视为首选页面的风险。 以下是我对规范标签的一些建议:
1) 不要直接删除非规范版本
当我们发现重复内容时,一些人可能会想直接删掉重复的页面或内容。问题在于,有时这些重复页面已经在其他地方被引用。如果您直接删除这些页面,用户将无法通过在其他地方的内链或外链访问它们。
因此,如果您必须删除某些重复页面,最好先将它们301重定向至规范版本。
2)使用绝对 URL
理论上,Google 可以识别相对 URL 和绝对 URL。但是,绝对URL不易出错且更易于更改。
换句话说,尽可能在规范标签中使用完整的 URL:
<link rel=”canonical” href=”https://example.com/sample-page/” />
而不要只包含 URL 路径:
<link rel=”canonical” href=”/sample-page/” />
3)向搜索引擎发送明确的信号
向搜索引擎发送明确的信号是指每页仅指定一个规范。例如您应该避免将某一个URL 指定为规范,同时又将这个URL 重定向到不同的URL。
4)表面创建链式或交叉式规范
确保仅对多个重复页面的一个来源进行规范化。例如,假设页面A、B、C、D是重复页面且是A是首选页面。那么,您不能在B页面设定A页面为规范URL,然后在C页面又将B页面设为规范URL。否则,搜索引擎可能感到困惑。正确的方式是页面A、B、C、D都将页面A添加为规范网址。
5)确保在内链使用的是规范URL
在您的网站上添加内链时,请确保您链接到规范 URL ,而不是重复链接。 如前所述,如果更强的信号指向另一个重复页面,Google可能不会选择您设定的规范URL。
6)选择正确的域版本
切换到 SSL 后,请务必不要在规范标签中包含任何非 HTTPS的URL,因为这会造成混淆并可能导致意外结果。
7)针对桌面版网址和移动版网址的注释
Google 不推荐在网站设置中使用单独的网址,因为这样难以实现和维护。但是仍有好一部分网站的桌面端地址为www.example.com,在移动端对应的地址却变成m.example.com.
这种情况下,您需要通过包含 rel=”canonical” 和 rel=”alternate” 元素的 <link> 标记表明两个网址之间的关系。
- 在桌面版网页上,添加指向相应移动版网址的 rel=”alternate” 标记。这有助于 Googlebot 发现网站的移动版网页所在的位置。
- 在移动版网页上,添加指向相应桌面版网址的 rel=”canonical” 标记。
例如,在桌面版网页 (http://www.example.com/page-1) 上,添加以下注释:
<link rel="alternate" media="only screen and (max-width: 640px)"
href="http://m.example.com/page-1">
在移动版网页 (http://m.example.com/page-1) 上,所需的注释应为:
<link rel="canonical" href="http://www.example.com/page-1">
8)规范标签 & Hreflang
尽管 Google 不会将翻译成其他语言的相同内容的不同版本视为重复,但您仍应使用规范标签。如果您在同一个多区域网站的不同网址上以同一种语言提供类似内容或重复内容(例如,如果 example.fr/ 和 example.com/fr/ 都显示类似的法语内容),则设定一个首选版本,然后使用 rel=”canonical” 元素和 hreflang 标记确保向搜索用户提供正确的语言或区域网址。
八、如何检查规范标签
Canonical Tag添加完成后,别忘了检查是否添加成功。这里我们提供了3种检查方法。
1. 右键查看网页原始代码
步骤1:在浏览器中打开您要检查的页面
步骤2:右键单击页面中的任意位置,并选择“Inspect”或“View page source”,您将能看到页面的所有源代码。
步骤3:按 Ctrl + F(Windows)或 F + command(Mac)。然后在按字符串、选择器或 XPath 的查找中键入“canonical”。
步骤4:“Canonical”一词将出现并突出显示为黄色,您可以检查该规范标签是否正确。如果未出现任何结果,则表示该页面未设置规范标签。
2. 使用Google Search Console检查
Google Search Console 包含一些有用的工具来价差您的规范页面:索引覆盖率报告和 URL 检查工具。
2.1. 覆盖率报告
Google Search Console中的覆盖率报告是关于您的页面是否被收录的重要信息来源—— 哪些 URL 已编入索引,哪些 URL未被编入索引,以及原因。
要分析您网站的规范化网址,请导航到排除类别,您将看到以下一些与规范化相关的状态:
1)重复网页,网址已提交但未被选为规范网址
这意味着Google 在您的 XML 站点地图中发现了它并认为它是重复页面。
2)备用网页(有适当的规范标记)
标有此状态的 URL 表示Google尊重您的 URL 规范化的网页。如果您最近对某些页面进行了规范化,则可以预期这些 URL 的数量会增加。
3)重复网页,Google 选择的规范网页与用户指定的不同
该状态表明Google 忽略了您选择的规范化网址,而自行选择了另一个页面。
2.2. 网址检查工具
您可以使用网址检查工具进一步调查 Googlebot如何查看从索引中排除的网址。检查页面时,请查看:
- 上次抓取日期– Googlebot上次抓取页面的时间。如果最近添加了规范标签,那么 Googlebot 可能从那时起就没有抓取过该网址。
- 用户声明的规范– 这应该显示您选择的 URL – 检查它是否是正确的 URL。
- Google 选择的规范– 如果 Google 选择了不同的规范页面,您可以看到选择了哪个 URL。
3. 使用网络爬虫工具
您可以使用类似Screaming Frog的工具帮助您发现规范标签的问题。 这些工具可以为您提供有关规范与非规范页面比率的详细信息。它们也会提示您任何不正确的规范页面。
总结
添加规范标签可以让您告诉搜索引擎哪个URL是重复内容的最佳版本。它可以帮您节省抓取预算、将权重集中到最重要的页面、并最大可能地将您想要的版本出现在搜索结果中。
虽然Google不必然会选择您设定的规范页面,但大部分情况,Google会尊重您的选择。但是,添加Canonical 标签的过程中,容易出现各种各样的错误,使您添加的标签无效。因此,请阅读并遵循本文的最佳实践进行。
关注微信公众号,快速获得一手教程!