大型网站:如何解决数万个Google不喜欢的低质量页面

您的网站是否有数以万计的质量差、重复或自动生成的内容页面?

当你的网站排名持续下降,而已经执行的SEO活动并未带来预期效果,你该如何应对?

如何解决网站内容过薄的问题,并在搜索引擎结果页(SERPs)中提高表现?

对于拥有大量网页的大型网站来说,内容管理无疑是一个挑战。特别是当这些内容多数为重复、质量低下或自动生成的页面时,这个问题更加凸显。这些页面不仅不能提升用户体验,还可能使你的SEO成果毫无影响,甚至造成负面效果,如Google不喜欢这些低质量页面,从而导致网站排名的下滑。那么,对于数万个Google不喜欢的低质量页面,我们应该如何有效解决呢?

在数百万个页面的网站中,将注意力投入到每一个网页中,保持质量和唯一性,同时还要确保每一个页面都能被搜索引擎正常收录和优化,这无疑是一项艰巨且几乎无法完成的任务。在这篇文章中,我将向你展示如何有效地且批量地管理和提升大型网站的质量,避免低质量页面问题,以及如何让你的网站在Google的眼中变得更加吸引人。

重要提示

1. 本文将提到多种多样“批量”处理大型网站低质量内容的方法。但是,对于SEO初级选手或者对技术SEO缺乏基本的了解的小伙伴来说,理解和执行难度可能都相当高。在这种情况下,我的建议是,你可以先尝试自行查找了解一些本文中涉及的你可能还不知道的术语。如果之后仍然处于比较难理解的状态,那么本篇文章可能还不怎么适合你。你可以将它转发给更适合的人。

2. 本文提到的多种方法可能都需要跨团队的合作,尤其需要得到技术团队以及关键人物的支持。因此在考虑执行之前,你可能需要先确定你是否能获得技术团队及关键人物的支持。

大网站大问题 – 那些似乎“自动产生”大量低质量页面

大型网站容易产生大量低质量内容页面的原因有很多,以下是几个主要原因:

1. 用户生成的内容:很多大型网站,例如社交媒体、论坛、评论区等,都是由用户自行生成内容。用户的质量控制往往无法得到保证,因此可能会有大量低质量的内容产生。

2. 不当的SEO优化:为了提高在搜索引擎中的排名,一些网站可能会大量产生并发布“关键词填充”的页面,这些页面往往内容质量不高。

3. 缺乏质量控制机制:大型网站内容复杂、更新频繁,如果没有有效的质量控制机制,可能会产生大量质量低下的内容。

4. 持续的内容更新:一些大型新闻或博客网站,为了保持新鲜度和吸引流量,可能会持续发布新的内容,但在大量的内容更新中,可能会产生一部分质量较低的内容。

5. 为了量化的追求:当网站更注重内容的数量而非质量时,就有可能产生大量的低质量内容。因为创作高质量的内容需要时间和资源,但是产生大量的内容可以更快地吸引流量和眼球。

6. 内容冗余:大型网站由于内容众多,可能会有许多相似或者重复的内容,这样也会导致一部分低质量的内容产生。

7. 重复内容:这个在电商网站最常见。很多产品可能会因为产品分类、产品筛选、商品描述、URL参数、会话识别等原因导致多个页面显示相同的内容(但它们的URL不同),产生重复页面,使网站页面数量激增的同时被判定为低质量的页面数量也暴涨。

我在哪里可以找到网站的低质量内容?

我一直认为如果你足够熟悉你运营的网站,网站的低质量页面在哪里以及多不多都是可以直接感知的。但是,这里有个问题 —— 你的认为的低质量和搜索引擎认为的低质量可能不一样。那么如何找到搜索引擎认为的低质量页面呢?

方法1. 查看Google Search Console的“索引”报告

在下图的示例中,该网站的sitemap向Google提交了超3000万个页面,但是有超2300万个页面属于“已发现-尚未编入索引”。且从趋势上看,这种情况已经持续很久了。所以,你猜,Google为啥在成功发现大量页面后不收录呢?

如果你的网站也有类似的问题(即便远没有这个例子中的严重),你可以点击每项“网页未被编入索引的原因”,查看Google提供的示例页面 —— 你看一眼可能也就懂了为什么Google觉得这些页面是低质量的而不收录。

方法2. 查看Yandex Webmaster

这个方法与第一种方法在本质上没什么差别。但是Yandex是一个“直男”。Google不收录你的页面,它可能不会直接说是因为你的页面质量低,但Yandex就说得直白,让你直接死心。

打开Yandex Webmaster,然后依次点击 Indexing > Searchable pages > Excluded, 你就能找到被Yandex排除在外的页面了。在下图的示例中,Yandex非常直白,它直接说在Excluded的页面中“Low-value or low-demand page”的部分占比高达71%。

方法3. 使用SEO工具

有一些SEO工具可以帮助你找到和处理重复或低质量的内容。比如,Screaming Frog、Semrush、Ahrefs等工具可以扫描你的网站,提供有关重复标题、元描述、内容等的报告。

如何修复低质量内容页面?

1. 使用技术方法批量解决重复内容

(1)设置canonical标签

如果存在重复的页面,可以在这些页面中的一个上设置一个canonical标签(规范标签),指向选定的主页面。具体方法为设置一个主页面为canonical URL,其他重复页面通过 <link rel=”canonical” href=”URL”/> 标签指向这个URL。这告诉搜索引擎,尽管存在多个重复或非常相似的页面,但只有一个是你认为最重要的(即canonical URL)。

例如,假设你有一个商品在三个URL上出现:

  • http://www.example.com/product?id=1
  • http://www.example.com/product?id=1&color=red
  • http://www.example.com/product?id=1&color=red&size=small

你可以选择第一个URL作为规范URL,然后在其他两个页面的头部信息中添加以下代码:

<link rel=”canonical” href=”http://www.example.com/product?id=1″ />

这样,搜索引擎就会知道这三个URL其实是相同的内容,主URL是”http://www.example.com/product?id=1″。

如果你的网站使用了内容管理系统(如WordPress,Drupal等),可能会有一些插件可以帮助你处理这个问题。例如,Yoast SEO插件可以帮助你设置canonical标签,避免内容重复。

(2)使用301重定向

如果你已经合并了两个相似的页面或已经删除了重复的页面,你可以设置一个301重定向,将旧页面的访问者重定向到新页面。这不仅有助于避免重复内容,还可以将旧页面的SEO权重传递给新页面。

在服务器端,你可以配置URL重写规则,将多个URL重定向到一个主URL,避免重复的页面。例如,Apache服务器的mod_rewrite模块或者Nginx的rewrite模块可以做到这一点。

如果你有很多重定向需要设置,可能需要编写脚本或程序来生成相应的规则。比如你可以写一个Python脚本,读取一个CSV文件中的旧URL和新URL,然后生成对应的.htaccess规则或Nginx规则。

批量实现301重定向的方法会根据你的服务器类型和使用的网站构建技术有所不同,具体请咨询技术相关部门。

(3)使用robots.txt文件

你可以使用robots.txt文件来阻止搜索引擎访问你不希望被索引的页面,例如重复的页面或低质量的页面。

(4)使用noindex标签

对于那些你不希望被搜索引擎索引的页面,可以在页面的头部信息中加入 <meta name=”robots” content=”noindex”/>,这样搜索引擎就不会对其进行索引。

例如,在某些情况下,您的页面内容很少,因为它们仅用于导航目的。在这种情况下,只需应用“noindex”标签对页面进行取消索引,并将其从站点地图中删除即可。

(5)使用参数处理工具

很多搜索引擎提供参数处理工具(如Google Search Console的URL参数工具),可以帮助你指示搜索引擎如何处理URL中的参数。这样可以避免由于参数导致的页面重复。

(6)使用编程或脚本

你可以编写程序或脚本来扫描你的网站,检测低质量或重复的内容。这可能涉及到使用网站抓取工具和自然语言处理库来分析内容。你可以编写规则来自动处理这些问题,比如删除重复的页面,或自动合并相似的内容。具体的操作方法可咨询技术相关部门。

2. 直接删除低质量页面

如果一写内容已经在您的网站上存在多年,没有指向它的外链,并且没有人访问它,那么您可以直接删除那些过时的内容。

不过,一般来说,在删除任何内容之前,都应该先尝试优化或更新这些内容,以尽可能保留其可能带来的SEO价值。

3. 批量提高内容质量

提高网站内容的质量是避免产生低质量内容的最直接方式。但是针对大型网站而言,你恐怕没有足够的时间和资源来为每个页面创建独特的内容。

但是,如果你的网站上就是有大量内容薄弱但是你又还不想删除的内容,你可以尝试通过以下方法批量给内容相似但薄弱的页面增加内容:

(1)模板化的内容生成

如果你的网站有很多类似的页面,比如产品页面或博客文章,你可以创建一个内容模板。模板中的变量部分可以根据每个页面的特定信息(如产品名称、类别、主题等)进行替换。

以下是一个使用模板化的内容生成来创建产品描述的例子:

假设你有一个销售笔记本电脑的电商网站,你可以为你的产品描述创建一个模板,像这样:

“这款[name]笔记本电脑,搭载了[processor]处理器和[ram]GB内存,它拥有[storage]GB的存储空间。其[screen size]英寸的显示屏提供了[resolution]的高分辨率,使得视觉效果更为震撼。此外,它还配备了[feature1]、[feature2]和[feature3]。”

然后,你就可以用实际的产品信息来填充这个模板。比如:

“这款Apple MacBook Pro笔记本电脑,搭载了Intel Core i7处理器和16GB内存,它拥有512GB的存储空间。其16英寸的显示屏提供了3072 x 1920的高分辨率,使得视觉效果更为震撼。此外,它还配备了触控栏、四个Thunderbolt 3(USB-C)接口和Face ID面部识别。”

这样,你就可以为每一款笔记本电脑批量生成产品描述了。此外,为了使内容更具原创性和吸引力,你可能需要创建多个模板,并在生成内容时在这些模板之间进行切换。

此外,模板化的内容生成还可以应用于标题模板和描述模板,例如对于一个售卖电子书的网站,你可以创建如下的标题模板:“{书名} – {作者} | 我们的电子书店”。这样,你就可以解决重复标题或描述的问题了。

你可以根据你网站的特性和需求,创建合适的模板。同时,你可能还需要一些工具来帮助你自动化地填充模板,比如编程脚本或者某些内容管理系统。

(2)数据抓取

数据抓取(或网络爬虫)是从网页中自动提取信息的技术,它可以用来从其他网站上抓取需要的数据,然后将这些数据用于你自己的网站内容。以下是在日常生活中常见的几个例子:

1)电影评论网站

假设你运营一个电影评论网站,你可以从电影数据库网站(如IMDb)抓取电影的信息,包括电影名、导演、演员、上映日期等,并将这些信息添加到你的网站中。你还可以抓取用户的评价,生成电影的平均评分。

2)新闻聚合网站

假设你正在运营一个新闻聚合网站,希望将多个新闻源的头条新闻集中在一个地方展示。你可以使用数据抓取从各个新闻网站抓取最新的新闻标题、简介和链接,然后在你的网站上发布这些内容。这样,用户可以在你的网站上看到来自多个新闻源的最新新闻。

3)价格比较网站

如果你的网站提供价格比较服务,你可能需要从各个电商网站抓取产品的价格信息。你可以使用数据抓取从这些网站上抓取产品的名称、描述、价格和链接,然后在你的网站上展示这些信息。这样,用户可以在你的网站上比较不同网站的价格,并通过链接直接购买产品。

4)行业研究网站

假设你的网站提供行业研究报告,你可能需要从各个行业网站抓取行业的最新数据和动态。你可以使用数据抓取从这些网站上抓取数据和新闻,然后进行分析和整理,发布在你的网站上。这样,用户可以在你的网站上获取最新的行业研究报告。

注意:以上所有的操作都应遵守相关法律和道德规范,确保你有权抓取和使用目标网站的数据,尊重原始数据的来源,并在使用数据时给出适当的引用。同时,为了保证数据的准确性和时效性,你应定期更新你的数据。

你的网站很可能不是以上类型的,但是你可以参考这种思路,从其他来源合法地抓取一些与你的页面相关的内容,对你的内容薄弱的页面进行补充。

给内容薄弱的页面批量增加内容的几个示例

示例1:电商网站内容薄弱的产品页

给电商网站的产品页面批量增加内容是比较常见的。但一般可以考虑增加哪些内容呢?如何批量增加呢?以下举例说明:

(1)详细的产品描述:提供尽可能详尽的产品信息,包括产品的特点、规格、用途、使用方法、维护和保养信息等。例如,一个卖笔记本电脑的网站,可以在产品页面上列出电脑的所有技术规格、操作系统、内存大小、处理器类型等信息。你可以从供应商或者制造商那里获取产品的详细信息,并使用编程脚本或者数据导入工具将这些信息批量导入到产品页面上。比如,如果你的电商平台使用的是WordPress和WooCommerce,那么你可以使用像WP All Import这样的插件来导入产品数据。

(2)用户生成的内容:允许用户在产品页面上添加他们自己的评论和评价。这不仅可以增加页面的内容,也可以提高用户的参与度和信任感。比如,亚马逊的商品评论区就大大增加了页面的内容。你可以使用评论管理系统,如Disqus或者Facebook评论插件,让用户可以在每个产品页面上添加评论。这些系统一般都支持批量安装和管理,可以省去手动添加评论功能的麻烦。

(3)产品视频和图像:创建产品演示视频或者拍摄高质量的产品图片。对于很多产品,一段简短的视频能更清楚地向用户展示产品的用途和优点。图片也是如此,多角度、多场景的产品图能给用户更全面的了解。如果你有大量的产品视频和图片,可以使用云存储服务(如Amazon S3或者Google Cloud Storage)来存储这些文件,然后使用编程脚本或者数据导入工具将文件链接批量导入到产品页面上。当然,这里的图片和视频可能需要你一一拍摄或者从供应商处获取。

(4)相关产品推荐:在产品页面下方展示相关的产品,这样可以增加页面内容,也有助于提高销售量。比如,一个电子书阅读器的产品页面,可以在下方推荐热门的电子书籍。

(5)常见问题和解答(FAQ):列出关于产品的常见问题和答案,这可以提供更多有用的信息给用户,同时也增加页面内容。例如,一款新的健身器械可能有一些特殊的设置或使用方式,提供一个FAQ可以帮助用户理解这些信息。你可以采用“模板化的内容生成”方式来生成FAQ。如果你有大量的FAQ数据,可以使用知识库软件(如Zendesk Guide或者Helpjuice)来管理和发布这些信息。这些软件一般都支持批量导入和更新数据,可以省去手动添加FAQ的麻烦。

(6)产品比较:如果你销售的是一系列相似的产品,可以在每个产品页面上添加一个产品比较表。比如,一家卖电视的网站可以提供一个比较表,列出不同型号电视的尺寸、分辨率、价格等信息。你可以使用产品信息管理(PIM)系统,如Akeneo或者Pimcore,来管理和发布产品比较信息。这些系统一般都支持批量导入和更新数据,可以省去手动添加比较表的麻烦。

示例2:视频网站内容薄弱的视频播放页面

给内容单薄的视频网站页面批量增加内容,可以从提供更丰富的视频相关信息,增加用户参与和互动,以及通过智能推荐系统等角度来考虑。以下是一些具体的策略:

(1)视频描述和元数据:每个视频都应该有一个详细的描述,包括视频的内容、制作人、关键词标签等。这些信息不仅可以帮助用户理解视频的内容,也有助于搜索引擎优化。如果你已经有了大量的视频和相应的元数据(例如标题、描述、标签等),那么可以使用脚本或工具将这些信息批量上传到网站上。例如,如果你的网站使用的是WordPress,那么可以使用像WP All Import这样的插件来批量导入视频和元数据。此外,你也可以使用自然语言处理(NLP)工具或者服务来自动从视频中抽取关键词和主题,然后添加到元数据中。

(2)用户评论和互动:鼓励用户在视频下面留言评论,这可以增加页面的内容,同时也可以增强用户的参与感。你还可以提供点赞、分享等互动功能,让用户可以在社交媒体上分享视频,增加视频的曝光率。

(3)相关视频推荐:在每个视频页面上推荐相关的视频,这可以提供更多的内容,也可以引导用户观看更多的视频。推荐算法可以基于视频的标签、用户的观看历史等因素。

(4)嵌入社交媒体功能:让用户可以直接在视频页面上分享和讨论视频,比如,可以嵌入 Twitter 或 Facebook 的插件。

(5)增加创作者信息:每个视频的页面可以包含更多关于创作者的信息,例如其他作品,他们的社交媒体链接,背景信息等。这种信息有助于建立观众与创作者之间的联系,并可能鼓励观众观看更多视频。如果你有创作者的相关信息,可以使用脚本或工具将这些信息批量导入到网站上。例如,你可以为每个创作者创建一个作者页面,然后在每个视频页面上添加作者的链接。此外,你也可以使用自然语言生成(NLG)工具或者服务来自动创建创作者的简介和其他相关内容。

请注意,你应尊重用户和创作者的权利,保护用户的隐私,遵守相关的法律和道德规范。在使用用户生成的内容时,应确保用户同意其内容在网站上被使用。

结语

对大型网站的内容进行批量处理是一件难度非常高的事情。针对SEO人员来说,在实际操作的过程中,你可能会遇到以下难题:

1. 要花大量的时间去梳理低质量的页面,以确定后续采取什么样的方式(例如重定向、禁收录、删除、补充内容还是其他?)

2. 需要与技术人员沟通解决方案。即便在技术部门愿意提供协助的情况下,顺利沟通的前提是你本身已经非常熟悉这些技术方案。但这正是很多SEO人员缺乏的。例如,你让TA去跟技术人员解释canonical是啥,如何正确设置canonical标签, canonical标签与301重定向有什么不同,后续如何验收等,TA很可能是说不清楚的。如果这时技术人员对SEO也没有了解,那两个半桶水沟通起来可能就非常麻烦,后面的执行也很可能出错。

3. 你需要提供细化的方案。这篇文章提供了很多方案,但具体到你的网站时,你是需要细化方案的。例如,你要具体说明哪些页面要设置canonical标签,哪些要进行301重定向等。又如你采用数据抓取,你就要思考你要抓取什么数据、去哪里抓取、如何获得授权等问题。所有这些方案都需要细化,都是耗时的。

4. 针对网站进行大规模的技术或内容更改,在大企业中势必会影响多方利益。因此这绝对不是能悄悄进行的事情,具体方案必须先得到关键人物的首肯。而且,为避免大规模的更改后发生重大的失误或者对SEO造成预期之外的影响,你最好先小规模地进行试验,先把流程和方法走通。

总体来说,大批量地解决网站低质量内容是一件耗时且烧脑的事情, 是对SEO人员综合能力的高度挑战!

Leave a Comment

您的电子邮箱地址不会被公开。 必填项已用 * 标注

error: Content is protected !!