2024 年 12 月 17 日,星期二
我们刚刚发布了关于分面导航最佳实践的新文档,该文档最初发布为一篇博文。 以下是新文档页面中的一些重要内容的摘要。
分面导航是一种非常棒的方式,可帮助用户在您的网站上找到所需内容,但如果不谨慎实施,可能会演变为一场 SEO 噩梦。为什么?因为它可以生成近乎无限数量的网址,从而导致:
- 过度抓取:搜索引擎浪费时间抓取对搜索用户毫无价值的无数网址。
- 发现速度变慢:过度抓取会减慢系统发现重要新内容的速度。
事实上,迄今为止,网站所有者向我们反馈的过度抓取问题中,最常见的来源便是分面导航。而在绝大多数情况下,只要遵循一些最佳实践,就可以避免出现此类问题。但我们先来梳理一下一些信息。
网址问题
分面导航中的每个过滤条件组合通常会创建一个唯一的网址。例如:
https://example.com/items.shtm?products=fish&color=radioactive_green&size=tiny
更改任何参数(product
、color
或 size
)都会创建一个新网址,从而导致网址数量激增。这就是问题所在:几乎无限数量的新网址等待被发现。我们来解决这个问题。
两种方法
-
屏蔽分面导航网址:
-
如果您不需要将这些网址编入索引,请使用
robots.txt
禁止抓取。 -
或者,使用网址片段 (
#
) 作为过滤条件,因为搜索引擎通常会忽略它们。
-
如果您不需要将这些网址编入索引,请使用
-
优化分面导航网址(如果您需要 Google 抓取这些网址,无论成本如何):
-
为网址参数使用标准
&
分隔符。💩 不是合适的参数分隔符字符。 - 在网址路径中保持顺序一致的过滤条件。
- 对于没有结果的过滤条件组合,返回
404
状态代码。 - 除非您别无选择(例如,您有一个单页面应用),否则请避免将空白结果重定向到通用的“找不到”页面。
-
为网址参数使用标准
重要注意事项
-
您还可以使用
rel="canonical"
将变体内容指向主页面,以帮助整合信号。系统需要一段时间才能发现这一机制。 -
过滤条件链接上的
rel="nofollow"
可能会阻止抓取,但必须一致地应用。也就是说,指向这些页面的所有链接(内部和外部)都必须具有rel="nofollow"
属性。 - 抓取分面导航网址始终会消耗服务器资源,并且可能会影响新内容的发现。
如果您对关于分面导航最佳实践的新文档有任何建议或需要解释说明,请使用该文档中的反馈工具告诉我们。如果您对分面导航非常感兴趣,并想与他人讨论相关问题,请访问搜索中心社区,您也可在 LinkedIn 上找到我们。
想详细了解抓取?请查看整个“抓取 12 月”系列:
抓取 12 月:CDN 和抓取
2024 年 12 月 24 日,星期二 内容分发网络 (CDN) 特别适合用于缩短网站的延迟时间,并且通常可以避免与网站流量相关的麻烦。毕竟,它们的主要用途是:即使网站获得大量流量,也能快速传送内容。CDN 中的 "D" 是指在全球范围内传送或分发内容,因此传输到用户的时间也比仅在某个数据中心托管内容更短。在本文中,我们将探讨如何利用 CDN 来提升网站的抓取速度和用户体验,还将了解抓取 CDN 支持的网站时的一些细微差别。 CDN
抓取 12 月:HTTP 缓存
2024 年 12 月 9 日(星期一) 请允许我们缓存,拜托啦。 多年来,随着网络蓬勃发展,Google 抓取量也日益攀升。虽然 Google 的抓取基础架构支持启发式缓存机制,但实际上一直以来,可从本地缓存返回的请求数量在逐渐减少:10 年前,总抓取量中约有 0.026% 的内容可缓存,尽管这个数字已然不高,但如今已降至 0.017%。 网络就像一块大拼图,缓存是其中不可或缺的那一块。缓存可让网页在用户再次访问时快速加载,节省计算资源,进而节省自然资源,并为客户端和服务器节省大量昂贵的带宽。
抓取 12 月:Googlebot 抓取的运作方式和原因
2024 年 12 月 3 日,星期二 您可能听说过,Google 搜索需要完成一些工作,才能在 Google 搜索结果中显示某个网页。其中一个步骤称为“抓取”。Google 搜索上的抓取工作是由 Googlebot 完成的。Googlebot 是 Google 服务器上运行的一款程序,用于检索网址,并处理在遍历整个网络时可能遇到的网络错误、重定向和其他小问题。但是,有些细节并不常被提及。在本月的每周,我们都会探讨这些细节的一部分,因为这些细节可能会对您网站的被抓取方式产生重大影响。 抓取