Jun 20, 2022

为什么 100% 索引是不可能的？

#索引 #网站优化

虽然就“技术”而言，100% 的索引可能是可能的，但在现实中可能是不可能的。

对于爬虫预算等话题，历史上的说法一直是，这是为大型网站（被谷歌归类为百万以上网页）和内容更改频率高的中型网站保留的问题。

然而，近几个月来，抓取和索引已成为 SEO 论坛和 Twitter 上向 Google 员工提出的问题中更常见的话题。

根据我自己的轶事经验，自上年以来，不同规模和更改频率的网站在 Google Search Console（抓取统计数据和覆盖率报告）中的波动和报告变化比以往任何时候都要大。

我目睹的一些主要覆盖范围变化也与未经证实的谷歌更新和 SERP 传感器/观察者的高波动性有关。鉴于没有一个网站在堆栈、利基甚至技术问题方面有太多共同点——这是否表明 100% 索引（对于大多数网站）现在是不可能的，这可以吗？

这是有道理的。

谷歌在他们自己的文档中概述了网络正在以远远超出其自身能力和手段来抓取（和索引）每个 URL 的速度扩展。

在同一份文档中，谷歌概述了影响其抓取能力以及抓取需求的一些因素，包括：

您的 URL（和内容）的受欢迎程度。
是陈旧。
网站的响应速度。
Google 对我们网站上 URL 的了解（感知库存）。

从与 Google 的 John Mueller 在 Twitter 上的对话来看，您的 URL 的受欢迎程度不一定会受到您的品牌和/或域名的受欢迎程度的影响。

有过主要出版商的第一手经验，没有根据其与已在线发布的类似内容的独特性对内容进行索引 - 好像它低于质量阈值并且没有足够高的 SERP 包含值。

这就是为什么在处理特定规模或类型的所有网站（例如电子商务）时，我从第一天开始就认为 100% 索引并不总是一个成功指标。

索引层和分片

谷歌在解释他们的索引是如何工作的方面非常开放。

他们使用分层索引（更好的服务器上的一些内容以便更快地访问）并且他们有一个存储在多个数据中心的服务索引，这些数据中心基本上存储了在 SERP 中提供的数据。

进一步简化：

然后，网页（HTML 文档）文档的内容被标记化并跨分片存储，并且分片本身被索引（如词汇表），以便可以更快、更轻松地查询特定关键字（当用户搜索时）。

很多时候，索引问题归咎于技术搜索引擎优化，如果你有一个无索引或问题和不一致阻止谷歌索引内容，那么它是技术性的，但通常不是 - 这是一个价值主张问题。

有益目的和 SERP 包含价值

当谈到价值主张时，指的是 Google 质量评估指南 (QRG) 中的两个概念，它们是：

有益目的
页面质量

结合起来，这些创造了我称之为 SERP 包含值的东西。

这通常是网页在 Google Search Console 的覆盖率报告中属于“已发现 - 当前未编入索引”类别的原因。

在 QRG 中，Google 做出了这样的声明：请记住，如果页面缺乏有益的用途，则应始终将其评为最低页面质量，无论页面的需求满足等级或页面的设计如何。

这是什么意思？页面可以定位正确的关键字并勾选正确的框。但如果它通常与其他内容重复并且缺乏附加价值，那么谷歌可能会选择不将其编入索引。

这就是我们遇到 Google 的质量阈值的地方，这是一个页面是否符合必要的“质量”以被索引的概念。

这个质量阈值如何工作的一个关键部分是它几乎是实时的和流动的。

Google 的 Gary Illyes 在Twitter 上证实了这一点，其中一个 URL 可能会在第一次被发现时被编入索引，然后在找到新的（更好的）URL 时被删除，甚至在 GSC 中手动提交时会暂时“新鲜”提升。

确定您是否有问题

首先要确定的是，您是否看到 Google Search Console 的覆盖率报告中的页数从包含移至排除。

该图表本身且脱离上下文足以引起大多数营销利益相关者的关注。

但是您关心这些页面中有多少？这些页面中有多少推动了价值？

您将能够通过您的集体数据来识别这一点。您会看到分析平台中的流量和收入/潜在客户是否正在减少，如果您正在失去整体市场知名度和排名，您会在China & world的工具 中注意到。

一旦您确定您是否看到有价值的页面从 Google 的索引中退出，接下来的步骤就是了解原因，然后 Search Console 将排除的页面细分为更多类别。您需要了解和了解的主要内容是：

已爬网 - 目前未编入索引

这是我在电子商务和房地产领域遇到的比任何其他垂直行业都多的事情。

2021 年，美国新的商业申请注册数量打破了之前的记录，随着更多企业争夺用户，发布了很多新内容——但可能不会有很多新的和独特的信息或观点。

已发现——目前未编入索引

在调试索引问题时，我在网站或已经部署了相当多的程序化方法来创建内容并一次发布大量页面的网站上发现了很多这种情况。

页面属于此类的主要原因可以归结为抓取预算，因为您刚刚发布了大量内容和新 URL，并且网站上可抓取和可索引页面的数量呈指数级增长，以及 Google 的抓取预算已确定您的网站不适合这么多页面。

你可以做很多事情来影响这一点。但是，您可以通过 XML 站点地图、HTML 站点地图和良好的内部链接帮助 Google 将页面排名从重要（索引）页面传递到这些新页面。

内容可能属于这一类别的第二个原因是质量问题——这在程序化内容或电子商务网站中很常见，这些网站包含大量类似或可变产品的产品和 PDP。

Google 可以识别 URL 中的模式，如果它访问这些页面的一部分但没有发现任何价值，它可以（有时会）假设具有相似 URL 的 HTML 文档将具有相同（低）质量，并且它会选择不抓取它们。

这些页面中的很多都是以获取客户为目标而有意创建的，例如针对小众用户的程序化位置页面或比较页面，但这些查询的搜索频率较低，可能不会引起很多关注，并且内容可能不会与其他程序化页面相比足够独特，因此当其他替代方案可用时，Google 不会索引低价值主张内容。

如果是这种情况，您将需要评估并确定是否可以在项目资源和参数内实现目标，而不会出现过多的页面阻塞爬网并且不被视为有价值。

重复内容

重复内容是更直接的一种，在电子商务、出版和程序化中很常见。

如果包含价值主张的页面的主要内容在其他网站或内部页面中重复，则 Google 不会将资源用于索引内容。

这也与价值主张和有益目的的概念有关。我遇到过很多例子，大型权威网站的内容未编入索引，因为它与其他可用内容相同——不提供独特的观点或独特的价值主张。

采取行动

对于大多数大型网站和中等规模的中型网站，实现 100% 索引只会变得更加困难，因为 Google 必须处理网络上所有现有的和新的内容。

如果您发现有价值的内容被认为低于质量阈值，您应该采取什么措施？

改善“高价值”页面的内部链接：这并不一定意味着反向链接最多的页面，但那些针对大量关键字排名且具有良好可见性的页面可以通过描述性锚向其他页面传递积极信号.
修剪低质量、低价值的内容。如果从索引中排除的页面价值较低并且没有带来任何价值（例如，综合浏览量、转化），则应该对其进行修剪。让它们上线只会浪费 Google 在选择抓取它们时的抓取资源，这可能会影响他们基于 URL 模式匹配和感知库存的质量假设。