共计 13254 个字符,预计需要花费 34 分钟才能阅读完成。
谷歌,如果你正在读这篇文章,那就不太晚。😉
好的。敲响指关节。让我们开始吧。 Google 搜索的内容仓库 API 的内部文档已泄露。Google 的内部微服务似乎反映了 Google Cloud Platform 提供的内容,并且已弃用的 Document AI Warehouse 的内部版本文档被意外公开发布到客户端库的代码存储库中。此代码的文档也被外部自动文档服务捕获。
根据变更历史记录,此代码存储库错误已于 5 月 7 日修复,但自动文档仍然有效。为了限制潜在责任,我不会在这里链接到它,但由于该存储库中的所有代码都是根据 Apache 2.0 许可证发布的,因此任何遇到它的人都被授予了广泛的权利,包括使用、修改和分发它的能力。

我查看了 API 参考文档,并将其与之前的一些 Google 泄密事件和美国司法部反垄断证词联系起来。我将其与即将出版的新书《SEO 的科学》所做的大量专利和白皮书研究相结合。虽然我查看的文档中没有关于 Google 评分功能的详细信息,但其中包含大量有关为内容、链接和用户交互存储的数据的信息。对被操纵和存储的功能的描述程度也各不相同(从令人失望的稀疏到令人惊讶的揭示)。
您可能想笼统地称这些为“排名因素”,但这样称呼并不准确。其中许多,甚至大多数,都是 排名因素,但也有很多不是。我在这里要做的是根据我广泛的研究以及谷歌多年来对我们说的话 / 撒谎的事情,对一些最有趣的排名系统和功能进行背景介绍(至少是我在审查这次大规模泄密事件的最初几个小时内能够找到的)。
“撒谎”这个词很刺耳,但这是这里唯一准确的词。虽然我不一定责怪谷歌的公众代表保护他们的专有信息,但我确实对他们积极抹黑营销、科技和新闻界那些提出可重复发现的人的行为表示异议。我对未来谈论这些话题的谷歌员工的建议是:有时最好简单地说“我们不能谈论这个”。你的信誉很重要,当像这样的泄密事件和司法部审判之类的证词被曝光时,你未来的陈述就变得不可能被相信了。
注意事项
我想我们都知道,人们会试图诋毁我对这次泄密事件的调查结果和分析。有些人会质疑这有什么重要性,并说“但我们已经知道了”。所以,在开始讲重点之前,让我们先把这些警告说清楚。
- 有限的时间和背景——由于是周末假期,我只能花大约 12 个小时左右的时间深入研究所有这些内容。我非常感谢一些匿名人士,他们非常乐意与我分享他们的见解,帮助我快速掌握情况。此外,与我去年报道的 Yandex 泄密事件类似,我并没有一个完整的画面。我们有源代码可供解析,但不知道 Yandex 背后的任何想法,在这种情况下,我们知道数千个功能和模块背后的一些想法,但没有源代码。您必须原谅我以一种不太结构化的方式分享这篇文章,几周后我会花更多时间研究这些材料。
- 没有评分函数——我们不知道在各种下游评分函数中特征是如何加权的。我们不知道是否所有可用功能都在使用。我们知道有些功能已被弃用。除非明确说明,否则我们不知道事物是如何使用的。我们不知道所有事情在管道中发生在哪里。我们有一系列命名的排名系统,它们与 Google 的解释方式、SEO 在野外观察排名的方式以及专利申请和 IR 文献的解释方式大致相同。最终,由于这次泄漏,我们现在对正在考虑的内容有了更清晰的了解,这可以告诉我们在今后的 SEO 中应该关注什么,应该忽略什么。
- 可能是几篇文章中的第一篇——这篇文章将是我对所评论内容的初步尝试。随着我继续深入研究细节,我可能会发布后续文章。我怀疑这篇文章将导致 SEO 社区竞相解析这些文档,我们将在未来几个月内共同发现和重新阐释事物。
- 这似乎是最新信息——据我所知,此次泄露的信息代表了截至 2024 年 3 月 Google 搜索内容存储的当前活跃架构。(谷歌公关人员说我错了。实际上,让我们跳过歌舞吧,大家)。根据提交历史,相关代码于 2024 年 3 月 27 日推送,直到 2024 年 5 月 7 日才被删除。

- 相关性不等于因果关系——好吧,这一点实际上并不适用于这里,但我只是想确保我涵盖了所有的基础。
文档中有 14K 排名功能及更多内容
API 文档中有 2,596 个模块,具有 14,014 个属性(功能),如下所示:

这些模块与 YouTube、Assistant、图书、视频搜索、链接、网络文档、抓取基础设施、内部日历系统和 People API 的组件相关。与 Yandex 一样,Google 的系统在单一存储库(或“monorepo”)上运行,并且机器在共享环境中运行。这意味着所有代码都存储在一个地方,网络上的任何机器都可以成为 Google 任何系统的一部分。

泄露的文档概述了 API 的每个模块,并将它们分解为摘要、类型、功能和属性。我们看到的大部分内容是各种协议缓冲区(或 protobuf) 的属性定义,这些缓冲区可在排名系统中访问以生成 SERP(搜索引擎结果页面 – Google 在搜索者执行查询后显示的内容)。

不幸的是,许多摘要都引用了 Go 链接,这些链接是 Google 公司内联网上的 URL,提供有关系统不同方面的更多详细信息。如果没有正确的 Google 凭据来登录和查看这些页面(这几乎肯定需要成为搜索团队的现任 Google 员工),我们只能靠自己的设备进行解读。
API 文档揭露了谷歌的一些明显谎言
为了控制我们作为 SEO 人员的行为,Google 发言人不遗余力地在系统运行的各个方面误导和误导我们。我不会称其为“社会工程”,因为该术语的历史渊源很深。我们不妨称之为……“煤气灯效应”。Google 的公开声明可能不是故意撒谎,而是为了欺骗潜在的垃圾邮件发送者(以及许多合法的 SEO 人员),让我们无法了解如何影响搜索结果。
下面,我将列出谷歌员工的断言以及文件中的事实,并附上有限的评论,以便您可以自行判断。
“我们没有域名权威之类的东西”
Google 发言人曾多次表示,他们不使用“域名权威”。我一直认为,这是隐瞒和混淆事实的谎言。
通过说他们不使用域名权威,他们可能说他们特别不使用 Moz 的“域名权威”指标(显然 🙄)。他们也可能说他们不衡量与网站相关的特定主题(或域名)的权威性或重要性。这种语义上的混淆使他们永远无法直接回答他们是否计算或使用网站范围的权威指标的问题。
谷歌搜索团队的分析师 Gary Ilyes 专注于发布信息来帮助网站创建者,他曾多次重复这一论断。

而且 Gary 并不是唯一一个。John Mueller,一位“负责协调 Google 搜索关系的搜索倡导者”,在这段视频中宣称“我们没有网站权威分数。”
实际上,作为按文档存储的压缩质量信号的一部分,Google 有一项计算功能,称为“siteAuthority”。

我们不知道该指标在下游评分函数中是如何计算或使用的,但现在我们明确知道它存在并且用于 Q* 排名系统。事实证明,谷歌确实拥有整体域名权威。谷歌员工声称“我们有它,但我们不使用它”,或“你不明白这意味着什么”,或者……等等,我说的是“有限的评论”,不是吗?继续。

“我们不使用点击次数进行排名”
让我们彻底解决这个问题吧。
潘杜·纳亚克 (Pandu Nayak) 在司法部反垄断审判中的证词最近揭露了 Glue 和 NavBoost 排名系统的存在。NavBoost 是一种采用点击驱动措施来提升、降低或以其他方式加强网页搜索排名的系统。纳亚克表示,Navboost 自 2005 年左右就已存在,历史上使用了连续 18 个月的点击数据。该系统最近进行了更新,使用连续 13 个月的数据并专注于网页搜索结果,而名为 Glue 的系统则与其他通用搜索结果相关联。但是,即使在揭露之前,我们就已经拥有多项专利(包括 2007 年的基于时间的排名专利),这些专利明确指出了如何使用点击日志来更改结果。
我们还知道,点击次数作为衡量成功的标准是信息检索的最佳实践。我们知道 Google 已转向机器学习驱动的算法,而 ML 需要响应变量来改进其性能。尽管有这些惊人的证据,但由于 Google 发言人的误导以及搜索营销界令人尴尬的同谋发表的文章,这些文章毫无批判地重复了 Google 的公开声明,SEO 社区仍然存在混乱。
Gary Ilyes 曾多次讨论过这个点击量衡量问题。有一次,他重申了 Google 搜索工程师 Paul Haahr 在 2016 年 SMX West 现场实验演讲中分享的观点,他说“直接使用点击量进行排名是一个错误。”

后来,他利用自己的平台贬低兰德·菲什金(Moz 创始人 / 首席执行官,长期从事 SEO 工作),称“停留时间、点击率,不管菲什金的新理论是什么,那些通常都是胡编乱造的。”

实际上,Navboost 有一个专门的模块完全专注于点击信号。
该模块的摘要将其定义为“Craps 的点击和展示信号”,Craps 是排名系统之一。如下所示,不良点击、良好点击、最长的最后点击、未压缩的点击以及未压缩的最长的最后点击均被视为指标。根据 Google 的“根据位置突出性对本地搜索结果进行评分”专利,“压缩是一种防止一个大信号主导其他信号的功能。”换句话说,这些系统正在规范点击数据,以确保不会出现基于点击信号的失控操纵。Google 员工认为,专利和白皮书中的系统不一定是实际生产中的系统,但如果 NavBoost 不是 Google 信息检索系统的重要组成部分,那么构建和包含它就是毫无意义的。

另一个与索引信号相关的模块中也有许多相同的基于点击的测量方法。其中一个测量方法是给定文档的“最后一次良好点击”的日期。这表明内容衰减(或随着时间的推移流量损失)也是排名页面未为其 SERP 位置带来预期点击量的原因。
此外,文档将用户视为投票者,并将他们的点击次数存储为投票数。系统会统计错误点击次数,并按国家 / 地区和设备细分数据。
他们还存储会话期间点击时间最长的结果。因此,仅执行搜索并点击结果是不够的,用户还需要在页面上花费大量时间。长点击就像停留时间一样,是衡量搜索会话成功的指标,但本文档中没有称为“停留时间”的特定功能。尽管如此,长点击实际上是对同一事物的衡量,这与谷歌对此事的声明相矛盾。
各种消息来源都表明 NavBoost “已经是 Google 最强大的排名信号之一”。泄露的文档 84 次提到了“Navboost”,其中有五个模块的标题中都包含 Navboost。还有证据表明,他们考虑在子域、根域和 URL 级别上进行评分,这本身就表明他们对网站的不同级别采取了不同的处理方式。我不会深入讨论子域与子目录的争论,但稍后我们将讨论系统中的数据如何为 Panda 算法提供信息。
因此,是的,Google 在本文件中并没有用确切的字眼来提及“点击率”或“停留时间”,但 Rand 所证明的精神是:搜索结果的点击次数和成功搜索会话的衡量标准都包括在内。证据相当确凿,毫无疑问,Google 将点击次数和点击后行为作为其排名算法的一部分。

“沙盒不存在”
Google 发言人坚称,不存在根据网站年龄或缺乏信任信号将网站隔离的沙盒。在一条现已删除的推文中,John Muller 回答了有关需要多长时间才能获得排名资格的问题,并表示“不存在沙盒”。

在 PerDocData 模块中,文档指出了一个名为 hostAge 的属性,该属性专门用于“在服务时间内对新鲜的垃圾邮件进行沙盒处理”。
原来沙箱真的存在。谁知道呢?哦,是的,兰德知道。

“我们不使用 Chrome 中的任何内容来提高排名”
Matt Cutts 之前曾表示,Google 不会将 Chrome 数据用作自然搜索的一部分。最近,John Mueller 也重申了这一观点。

与页面质量得分相关的模块之一具有网站级的 Chrome 浏览量衡量指标。另一个似乎与网站链接生成相关的模块也具有与 Chrome 相关的属性。

2016 年 5 月泄露的 RealTime Boost 系统内部演示文稿也表明 Chrome 数据即将用于搜索。我的意思是,你明白我的意思。

谷歌发言人的用意是好的,但我们能相信他们吗?
简单的回答是,当你太接近秘密武器时就不会。
我对我在这里提到的这些人没有恶意。我相信他们都会尽力在允许的范围内为社区提供支持和价值。然而,这些文件明确表示,我们应该继续把他们说的话当作一种意见,我们的社区应该继续尝试看看什么是有效的。
GOOGLE 排名系统的架构
从概念上讲,您可能会认为“Google 算法”是一个包含一系列加权排名因素的巨型方程式。实际上,它是一系列微服务,其中许多功能经过预处理并在运行时可用来组成 SERP。根据文档中引用的不同系统,可能有一百多种不同的排名系统。假设这些不是所有系统,也许每个单独的系统都代表一个“排名信号”,也许这就是 Google 获得他们经常谈论的 200 个排名信号的方式。
在 Jeff Dean 的“谷歌软件系统构建和经验教训”演讲中,他提到谷歌早期版本将每个查询发送到 1000 台机器,在不到 250 毫秒的时间内进行处理和响应。他还绘制了系统架构抽象的早期版本。该图说明 Super Root 是谷歌搜索的大脑,它发送查询并在最后将所有内容拼接在一起。

杰出研究工程师 Marc Najork 在其最近的生成信息检索演讲中展示了 Google 搜索及其 RAG 系统(又称搜索生成体验 /AI 概览)的抽象模型。该图说明了处理结果各个层的一系列不同的数据存储和服务器。

Google 举报人 Zach Vorhies 泄露了这张幻灯片,其中通过内部名称展示了 Google 内部不同系统之间的关系。文档中引用了其中的几个。

使用这三个高级模型,我们可以开始思考这些组件是如何协同工作的。从我从文档中收集到的信息来看,这个 API 似乎位于 Google 的 Spanner 之上。Spanner 是一种架构,它基本上允许无限扩展内容存储和计算,同时将一系列全球联网的计算机视为一个整体。
诚然,仅从文档中拼凑出所有内容之间的关系有些困难,但 Paul Haahr 的简历提供了一些有价值的见解,说明了一些已命名的排名系统的作用。我将按名称突出显示我所知道的那些,并将它们按功能进行细分。
爬行
- Trawler –网络爬虫系统。它具有爬虫队列,可维护爬虫率,并了解页面更改频率。
索引
- 亚历山大——核心索引系统。
- SegIndexe r –将层级文档放入索引内的层级的系统。
- TeraGoogle——用于长期存储在磁盘上的文档的二级索引系统。
渲染
- HtmlrenderWebkitHeadless – JavaScript 页面的渲染系统。奇怪的是,它以 Webkit 而不是 Chromium 命名。文档中提到了 Chromium,因此很可能 Google 最初使用的是 WebKit,并在 Headless Chrome 推出后进行了切换。
加工
- LinkExtractor –从页面中提取链接。
- WebMirror –用于管理规范化和重复的系统。
排行
- Mustang –主要得分、排名和发球系统
- Ascorer——在任何重新排名调整之前对页面进行排名的主要排名算法。
- NavBoost——基于用户行为点击日志的重新排名系统。
- FreshnessTwiddler—基于新鲜度的文档重新排名系统。
- WebChooserScorer—定义片段评分中使用的功能名称。
服务
- Google Web 服务器 – GWS 是 Google 前端与之交互的服务器。它接收数据负载以显示给用户。
- SuperRoot——这是 Google 搜索的大脑,它将消息发送到 Google 的服务器并管理后处理系统以重新排名和呈现结果。
- SnippetBrain——生成结果片段的系统。
- Glue——利用用户行为汇总通用结果的系统。
- Cookbook –生成信号的系统。有迹象表明值是在运行时创建的。
正如我所说,这些文档中概述了更多系统,但它们的作用并不完全清楚。例如,上图中的 SAFT 和 Drishti 也出现在这些文档中,但它们的功能尚不清楚。
TWIDDLERS 是什么?
网上关于 Twiddlers 的一般信息有限,所以我认为值得在这里解释一下,以便我们能够更好地理解我们在文档中遇到的各种 Boost 系统。
Twiddlers 是运行在主要 Ascorer 搜索算法之后的重新排名函数。它们的运作方式类似于 WordPress 中的过滤器和操作,在向用户呈现内容之前会调整显示的内容。Twiddlers 可以调整文档的信息检索分数或更改文档的排名。我们所知道的许多实时实验和命名系统都是以这种方式实现的。正如这位 Xoogler 所展示的那样,它们在各种 Google 系统中都非常重要:

Twiddlers 可以提供类别限制,这意味着可以通过专门限制结果类型来促进多样性。例如,作者可能决定在给定的 SERP 中只允许 3 篇博客文章。这可以明确何时根据您的页面格式排名失败。
当 Google 说 Panda 之类的东西不是核心算法的一部分时,这可能意味着它作为 Twiddler 推出,作为重新排名提升或降级计算,然后进入主要评分功能。可以将其视为类似于服务器端和客户端渲染之间的差异
据推测,任何带有 Boost 后缀的函数都使用 Twiddler 框架运行。以下是文档中确定的一些 Boost:
- 导航加速
- 品质提升
- RealTimeBoost
- 网页图像增强
根据它们的命名约定,它们都是非常不言自明的。
我还查看过一份有关 Twiddlers 的内部文档,其中更详细地讨论了这一点,但这篇文章 听起来好像作者看到的和我看到的是同一篇文档。
可能会影响你做 SEO 方式的关键启示
让我们来看看你真正想要的是什么。Google 做了什么我们不知道或不确定的事情?这会对我的 SEO 工作产生什么影响?
在我们进一步讨论之前,先简单说明一下。我的目标是让 SEO 行业接触新概念。我的目的 不是 给你开处方,告诉你如何根据具体用例使用它。如果这就是你想要的,你应该聘请 iPullRank 来做你的 SEO。否则,你总是有足够多的东西可以推断和开发你自己的用例。
Panda 的工作原理
Panda 推出时引起了很多困惑。它是机器学习吗?它使用用户信号吗?为什么我们需要更新或刷新才能恢复?它是全站的吗?为什么我失去了某个子目录的流量?
Panda 是在 Amit Singhal 的指导下发布的。Singhal 坚决反对机器学习,因为它的可观察性有限。事实上,Panda 有一系列专注于网站质量的专利,但我想关注的是平淡无奇的 “搜索结果排名”。该专利表明 Panda 比我们想象的要简单得多。它主要是根据与用户行为和外部链接相关的分布式信号构建一个评分修改器。该修改器可以应用于域级别、子域或子目录级别。
“系统根据独立链接数和引用查询数生成资源组的修改因子(步骤 306)。例如,修改因子可以是组的独立链接数与组的引用查询数的比率。也就是说,修改因子(M)可以表示为:
M=IL/RQ,
其中 IL 是针对资源组计数的独立链接数,RQ 是针对资源组计数的引用查询数。”
独立链接基本上就是我们所认为的链接根域,但参考查询则稍微复杂一些。以下是专利中对它们的定义:
“特定资源组的引用查询可以是先前提交的搜索查询,该搜索查询已被归类为引用特定资源组中的资源。将特定的先前提交的搜索查询归类为引用特定资源组中的资源可以包括:确定特定的先前提交的搜索查询包括一个或多个已被确定为引用特定资源组中的资源的术语。”
现在我们可以访问该文档,很明显参考查询是来自 NavBoost 的查询。

这表明 Panda 刷新只是对查询滚动窗口的更新,类似于核心 Web Vitals 计算的功能。这也可能意味着 Panda 并未实时处理对链接图的更新。
并非重复老生常谈,但 Panda 的另一项专利“站点质量得分”也考虑了参考查询与用户选择或点击之间的比率分数。
这里的底线是,如果您想继续排名,您需要使用更广泛的查询集来推动更多 成功 点击,并获得更多链接多样性。从概念上讲,这是有道理的,因为非常强大的内容可以做到这一点。专注于吸引更多合格的流量以获得更好的用户体验将向 Google 发出信号,表明您的网页值得排名。您应该专注于此以从有用的内容更新中恢复过来。
作者是一个显性特征
关于 EEAT 的文章很多。许多 SEO 都不相信,因为评估专业度和权威度太模糊了。我之前也强调过网络上的作者标记实际上很少。在了解向量嵌入之前,我不认为作者身份在网络规模上是一个足够可行的信号。

尽管如此,谷歌确实明确地将与文档相关的作者存储为文本:

他们还希望确定页面上的实体是否也是该页面的作者。

结合这些文档中展示的实体和嵌入的深入映射,很明显对作者进行了一些全面的测量。
降级
文档中讨论了一系列算法降级。描述有限,但值得一提。我们已经讨论了 Panda,但我遇到的其余降级是:
- 锚点不匹配 –当链接与它所链接的目标网站不匹配时,该链接在计算中会被降级。正如我之前所说,Google 会寻找链接两侧的相关性。
- SERP 降级——根据从 SERP 观察到的因素而产生的降级信号,表明用户可能对页面不满意,这可以通过点击次数来衡量。
- 导航降级—— 据推测,这是对表现出不良导航实践或用户体验问题的页面进行的降级。
- 精确匹配域名降级 – 2012 年底,Matt Cutts 宣布精确匹配域名的价值将不再像过去那么高。降级有一个特定功能。
- 产品评论降级——没有关于此的具体信息,但它被列为降级,可能与 2023 年最近的产品评论更新有关。
- 位置降级——有迹象表明“全局”页面和“超级全局”页面可能会被降级。这表明 Google 试图将页面与位置关联起来,并相应地对其进行排名。
- 色情降级——这一点非常明显。
- 其他链接降级 –我们将在下一节讨论。
所有这些潜在的降级都可以为策略提供参考,但如果我们说实话的话,它归结为制作具有强大用户体验的精彩内容并打造品牌。
链接似乎仍然很重要
我还没有看到任何证据来反驳最近关于链接不太重要的说法。同样,这很可能是在评分函数本身中处理的,而不是信息存储的方式。话虽如此,人们已经非常小心地提取和设计特征以深入了解链接图。
索引层影响链接价值
一个名为 sourceType 的指标显示了页面被索引的位置和其价值之间的松散关系。为了快速了解背景,Google 的索引分为几个层级,其中最重要的、定期更新和访问的内容存储在闪存中。不太重要的内容存储在固态硬盘上,而不定期更新的内容存储在标准硬盘上。

实际上,这意味着层级越高,链接的价值就越高。被认为“新鲜”的页面也被认为是高质量的。可以说,您希望您的链接来自新鲜或以其他方式出现在顶级层的页面。这部分解释了为什么从高排名页面和新闻页面获得排名会产生更好的排名表现。看看这个,我又让数字公关变得很酷了!
链接垃圾邮件速度信号
有一系列指标可用于识别垃圾邮件锚文本中的峰值。通过 phraseAnchorSpamDays 功能,Google 可以有效地测量垃圾邮件的链接速度。

这可以很容易地用于识别网站是否在发送垃圾邮件并消除负面 SEO 攻击。对于那些对后者持怀疑态度的人,Google 可以使用这些数据将链接发现的基线与当前趋势进行比较,并且根本不会计算任何方向的链接。
Google 在分析链接时仅使用给定 URL 的最近 20 次更改
我之前曾讨论过 Google 的文件系统如何能够像 Wayback Machine 一样随时间存储页面版本。我对此的理解是,Google 会永久保留其已编入索引的内容。这是你不能简单地将页面重定向到不相关的目标并期望链接权益流动的原因之一。

文档强化了这个想法,暗示他们保留了他们所见过的该页面的所有更改。

当他们通过检索 DocInfo 来获取表面数据以供比较时,他们只考虑该页面最新的 20 个版本。

这应该可以让你了解需要更改页面并对其进行索引多少次才能在 Google 上获得“干净的记录”。
所有页面的首页 PageRank 都会被考虑
每篇文档都与其主页 PageRank(最近种子版本)相关联。这可能用作新页面的代理,直到它们获得自己的 PageRank。

很可能这个和 siteAuthority 被用作新页面的代理,直到它们计算出自己的 PageRank。
主页信托
Google 根据对主页的信任程度来决定如何评价链接。

与往常一样,您应该关注链接的质量和相关性,而不是数量。
条款和链接的字体大小很重要
2006 年我刚开始做 SEO 时,我们做的事情之一是加粗文本和下划线,或者放大某些段落,使它们显得更重要。在过去的 5 年里,我看到人们说这仍然值得做。我当时持怀疑态度,但现在我看到 Google 正在跟踪文档中术语的平均加权字体大小。

他们对链接的锚文本做了同样的事情。

企鹅放弃内部链接
在许多与锚点相关的模块中,“本地”的概念意味着同一个站点。这个 droppedLocalAnchorCount 表明一些内部链接没有被计算在内。
我没有看到任何关于拒绝的提及
虽然 disavow 数据可以存储在其他地方,但它并不专门存储在此 API 中。我发现这是因为质量评估者的数据可在此处直接访问。这表明 disavow 数据与核心排名系统脱钩。

我长期以来的假设是,disavow 是众包特征工程的成果,用于训练 Google 的垃圾邮件分类器。数据不“在线”表明这可能是真的。
我可以继续讨论链接,并谈论 IndyRank、PageRankNS 等功能,但足以说明 Google 非常擅长链接分析,而且他们所做的大部分工作都不是我们的链接索引所能接近的。现在正是根据您刚刚阅读的所有内容重新考虑您的链接构建程序的好时机。
文档被截断
Google 会计算标记的数量以及正文中单词总数与唯一标记数量的比率。文档指出,Mustang 系统中可以为文档考虑的最大标记数量是有限的,因此作者应继续尽早放置最重要的内容。

短篇内容的原创性可获得评分
OriginalContentScore 表明短内容的评分基于其原创性。这或许就是为什么内容稀少并不总是与长度有关的原因。

相反,也存在关键词填充分数。
页面标题仍根据查询进行衡量
文档表明存在 titlematchScore。描述表明,页面标题与查询的匹配程度仍然是 Google 积极重视的因素。

将你的目标关键词放在第一位仍然是明智之举。
没有字符计数措施
值得赞扬的是,Gary Ilyes 曾表示 SEO 构成了元数据的最佳字符数。此数据集中没有衡量页面标题或摘要长度的指标。我在文档中发现的唯一字符计数指标是 snippetPrefixCharCount,它似乎被设置为确定哪些内容可以用作摘要的一部分。

这证实了我们多次测试的结果,冗长的页面标题对于增加点击量来说并不是最理想的,但对于提高排名来说却很有好处。
日期非常重要
Google 非常注重新鲜的搜索结果,文件表明它曾多次尝试将日期与页面关联起来。
- bylineDate –这是页面上明确设置的日期。

- syntacticDate –这是从 URL 或标题中提取的日期。

- semanticDate –这是从页面内容得出的日期。

最好的做法是指定一个日期,并在结构化数据、页面标题和 XML 站点地图中保持一致。如果 URL 中的日期与页面其他地方的日期相冲突,则可能会导致内容效果下降。
域名注册信息存储在页面中
长期以来,一直有阴谋论认为,谷歌作为注册商的身份为算法提供了信息。我们可以将其升级为阴谋论事实。他们将最新的注册信息存储在复合文档级别。

如前所述,这很可能用于通知新内容的沙盒化。它还可能用于对已更改所有权的先前注册的域名进行沙盒化。我怀疑,随着过期域名滥用垃圾邮件政策的引入,这方面的重要性最近有所提升。
专注于视频的网站受到不同对待
如果网站上超过 50% 的页面包含视频,则该网站被视为以视频为中心,并将受到不同的处理。

你的金钱你的生活被特别评分
文档表明,Google 具有为 YMYL Health 和 YMYL News 生成分数的分类器。

他们还对“边缘查询”或以前从未见过的查询做出预测,以确定它们是否是 YMYL。

最后,YMYL 以块级别为核心,这表明整个系统基于嵌入。

有黄金标准文件
没有迹象表明这意味着什么,但描述中提到了“人工标记的文档”与“自动标记的注释”。我想知道这是否是质量评级的功能,但谷歌表示质量评级不会影响排名。所以,我们可能永远不会知道。🤔

站点嵌入用于衡量页面的主题
我将在后续的文章中更详细地讨论嵌入,但值得注意的是,Google 专门对页面和网站进行矢量化,并将页面嵌入与网站嵌入进行比较,以查看页面的偏离主题的程度。

siteFocusScore 记录了网站对单一主题的关注程度。网站半径根据为网站生成的 site2vec 向量记录了页面偏离核心主题的程度。
谷歌可能故意焚烧小型网站
Google 有一个特定的标记,表示某个网站是“小型个人网站”。Google 没有对此类网站进行定义,但根据我们所知,他们很容易就能添加一个 Twiddler 来提升或降低此类网站的排名。

考虑到“有用内容更新”所引发的强烈反应和受到冲击的小型企业,他们使用此功能来解决这个问题真是令人惊讶。
我的未决问题
我可以继续讲下去,我会继续讲下去,但现在是中场休息的时间了。与此同时,我怀疑其他人肯定会对这次泄密事件进行深入研究,得出自己的结论。目前,我有几个未解决的问题,希望大家能够考虑一下。
这个有用的内容更新叫做“小熊猫”吗?
压缩质量信号中两次提到了“小熊猫”。小熊猫是 Twiddler,是初始排名后的附加调整。

其中提到它是在 Panda 上运行的,但是文档中没有其他信息。

我认为我们普遍认为“有用内容更新”具有许多与 Panda 相同的行为。如果它建立在使用参考查询、链接和点击的系统之上,那么在改进内容后,您需要关注这些方面。
NSR 是神经语义检索的缩写吗?
有大量的模块和属性引用,NSR 是命名约定的一部分。其中许多与站点块和嵌入有关。谷歌之前曾讨论过“神经匹配”作为改进的一大重点。我的有根据的猜测是 NSR 代表神经语义检索,这些都是与语义搜索相关的功能。然而,在某些情况下,它们在“站点排名”旁边提到。
我希望一些叛逆的 Google 员工前往 go/NSR 并通过匿名电子邮件地址或类似方式向我发送“你是对的”。
可操作性
就像我说的,我没有给你开任何药方。不过我确实有一些战略建议。
- 向 Rand Fishkin 致歉——自从我在 PubCon 上发表“谷歌对我们撒谎的一切”主题演讲以来,我一直在努力为 Rand 在 NavBoost 方面洗清罪名。多年来,Rand 一直在帮助我们的行业提升,但吃力不讨好。他因此受到了谷歌和 SEO 方面的大量批评。有时他做错了,但他的心始终是正确的,他付出了巨大的努力让我们所做的事情受到尊重,甚至变得更好。具体来说,他从点击实验中得出的结论、他反复尝试证明谷歌沙盒的存在、他的案例研究表明谷歌对子域名的排名不同,以及他长期以来被轻视的谷歌使用网站级权威信号的观点都没有错。你们也要感谢他提供的分析,因为他是与我分享文档的人。现在是你们很多人在 Threads 上向他表达爱意的好时机。
- 制作优质内容并大力推广——我在开玩笑,但我也是认真的。谷歌一直在提供这样的建议,但我们却认为它不可行。对于一些 SEO 来说,这超出了他们的控制范围。在回顾了这些给谷歌带来优势的功能后,很明显,制作更好的内容并将其推广给与之产生共鸣的受众将对这些措施产生最佳影响。链接和内容功能的衡量标准肯定会让你走得很远,但如果你真的想在谷歌上长期获胜,你就必须做出值得继续排名的东西。
- 恢复相关性研究——我们现在对 Google 用于建立排名的许多功能有了更好的了解。通过结合点击流数据和特征提取,我们可以复制比以前更多的数据。我认为是时候恢复垂直特定相关性研究了。
- 测试和学习 –您应该已经看过足够多的带有 Y 轴的可见性和流量图表,知道您不能相信您在 SEO 中读到或听到的任何内容。这种泄漏是另一个迹象,表明您应该接受输入并进行实验,看看什么对您的网站有用。仅仅查看轶事评论并假设这就是 Google 的工作方式是不够的。如果您的组织没有 SEO 实验计划,现在是开始的好时机。
我们知道自己在做什么
我们从中可以学到的一件重要的事情是:SEO 知道他们在做什么。经过多年的错误判断,很高兴看到幕后情况并发现我们一直都是对的。而且,虽然这些文档中有一些关于 Google 工作方式的有趣细微差别,但没有什么能极大地改变我战略性地进行 SEO 的方式。
对于那些深入研究的人来说,这些文档主要是为了验证经验丰富的 SEO 长期以来所倡导的内容。了解您的受众,确定他们想要什么,尽可能做出符合他们需求的最佳产品,使其在技术上可行,并推广它直到排名靠前。
对于所有不确定自己在做什么的 SEO 人员来说,请继续测试、继续学习并不断发展业务。没有我们,Google 就无法做到。
下载排名功能
好吧,有人会下载并整理所有功能到电子表格中供您使用。也可能是我。本季度只剩一个月了,无论如何我都想把我们的 MQL 弄上去。😆
获取排名功能列表的副本。
我们才刚刚开始
我一直喜欢 SEO 的一点是,它是一个不断演变的谜题。虽然帮助品牌从我们的努力中赚取数十亿美元很有趣,但通过与解析 Google 的工作原理相关的所有调查来满足我的好奇心也让我感到非常满足。终于能够看到幕后情况,这真是一件非常高兴的事。
这就是我现在能找到的全部内容了,但请告诉我你找到了什么!任何想与我分享东西的人都可以联系我。我很容易找到!




