ChinaAndWorld 

為什麼 100% 索引是不可能的?

为什么 100% 索引是不可能的?

#索引 #網站優化

 

雖然就“技術”而言,100% 的索引可能是可能的,但在現實中可能是不可能的。

對於爬蟲預算等話題,歷史上的說法一直是,這是為大型網站(被谷歌歸類為百萬以上網頁)和內容更改頻率高的中型網站保留的問題。

然而,近幾個月來,抓取和索引已成為 SEO 論壇和 Twitter 上向 Google 員工提出的問題中更常見的話題。

根據我自己的軼事經驗,自上年以來,不同規模和更改頻率的網站在 Google Search Console(抓取統計數據和覆蓋率報告)中的波動和報告變化比以往任何時候都要大。

我目睹的一些主要覆蓋範圍變化也與未經證實的谷歌更新和 SERP 傳感器/觀察者的高波動性有關。鑑於沒有一個網站在堆棧、利基甚至技術問題方面有太多共同點——這是否表明 100% 索引(對於大多數網站)現在是不可能的,這可以嗎?

這是有道理的。

谷歌在他們自己的文檔中概述了網絡正在以遠遠超出其自身能力和手段來抓取(和索引)每個 URL 的速度擴展。

在同一份文檔中,谷歌概述了影響其抓取能力以及抓取需求的一些因素,包括:

  • 您的 URL(和內容)的受歡迎程度。
  • 是陳舊。
  • 網站的響應速度。
  • Google 對我們網站上 URL 的了解(感知庫存)。

從與 Google 的 John Mueller 在 Twitter 上的對話來看,您的 URL 的受歡迎程度不一定會受到您的品牌和/或域名的受歡迎程度的影響。

有過主要出版商的第一手經驗,沒有根據其與已在線發布的類似內容的獨特性對內容進行索引 - 好像它低於質量閾值並且沒有足夠高的 SERP 包含值。

這就是為什麼在處理特定規模或類型的所有網站(例如電子商務)時,我從第一天開始就認為 100% 索引並不總是一個成功指標。

索引層和分片

谷歌在解釋他們的索引是如何工作的方面非常開放。

他們使用分層索引(更好的服務器上的一些內容以便更快地訪問)並且他們有一個存儲在多個數據中心的服務索引,這些數據中心基本上存儲了在 SERP 中提供的數據。

進一步簡化:

然後,網頁(HTML 文檔)文檔的內容被標記化並跨分片存儲,並且分片本身被索引(如詞彙表),以便可以更快、更輕鬆地查詢特定關鍵字(當用戶搜索時)。

很多時候,索引問題歸咎於技術搜索引擎優化,如果你有一個無索引或問題和不一致阻止谷歌索引內容,那麼它是技術性的,但通常不是 - 這是一個價值主張問題。

有益目的和 SERP 包含價值

當談到價值主張時,指的是 Google 質量評估指南 (QRG) 中的兩個概念,它們是:

  • 有益目的
  • 頁面質量

結合起來,這些創造了我稱之為 SERP 包含值的東西。

這通常是網頁在 Google Search Console 的覆蓋率報告中屬於“已發現 - 當前未編入索引”類別的原因。

在 QRG 中,Google 做出了這樣的聲明:請記住,如果頁面缺乏有益的用途,則應始終將其評為最低頁面質量,無論頁面的需求滿足等級或頁面的設計如何。

這是什麼意思?頁面可以定位正確的關鍵字並勾選正確的框。但如果它通常與其他內容重複並且缺乏附加價值,那麼谷歌可能會選擇不將其編入索引。

這就是我們遇到 Google 的質量閾值的地方,這是一個頁面是否符合必要的“質量”以被索引的概念。

這個質量閾值如何工作的一個關鍵部分是它幾乎是實時的和流動的。

Google 的 Gary Illyes 在Twitter 上證實了這一點,其中一個 URL 可能會在第一次被發現時被編入索引,然後在找到新的(更好的)URL 時被刪除,甚至在 GSC 中手動提交時會暫時“新鮮”提升。

確定您是否有問題

首先要確定的是,您是否看到 Google Search Console 的覆蓋率報告中的頁數從包含移至排除。

該圖表本身且脫離上下文足以引起大多數營銷利益相關者的關注。

但是您關心這些頁面中有多少?這些頁面中有多少推動了價值?

您將能夠通過您的集體數據來識別這一點。您會看到分析平台中的流量和收入/潛在客戶是否正在減少,如果您正在失去整體市場知名度和排名,您會在China & world的工具中註意到。

一旦您確定您是否看到有價值的頁面從 Google 的索引中退出,接下來的步驟就是了解原因,然後 Search Console 將排除的頁面細分為更多類別。您需要了解和了解的主要內容是:

已爬網 - 目前未編入索引

這是我在電子商務和房地產領域遇到的比任何其他垂直行業都多的事情。

2021 年,美國新的商業申請註冊數量打破了之前的記錄,隨著更多企業爭奪用戶,發布了很多新內容——但可能不會有很多新的和獨特的信息或觀點。

已發現——目前未編入索引

在調試索引問題時,我在網站或已經部署了相當多的程序化方法來創建內容並一次發布大量頁面的網站上發現了很多這種情況。

頁面屬於此類的主要原因可以歸結為抓取預算,因為您剛剛發布了大量內容和新 URL,並且網站上可抓取和可索引頁面的數量呈指數級增長,以及 Google 的抓取預算已確定您的網站不適合這麼多頁面。

你可以做很多事情來影響這一點。但是,您可以通過 XML 站點地圖、HTML 站點地圖和良好的內部鏈接幫助 Google 將頁面排名從重要(索引)頁面傳遞到這些新頁面。

內容可能屬於這一類別的第二個原因是質量問題——這在程序化內容或電子商務網站中很常見,這些網站包含大量類似或可變產品的產品和 PDP。

Google 可以識別 URL 中的模式,如果它訪問這些頁面的一部分但沒有發現任何價值,它可以(有時會)假設具有相似 URL 的 HTML 文檔將具有相同(低)質量,並且它會選擇不抓取它們。

這些頁面中的很多都是以獲取客戶為目標而有意創建的,例如針對小眾用戶的程序化位置頁面或比較頁面,但這些查詢的搜索頻率較低,可能不會引起很多關注,並且內容可能不會與其他程序化頁面相比足夠獨特,因此當其他替代方案可用時,Google 不會索引低價值主張內容。

如果是這種情況,您將需要評估並確定是否可以在項目資源和參數內實現目標,而不會出現過多的頁面阻塞爬網並且不被視為有價值。

重複內容

重複內容是更直接的一種,在電子商務、出版和程序化中很常見。

如果包含價值主張的頁面的主要內容在其他網站或內部頁面中重複,則 Google 不會將資源用於索引內容。

這也與價值主張和有益目的的概念有關。我遇到過很多例子,大型權威網站的內容未編入索引,因為它與其他可用內容相同——不提供獨特的觀點或獨特的價值主張。

採取行動

對於大多數大型網站和中等規模的中型網站,實現 100% 索引只會變得更加困難,因為 Google 必須處理網絡上所有現有的和新的內容。

如果您發現有價值的內容被認為低於質量閾值,您應該採取什麼措施?

  • 改善“高價值”頁面的內部鏈接:這並不一定意味著反向鏈接最多的頁面,但那些針對大量關鍵字排名且具有良好可見性的頁面可以通過描述性錨向其他頁面傳遞積極信號.
  • 修剪低質量、低價值的內容。如果從索引中排除的頁面價值較低並且沒有帶來任何價值(例如,綜合瀏覽量、轉化),則應該對其進行修剪。讓它們上線只會浪費 Google 在選擇抓取它們時的抓取資源,這可能會影響他們基於 URL 模式匹配和感知庫存的質量假設。

發表評論

此網站已受到 reCaptcha 保護,且適用 Google 隱私政策以及服務條款


Source from China

With the vast ideological, political, economic and cultural gaps, navigating complex Chinese manufacturing and logistics can be a daunting task. Having our multicultural elite experts on your side, you can finally leverage the great power of supply chain in China with confidence.

View Our Supply Chain Solutions
助力中國企業出海

企業出海需要深刻理解六大洲200多個國家和地區的的社會、政治、商業、經濟、和技術環境。我們擁有中國最前沿的出海技術和實踐,在跨境電商亞馬遜、獨立站、蘋果APP、安卓APP、廣告營銷、海外O2O、搜索引擎優化、人工智能等領域獨占鰲頭。

了解出海業務