進階說明:搜尋服務的運作方式

瞭解 Google 搜尋如何檢索內容、建立索引,以及如何將內容提供給使用者,對於您在偵錯或預期搜尋服務在您網站上的行為時,會有很大的幫助。

檢索

「檢索」是指 Googlebot 造訪新網頁或更新過的網頁,並將它們排入 Google 索引佇列的程序。

我們使用大量電腦來抓取 (也就是「檢索」) 網路上數十億的網頁。用來擷取網頁的程式名為 Googlebot,又稱為漫遊器或自動尋檢程式。Googlebot 會使用特定的演算程序來決定要檢索的網站、檢索頻率,以及要從每個網站擷取的網頁數量。

在檢索時,Google 會以過往檢索程序所產生的網頁網址清單為基礎,結合網站擁有者所提供的 Sitemap 資料,逐一檢索各個網頁。當 Googlebot 造訪網頁時,會尋找網頁上的連結,並將這些連結新增至待檢索網頁清單。系統會記錄任何新網站、現有網站變動和無效連結,並以此更新 Google 索引。

進行檢索時,Google 會使用最新版本的 Chrome 轉譯網頁,並於轉譯程序中執行檢索器找到的任何網頁指令碼。如果您的網站使用動態產生的內容,請務必遵循 JavaScript 搜尋引擎最佳化 (SEO) 基礎知識

Google 如何得知不要檢索哪些網頁?

  • 遭到 robots.txt 封鎖的網頁不會列入檢索範圍,但如果該網頁連結至其他網頁,則 Google 仍可能會為其建立索引。這是因為 Google 可根據指向網頁的連結來推斷網頁內容,而且此時無須剖析網頁內容即可為其建立索引。
  • Google 無法檢索任何禁止匿名使用者存取的網頁,因此任何登入規定或其他授權保護機制都會使 Google 無法檢索網頁。
  • 如果 Google 在檢索某個網頁後判定其為重複網頁,就會降低對該網頁的檢索頻率。

改善檢索成效

下列做法能夠協助 Google 找到您網站上的正確網頁:

建立索引

Googlebot 會處理檢索的每個網頁,藉此瞭解網頁內容, 這包括處理文字內容、關鍵內容標記和屬性 (例如 <title> 標記和替代屬性)、圖片、影片等。不過,雖然 Googlebot 可以處理的內容類型廣泛,但並未涵蓋所有類型,比方說 Googlebot 就無法處理部分互動式多媒體檔案的內容。

在完成檢索後到開始建立索引之前,Google 會判斷網頁是標準網頁或重複網頁,如果判定是重複網頁,則會降低檢索該網頁的頻率。系統會將類似的網頁歸納成一份「文件」,這份文件會包含一組網頁,網頁數量可能為一或多個,其中包括標準網頁以及系統找到的任何重複網頁。標準網頁是該群組中最具代表性的網頁,而重複網頁可能只是能夠前往同樣網頁的替代網址,或是同一個網頁針對行動裝置或電腦提供的替代版本。

請注意,Google 不會為含有 noindex 指令標頭/標記的網頁建立索引,但前提是檢索器必須能看到指令。如果網頁遭到 robots.txt 檔案、登入頁面或其他裝置封鎖,就算 Google 並未造訪該網頁,仍可能為其建立索引。

改善索引成效

您可以運用下列做法讓 Google 更加瞭解網頁內容:

什麼是「文件」?

Google 內部會以一組「文件集」的形式代表網路,且這組文件集的規模相當龐大。文件集中的每份文件都代表一或多個網頁,這些網頁可能彼此相同或者非常類似,且內容在本質上都是相同的,只是透過不同網址存取的結果。文件中的不同網址可能會導向完全相同的網頁,例如 example.com/dresses/summer/1234 和 example.com?product=1234 可能會顯示同一個網頁;或者,會導向同一個網頁針對不同裝置使用者顯示的微調版本,例如向電腦使用者顯示 example.com/mypage,向行動裝置使用者則顯示 m.example.com/mypage。

Google 會為每個文件選擇一個網址,定義為該文件的「標準網址」,這會是 Google 在該文件內最常檢索及建立索引的網址。系統會將其他網址視為「重複網址」或「替代網址」,並且只會偶爾進行檢索,或者根據使用者的要求顯示於搜尋結果中。舉例來說,假設文件的標準網址是行動版網址,但如果使用者透過電腦搜尋,Google 可能還是會提供電腦版網址 (也就是替代網址)。

Search Console 中的大部分報告都會將資料歸給文件的標準網址。有些工具支援測試替代網址,例如網址檢查工具,不過,檢查標準網址也能夠提供替代網址的相關資訊。

您可以告訴 Google 您偏好的標準網址,但 Google 可能會基於各種原因選擇其他網址做為標準網址。

以下簡介我們所提到字詞,以及這些字詞在 Search Console 中的用法:

  • 文件:由類似網頁組成的集合。每份文件都會有一個標準網址,如果您的網站有重複網頁,文件中也會包含可能的替代網址。文件中的網址可以來自相同或不同的「機構」,也就是根網域,例如 www.google.com 中的「google」。Google 會根據平台 (行動裝置/電腦)、使用者語言或位置和其他眾多變數,選擇最適合顯示在搜尋結果中的網址。Google 會透過自然檢索或是網站中實作的功能 (例如重新導向或 <link rel=alternate/canonical> 標記) 等方式,探索網站上的相關網頁。如果相關網頁位於其他組織,就必須由您的網站透過重新導向或連結標記等方式明確編碼後,系統才會將其標示為替代網頁。
  • 網址:用來開啟網站中特定內容的網址。
  • 網頁:可以由一或多個網址開啟的特定網頁,其「版本」可能會因使用者的平台而異,例如行動裝置、電腦、平板電腦等。
  • 版本:網頁的其中一個變化版本,通常可歸類為「行動版」、「電腦版」和「AMP」,不過 AMP 網頁可能也會有自己的行動版和電腦版網頁。視網站設定而定,各個版本可以使用不同網址,例如 example.com 和 m.example.com,也可以使用相同網址。舉例來說,如果您的網站使用動態服務回應式網頁設計,就能以同樣的網址顯示同一個網頁的不同版本。系統不會將同一個網頁的不同語言版本視為不同的「版本」,而是會將它們歸納成不同的「文件」。
  • 標準網頁或標準網址:Google 認為一份文件中最具代表性的網址。每次檢索時,Google 都會檢索這個網址,有時候也會檢索文件中的重複網址。
  • 替代/重複網頁或替代/重複網址:Google 有時會檢索的文件網址。Google 也會視使用者和搜尋要求不同提供適合的網址。舉例來說,針對來自電腦的搜尋要求,系統會提供適合電腦使用者的替代網址,而不是標準行動版網址。
  • 網站:通常指一組概念上相關的網頁集合;有時也會用來指稱 Search Console 資源,不過一項資源實際上只能定義為單一網站的一部分。每個網站都可以跨多個子網域,如果 AMP 網頁的連結方式正確,甚至能跨多個網域。

傳回搜尋結果

使用者輸入查詢字詞時,我們的系統會搜尋索引資料庫,並找出符合的網頁,再傳回我們認為與使用者的查詢內容最相關的結果。搜尋關聯性取決於數百種因素,而且我們仍不斷努力改進演算法。Google 在選擇搜尋結果及調整排名時會考量使用者體驗,因此請確認您的網頁可快速載入適合行動裝置瀏覽

改善您的搜尋結果

您可以透過許多方法改善 Google 提供您網頁內容的方式:

  • 如果您的網站是針對特定地區或語言的使用者所設計,請告知 Google 您的目標對象
  • 確保網頁可快速載入適合行動裝置瀏覽
  • 遵循網站管理員指南,避免常見錯誤並改善網站排名。
  • 考慮為網站實作搜尋結果功能,例如食譜資訊卡或新聞報導資訊卡。
  • 實作 AMP 可在行動裝置上更快載入網頁。部分 AMP 網頁也可以使用焦點新聞輪轉介面等其他搜尋功能。
  • Google 會持續改進演算法,因此與其嘗試猜測演算法規則並據此設計網頁,還不如依循我們的規範,用心創造令人耳目一新且切合使用者需求的優質內容。