整合重複的網址

如果您有某一個網頁可透過多個網址存取,或者不同網頁上存在相似的內容 (例如同時提供行動版和電腦版網頁),Google 會將這些網頁視為相同網頁的重複版本,從中選出一個網址做為「標準」版本並檢索該網址,其他網址則會被視為「重複」網址,檢索頻率會比較低。

如果您未將標準網址明確告知 Google,Google 會自行選擇標準網址,或是認定這些網址的參考權重相同,這可能會導致某些非預期的行為,詳情請見「為什麼我應該選擇標準網址?」一節。

什麼是標準網址?

所謂的「標準網址」,是網站上某組重複網頁中最具代表性網頁的網址,而這個標準網址是由 Google 所選擇。舉例來說,如果同一個網頁有 example.com?dress=1234example.com/dresses/1234 兩個網址,Google 便會選擇其中之一做為標準網址。請注意,這些網頁的內容不需要完全相同;以清單網頁來說,因為排序或篩選方式不同而造成的些許差異 (例如依價格排序或依項目顏色篩選),並不代表該網頁具有獨特性。

標準網址也可能和其他重複網頁的網址位在不同網域中。

瞭解詳情

為網站建立索引時,Googlebot 會嘗試判定各個網頁的主要內容。如果 Googlebot 發現同一個網站上有多個網頁的內容相近,則會自行選擇內容最完整實用的網頁,以做為標準網頁。為了減少 Google 在網站上的檢索工作量,標準網頁將會是 Google 檢索最頻繁的網頁,其他重複網頁的檢索頻率則較低。

Google 會根據許多因素 (或稱「信號」) 選擇標準網頁,例如網頁採用 http 或 https、網頁品質高低、是否在 Sitemap 中提供網址,以及是否加上任何 rel=canonical 標記。您可以利用這些方式向 Google 告知您偏好的標準網頁,但 Google 仍可能基於各種原因選擇其他網頁。

一個網頁的不同語言版本只有在主要內容都是同一種語言時,才會視為重複網頁。也就是說,如果網頁只有標頭、註腳和其他次要文字經過翻譯,但主體部分仍是同一種語言,就會視為重複網頁。

Google 在評估網頁的內容和品質時,會以標準網頁為主要依據。此外,Google 搜尋結果通常會指向標準網頁,除非有某個重複網頁更明確符合使用者的需要。舉例來說,當使用者透過行動裝置進行搜尋時,即使標準網頁是電腦版網頁,搜尋結果仍可能會指向行動版網頁。

為什麼我會有相似/重複的網頁?

有許多因素可能造成您的網站出現不同的網址指向同一個網頁,或是內容重複或非常相似的網頁位於不同的網址。最常見的原因如下:

  • 為了支援多種裝置類型
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • 為了支援搜尋參數或工作階段 ID 等元素而採用動態網址
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • 在網誌的不同版面底下放置相同的文章時,系統會自動儲存多個網址
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • 伺服器經過設定,會針對 www/非 www、http/https 版本的網址提供相同的內容
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • 從您的網誌聯合發布到其他網域中網站的內容,與原始內容有部分或全部是重複的,例如:
    https://news.example.com/green-dresses-for-every-day-155672.html (聯合發布文章) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (原始文章)

為什麼我應該選擇標準網址?

基於以下的原因,我們建議您在一系列重複/相似的網頁中明確選擇一個標準網頁:

  • 能夠指定要顯示在搜尋結果中的網址。例如,您可能想讓使用者透過 https://www.example.com/dresses/green/greendress.html 進入綠色洋裝商品網頁,而非 https://example.com/dresses/cocktail?gclid=ABCD
  • 能夠整合相似或重複網頁的連結信號。這可協助搜尋引擎將個別網址的資訊 (例如造訪連結) 整合成您偏好的單一網址。不過,這也表示從其他網站連至 http://example.com/dresses/cocktail?gclid=ABCD 的連結,會與連至 https://www.example.com/dresses/green/greendress.html 的連結整合。
  • 能夠簡化單一商品/主題的追蹤指標。如果使用多個不同的網址,會難以針對特定部分內容取得整合性指標。
  • 能夠管理聯合發布內容。如果您以聯合發布方式在其他網域發布內容,可以將網頁排名整合至您偏好的網址。
  • 能夠避免費時檢索重複網頁。您會希望 Googlebot 在檢索您的網站時發揮最佳效能,盡量把時間花在檢索最新網頁或有更新內容的網頁,而不要檢索同一網頁的不同版本,例如電腦版和行動版。

Google 會將哪個網址視為標準網址?

您可以使用網址檢查工具來判斷 Google 認定的標準網頁。提醒您,即使您已明確指定標準網頁,Google 仍可能基於成效或內容等各種原因,而選擇不同的網頁。

疑難排解

當標準網址不在您擁有的資源中時,您將無法查看相關重複網頁的流量。以下這些常見原因可能導致系統將另一個資源中的網頁視為標準網址:

  • 語言版本標示錯誤:如果您為不同地區的使用者設置了多個專用網站,分別提供本質上大致相同的本地化內容,請務必遵守我們對本地化網站的規範
  • 不當使用標準標記:有些內容管理系統 (CMS) 或 CMS 外掛程式在執行標準化時可能出錯,誤將外部網站的網址設為標準網址。請檢查您的內容,看看是否發生這種情形。如果網站誤用 rel="canonical" 或 301 重新導向,因而指定了不是您偏好的標準網址,請直接修正問題。
  • 伺服器設定錯誤:某些代管設定錯誤可能會導致演算法選擇非預期的跨網域網址。例如:
    • 伺服器可能設定錯誤,例如針對 a.com 上的網址要求傳回 b.com 的內容
    • 兩個不相關的網路伺服器可能傳回了相同的轉址式 404 錯誤網頁,但 Google 無法識別這些錯誤網頁。
  • 遭到駭客惡意入侵:有些攻擊方式是在網站植入傳回 HTTP 301 重新導向的程式碼,或在 HTML <head> 或 HTTP 標頭中插入跨網域的 rel="canonical" link 元素。這些連結的目標通常會指向代管惡意內容或垃圾內容的網址,在這些情況下,我們的演算法可能選擇惡意網址或垃圾網址,而不是選擇遭入侵網站上的網址。
  • 涉及抄襲的網站:在少數情況下,我們的演算法會選取外部網站的網址,這是因為該網站未經授權即發布您內容所致。如果您認為其他網站複製您內容的方式違反了版權法,請與該網站的負責人聯絡,要求對方移除涉及侵權的內容。此外,您也可以根據《數位千禧年著作權法》(DMCA) 提出申訴,請 Google 從搜尋結果中移除侵權網頁。

指定標準網頁

您可以根據網頁的用途,使用下列方法之一,為一系列重複的網頁指定標準網頁:

方法和說明
一般指南 以下指南適用於所有標準化方法。
rel=canonical <link> 標記

在所有重複網頁的程式碼中加入 <link> 標記,指向標準網頁。

優點:

  • 可對應的重複網頁數量不限。

缺點:

  • 網頁檔案可能會因此變大。
  • 如果網站規模較為龐大,或是其中的網址經常變更,對應關係的維護作業會變得複雜。
  • 僅適用於 HTML 網頁,不適用於 PDF 這類檔案,如果是這類檔案,您可以改用 rel=canonical HTTP 標頭。
rel=canonical HTTP 標頭

在網頁回應中傳送 rel=canonical 標頭。

優點:

  • 網頁檔案不會變大。
  • 可對應的重複網頁數量不限。

缺點:

  • 如果網站規模較為龐大,或是其中的網址經常變更,對應關係的維護作業會變得複雜。
Sitemap

在 Sitemap 指定標準網頁。

優點:

  • 易於實作及維護,特別是對大型網站。

缺點:

  • Googlebot 仍須根據您在 Sitemap 中宣告的所有標準網頁判別相關聯的重複網頁。
  • 對 Googlebot 來說,Sitemap 的信號效力不及 rel=canonical 對應做法。
301 重新導向 使用 301 重新導向告知 Googlebot,重新導向的網址是優於指定網址的版本。只有在要淘汰重複的網頁時,才適用這個方法。
AMP 版本 如果其中一個網頁版本是 AMP 網頁,則必須按照 AMP 指南指出標準網頁和 AMP 版本。

我們鼓勵您使用上述方法,但是以上均非必要操作。如果您沒有指定標準網址,我們將自行指定一個我們認為最適合的版本或網址。

一般指南

所有標準化方法均適用以下一般指南。

一般指南

  • 請勿使用 robots.txt 檔案執行標準化。
  • 請勿使用網址移除工具執行標準化,以免系統從搜尋結果中移除同個網址的「所有」版本。
  • 無論使用何種標準化做法,請勿為相同網頁指定不同的標準網址。舉例來說,請勿在 Sitemap 中為網頁指定一個網址,卻又使用 rel="canonical" 為同樣的網頁指定另一個網址。
  • 請勿使用 noindex 將網頁排除在標準網頁的選擇之外。這個指令的用途是禁止網頁編入索引,而不是用來管理標準網頁的選項。
  • 使用 hreflang 標記時,請務必指定標準網頁。如果有需要,您可以使用 rel=canonical 讓搜尋結果顯示另一個版本的網頁。請確保 rel=canonical 指向的目標網頁和來源網頁使用相同或相似的語言,例如美式英文和加拿大式英文。

  • 連結至網站內部網頁時,請務必連結至標準網址,而非重複網址。如果能一致地連結至您認定的標準網址,有助於 Google 瞭解您的偏好。

使用 HTTPS 網址做為標準網址,而非 HTTP 網址

認定網頁的標準網址時,Google 偏好 HTTPS 網頁而非 HTTP 網頁,除非有下列問題或衝突情形:

  • HTTPS 網頁含有無效的 SSL 憑證。
  • HTTPS 網頁含有不安全的相依關係 (圖片除外)。
  • HTTPS 網頁會將使用者重新導向 HTTP 網頁,或透過 HTTP 網頁進行重新導向。
  • HTTPS 網頁中含有指向 HTTP 網頁的 rel="canonical" 連結。

根據預設,我們的系統偏好 HTTPS 網頁而非 HTTP 網頁,不過您仍可採取下列任一做法,確保這種行為不會遭到覆寫:

  • 新增重新導向,從 HTTP 網頁指向 HTTPS 網頁。
  • 新增 rel="canonical" 連結,從 HTTP 網頁指向 HTTPS 網頁。
  • 導入 HSTS

請勿採用下列做法,以免 Google 誤將 HTTP 網頁當成標準網頁:

  • 無效的 SSL 憑證和 HTTPS 至 HTTP 重新導向很可能讓我們使用 HTTP 網頁,採用 HSTS 仍無法覆寫這項偏好設定。
  • 在 Sitemap 或 hreflang 項目中使用 HTTP 網頁,而不是 HTTPS 版本。
  • 誤植主機名稱版本的 SSL/TLS 憑證,例如在 example.com 提供 www.example.com 的憑證。請務必採用與完整網站網址相符的憑證,或是可供單一網域中多個子網域使用的萬用憑證。

僅適用於進階使用者:要求 Google 忽略動態參數

您可以透過參數處理,告知 Googlebot 在檢索時應忽略哪些參數。忽略特定參數能夠減少 Google 索引中的重複內容,讓您的網站更容易檢索。舉例來說,如果您指定忽略 sessionid 參數,Googlebot 就會將以下兩個網址視為重複:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

具體方法

您可以選擇使用下列其中一種方法,為重複的網址或重複/相似的網頁指定標準網址。

無論採用哪一種方法,請務必遵守上述一般指南。

您可以在網頁標頭中使用 <link> 標記來指出該網頁與其他網頁內容重複。

假設有多個網址都能存取相同的內容,而您想將其中的 https://example.com/dresses/green-dresses 指定為標準網址,請按照下列步驟操作:

  1. 使用 rel="canonical"「link 元素」標記所有重複網頁。在重複網頁的 <head> 區段中加入包含 rel="canonical" 屬性的 <link> 元素,指向標準網頁,如下所示:
    <link rel="canonical" href="https://example.com/dresses/green-dresses" />

  2. 如果「標準」網頁有行動版,請加入指向行動版網頁的 rel="alternate" 連結:
    <link rel="alternate" media="only screen and (max-width: 640px)" href="http://m.example.com/dresses/green-dresses">

  3. 為網頁加上 hreflang 或其他適當的重新導向

使用 rel="canonical" HTTP 標頭

如果您能夠設定伺服器,就可以使用 rel="canonical" HTTP 標頭 (而非 HTML 標記) 來指定非 HTML 文件的標準網址,例如 PDF 檔案的標準網址。

舉例來說,如果您透過多個網址提供 PDF 檔案,可以採用下列方式在重複網址中傳回 rel="canonical" HTTP 標頭,藉此將 PDF 檔案的標準網址告知 Googlebot:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Google 目前僅針對網頁搜尋結果支援這個方法。

使用 Sitemap

您可以為每個網頁挑選一個標準網址,然後透過 Sitemap 提交。Sitemap 中列出的所有網頁都代表您建議的標準網頁,Googlebot 會根據內容相似度判斷是否有重複的網頁以及是哪些網頁。

我們「不保證」一定會將 Sitemap 中的網址視為標準網址,但 Sitemap 是為大型網站定義標準網址的簡易方法,也很適合用來告知 Google 您認為網站哪些網頁最為重要。

請勿在 Sitemap 中加入非標準網頁。使用 Sitemap 時,您只能在其中指定標準網址。

針對已停用的網址使用 301 重新導向

如果您要淘汰現有的重複網頁,但必須確保在舊網址失效前能順利進行轉換,請使用這個方法。

如果使用者可以透過多種方式進入您的網頁:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

選擇其中一個網址做為標準網址,然後使用 301 重新導向將其他網址的流量傳送到您偏好的網址。使用伺服器端 301 重新導向,是確保使用者和搜尋引擎都能導向正確網頁的最佳方式,301 狀態碼表示網頁已永久遷移至新的位置。

如果您使用網站代管服務,請搜尋該服務的說明文件,瞭解如何設定 301 重新導向。