robots.txt 簡介

robots.txt 檔案能夠告訴搜尋引擎檢索器,可存取網站上的哪些網址。 這個檔案的機制主要是避免網站因要求過多而超載,不是要讓特定網頁無法出現在 Google 搜尋結果。如果不想讓自己的網頁出現在搜尋結果中,應使用 noindex 標記禁止編入索引,或使用密碼保護網頁。

robots.txt 檔案的用途是什麼?

robots.txt 檔案主要用於管理檢索器對您網站造成的流量;「通常」可以讓 Google 搜尋結果不顯示特定檔案,相關規範取決於以下檔案類型:

robots.txt 對不同檔案類型產生的影響
網頁

如果您認為 Google 檢索器提出的要求會讓伺服器不堪負荷,或者想避免 Google 檢索網站上不重要或類似的網頁,可以使用 robots.txt 檔案管理網頁的檢索流量,適用的網頁類型包括 HTML、PDF 或其他 Google 可讀取的非媒體格式

如果您透過 robots.txt 檔案禁止網頁出現在搜尋結果中,搜尋結果仍會顯示該網頁的網址,但不會提供網頁說明。在這種情況下,系統會排除圖片檔、影片檔、PDF 和其他非 HTML 檔案,如果不想讓搜尋結果以這種方式顯示您的網頁,請移除封鎖該網頁的 robots.txt 項目來加以修正。如要在搜尋結果中完全隱藏您的網頁結果,請採用其他方法

媒體檔案

您可以使用 robots.txt 管理檢索流量,並防止圖片、影片和音訊檔案出現在 Google 搜尋結果中。不過,這麼做無法防止其他網頁或使用者連結至您的圖片/影片/音訊檔案。

資源檔案 如果您認為在載入網頁時略過不重要的圖片、指令碼或樣式檔案等資源,並不會造成太大的影響,那麼可以使用 robots.txt 檔案來封鎖這些資源檔案。但如果缺少這些資源會造成 Google 檢索器難以瞭解網頁內容,就不應該封鎖這些資源,否則 Google 會無法正確分析仰賴這些資源的網頁。

瞭解 robots.txt 檔案的限制

建立或編輯 robots.txt 檔案之前,請務必瞭解這個網址封鎖方式的限制。視您的目標和狀況而定,建議您可採用其他機制,確保無人能透過網路搜尋到您的網址。

  • 並非所有搜尋引擎都支援 robots.txt 指令
    robots.txt 檔案中的指示無法強制規範檢索器對網站採取的行為,檢索器只能決定是否遵循這些指示。雖然 Googlebot 和一些可靠的網路檢索器都會按照 robots.txt 檔案中的指示執行,但不是每個檢索器都是如此。因此,如要確保特定資訊不會受到網路檢索器存取,建議您使用其他封鎖方式,例如使用密碼保護伺服器上的私人檔案
  • 各種檢索器解讀語法的方式有所不同
    雖然可靠的網路檢索器都會遵循 robots.txt 檔案中的指令,但各個檢索器解讀指令的方式可能有所不同。有些網路檢索器可能無法理解特定指示,因此請對不同網路檢索器採用合適的語法
  • 即使透過 robots.txt 封鎖,如果網頁出現在其他網站的連結中仍可能編入索引
    雖然 Google 不會對 robots.txt 檔案所封鎖的內容進行檢索或建立索引,但如果我們在網路上其他網頁的連結中發現封鎖的網址,仍然會建立這些網址的索引。在這種情況下,網頁網址或者網頁連結中的錨定文字這類公開資訊,仍會顯示在 Google 搜尋結果中。如要完全避免這種情形,建議您使用密碼保護伺服器上的檔案使用 noindex 中繼標記或回應標頭,或是完全移除網頁。

建立 robots.txt 檔案

如果您決定使用 robots.txt 檔案,請參閱這篇文章,瞭解如何建立 robots.txt 檔案。