Google 檢索器和擷取程式 (使用者代理程式) 總覽
Google 會使用檢索器和擷取程式對產品執行動作,無論動作是自動或由使用者要求觸發。
「檢索器」(有時也稱為「漫遊器」或「自動尋檢程式」) 泛指任何透過網頁間連結來自動尋找並檢索網站的程式。Google 搜尋使用的主要檢索器稱為 Googlebot。
擷取程式 (例如瀏覽器) 會在使用者提示時,要求單一網址。
下表列出了各種產品和服務使用的 Google 檢索器和擷取程式、在參照記錄中的呈現方式,以及如何在 robots.txt 中指定這些工具。這份清單並不完整,僅涵蓋記錄檔中可能出現的最常見檢索器和擷取程式。
-
使用者代理程式符記能夠比對特定類型的檢索器,請在編寫網站的檢索規則時,在 robots.txt 的
User-agent:
行使用這個值。如下表所示,有些檢索器具有多個符記;只要有一個檢索器符記相符,規則就會生效。以下清單並不完整,但已涵蓋可能會檢索網站的大部分檢索器。 - 完整的使用者代理程式字串是檢索器的完整說明,會出現在 HTTP 要求和您的網路記錄中。
常見檢索器
Google 的常見檢索器可用來尋找資訊,以便建構 Google 搜尋索引、執行其他產品專屬的檢索作業,以及進行分析。這些檢索器一律都會遵循 robots.txt 規則,而且通常會從 googlebot.json 物件中發布的 IP 範圍進行檢索。
常見檢索器 | |||||
---|---|---|---|---|---|
Googlebot Smartphone |
|
||||
Googlebot Desktop |
|
||||
Googlebot 圖片 |
用於檢索以圖片為基礎的 Google 圖片和產品圖片網址。
|
||||
Googlebot News |
Googlebot News 使用 Googlebot 檢索新聞文章,但會遵循歷來使用者代理程式符記「
|
||||
Googlebot 影片 |
用於檢索以影片為基礎的 Google 影片和產品影片網址。
|
||||
Google StoreBot |
Google StoreBot 會檢索特定類型的頁面,包括但不限於產品詳細資料頁面、購物車頁面和結帳頁面。
|
||||
Google-InspectionTool |
Google-InspectionTool 是搜尋測試工具使用的檢索器,例如 Search Console 中的複合式搜尋結果測試和網址檢查。除了使用者代理程式和使用者代理程式符記以外,它也會模擬 Googlebot。
|
||||
GoogleOther |
GoogleOther 是通用檢索器,可供許多產品團隊從網站中擷取能公開存取的內容,例如用來針對內部研究與開發進行一次性檢索作業。
|
||||
GoogleOther-Image |
GoogleOther-Image 是 GoogleOther 的最佳化版本,適用於擷取可公開存取的圖片網址。
|
||||
GoogleOther-Video |
GoogleOther-Video 是 GoogleOther 的最佳化版本,適用於擷取可公開存取的影片網址。
|
||||
Google-Extended |
網站發布商可使用的獨立產品符記
|
特殊情況檢索器
如果在接受檢索的網站和產品之間有針對檢索程序制定協議,特定產品就會使用特殊情況檢索器。舉例來說,AdsBot
會忽略具有廣告發布商權限的全域 robots.txt 使用者代理程式 (*
)。特殊情況檢索器可能會忽略 robots.txt 規則,因此運作的 IP 範圍與常見檢索器不同。IP 範圍會發布到 special-crawlers.json 物件中。
特殊情況檢索器 | |||||
---|---|---|---|---|---|
APIs-Google |
Google API 會使用這個工具傳送推播通知訊息。在 robots.txt 中忽略全域使用者代理程式 (
|
||||
AdsBot 行動網路 |
檢查行動網頁廣告品質。在 robots.txt 中忽略全域使用者代理程式 (
|
||||
AdsBot |
檢查電腦版網頁廣告品質。在 robots.txt 中忽略全域使用者代理程式 (
|
||||
AdSense |
AdSense 檢索器會造訪您的網站並判斷其內容,以便提供相關廣告。在 robots.txt 中忽略全域使用者代理程式 (
|
||||
Mobile AdSense |
行動版 AdSense 檢索器會造訪您的網站並判斷其內容,以便提供相關廣告。在 robots.txt 中忽略全域使用者代理程式 (
|
||||
Google 安全性 |
Google 安全性使用者代理程式會處理特定濫用行為的檢索作業,例如找出 Google 資源上公開發布連結包含的惡意軟體。這個使用者代理程式會忽略 robots.txt 規則。
|
使用者觸發的擷取程式
使用者觸發的擷取程式是由使用者啟動,用來執行產品專屬擷取函式。舉例來說,Google 網站驗證工具會回應使用者的要求,或是在 Google Cloud (GCP) 上託管的網站,提供可讓網站使用者擷取外部 RSS 動態消息的功能。由於擷取動作是由使用者提出要求,因此擷取程式通常會忽略 robots.txt 規則。 使用者觸發的擷取器使用的 IP 範圍會發布到 user-triggered-fetchers.json 和 user-triggered-fetchers-google.json 物件。
使用者觸發的擷取程式 | |||||
---|---|---|---|---|---|
Feedfetcher |
Feedfetcher 可用來檢索 Google 播客、Google 新聞和 PubSubHubbub 的 RSS 或 Atom 動態消息。
|
||||
Google 新聞發布者中心 |
透過 Google 新聞發布者中心擷取並處理發布商明確提供的動態消息,以便在 Google 新聞到達網頁中使用。
|
||||
Google Read Aloud |
使用者提出要求時,Google Read Aloud 會使用文字轉語音 (TTS) 功能擷取並朗讀網頁。
|
||||
Google 網站驗證工具 |
Google 網站驗證工具會在使用者要求 Search Console 驗證權杖時進行擷取。
|
W.X.Y.Z使用者代理程式中的 Chrome/W.X.Y.Z 相關注意事項
上表中有些使用者代理程式字串含有 Chrome/W.X.Y.ZW.X.Y.Z,其中的 W.X.Y.ZW.X.Y.Z 其實是預留位置,代表該使用者代理程式使用的 Chrome 瀏覽器版本,例如:41.0.2272.96
。由於 Googlebot 會使用最新發布版的 Chromium,此版本號碼也會隨之日漸遞增。
在搜尋記錄或篩選伺服器時,如果想要運用這個格式來尋找使用者代理程式,請以萬用字元取代版本號碼,不要指定明確的版本號碼。
robots.txt 中的使用者代理程式
如果 Google 在 robots.txt 檔案中發現多個使用者代理程式,將會採用檢索條件最詳細者。如果想讓所有的 Google 檢索器都能檢索您的網頁,其實就不需要使用 robots.txt 檔案;如果要封鎖或允許所有 Google 檢索器存取您網站的部分內容,請將使用者代理程式指定為 Googlebot。舉例來說,如果想讓 Google 搜尋顯示您所有的網頁,並在頁面中顯示 AdSense 廣告,就不需要使用 robots.txt。同樣地,如果完全不想讓 Google 檢索某些網頁,只要封鎖 Googlebot
使用者代理程式,就能一併封鎖所有其他 Google 使用者代理程式。
不過,您也可以指定更明確的檢索條件,進一步管理搜尋結果。例如,您可能希望所有的網頁都出現在 Google 搜尋結果中,但不要 Google 檢索您個人目錄內的圖片。這時候,可使用 robots.txt 禁止 Googlebot-Image
使用者代理程式檢索您個人目錄內的檔案,同時允許 Googlebot 檢索所有檔案。範例如下:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal
又或者,您希望在所有網頁中顯示廣告,但不想讓 Google 搜尋顯示這些網頁,那我們建議您封鎖 Googlebot,但允許 Mediapartners-Google
使用者代理程式。範例如下:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
控管檢索速度
每個 Google 檢索器都是基於特定目的存取網站,且檢索頻率不盡相同。Google 會使用演算法判斷每個網站的最佳檢索頻率,如果 Google 檢索器太常檢索您的網站,您可以降低檢索頻率。
已淘汰的 Google 檢索器
下列 Google 檢索器已停用,僅列於此供您參考。
已淘汰的 Google 檢索器 | |||||
---|---|---|---|---|---|
Duplex 網頁版 |
支援 Duplex 網頁版服務。
|
||||
Web Light |
在符合適當條件的狀態下,當使用者在搜尋結果中點選您的網頁時,系統會檢查是否有
|
||||
AdsBot 行動網路 |
檢查 iPhone 網頁廣告品質。在 robots.txt 中忽略全域使用者代理程式 (
|
||||
Android 版行動應用程式 |
檢查 Android 應用程式版網頁廣告品質,遵循
|
||||
Google Favicon |
|