Google 檢索器和擷取程式 (使用者代理程式) 總覽

Google 會使用檢索器和擷取程式對產品執行動作,無論動作是自動或由使用者要求觸發。

「檢索器」(有時也稱為「漫遊器」或「自動尋檢程式」) 泛指任何透過網頁間連結來自動尋找並檢索網站的程式。Google 搜尋使用的主要檢索器稱為 Googlebot

擷取程式 (例如瀏覽器) 會在使用者提示時,要求單一網址。

下表列出了各種產品和服務使用的 Google 檢索器和擷取程式、在參照記錄中的呈現方式,以及如何在 robots.txt 中指定這些工具。這份清單並不完整,僅涵蓋記錄檔中可能出現的最常見檢索器和擷取程式。

  • 使用者代理程式符記能夠比對特定類型的檢索器,請在編寫網站的檢索規則時,在 robots.txt 的 User-agent: 行使用這個值。如下表所示,有些檢索器具有多個符記;只要有一個檢索器符記相符,規則就會生效。以下清單並不完整,但已涵蓋可能會檢索網站的大部分檢索器。
  • 完整的使用者代理程式字串是檢索器的完整說明,會出現在 HTTP 要求和您的網路記錄中。

常見檢索器

Google 的常見檢索器可用來尋找資訊,以便建構 Google 搜尋索引、執行其他產品專屬的檢索作業,以及進行分析。這些檢索器一律都會遵循 robots.txt 規則,而且通常會從 googlebot.json 物件中發布的 IP 範圍進行檢索。

常見檢索器
使用者代理程式符記 Googlebot
完整的使用者代理程式字串 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
使用者代理程式符記 Googlebot
完整的使用者代理程式字串
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • 鮮少:
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

用於檢索以圖片為基礎的 Google 圖片和產品圖片網址。

使用者代理程式符記
  • Googlebot-Image
  • Googlebot
完整的使用者代理程式字串 Googlebot-Image/1.0

Googlebot News 使用 Googlebot 檢索新聞文章,但會遵循歷來使用者代理程式符記「Googlebot-News」。

使用者代理程式符記
  • Googlebot-News
  • Googlebot
完整的使用者代理程式字串 Googlebot-News 使用者代理程式會使用各種 Googlebot 使用者代理程式字串

用於檢索以影片為基礎的 Google 影片和產品影片網址。

使用者代理程式符記
  • Googlebot-Video
  • Googlebot
完整的使用者代理程式字串 Googlebot-Video/1.0

Google StoreBot 會檢索特定類型的頁面,包括但不限於產品詳細資料頁面、購物車頁面和結帳頁面。

使用者代理程式符記 Storebot-Google
完整的使用者代理程式字串
  • 電腦版代理程式:
    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
  • 行動裝置版代理程式:
    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36

Google-InspectionTool 是搜尋測試工具使用的檢索器,例如 Search Console 中的複合式搜尋結果測試網址檢查。除了使用者代理程式和使用者代理程式符記以外,它也會模擬 Googlebot。

使用者代理程式符記
  • Google-InspectionTool
  • Googlebot
完整的使用者代理程式字串
  • 行動裝置版
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
  • 電腦版
    Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

GoogleOther 是通用檢索器,可供許多產品團隊從網站中擷取能公開存取的內容,例如用來針對內部研究與開發進行一次性檢索作業。

使用者代理程式符記 GoogleOther
完整的使用者代理程式字串
  • Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; GoogleOther)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GoogleOther) Chrome/W.X.Y.Z Safari/537.36
  • GoogleOther

GoogleOther-Image 是 GoogleOther 的最佳化版本,適用於擷取可公開存取的圖片網址。

使用者代理程式符記
  • GoogleOther-Image
  • GoogleOther
完整的使用者代理程式字串 GoogleOther-Image/1.0

GoogleOther-Video 是 GoogleOther 的最佳化版本,適用於擷取可公開存取的影片網址。

使用者代理程式符記
  • GoogleOther-Video
  • GoogleOther
完整的使用者代理程式字串 GoogleOther-Video/1.0

網站發布商可使用的獨立產品符記 Google-Extended,用於管理網站是否有助於改善 Gemini 系列應用程式和 Vertex AI 生成式 API,包括可強化這些產品的新一代模型。 Google-Extended 不會影響網站在 Google 搜尋中的收錄情形或排名。

使用者代理程式符記 Google-Extended
完整的使用者代理程式字串 Google-Extended 沒有獨立的 HTTP 要求使用者代理程式字串。檢索作業是使用現有的 Google 使用者代理程式字串完成。robots.txt 使用者代理程式符記則是用於控管控制權。

特殊情況檢索器

如果在接受檢索的網站和產品之間有針對檢索程序制定協議,特定產品就會使用特殊情況檢索器。舉例來說,AdsBot 會忽略具有廣告發布商權限的全域 robots.txt 使用者代理程式 (*)。特殊情況檢索器可能會忽略 robots.txt 規則,因此運作的 IP 範圍與常見檢索器不同。IP 範圍會發布到 special-crawlers.json 物件中。

特殊情況檢索器

Google API 會使用這個工具傳送推播通知訊息。在 robots.txt 中忽略全域使用者代理程式 (*)。

使用者代理程式符記 APIs-Google
完整的使用者代理程式字串 APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

檢查行動網頁廣告品質。在 robots.txt 中忽略全域使用者代理程式 (*)。

使用者代理程式符記 AdsBot-Google-Mobile
完整的使用者代理程式字串 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

檢查電腦版網頁廣告品質。在 robots.txt 中忽略全域使用者代理程式 (*)。

使用者代理程式符記 AdsBot-Google
完整的使用者代理程式字串 AdsBot-Google (+http://www.google.com/adsbot.html)

AdSense 檢索器會造訪您的網站並判斷其內容,以便提供相關廣告。在 robots.txt 中忽略全域使用者代理程式 (*)。

使用者代理程式符記 Mediapartners-Google
完整的使用者代理程式字串 Mediapartners-Google

行動版 AdSense 檢索器會造訪您的網站並判斷其內容,以便提供相關廣告。在 robots.txt 中忽略全域使用者代理程式 (*)。

使用者代理程式符記 Mediapartners-Google
完整的使用者代理程式字串 (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Google 安全性使用者代理程式會處理特定濫用行為的檢索作業,例如找出 Google 資源上公開發布連結包含的惡意軟體。這個使用者代理程式會忽略 robots.txt 規則。

完整的使用者代理程式字串 Google-Safety

使用者觸發的擷取程式

使用者觸發的擷取程式是由使用者啟動,用來執行產品專屬擷取函式。舉例來說,Google 網站驗證工具會回應使用者的要求,或是在 Google Cloud (GCP) 上託管的網站,提供可讓網站使用者擷取外部 RSS 動態消息的功能。由於擷取動作是由使用者提出要求,因此擷取程式通常會忽略 robots.txt 規則。 使用者觸發的擷取器使用的 IP 範圍會發布到 user-triggered-fetchers.jsonuser-triggered-fetchers-google.json 物件。

使用者觸發的擷取程式

Feedfetcher 可用來檢索 Google 播客、Google 新聞和 PubSubHubbub 的 RSS 或 Atom 動態消息。

使用者代理程式符記 FeedFetcher-Google
完整的使用者代理程式字串 FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

透過 Google 新聞發布者中心擷取並處理發布商明確提供的動態消息,以便在 Google 新聞到達網頁中使用。

完整的使用者代理程式字串 GoogleProducer; (+https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers#googleproducer)

使用者提出要求時,Google Read Aloud 會使用文字轉語音 (TTS) 功能擷取並朗讀網頁。

完整的使用者代理程式字串

現行代理程式

  • 電腦版代理程式:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • 行動裝置版代理程式:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

舊版代理程式 (已淘汰)

google-speakr

Google 網站驗證工具會在使用者要求 Search Console 驗證權杖時進行擷取。

完整的使用者代理程式字串 Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

W.X.Y.Z使用者代理程式中的 Chrome/W.X.Y.Z 相關注意事項

上表中有些使用者代理程式字串含有 Chrome/W.X.Y.ZW.X.Y.Z,其中的 W.X.Y.ZW.X.Y.Z 其實是預留位置,代表該使用者代理程式使用的 Chrome 瀏覽器版本,例如:41.0.2272.96。由於 Googlebot 會使用最新發布版的 Chromium,此版本號碼也會隨之日漸遞增。

在搜尋記錄或篩選伺服器時,如果想要運用這個格式來尋找使用者代理程式,請以萬用字元取代版本號碼,不要指定明確的版本號碼。

robots.txt 中的使用者代理程式

如果 Google 在 robots.txt 檔案中發現多個使用者代理程式,將會採用檢索條件最詳細者。如果想讓所有的 Google 檢索器都能檢索您的網頁,其實就不需要使用 robots.txt 檔案;如果要封鎖或允許所有 Google 檢索器存取您網站的部分內容,請將使用者代理程式指定為 Googlebot。舉例來說,如果想讓 Google 搜尋顯示您所有的網頁,並在頁面中顯示 AdSense 廣告,就不需要使用 robots.txt。同樣地,如果完全不想讓 Google 檢索某些網頁,只要封鎖 Googlebot 使用者代理程式,就能一併封鎖所有其他 Google 使用者代理程式。

不過,您也可以指定更明確的檢索條件,進一步管理搜尋結果。例如,您可能希望所有的網頁都出現在 Google 搜尋結果中,但不要 Google 檢索您個人目錄內的圖片。這時候,可使用 robots.txt 禁止 Googlebot-Image 使用者代理程式檢索您個人目錄內的檔案,同時允許 Googlebot 檢索所有檔案。範例如下:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

又或者,您希望在所有網頁中顯示廣告,但不想讓 Google 搜尋顯示這些網頁,那我們建議您封鎖 Googlebot,但允許 Mediapartners-Google 使用者代理程式。範例如下:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

控管檢索速度

每個 Google 檢索器都是基於特定目的存取網站,且檢索頻率不盡相同。Google 會使用演算法判斷每個網站的最佳檢索頻率,如果 Google 檢索器太常檢索您的網站,您可以降低檢索頻率

已淘汰的 Google 檢索器

下列 Google 檢索器已停用,僅列於此供您參考。

已淘汰的 Google 檢索器

Duplex 網頁版

支援 Duplex 網頁版服務。

使用者代理程式符記 DuplexWeb-Google
完整的使用者代理程式字串 Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

在符合適當條件的狀態下,當使用者在搜尋結果中點選您的網頁時,系統會檢查是否有 no-transform 標頭。Web Light 使用者代理程式僅會用在真人訪客提出的明確瀏覽要求,因此會忽略 robots.txt 規則 (這類規則的用途是封鎖自動檢索要求)。

使用者代理程式符記 googleweblight
完整的使用者代理程式字串 Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

檢查 iPhone 網頁廣告品質。在 robots.txt 中忽略全域使用者代理程式 (*)。

使用者代理程式符記 AdsBot-Google-Mobile
完整的使用者代理程式字串 Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

檢查 Android 應用程式版網頁廣告品質,遵循 AdsBot-Google 漫遊器規則,但會忽略 robots.txt 中的全域使用者代理程式 (*)。

使用者代理程式符記 AdsBot-Google-Mobile-Apps
完整的使用者代理程式字串 AdsBot-Google-Mobile-Apps
使用者代理程式符記
  • Googlebot-Image
  • Googlebot
完整的使用者代理程式字串 Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon