Danh sách các trình thu thập thông tin chung của Google

Các trình thu thập thông tin chung của Google dùng để tìm thông tin nhằm xây dựng chỉ mục tìm kiếm của Google, thực hiện các hoạt động thu thập dữ liệu khác theo sản phẩm cụ thể và để phân tích. Các trình thu thập dữ liệu này luôn tuân thủ các quy tắc trong tệp robots.txt trong quá trình thu thập dữ liệu tự động. Tính chất kỹ thuật chung của trình thu thập thông tin của Google cũng áp dụng cho trình thu thập thông tin chung.

Các trình thu thập thông tin chung thường thu thập dữ liệu qua các dải IP được xuất bản trong xuất bản trong đối tượng googlebot.json và mặt nạ DNS ngược của tên máy chủ khớp với crawl-***-***-***-***.googlebot.com hoặc geo-crawl-***-***-***-***.geo.googlebot.com.

Danh sách sau đây cho thấy các trình thu thập thông tin chung, chuỗi tác nhân người dùng của các trình thu thập đó khi xuất hiện trong yêu cầu HTTP, mã tác nhân người dùng của các trình thu thập đó ở dòng User-agent: trong tệp robots.txt và các sản phẩm bị ảnh hưởng bởi lựa chọn ưu tiên về thu thập dữ liệu tương ứng với trình thu thập dữ liệu. Một số trình thu thập thông tin có nhiều hơn một mã thông báo tác nhân người dùng; bạn chỉ cần so khớp với một mã thông báo trình thu thập dữ liệu để áp dụng một quy tắc. Danh sách này không đầy đủ, mà chỉ đề cập đến những trình yêu cầu mà mọi người thường đặt câu hỏi cho chúng tôi và có nhiều khả năng xuất hiện trong các tệp nhật ký.

User-Agent trong yêu cầu HTTP
Googlebot Smartphone
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot Desktop
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36

Hiếm gặp:

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Googlebot/2.1 (+http://www.google.com/bot.html)
robots.txt
Mã thông báo tác nhân người dùng trong tệp robots.txt Googlebot
Ví dụ về nhóm tệp robots.txt
user-agent: Googlebot
allow: /archive/1Q84
disallow: /archive
Sản phẩm bị ảnh hưởng Các lựa chọn ưu tiên về thu thập dữ liệu được chỉ định cho tác nhân người dùng Googlebot sẽ ảnh hưởng đến Google Tìm kiếm (kể cả Khám phá và tất cả các tính năng của Google Tìm kiếm), cũng như các sản phẩm khác như Google Hình ảnh, Google Video, Google News và Khám phá.
Tác nhân người dùng trong yêu cầu HTTP
Googlebot-Image/1.0
robots.txt
Mã thông báo tác nhân người dùng trong tệp robots.txt Googlebot-Image
Googlebot
Ví dụ về nhóm tệp robots.txt
user-agent: Googlebot-Image
allow: /archive/1Q84
disallow: /archive/moons.jpg
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về thu thập dữ liệu được chỉ định cho tác nhân người dùng Googlebot-Image sẽ ảnh hưởng đến Google Hình ảnh, Khám phá, Google Video và tất cả tính năng trong Google Tìm kiếm có xuất hiện hình ảnh, biểu trưng và biểu tượng trang chủ.
Tác nhân người dùng trong yêu cầu HTTP
Googlebot-Video/1.0
robots.txt
Mã thông báo tác nhân người dùng trong tệp robots.txt Googlebot-Video
Googlebot
Ví dụ về nhóm tệp robots.txt
user-agent: Googlebot-Video
allow: /archive/1Q84
disallow: /archive/
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về thu thập dữ liệu được chỉ định cho tác nhân người dùng Googlebot-Video sẽ ảnh hưởng đến các tính năng liên quan đến video trên Google Tìm kiếm và các sản phẩm khác phụ thuộc vào video.
Tác nhân người dùng trong yêu cầu HTTP Googlebot-news không có chuỗi tác nhân người dùng yêu cầu HTTP riêng. Việc thu thập dữ liệu được thực hiện bằng nhiều chuỗi tác nhân người dùng Googlebot.
robots.txt
Mã thông báo tác nhân người dùng trong tệp robots.txt Googlebot-News
Googlebot
Ví dụ về nhóm tệp robots.txt
user-agent: Googlebot-News
allow: /archive/1Q84
disallow: /archive/
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về thu thập dữ liệu được chỉ định cho tác nhân người dùng Googlebot-News sẽ ảnh hưởng đến mọi nền tảng của Google News (ví dụ: thẻ Tin tức trên Google Tìm kiếm và ứng dụng Google News).
Tác nhân người dùng trong yêu cầu HTTP
Tác nhân cho máy tính
Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
Tác nhân cho thiết bị di động
Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36
robots.txt
Mã thông báo tác nhân người dùng trong tệp robots.txt Storebot-Google
Ví dụ về nhóm tệp robots.txt
user-agent: Storebot-Google
allow: /archive/1Q84
disallow: /archive/konbini
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về thu thập dữ liệu được chỉ định cho tác nhân người dùng Storebot-Google sẽ ảnh hưởng đến tất cả nền tảng của Google Mua sắm (ví dụ: thẻ Mua sắm trong Google Tìm kiếm và Google Mua sắm).
Tác nhân người dùng trong yêu cầu HTTP
Tác nhân cho máy tính
Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)
Tác nhân cho thiết bị di động
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
robots.txt
Mã thông báo tác nhân người dùng trong tệp robots.txt Google-InspectionTool
Googlebot
Ví dụ về nhóm tệp robots.txt
user-agent: Google-InspectionTool
allow: /archive/1Q84
disallow: /archive/
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về thu thập dữ liệu được chỉ định cho tác nhân người dùng Storebot-Google sẽ ảnh hưởng đến các công cụ kiểm tra của Tìm kiếm, chẳng hạn như Công cụ kiểm tra kết quả nhiều định dạngCông cụ kiểm tra URL trong Search Console. Lựa chọn ưu tiên này không ảnh hưởng đến Google Tìm kiếm hoặc các sản phẩm khác.
Tác nhân người dùng trong yêu cầu HTTP
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; GoogleOther)

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GoogleOther) Chrome/W.X.Y.Z Safari/537.36
robots.txt
Mã thông báo tác nhân người dùng trong tệp robots.txt GoogleOther
Ví dụ về nhóm tệp robots.txt
user-agent: GoogleOther
allow: /archive/1Q84
disallow: /archive/
Sản phẩm bị ảnh hưởng Các lựa chọn ưu tiên về thu thập dữ liệu gửi đến tác nhân người dùng GoogleOther sẽ không ảnh hưởng đến bất kỳ sản phẩm cụ thể nào. GoogleOther là một trình thu thập thông tin chung có thể được nhiều nhóm sản phẩm sử dụng để tìm nạp nội dung có thể truy cập công khai trên các trang web. Ví dụ: có thể dùng để thu thập dữ liệu một lần cho mục đích nghiên cứu và phát triển nội bộ. Lựa chọn ưu tiên này không ảnh hưởng đến Google Tìm kiếm hoặc các sản phẩm khác.
Tác nhân người dùng trong yêu cầu HTTP
GoogleOther-Image/1.0
robots.txt
Mã thông báo tác nhân người dùng trong tệp robots.txt GoogleOther-Image
GoogleOther
Ví dụ về nhóm tệp robots.txt
user-agent: GoogleOther-Image
allow: /archive/1Q84
disallow: /archive/moon.jpg
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về thu thập dữ liệu được chỉ định cho tác nhân người dùng GoogleOther-Image sẽ không ảnh hưởng đến bất cứ sản phẩm cụ thể nào, tương tự như GoogleOther. GoogleOther-Image là phiên bản được tối ưu hoá của GoogleOther để tìm nạp các URL hình ảnh có thể truy cập công khai.
Tác nhân người dùng trong yêu cầu HTTP
GoogleOther-Video/1.0
robots.txt
Mã thông báo tác nhân người dùng trong tệp robots.txt GoogleOther-Video
GoogleOther
Ví dụ về nhóm tệp robots.txt
user-agent: GoogleOther-Video
allow: /archive/1Q84
disallow: /archive
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về hoạt động thu thập dữ liệu được chỉ định cho tác nhân người dùng GoogleOther-Video sẽ không ảnh hưởng đến bất cứ sản phẩm cụ thể nào, tương tự như GoogleOther. GoogleOther-Video là phiên bản được tối ưu hoá của GoogleOther để tìm nạp các URL video có thể truy cập công khai.
Chuỗi con tác nhân người dùng trong các yêu cầu HTTP
Google-CloudVertexBot
robots.txt
Mã thông báo tác nhân người dùng trong tệp robots.txt Google-CloudVertexBot
Googlebot
Ví dụ về nhóm tệp robots.txt
user-agent: Google-CloudVertexBot
allow: /archive/1Q84
disallow: /archive/
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về thu thập dữ liệu được chỉ định cho tác nhân người dùng Google-CloudVertexBot sẽ ảnh hưởng đến việc thu thập dữ liệu theo yêu cầu của chủ sở hữu trang web đối với việc xây dựn Tác nhân Vertex AI. Lựa chọn ưu tiên này không ảnh hưởng đến Google Tìm kiếm hoặc các sản phẩm khác.
Tác nhân người dùng trong yêu cầu HTTP Google-Extended không có chuỗi tác nhân người dùng yêu cầu HTTP riêng. Việc thu thập dữ liệu được thực hiện bằng các chuỗi tác nhân người dùng hiện có của Google; mã thông báo tác nhân người dùng robots.txt được dùng trong phạm vi có kiểm soát.
robots.txt
Mã thông báo tác nhân người dùng trong tệp robots.txt Google-Extended
Ví dụ về nhóm tệp robots.txt
user-agent: Google-Extended
allow: /archive/1Q84
disallow: /archive/
Sản phẩm bị ảnh hưởng Google-Extended là một mã thông báo sản phẩm độc lập mà các nhà xuất bản web có thể dùng để quản lý việc trang web của họ có giúp cải thiện các API tạo sinh của các ứng dụng Gemini và Vertex AI hay không, kể cả những thế hệ mô hình sau này có hỗ trợ các sản phẩm đó. Google-Extended không ảnh hưởng đến việc đưa vào hoặc xếp hạng một trang web trên Google Tìm kiếm.

Lưu ý về Chrome/W.X.Y.Z trong tác nhân người dùng

Nếu bạn thấy chuỗi Chrome/W.X.Y.Z trong chuỗi tác nhân người dùng nêu trong bảng trên, thì W.X.Y.Z thực ra là phần giữ chỗ đại diện cho phiên bản trình duyệt Chrome mà tác nhân người dùng đó sử dụng, ví dụ: 41.0.2272.96. Mã số phiên bản này sẽ tăng theo thời gian để khớp với phiên bản phát hành Chromium mới nhất mà Googlebot sử dụng.

Nếu bạn đang tìm/lọc tác nhân người dùng có mẫu này trong nhật ký/máy chủ, hãy sử dụng ký tự đại diện cho mã số phiên bản thay vì chỉ định một mã số phiên bản chính xác.