Tổng quan về trình thu thập dữ liệu và trình tìm nạp của Google (tác nhân người dùng)

Google sử dụng trình thu thập dữ liệu và trình tìm nạp để thực hiện hành động cho các sản phẩm của Google, theo cách tự động hoặc kích hoạt theo yêu cầu của người dùng.

"Trình thu thập dữ liệu" (đôi khi còn gọi là "robot" hoặc "spider") là thuật ngữ chung để chỉ mọi chương trình có chức năng tự động phát hiện và quét các trang web bằng cách đi theo các đường liên kết từ trang web này đến trang web khác. Trình thu thập dữ liệu chính mà Google dùng cho Google Tìm kiếm có tên là Googlebot.

Trình tìm nạp, giống như trình duyệt, là công cụ yêu cầu một URL khi được người dùng yêu cầu.

Các bảng sau cho thấy cách các sản phẩm và dịch vụ của Google sử dụng trình thu thập dữ liệu và trình tìm nạp, cách chúng hiển thị trong nhật ký liên kết giới thiệu và cách chỉ định chúng trong tệp robots.txt. Những danh sách này chưa đầy đủ mà chỉ bao gồm những trình yêu cầu phổ biến nhất có thể xuất hiện trong các tệp nhật ký.

  • Mã tác nhân người dùng ở dòng User-agent: trong tệp robots.txt dùng để liên kết với một loại trình thu thập dữ liệu khi viết quy tắc thu thập dữ liệu cho trang web của bạn. Một số trình thu thập dữ liệu có nhiều hơn một mã (như trình bày trong bảng). Với mỗi quy tắc, bạn chỉ cần khớp với một mã trình thu thập dữ liệu khớp để quy tắc đó có hiệu lực. Danh sách này tuy không đầy đủ nhưng bao gồm hầu hết các trình thu thập dữ liệu bạn có thể thấy trên trang web của mình.
  • Chuỗi tác nhân người dùng đầy đủ là phần mô tả đầy đủ về trình thu thập dữ liệu. Chuỗi này xuất hiện trong yêu cầu HTTP và nhật ký web của bạn.

Các trình thu thập dữ liệu phổ biến

Các trình thu thập dữ liệu phổ biến của Google được dùng để xây dựng chỉ mục tìm kiếm của Google, thực hiện các hoạt động thu thập dữ liệu dành riêng cho sản phẩm khác và để phân tích. Chúng luôn tuân theo các quy tắc trong tệp robots.txt và thường thu thập dữ liệu từ các dải IP được xuất bản trong đối tượng googlebot.json.

Các trình thu thập dữ liệu phổ biến

Googlebot Smartphone

Mã tác nhân người dùng Googlebot
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot Desktop

Mã tác nhân người dùng Googlebot
Chuỗi tác nhân người dùng đầy đủ
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Hiếm gặp:
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot Image

Dùng để thu thập dữ liệu byte hình ảnh cho Google Hình ảnh và các sản phẩm phụ thuộc vào hình ảnh.

Mã tác nhân người dùng
  • Googlebot-Image
  • Googlebot
Chuỗi tác nhân người dùng đầy đủ Googlebot-Image/1.0

Googlebot News

Googlebot News sử dụng Googlebot để thu thập dữ liệu tin bài, nhưng có tuân theo mã tác nhân người dùng Googlebot-News trước đây.

Mã tác nhân người dùng
  • Googlebot-News
  • Googlebot
Chuỗi tác nhân người dùng đầy đủ Tác nhân người dùng Googlebot-News sử dụng nhiều chuỗi tác nhân người dùng Googlebot.

Googlebot Video

Dùng để thu thập dữ liệu byte video cho Google Video và các sản phẩm phụ thuộc vào video.

Mã tác nhân người dùng
  • Googlebot-Video
  • Googlebot
Chuỗi tác nhân người dùng đầy đủ Googlebot-Video/1.0

Google StoreBot

Google StoreBot thu thập thông tin trên một số loại trang, bao gồm nhưng không giới hạn ở trang chi tiết sản phẩm, trang giỏ hàng và trang thanh toán.

Mã tác nhân người dùng Storebot-Google
Chuỗi tác nhân người dùng đầy đủ
  • Tác nhân cho máy tính:
    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36
  • Tác nhân cho thiết bị di động:
    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

Google-InspectionTool

Google-InspectionTool là trình thu thập dữ liệu mà các công cụ kiểm tra của Tìm kiếm sử dụng, chẳng hạn như Kiểm tra kết quả nhiều định dạngKiểm tra URL trong Search Console. Ngoài tác nhân người dùng và mã tác nhân người dùng, tác nhân người dùng này cũng bắt chước Googlebot.

Mã tác nhân người dùng
  • Google-InspectionTool
  • Googlebot
Chuỗi tác nhân người dùng đầy đủ
  • Thiết bị di động
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
  • Máy tính
    Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

GoogleOther

GoogleOther là một trình thu thập dữ liệu chung có thể được nhiều nhóm sản phẩm sử dụng để tìm nạp nội dung có thể truy cập công khai trên các trang web. Ví dụ: có thể dùng để thu thập dữ liệu một lần cho mục đích nghiên cứu và phát triển nội bộ.

Mã tác nhân người dùng GoogleOther
Chuỗi tác nhân người dùng đầy đủ GoogleOther

Google-Extended

Google-Extended là một mã thông báo sản phẩm độc lập mà các nhà xuất bản web có thể dùng để quản lý việc trang web của họ có giúp cải thiện các API tạo sinh của các ứng dụng Gemini và Vertex AI hay không, kể cả những thế hệ mô hình sau này có hỗ trợ các sản phẩm đó. Google-Extended không ảnh hưởng đến việc đưa vào hoặc xếp hạng một trang web trên Google Tìm kiếm.

Mã tác nhân người dùng Google-Extended
Chuỗi tác nhân người dùng đầy đủ Google-Extended không có chuỗi tác nhân người dùng yêu cầu HTTP riêng. Việc thu thập dữ liệu được thực hiện bằng các chuỗi tác nhân người dùng hiện có của Google; mã tác nhân người dùng robots.txt được dùng trong phạm vi có kiểm soát.

Trình thu thập dữ liệu trong trường hợp đặc biệt

Trình thu thập dữ liệu trong trường hợp đặc biệt được một số sản phẩm cụ thể sử dụng khi có thoả thuận giữa trang web được thu thập dữ liệu và sản phẩm về quá trình thu thập dữ liệu. Ví dụ: AdsBot bỏ qua tác nhân người dùng chung trong tệp robots.txt (*) khi có sự cho phép của nhà xuất bản quảng cáo. Các trình thu thập dữ liệu trong trường hợp đặc biệt có thể bỏ qua các quy tắc trong tệp robots.txt. Do đó, chúng hoạt động trong một dải IP khác với các trình thu thập dữ liệu thông thường. Dải IP được xuất bản trong đối tượng special-crawlers.json.

Trình thu thập dữ liệu trong trường hợp đặc biệt

APIs-Google

Được Google API sử dụng để gửi thông báo đẩy. Bỏ qua tác nhân người dùng chung (*) trong tệp robots.txt.

Mã tác nhân người dùng APIs-Google
Chuỗi tác nhân người dùng đầy đủ APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

AdsBot Mobile Web Android

Kiểm tra chất lượng quảng cáo trên trang web cho Android. Bỏ qua tác nhân người dùng chung (*) trong tệp robots.txt.

Mã tác nhân người dùng AdsBot-Google-Mobile
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

Kiểm tra chất lượng quảng cáo trên trang web cho iPhone. Bỏ qua tác nhân người dùng chung (*) trong tệp robots.txt.

Mã tác nhân người dùng AdsBot-Google-Mobile
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Kiểm tra chất lượng quảng cáo trên trang web cho máy tính. Bỏ qua tác nhân người dùng chung (*) trong tệp robots.txt.

Mã tác nhân người dùng AdsBot-Google
Chuỗi tác nhân người dùng đầy đủ AdsBot-Google (+http://www.google.com/adsbot.html)

AdSense

Trình thu thập thông tin của AdSense truy cập trang web của bạn để xác định nội dung của trang web nhằm cung cấp quảng cáo có liên quan. Bỏ qua tác nhân người dùng chung (*) trong tệp robots.txt.

Mã tác nhân người dùng Mediapartners-Google
Chuỗi tác nhân người dùng đầy đủ Mediapartners-Google

Mobile AdSense

Trình thu thập thông tin của Mobile AdSense truy cập trang web của bạn để xác định nội dung trên trang web nhằm cung cấp quảng cáo có liên quan. Bỏ qua tác nhân người dùng chung (*) trong tệp robots.txt.

Mã tác nhân người dùng Mediapartners-Google
Chuỗi tác nhân người dùng đầy đủ (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Google-Safety

Tác nhân người dùng Google-Safety sẽ xử lý hoạt động thu thập dữ liệu liên quan đến hành vi sai trái, chẳng hạn như phát hiện phần mềm độc hại trên các đường liên kết được đăng công khai trên các sản phẩm của Google. Tác nhân người dùng này bỏ qua các quy tắc trong tệp robots.txt.

Chuỗi tác nhân người dùng đầy đủ Google-Safety

Trình tìm nạp do người dùng kích hoạt

Trình tìm nạp do người dùng kích hoạt sẽ được người dùng kích hoạt để thực hiện một chức năng dành riêng cho sản phẩm. Ví dụ: Google Site Verifier thực hiện hành động theo yêu cầu của người dùng. Do người dùng yêu cầu tìm nạp, những trình tìm nạp này thường bỏ qua các quy tắc trong tệp robots.txt. Dải IP mà trình tìm nạp do người dùng kích hoạt sử dụng được xuất bản trong đối tượng user-triggered-fetchers.json.

Trình tìm nạp do người dùng kích hoạt

Feedfetcher

Feedfetcher được dùng để thu thập dữ liệu của nguồn cấp dữ liệu RSS hoặc Atom cho Google Podcasts, Google News và PubSubHubbub.

Mã tác nhân người dùng FeedFetcher-Google
Chuỗi tác nhân người dùng đầy đủ FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Trung tâm xuất bản của Google

Tìm nạp và xử lý nguồn cấp dữ liệu mà nhà xuất bản đã cung cấp một cách rõ ràng thông qua Trung tâm xuất bản của Google để dùng trong trang đích trên Google News.

Chuỗi tác nhân người dùng đầy đủ GoogleProducer; (+http://goo.gl/7y4SX)

Google Read Aloud

Khi có yêu cầu của người dùng, Google Read Aloud tìm nạp và đọc các trang web bằng tính năng chuyển văn bản sang lời nói (TTS).

Chuỗi tác nhân người dùng đầy đủ

Những tác nhân hiện có:

  • Tác nhân cho máy tính:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Tác nhân cho thiết bị di động:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

Tác nhân cũ (không dùng nữa):

google-speakr

Google Site Verifier

Google Site Verifier tìm nạp mã xác minh trong Search Console theo yêu cầu của người dùng.

Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Lưu ý về Chrome/W.X.Y.Z trong tác nhân người dùng

Nếu bạn thấy chuỗi Chrome/W.X.Y.Z trong chuỗi tác nhân người dùng nêu trong bảng trên, thì W.X.Y.Z thực ra là phần giữ chỗ đại diện cho phiên bản trình duyệt Chrome mà tác nhân người dùng đó sử dụng, ví dụ: 41.0.2272.96. Mã số phiên bản này sẽ tăng theo thời gian để khớp với phiên bản phát hành Chromium mới nhất mà Googlebot sử dụng.

Nếu bạn đang tìm/lọc tác nhân người dùng có mẫu này trong nhật ký/máy chủ, hãy sử dụng ký tự đại diện cho mã số phiên bản thay vì chỉ định một mã số phiên bản chính xác.

Tác nhân người dùng trong tệp robots.txt

Trong trường hợp tệp robots.txt ghi nhận nhiều tác nhân người dùng, Google sẽ tuân theo tác nhân cụ thể nhất. Nếu bạn muốn tất cả trình thu thập dữ liệu của Google đều có thể thu thập dữ liệu các trang của bạn, thì bạn hoàn toàn không cần dùng tệp robots.txt. Nếu bạn muốn chặn hoặc cho phép mọi trình thu thập dữ liệu của Google truy cập một số nội dung, bạn có thể thực hiện bằng cách chỉ định Googlebot làm tác nhân người dùng. Ví dụ: nếu bạn muốn tất cả các trang của bạn xuất hiện trên Google Tìm kiếm và muốn quảng cáo AdSense xuất hiện trên các trang của mình thì bạn không cần dùng tệp robots.txt. Tương tự như vậy, nếu bạn muốn chặn hoàn toàn một số trang khỏi Google, việc chặn tác nhân người dùng Googlebot cũng sẽ chặn mọi tác nhân người dùng khác của Google.

Tuy nhiên, bạn có thể thiết lập chi tiết hơn nếu muốn kiểm soát nhiều hơn. Ví dụ: có thể bạn muốn toàn bộ các trang của mình xuất hiện trên Google Tìm kiếm, nhưng lại không muốn Google thu thập dữ liệu hình ảnh trong thư mục cá nhân của bạn. Trong trường hợp này, hãy sử dụng tệp robots.txt để không cho phép tác nhân người dùng Googlebot-Image thu thập dữ liệu các tệp trong thư mục cá nhân của bạn (nhưng vẫn cho phép Googlebot thu thập dữ liệu mọi tệp), chẳng hạn như sau:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Trong một ví dụ khác, giả sử bạn muốn có quảng cáo trên tất cả các trang của bạn, nhưng bạn không muốn những trang đó xuất hiện trong Google Tìm kiếm. Trong trường hợp này, bạn cần chặn Googlebot nhưng cho phép tác nhân người dùng Mediapartners-Google, chẳng hạn như sau:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Kiểm soát tốc độ thu thập dữ liệu

Mỗi trình thu thập dữ liệu của Google lại truy cập các trang web cho một mục đích cụ thể và với tốc độ riêng. Google sử dụng các thuật toán để xác định tốc độ thu thập dữ liệu tối ưu cho từng trang web. Nếu trình thu thập dữ liệu của Google thu thập dữ liệu quá thường xuyên trên trang web của bạn, thì bạn có thể giảm tốc độ thu thập dữ liệu.

Trình thu thập dữ liệu mà Google đã gỡ bỏ

Các trình thu thập dữ liệu sau đây của Google không còn được sử dụng nữa mà chỉ được ghi chú tại đây để tham khảo thông tin theo thời gian.

Trình thu thập dữ liệu mà Google đã gỡ bỏ

Duplex trên web

Hỗ trợ dịch vụ Duplex trên web.

Mã tác nhân người dùng DuplexWeb-Google
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

Kiểm tra sự hiện diện của tiêu đề no-transform mỗi khi người dùng nhấp vào trang của bạn trong kết quả tìm kiếm trong điều kiện thích hợp. Tác nhân người dùng Web Light chỉ được sử dụng cho các yêu cầu duyệt web rõ ràng của khách truy cập là người thật. Vì thế, tác nhân này bỏ qua các quy tắc trong tệp robots.txt (dùng để chặn các yêu cầu thu thập dữ liệu tự động).

Mã tác nhân người dùng googleweblight
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

Mobile Apps Android

Kiểm tra chất lượng quảng cáo trên trang cho ứng dụng Android. Tuân theo quy tắc trong tệp robots.txt AdsBot-Google nhưng bỏ qua tác nhân người dùng chung (*) trong tệp robots.txt.

Mã tác nhân người dùng AdsBot-Google-Mobile-Apps
Chuỗi tác nhân người dùng đầy đủ AdsBot-Google-Mobile-Apps

Google Favicon

Mã tác nhân người dùng
  • Googlebot-Image
  • Googlebot
Chuỗi tác nhân người dùng đầy đủ Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon