Googlebot
Googlebot là tên gọi chung cho hai loại trình thu thập dữ liệu web mà Google Tìm kiếm sử dụng:
- Googlebot Smartphone: một trình thu thập dữ liệu thiết bị di động mô phỏng một người dùng sử dụng thiết bị di động.
- Googlebot Desktop: một trình thu thập dữ liệu máy tính mô phỏng một người dùng trên máy tính.
Bạn có thể xác định loại phụ của Googlebot bằng cách xem tiêu đề của yêu cầu HTTP user-agent
trong yêu cầu. Tuy nhiên, cả hai loại trình thu thập dữ liệu đều có cùng một mã sản phẩm (mã tác nhân người dùng) trong tệp robots.txt và do đó, bạn không thể chọn nhắm đến Googlebot Mobile hay Googlebot Desktop bằng tệp robot.txt.
Đối với hầu hết trang web, Google chủ yếu lập chỉ mục phiên bản nội dung dành cho thiết bị di động. Do đó, phần lớn yêu cầu thu thập dữ liệu của Googlebot sẽ do trình thu thập dữ liệu thiết bị di động thực hiện, trong khi một phần nhỏ còn lại thì sử dụng trên trình thu thập dữ liệu máy tính.
Cách Googlebot truy cập trang web của bạn
Với hầu hết các trang web, trung bình Googlebot sẽ không truy cập trang web của bạn nhiều lần trong vài giây. Tuy nhiên, do độ trễ nên có thể tốc độ truy cập trong những khoảng thời gian ngắn sẽ cao hơn một chút. Nếu trang web của bạn không đáp ứng được các yêu cầu thu thập dữ liệu của Google, thì bạn có thể giảm tốc độ thu thập dữ liệu.
Googlebot có thể thu thập dữ liệu 15 MB đầu tiên của một tệp HTML hoặc tệp dựa trên văn bản được hỗ trợ. Mỗi tài nguyên được tham chiếu trong đoạn mã HTML như CSS và JavaScript được tìm nạp riêng biệt, đồng thời mỗi lần tìm nạp đều có cùng giới hạn kích thước tệp. Sau 15 MB đầu tiên của tệp, Googlebot ngừng thu thập dữ liệu và chỉ gửi 15 MB đầu tiên đó của tệp để lập chỉ mục. Giới hạn kích thước tệp được áp dụng cho dữ liệu chưa nén. Các trình thu thập dữ liệu khác của Google, chẳng hạn như Googlebot Video và Googlebot Image, có thể có các giới hạn khác.
Khi thu thập dữ liệu qua các địa chỉ IP ở Hoa Kỳ, múi giờ của Googlebot là giờ Thái Bình Dương.
Các thuộc tính kỹ thuật khác của Googlebot được mô tả trong phần tổng quan về trình thu thập dữ liệu của Google.
Chặn Googlebot truy cập trang web của bạn
Chủ yếu thì Googlebot sẽ phát hiện URL mới để thu thập dữ liệu qua các đường liên kết được nhúng trong các trang đã được thu thập dữ liệu trước đó. Hầu như không thể giữ bí mật một trang web bằng cách không xuất bản đường liên kết tới trang web đó. Ví dụ: ngay khi ai đó đi theo đường liên kết trên trang web "bí mật" của bạn đến một trang web khác, URL trang web "bí mật" của bạn có thể xuất hiện trong thẻ liên kết giới thiệu và có thể được trang web đó lưu trữ cũng như xuất bản trong nhật ký liên kết giới thiệu.
Bạn có thể lựa chọn một số cách để ngăn Googlebot thu thập dữ liệu nội dung trên trang web của bạn. Hãy nhớ rằng có sự khác biệt giữa hoạt động thu thập dữ liệu và lập chỉ mục; việc chặn Googlebot thu thập dữ liệu trên trang không ngăn URL của trang xuất hiện trong kết quả tìm kiếm:
- Ngăn Googlebot thu thập dữ liệu trên trang? Dùng tệp robots.txt.
-
Không muốn Google lập chỉ mục trang? Dùng
noindex
. - Ngăn cả trình thu thập dữ liệu hoặc người dùng truy cập trang? Dùng phương thức khác, chẳng hạn như bảo vệ bằng mật khẩu.
Việc chặn Googlebot sẽ ảnh hưởng đến Google Tìm kiếm (kể cả Khám phá và tất cả tính năng của Google Tìm kiếm), cũng như các sản phẩm khác như Google Hình ảnh, Google Video và Google News.
Xác minh Googlebot
Trước khi bạn quyết định chặn Googlebot, hãy lưu ý rằng tiêu đề của yêu cầu HTTP user-agent
mà Googlebot sử dụng thường bị các trình thu thập dữ liệu khác giả mạo. Quan trọng là bạn phải xác minh được rằng yêu cầu gặp vấn đề thực sự đến từ Google. Cách tốt nhất để xác minh rằng một yêu cầu thực sự đến từ Googlebot là sử dụng quy trình tra cứu DNS ngược đối với IP nguồn của yêu cầu, hoặc so khớp IP nguồn này với dải IP của Googlebot.