Thứ Sáu, ngày 14 tháng 3 năm 2025
Nhờ có tệp robots.txt, các chủ sở hữu trang web có thể kiểm soát quyền truy cập của các trình thu thập thông tin vào từng phần của trang web một cách đơn giản.
Để giúp các chủ sở hữu trang web thể hiện rõ hơn về cách thức các công cụ tìm kiếm và trình thu thập thông tin web có thể sử dụng các trang của họ, cộng đồng tham gia phát triển các tiêu chuẩn web đã tạo ra thẻ meta
robots vào năm 1996, chỉ vài tháng sau khi thẻ meta
được đề xuất cho HTML (và cũng là trước khi Google được thành lập). Sau đó, chúng tôi đã thêm tiêu đề phản hồi HTTP X-Robots-Tag
.
Các hướng dẫn này được gửi cùng với một URL, vì thế nên trình thu thập thông tin chỉ có thể xem xét các hướng dẫn đó nếu không bị chặn thu thập thông tin URL bởi tệp robots.txt. Các tệp này cùng nhau tạo thành Giao thức loại trừ cho robot (REP).
Điểm qua về thẻ meta
robots
Thẻ (hoặc phần tử) meta là một cách thức để đưa siêu dữ liệu mà máy có thể đọc vào.
Thẻ meta
robots là một "loại" thẻ meta
và áp dụng cho trình thu thập thông tin, trong đó có cả trình thu thập thông tin của công cụ tìm kiếm. Các thẻ này cho biết: Nội dung có bị chặn lập chỉ mục không? Có nên không đi theo các đường liên kết trên trang để thu thập thông tin không? Bạn có thể dễ dàng cung cấp thông tin này trên trang bằng thẻ meta
robots.
Giao thức loại trừ cho robot đối với mọi URL
Để cung cấp cùng một mức độ kiểm soát cho nội dung không phải HTML, tiêu đề phản hồi HTTP "X-Robots-Tag
" đã được tạo ra. Các tiêu đề HTTP này cũng được xem là một phần của REP.
Tiêu đề này hỗ trợ các giá trị giống như thẻ meta
robots và có thể được thêm vào mọi nội dung được phân phát trực tuyến.
Ngoài HTML, Google còn hỗ trợ tiêu đề này đối với các nội dung như tệp PDF, tệp tài liệu và thậm chí là hình ảnh.
Hầu hết định dạng tệp này không có cơ chế tương đương với thẻ meta
, vì vậy, tiêu đề phản hồi HTTP sẽ rất hữu ích.
Làm quen với thẻ và tiêu đề meta
robots
Cú pháp đơn giản và có thể mở rộng. Các quy tắc này thường được triển khai bởi nhà phát triển web hoặc thông qua Hệ thống quản lý nội dung (CMS) (tại đây thì chủ sở hữu trang web có thể chọn các lựa chọn ưu tiên của họ thông qua hộp đánh dấu hoặc trình đơn thả xuống). Các quy tắc này cho phép kiểm soát riêng biệt đối với từng trình thu thập thông tin (ví dụ như Googlebot), hoặc thông qua việc bỏ qua một cái tên cụ thể, kiểm soát tất cả trình thu thập thông tin hỗ trợ những giá trị này.
Ví dụ: các quy tắc sau đây yêu cầu tất cả trình thu thập thông tin không sử dụng trang được liên kết để lập chỉ mục:
- Ở dạng thẻ
meta
HTML, trên trang web:<meta name="robots" content="noindex">
Việc xem các thẻ hoặc tiêu đề phản hồi
meta
hiện phức tạp hơn một chút và yêu cầu kiểm tra trực tiếp nội dung hoặc tiêu đề trang. Bạn có thể xem các thẻ HTMLmeta
trên mọi trang bằng cách xem nguồn trang trong trình duyệt hoặc sử dụng công cụ dành cho nhà phát triển của Chrome để kiểm tra trang.
- Ở dạng tiêu đề phản hồi HTTP:
X-Robots-Tag: noindex
Bạn có thể kiểm tra tiêu đề phản hồi HTTP cho từng URL bằng công cụ dành cho nhà phát triển của Chrome, trong Bảng điều khiển mạng.
Một số ví dụ khác về những việc bạn có thể thực hiện:
Không hiện đoạn trích đối với trang hoặc tài liệu này. |
Trong tiêu đề HTTP:
X-Robots-Tag: nosnippet <meta name="robots" content="nosnippet"> |
Không lập chỉ mục trang này trong Các cơ chế kiểm soát này chỉ định rõ một trình thu thập thông tin. |
X-Robots-Tag: examplebot-news: noindex <meta name="examplebot-news" content="noindex"> |
Xin lưu ý rằng các lệnh hợp lệ, có mức độ hạn chế cao nhất sẽ được áp dụng, vì vậy, đối với |
X-Robots-Tag: examplebot: nosnippet X-Robots-Tag: nofollow <meta name="examplebot" content="nosnippet"> <meta name="robots" content="nofollow"> |
Chọn cơ chế REP
Làm cách nào để chọn một trong các cơ chế này? Về cơ bản, tệp robots.txt và các cơ chế kiểm soát ở cấp trang tương tự nhau, nhưng không hoàn toàn có thể thay thế được cho nhau. Đôi khi, bạn chỉ có thể thực hiện một thao tác cụ thể bằng một trong các cơ chế, ví dụ: nếu muốn dừng hoạt động thu thập thông tin (chẳng hạn như đối với các trang kết quả tìm kiếm vô hạn thì bạn có thể thực hiện bằng tệp robots.txt), nếu cần kiểm soát máy chủ FTP (bạn có thể thực hiện bằng tệp robots.txt), hoặc nếu bạn không muốn hiện đoạn trích đối với một trang (chỉ thực hiện được thông qua các phần tử cấp trang). Nếu không cần phân biệt rạch ròi giữa việc chặn thu thập thông tin và chặn lập chỉ mục, bạn có thể sử dụng tệp robots.txt để kiểm soát rộng hơn (chặn các phần lớn trên trang web) và sử dụng các cơ chế kiểm soát ở cấp trang để chặn từng trang.
Giao thức loại trừ cho robot – một tiêu chuẩn mạnh mẽ và linh hoạt
Tất cả cơ chế điều khiển này đều có thể mở rộng theo bản chất. Trong nhiều năm qua, các chủ sở hữu trang web, nhà điều hành trình thu thập thông tin và công cụ tìm kiếm đã cùng nhau hợp tác để phát triển các tệp này.
Ban đầu, chỉ có một số giá trị, trong đó có noindex
và nofollow
, sau đó các giá trị khác như nosnippet
, noarchive
và max-snippet:
được áp dụng.
Đôi khi, một số giá trị không còn được dùng nữa, như trường hợp của noodp
, sử dụng các đoạn trích từ DMOZ/Dự án thư mục mở trước khi thư mục này bị đóng.
Google hỗ trợ rất nhiều giá trị cho chủ sở hữu trang web và các nhà điều hành trình thu thập thông tin lớn khác cũng được hỗ trợ với số lượng tương tự.
Trong khuôn khổ REP, chủ sở hữu trang web có quyền kiểm soát nội dung được thu thập thông tin và cách thức mà dữ liệu được thu thập thông tin sẽ được sử dụng trong các công cụ tìm kiếm. Họ có thể thực hiện điều này ở cấp độ diện rộng đối với các phần lớn hơn của trang web hoặc ở cấp độ rất chi tiết đối với từng trang, thậm chí đối với hình ảnh trong các trang. Các cơ chế kiểm soát này được nhiều người biết đến, có trong tất cả hệ thống quản lý nội dung phổ biến, được các nhà khai thác thương mại hỗ trợ rộng rãi và được sử dụng trên hàng tỷ máy chủ lưu trữ trên Internet hiện nay.