Dùng `noindex` để chặn hoạt động lập chỉ mục của Tìm kiếm

noindex là một bộ quy tắc có tiêu đề phản hồi HTTP hoặc thẻ <meta> dùng để ngăn hoạt động lập chỉ mục nội dung đối với các công cụ tìm kiếm có hỗ trợ quy tắc noindex, chẳng hạn như Google. Trong lần thu thập dữ liệu trên trang đó, nếu kết xuất được thẻ hoặc tiêu đề nêu trên, Google sẽ loại bỏ hẳn trang đó khỏi kết quả của Google Tìm kiếm, bất kể các trang web khác có liên kết đến trang đó hay không.

Lưu ý quan trọng: Để quy tắc noindex có hiệu lực, không được dùng tệp robots.txt để chặn trang hay tài nguyên, nói cách khác là phải cho phép trình thu thập dữ liệu truy cập trang đó. Nếu bị chặn bởi một tệp robots.txt hoặc nếu không thể truy cập trang, thì trình thu thập dữ liệu sẽ không bao giờ thấy quy tắc noindex và trang đó vẫn có thể xuất hiện trong kết quả tìm kiếm, ví dụ như khi các trang web khác liên kết đến trang đó.

noindex sẽ hữu dụng nếu bạn không có quyền truy cập gốc vào máy chủ của mình, vì thẻ này cho phép bạn kiểm soát quyền truy cập vào trang web trên cơ sở từng trang.

Triển khai `noindex`

Có hai cách triển khai noindex: dưới dạng thẻ <meta> và dưới dạng tiêu đề phản hồi HTTP. Hai cách này có hiệu quả như nhau; hãy chọn phương thức thuận tiện hơn cho trang web của bạn và phù hợp với loại nội dung. Google không hỗ trợ việc chỉ định quy tắc noindex trong tệp robots.txt.

Bạn cũng có thể kết hợp quy tắc noindex với những quy tắc khác kiểm soát hoạt động lập chỉ mục. Ví dụ: bạn có thể kết hợp gợi ý nofollow với một quy tắc noindex: <meta name="robots" content="noindex, nofollow" />.

Thẻ `<meta>`

Để ngăn tất cả công cụ tìm kiếm hỗ trợ quy tắc noindex lập chỉ mục một trang trên trang web của bạn, hãy đặt thẻ <meta> sau đây vào phần <head> trên trang của bạn:

<meta name="robots" content="noindex">

Cách chặn riêng trình thu thập dữ liệu web của Google khỏi lập chỉ mục một trang:

<meta name="googlebot" content="noindex">

Xin lưu ý rằng một số công cụ tìm kiếm có thể diễn giải quy tắc noindex theo cách khác. Vì thế, có thể trang của bạn vẫn xuất hiện trong kết quả tìm kiếm của các công cụ tìm kiếm khác.

Đọc thêm về thẻ <meta> noindex.

Tiêu đề phản hồi HTTP

Thay vì dùng thẻ <meta>, bạn có thể trả về tiêu đề HTTP X-Robots-Tag với giá trị noindex hoặc none trong phản hồi. Bạn có thể dùng một tiêu đề phản hồi cho tài nguyên không phải HTML, chẳng hạn như tệp PDF, tệp video và tệp hình ảnh. Sau đây là ví dụ về một phản hồi HTTP chứa X-Robots-Tag hướng dẫn các công cụ tìm kiếm không lập chỉ mục một trang:

HTTP/1.1 200 OK
(...)
X-Robots-Tag: noindex
(...)

Đọc thêm về tiêu đề phản hồi noindex.

Khắc phục vấn đề về `noindex`

Chúng tôi phải thu thập dữ liệu trên trang của bạn thì mới thấy được thẻ <meta> và tiêu đề HTTP. Nếu một trang vẫn xuất hiện trong kết quả tìm kiếm, thì có thể là do chúng tôi chưa thu thập dữ liệu trên trang đó kể từ khi bạn thêm quy tắc noindex. Tuỳ thuộc vào mức độ quan trọng của trang trên Internet, có thể mất vài tháng thì Googlebot mới truy cập lại một trang. Bạn có thể dùng Công cụ kiểm tra URL để yêu cầu Google thu thập lại dữ liệu trên trang của mình.

Nếu bạn muốn nhanh chóng xoá một trang trên trang web của mình khỏi kết quả tìm kiếm trên Google, hãy xem tài liệu về việc xoá.

Một lý do khác có thể là tệp robots.txt đang chặn khiến trình thu thập dữ liệu web của Google không truy cập được URL, vì thế không thấy được thẻ đó. Để bỏ chặn trang khỏi Google, bạn phải chỉnh sửa tệp robots.txt.

Cuối cùng, hãy đảm bảo Googlebot có thể xem được quy tắc noindex. Để kiểm tra xem cách triển khai noindex của bạn đã chính xác hay chưa, hãy dùng Công cụ kiểm tra URL để xem HTML mà Googlebot nhận được trong quá trình thu thập dữ liệu trên trang. Bạn cũng có thể dùng báo cáo Lập chỉ mục trang trong Search Console để theo dõi những trang trên trang web của bạn mà Googlebot trích xuất được quy tắc noindex.

Dùng noindex để chặn hoạt động lập chỉ mục của Tìm kiếm

Triển khai noindex

Thẻ <meta>

Tiêu đề phản hồi HTTP

Khắc phục vấn đề về noindex

Dùng `noindex` để chặn hoạt động lập chỉ mục của Tìm kiếm

Triển khai `noindex`

Thẻ `<meta>`

Khắc phục vấn đề về `noindex`