Các quy tắc hữu ích đối với tệp robots.txt

Sau đây là một số quy tắc phổ biến và hữu ích trong tệp robots.txt:

Quy tắc hữu ích
Không cho phép thu thập thông tin trên toàn bộ trang web

Xin lưu ý rằng trong một số trường hợp, Google vẫn có thể lập chỉ mục các URL thuộc trang web mặc dù chưa thu thập thông tin những URL đó.

User-agent: *
Disallow: /
Không cho phép thu thập thông tin một thư mục và nội dung trong đó

Thêm dấu gạch chéo lên vào tên thư mục để không cho phép thu thập thông tin toàn bộ thư mục.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
Cho phép truy cập vào một trình thu thập thông tin

Chỉ googlebot-news mới có thể thu thập thông tin trên toàn bộ trang web.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Cho phép tất cả các trình thu thập thông tin truy cập nhưng ngoại trừ một trình thu thập thông tin

Unnecessarybot không được thu thập thông tin trên trang web, mọi bot khác có thể thu thập thông tin trên trang web.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Không cho phép thu thập thông tin trên một trang của trang web

Ví dụ: không cho phép trang useless_file.html nằm tại https://example.com/useless_file.htmlother_useless_file.html trong thư mục junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Không cho phép thu thập thông tin trên toàn bộ trang web, ngoại trừ một thư mục con

Trình thu thập thông tin chỉ có thể truy cập vào thư mục con public.

User-agent: *
Disallow: /
Allow: /public/

Chặn một hình ảnh cụ thể khỏi Google Hình ảnh

Ví dụ: không cho phép hình ảnh dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Chặn mọi hình ảnh trên trang web khỏi Google Hình ảnh

Google không thể lập chỉ mục hình ảnh và video mà không thu thập thông tin hình ảnh và video đó.

User-agent: Googlebot-Image
Disallow: /

Không cho phép thu thập thông tin trong các tệp thuộc một loại tệp cụ thể

Ví dụ: không cho phép thu thập thông tin trong mọi tệp .gif.

User-agent: Googlebot
Disallow: /*.gif$

Không cho phép thu thập thông tin trên toàn bộ trang web, nhưng cho phép Mediapartners-Google

Cách thức triển khai này ẩn các trang của bạn khỏi kết quả tìm kiếm, nhưng trình thu thập thông tin web Mediapartners-Google vẫn có thể phân tích những trang đó để quyết định xem nên hiển thị quảng cáo nào cho khách truy cập trang web của bạn.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Sử dụng ký tự đại diện *$ để khớp với những URL kết thúc bằng một chuỗi cụ thể

Ví dụ: không cho phép mọi tệp .xls.

User-agent: Googlebot
Disallow: /*.xls$