Các quy tắc hữu ích đối với tệp robots.txt
Sau đây là một số quy tắc phổ biến và hữu ích trong tệp robots.txt:
| Quy tắc hữu ích | |
|---|---|
| Không cho phép thu thập thông tin trên toàn bộ trang web |
Xin lưu ý rằng trong một số trường hợp, Google vẫn có thể lập chỉ mục các URL thuộc trang web mặc dù chưa thu thập thông tin những URL đó. User-agent: * Disallow: / |
| Không cho phép thu thập thông tin một thư mục và nội dung trong đó |
Thêm dấu gạch chéo lên vào tên thư mục để không cho phép thu thập thông tin toàn bộ thư mục. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
| Cho phép truy cập vào một trình thu thập thông tin |
Chỉ User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
| Cho phép tất cả các trình thu thập thông tin truy cập nhưng ngoại trừ một trình thu thập thông tin |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Không cho phép thu thập thông tin trên một trang của trang web |
Ví dụ: không cho phép trang User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Không cho phép thu thập thông tin trên toàn bộ trang web, ngoại trừ một thư mục con |
Trình thu thập thông tin chỉ có thể truy cập vào thư mục con User-agent: * Disallow: / Allow: /public/ |
|
Chặn một hình ảnh cụ thể khỏi Google Hình ảnh |
Ví dụ: không cho phép hình ảnh User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Chặn mọi hình ảnh trên trang web khỏi Google Hình ảnh |
Google không thể lập chỉ mục hình ảnh và video mà không thu thập thông tin hình ảnh và video đó. User-agent: Googlebot-Image Disallow: / |
|
Không cho phép thu thập thông tin trong các tệp thuộc một loại tệp cụ thể |
Ví dụ: không cho phép thu thập thông tin trong mọi tệp User-agent: Googlebot Disallow: /*.gif$ |
|
Không cho phép thu thập thông tin trên toàn bộ trang web, nhưng cho phép |
Cách thức triển khai này ẩn các trang của bạn khỏi kết quả tìm kiếm, nhưng trình thu thập thông tin web User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Sử dụng ký tự đại diện * và $ để khớp với những URL kết thúc bằng một chuỗi cụ thể
|
Ví dụ: không cho phép mọi tệp User-agent: Googlebot Disallow: /*.xls$ |