Aturan robots.txt yang berguna
Berikut adalah beberapa aturan robots.txt umum yang berguna:
| Aturan yang berguna | |
|---|---|
| Larang crawling keseluruhan situs |
Perlu diingat bahwa dalam beberapa situasi, URL dari situs masih dapat diindeks, meskipun jika situs belum di-crawl. User-agent: * Disallow: / |
| Larang crawling direktori beserta isinya |
Tambahkan garis miring ke nama direktori untuk melarang crawling keseluruhan direktori. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
| Izinkan akses ke satu crawler |
Hanya User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
| Izinkan akses ke semua kecuali satu crawler |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Larang crawling satu halaman |
Misalnya, larang halaman User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Larang crawling keseluruhan situs kecuali subdirektori |
Crawler hanya dapat mengakses subdirektori User-agent: * Disallow: / Allow: /public/ |
|
Blokir gambar tertentu dari Google Gambar |
Misalnya, larang gambar User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Blokir semua gambar di situs Anda dari Google Gambar |
Google tidak dapat mengindeks gambar dan video tanpa meng-crawl media tersebut. User-agent: Googlebot-Image Disallow: / |
|
Larang crawling file untuk jenis file tertentu |
Misalnya, larang crawling semua file User-agent: Googlebot Disallow: /*.gif$ |
|
Larang crawling keseluruhan situs, tetapi izinkan |
Penerapan ini menyembunyikan halaman Anda dari hasil penelusuran, tetapi
web crawler User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Gunakan karakter pengganti * dan $ untuk mencocokkan URL yang diakhiri dengan
string tertentu
|
Misalnya, larang semua file User-agent: Googlebot Disallow: /*.xls$ |