Aturan robots.txt yang berguna

Berikut adalah beberapa aturan robots.txt umum yang berguna:

Aturan yang berguna
Larang crawling keseluruhan situs

Perlu diingat bahwa dalam beberapa situasi, URL dari situs masih dapat diindeks, meskipun jika situs belum di-crawl.

User-agent: *
Disallow: /
Larang crawling direktori beserta isinya

Tambahkan garis miring ke nama direktori untuk melarang crawling keseluruhan direktori.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
Izinkan akses ke satu crawler

Hanya googlebot-news yang boleh meng-crawl seluruh situs.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Izinkan akses ke semua kecuali satu crawler

Unnecessarybot tidak boleh meng-crawl situs, tetapi bot lain diperbolehkan.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Larang crawling satu halaman

Misalnya, larang halaman useless_file.html yang berada di https://example.com/useless_file.html, dan other_useless_file.html yang berada di direktori junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Larang crawling keseluruhan situs kecuali subdirektori

Crawler hanya dapat mengakses subdirektori public.

User-agent: *
Disallow: /
Allow: /public/

Blokir gambar tertentu dari Google Gambar

Misalnya, larang gambar dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Blokir semua gambar di situs Anda dari Google Gambar

Google tidak dapat mengindeks gambar dan video tanpa meng-crawl media tersebut.

User-agent: Googlebot-Image
Disallow: /

Larang crawling file untuk jenis file tertentu

Misalnya, larang crawling semua file .gif.

User-agent: Googlebot
Disallow: /*.gif$

Larang crawling keseluruhan situs, tetapi izinkan Mediapartners-Google

Penerapan ini menyembunyikan halaman Anda dari hasil penelusuran, tetapi web crawler Mediapartners-Google tetap dapat menganalisis halaman untuk menentukan iklan yang akan ditampilkan kepada pengunjung di situs Anda.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Gunakan karakter pengganti * dan $ untuk mencocokkan URL yang diakhiri dengan string tertentu

Misalnya, larang semua file .xls.

User-agent: Googlebot
Disallow: /*.xls$