Aturan robots.txt yang berguna

Berikut adalah beberapa aturan robots.txt umum yang berguna:

Aturan yang berguna
Larang crawling keseluruhan situs	Perlu diingat bahwa dalam beberapa situasi, URL dari situs masih dapat diindeks, meskipun jika situs belum di-crawl. Catatan: Aturan ini tidak cocok dengan berbagai crawler AdsBot, yang harus diberi nama secara eksplisit. User-agent: * Disallow: /
Izinkan crawling seluruh situs (dengan aturan `Disallow` kosong)	Aturan ini secara eksplisit mengizinkan semua crawler mengakses seluruh situs. Secara fungsional, hal ini setara dengan tidak memiliki file robots.txt sama sekali, atau menggunakan aturan `Allow: /`. User-agent: * Disallow:
Larang crawling direktori beserta isinya	Tambahkan garis miring ke nama direktori untuk melarang crawling keseluruhan direktori. Perhatian: Ingat, jangan gunakan robots.txt untuk memblokir akses ke konten pribadi, tetapi gunakan autentikasi yang tepat. URL yang dilarang oleh file robots.txt masih dapat diindeks tanpa di-crawl, dan file robots.txt dapat dilihat oleh siapa saja yang berpotensi mengungkap lokasi konten pribadi Anda. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
Larang crawling satu halaman	Misalnya, larang halaman `useless_file.html` yang berada di `https://example.com/useless_file.html`, dan `other_useless_file.html` yang berada di direktori `junk`. User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
Larang crawling keseluruhan situs kecuali subdirektori	Crawler hanya dapat mengakses subdirektori `public`. User-agent: * Disallow: / Allow: /public/
Izinkan akses ke satu crawler	Hanya `Googlebot-News` yang boleh meng-crawl seluruh situs. User-agent: Googlebot-News Allow: / User-agent: * Disallow: /
Izinkan akses ke semua kecuali satu crawler	`Unnecessarybot` tidak boleh meng-crawl situs, tetapi bot lain diperbolehkan. User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
Larang crawling keseluruhan situs, tetapi izinkan `Storebot-Google`	Penerapan ini menyembunyikan halaman Anda dari hasil Google Penelusuran, tetapi web crawler `Storebot-Google` tetap dapat menganalisisnya untuk menampilkan produk Anda di Google Shopping. User-agent: * Disallow: / User-agent: Storebot-Google Allow: /
Blokir semua gambar di situs Anda dari Google (termasuk tempat gambar ditampilkan di Google, termasuk Google Gambar dan Discover)	Google tidak dapat mengindeks gambar dan video tanpa meng-crawl media tersebut. User-agent: Googlebot-Image Disallow: /
Blokir gambar tertentu dari Google Gambar	Misalnya, larang gambar `dogs.jpg`. User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Larang crawling file untuk jenis file tertentu	Misalnya, larang crawling semua file `.gif`. User-agent: Googlebot Disallow: /*.gif$
Gunakan karakter pengganti `*` dan `$` untuk mencocokkan URL yang diakhiri dengan string tertentu	Misalnya, larang semua file `.xls`: User-agent: Googlebot Disallow: /.xls$ Karakter pengganti `$` menentukan akhir URL. Artinya, setiap URL yang memiliki karakter tambahan setelah pola tersebut (seperti parameter URL) tidak akan cocok. Misalnya, `https://example.com/cats.xls?personality=loki` tidak akan* diblokir oleh aturan `/*.xls$`.
Gabungkan beberapa agen pengguna dalam satu grup	Menggabungkan aturan untuk beberapa crawler ke dalam satu grup membuat file lebih pendek dan lebih mudah dikelola, karena semua aturan dalam grup berlaku untuk setiap agen pengguna yang tercantum. Tindakan ini sama dengan mencantumkan agen pengguna dua kali dengan aturan masing-masing. User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: /