Membuat file robots.txt

Memulai

File robots.txt ada pada root situs Anda. Jadi, untuk situs www.example.com, file robots.txt berada di www.example.com/robots.txt. robots.txt adalah file teks biasa yang mengikuti Standar Pengecualian Robot. File robots.txt terdiri dari satu aturan atau lebih. Setiap aturan memblokir (atau mengizinkan) akses crawler tertentu ke jalur file yang telah ditentukan di situs tersebut.

Berikut adalah file robots.txt sederhana dengan dua aturan beserta penjelasannya:

# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Group 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

Penjelasan:

  1. Agen pengguna yang bernama "Googlebot" tidak diizinkan untuk meng-crawl direktori http://example.com/nogooglebot/ atau subdirektori mana pun.
  2. Semua agen pengguna lainnya diizinkan untuk meng-crawl seluruh situs. Hal ini dapat dihilangkan dan hasilnya akan sama, karena perilaku defaultnya adalah agen pengguna diizinkan untuk meng-crawl seluruh situs.
  3. File peta situs pada situs terletak di http://www.example.com/sitemap.xml.

Lihat bagian sintaksis untuk contoh lainnya.

Panduan robots.txt dasar

Berikut ini beberapa panduan dasar untuk file robots.txt. Sebaiknya baca sintaksis lengkap file robots.txt karena sintaksis robots.txt memiliki beberapa perilaku yang hampir tidak terlihat yang harus Anda pahami.

Format dan lokasi

Anda dapat menggunakan hampir semua editor teks untuk membuat file robots.txt. Editor teks seharusnya dapat membuat file teks UTF-8 standar. Jangan gunakan pengolah kata karena sering kali menyimpan file dalam format eksklusif dan dapat menambahkan karakter yang tidak diharapkan, seperti tanda petik, yang dapat menyebabkan masalah bagi crawler.

Aturan format dan lokasi:

  • File harus diberi nama robots.txt.
  • Situs hanya boleh memiliki satu file robots.txt.
  • File robots.txt harus berada di root host situs tempat file tersebut akan diberlakukan. Misalnya, untuk mengontrol crawling di semua URL pada http://www.example.com/, file robots.txt harus berada di http://www.example.com/robots.txt. File tersebut tidak boleh ditempatkan di subdirektori (misalnya di http://example.com/pages/robots.txt). Jika Anda tidak yakin dengan cara mengakses root situs, atau memerlukan izin untuk melakukannya, hubungi penyedia layanan hosting web Anda. Jika Anda tidak dapat mengakses root situs, gunakan metode pemblokiran alternatif seperti tag meta.
  • File robots.txt dapat diterapkan ke subdomain (misalnya http://website.example.com/robots.txt) atau port non-standar (misalnya http://example.com:8181/robots.txt).

Sintaksis

  • File robots.txt harus berupa file teks berenkode UTF-8 (yang mencakup ASCII). Himpunan karakter lain tidak boleh digunakan.
  • File robots.txt terdiri dari satu atau beberapa grup.
  • Setiap grup terdiri dari beberapa aturan atau perintah (petunjuk), satu perintah per baris.
  • Grup memberikan informasi berikut:
    • Untuk siapa grup berlaku (agen pengguna)
    • Direktori atau file mana yang dapat diakses oleh agen
    • Direktori atau file mana yang tidak dapat diakses oleh agen
  • Grup diproses dari atas ke bawah, dan sebuah agen pengguna hanya boleh cocok dengan satu kumpulan aturan, yaitu aturan pertama dan paling spesifik yang cocok dengan agen pengguna tertentu.
  • Asumsi defaultnya adalah agen pengguna dapat meng-crawl semua halaman atau direktori yang tidak diblokir oleh aturan Disallow:.
  • Aturan bersifat peka huruf besar/kecil. Misalnya, Disallow: /file.asp berlaku untuk http://www.example.com/file.asp, tetapi tidak untuk http://www.example.com/FILE.asp.
  • Komentar adalah konten apa pun setelah tanda #.

Perintah berikut digunakan dalam file robots.txt:

  • User-agent: [Wajib, satu atau beberapa per grup] Perintah ini menentukan nama klien otomatis yang dikenal sebagai crawler mesin telusur tempat aturan diterapkan. Ini adalah baris pertama untuk grup aturan apa pun. Nama agen pengguna Google tercantum dalam Daftar agen pengguna Google. Penggunaan tanda bintang (*) seperti dalam contoh di bawah ini akan sesuai dengan semua crawler kecuali berbagai crawler AdsBot, yang harus dinamai secara eksplisit. Contoh:
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
    
    # Example 3: Block all but AdsBot crawlers
    User-agent: *
    Disallow: /
  • Disallow: [Setidaknya satu atau beberapa entri Disallow atau Allow per aturan] Direktori atau halaman, yang terkait dengan domain root, yang tidak ingin di-crawl agen pengguna. Jika aturan mengacu pada halaman, nama tersebut harus berupa nama halaman lengkap seperti yang ditampilkan di browser; jika merujuk ke direktori, seharusnya diakhiri dengan tanda /.
  • Allow: [Minimal satu atau beberapa entri Disallow atau Allow per aturan] Direktori atau halaman, yang terkait dengan domain root, yang mungkin di-crawl oleh agen pengguna sebagaimana disebutkan di artikel bantuan ini. Ini digunakan untuk mengganti perintah Disallow guna mengizinkan crawling subdirektori atau halaman dalam direktori yang tidak diizinkan. Untuk satu halaman, nama halaman lengkap seperti yang ditampilkan di browser harus ditentukan. Untuk direktori, aturan harus diakhiri dengan tanda /.
  • Sitemap: [Opsional, nol atau lebih per file] Lokasi peta situs untuk situs ini. URL peta situs harus berupa URL yang sepenuhnya memenuhi syarat; Google tidak menganggap atau memeriksa alternatif http/https/www.non-www. Peta situs adalah cara yang tepat untuk menunjukkan konten mana yang boleh di-crawl oleh Google, bukan konten mana yang dapat atau tidak dapat di-crawl. Pelajari peta situs lebih lanjut. Contoh:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: http://www.example.com/sitemap.xml

Semua perintah, kecuali sitemap, mendukung karakter pengganti * untuk awalan jalur akhiran, atau string secara keseluruhan.

Baris yang tidak cocok dengan perintah ini akan diabaikan.

Contoh file lainnya

File robots.txt terdiri dari satu atau beberapa grup, yang masing-masing diawali dengan baris User-agent yang menentukan target dari grup tersebut. Berikut adalah sebuah file dengan dua grup; komentar inline menjelaskan setiap grup:

# Block googlebot from example.com/directory1/... and example.com/directory2/...
# but allow access to directory2/subdirectory1/...
# All other directories on the site are allowed by default.
User-agent: googlebot
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/subdirectory1/

# Block the entire site from anothercrawler.
User-agent: anothercrawler
Disallow: /

Sintaksis robots.txt lengkap

Anda dapat menemukan sintaksis robots.txt lengkap di sini. Harap baca seluruh dokumentasi tersebut karena ada beberapa hal rumit dan penting untuk dipelajari pada sintaksis robots.txt.

Aturan robots.txt yang berguna

Berikut adalah beberapa aturan robots.txt umum yang berguna:

Aturan Contoh
Larang crawling keseluruhan situs. Perlu diingat bahwa dalam beberapa situasi, URL dari situs masih dapat diindeks, meskipun belum di-crawl.

User-agent: *
Disallow: /
Larang crawling direktori dan kontennya dengan memberi garis miring ke depan setelah nama direktori. Perlu diingat bahwa Anda seharusnya tidak menggunakan robots.txt untuk memblokir akses ke konten pribadi: sebagai gantinya, gunakan autentikasi yang tepat. URL yang dilarang oleh file robots.txt masih dapat diindeks tanpa di-crawl, dan file robots.txt dapat dilihat oleh siapa saja yang berpotensi mengungkap lokasi konten pribadi Anda.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Izinkan akses ke sebuah crawler

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Izinkan akses ke semua kecuali sebuah crawler

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Larang crawl pada sebuah halaman dengan mencantumkan halaman setelah garis miring:


User-agent: *
Disallow: /private_file.html

Blokir gambar tertentu dari Google Gambar:


User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Blokir semua gambar di situs Anda dari Google Gambar:


User-agent: Googlebot-Image
Disallow: /

Larang crawling jenis file tertentu (misalnya, .gif):


User-agent: Googlebot
Disallow: /*.gif$

Larang crawling keseluruhan situs, tetapi tampilkan iklan AdSense di halaman tersebut, dan larang semua web crawler selain Mediapartners-Google. Penerapan ini menyembunyikan halaman Anda dari hasil penelusuran, namun crawler web Mediapartners-Google tetap dapat menganalisisnya untuk menentukan iklan yang akan ditampilkan kepada pengunjung di situs Anda.


User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Untuk mencocokkan URL yang diakhiri dengan string tertentu; gunakan $. Misalnya, kode contoh akan memblokir URL apa pun yang diakhiri dengan .xls:

User-agent: Googlebot
Disallow: /*.xls$