Cara menulis dan mengirimkan file robots.txt

Anda dapat mengontrol file mana yang dapat diakses crawler yang meng-crawl situs Anda dengan file robots.txt.

File robots.txt ada di root situs Anda. Jadi, untuk situs www.example.com, file robots.txt berada di www.example.com/robots.txt. robots.txt adalah file teks biasa yang mengikuti Standar Pengecualian Robot. File robots.txt terdiri dari satu aturan atau lebih. Setiap aturan memblokir atau mengizinkan akses untuk semua crawler atau crawler tertentu ke jalur file yang ditentukan di domain atau subdomain tempat file robots.txt dihosting. Kecuali jika Anda menentukan sebaliknya di file robots.txt Anda, semua file secara implisit diizinkan untuk di-crawl.

Berikut adalah file robots.txt sederhana dengan dua aturan:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: https://www.example.com/sitemap.xml

Berikut maksud dari file robots.txt tersebut:

  1. Agen pengguna yang bernama Googlebot tidak diizinkan meng-crawl URL apa pun yang diawali dengan https://example.com/nogooglebot/.
  2. Semua agen pengguna lainnya diizinkan untuk meng-crawl seluruh situs. Hal ini dapat dihilangkan dan hasilnya akan sama, karena perilaku default-nya adalah agen pengguna diizinkan meng-crawl seluruh situs.
  3. File peta situs pada situs terletak di https://www.example.com/sitemap.xml.

Lihat bagian sintaksis untuk contoh lainnya.

Panduan dasar membuat file robots.txt

Ada empat langkah yang perlu dijalani dalam membuat file robots.txt yang dapat diakses secara umum dan bermanfaat:

  1. Buat file yang bernama robots.txt.
  2. Tambahkan aturan ke file robots.txt.
  3. Upload file robots.txt ke root situs Anda.
  4. Uji file robots.txt.

Membuat file robots.txt

Anda dapat menggunakan hampir semua editor teks untuk membuat file robots.txt. Misalnya, Notepad, TextEdit, vi, dan emacs dapat membuat file robots.txt yang valid. Jangan gunakan pengolah kata karena program semacam ini sering kali menyimpan file dalam format eksklusif dan dapat menambahkan karakter yang tidak diharapkan, seperti tanda petik, yang dapat menyebabkan masalah bagi crawler. Pastikan untuk menyimpan file dengan encoding UTF-8 jika diminta selama dialog menyimpan file.

Aturan format dan lokasi:

  • File harus diberi nama robots.txt.
  • Situs hanya boleh memiliki satu file robots.txt.
  • File robots.txt harus berada di root host situs tempat file tersebut akan diberlakukan. Misalnya, untuk mengontrol crawling di semua URL pada https://www.example.com/, file robots.txt harus berada di https://www.example.com/robots.txt. File tersebut tidak boleh ditempatkan di subdirektori (misalnya di https://example.com/pages/robots.txt). Jika Anda tidak yakin dengan cara mengakses root situs, atau memerlukan izin untuk melakukannya, hubungi penyedia layanan hosting web Anda. Jika Anda tidak dapat mengakses root situs, gunakan metode pemblokiran alternatif seperti tag meta.
  • File robots.txt dapat diposting di subdomain (misalnya https://site.example.com/robots.txt) atau di port non-standar (misalnya https://example.com:8181/robots.txt).
  • File robots.txt hanya berlaku untuk jalur dalam protokol, host, dan port tempat file diposting. Artinya, aturan di https://example.com/robots.txt hanya berlaku untuk file di https://example.com/, bukan untuk subdomain seperti https://m.example.com/, atau protokol alternatif seperti http://example.com/.
  • File robots.txt harus berupa file teks berenkode UTF-8 (yang mencakup ASCII). Google dapat mengabaikan karakter yang bukan bagian dari rentang UTF-8, yang berpotensi membuat aturan robots.txt tidak valid.

Cara menulis aturan robots.txt

Aturan adalah petunjuk yang menginformasikan bagian situs mana saja yang dapat di-crawl oleh crawler. Ikuti panduan berikut saat menambahkan aturan ke file robots.txt:

  • File robots.txt terdiri dari satu atau beberapa grup (kumpulan aturan).
  • Setiap grup terdiri dari beberapa aturan (juga dikenal sebagai perintah), satu aturan per baris. Setiap grup diawali dengan baris User-agent yang menentukan target grup.
  • Grup memberikan informasi berikut:
    • Untuk siapa grup berlaku (agen pengguna).
    • Direktori atau file mana yang dapat diakses oleh agen.
    • Direktori atau file mana yang tidak dapat diakses oleh agen.
  • Crawler memproses grup dari atas ke bawah. Satu agen pengguna hanya boleh cocok dengan satu kumpulan aturan, yaitu grup yang pertama dan paling spesifik yang cocok dengan agen pengguna tertentu. Jika ada beberapa grup untuk agen pengguna yang sama, grup tersebut akan digabungkan menjadi satu grup sebelum pemrosesan.
  • Asumsi default-nya adalah agen pengguna dapat meng-crawl semua halaman atau direktori yang tidak diblokir oleh aturan disallow.
  • Aturan peka huruf besar/kecil. Misalnya, disallow: /file.asp berlaku untuk https://www.example.com/file.asp, tetapi tidak untuk https://www.example.com/FILE.asp.
  • Karakter # menandai awal dari komentar. Komentar diabaikan selama pemrosesan.

Crawler Google mendukung aturan berikut di file robots.txt:

  • user-agent: [Wajib, satu atau beberapa per grup] Aturan ini menentukan nama klien otomatis yang dikenal sebagai crawler mesin telusur menjadi sasaran penerapan aturan. Ini adalah baris pertama untuk grup aturan apa pun. Nama agen pengguna Google tercantum dalam daftar agen pengguna Google. Penggunaan tanda bintang (*) sesuai dengan semua crawler kecuali dengan berbagai crawler AdsBot, yang harus dinamai secara eksplisit. Contoh:
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
    
    # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly)
    User-agent: *
    Disallow: /
  • disallow: [Minimal satu atau beberapa entri disallow atau allow per aturan] Direktori atau halaman, yang terkait dengan domain root, yang tidak boleh di-crawl oleh agen pengguna. Jika aturan mengacu pada halaman, nama tersebut harus berupa nama halaman lengkap seperti yang ditampilkan di browser. Nama harus diawali dengan tanda / dan jika mengacu pada direktori, nama harus diakhiri dengan tanda /.
  • allow: [Minimal satu atau beberapa entri disallow atau allow per aturan] Direktori atau halaman, yang terkait dengan domain root, yang mungkin di-crawl oleh agen pengguna sebagaimana disebutkan di artikel bantuan ini. Aturan ini digunakan untuk mengganti aturan disallow guna mengizinkan crawling subdirektori atau halaman dalam direktori yang tidak diizinkan. Untuk satu halaman, tentukan nama halaman lengkap seperti yang ditampilkan di browser. Nama harus diawali dengan tanda / dan jika mengacu pada direktori, nama harus diakhiri dengan tanda /.
  • sitemap: [Opsional, nol atau lebih per file] Lokasi peta situs untuk situs ini. URL peta situs harus berupa URL yang sepenuhnya memenuhi syarat; Google tidak menganggap atau memeriksa alternatif http/https/www.non-www. Peta situs adalah cara yang baik untuk menunjukkan konten mana yang boleh di-crawl oleh Google, bukan konten mana yang dapat atau tidak dapat di-crawl. Pelajari peta situs lebih lanjut. Contoh:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: https://www.example.com/sitemap.xml

Semua aturan, kecuali sitemap, mendukung karakter pengganti * untuk awalan jalur, akhiran, atau string secara keseluruhan.

Baris yang tidak cocok dengan aturan tersebut akan diabaikan.

Baca halaman kami tentang interpretasi Google terkait spesifikasi robots.txt untuk mengetahui deskripsi lengkap dari setiap aturan.

Mengupload file robots.txt

Setelah menyimpan file robots.txt ke komputer, Anda sudah siap menjadikan file tersebut tersedia untuk crawler mesin telusur. Tidak ada alat yang dapat membantu Anda menyelesaikan langkah ini, karena cara Anda mengupload file robots.txt ke situs Anda bergantung pada arsitektur server dan situs Anda. Hubungi perusahaan hosting Anda atau telusuri dokumentasi perusahaan hosting Anda, seperti telusuri "mengupload file ke infomaniak".

Setelah Anda mengupload file robots.txt, uji apakah file tersebut dapat diakses secara publik dan apakah Google dapat mengurainya.

Menguji markup robots.txt

Untuk menguji apakah file robots.txt yang baru diupload dapat diakses secara publik, buka jendela penjelajahan rahasia (atau yang setara) di browser Anda dan buka lokasi file robots.txt. Misalnya, https://example.com/robots.txt. Jika Anda melihat konten file robots.txt, berarti markup file siap diuji.

Google menawarkan dua opsi untuk memperbaiki masalah terkait markup robots.txt:

  1. Laporan robots.txt di Search Console. Anda hanya dapat menggunakan laporan ini untuk file robots.txt yang sudah dapat diakses di situs Anda.
  2. Jika Anda adalah developer, lihat dan buat library robots.txt open source Google, yang juga digunakan di Google Penelusuran. Anda dapat menggunakan alat ini untuk menguji file robots.txt secara lokal di komputer.

Mengirim file robots.txt ke Google

Setelah Anda mengupload dan menguji file robots.txt Anda, crawler Google secara otomatis akan menemukan dan mulai menggunakan file robots.txt Anda. Anda tidak perlu melakukan apa pun. Jika Anda sudah memperbarui file robots.txt dan harus memperbarui salinan yang di-cache Google sesegera mungkin, pelajari cara mengirimkan file robots.txt yang sudah diperbarui.

Aturan robots.txt yang berguna

Berikut adalah beberapa aturan robots.txt umum yang berguna:

Aturan yang berguna
Larang crawling keseluruhan situs

Perlu diingat bahwa dalam beberapa situasi, URL dari situs masih dapat diindeks, meskipun jika situs belum di-crawl.

User-agent: *
Disallow: /
Larang crawling direktori beserta isinya

Tambahkan garis miring ke nama direktori untuk melarang crawling keseluruhan direktori.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
Izinkan akses ke satu crawler

Hanya googlebot-news yang boleh meng-crawl seluruh situs.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Izinkan akses ke semua kecuali satu crawler

Unnecessarybot tidak boleh meng-crawl situs, tetapi bot lain diperbolehkan.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Larang crawling satu halaman

Misalnya, larang halaman useless_file.html yang berada di https://example.com/useless_file.html, dan other_useless_file.html yang berada di direktori junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Larang crawling keseluruhan situs kecuali subdirektori

Crawler hanya dapat mengakses subdirektori public.

User-agent: *
Disallow: /
Allow: /public/

Blokir gambar tertentu dari Google Gambar

Misalnya, larang gambar dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Blokir semua gambar di situs Anda dari Google Gambar

Google tidak dapat mengindeks gambar dan video tanpa meng-crawl media tersebut.

User-agent: Googlebot-Image
Disallow: /

Larang crawling file untuk jenis file tertentu

Misalnya, larang crawling semua file .gif.

User-agent: Googlebot
Disallow: /*.gif$

Larang crawling keseluruhan situs, tetapi izinkan Mediapartners-Google

Penerapan ini menyembunyikan halaman Anda dari hasil penelusuran, tetapi web crawler Mediapartners-Google tetap dapat menganalisis halaman untuk menentukan iklan yang akan ditampilkan kepada pengunjung di situs Anda.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Gunakan karakter pengganti * dan $ untuk mencocokkan URL yang diakhiri dengan string tertentu

Misalnya, larang semua file .xls.

User-agent: Googlebot
Disallow: /*.xls$