Jumat, 7 Maret 2025
Sebagai alat yang sudah digunakan sejak lama oleh pemilik situs, robots.txt telah aktif digunakan selama lebih dari 30 tahun dan didukung secara luas oleh operator crawler (seperti alat untuk pemilik situs, layanan, dan mesin telusur). Dalam edisi seri artikel pengingat tentang robot ini, kita akan mempelajari lebih jauh robots.txt sebagai cara fleksibel untuk memberi tahu keinginan Anda untuk sang robot mengenai apa yang perlu (atau tidak perlu) dilakukan di situs Anda.
Mulai menggunakan robots.txt
Cara kerja file ini sederhana: Anda membuat file teks bernama "robots.txt", lalu menguploadnya ke situs Anda—dan jika Anda menggunakan sistem pengelolaan konten (CMS), prosesnya mungkin akan lebih mudah. Anda dapat mengosongkan file robots.txt (atau tidak menyertakannya sama sekali) jika seluruh situs Anda boleh di-crawl, atau Anda dapat menambahkan aturan untuk mengelola crawling. Misalnya, untuk memberi tahu semua bot (juga disebut crawler, robot, spider) agar tidak mengakses halaman "tambahkan ke keranjang", Anda dapat menulis hal berikut dalam file robots.txt:
user-agent: * disallow: /cart
Hal-hal spesifik lainnya yang dapat Anda lakukan dengan robots.txt
robots.txt adalah alat serbaguna yang akan memberitahukan keinginan Anda pada sang robot mengenai hal yang perlu atau tidak perlu dilakukan di situs Anda: bisa berupa beberapa baris, atau berupa aturan yang kompleks dengan aturan yang lebih rumit yang menargetkan pola URL yang sangat spesifik. Anda dapat menggunakan file robots.txt untuk mengatasi masalah teknis (seperti penomoran halaman yang tidak perlu), atau untuk alasan editorial atau pribadi (seperti tidak ingin hal-hal tertentu di-crawl). Misalnya, Anda dapat:
Memberi tahu beberapa bot (tetapi tidak semua) tentang aturan yang sama
Grup ini memberi tahu |
user-agent: examplebot user-agent: otherbot disallow: /search |
Memberi tahu satu bot untuk menghindari jalur yang berisi teks tertentu
Misalnya, Anda dapat memberi tahu |
user-agent: documentsbot disallow: *.pdf |
Memberi tahu bot bahwa blog Anda dapat di-crawl, tetapi drafnya jangan |
user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/ |
Memblokir crawler tertentu dari sebagian situs Anda, tetapi mengizinkan crawler lain mengakses situs Anda
File robots.txt ini tidak mengizinkan |
user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$ |
Menitipkan komentar untuk diri Anda pada masa mendatang
Anda dapat memulai baris dengan |
# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/ |
Untuk mengetahui informasi selengkapnya, Anda dapat melihat daftar aturan robots.txt yang berguna.
Membuat perubahan pada file robots.txt (secara praktis)
Protokol Pengecualian Robot (REP) berfungsi dengan menggabungkan aturan ("allow" atau "disallow") dan menentukan robot mana yang akan menerapkan aturan ini. Anda tidak perlu mempelajari pemrograman atau mengotak-atik alat; cukup masukkan aturan ini ke dalam file teks dan upload ke situs Anda.
Untuk sebagian besar situs, prosesnya bahkan lebih sederhana dari itu. Jika Anda menggunakan CMS, biasanya sudah tersedia fitur bawaan untuk membantu Anda mengubah file robots.txt. Misalnya, beberapa CMS memungkinkan Anda menyesuaikan file robots.txt menggunakan kotak centang atau dengan formulir sederhana, dan banyak di antaranya yang memiliki plugin yang membantu Anda menyiapkan dan menulis aturan untuk file robots.txt. Untuk mencari tahu hal yang dapat dilakukan di CMS Anda, telusuri nama CMS + "edit file robots.txt".
Setelah menyiapkan semuanya, Anda juga dapat mengujinya untuk memastikan file tersebut telah disiapkan sesuai keinginan. Ada banyak alat pengujian yang dibuat oleh komunitas web untuk membantu hal ini, seperti alat pengujian robots.txt TametheBot dan parser robots.txt ini yang menggunakan library parser robots.txt open source.
Jika ada pertanyaan tentang robots.txt, Anda dapat menghubungi kami di LinkedIn atau berkonsultasi dengan pakar yang sepemikiran di forum komunitas kami.