Pengingat Robot: robots.txt — cara fleksibel untuk mengontrol cara mesin menjelajahi situs Anda

Jumat, 7 Maret 2025

Sebagai alat yang sudah digunakan sejak lama oleh pemilik situs, robots.txt telah aktif digunakan selama lebih dari 30 tahun dan didukung secara luas oleh operator crawler (seperti alat untuk pemilik situs, layanan, dan mesin telusur). Dalam edisi seri artikel pengingat tentang robot ini, kita akan mempelajari lebih jauh robots.txt sebagai cara fleksibel untuk memberi tahu keinginan Anda untuk sang robot mengenai apa yang perlu (atau tidak perlu) dilakukan di situs Anda.

Mulai menggunakan robots.txt

Cara kerja file ini sederhana: Anda membuat file teks bernama "robots.txt", lalu menguploadnya ke situs Anda—dan jika Anda menggunakan sistem pengelolaan konten (CMS), prosesnya mungkin akan lebih mudah. Anda dapat mengosongkan file robots.txt (atau tidak menyertakannya sama sekali) jika seluruh situs Anda boleh di-crawl, atau Anda dapat menambahkan aturan untuk mengelola crawling. Misalnya, untuk memberi tahu semua bot (juga disebut crawler, robot, spider) agar tidak mengakses halaman "tambahkan ke keranjang", Anda dapat menulis hal berikut dalam file robots.txt:

user-agent: *
disallow: /cart

Hal-hal spesifik lainnya yang dapat Anda lakukan dengan robots.txt

robots.txt adalah alat serbaguna yang akan memberitahukan keinginan Anda pada sang robot mengenai hal yang perlu atau tidak perlu dilakukan di situs Anda: bisa berupa beberapa baris, atau berupa aturan yang kompleks dengan aturan yang lebih rumit yang menargetkan pola URL yang sangat spesifik. Anda dapat menggunakan file robots.txt untuk mengatasi masalah teknis (seperti penomoran halaman yang tidak perlu), atau untuk alasan editorial atau pribadi (seperti tidak ingin hal-hal tertentu di-crawl). Misalnya, Anda dapat:

Memberi tahu beberapa bot (tetapi tidak semua) tentang aturan yang sama

Grup ini memberi tahu examplebot dan otherbot untuk menjauh dari jalur /search.

user-agent: examplebot
user-agent: otherbot
disallow: /search

Memberi tahu satu bot untuk menghindari jalur yang berisi teks tertentu

Misalnya, Anda dapat memberi tahu documentsbot agar tidak meng-crawl file apa pun yang berisi ".pdf" dalam namanya.

user-agent: documentsbot
disallow: *.pdf

Memberi tahu bot bahwa blog Anda dapat di-crawl, tetapi drafnya jangan

user-agent: documentsbot
allow: /blog/
disallow: /blog/drafts/

Memblokir crawler tertentu dari sebagian situs Anda, tetapi mengizinkan crawler lain mengakses situs Anda

File robots.txt ini tidak mengizinkan aicorp-trainer-bot tersebut mengakses apa pun selain halaman beranda, tetapi mengizinkan crawler lain (seperti mesin telusur) mengakses situs.

user-agent: *
allow: /

user-agent: aicorp-trainer-bot
disallow: /
allow: /$

Menitipkan komentar untuk diri Anda pada masa mendatang

Anda dapat memulai baris dengan # untuk mengingatkan diri sendiri tentang alasan Anda menempatkan aturan tertentu di sana.

# I don't want bots in my highschool photos
user-agent: *
disallow: /photos/highschool/

Untuk mengetahui informasi selengkapnya, Anda dapat melihat daftar aturan robots.txt yang berguna.

Membuat perubahan pada file robots.txt (secara praktis)

Protokol Pengecualian Robot (REP) berfungsi dengan menggabungkan aturan ("allow" atau "disallow") dan menentukan robot mana yang akan menerapkan aturan ini. Anda tidak perlu mempelajari pemrograman atau mengotak-atik alat; cukup masukkan aturan ini ke dalam file teks dan upload ke situs Anda.

Untuk sebagian besar situs, prosesnya bahkan lebih sederhana dari itu. Jika Anda menggunakan CMS, biasanya sudah tersedia fitur bawaan untuk membantu Anda mengubah file robots.txt. Misalnya, beberapa CMS memungkinkan Anda menyesuaikan file robots.txt menggunakan kotak centang atau dengan formulir sederhana, dan banyak di antaranya yang memiliki plugin yang membantu Anda menyiapkan dan menulis aturan untuk file robots.txt. Untuk mencari tahu hal yang dapat dilakukan di CMS Anda, telusuri nama CMS + "edit file robots.txt".

Setelah menyiapkan semuanya, Anda juga dapat mengujinya untuk memastikan file tersebut telah disiapkan sesuai keinginan. Ada banyak alat pengujian yang dibuat oleh komunitas web untuk membantu hal ini, seperti alat pengujian robots.txt TametheBot dan parser robots.txt ini yang menggunakan library parser robots.txt open source.

Jika ada pertanyaan tentang robots.txt, Anda dapat menghubungi kami di LinkedIn atau berkonsultasi dengan pakar yang sepemikiran di forum komunitas kami.


Lihat seri artikel Pengingat tentang Robots lainnya: