Menerapkan Spesifikasi Protokol Pengecualian Robot

Senin, 1 Juli 2019

Selama 25 tahun, Protokol Pengecualian Robot (REP) telah menjadi salah satu komponen yang paling dasar dan penting di web. Tindakan ini memungkinkan pemilik situs mengecualikan klien otomatis, misalnya web crawler, untuk mengakses situs mereka - baik sebagian maupun sepenuhnya.

Pada 1994, Martijn Koster (seorang webmaster juga) membuat standar awal setelah crawler memenuhi situsnya. Dengan lebih banyak input dari webmaster lain, lahirlah REP, dan protokol ini diadopsi oleh mesin telusur untuk membantu pemilik situs mengelola resource server dengan lebih mudah.

Namun, REP tidak pernah dijadikan sebagai standar Internet resmi, yang berarti penafsiran developer terhadap protokol ini selama bertahun-tahun agak berbeda. Dan sejak awal, REP belum diperbarui untuk mencakup kasus mendesak saat ini. Ini adalah masalah yang sulit bagi pemilik situs karena standar de-facto yang ambigu mempersulit penulisan aturan dengan benar.

Kami ingin membantu pemilik situs dan developer menciptakan pengalaman yang luar biasa di internet, tanpa mengkhawatirkan cara mengontrol crawler. Bersama dengan penulis asli protokol, webmaster, dan mesin telusur lainnya, kami telah mendokumentasikan cara REP digunakan di web modern dan mengirimkannya ke IETF.

Draf REP yang diajukan mencerminkan pengalaman dunia nyata selama lebih dari 20 tahun yang mengandalkan aturan robots.txt, yang digunakan oleh Googlebot dan crawler besar lainnya, serta sekitar setengah miliar situs yang mengandalkan REP. Kontrol yang mendetail ini memberi penayang kemampuan untuk menentukan apa yang ingin di-crawl di situs mereka dan berpotensi ditampilkan kepada pengguna yang berminat. Metode ini tidak mengubah aturan yang dibuat pada 1994, tetapi pada dasarnya menentukan semua skenario yang tidak ditentukan untuk penguraian dan pencocokan robots.txt, serta memperluasnya untuk web modern. Khususnya:

  1. Semua protokol transfer berbasis URI dapat menggunakan robots.txt. Misalnya, penggunaannya tidak lagi terbatas pada HTTP dan juga dapat digunakan untuk FTP atau CoAP.
  2. Developer harus mengurai setidaknya 500 kibibyte pertama robots.txt. Menentukan ukuran file maksimum akan memastikan bahwa koneksi tidak terbuka terlalu lama, sehingga mengurangi beban yang tidak perlu pada server.
  3. Waktu caching maksimum yang baru selama 24 jam atau nilai perintah cache jika tersedia, memberikan fleksibilitas kepada pemilik situs untuk memperbarui robots.txt-nya kapan pun diinginkan, dan crawler tidak akan memenuhi situs dengan permintaan robots.txt. Misalnya, untuk HTTP, header Cache-Control dapat digunakan untuk menentukan waktu caching.
  4. Spesifikasi ini sekarang menetapkan bahwa, jika file robots.txt yang sebelumnya dapat diakses menjadi tidak dapat diakses karena error server, halaman yang diketahui tidak diizinkan tidak akan di-crawl untuk jangka waktu yang cukup lama.

Selain itu, kami telah memperbarui formulir Backus-Naur augmented dalam draf internet untuk menentukan sintaksis robots.txt dengan lebih baik, yang sangat penting bagi developer untuk mengurai baris.

RFC adalah singkatan dari Request for Comments (Permintaan Komentar), yang kami maksud adalah: kami mengupload draf ke IETF untuk mendapatkan masukan dari developer yang peduli dengan elemen dasar internet. Seiring upaya kami untuk memberikan kontrol yang diperlukan pembuat web agar kami tahu berapa banyak informasi yang ingin mereka sediakan untuk Googlebot, dan sehubungan dengan itu, agar memenuhi syarat untuk muncul di Penelusuran, kami harus memastikan hal ini dilakukan dengan benar.

Jika ingin memberi komentar, mengajukan pertanyaan, atau sekadar menyapa kami, Anda dapat melakukannya melalui Twitter dan Komunitas Webmaster, baik offline maupun online.