Artikel Pengingat tentang Robots: memperkenalkan seri baru

Senin, 24 Februari 2025

Terkadang kami mendapatkan pertanyaan tentang robots.txt, tag meta robots, serta fungsi kontrol yang ditawarkannya. Setelah meluncurkan seri artikel bulan Desember tentang crawling, kami rasa ini adalah waktu yang tepat untuk membuat artikel pengingat singkat. Jadi, jika Anda ingin tahu info selengkapnya tentang kontrol ini, ikuti seri postingan blog baru ini.

Mari kita awali dengan robots.txt.

Jadi, apa itu robots.txt?

"robots.txt" adalah file yang dapat disediakan oleh situs mana pun. Sederhananya, ini adalah file teks yang disimpan di server. Hampir semua situs memiliki file robots.txt. Untuk melihatnya, salin nama domain dan tambahkan /robots.txt di bagian akhir, lalu buka alamat tersebut. Misalnya, file robots.txt situs ini berada di developers.google.com/robots.txt.

Sebagian besar situs menggunakan sistem pengelolaan konten (CMS) yang membuat file ini secara otomatis. Namun, file ini tetap bisa dibuat dengan mudah meski Anda membuat situs "secara manual". Kita akan membahas beberapa variasinya dalam postingan mendatang.

Apa kegunaan file ini?

File robots.txt memberi tahu crawler situs bagian situs mana yang tersedia untuk akses otomatis (kami menyebutnya crawling), dan bagian mana yang tidak. Dengan begitu, situs dapat menangani segala hal mulai dari keseluruhan situs, bagian situs, atau bahkan file tertentu dalam situs. Selain dapat dibaca mesin, file ini juga dapat dibaca manusia. Artinya, selalu ada jawaban langsung ya atau tidak terkait apakah suatu halaman diizinkan untuk diakses secara otomatis oleh crawler tertentu.

Bagi siapa pun yang membuat crawler, praktik standarnya adalah mengikuti perintah ini, yang juga dapat didukung dengan mudah oleh developer karena ada lebih dari 1.000 library open source yang tersedia untuk developer. File ini memberikan petunjuk kepada crawler untuk crawling situs yang optimal. Situs modern bisa jadi rumit, sehingga akan sulit untuk membukanya secara otomatis. Oleh karena itu, aturan robots.txt membantu crawler berfokus pada konten yang sesuai. Hal ini juga membantu crawler menghindari halaman yang dibuat secara dinamis, yang dapat menimbulkan beban pada server dan menjadikan crawling tidak terlalu efisien. Karena file robots.txt secara teknis bermanfaat dan berdampak baik terhadap hubungan dengan pemilik situs, sebagian besar operator crawler komersial mengikuti file tersebut.

Dibuat dan diperluas oleh publik

File robots.txt yang sudah ada sejak lama, bahkan hampir sama lamanya dengan internet. File robots.txt juga merupakan salah satu alat penting yang memungkinkan internet berfungsi seperti sekarang. HTML, yang merupakan fondasi halaman web, ditemukan pada tahun 1991, browser pertama muncul pada tahun 1992, dan robots.txt diciptakan pada tahun 1994. Artinya, alat ini sudah ada bahkan sebelum Google didirikan pada tahun 1998. Formatnya sebagian besar tidak berubah sejak saat itu, dan file dari tahun-tahun awal pembuatannya masih akan valid hingga sekarang. Setelah melalui interaksi komunitas global selama tiga tahun, akhirnya file ini dijadikan sebagai standar yang diusulkan IETF pada tahun 2022.

Jika memiliki situs, kemungkinan Anda juga memiliki file robots.txt. Ada komunitas yang aktif dan dinamis yang membahas seputar robots.txt, ada juga ribuan alat software yang membantu membuat, menguji, mengelola, atau memahami file robots.txt dalam berbagai format dan ukuran. Kelebihan robots.txt adalah Anda tidak memerlukan alat canggih, file ini dapat dibaca di browser, dan untuk situs yang Anda kelola, Anda dapat menyesuaikannya di editor teks sederhana.

Nantikan...

Format robots.txt bersifat fleksibel. Masih ada ruang untuk berkembang, sehingga komunitas web publik dapat berpartisipasi untuk meningkatkan formatnya. Selain itu, crawler dapat mengumumkan ekstensi jika dirasa perlu, tanpa mengganggu penggunaan yang ada. Hal ini terjadi pada tahun 2007, saat mesin telusur mengumumkan perintah "peta situs". Hal ini juga terjadi secara rutin karena "agen pengguna" baru didukung oleh operator crawler dan mesin telusur, seperti yang digunakan untuk tujuan AI.

robots.txt akan terus ada. Hal ini karena format file baru memerlukan waktu bertahun-tahun untuk diselesaikan dengan komunitas internet yang besar, dan pengembangan alat yang tepat untuk menjadikannya berguna bagi ekosistem memerlukan waktu yang bahkan lebih lama lagi. Format robots.txt sangatlah mudah, terperinci, ekspresif, bisa dipahami dan diterima dengan baik, serta berfungsi dengan optimal, seperti yang telah ditunjukkannya selama beberapa dekade.

Ingin mengetahui detail selengkapnya? Nantikan edisi berikutnya dari seri artikel Pengingat tentang Robots di blog Pusat Penelusuran.