Jumat, 14 Maret 2025
Dengan file robots.txt, pemilik situs
memiliki cara sederhana untuk mengontrol bagian situs mana yang
dapat diakses oleh crawler.
Agar pemilik situs lebih mudah mengekspresikan bagaimana mesin telusur dan crawler web
dapat menggunakan halaman mereka, komunitas yang terlibat dalam pengembangan standar web
meluncurkan
tag meta
robots pada tahun 1996,
hanya beberapa bulan setelah tag meta
diajukan untuk HTML (dan setahu saya,
juga sebelum Google
didirikan). Kemudian,
header respons HTTP
X-Robots-Tag
ditambahkan.
Petunjuk ini dikirim bersama dengan URL, sehingga crawler hanya dapat mempertimbangkannya
jika tidak dilarang meng-crawl URL tersebut melalui file robots.txt. Bersama-sama,
kedua mekanisme ini disebut Protokol Pengecualian Robot (REP).
Tampilan tag meta
robots
Tag (atau elemen)
meta adalah cara menyertakan metadata yang dapat dibaca mesin.
Tag meta
robots adalah salah satu "jenis" tag meta
, dan berlaku untuk crawler, termasuk crawler
mesin telusur. Tag ini memberi sinyal: Apakah konten diblokir dari pengindeksan? Apakah link di halaman tidak boleh diikuti untuk
crawling? Anda dapat langsung memberikan informasi ini di halaman dengan tag meta
robots.
Protokol Pengecualian Robot untuk URL apa pun
Untuk memberikan tingkat kontrol yang sama pada konten non-HTML, header respons HTTP "X-Robots-Tag
"
dibuat. Header HTTP
ini juga dianggap
sebagai bagian dari REP.
Header ini mendukung nilai yang sama dengan tag meta
robots,
dan dapat ditambahkan ke setiap konten yang ditayangkan secara online.
Selain HTML, Google juga mendukungnya untuk konten seperti PDF, file dokumen, dan bahkan gambar.
Sebagian besar format file ini tidak memiliki mekanisme yang setara dengan tag meta
,
sehingga header respons HTTP akan berguna.
Mulai menggunakan tag dan header meta
robots
Sintaksisnya sederhana dan dapat diperluas. Aturan ini biasanya diterapkan oleh developer web atau melalui Sistem Pengelolaan Konten (CMS), tempat pemilik situs mungkin memiliki kotak centang atau menu drop-down untuk memilih preferensi. Kontrol ini dapat menangani crawler tertentu, seperti Googlebot atau, dengan menghapus nama tertentu, menangani semua crawler yang mendukung nilai ini.
Misalnya, aturan berikut memberi tahu semua crawler untuk tidak menggunakan halaman terkait untuk pengindeksan:
- Dalam bentuk tag
meta
HTML, di halaman web:<meta name="robots" content="noindex">
Melihat tag
meta
atau header respons yang sudah ada sedikit lebih rumit, dan memerlukan pemeriksaan langsung pada konten atau header halaman. Anda dapat melihat tagmeta
HTML di halaman mana pun dengan melihat sumber halaman di browser, atau menggunakan alat developer Chrome untuk memeriksa halaman.
- Dalam bentuk header
respons HTTP:
X-Robots-Tag: noindex
Anda dapat memeriksa header respons HTTP untuk setiap URL dengan alat developer Chrome, di panel jaringan.
Contoh lain hal yang dapat Anda lakukan:
Jangan tampilkan cuplikan untuk halaman atau dokumen ini. |
Di header HTTP:
X-Robots-Tag: nosnippet <meta name="robots" content="nosnippet"> |
Jangan mengindeks halaman ini di Kontrol ini secara eksplisit menetapkan satu crawler. |
X-Robots-Tag: examplebot-news: noindex <meta name="examplebot-news" content="noindex"> |
Perhatikan bahwa perintah yang paling ketat dan valid akan diterapkan, jadi untuk |
X-Robots-Tag: examplebot: nosnippet X-Robots-Tag: nofollow <meta name="examplebot" content="nosnippet"> <meta name="robots" content="nofollow"> |
Memilih mekanisme REP
Bagaimana cara memilih mekanisme yang tepat? Pada dasarnya, robots.txt dan kontrol tingkat halaman itu serupa, tetapi tidak sepenuhnya dapat dipertukarkan. Terkadang ada tindakan tertentu yang hanya dapat dilakukan dengan salah satu mekanisme, misalnya, jika ingin menghentikan tindakan crawling (seperti untuk halaman hasil penelusuran tanpa batas, yang dapat dilakukan dengan robots.txt), jika Anda memerlukan kontrol untuk server FTP (dapat dilakukan dengan robots.txt), atau jika tidak ingin menampilkan cuplikan untuk halaman (yang hanya dapat dilakukan dengan elemen tingkat halaman). Jika Anda tidak perlu membedakan antara pemblokiran crawling dan pemblokiran pengindeksan, salah satu pendekatannya adalah menggunakan robots.txt untuk kontrol yang lebih leluasa (untuk memblokir sebagian besar situs), dan kontrol tingkat halaman untuk memblokir setiap halaman.
Protokol Pengecualian Robot—standar yang efektif dan terus berkembang
Pada dasarnya, semua kontrol ini dapat terus ditingkatkan. Selama bertahun-tahun, pemilik situs, operator crawler,
dan mesin telusur telah bekerja sama untuk mengembangkannya.
Secara historis, awalnya hanya beberapa
nilai yang didukung, termasuk noindex
dan nofollow
, lalu seiring waktu makin banyak nilai yang diadopsi seperti
nosnippet
, noarchive
,
dan max-snippet:
.
Terkadang nilai tidak digunakan lagi, seperti noodp
,
yang menggunakan cuplikan dari
DMOZ/Open Directory Project
sebelum direktori ditutup.
Ada
banyak nilai yang didukung
oleh Google untuk pemilik situs, dan jumlah yang serupa dari operator crawler besar lainnya.
Dalam cakupan REP, pemilik situs memiliki kontrol atas apa di-crawl dan cara data yang di-crawl tersebut digunakan di mesin telusur. Mereka dapat melakukannya pada tingkat yang luas untuk bagian situs yang lebih besar, atau pada tingkat yang sangat terperinci, untuk setiap halaman, bahkan untuk gambar dalam halaman. Kontrol ini sudah dikenal luas, tersedia di semua sistem pengelolaan konten umum, didukung secara luas oleh operator komersial, dan digunakan di miliaran host di internet saat ini.