Pengingat tentang Robots: perincian tingkat halaman

Jumat, 14 Maret 2025

Dengan file robots.txt, pemilik situs memiliki cara sederhana untuk mengontrol bagian situs mana yang dapat diakses oleh crawler. Agar pemilik situs lebih mudah mengekspresikan bagaimana mesin telusur dan crawler web dapat menggunakan halaman mereka, komunitas yang terlibat dalam pengembangan standar web meluncurkan tag meta robots pada tahun 1996, hanya beberapa bulan setelah tag meta diajukan untuk HTML (dan setahu saya, juga sebelum Google didirikan). Kemudian, header respons HTTP X-Robots-Tag ditambahkan. Petunjuk ini dikirim bersama dengan URL, sehingga crawler hanya dapat mempertimbangkannya jika tidak dilarang meng-crawl URL tersebut melalui file robots.txt. Bersama-sama, kedua mekanisme ini disebut Protokol Pengecualian Robot (REP).

Tampilan tag meta robots

Tag (atau elemen) meta adalah cara menyertakan metadata yang dapat dibaca mesin. Tag meta robots adalah salah satu "jenis" tag meta, dan berlaku untuk crawler, termasuk crawler mesin telusur. Tag ini memberi sinyal: Apakah konten diblokir dari pengindeksan? Apakah link di halaman tidak boleh diikuti untuk crawling? Anda dapat langsung memberikan informasi ini di halaman dengan tag meta robots.

Protokol Pengecualian Robot untuk URL apa pun

Untuk memberikan tingkat kontrol yang sama pada konten non-HTML, header respons HTTP "X-Robots-Tag" dibuat. Header HTTP ini juga dianggap sebagai bagian dari REP. Header ini mendukung nilai yang sama dengan tag meta robots, dan dapat ditambahkan ke setiap konten yang ditayangkan secara online. Selain HTML, Google juga mendukungnya untuk konten seperti PDF, file dokumen, dan bahkan gambar. Sebagian besar format file ini tidak memiliki mekanisme yang setara dengan tag meta, sehingga header respons HTTP akan berguna.

Mulai menggunakan tag dan header meta robots

Sintaksisnya sederhana dan dapat diperluas. Aturan ini biasanya diterapkan oleh developer web atau melalui Sistem Pengelolaan Konten (CMS), tempat pemilik situs mungkin memiliki kotak centang atau menu drop-down untuk memilih preferensi. Kontrol ini dapat menangani crawler tertentu, seperti Googlebot atau, dengan menghapus nama tertentu, menangani semua crawler yang mendukung nilai ini.

Misalnya, aturan berikut memberi tahu semua crawler untuk tidak menggunakan halaman terkait untuk pengindeksan:

  • Dalam bentuk tag meta HTML, di halaman web:
    <meta name="robots" content="noindex">

    Melihat tag meta atau header respons yang sudah ada sedikit lebih rumit, dan memerlukan pemeriksaan langsung pada konten atau header halaman. Anda dapat melihat tag meta HTML di halaman mana pun dengan melihat sumber halaman di browser, atau menggunakan alat developer Chrome untuk memeriksa halaman.

  • Dalam bentuk header respons HTTP:
    X-Robots-Tag: noindex

    Anda dapat memeriksa header respons HTTP untuk setiap URL dengan alat developer Chrome, di panel jaringan.

Contoh lain hal yang dapat Anda lakukan:

Jangan tampilkan cuplikan untuk halaman atau dokumen ini.

Di header HTTP:
X-Robots-Tag: nosnippet
atau di HTML:
<meta name="robots" content="nosnippet">

Jangan mengindeks halaman ini di ExampleBot-News, tanpa menentukan preferensi untuk halaman lain.

Kontrol ini secara eksplisit menetapkan satu crawler.

X-Robots-Tag: examplebot-news: noindex
atau
<meta name="examplebot-news" content="noindex">

ExampleBot tidak boleh menampilkan cuplikan, dan juga, semua crawler tidak boleh mengikuti link di halaman ini.

Perhatikan bahwa perintah yang paling ketat dan valid akan diterapkan, jadi untuk ExampleBot, perintah akan digabungkan sebagai "nosnippet, nofollow".

X-Robots-Tag: examplebot: nosnippet
X-Robots-Tag: nofollow
atau
<meta name="examplebot" content="nosnippet">
<meta name="robots" content="nofollow">

Memilih mekanisme REP

Bagaimana cara memilih mekanisme yang tepat? Pada dasarnya, robots.txt dan kontrol tingkat halaman itu serupa, tetapi tidak sepenuhnya dapat dipertukarkan. Terkadang ada tindakan tertentu yang hanya dapat dilakukan dengan salah satu mekanisme, misalnya, jika ingin menghentikan tindakan crawling (seperti untuk halaman hasil penelusuran tanpa batas, yang dapat dilakukan dengan robots.txt), jika Anda memerlukan kontrol untuk server FTP (dapat dilakukan dengan robots.txt), atau jika tidak ingin menampilkan cuplikan untuk halaman (yang hanya dapat dilakukan dengan elemen tingkat halaman). Jika Anda tidak perlu membedakan antara pemblokiran crawling dan pemblokiran pengindeksan, salah satu pendekatannya adalah menggunakan robots.txt untuk kontrol yang lebih leluasa (untuk memblokir sebagian besar situs), dan kontrol tingkat halaman untuk memblokir setiap halaman.

Protokol Pengecualian Robot—standar yang efektif dan terus berkembang

Pada dasarnya, semua kontrol ini dapat terus ditingkatkan. Selama bertahun-tahun, pemilik situs, operator crawler, dan mesin telusur telah bekerja sama untuk mengembangkannya. Secara historis, awalnya hanya beberapa nilai yang didukung, termasuk noindex dan nofollow, lalu seiring waktu makin banyak nilai yang diadopsi seperti nosnippet, noarchive, dan max-snippet:. Terkadang nilai tidak digunakan lagi, seperti noodp, yang menggunakan cuplikan dari DMOZ/Open Directory Project sebelum direktori ditutup. Ada banyak nilai yang didukung oleh Google untuk pemilik situs, dan jumlah yang serupa dari operator crawler besar lainnya.

Dalam cakupan REP, pemilik situs memiliki kontrol atas apa di-crawl dan cara data yang di-crawl tersebut digunakan di mesin telusur. Mereka dapat melakukannya pada tingkat yang luas untuk bagian situs yang lebih besar, atau pada tingkat yang sangat terperinci, untuk setiap halaman, bahkan untuk gambar dalam halaman. Kontrol ini sudah dikenal luas, tersedia di semua sistem pengelolaan konten umum, didukung secara luas oleh operator komersial, dan digunakan di miliaran host di internet saat ini.


Lihat seri artikel Pengingat tentang Robots lainnya: