Spesifikasi tag meta robot dan header HTTP X-Robots-Tag

Abstrak

Dokumen ini menjelaskan cara pengindeksan tingkat halaman memungkinkan Anda mengontrol cara Google membuat konten tersedia melalui hasil penelusuran. Anda dapat menentukan setelan ini dengan memasukkan tag meta pada halaman (X)HTML atau header HTTP.

Menggunakan tag meta robot

Tag meta robot memungkinkan Anda menggunakan pendekatan khusus halaman yang terperinci untuk mengontrol cara tiap halaman diindeks dan ditampilkan kepada pengguna dalam hasil penelusuran. Tempatkan tag meta robot di bagian <head> pada halaman tertentu, seperti ini:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

Tag meta robot pada contoh di atas menginstruksikan sebagian besar mesin telusur agar tidak menampilkan halaman tersebut dalam hasil penelusuran. Nilai atribut name (robots) menentukan bahwa perintah tersebut berlaku untuk semua crawler. Untuk menangani crawler tertentu, ganti nilai robots pada atribut name dengan nama crawler yang dimaksud. Crawler tertentu juga dikenal sebagai agen pengguna (crawler menggunakan agen penggunanya untuk meminta halaman). Crawler web standar Google memiliki nama agen pengguna Googlebot. Agar Googlebot saja yang tidak meng-crawl halaman Anda, perbarui tagnya seperti di bawah:

<meta name="googlebot" content="noindex" />

Tag ini kini menginstruksikan Google (bukan mesin telusur lainnya) agar tidak menampilkan halaman ini dalam hasil penelusuran web. Atribut name dan content tidak peka terhadap huruf besar dan kecil.

Tiap mesin telusur mungkin memiliki crawler yang berbeda untuk properti atau tujuan yang berbeda. Lihat daftar lengkap crawler Google. Misalnya, untuk menunjukkan suatu halaman dalam hasil penelusuran web Google, namun tidak di Google Berita, gunakan tag meta berikut:

<meta name="googlebot-news" content="noindex" />

Jika perlu menentukan beberapa crawler secara individu, Anda dapat menggunakan beberapa tag meta robot:

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

Jika perintah yang mirip ditemui oleh crawler, kami akan menggunakan perintah yang paling membatasi.

Menggunakan header HTTP X-Robots-Tag

X-Robots-Tag dapat digunakan sebagai elemen respons header HTTP untuk URL tertentu. Setiap perintah yang dapat digunakan dalam tag meta robot juga dapat ditentukan sebagai X-Robots-Tag. Berikut adalah contoh respons HTTP dengan X-Robots-Tag yang memerintahkan crawler agar tidak mengindeks halaman:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

Beberapa header X-Robots-Tag dapat digabungkan dalam respons HTTP, atau Anda dapat menentukan daftar perintah yang dipisahkan koma. Berikut adalah contoh respons header HTTP yang memiliki X-Robots-Tag noarchive yang digabungkan dengan X-Robots-Tag unavailable_after.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

Secara opsional, X-Robots-Tag dapat menyebutkan agen pengguna sebelum perintah. Misalnya, sejumlah header HTTP X-Robots-Tag berikut dapat digunakan untuk mengizinkan secara kondisional agar halaman ditampilkan dalam hasil penelusuran pada mesin telusur yang berbeda:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Perintah yang ditentukan tanpa agen pengguna akan berlaku untuk semua crawler. Bagian di bawah ini menunjukkan cara menangani perintah gabungan. Nama dan nilai yang ditetapkan tidak peka terhadap huruf besar dan kecil.

Perintah pengindeksan & penyajian yang valid

Beberapa perintah lainnya dapat digunakan untuk mengontrol pengindeksan dan penyajian dengan tag meta robot dan X-Robots-Tag. Tiap nilai mewakili perintah tertentu. Tabel berikut menampilkan semua perintah yang diakui oleh Google dan artinya. Catatan: ada kemungkinan perintah berikut tidak diperlakukan sama oleh crawler mesin telusur lainnya. Beberapa perintah dapat digabungkan dalam daftar yang dipisahkan koma (lihat cara menangani perintah gabungan di bawah). Perintah berikut tidak peka terhadap huruf besar dan kecil.

Perintah
all Tidak ada batasan untuk pengindeksan atau penyajian. Catatan: perintah ini adalah nilai default dan tidak berpengaruh jika dicantumkan secara eksplisit.
noindex Jangan tampilkan halaman ini dalam hasil penelusuran dan jangan tampilkan link "Cache" di hasil penelusuran.
nofollow Jangan ikuti link di halaman ini
none Setara dengan noindex, nofollow.
noarchive Jangan tampilkan link "Cache" di hasil penelusuran.
nosnippet Jangan tampilkan cuplikan teks atau pratinjau video dalam hasil penelusuran untuk halaman ini. Thumbnail statis (jika tersedia) akan tetap terlihat.
notranslate Jangan menawarkan terjemahan dari halaman ini dalam hasil penelusuran.
noimageindex Jangan lakukan pengindeksan gambar di halaman ini.
unavailable_after: [RFC-850 date/time] Jangan tampilkan halaman ini dalam hasil penelusuran setelah tanggal/waktu yang ditentukan. Tanggal/waktu harus ditentukan dalam format RFC 850.

Setelah file robots.txt (atau tidak adanya file tersebut) diberi izin untuk meng-crawl halaman, secara default halaman akan diperlakukan sebagai dapat di-crawl, dapat diindeks, dapat diarsipkan, dan kontennya disetujui untuk digunakan dalam cuplikan yang ditampilkan di hasil penelusuran, kecuali izin ditolak secara khusus dalam tag meta robot atau X-Robots-Tag.

Menangani gabungan perintah pengindeksan dan penyajian

Anda dapat membuat instruksi multiperintah dengan menggabungkan perintah tag meta robot dan koma. Berikut adalah contoh dari tag meta robot yang menginstruksikan crawler web agar tidak mengindeks halaman dan tidak meng-crawl link apa pun di halaman:

<meta name="robots" content="noindex, nofollow">

Jika beberapa crawler ditentukan dengan perintah yang berbeda, mesin telusur akan menggunakan gabungan perintah negatif. Misalnya:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Halaman yang berisi tag meta akan ditafsirkan memiliki perintah noindex, nofollow saat di-crawl oleh Googlebot.

Implementasi praktis dari X-Robots-Tag dengan Apache

Anda dapat menambahkan X-Robots-Tag ke respons HTTP di situs menggunakan file .htaccess dan httpd.conf yang tersedia secara default pada server web berbasis Apache. Keuntungan menggunakan X-Robots-Tag dengan respons HTTP adalah Anda dapat menentukan perintah crawling yang diterapkan secara global di seluruh situs. Dukungan ekspresi reguler memungkinkan tingkat fleksibilitas yang tinggi.

Misalnya, untuk menambahkan X-Robots-Tag noindex, nofollow ke respons HTTP untuk semua file .PDF di seluruh situs, tambahkan cuplikan berikut ke file akar .htaccess atau file httpd.conf di situs:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

Anda dapat menggunakan X-Robots-Tag untuk file non-HTML seperti file gambar yang tidak memungkinkan penggunaan tag meta robot. Berikut adalah contoh penambahan perintah X-Robots-Tag noindex untuk file gambar (.png, .jpeg, .jpg, .gif) di seluruh situs:

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

Menggabungkan crawling dengan perintah pengindeksan/penyajian

Tag meta robot dan header HTTP X-Robots-Tag akan ditemukan saat URL di-crawl. Jika crawling melalui file robots.txt pada halaman tidak diizinkan, maka informasi tentang perintah pengindeksan atau penyajian tidak akan ditemukan dan akan diabaikan. Jika perintah pengindeksan atau penyajian harus diikuti, crawling pada URL yang berisi perintah tersebut tidak dapat dilarang.

Kirim masukan tentang...

Penelusuran
Penelusuran