Catatan tentang aturan yang tidak didukung di robots.txt

Selasa, 2 Juli 2019

Kemarin, kami mengumumkan bahwa kami menjadikan parser robots.txt yang diproduksi Google sebagai open source. Ini adalah momen menarik yang meningkatkan potensi project open source Penelusuran pada masa mendatang. Masukan sangat kami harapkan, dan kami dengan senang hati akan menerima pertanyaan dari developer dan webmaster. Satu pertanyaan menarik yang akan kami bahas dalam postingan ini:
Mengapa tidak ada pengendali kode untuk aturan lain seperti penundaan crawl yang disertakan dalam kode?

Draf internet yang kami publikasikan kemarin memberikan arsitektur yang dapat diperluas untuk aturan yang bukan bagian dari standar. Artinya, jika ingin, crawler dapat mendukung barisnya sendiri seperti unicorns: allowed. Untuk mendemonstrasikan tampilannya di parser, kami menyertakan baris yang sangat umum, yaitu peta situs, di parser robots.txt open source kami.

Saat menjadikan library parser sebagai open source, kami menganalisis penggunaan aturan robots.txt. Secara khusus, kami berfokus pada aturan yang tidak didukung oleh draf internet, seperti crawl-delay, nofollow, dan noindex. Karena aturan ini tidak pernah didokumentasikan oleh Google, tentunya penggunaan aturan tersebut dalam kaitannya dengan Googlebot sangatlah rendah. Setelah menggali lebih dalam, kami melihat penggunaannya bertentangan dengan semua aturan lainnya kecuali 0,001% dari semua file robots.txt di internet. Kesalahan ini mengganggu kehadiran situs di hasil penelusuran Google dengan cara yang kami rasa tidak sesuai dengan keinginan webmaster.

Demi mempertahankan ekosistem yang sehat dan bersiap menghadapi kemungkinan rilis open source pada masa mendatang, kami akan menghentikan semua kode yang menangani aturan yang tidak didukung dan tidak dipublikasikan (seperti noindex) mulai 1 September 2019. Jika Anda menggunakan aturan pengindeksan noindex dalam file robots.txt, yang mengontrol crawling, ada sejumlah opsi alternatif:

  • noindex dalam tag meta robots: Dengan dukungan di header respons HTTP dan di HTML, aturan noindex adalah cara paling efektif untuk menghapus URL dari indeks saat crawling diizinkan.
  • Kode status HTTP 404 dan 410: Kedua kode status tersebut menunjukkan bahwa halaman tidak ada, sehingga URL semacam itu akan dihapus dari indeks Google setelah di-crawl dan diproses.
  • Perlindungan sandi: Kecuali jika markup digunakan untuk menunjukkan langganan atau konten berbayar berpenghalang, halaman yang disembunyikan di balik login umumnya akan dihapus dari indeks Google.
  • Disallow di robots.txt: Mesin telusur hanya dapat mengindeks halaman yang mereka ketahui, jadi memblokir halaman dari crawling biasanya akan menyebabkan kontennya tidak diindeks. Meskipun mesin telusur juga dapat mengindeks URL berdasarkan link dari halaman lain, tanpa melihat konten itu sendiri, kami berencana membuat halaman semacam itu lebih tidak terlihat pada masa mendatang.
  • Alat Hapus URL Search Console: Alat ini adalah metode yang cepat dan mudah untuk menghapus URL dari hasil penelusuran Google untuk sementara.

Untuk mendapatkan panduan lebih lanjut tentang cara menghapus informasi dari hasil penelusuran Google, buka Pusat Bantuan kami. Jika ada pertanyaan, Anda dapat menghubungi kami melalui Twitter dan Komunitas Webmaster, baik saat offline maupun online.