Selasa, 2 Juli 2019
Kemarin, kami mengumumkan bahwa kami
menjadikan parser robots.txt yang diproduksi Google sebagai open source.
Ini adalah momen menarik yang meningkatkan potensi project open source Penelusuran pada
masa mendatang. Masukan sangat kami harapkan, dan kami dengan senang hati akan menerima pertanyaan dari
developer dan
webmaster. Satu pertanyaan
menarik yang akan kami bahas dalam postingan ini:
Mengapa tidak ada pengendali kode untuk aturan lain seperti penundaan crawl yang disertakan dalam kode?
Draf internet yang kami publikasikan kemarin memberikan
arsitektur yang dapat diperluas untuk aturan yang bukan bagian dari standar. Artinya, jika ingin,
crawler dapat mendukung barisnya sendiri
seperti unicorns: allowed
. Untuk mendemonstrasikan tampilannya di parser, kami menyertakan baris yang sangat umum,
yaitu peta situs, di parser robots.txt open source kami.
Saat menjadikan library parser sebagai open source, kami menganalisis penggunaan aturan robots.txt. Secara khusus,
kami berfokus pada aturan yang tidak didukung oleh draf internet, seperti
crawl-delay
, nofollow
, dan
noindex
. Karena aturan ini tidak pernah didokumentasikan oleh Google,
tentunya penggunaan aturan tersebut dalam kaitannya dengan Googlebot sangatlah rendah. Setelah menggali lebih dalam, kami melihat penggunaannya
bertentangan dengan semua aturan lainnya kecuali 0,001% dari semua file robots.txt di internet.
Kesalahan ini mengganggu kehadiran situs di hasil penelusuran Google dengan cara yang kami rasa
tidak sesuai dengan keinginan webmaster.
Demi mempertahankan ekosistem yang sehat dan bersiap menghadapi kemungkinan rilis open source
pada masa mendatang, kami akan menghentikan semua kode yang menangani aturan yang tidak didukung dan tidak dipublikasikan (seperti
noindex
) mulai 1 September 2019. Jika Anda menggunakan aturan pengindeksan
noindex
dalam file robots.txt
,
yang mengontrol crawling, ada sejumlah
opsi alternatif:
-
noindex
dalam tagmeta
robots: Dengan dukungan di header respons HTTP dan di HTML, aturannoindex
adalah cara paling efektif untuk menghapus URL dari indeks saat crawling diizinkan. -
Kode status HTTP
404
dan410
: Kedua kode status tersebut menunjukkan bahwa halaman tidak ada, sehingga URL semacam itu akan dihapus dari indeks Google setelah di-crawl dan diproses. - Perlindungan sandi: Kecuali jika markup digunakan untuk menunjukkan langganan atau konten berbayar berpenghalang, halaman yang disembunyikan di balik login umumnya akan dihapus dari indeks Google.
-
Disallow
dirobots.txt
: Mesin telusur hanya dapat mengindeks halaman yang mereka ketahui, jadi memblokir halaman dari crawling biasanya akan menyebabkan kontennya tidak diindeks. Meskipun mesin telusur juga dapat mengindeks URL berdasarkan link dari halaman lain, tanpa melihat konten itu sendiri, kami berencana membuat halaman semacam itu lebih tidak terlihat pada masa mendatang. - Alat Hapus URL Search Console: Alat ini adalah metode yang cepat dan mudah untuk menghapus URL dari hasil penelusuran Google untuk sementara.
Untuk mendapatkan panduan lebih lanjut tentang cara menghapus informasi dari hasil penelusuran Google, buka Pusat Bantuan kami. Jika ada pertanyaan, Anda dapat menghubungi kami melalui Twitter dan Komunitas Webmaster, baik saat offline maupun online.