Jumat, 17 Februari 2023
Selama beberapa bulan terakhir, kami melihat peningkatan jumlah pemilik situs dan beberapa jaringan penayangan konten
(CDN) yang mencoba menggunakan 404
dan error klien 4xx
lainnya (tetapi bukan
429
) dalam upaya mengurangi frekuensi crawling Googlebot.
Singkatnya, postingan blog ini meminta agar jangan melakukan hal tersebut; kami memiliki dokumentasi tentang cara mengurangi frekuensi crawling Googlebot. Baca dokumentasi tersebut dan pelajari cara mengelola frekuensi crawling Googlebot secara efektif.
Kembali ke dasar: Error 4xx
adalah untuk error klien
Server error 4xx
yang ditampilkan kepada klien adalah sinyal dari server yang menunjukkan bahwa
permintaan klien tampaknya tidak valid. Sebagian besar error dalam kategori ini tidak begitu serius:
error "not found", "forbidden", "I'm a teapot" (ya, ada error semacam ini). Error tersebut tidak menunjukkan adanya masalah
yang terjadi pada server itu sendiri.
Satu-satunya pengecualian adalah 429
, yang berarti "too many requests". Error ini merupakan sinyal yang jelas
bagi semua robot yang berperilaku baik, termasuk Googlebot tercinta kami, yang harus memperlambat frekuensi crawling-nya
karena membebani server.
Alasan mengapa error 4xx
berdampak buruk terhadap pembatasan kapasitas Googlebot (kecuali 429
)
Error klien itu artinya error klien. Umumnya, error klien tidak menunjukkan adanya error pada server:
tidak menunjukkan bahwa server kelebihan beban, mengalami error kritis, dan tidak dapat merespons
permintaan. Error tersebut hanya menunjukkan bahwa permintaan klien tampak tidak valid. Penggunaan,
misalnya, error 404
untuk menunjukkan bahwa server kelebihan beban sama sekali bukanlah cara yang tepat.
Bayangkan jika hal ini dilakukan: Anda akan mendapatkan banyak error 404
dari teman yang tidak sengaja
menautkan ke halaman yang salah di situs Anda dan akibatnya, Googlebot akan memperlambat crawling. Dampaknya
akan sangat buruk. Hal yang sama berlaku untuk 403
, 410
, 418
.
Sekali lagi, ada pengecualian penting yaitu kode status 429
, yang berarti "too many
requests".
Pengaruh pembatasan kapasitas dengan 4xx
terhadap Googlebot
Semua kode status HTTP 4xx
(sekali lagi, kecuali 429
) akan menyebabkan konten Anda
dihapus dari Google Penelusuran. Yang lebih buruk lagi, jika Anda juga menayangkan file robots.txt dengan
kode status HTTP 4xx
, file tersebut akan diperlakukan seolah-olah tidak ada. Jika Anda memiliki aturan
yang melarang crawling apa pun itu yang menjadi rahasia Anda, kini Googlebot juga mengetahuinya; hal ini tidak baik
untuk setiap pihak yang terlibat.
Cara yang tepat untuk mengurangi frekuensi crawling Googlebot
Kami memiliki dokumentasi lengkap tentang cara mengurangi frekuensi crawling Googlebot dan juga tentang cara Googlebot (dan pengindeksan Penelusuran) menangani berbagai kode status HTTP; pastikan untuk membaca dokumentasi tersebut. Singkatnya, sebaiknya lakukan salah satu hal berikut:
- Gunakan Search Console untuk mengurangi frekuensi crawling untuk sementara.
-
Tampilkan kode status HTTP
500
,503
, atau429
saat Googlebot melakukan crawling terlalu cepat.
Jika Anda memerlukan tips atau klarifikasi lebih lanjut, hubungi kami di Twitter atau kirim postingan di forum bantuan kami.