Googlebot

Googlebot adalah nama umum untuk dua jenis web crawler yang digunakan oleh Google Penelusuran:

Googlebot Smartphone: crawler seluler yang menyimulasikan pengguna di perangkat seluler.
Googlebot Desktop: crawler desktop yang menyimulasikan pengguna di desktop.

Anda dapat mengenali subjenis Googlebot ini dengan melihat header permintaan user-agent HTTP dalam permintaan. Namun, kedua jenis crawler ini mematuhi token produk yang sama (token agen pengguna) dalam robots.txt, sehingga Anda tidak dapat secara selektif menargetkan Googlebot Smartphone atau Googlebot Desktop menggunakan robots.txt.

Untuk sebagian besar situs, Google Penelusuran mengutamakan pengindeksan versi seluler konten. Dengan begitu, sebagian besar permintaan crawl Googlebot akan dibuat menggunakan crawler seluler, dan sebagian kecilnya menggunakan crawler desktop.

Cara Googlebot mengakses situs Anda

Untuk kebanyakan situs, rata-rata Googlebot tidak akan mengakses situs Anda lebih dari beberapa detik sekali. Namun, akibat penundaan, bisa jadi frekuensi crawling akan sedikit lebih tinggi dalam periode waktu yang singkat. Jika situs Anda kesulitan mengimbangi permintaan crawling Google, Anda dapat mengurangi frekuensi crawling.

Saat melakukan crawling untuk Google Penelusuran, Googlebot meng-crawl 2 MB pertama dari jenis file yang didukung, dan 64 MB pertama dari file PDF. Dari perspektif rendering, setiap resource yang dirujuk dalam HTML (seperti CSS dan JavaScript) diambil secara terpisah, dan setiap pengambilan resource terikat oleh batas ukuran file yang sama yang berlaku untuk file lain (kecuali file PDF).
Setelah batas terlampaui, Googlebot akan menghentikan pengambilan dan hanya mengirimkan bagian file yang sudah didownload agar dipertimbangkan untuk diindeks. Batas ukuran file diterapkan pada data yang tidak dikompresi. Crawler Google lain, misalnya Googlebot Video dan Googlebot Image, mungkin memiliki batas yang berbeda.

Saat melakukan crawling dari alamat IP di Amerika Serikat, zona waktu Googlebot adalah Waktu Pasifik.

Properti teknis Googlebot lainnya dijelaskan dalam ringkasan crawler Google.

Memblokir Googlebot agar tidak mengunjungi situs Anda

Googlebot menemukan URL baru untuk di-crawl utamanya dari link yang disematkan di halaman yang telah di-crawl sebelumnya. Hampir tidak mungkin untuk menjaga kerahasiaan situs dengan tidak memublikasikan link ke situs tersebut. Misalnya, begitu seseorang mengklik link dari situs "rahasia" Anda ke situs lain, URL situs "rahasia" Anda mungkin muncul dalam tag perujuk dan dapat disimpan serta dipublikasikan oleh situs lain tersebut dalam log perujuknya.

Jika Anda tidak ingin Googlebot meng-crawl konten di situs, Anda memiliki sejumlah opsi. Ingat bahwa ada perbedaan antara crawling dan pengindeksan. Meskipun Googlebot diblokir agar tidak meng-crawl halaman, hal ini tidak mencegah URL halaman muncul di hasil penelusuran:

Cegah Googlebot meng-crawl halaman? Gunakan file robots.txt.
Tidak ingin Google mengindeks halaman? Gunakan noindex.
Cegah halaman diakses baik oleh crawler ataupun pengguna? Gunakan metode lain, seperti perlindungan sandi.

Memblokir Googlebot akan memengaruhi Google Penelusuran (termasuk Discover dan semua fitur Google Penelusuran), serta produk lainnya seperti Google Gambar, Google Video, dan Google Berita.

Memverifikasi Googlebot

Sebelum Anda memutuskan untuk memblokir Googlebot, perhatikan bahwa header permintaan user-agent HTTP yang digunakan oleh Googlebot sering di-spoofing oleh crawler lain. Penting untuk memverifikasi bahwa permintaan yang bermasalah benar-benar berasal dari Google. Cara terbaik untuk memverifikasi bahwa permintaan benar-benar berasal dari Googlebot adalah dengan menggunakan pencarian balik DNS di IP sumber permintaan, atau mencocokkan IP sumber dengan rentang IP Googlebot.