Googlebot

Googlebot adalah nama umum untuk web crawler Google. Googlebot adalah nama umum untuk dua jenis crawler: crawler desktop yang menyimulasikan pengguna di desktop, dan crawler seluler yang menyimulasikan pengguna di perangkat seluler.

Situs Anda kemungkinan akan di-crawl oleh Googlebot Desktop dan Googlebot Smartphone. Anda dapat mengidentifikasi subjenis Googlebot dengan melihat string agen pengguna dalam permintaan. Namun, kedua jenis crawler tersebut mematuhi token produk yang sama (token agen pengguna) di robots.txt, sehingga Anda tidak dapat menargetkan Googlebot Smartphone atau Googlebot Desktop secara selektif menggunakan robots.txt.

Jika situs Anda telah dikonversi untuk memprioritaskan perangkat seluler di Google, sebagian besar permintaan crawl Googlebot akan dibuat menggunakan crawler seluler, dan sebagian kecilnya menggunakan crawler desktop. Untuk situs yang belum dikonversi, sebagian besar permintaan crawl akan dibuat menggunakan crawler desktop. Pada kedua kasus ini, crawler minoritas hanya meng-crawl URL yang sudah di-crawl oleh crawler mayoritas.

Cara Googlebot mengakses situs Anda

Untuk kebanyakan situs, rata-rata Googlebot tidak akan mengakses situs Anda lebih dari beberapa detik sekali. Namun, akibat penundaan jaringan, bisa jadi kecepatan crawling akan sedikit lebih tinggi dalam periode waktu yang singkat.

Googlebot dirancang untuk dijalankan bersamaan oleh ribuan perangkat guna meningkatkan performa dan skala seiring bertumbuhnya web. Selain itu, untuk mengurangi penggunaan bandwidth, kami menjalankan banyak crawler di perangkat yang terletak di dekat situs yang akan di-crawl. Oleh karena itu, log Anda mungkin menampilkan kunjungan dari beberapa perangkat di google.com, semuanya dengan agen pengguna Googlebot. Tujuan kami adalah meng-crawl sebanyak mungkin halaman situs Anda pada setiap kunjungan tanpa membuat bandwidth server Anda mengalami kelebihan beban. Jika situs Anda kesulitan mengimbangi permintaan crawling Google, Anda dapat meminta perubahan kecepatan crawling.

Umumnya, Googlebot meng-crawl melalui HTTP/1.1. Namun, mulai bulan November 2020, Googlebot dapat meng-crawl situs yang mungkin mendapatkan manfaat melalui HTTP/2 jika didukung oleh situs. Hal ini dapat menghemat resource komputasi (misalnya, CPU, RAM) untuk situs dan Googlebot, tetapi jika tidak, hal ini tidak memengaruhi pengindeksan atau peringkat situs Anda.

Untuk memilih tidak meng-crawl melalui HTTP/2, minta server yang menghosting situs Anda untuk merespons dengan kode status HTTP 421 saat Googlebot mencoba meng-crawl situs Anda melalui HTTP/2. Jika tidak berhasil, Anda dapat mengirim pesan ke tim Googlebot (tetapi solusi ini bersifat sementara).

Memblokir Googlebot agar tidak mengunjungi situs Anda

Hampir tidak mungkin untuk menjaga kerahasiaan server web dengan tidak memublikasikan link ke server web tersebut. Misalnya, begitu seseorang mengikuti link dari server "rahasia" Anda ke server web lain, URL "rahasia" Anda dapat muncul dalam tag perujuk dan dapat disimpan serta dipublikasikan oleh server web lain tersebut dalam log perujuknya. Demikian juga jika web itu memiliki banyak link yang usang dan rusak. Setiap kali seseorang memublikasikan link yang salah ke situs Anda, atau tidak memperbarui link untuk mencerminkan perubahan di server Anda, Googlebot akan mencoba meng-crawl link yang salah dari situs tersebut.

Jika Anda tidak ingin Googlebot meng-crawl konten di situs Anda, Anda memiliki sejumlah opsi. Perhatikan perbedaan antara mencegah Googlebot meng-crawl halaman, mencegah Googlebot mengindeks halaman, dan membuat halaman agar tidak dapat diakses sama sekali oleh crawler maupun pengguna.

Memverifikasi Googlebot

Sebelum memutuskan untuk memblokir Googlebot, perlu diperhatikan bahwa string agen pengguna yang digunakan oleh Googlebot sering di-spoofing oleh crawler lain. Penting untuk memverifikasi bahwa permintaan yang bermasalah benar-benar berasal dari Google. Cara terbaik untuk memverifikasi bahwa permintaan benar-benar berasal dari Googlebot adalah menggunakan pencarian DNS terbalik di IP sumber permintaan.

Googlebot dan semua bot mesin penelusuran yang berkualitas akan mematuhi perintah dalam robots.txt, tetapi beberapa orang jahat dan spammer tidak akan mematuhinya. Google aktif melawan spammer. Oleh karena itu, jika melihat halaman atau situs spam di hasil Google Penelusuran, Anda dapat melaporkan spam ke Google.