Panduan pemilik situs besar untuk mengelola anggaran crawling

Panduan ini menjelaskan cara mengoptimalkan crawling Google untuk situs yang sangat besar dan sering diperbarui.

Jika situs Anda tidak memiliki banyak halaman yang berubah dengan cepat, atau jika halaman Anda tampak di-crawl pada hari yang sama saat halaman tersebut dipublikasikan, Anda tidak perlu membaca panduan ini; terus memperbarui peta situs dan memeriksa cakupan indeks Anda secara teratur seharusnya sudah cukup.

Jika Anda memiliki konten yang telah tersedia selama beberapa waktu tetapi belum pernah diindeks, ini adalah masalah lain; gunakan Alat Inspeksi URL untuk mencari tahu mengapa halaman Anda tidak diindeks.

Sasaran panduan ini

Panduan ini merupakan panduan lanjutan dan ditujukan untuk:

  • Situs besar (lebih dari 1 juta halaman unik) dengan konten yang cukup sering berubah (seminggu sekali)
  • Situs sedang atau lebih besar (lebih dari 10.000 halaman unik) dengan konten yang berubah sangat cepat (setiap hari)
  • Situs dengan sebagian besar total URL-nya diklasifikasikan oleh Search Console sebagai Ditemukan - saat ini tidak diindeks

Teori umum crawling

Web adalah ruang yang hampir tak terbatas, yang melampaui kemampuan Google untuk menjelajahi dan mengindeks setiap URL yang tersedia. Karena itu, ada batas seberapa lama waktu yang dapat dihabiskan Googlebot untuk meng-crawl satu situs. Jumlah waktu dan resource yang dialokasikan Google untuk melakukan crawling situs biasanya disebut anggaran crawling situs. Perhatikan bahwa tidak semua yang di-crawl di situs Anda akan diindeks; setiap halaman harus dievaluasi, digabungkan, dan dinilai untuk menentukan apakah halaman akan diindeks setelah di-crawl.

Anggaran crawling ditentukan oleh dua elemen utama: batas kapasitas crawl dan permintaan crawl.

Batas kapasitas crawl

Googlebot ingin meng-crawl situs Anda tanpa membebani server. Untuk mencegah hal ini, Googlebot menghitung batas kapasitas crawl, yang merupakan jumlah maksimum koneksi paralel simultan yang dapat digunakan Googlebot untuk meng-crawl situs, serta penundaan waktu antar-pengambilan. Penghitungan ini dilakukan agar dapat mencakup semua konten penting tanpa membebani server Anda.

Batas kapasitas crawl dapat naik dan turun berdasarkan beberapa faktor:

  • Kualitas crawl: Jika situs merespons dengan cepat untuk sementara waktu, batasnya akan naik, yang berarti lebih banyak koneksi dapat digunakan untuk melakukan crawling. Jika situs melambat atau merespons dengan error server, batas akan menurun dan Googlebot akan lebih sedikit melakukan crawling.
  • Batas crawling Google: Google memiliki banyak mesin, tetapi bukan berarti mesin-mesin tersebut tidak terbatas. Kami masih harus membuat pilihan dengan resource yang kami miliki.

Permintaan crawl

Google biasanya menghabiskan waktu sebanyak yang diperlukan untuk meng-crawl situs, dengan mempertimbangkan ukuran, frekuensi pembaruan, kualitas halaman, dan relevansinya, dibandingkan dengan situs lain.

Faktor yang memiliki peran penting dalam menentukan permintaan crawl antara lain:

  • Inventaris yang diketahui: Tanpa panduan dari Anda, Googlebot akan mencoba meng-crawl semua atau sebagian besar URL yang diketahuinya di situs Anda. Jika banyak dari URL ini merupakan duplikat, atau Anda tidak ingin URL tersebut di-crawl karena beberapa alasan lain (dihapus, tidak penting, dan sebagainya), hal ini akan membuang banyak waktu crawling Google di situs Anda. Faktor inilah yang paling dapat Anda kontrol secara langsung.
  • Popularitas: URL yang lebih populer di internet cenderung di-crawl lebih sering untuk mempertahankan posisinya di indeks kami.
  • Konten usang: Sistem kami ingin meng-crawl ulang dokumen sesering mungkin untuk menemukan perubahan apa pun.

Selain itu, peristiwa yang berdampak pada situs secara keseluruhan seperti perpindahan situs dapat memicu peningkatan permintaan crawl untuk mengindeks ulang konten dengan URL baru.

Ringkasan

Dengan menggabungkan kapasitas crawl dan permintaan crawl, Google menetapkan anggaran crawling situs sebagai kumpulan URL yang dapat dan ingin di-crawl oleh Googlebot. Meskipun batas kapasitas crawl tidak tercapai, jika permintaan crawl rendah, Googlebot akan mengurangi crawling situs Anda.

Praktik terbaik

Ikuti praktik terbaik berikut untuk memaksimalkan efisiensi crawling:

  • Mengelola inventaris URL: Gunakan alat yang sesuai untuk memberi tahu Google halaman mana yang harus di-crawl dan yang tidak perlu di-crawl. Jika Google menghabiskan terlalu banyak waktu untuk meng-crawl URL yang tidak sesuai untuk indeks, Googlebot mungkin memutuskan bahwa tidak ada waktu untuk melihat seluruh situs Anda (atau menaikkan anggaran Anda untuk melakukannya).
    • Menggabungkan konten duplikat. Hapus konten duplikat untuk memfokuskan crawling pada konten unik, bukan URL unik.
    • Memblokir crawling URL menggunakan robots.txt. Beberapa halaman mungkin penting bagi pengguna, tetapi Anda tidak ingin halaman tersebut muncul di hasil Penelusuran. Misalnya, halaman scrolling tanpa batas yang menduplikasi informasi di halaman tertaut, atau versi dengan urutan berbeda dari halaman yang sama. Jika Anda tidak dapat menggabungkannya seperti yang dijelaskan di butir pertama, blokir halaman yang tidak penting (untuk penelusuran) menggunakan robots.txt. Memblokir URL dengan robots.txt akan mengurangi kemungkinan pengindeksan URL secara signifikan.
    • Menampilkan kode status 404 atau 410 untuk halaman yang telah dihapus secara permanen. Google tidak akan melupakan URL yang diketahuinya, tetapi kode status 404 merupakan sinyal kuat untuk tidak lagi meng-crawl URL tersebut. Namun, URL yang diblokir akan tetap menjadi bagian dari antrean crawling lebih lama, dan akan di-crawl ulang saat pemblokiran dihapus.
    • Memperbaiki error soft 404. Halaman soft 404 akan terus di-crawl dan membuang anggaran Anda. Periksa Laporan Cakupan Indeks untuk melihat error soft 404.
    • Selalu memperbarui peta situs Anda. Google membaca peta situs Anda secara berkala, jadi pastikan untuk menyertakan semua konten yang ingin di-crawl oleh Google. Jika situs Anda menyertakan konten yang diperbarui, sebaiknya sertakan tag <lastmod>.
    • Menghindari rantai pengalihan panjang yang akan berdampak negatif pada crawling.
  • Menjadikan halaman lebih cepat untuk dimuat. Jika Google dapat memuat dan merender halaman Anda dengan lebih cepat, kami mungkin dapat membaca lebih banyak konten dari situs Anda.
  • Memantau crawling situs Anda. Pantau apakah situs Anda mengalami masalah ketersediaan selama crawling, dan cari cara untuk membuat crawling Anda lebih efisien.

Memantau crawling dan pengindeksan situs Anda

Berikut adalah langkah-langkah utama untuk memantau profil crawl situs Anda:

  1. Lihat apakah Googlebot mengalami masalah ketersediaan di situs Anda.
  2. Lihat apakah Anda memiliki halaman yang tidak di-crawl, tetapi seharusnya di-crawl.
  3. Lihat apakah ada bagian dari situs Anda yang perlu di-crawl lebih cepat daripada yang sudah dilakukan.
  4. Tingkatkan efisiensi crawling situs Anda.
  5. Tangani crawling berlebihan di situs Anda.

Lihat apakah Googlebot mengalami masalah ketersediaan di situs Anda

Meningkatkan ketersediaan situs tidak selalu menaikkan anggaran crawling; Google menentukan frekuensi crawling terbaik berdasarkan permintaan crawl, seperti yang dijelaskan sebelumnya. Namun, masalah ketersediaan mencegah Google meng-crawl situs Anda terlalu sering.

Diagnosis:

Gunakan laporan Statistik Crawling untuk melihat histori crawling Googlebot untuk situs Anda. Laporan ditampilkan saat Google mengalami masalah ketersediaan di situs Anda. Jika error atau peringatan ketersediaan dilaporkan untuk situs Anda, cari instance dalam grafik Ketersediaan host yang permintaan Googlebot-nya melebihi garis batas merah, klik grafik untuk melihat URL mana yang gagal, dan coba hubungkan dengan yang bermasalah di situs Anda.

Selain itu, Anda juga dapat menggunakan Alat Inspeksi URL untuk menguji beberapa URL di situs Anda. Jika alat ini menampilkan peringatan Beban host terlampaui, berarti Googlebot tidak dapat meng-crawl URL sebanyak yang ditemukan di situs Anda.

Penanganan:

  • Baca dokumentasi laporan Statistik Crawling untuk mempelajari cara menemukan dan menangani beberapa masalah ketersediaan.
  • Blokir halaman agar tidak di-crawl jika tidak ingin halaman tersebut di-crawl. (Lihat mengelola inventaris Anda)
  • Tingkatkan kecepatan pemuatan dan rendering halaman. (Lihat Meningkatkan efisiensi crawling situs)
  • Tingkatkan kapasitas server Anda. Jika Google tampak secara konsisten meng-crawl situs Anda sesuai batas kapasitas penayangannya, tetapi masih ada URL penting yang tidak di-crawl atau diperbarui sebanyak yang dibutuhkan, cobalah untuk mendapatkan lebih banyak resource penayangan yang memungkinkan Google meminta lebih banyak halaman di situs Anda. Periksa histori ketersediaan host Anda di laporan Statistik Crawling untuk mengetahui apakah frekuensi crawling Google tampak sering melewati batas. Jika ya, tingkatkan resource penayangan Anda selama satu bulan dan lihat apakah permintaan crawl meningkat selama periode tersebut.

Lihat apakah ada bagian situs Anda yang tidak di-crawl, tetapi seharusnya di-crawl

Google menghabiskan waktu sebanyak yang diperlukan di situs Anda untuk mengindeks semua konten berkualitas tinggi dan bernilai bagi pengguna yang dapat ditemukannya. Jika Anda merasa Googlebot melewatkan konten penting, mungkin Googlebot tidak mengetahui tentang konten tersebut, konten diblokir dari Google, atau ketersediaan situs Anda membatasi akses Google (atau Google mencoba untuk tidak membebani situs Anda).

Diagnosis:

Search Console tidak menyediakan histori crawl untuk situs yang dapat difilter menurut URL atau jalur, tetapi Anda dapat memeriksa log situs untuk melihat apakah URL tertentu telah di-crawl oleh Googlebot. Pengindeksan URL yang di-crawl adalah persoalan lain.

Ingat bahwa untuk sebagian besar situs, halaman baru akan membutuhkan waktu minimal beberapa hari agar dapat dilihat; sebagian besar situs seharusnya tidak mengharapkan crawling URL di hari yang sama, dengan pengecualian situs yang terbatas waktu seperti situs berita.

Penanganan:

Jika Anda menambahkan halaman ke situs dan halaman tersebut tidak di-crawl dalam jangka waktu yang wajar, mungkin Google tidak mengetahuinya, konten diblokir, situs telah mencapai kapasitas penayangan maksimum, atau Anda kehabisan anggaran crawling.

  1. Beri tahu Google tentang halaman baru Anda: perbarui peta situs Anda untuk mencerminkan URL baru.
  2. Periksa aturan robots.txt untuk memastikan bahwa halaman tidak diblokir secara tidak sengaja.
  3. Tinjau prioritas crawling Anda (gunakan anggaran crawling dengan bijak). Kelola inventaris Anda dan tingkatkan efisiensi crawling situs Anda.
  4. Pastikan Anda masih memiliki kapasitas penayangan. Googlebot akan mengurangi crawling jika mendeteksi bahwa server Anda mengalami masalah dalam merespons permintaan crawl.

Perhatikan bahwa halaman mungkin tidak ditampilkan dalam hasil penelusuran, meskipun di-crawl, jika tidak ada nilai atau permintaan pengguna yang memadai untuk konten tersebut.

Lihat apakah pembaruan di-crawl dengan cukup cepat

Jika halaman baru atau yang diperbarui di situs Anda tidak ditemukan, mungkin karena kami belum melihatnya atau belum menyadari bahwa halaman tersebut diperbarui. Berikut ini cara untuk membantu kami mengetahui pembaruan halaman.

Perhatikan bahwa Google berusaha memeriksa dan mengindeks halaman secara tepat waktu. Untuk sebagian besar situs, diperlukan waktu tiga hari atau lebih. Jangan berharap Google mengindeks halaman pada hari yang sama saat Anda memublikasikannya, kecuali jika situs Anda adalah situs berita atau memiliki konten bernilai tinggi lainnya yang sangat terbatas oleh waktu.

Diagnosis:

Periksa log situs Anda untuk melihat kapan URL tertentu di-crawl oleh Googlebot.

Untuk mempelajari tanggal pengindeksan, gunakan Alat Inspeksi URL atau lakukan penelusuran Google untuk URL yang telah Anda perbarui.

Penanganan:

Lakukan:

  • Gunakan peta situs berita jika situs Anda memiliki konten berita.
  • Gunakan tag <lastmod> di peta situs untuk menunjukkan kapan URL yang diindeks telah diperbarui.
  • Gunakan struktur URL sederhana untuk membantu Google menemukan halaman Anda.
  • Berikan link <a> standar yang dapat di-crawl untuk membantu Google menemukan halaman Anda.

Hindari:

  • Mengirimkan peta situs yang sama dan tidak berubah berkali-kali setiap hari.
  • Mengharapkan Googlebot akan meng-crawl semua yang ada dalam peta situs, atau langsung meng-crawlnya. Peta situs adalah saran yang berguna bagi Googlebot, bukan persyaratan mutlak.
  • Menyertakan URL di peta situs Anda yang tidak ingin ditampilkan di Penelusuran. Hal ini dapat membuang anggaran crawling Anda di halaman yang tidak ingin diindeks.

Tingkatkan efisiensi crawling situs Anda

Meningkatkan kecepatan pemuatan halaman Anda

Crawling Google dibatasi oleh bandwidth, waktu, dan ketersediaan instance Googlebot. Jika server Anda merespons permintaan lebih cepat, kami mungkin dapat meng-crawl lebih banyak halaman di situs Anda. Artinya, Google hanya ingin meng-crawl konten berkualitas tinggi, sehingga membuat halaman berkualitas rendah lebih cepat tidak akan mendorong Googlebot meng-crawl situs Anda lebih banyak; sebaliknya, jika sepertinya kami tidak melihat konten berkualitas tinggi di situs Anda, mungkin kami akan meningkatkan anggaran untuk meng-crawl konten tersebut.

Berikut cara mengoptimalkan halaman dan resource untuk crawling:

  • Cegah pemuatan resource yang besar tetapi tidak penting oleh Googlebot menggunakan robots.txt. Pastikan untuk hanya memblokir resource yang tidak penting—yaitu, resource yang tidak penting untuk memahami arti halaman (seperti gambar dekorasi).
  • Pastikan halaman Anda dapat dimuat dengan cepat.
  • Perhatikan rantai pengalihan yang panjang, yang berdampak negatif pada crawling.
  • Waktu untuk merespons permintaan server, maupun waktu yang diperlukan untuk merender halaman adalah hal yang penting, termasuk waktu pemuatan dan waktu proses untuk resource yang disematkan seperti gambar dan skrip. Perhatikan resource besar atau lambat yang diperlukan untuk pengindeksan.

Menentukan perubahan konten dengan kode status HTTP

Google umumnya mendukung header permintaan HTTP If-Modified-Since dan If-None-Match untuk crawling. Crawler Google tidak mengirimkan header dengan semua upaya crawling; hal ini bergantung pada kasus penggunaan permintaan (misalnya, AdsBot lebih berpeluang untuk menetapkan header permintaan HTTP If-Modified-Since dan If-None-Match). Jika crawler kami mengirimkan header If-Modified-Since, nilai headernya adalah tanggal dan waktu saat konten terakhir kali di-crawl. Berdasarkan nilai tersebut, server mungkin memilih untuk menampilkan kode status HTTP 304 (Not Modified) tanpa isi respons, yang dalam hal ini Google akan menggunakan kembali versi konten yang terakhir kali di-crawl. Jika konten lebih baru dari tanggal yang ditentukan oleh crawler dalam header If-Modified-Since, server dapat menampilkan kode status HTTP 200 (OK) dengan isi respons.

Terlepas dari header permintaannya, Anda dapat mengirimkan kode status HTTP 304 (Not Modified) dan tanpa isi respons untuk permintaan Googlebot jika kontennya belum diubah sejak terakhir kali Googlebot mengunjungi URL tersebut. Tindakan ini akan menghemat resource dan waktu pemrosesan server, yang mungkin secara tidak langsung dapat meningkatkan efisiensi crawling.

Menyembunyikan URL yang tidak Anda inginkan di hasil penelusuran

Menghabiskan resource server untuk halaman yang tidak diperlukan dapat mengurangi aktivitas crawling dari halaman yang penting bagi Anda, yang mungkin menyebabkan penundaan signifikan dalam menemukan konten bermutu yang baru atau yang diperbarui di situs.

Mengekspos banyak URL yang tidak ingin di-crawl di situs Anda oleh Penelusuran dapat berdampak negatif pada crawling dan pengindeksan situs. Biasanya URL ini termasuk dalam kategori berikut:

  • Navigasi berfaset dan ID sesi: Navigasi berfaset biasanya merupakan konten duplikat dari situs; ID sesi dan parameter URL lainnya yang hanya mengurutkan atau memfilter halaman tidak memberikan konten baru. Gunakan robots.txt untuk memblokir halaman navigasi berfaset.
  • Konten duplikat: Bantu Google mengidentifikasi konten duplikat untuk menghindari crawling yang tidak perlu.
  • Halaman soft 404: Tampilkan kode 404 saat halaman sudah tidak ada lagi.
  • Halaman yang diretas: Pastikan Anda memeriksa laporan Masalah Keamanan dan memperbaiki atau menghapus halaman diretas yang Anda temukan.
  • Ruang dan proxy yang tidak terbatas: Blokir keduanya agar tidak melakukan crawling dengan robots.txt.
  • Konten berkualitas rendah dan spam: Tentu saja sebaiknya dihindari.
  • Halaman keranjang belanja, halaman scrolling tanpa batas, dan halaman yang melakukan tindakan (seperti halaman "daftar" atau "beli sekarang").

Lakukan:

  • Gunakan robots.txt jika Anda tidak ingin Google meng-crawl resource atau halaman sama sekali.
  • Jika resource umum digunakan kembali di beberapa halaman (seperti gambar bersama atau file JavaScript), rujuk resource dari URL yang sama di setiap halaman, sehingga Google dapat menyimpan cache dan menggunakan kembali resource yang sama tanpa perlu meminta resource yang sama beberapa kali.

Hindari:

  • Jangan menambahkan atau menghapus halaman atau direktori dari robots.txt secara teratur sebagai cara untuk mengalokasikan ulang anggaran crawling untuk situs Anda. Gunakan robots.txt hanya untuk halaman atau resource yang tidak ingin Anda tampilkan di Google untuk jangka panjang.
  • Jangan menukar peta situs atau menggunakan mekanisme tersembunyi sementara untuk mengalokasikan ulang anggaran.

Tangani crawling berlebihan di situs Anda (keadaan darurat)

Googlebot memiliki algoritme untuk mencegahnya membebani situs Anda dengan permintaan crawl. Namun, jika Anda menemukan bahwa Googlebot membebani situs Anda, ada beberapa hal yang dapat dilakukan.

Diagnosis:

Pantau server Anda untuk permintaan Googlebot yang berlebihan ke situs Anda.

Penanganan:

Dalam keadaan darurat, sebaiknya lakukan langkah-langkah berikut untuk memperlambat crawling yang berlebihan dari Googlebot:

  1. Tampilkan kode status respons HTTP 503 atau 429 untuk sementara di permintaan Googlebot saat server Anda kelebihan beban. Googlebot akan mencoba kembali URL ini selama sekitar 2 hari. Perhatikan bahwa menampilkan kode "tidak tersedia" selama lebih dari beberapa hari akan menyebabkan Google memperlambat atau menghentikan crawling URL secara permanen di situs Anda, jadi ikuti langkah tambahan berikutnya.
  2. Saat frekuensi crawling turun, berhentilah menampilkan kode status respons HTTP 503 atau 429 untuk permintaan crawl; menampilkan 503 atau 429 selama lebih dari 2 hari akan menyebabkan Google menghapus URL tersebut dari indeks.
  3. Pantau crawling dan kapasitas host Anda dari waktu ke waktu.
  4. Jika crawler yang bermasalah adalah salah satu dari crawler AdsBot, mungkin masalahnya terjadi karena Anda membuat target Iklan Penelusuran Dinamis untuk situs yang akan di-crawl Google. Crawl ini akan terjadi lagi setiap 3 minggu. Jika Anda tidak memiliki kapasitas server untuk menangani crawl ini, batasi target iklan atau tingkatkan kapasitas penayangan.

Mitos dan fakta tentang crawling

Uji pengetahuan Anda tentang cara Google meng-crawl dan mengindeks situs.

Melakukan kompresi untuk peta situs saya dapat meningkatkan anggaran crawling.
Benar
Salah
Tidak. Peta situs yang di-zip masih harus diambil dari server, sehingga Anda tidak benar-benar menghemat banyak waktu atau upaya crawling dari pihak Google dengan mengirimkan peta situs yang dikompresi.
Google menyukai konten yang lebih baru, jadi sebaiknya saya menyesuaikan halaman saya.
Benar
Salah
Konten dinilai berdasarkan kualitas, terlepas dari usianya. Buat dan perbarui konten Anda jika diperlukan, tetapi tidak ada nilai tambah bagi halaman yang dibuat seolah-olah tampak baru dengan membuat perubahan kecil dan memperbarui tanggal halaman.
Google lebih memilih konten lama (lebih berbobot) daripada konten baru.
Benar
Salah
Jika halaman Anda berguna, halaman tersebut akan berguna, baik baru maupun lama.
Google lebih memilih URL yang bersih dan tidak menyukai parameter kueri.
Benar
Salah
Kami dapat meng-crawl parameter.
Semakin cepat halaman Anda dimuat dan dirender, semakin banyak yang dapat di-crawl Google.
Benar
Benar, karena resource kami dibatasi oleh kombinasi waktu dan jumlah bot crawling. Jika Anda dapat menayangkan lebih banyak halaman dalam waktu yang terbatas, kami akan dapat meng-crawl lebih banyak halaman. Namun, kami mungkin mengalokasikan lebih banyak waktu untuk meng-crawl situs yang memiliki informasi yang lebih penting, meskipun situs tersebut lebih lambat. Mungkin menurut Anda, membuat situs lebih cepat bagi pengguna lebih penting daripada membuatnya lebih cepat untuk meningkatkan cakupan crawl. Jauh lebih mudah untuk membantu Google meng-crawl konten yang tepat dibandingkan meng-crawl semua konten Anda setiap saat. Perhatikan bahwa meng-crawl situs melibatkan pengambilan dan rendering konten. Waktu yang digunakan untuk proses rendering halaman dihitung sebanyak waktu yang dihabiskan untuk meminta halaman. Jadi, membuat halaman Anda dirender lebih cepat juga akan meningkatkan kecepatan crawling.
Salah
Situs kecil tidak di-crawl sesering situs besar.
Benar
Salah
Jika situs memiliki konten penting yang sering berubah, kami akan sering meng-crawl situs tersebut, terlepas dari ukurannya.
Semakin dekat konten Anda ke halaman beranda, semakin penting konten tersebut bagi Google.
Benar
Sebagian benar
Halaman beranda situs biasanya adalah halaman yang paling penting di situs Anda, sehingga halaman yang ditautkan langsung ke halaman beranda mungkin dianggap lebih penting dan lebih sering di-crawl. Namun, ini tidak berarti bahwa peringkat halaman ini akan lebih tinggi daripada halaman lain di situs Anda.
Salah
Pembuatan versi URL adalah cara yang baik untuk mendorong Google meng-crawl ulang halaman saya.
Benar
Sebagian benar
Anda dapat menggunakan URL yang diberi nomor versi agar Google meng-crawl halaman Anda lagi secara lebih cepat. Namun, umumnya tindakan ini tidak diperlukan dan akan menyia-nyiakan resource crawl jika halaman tidak benar-benar berubah. Jika menggunakan URL yang diberi nomor versi untuk menunjukkan konten baru, sebaiknya hanya ubah URL ketika konten halaman telah berubah secara signifikan.
Salah
Kecepatan situs dan error memengaruhi anggaran crawling.
Benar
Mempercepat situs akan memperbaiki pengalaman pengguna sekaligus meningkatkan frekuensi crawling. Bagi Googlebot, situs yang cepat menunjukkan bahwa server sehat, sehingga situs dapat memperoleh lebih banyak konten dengan jumlah koneksi yang sama. Di sisi lain, jumlah kode status respons HTTP 5xx (error server) atau waktu tunggu koneksi yang signifikan menandakan sebaliknya, dan crawl akan melambat. Sebaiknya perhatikan laporan Statistik Crawling di Search Console dan pastikan jumlah error server rendah.
Salah
Crawling adalah faktor peringkat.
Benar
Salah
Meningkatkan frekuensi crawling belum tentu meningkatkan posisi situs pada hasil penelusuran. Google menggunakan banyak sinyal untuk menentukan peringkat hasil, dan meskipun diperlukan untuk membuat halaman muncul di hasil penelusuran, crawling bukan sinyal penentu peringkat.
URL alternatif dan konten yang disematkan memengaruhi anggaran crawling.
Benar
Umumnya, setiap URL yang di-crawl Googlebot akan memengaruhi anggaran crawling situs. URL alternatif, seperti AMP atau hreflang, serta konten yang disematkan, seperti CSS dan JavaScript, termasuk pengambilan XHR, mungkin harus di-crawl dan akan menghabiskan anggaran crawling situs.
Salah
Saya dapat mengontrol Googlebot dengan aturan "crawl-delay".
Benar
Salah
Aturan robots.txt "crawl-delay" non-standar tidak diproses oleh Googlebot.
Aturan nofollow memengaruhi anggaran crawling.
Benar
Sebagian benar
URL apa pun yang di-crawl akan memengaruhi anggaran crawling, jadi meskipun jika halaman Anda menandai URL sebagai nofollow, URL tersebut masih dapat di-crawl apabila halaman lain di situs Anda, atau halaman apa pun di web, tidak memberi label link sebagai nofollow.
Salah
Saya dapat menggunakan noindex untuk mengontrol anggaran crawling.
Benar
Sebagian benar
Setiap URL yang di-crawl akan memengaruhi anggaran crawling, dan Google harus meng-crawl halaman untuk menemukan aturan noindex.

Namun, noindex dapat membantu Anda mencegah pengindeksan halaman. Jika Anda ingin memastikan bahwa halaman tersebut tidak diindeks oleh Google, terus gunakan noindex dan jangan khawatir tentang anggaran crawling. Penting juga untuk diperhatikan bahwa jika Anda menghapus URL dari indeks Google dengan noindex atau sebaliknya, Googlebot dapat berfokus pada URL lain di situs Anda, yang berarti noindex dapat secara tidak langsung mengosongkan sebagian anggaran crawling untuk situs Anda dalam jangka panjang.
Salah
Halaman yang menayangkan kode status HTTP 4xx membuang anggaran crawling.
Benar
Salah
Halaman yang menayangkan kode status HTTP 4xx (kecuali 429) tidak membuang anggaran crawling. Google mencoba meng-crawl halaman, tetapi tidak menerima konten apa pun kecuali kode status.