Crawling Edisi Desember: Memahami cara dan alasan Googlebot melakukan crawling

Selasa, 3 Desember 2024

Anda mungkin pernah mendengar bahwa Google Penelusuran perlu melakukan beberapa langkah sebelum halaman web dapat muncul di hasil Google Penelusuran. Salah satu langkah itu disebut crawling. Crawling untuk Google Penelusuran dilakukan oleh Googlebot, program yang berjalan di server Google yang mengambil URL dan menangani berbagai hal seperti error jaringan, pengalihan, dan komplikasi kecil lainnya yang mungkin ditemukan program tersebut saat menjelajahi web. Namun, ada beberapa detail yang jarang dibahas. Setiap minggu pada bulan ini, kami akan membahas beberapa detail yang mungkin berdampak signifikan terhadap cara situs Anda di-crawl.

Mari kita tinjau kembali: Apa itu crawling?

Crawling adalah proses menemukan halaman web baru, mengunjungi kembali versi yang diperbarui, serta mendownloadnya. Singkatnya, Googlebot mendapatkan URL, membuat permintaan HTTP ke server yang menghostingnya, lalu menangani respons dari server tersebut, yang mungkin termasuk mengikuti pengalihan, menangani error, dan meneruskan konten halaman ke sistem pengindeksan Google.

Namun, halaman web modern bukan sekadar HTML murni, jadi bagaimana dengan resource lain yang membentuk sebuah halaman? Bagaimana pengaruh crawling resource ini terhadap "anggaran crawling"? Apakah resource ini dapat di-cache di sistem Google? Lalu, apakah ada perbedaan antara URL yang belum di-crawl sebelumnya dan URL yang sudah diindeks? Dalam postingan ini, kami akan menjawab beberapa pertanyaan tersebut dan berbagai pertanyaan lainnya.

Googlebot dan crawling resource halaman

Selain HTML, situs modern menggunakan kombinasi berbagai teknologi seperti JavaScript dan CSS untuk memberikan pengalaman yang menarik serta fungsi yang bermanfaat kepada pengguna. Saat mengakses halaman tersebut dengan browser, browser akan terlebih dahulu mendownload URL induk yang menghosting data yang diperlukan untuk mulai membuat halaman bagi pengguna—HTML halaman. Data awal ini mungkin berisi referensi ke resource seperti JavaScript dan CSS, serta gambar dan video yang akan didownload lagi oleh browser untuk membuat halaman akhir yang kemudian ditampilkan kepada pengguna.

Google melakukan hal yang sama persis, meskipun dengan cara yang sedikit berbeda:

  1. Googlebot mendownload data awal dari URL induk—HTML halaman.
  2. Googlebot meneruskan data yang diambil ke Web Rendering Service (WRS).
  3. Dengan menggunakan Googlebot, WRS mendownload resource yang dirujuk dalam data asli.
  4. WRS membuat halaman menggunakan semua resource yang didownload seperti yang dilakukan browser pengguna.

Dibandingkan dengan browser, selang waktu antara setiap langkah mungkin jauh lebih lama karena adanya batasan penjadwalan, seperti beban pada server yang menghosting resource yang diperlukan untuk merender halaman. Di sinilah anggaran crawling berperan.

Meng-crawl resource yang diperlukan untuk merender halaman akan mengurangi anggaran crawling nama host yang menghosting resource tersebut. Untuk mengatasi hal ini, WRS mencoba meng-cache setiap resource (JavaScript dan CSS) yang dirujuk di halaman yang direndernya. Time to live (TTL) cache WRS tidak terpengaruh oleh perintah caching HTTP. Sebaliknya, WRS meng-cache semuanya selama maksimum 30 hari, yang membantu menghemat anggaran crawling situs untuk tugas crawling lainnya.

Dari perspektif pemilik situs, pengelolaan resource yang akan di-crawl beserta cara crawlingnya dapat memengaruhi anggaran crawling situs; sebaiknya:

  1. Gunakan resource sesedikit mungkin untuk memberikan pengalaman yang baik kepada pengguna; makin sedikit resource yang diperlukan untuk merender halaman, makin sedikit anggaran crawling yang dihabiskan selama rendering.
  2. Gunakan parameter perusak cache dengan hati-hati: jika URL resource berubah, Google mungkin perlu meng-crawl resource itu lagi, meskipun kontennya tidak berubah. Hal ini tentu saja akan mengurangi anggaran crawling.
  3. Hosting resource di nama host yang berbeda dengan situs utama, misalnya menggunakan CDN atau cukup dengan menghosting resource di subdomain yang berbeda. Tindakan ini akan mengalihkan masalah anggaran crawling ke host yang menayangkan resource.

Semua poin ini juga berlaku untuk resource media. Jika Googlebot (atau lebih spesifiknya, Googlebot-Image dan Googlebot-Video) mengambil resource tersebut, Googlebot akan menggunakan anggaran crawling situs.

Anda mungkin juga ingin menambahkan robots.txt ke daftar, tetapi dari perspektif rendering, pemblokiran crawling resource biasanya akan menyebabkan masalah. Jika WRS tidak dapat mengambil resource yang penting untuk proses rendering, Google Penelusuran mungkin mengalami kesulitan mengekstrak konten halaman dan memungkinkan halaman tersebut mendapatkan peringkat di Penelusuran.

Apa yang di-crawl Googlebot?

Sumber terbaik untuk menganalisis resource yang di-crawl Google adalah log akses mentah situs yang memiliki entri untuk setiap URL yang diminta oleh browser dan crawler. Untuk mengidentifikasi Crawler Google di log akses, kami memublikasikan rentang IP dalam dokumentasi developer.

Sumber terbaik kedua tentu saja adalah laporan Statistik Crawling Search Console, yang mengelompokkan setiap jenis resource per crawler:

Laporan Statistik Crawling di Search Console yang menampilkan berbagai jenis resource yang di-crawl Googlebot

Terakhir, jika Anda benar-benar ingin tahu tentang crawling dan rendering, serta ingin berdiskusi dengan orang lain terkait hal tersebut, Anda dapat mengunjungi komunitas Pusat Penelusuran atau menghubungi kami di LinkedIn.


Pembaruan

  • Pembaruan pada 6 Desember 2024: Mengidentifikasi dampak penayangan resource dari origin yang berbeda terhadap performa.

Ingin mempelajari crawling lebih lanjut? Lihat seluruh seri Crawling Edisi Desember: