Selasa, 3 Desember 2024
Anda mungkin pernah mendengar bahwa Google Penelusuran perlu melakukan beberapa langkah sebelum halaman web dapat muncul di hasil Google Penelusuran. Salah satu langkah itu disebut crawling. Crawling untuk Google Penelusuran dilakukan oleh Googlebot, program yang berjalan di server Google yang mengambil URL dan menangani berbagai hal seperti error jaringan, pengalihan, dan komplikasi kecil lainnya yang mungkin ditemukan program tersebut saat menjelajahi web. Namun, ada beberapa detail yang jarang dibahas. Setiap minggu pada bulan ini, kami akan membahas beberapa detail yang mungkin berdampak signifikan terhadap cara situs Anda di-crawl.
Mari kita tinjau kembali: Apa itu crawling?
Crawling adalah proses menemukan halaman web baru, mengunjungi kembali versi yang diperbarui, serta mendownloadnya. Singkatnya, Googlebot mendapatkan URL, membuat permintaan HTTP ke server yang menghostingnya, lalu menangani respons dari server tersebut, yang mungkin termasuk mengikuti pengalihan, menangani error, dan meneruskan konten halaman ke sistem pengindeksan Google.
Namun, halaman web modern bukan sekadar HTML murni, jadi bagaimana dengan resource lain yang membentuk sebuah halaman? Bagaimana pengaruh crawling resource ini terhadap "anggaran crawling"? Apakah resource ini dapat di-cache di sistem Google? Lalu, apakah ada perbedaan antara URL yang belum di-crawl sebelumnya dan URL yang sudah diindeks? Dalam postingan ini, kami akan menjawab beberapa pertanyaan tersebut dan berbagai pertanyaan lainnya.
Googlebot dan crawling resource halaman
Selain HTML, situs modern menggunakan kombinasi berbagai teknologi seperti JavaScript dan CSS untuk memberikan pengalaman yang menarik serta fungsi yang bermanfaat kepada pengguna. Saat mengakses halaman tersebut dengan browser, browser akan terlebih dahulu mendownload URL induk yang menghosting data yang diperlukan untuk mulai membuat halaman bagi pengguna—HTML halaman. Data awal ini mungkin berisi referensi ke resource seperti JavaScript dan CSS, serta gambar dan video yang akan didownload lagi oleh browser untuk membuat halaman akhir yang kemudian ditampilkan kepada pengguna.
Google melakukan hal yang sama persis, meskipun dengan cara yang sedikit berbeda:
- Googlebot mendownload data awal dari URL induk—HTML halaman.
- Googlebot meneruskan data yang diambil ke Web Rendering Service (WRS).
- Dengan menggunakan Googlebot, WRS mendownload resource yang dirujuk dalam data asli.
- WRS membuat halaman menggunakan semua resource yang didownload seperti yang dilakukan browser pengguna.
Dibandingkan dengan browser, selang waktu antara setiap langkah mungkin jauh lebih lama karena adanya batasan penjadwalan, seperti beban pada server yang menghosting resource yang diperlukan untuk merender halaman. Di sinilah anggaran crawling berperan.
Meng-crawl resource yang diperlukan untuk merender halaman akan mengurangi anggaran crawling nama host yang menghosting resource tersebut. Untuk mengatasi hal ini, WRS mencoba meng-cache setiap resource (JavaScript dan CSS) yang dirujuk di halaman yang direndernya. Time to live (TTL) cache WRS tidak terpengaruh oleh perintah caching HTTP. Sebaliknya, WRS meng-cache semuanya selama maksimum 30 hari, yang membantu menghemat anggaran crawling situs untuk tugas crawling lainnya.
Dari perspektif pemilik situs, pengelolaan resource yang akan di-crawl beserta cara crawlingnya dapat memengaruhi anggaran crawling situs; sebaiknya:
- Gunakan resource sesedikit mungkin untuk memberikan pengalaman yang baik kepada pengguna; makin sedikit resource yang diperlukan untuk merender halaman, makin sedikit anggaran crawling yang dihabiskan selama rendering.
- Gunakan parameter perusak cache dengan hati-hati: jika URL resource berubah, Google mungkin perlu meng-crawl resource itu lagi, meskipun kontennya tidak berubah. Hal ini tentu saja akan mengurangi anggaran crawling.
- Hosting resource di nama host yang berbeda dengan situs utama, misalnya menggunakan CDN atau cukup dengan menghosting resource di subdomain yang berbeda. Tindakan ini akan mengalihkan masalah anggaran crawling ke host yang menayangkan resource.
Semua poin ini juga berlaku untuk resource media. Jika Googlebot (atau lebih spesifiknya,
Googlebot-Image
dan Googlebot-Video
) mengambil resource tersebut, Googlebot akan
menggunakan anggaran crawling situs.
Anda mungkin juga ingin menambahkan robots.txt ke daftar, tetapi dari perspektif rendering, pemblokiran crawling resource biasanya akan menyebabkan masalah. Jika WRS tidak dapat mengambil resource yang penting untuk proses rendering, Google Penelusuran mungkin mengalami kesulitan mengekstrak konten halaman dan memungkinkan halaman tersebut mendapatkan peringkat di Penelusuran.
Apa yang di-crawl Googlebot?
Sumber terbaik untuk menganalisis resource yang di-crawl Google adalah log akses mentah situs yang memiliki entri untuk setiap URL yang diminta oleh browser dan crawler. Untuk mengidentifikasi Crawler Google di log akses, kami memublikasikan rentang IP dalam dokumentasi developer.
Sumber terbaik kedua tentu saja adalah laporan Statistik Crawling Search Console, yang mengelompokkan setiap jenis resource per crawler:

Terakhir, jika Anda benar-benar ingin tahu tentang crawling dan rendering, serta ingin berdiskusi dengan orang lain terkait hal tersebut, Anda dapat mengunjungi komunitas Pusat Penelusuran atau menghubungi kami di LinkedIn.
Pembaruan
- Pembaruan pada 6 Desember 2024: Mengidentifikasi dampak penayangan resource dari origin yang berbeda terhadap performa.
Ingin mempelajari crawling lebih lanjut? Lihat seluruh seri Crawling Edisi Desember:
Artikel Pengingat tentang Robots: memperkenalkan seri baru
Senin, 24 Februari 2025 Terkadang kami mendapatkan pertanyaan tentang robots.txt, tag meta robots, serta fungsi kontrol yang ditawarkannya. Setelah meluncurkan seri artikel bulan Desember tentang crawling, kami rasa ini adalah waktu yang tepat untuk
Search Central Live akan hadir di New York City
Kamis, 13 Februari 2025 Dengan senang hati kami umumkan bahwa Search Central Live akan hadir di New York City untuk pertama kalinya pada 20 Maret 2025. Tim Google Penelusuran telah beberapa kali menyelenggarakan sejumlah acara di kota ini, tetapi
Menyederhanakan elemen URL yang terlihat di hasil penelusuran seluler
Kamis, 23 Januari 2025 Penelusur seluler akan segera melihat tampilan URL yang lebih ringkas dan sederhana di hasil penelusuran. Awalnya diperkenalkan sebagai bagian dari fitur "hierarki situs", kami mendapati bahwa elemen breadcrumb tidak terlalu
Crawling edisi Desember: ringkasan tahun 2024
Selasa, 31 Desember 2024 Setelah membaca postingan ini, Anda mungkin akan mencoba menebak apakah penulis postingan blog ini adalah model bahasa besar (LLM) atau Gary. Wajar saja jika Anda melakukan hal tersebut dan menyelidiki secara mendalam nuansa
Crawling Edisi Desember: CDN dan crawling
Selasa, 24 Desember 2024 Jaringan penayangan konten (CDN) sangat cocok untuk mengurangi latensi situs Anda dan umumnya mencegah terjadinya masalah terkait traffic web. Itulah tujuan utama CDN: menayangkan konten dengan cepat meskipun situs Anda
Crawling Edisi Desember: Navigasi berfaset
Selasa, 17 Desember 2024 Kami baru saja memublikasikan dokumen baru tentang praktik terbaik navigasi berfaset, yang awalnya dipublikasikan sebagai postingan blog. Berikut adalah ringkasan beberapa komponen penting dari halaman dokumentasi baru.
Search Central Live Kuala Lumpur dan Taipei 2024: Rekap
Jumat, 13 Desember 2024 Acara Search Central Live di Kuala Lumpur dan Taipei sangat luar biasa, terutama karena lebih dari 600 orang menghadiri acara tersebut. Kami senang melihat tingkat antusiasme dan engagement dari para peserta meskipun sehari
Cara yang lebih baik untuk melihat data performa terbaru Anda di Search Console
Kamis, 12 Desember 2024 Untuk membantu memantau performa terbaru konten Anda dengan lebih baik, kami meluncurkan tampilan '24 jam' di laporan performa SC dan meningkatkan keaktualan data. Kami meluncurkan perubahan ini untuk semua properti secara
Crawling Edisi Desember: Penyimpanan cache HTTP
Senin, 9 Desember 2024 Mohon izinkan kami menyimpan cache. Seiring dengan berkembangnya internet dari tahun ke tahun, jumlah halaman yang di-crawl Google juga meningkat. Meskipun infrastruktur crawling Google sudah lama mendukung mekanisme
Bergabunglah bersama kami di Search Central Live di Zurich
Rabu, 20 November 2024 Kami mengundang Anda untuk bergabung bersama kami dalam Search Central Live Zurich 2024 pada 12 Desember 2024 di kantor Google di Zurich. Kami berharap dapat bertemu dengan Anda untuk menyaksikan berbagai presentasi dari tim di
Memperbarui kebijakan kami terkait penyalahgunaan reputasi situs
Selasa, 19 November 2024 Awal tahun ini, sebagai bagian dari upaya kami untuk memerangi spam dan memberikan pengalaman Penelusuran yang baik, kami meluncurkan kebijakan spam untuk memerangi penyalahgunaan reputasi situs. Taktik penyalahgunaan ini
Selamat tinggal, Kotak Penelusuran Sitelink
Senin, 21 Oktober 2024 Sudah lebih dari sepuluh tahun sejak kami pertama kali mengumumkan kotak penelusuran sitelink di Google Penelusuran, dan seiring waktu, kami melihat bahwa penggunaannya telah menurun. Dengan demikian, dan untuk membantu