Selasa, 3 Desember 2024
Anda mungkin pernah mendengar bahwa Google Penelusuran perlu melakukan beberapa langkah sebelum halaman web dapat muncul di hasil Google Penelusuran. Salah satu langkah itu disebut crawling. Crawling untuk Google Penelusuran dilakukan oleh Googlebot, program yang berjalan di server Google yang mengambil URL dan menangani berbagai hal seperti error jaringan, pengalihan, dan komplikasi kecil lainnya yang mungkin ditemukan program tersebut saat menjelajahi web. Namun, ada beberapa detail yang jarang dibahas. Setiap minggu pada bulan ini, kami akan membahas beberapa detail yang mungkin berdampak signifikan terhadap cara situs Anda di-crawl.
Mari kita tinjau kembali: Apa itu crawling?
Crawling adalah proses menemukan halaman web baru, mengunjungi kembali versi yang diperbarui, serta mendownloadnya. Singkatnya, Googlebot mendapatkan URL, membuat permintaan HTTP ke server yang menghostingnya, lalu menangani respons dari server tersebut, yang mungkin termasuk mengikuti pengalihan, menangani error, dan meneruskan konten halaman ke sistem pengindeksan Google.
Namun, halaman web modern bukan sekadar HTML murni, jadi bagaimana dengan resource lain yang membentuk sebuah halaman? Bagaimana pengaruh crawling resource ini terhadap "anggaran crawling"? Apakah resource ini dapat di-cache di sistem Google? Lalu, apakah ada perbedaan antara URL yang belum di-crawl sebelumnya dan URL yang sudah diindeks? Dalam postingan ini, kami akan menjawab beberapa pertanyaan tersebut dan berbagai pertanyaan lainnya.
Googlebot dan crawling resource halaman
Selain HTML, situs modern menggunakan kombinasi berbagai teknologi seperti JavaScript dan CSS untuk memberikan pengalaman yang menarik serta fungsi yang bermanfaat kepada pengguna. Saat mengakses halaman tersebut dengan browser, browser akan terlebih dahulu mendownload URL induk yang menghosting data yang diperlukan untuk mulai membuat halaman bagi pengguna—HTML halaman. Data awal ini mungkin berisi referensi ke resource seperti JavaScript dan CSS, serta gambar dan video yang akan didownload lagi oleh browser untuk membuat halaman akhir yang kemudian ditampilkan kepada pengguna.
Google melakukan hal yang sama persis, meskipun dengan cara yang sedikit berbeda:
- Googlebot mendownload data awal dari URL induk—HTML halaman.
- Googlebot meneruskan data yang diambil ke Web Rendering Service (WRS).
- Dengan menggunakan Googlebot, WRS mendownload resource yang dirujuk dalam data asli.
- WRS membuat halaman menggunakan semua resource yang didownload seperti yang dilakukan browser pengguna.
Dibandingkan dengan browser, selang waktu antara setiap langkah mungkin jauh lebih lama karena adanya batasan penjadwalan, seperti beban pada server yang menghosting resource yang diperlukan untuk merender halaman. Di sinilah anggaran crawling berperan.
Meng-crawl resource yang diperlukan untuk merender halaman akan mengurangi anggaran crawling nama host yang menghosting resource tersebut. Untuk mengatasi hal ini, WRS mencoba meng-cache setiap resource (JavaScript dan CSS) yang dirujuk di halaman yang direndernya. Time to live (TTL) cache WRS tidak terpengaruh oleh perintah caching HTTP. Sebaliknya, WRS meng-cache semuanya selama maksimum 30 hari, yang membantu menghemat anggaran crawling situs untuk tugas crawling lainnya.
Dari perspektif pemilik situs, pengelolaan resource yang akan di-crawl beserta cara crawlingnya dapat memengaruhi anggaran crawling situs; sebaiknya:
- Gunakan resource sesedikit mungkin untuk memberikan pengalaman yang baik kepada pengguna; makin sedikit resource yang diperlukan untuk merender halaman, makin sedikit anggaran crawling yang dihabiskan selama rendering.
- Gunakan parameter perusak cache dengan hati-hati: jika URL resource berubah, Google mungkin perlu meng-crawl resource itu lagi, meskipun kontennya tidak berubah. Hal ini tentu saja akan mengurangi anggaran crawling.
- Hosting resource di nama host yang berbeda dengan situs utama, misalnya menggunakan CDN atau cukup dengan menghosting resource di subdomain yang berbeda. Tindakan ini akan mengalihkan masalah anggaran crawling ke host yang menayangkan resource.
Semua poin ini juga berlaku untuk resource media. Jika Googlebot (atau lebih spesifiknya,
Googlebot-Image
dan Googlebot-Video
) mengambil resource tersebut, Googlebot akan
menggunakan anggaran crawling situs.
Anda mungkin juga ingin menambahkan robots.txt ke daftar, tetapi dari perspektif rendering, pemblokiran crawling resource biasanya akan menyebabkan masalah. Jika WRS tidak dapat mengambil resource yang penting untuk proses rendering, Google Penelusuran mungkin mengalami kesulitan mengekstrak konten halaman dan memungkinkan halaman tersebut mendapatkan peringkat di Penelusuran.
Apa yang di-crawl Googlebot?
Sumber terbaik untuk menganalisis resource yang di-crawl Google adalah log akses mentah situs yang memiliki entri untuk setiap URL yang diminta oleh browser dan crawler. Untuk mengidentifikasi Crawler Google di log akses, kami memublikasikan rentang IP dalam dokumentasi developer.
Sumber terbaik kedua tentu saja adalah laporan Statistik Crawling Search Console, yang mengelompokkan setiap jenis resource per crawler:

Terakhir, jika Anda benar-benar ingin tahu tentang crawling dan rendering, serta ingin berdiskusi dengan orang lain terkait hal tersebut, Anda dapat mengunjungi komunitas Pusat Penelusuran atau menghubungi kami di LinkedIn.
Pembaruan
- Pembaruan pada 6 Desember 2024: Mengidentifikasi dampak penayangan resource dari origin yang berbeda terhadap performa.
Ingin mempelajari crawling lebih lanjut? Lihat seluruh seri Crawling Edisi Desember:
Tanya Jawab tentang pembaruan Google Penelusuran
Kamis, 2 November 2023 Google Penelusuran memperbarui sistem peringkat penelusuran secara rutin untuk memastikan kami menampilkan konten yang paling relevan dan bermanfaat. Kami telah membagikan serangkaian pembaruan penting dalam beberapa minggu
Cara Google Penelusuran menangani penelusuran multilingual
Jumat, 8 September 2023 Di banyak negara dan wilayah di seluruh dunia, orang-orang umumnya berbicara dan melakukan penelusuran dalam lebih dari satu bahasa. Agar dapat menyajikan pengalaman dengan sebaik mungkin, Google menggunakan berbagai cara
Peran pengalaman halaman dalam membuat konten yang bermanfaat
Rabu, 19 April 2023 Konten yang bermanfaat umumnya menawarkan pengalaman halaman yang baik. Itulah sebabnya kami menambahkan bagian terkait pengalaman halaman ke panduan membuat konten yang bermanfaat dan merevisi halaman bantuan tentang pengalaman
Panduan Google Penelusuran tentang konten buatan AI
Dalam postingan ini, kami akan menjelaskan lebih lanjut bagaimana konten hasil buatan AI sejalan dengan pendekatan kami selama ini untuk menampilkan konten yang bermanfaat kepada pengguna di Penelusuran.
Memperkenalkan panduan baru kami untuk sistem peringkat Google Penelusuran
Senin, 21 November 2022 Selama bertahun-tahun, Google secara rutin membagikan informasi tentang sistem peringkat otomatis kami dan cara kerjanya melalui postingan blog dan komunikasi publik lainnya. Sekarang kami telah membuat halaman terpusat yang
Rilis pembaruan inti Mei 2022 untuk Google Penelusuran
Rabu, 25 Mei 2022 Beberapa kali dalam setahun, kami melakukan peningkatan substansial pada proses pemberian peringkat secara keseluruhan, yang kami sebut sebagai pembaruan inti. Pembaruan inti dirancang untuk meningkatkan relevansi hasil penelusuran
Informasi selengkapnya tentang cara Google membuat judul untuk hasil halaman web
Jumat, 17 September 2021 Bulan lalu, kami membagikan informasi tentang sistem baru untuk membuat judul hasil halaman web. Berkat masukan Anda yang sangat berarti, kami telah meningkatkan kualitas sistem judul kami. Berikut informasi selengkapnya
Pembaruan terkait cara pembuatan judul halaman web
Selasa, 24 Agustus 2021 Salah satu cara utama dalam menentukan hasil penelusuran yang mungkin relevan dengan kueri seseorang adalah dengan meninjau judul halaman web yang tercantum. Karena itulah Google Penelusuran berupaya keras memberikan judul
Jawaban atas beberapa pertanyaan umum tentang konten yang ditampilkan di Google Berita
Jumat, 16 Juli 2021 Di Google, kami ingin membantu semua orang memahami keadaan dunia dengan menampilkan berita resmi dan relevan yang berasal dari berbagai penerbit tepercaya. Hari ini, kami akan menjawab beberapa pertanyaan yang kami dengar dari
Menyoroti metode dukungan pelanggan di Google Penelusuran
Rabu, 7 Juli 2021 Pelanggan biasanya mencari cara untuk menghubungi bisnis, dan Google berupaya menampilkan informasi terbaik yang tersedia untuk sebisa mungkin membantu pelanggan dalam berbagai cara. Anda dapat membantu kami dengan mengikuti
Informasi penting bagi kreator tentang pembaruan ulasan produk April 2021 di Google
Kamis, 8 April 2021 Google Penelusuran selalu berupaya menampilkan informasi yang bermanfaat dan membantu, melalui proses pengujian, eksperimen, dan peninjauan. Dari sini, kami mengetahui bahwa orang lebih menghargai ulasan produk yang membagikan
Memperkenalkan cara baru bagi situs untuk menyorot pengumuman COVID-19 di Google Penelusuran
Jumat, 3 April 2020 Akibat wabah COVID-19, banyak organisasi dan kelompok memublikasikan pengumuman penting terkait virus corona yang memengaruhi kehidupan kita sehari-hari. Menanggapi hal ini, kami memperkenalkan cara baru agar pengumuman khusus
Mengembangkan "nofollow" – cara baru untuk mengidentifikasi sifat link
Selasa, 10 September 2019 Hampir 15 tahun yang lalu, atribut nofollow diperkenalkan untuk membantu memerangi spam komentar. Atribut ini juga dengan cepat menjadi salah satu metode yang direkomendasikan Google untuk menandai link terkait iklan atau
Informasi penting bagi pemilik situs tentang pembaruan inti Agustus 2019 di Google
Kamis, 1 Agustus 2019 Setiap hari, Google biasanya merilis satu atau beberapa perubahan yang didesain untuk mengoptimalkan hasil penelusuran kami. Meskipun sebagian besar tidaklah signifikan, perubahan ini membantu kami terus melakukan pengoptimalan
Cara meraih kesuksesan di Google Berita
Kamis, 17 Januari 2019 Tahun Baru belum lama bergulir, dan berikut kami sajikan beberapa saran serta praktik terbaik yang kami harapkan akan membantu penerbit meraih kesuksesan yang lebih besar di Google Berita selama 2019. Ada banyak informasi