Aralık ayında tarama: Googlebot ile tarama işleminin nasıl ve neden yapıldığı

3 Aralık 2024, Salı

Bir web sayfasının Google Arama sonuçlarında görünebilmesi için Google Arama'nın bazı adımlar uygulaması gerektiğini duymuş olabilirsiniz. Bu adımlardan biri, tarama olarak adlandırılır. Google Arama için tarama işlemi; Google sunucularında çalışan ve URL'leri alan, ayrıca ağ hataları, yönlendirmeler ve web'de ilerlerken karşılaşabileceği diğer küçük komplikasyonlar gibi sorunları gideren Googlebot programı tarafından gerçekleştirilir. Ancak çok fazla bahsedilmeyen birkaç ayrıntı vardır. Bu ayın her haftasında, sitelerinizin taranma biçimini önemli ölçüde etkileyebilen bu ayrıntıların bazılarını ele alacağız.

Öncelikle, tarama nedir?

Tarama, yeni web sayfalarını keşfetme, güncellenmiş web sayfalarını tekrar ziyaret etme ve bu sayfaları indirme işlemidir. Özetlemek gerekirse Googlebot bir URL'yi alır, bu URL'yi barındıran sunucuya HTTP isteği gönderir ve sunucudan gelen yanıtla ilgilenir. Bu süreçte muhtemelen yönlendirmeleri takip eder, hataları giderir ve sayfa içeriğini Google'ın dizine ekleme sistemine iletir.

Ancak modern web sayfaları yalnızca HTML'den oluşmaz. Peki bir sayfayı oluşturan diğer kaynaklar nelerdir? Bu kaynakların taranması, "tarama bütçesini" nasıl etkiler? Bu kaynaklar, Google tarafında önbelleğe alınabilir mi? Daha önce taranmamış URL'ler ile daha önce dizine eklenmiş URL'ler arasında fark var mıdır? Bu yayında, bu sorulara ve daha fazlasına yanıt vereceğiz.

Googlebot ve sayfa kaynaklarını tarama

Modern web siteleri, kullanıcılara canlı deneyimler ve faydalı işlevler sunmak için HTML'nin yanı sıra JavaScript ve CSS gibi farklı teknolojilerin bir kombinasyonunu kullanır. Tarayıcı, bu tür sayfalara erişirken ilk önce kullanıcı için sayfayı oluşturmaya başlamak amacıyla gereken verilerin barındırıldığı üst URL'yi (sayfanın HTML'si) indirir. Bu ilk veriler, JavaScript ve CSS gibi kaynaklara referansların yanı sıra tarayıcının kullanıcıya göstereceği nihai sayfayı oluşturmak için tekrar indireceği resim ve videoları da içerebilir.

Google da tam olarak aynısını yapar ancak biraz farklı bir yol izler:

  1. Googlebot, ilk verileri üst URL'den (sayfanın HTML'si) indirir.
  2. Googlebot, getirilen verileri Web Oluşturma Hizmeti'ne (WRS) iletir.
  3. WRS, Googlebot'u kullanarak orijinal verilerde referans verilen kaynakları indirir.
  4. WRS, indirilen tüm kaynakları kullanıcının tarayıcısı gibi kullanarak sayfayı oluşturur.

Adımlar arasındaki süre, sayfa oluşturmak için gereken kaynakları barındıran sunucunun algılanan yükü gibi planlama kısıtlamaları nedeniyle tarayıcıya kıyasla çok daha uzun olabilir. İşte bu noktada tarama bütçesi devreye girer.

Bir sayfayı oluşturmak için gereken kaynakların taranması, kaynağı barındıran ana makine adının tarama bütçesinden harcar. WRS, oluşturduğu sayfalarda referans verilen her kaynağı (JavaScript ve CSS) önbelleğe almaya çalışarak bu durumu düzeltir. WRS önbelleğinin geçerlilik süresi (TTL), HTTP önbelleğe alma yönergelerinden etkilenmez. Bunun yerine WRS her şeyi 30 güne kadar önbelleğe alır. Bu da sitenin tarama bütçesinin diğer tarama görevleri için saklanmasına yardımcı olur.

Site sahipleri açısından, hangi kaynakların nasıl taranacağını yönetmek sitenin tarama bütçesini etkileyebilir. Bu nedenle aşağıdakileri yapmanızı öneririz:

  1. Kullanıcılara mükemmel bir deneyim sunmak için mümkün olduğunca az kaynak kullanın. Bir sayfanın oluşturulması için ne kadar az kaynak gerekirse oluşturma sırasında tarama bütçesinden o kadar az harcanır.
  2. Önbelleği bozan parametreleri dikkatli kullanın: Kaynakların URL'leri değiştiğinde içerikleri değişmemiş olsa bile Google'ın kaynakları tekrar taraması gerekebilir. Bu da doğal olarak tarama bütçesini tüketir.
  3. Örneğin, CDN kullanarak veya kaynakları farklı bir alt alan adında barındırarak ana siteden farklı bir ana makine adında barındırın. Bu, tarama bütçesiyle ilgili endişeleri, kaynakları sunan ana makineye kaydırır.

Tüm bu hususlar medya kaynakları için de geçerlidir. Googlebot (veya daha spesifik olarak Googlebot-Image ve Googlebot-Video) bunları getirirse sitenin tarama bütçesini tüketir.

Listeye robots.txt dosyasını eklemek cazip gelse de kaynakların taranmasına izin verilmemesi genellikle oluşturma açısından sorunlara neden olur. WRS, oluşturma açısından kritik öneme sahip bir kaynağı getiremezse Google Arama, sayfanın içeriğini ayıklarken ve sayfanın Arama'da sıralanmasına izin verirken sorun yaşayabilir.

Googlebot neleri tarar?

Google'ın hangi kaynakları taradığını analiz etmek için en iyi kaynak, sitenin ham erişim günlükleridir. Bu günlüklerde, tarayıcılar tarafından istenen her URL ile ilgili bir giriş bulunur. Erişim günlüğünde Google tarayıcılarını tanımlamak için geliştirici belgelerimizde IP aralıklarımızı yayınlarız.

En iyi ikinci kaynak ise her tarayıcıya göre kaynak türlerini ayrı ayrı gösteren Search Console tarama istatistikleri raporudur:

Googlebot'un taradığı farklı kaynak türlerini gösteren Search Console tarama istatistikleri raporu

Son olarak, tarama ve oluşturma konularıyla ilgileniyor ve bu konular hakkında başkalarıyla sohbet etmek istiyorsanız Arama Merkezi topluluğuna katılabilirsiniz. Ayrıca bizi LinkedIn'de de bulabilirsiniz.


Güncellemeler

  • 6 Aralık 2024 tarihli güncelleme: Farklı bir kaynaktan kaynak sunmanın performans üzerindeki etkisi belirtildi.

Tarama hakkında daha fazla bilgi edinmek ister misiniz? Crawling December serisinin tamamına göz atın: