Googlebot

Googlebot, Google’ın iki tür web tarayıcısının genel adıdır:

İstekteki HTTP user-agent istek başlığında bakarak Googlebot'un alt türünü tanımlayabilirsiniz. Ancak, her iki tarayıcı türü de robots.txt dosyasında aynı ürün jetonuna (kullanıcı aracısı jetonu) uyar. Bu nedenle, robots.txt dosyası üzerinden Googlebot mobil veya Googlebot masaüstünü seçerek hedefleyemezsiniz.

Google çoğu sitede öncelikle içeriğin mobil sürümünü dizine ekler. Bu nedenle, Googlebot tarama isteklerinin çoğunluğu mobil tarayıcı ve küçük bir kısmı da masaüstü tarayıcı kullanılarak yapılır.

Googlebot sitenize nasıl erişir?

Çoğu site için Googlebot'un, sitenize ortalama olarak her birkaç saniyede birden fazla erişmemesi gerekir. Ancak, gecikmeler yüzünden, kısa dönemlerde bu hızın biraz daha yüksek olduğunu görebilirsiniz.

Googlebot, daha yüksek performans sağlaması ve web'in büyümesiyle birlikte çalışma kapasitesini geliştirebilmesi için binlerce makine üzerinden eş zamanlı olarak çalışacak şekilde tasarlanmıştır. Ayrıca, bant genişliğini daha az kullanmak için çok sayıda tarayıcıyı, tarayabilecekleri sitelere yakın yerlerde bulunan makinelerde çalıştırırız. Dolayısıyla, günlüklerinizde birkaç IP adresinden, tümü de Googlebot kullanıcı aracısına sahip ziyaretler görebilirsiniz. Amacımız, sunucunuzda aşırı yoğunluğa yol açmadan her ziyaretimizde sitenizden mümkün olduğunca çok sayfayı taramaktır. Siteniz Google’ın tarama isteklerini yerine getirme konusunda sorun yaşıyorsa tarama hızını azaltabilirsiniz.

Googlebot, esas olarak ABD'deki IP adreslerinden tarama yapar. Googlebot bir sitenin ABD'den gelen istekleri engellediğini algılarsa başka ülkelerde bulunan IP adreslerinden tarama yapmayı deneyebilir. Googlebot'un kullandığı mevcut IP adresi engelleme listesi JSON biçiminde kullanıuma sunulur.

Googlebot, HTTP/1.1 ve site tarafından destekleniyorsa HTTP/2 üzerinden tarama yapar. Sitenizi tararken kullanılan protokol sürümüne bağlı herhangi bir sıralama avantajı olmasa da HTTP/2 üzerinden tarama sayesinde siteniz ve Googlebot için bilgi işleme kaynaklarından (örneğin, CPU, RAM) tasarruf edilebilir.
HTTP/2 üzerinden tarama yapmayı devre dışı bırakmak için Googlebot sitenizi HTTP/2 üzerinden taramaya çalıştığında sitenizi barındıran sunucudan 421 HTTP durum koduyla yanıt vermesini isteyin. Bu mümkün değilse Googlebot ekibine bir mesaj gönderebilirsiniz (ancak bu çözüm geçicidir).

Googlebot, HTML dosyasının veya desteklenen metin tabanlı dosyanın ilk 15 MB'ını tarayabilir. HTML'de başvurulan her kaynak (CSS ve JavaScript gibi) ayrı olarak getirilir ve her getirme işlemi aynı dosya boyutu sınırlamasına tabidir. Dosyanın ilk 15 MB'ından sonra, Googlebot taramayı durdurur ve yalnızca ilk 15 MB'lık içeriği dizine eklemeyi dikkate alır. Dosya boyutu sınırlaması sıkıştırılmamış verilere uygulanır. Googlebot Video ve Googlebot Image gibi diğer Google tarayıcılarının dosya boyutu sınırlamaları farklı olabilir.

ABD'deki IP adreslerinden tarama yaparken Googlebot'un saat dilimi Pasifik Saati'dir.

Googlebot’un sitenizi ziyaret etmesini engelleme

Bağlantıları yayınlamayarak bir siteyi gizli tutmak neredeyse imkansızdır. Örneğin, bir kullanıcı "gizli" sitenizdeki bir bağlantıyı izleyerek başka bir siteye gittiği anda "gizli" URL'niz yönlendiren etiketinde görülebilir ve diğer site tarafından yönlendiren günlüğüne kaydedilip herkesin erişebileceği şekilde yayınlanabilir.

Googlebot’un sitenizdeki içeriği taramasını önlemek istiyorsanız bunun için çeşitli seçenekleriniz vardır. Googlebot’un bir sayfayı taramasını, Googlebot’un bir sayfayı dizine eklemesini ve bir sayfanın hem tarayıcılar hem de kullanıcılar için erişilebilir olmasını önlemek arasındaki farka dikkat edin.

Googlebot'u doğrulama

Googlebot’u engellemeye karar vermeden önce, Googlebot’un kullandığı HTTP user-agent istek başlığının çoğu zaman diğer tarayıcılar tarafından adres sahteciliği için kullanıldığını unutmayın. Sorunlu bir isteğin gerçekten Google’dan geldiğini doğrulamak önemlidir. Bunu yapmanın en iyi yolu, isteğin kaynak IP'sinde ters DNS araması kullanmak veya kaynak IP'sini Googlebot IP aralıklarıyla eşleştirmektir.