Google tarayıcılarına ve getirme araçlarına genel bakış (kullanıcı aracıları)

Google, otomatik olarak veya kullanıcı isteği üzerine tetiklenen ürünleriyle ilgili işlemler gerçekleştirmek için tarayıcıları ve getirme araçlarını kullanır. Bazen "robot" veya "örümcek" olarak da anılan "tarayıcı", web sitelerini otomatik olarak keşfedip taramak için kullanılan tüm programlara verilen genel isimdir. Alıcılar, genellikle kullanıcı adına tek bir istekte bulunan wget benzeri bir program gibi çalışır. Google tarayıcıları üç kategoriye ayrılır:

Yaygın kullanılan tarayıcılar Google ürünleri için kullanılan genel tarayıcılar (Googlebot gibi). Otomatik taramalar için robots.txt kurallarına her zaman uyarlar.
Özel durum tarayıcıları Özel tarayıcılar, genel tarayıcılara benzese de taranan site ile Google ürünü arasında tarama süreci hakkında bir anlaşmanın olduğu belirli ürünler tarafından kullanılır. Örneğin AdsBot, reklam yayıncısının izniyle genel robots.txt kullanıcı aracısını (*) yoksayar.
Kullanıcı tarafından tetiklenen getirme araçları Kullanıcının tetiklediği alıcılar, alma işleminin son kullanıcı tarafından tetiklendiği araç ve ürün işlevlerinin bir parçasıdır. Örneğin, Google Site Doğrulayıcı bir kullanıcının isteği üzerine işlem yapar.

Google tarayıcılarının ve alıcılarının teknik özellikleri

Google tarayıcıları ve alıcıları, daha yüksek performans sağlaması ve web'in büyümesiyle birlikte çalışma kapasitesini geliştirebilmesi için binlerce makine üzerinden eş zamanlı olarak çalışacak şekilde tasarlanmıştır. Bu istemciler, bant genişliği kullanımını optimize etmek için erişebilecekleri sitelerin yakınında olacak şekilde dünyadaki birçok veri merkezine dağıtılır. Dolayısıyla, günlüklerinizde birkaç IP adresinden ziyaretler görebilirsiniz. Google, çıkışı esas olarak ABD'deki IP adreslerinden yapar. Google, bir sitenin ABD'den gelen istekleri engellediğini algılarsa başka ülkelerde bulunan IP adreslerinden tarama yapmayı deneyebilir.

Desteklenen aktarım protokolleri

Google tarayıcıları ve alıcıları, HTTP/1.1 ve HTTP/2'yi destekler. Tarayıcılar, en iyi tarama performansını sağlayan protokol sürümünü kullanır ve önceki tarama istatistiklerine bağlı olarak tarama oturumları arasında protokol değiştirebilir. Google tarayıcılarının kullandığı varsayılan protokol sürümü HTTP/1.1'dir. HTTP/2 üzerinden tarama yapıldığında siteniz ve Googlebot için bilgi işlem kaynaklarında (örneğin, CPU, RAM) tasarruf sağlanabilir ancak site için Google ürününe özgü bir avantaj yoktur (örneğin, Google Arama'da sıralama artışı olmaz). HTTP/2 üzerinden tarama yapmayı devre dışı bırakmak için Google, sitenizi HTTP/2 üzerinden taramaya çalıştığında sitenizi barındıran sunucudan 421 HTTP durum koduyla yanıt vermesini isteyin. Bu mümkün değilse Tarama ekibine bir mesaj gönderebilirsiniz (ancak bu çözüm geçicidir).

Google'ın tarayıcı altyapısı, FTP (RFC959 ve güncellemeleriyle tanımlandığı şekilde) ve FTPS (RFC4217 ve güncellemeleriyle tanımlandığı şekilde) üzerinden tarama yapmayı da destekler ancak bu protokoller üzerinden nadir olarak tarama yapılır.

Desteklenen içerik kodlamaları

Google tarayıcıları ve alıcıları şu içerik kodlamalarını (sıkıştırmalar) destekler: gzip, deflate ve Brotli (br). Her Google kullanıcı aracısı tarafından desteklenen içerik kodlamaları, gönderdikleri her isteğin Accept-Encoding başlığında belirtilir. Örneğin, Accept-Encoding: gzip, deflate, br.

Tarama hızı ve ana makine yükü

Amacımız, sunucunuzda aşırı yoğunluğa yol açmadan her ziyaretimizde sitenizden mümkün olduğunca çok sayfayı taramaktır. Siteniz Google’ın tarama isteklerini yerine getirme konusunda sorun yaşıyorsa tarama hızını azaltabilirsiniz. Google tarayıcılarına uygunsuz HTTP yanıt kodu göndermenin, sitenizin Google ürünlerinde görünme şeklini etkileyebileceğini unutmayın.

HTTP Önbelleğe Alma

Google'ın tarama altyapısı, HTTP önbelleğe alma standardında tanımlandığı şekilde sezgisel HTTP önbelleğe almayı, özellikle ETag yanıtı ve If-None-Match istek başlığı ile Last-Modified yanıtı ve If-Modified-Since istek başlığı aracılığıyla destekler.

HTTP yanıtında hem ETag hem de Last-Modified yanıt başlığı alanları varsa Google tarayıcıları, HTTP standardının gerektirdiği şekilde ETag değerini kullanır. ETag, tarih biçimlendirme sorunları içermediğinden özellikle Google tarayıcılarında, önbelleğe alma tercihini belirtmek için Last-Modified başlığı yerine ETag kullanmanızı öneririz.

Diğer HTTP önbelleğe alma yönergeleri desteklenmez.

Google tarayıcıları ve alıcıları, ilişkili oldukları ürünün ihtiyaçlarına bağlı olarak önbelleğe alma özelliğini kullanabilir veya kullanamayabilir. Örneğin, Googlebot, Google Arama için URL'leri yeniden tararken önbelleğe almayı desteklerken Storebot-Google yalnızca belirli koşullarda önbelleğe almayı destekler.

Siteniz için HTTP önbelleğe alma özelliğini uygulamak istiyorsanız barındırma veya içerik yönetim sistemi sağlayıcınızla iletişime geçin.

ETag ve If-None-Match

Google'ın tarama altyapısı, HTTP önbelleğe alma standardında tanımlandığı şekilde ETag ve If-None-Match değerlerini destekler. ETag yanıt başlığı ve eşdeğeri olan If-None-Match istek başlığı hakkında daha fazla bilgi edinin.

Last-Modified ve If-Modified-Since

Google'ın tarama altyapısı, HTTP önbelleğe alma standardında tanımlandığı şekilde Last-Modified ve If-Modified-Since değerlerini aşağıdaki uyarılarla destekler:

  • Last-Modified başlığındaki tarih, HTTP standardına göre biçimlendirilmelidir. Ayrıştırma sorunlarını önlemek için şu tarih biçimini kullanmanızı öneririz: "Hafta içindeki gün, DD Mon YYYY HH:MM:SS saat dilimi". Örneğin, "Fri, 4 Sep 1998 19:15:56 GMT".
  • Bunu yapmanız zorunlu olmasa da tarayıcıların belirli bir URL'yi ne zaman yeniden tarayacağını belirlemesine yardımcı olmak için Cache-Control yanıt başlığındaki max-age alanını da ayarlayabilirsiniz. max-age alanının değerini, içeriğin değişmeden kalması beklenen saniye sayısına ayarlayın. Örneğin, Cache-Control: max-age=94043.

Last-Modified yanıt başlığı ve eşdeğeri olan If-Modified-Since istek başlığı hakkında daha fazla bilgi edinin.

Google tarayıcılarını ve alıcılarını doğrulama

Google tarayıcıları kendilerini üç şekilde tanımlar:

  1. HTTP user-agent istek başlığı.
  2. İsteğin kaynak IP adresi.
  3. Kaynak IP'sinin ters DNS ana makine adı.

Google tarayıcılarını ve alıcılarını doğrulamak için bu ayrıntıları nasıl kullanacağınızı öğrenin.