Robots Refresher: Yeni bir seri ile karşınızdayız

24 Şubat 2025, Pazartesi

Bazen robots.txt, robots meta etiketleri ve bunların sunduğu kontrol işlevleriyle ilgili sorular alıyoruz. Aralık ayındaki tarama konulu serimizin ardından, bu konuyla ilgili kısa bir tekrar hazırlamanın tam zamanı olduğunu düşündük. Söz konusu kontrolleri merak ediyorsanız bu yeni blog yayını serisini takip edin.

En baştan, robots.txt ile başlayalım.

Robots.txt nedir?

"robots.txt", tüm web sitelerinin sağlayabileceği bir dosyadır. En basit haliyle, sunucuda depolanan bir metin dosyasıdır. Neredeyse tüm web sitelerinde bir robots.txt dosyası bulunur. Bu dosyaya bakmak için alan adını alıp sonuna /robots.txt ekledikten sonra bu adrese gitmeniz yeterlidir. Örneğin, bu web sitesinin robots.txt dosyası developers.google.com/robots.txt adresindedir.

Çoğu web sitesi, bu dosyaları otomatik olarak oluşturan içerik yönetim sistemleri kullanır. Ancak web sitenizi "manuel" olarak hazırlasanız bile bu dosyaları oluşturmak kolaydır. Gelecekteki yayınlarda bu varyasyonlardan bazılarını inceleyeceğiz.

Bu dosyalar ne için kullanılır?

Robots.txt dosyaları, web sitesi tarayıcılarına bir web sitesinin otomatik erişime açık olan (buna tarama deriz) ve olmayan bölümleri bildirir. Sitelerin; sitelerinin tamamında, sitelerinin bazı bölümlerinde ve hatta sitelerinde yer alan belirli dosyalardaki her şeyi ele almasına olanak tanır. Dosyalar hem makine tarafından hem de insan tarafından okunabilir. Dolayısıyla, belirli bir tarayıcının bir sayfaya otomatik olarak erişmesine izin verilip verilmediği her zaman net bir evet veya hayır yanıtıyla belirtilir.

Tarayıcı oluşturan herkesin bu yönergelere uyması standart bir uygulamadır ve geliştiricilerin bu yönergeleri desteklemesi kolaydır. Geliştiricilere yönelik 1.000'den fazla açık kaynak kitaplık mevcuttur. Dosya, tarayıcılara bir web sitesinin en iyi şekilde nasıl taranacağıyla ilgili talimatlar verir. Modern web siteleri karmaşık olabildiğinden bu sitelerde otomatik olarak gezinmek de zor olabilir. Robots.txt kuralları, tarayıcıların uygun içeriğe odaklanmasına yardımcı olur. Bu ayrıca tarayıcıların, sunucu üzerinde baskı oluşturabilecek ve tarama işlemini gereksiz yere verimsiz hale getirebilecek dinamik olarak oluşturulmuş sayfalardan kaçınmasına da yardımcı olur. Robots.txt dosyaları hem teknik açıdan faydalı hem de web sitesi sahipleriyle ilişkiler açısından iyi olduğundan ticari tarayıcı operatörlerinin çoğu bu dosyalara uyar.

Kullanıcılar tarafından oluşturulur ve geliştirilir

Robots.txt dosyaları neredeyse internet kadar eskidir ve internetin şu anda olduğu gibi çalışmasını sağlayan temel araçlardan biridir. Web sayfalarının temeli olan HTML 1991 yılında icat edilmiş, ilk tarayıcılar 1992'de, robots.txt ise 1994'te ortaya çıkmıştır. Yani bu dosyalar, 1998'de kurulan Google'dan bile daha eskidir. O zamandan beri biçimleri çok fazla değişmediği için ilk dönemlerde yayınlanan bir dosya hâlâ kullanılabilir. Üç yıl boyunca dünya genelindeki topluluğun katılımıyla 2022'de IETF tarafından önerilen bir standart haline gelmiştir.

Web siteniz varsa büyük olasılıkla robots.txt dosyanız da vardır. Robots.txt ile ilgili canlı ve aktif bir topluluk mevcut. Ayrıca her tür ve boyutta robots.txt dosyası oluşturmanıza, test etmenize, yönetmenize veya anlamanıza yardımcı olan binlerce yazılım aracı sunuluyor. Ancak robots.txt dosyalarının güzelliği, şık araçlara ihtiyacınız olmamasıdır. Dosyayı tarayıcıda okumanız ve yönettiğiniz web sitesi için basit bir metin düzenleyicide düzenlemeniz mümkündür.

Geleceğe bakış

Robots.txt biçimi esnektir. Büyümeye uygun alan olduğu için herkese açık web topluluğu bu konuda gelişebilir ve tarayıcılar, uygun olduğunda mevcut kullanımı bozmadan uzantılar yayınlayabilir. Bu durum, arama motorlarının "site haritası" yönergesini duyurduğu 2007'de gerçekleşmişti. Ayrıca tarayıcı operatörleri ve arama motorları, yeni "kullanıcı aracılarını" desteklediği için (ör. yapay zeka amacıyla kullanılanlar) düzenli olarak gerçekleşmeye devam etmektedir.

Robots.txt, web'in kalıcı bir unsurudur. Yeni dosya biçimlerinin, geniş çaplı internet topluluğuna sunulması birkaç yıl sürer. Bu biçimlerin ekosistemde faydalı olmasını sağlayacak uygun araçların geliştirilmesi ise daha da uzun sürer. Robots.txt kolay, ayrıntılı ve anlamlıdır, iyi anlaşılır ve kabul edilir. Ayrıca, on yıllardır olduğu gibi sorunsuz çalışır.

Bu konuyla ilgili ayrıntılı bilgi edinmek ister misiniz? Search Central blogunda Robots Refresher serimizin sonraki bölümlerini takip edin.