01 Temmuz 2019, Pazartesi
25 yıldır Robot Hariç Tutma Protokolü (REP), web'in en temel ve kritik bileşenlerinden biri olmuştur. Web sitesi sahiplerinin, otomatik istemcilerin (ör. web tarayıcıları) sitelerine erişimlerini kısmen veya tamamen hariç tutmalarını sağlar.
1994'te, Martijn Koster (web yöneticisi) tarayıcıların kendi sitesine fazla yük getirmesinden sonra ilk standardı oluşturdu. REP kullanıma sunulduktan sonra diğer web yöneticilerinin de katkıda bulunmasıyla birlikte arama motorları tarafından benimsenerek web sitesi sahiplerinin sunucu kaynaklarını daha kolay yönetmelerine yardımcı oldu.
Ancak REP hiçbir zaman resmi bir internet standardına dönüştürülmedi. Bu, geliştiricilerin protokolü yıllar içinde biraz farklı yorumladığı anlamına geliyor. İlk günden bu yana REP, günümüzdeki önemli olayları kapsayacak şekilde güncellenmedi. Fiili bir standart olmasına rağmen içerdiği karışıklık nedeniyle web sitesi sahiplerinin kuralları doğru bir şekilde yazmaları sorun oldu.
Web sitesi sahiplerinin ve geliştiricilerin, tarayıcıları nasıl kontrol edecekleri konusunda endişe duymak yerine internette muhteşem deneyimler oluşturmalarına yardımcı olmak istedik. Protokolün orijinal yazarı, web yöneticileri ve diğer arama motorlarıyla birlikte, REP'nin modern web ortamında nasıl kullanıldığını belgeleyip IETF'ye gönderdik.
Önerilen REP taslağı, hem Googlebot hem de diğer büyük tarayıcılar tarafından kullanılan robots.txt kuralların uygulanması ve REP kullanan yaklaşık yarım milyar web sitesi ile ilgili 20 yılı aşkın gerçek dünyadaki deneyimleri yansıtmaktadır. Yayıncılar, bu ayrıntılı kontroller sayesinde sitelerinde neyin taranmasını ve ilgilenebilecek kullanıcılara gösterilmesini istediklerine karar verebilir. Bu taslak, 1994'te oluşturulan kuralları değiştirmez, ancak robots.txt ayrıştırması ve eşleştirmesi ile ilgili temelde tanımlanmamış tüm senaryoları tanımlayarak modern web'i de kapsayacak şekilde genişletir. Özellikle:
- URI tabanlı tüm aktarım protokolleri robots.txt kullanabilir. Örneğin, artık HTTP ile sınırlı değildir ve FTP ya da CoAP için de kullanılabilir.
- Geliştiriciler bir robots.txt dosyasının en az ilk 500 kibibaytını ayrıştırmalıdır. Maksimum dosya boyutu tanımlamak, bağlantıların çok uzun süre açık kalmamasını sağlar ve sunuculardaki gereksiz yükü azaltır.
- 24 saatlik yeni bir maksimum önbelleğe alma süresi veya varsa önbellek yönergesi değeri, web sitesi sahiplerine istedikleri zaman robots.txt dosyasını güncelleme esnekliği sunar ve tarayıcılar, robots.txt istekleriyle web sitelerine fazla yüklenmez. Örneğin, HTTP söz konusu olduğunda, önbelleğe alma süresini belirlemek için önbellek kontrolü üst bilgileri kullanılabilir.
- Bu spesifikasyonda, daha önce erişilebilen bir robots.txt dosyası sunucu hataları nedeniyle erişilemez olduğunda, bilinen izin verilmeyen sayfaların makul bir süre boyunca taranmadığı belirtilmektedir.
Ayrıca, robots.txt söz dizimini daha iyi tanımlamak için internet taslağındaki artırılmış Backus-Naur formunu güncelledik. Bu, geliştiricilerin satırları ayrıştırmasında çok önemli bir role sahip.
RFC, Request for Comments, yani yorum isteği anlamına gelir ve bunu gerçekten istiyoruz: Taslağı, internetin temel yapı taşlarına önem veren geliştiricilerden geri bildirim almak amacıyla IETF'ye yükledik. Web içerik üreticilerine Googlebot'a ne kadar bilgi sağlamak istediklerini ve hangilerinin Arama'da görünmeye uygun olduğunu bildirebilmeleri için gereken denetimleri vermek amacıyla çalışırken bunu doğru şekilde yaptığımızdan emin olmalıyız.
Yorumlarınızı göndermek, soru sormak veya yalnızca "merhaba" demek isterseniz bizi Twitter'da ve Web Yöneticisi Topluluğumuzda (hem çevrimdışı hem de internet üzerinde) bulabilirsiniz.