2 Temmuz 2019, Salı
Dün Google'ın üretim robots.txt ayrıştırıcısını açık kaynak olarak sunacağımızı duyurmuştuk.
Bu, gelecekte Arama'da potansiyel olarak kullanıma sunulacak açık kaynak projelere zemin hazırlayan heyecan verici bir andı. Geri bildirimlerden çok işimize yarıyor. Hem geliştiricilerden hem de web yöneticilerinden gelen sorulara büyük önem veriyoruz. Bir soru önemliydi ve bu yazıda o soruyu ele alacağız:
Neden kodda tarama gecikmesi gibi diğer kurallar için bir kod işleyici bulunmuyor?
Dün yayınladığımız internet taslağı, standartta yer almayan
kurallar için genişletilebilir bir yapı sağlıyor. Yani, bir tarayıcı kendi
satırını desteklemek isterse (ör. unicorns: allowed
) bunu
yapabilir. Bunun bir ayrıştırıcıda nasıl duracağını göstermek için açık kaynak robots.txt
ayrıştırıcımıza site haritası gibi çok yaygın bir satır ekledik.
Ayrıştırıcı kitaplığımızı açık kaynaklı hale getirirken robots.txt kurallarının nasıl kullanıldığını analiz ettik. Özellikle,
internet taslağı tarafından desteklenmeyen crawl-delay
, nofollow
ve
noindex
gibi kurallara
odaklandık. Google bu kurallarla ilgili hiç doküman oluşturmadığından
Googlebot'la ilişkili kullanımlarının çok düşük olması normaldir. Daha ayrıntılı incelemede bu kullanımların,
internetteki tüm robots.txt dosyalarının %0,001'i dışında diğer tüm kurallarla çeliştiğini gördük.
Bu hatalar, web sitelerinin Google arama sonuçlarındaki varlığını web yöneticilerinin istemeyeceği bir şekilde
olumsuz etkilemektedir.
Sağlıklı bir ekosistem sağlamak ve gelecekteki açık kaynaklı sürümlere hazırlanmak amacıyla, desteklenmeyen
ve yayından kaldırılmış kuralları işleyen tüm kodları (noindex
gibi) 1 Eylül 2019'da kullanımdan
kaldırıyoruz. Taramayı kontrol eden robots.txt
dosyasındaki noindex
dizine ekleme
kuralı kullanan kişiler için çeşitli alternatif seçenekler
mevcuttur:
-
noindex
robotsmeta
etiketlerinde: Hem HTTP yanıt başlıklarında hem de HTML'de desteklenennoindex
kuralı, taramaya izin verildiğinde URL'lerin dizinden kaldırılmasının en etkili yoludur. -
404
ve410
HTTP durum kodları: Her iki durum kodu da sayfanın mevcut olmadığı anlamına gelir. Bu nedenle, bu tür URL'ler taranıp işlendikten sonra Google'ın dizininden çıkarılır. - Şifre koruması: Abonelik veya ödeme duvarlı içeriği belirtmek için işaretleme kullanılmadığı sürece, bir sayfayı giriş yaptıktan sonra gizlemek genellikle sayfayı Google dizininden kaldırır.
-
robots.txt
içindeDisallow
: Arama motorları yalnızca bildikleri sayfaları dizine ekleyebilir. Bu nedenle sayfanın taranmasını engellemek genellikle içeriğinin dizine eklenmemesi anlamına gelir. Arama motoru, bir URL'yi diğer sayfaların bağlantılarına bakarak dizine ekleyebilir ancak içeriği görmeden bu sayfaları ileride daha az görünür kılmayı amaçlıyoruz. - Search Console URL kaldırma aracı: Bu araç, bir URL'yi Google arama sonuçlarından geçici olarak kaldırmanın hızlı ve kolay bir yoludur.
Google'ın arama sonuçlarından bilgi kaldırma hakkında daha fazla yardım için Yardım Merkezimizi ziyaret edin. Sorularınız varsa Twitter'dan ve Web Yöneticisi Topluluğumuzdan hem çevrimdışı hem de internet üzerinden bize ulaşabilirsiniz.