robots.txt
dosyası, arama motorlarına sitenizin hangi sayfalarını tarayabileceklerini bildirir. Geçersiz bir robots.txt
yapılandırması iki tür soruna neden olabilir:
- Bu, arama motorlarının herkese açık sayfaları taramasını engelleyerek içeriğinizin arama sonuçlarında daha az gösterilmesine neden olur.
- Bu, arama motorlarının arama sonuçlarında gösterilmesini istemediğiniz sayfaları taramasına neden olabilir.
Lighthouse robots.txt
denetimi nasıl başarısız olur?
Lighthouse geçersiz
robots.txt
dosyalarını işaretler:
robots.txt
ile ilgili sorunun ne olduğunu öğrenmek için raporunuzdaki robots.txt
geçerli değil denetimini genişletin.
Sık karşılaşılan hatalar şunlardır:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
Lighthouse, robots.txt
dosyanızın doğru konumda olup olmadığını kontrol etmez. Düzgün çalışabilmesi için dosyanın alanınızın veya alt alan adınızın kök dizininde olması gerekir.
robots.txt
ile ilgili sorunları düzeltme
robots.txt
işlevinin HTTP 5XX durum kodu döndürmediğinden emin olun
Sunucunuz robots.txt
için bir sunucu hatası (500 sn. içinde bir HTTP durum kodu) döndürürse arama motorları hangi sayfaların taranması gerektiğini bilemez. Sitenizin tamamını taramayı durdurabilirler, bu da yeni içeriğin dizine eklenmesini engeller.
HTTP durum kodunu kontrol etmek için Chrome'da robots.txt
uygulamasını açın ve Chrome Geliştirici Araçları'nda isteği kontrol edin.
robots.txt
alanını 500 KiB'den küçük tutun
Dosya 500 KiB'den büyükse arama motorları robots.txt
verisini işlemeyi durdurabilir. Bu, arama motorunun kafasını karıştırarak sitenizin yanlış
taranmasına yol açabilir.
robots.txt
boyutunu küçük tutmak için tek tek hariç tutulan sayfalara daha az, daha geniş kalıplara odaklanın. Örneğin, PDF dosyalarının taranmasını engellemeniz gerekiyorsa her bir dosyaya izin vermeyin. Bunun yerine, disallow: /*.pdf
kullanarak .pdf
içeren tüm URL'lere izin vermeyin.
Biçim hatalarını düzeltme
robots.txt
içinde yalnızca "name: value" biçimiyle eşleşen boş satırlara, yorumlara ve yönergelere izin verilir.allow
vedisallow
değerlerinin boş olduğundan veya/
ya da*
ile başladığından emin olun.- Bir değerin ortasında
$
kullanmayın (örneğin,allow: /file$html
).
user-agent
için bir değer olduğundan emin olun
Arama motoru tarayıcılarına hangi yönergelerin uygulanacağını bildirmek için kullanılan kullanıcı aracısı adları. Arama motorlarının ilişkili yönerge grubunu uygulayıp uygulamayacağını bilmesi amacıyla her user-agent
örneği için bir değer sağlamanız gerekir.
Belirli bir arama motoru tarayıcısını belirtmek için yayınlanan listesindeki bir kullanıcı aracısı adını kullanın. (Örneğin, Google’ın tarama için kullanılan kullanıcı aracıları listesini burada bulabilirsiniz.)
Diğer şekilde eşleşmeyen tüm tarayıcıları eşleştirmek için *
kullanın.
user-agent: disallow: /downloads/
Kullanıcı aracısı tanımlanmamış.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Genel kullanıcı aracısı ve magicsearchbot
kullanıcı aracısı tanımlanmıştır.
user-agent
öncesinde allow
veya disallow
yönergesi olmadığından emin olun
Kullanıcı aracısı adları, robots.txt
dosyanızın bölümlerini tanımlar. Arama motoru tarayıcıları, hangi yönergelerin izleneceğini belirlemek için bu bölümleri kullanır. İlk kullanıcı aracısı adının önüne bir yönerge yerleştirilmesi, hiçbir tarayıcının bu adı takip etmeyeceği anlamına gelir.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Hiçbir arama motoru tarayıcısı disallow: /downloads
yönergesini okumaz.
# start of file user-agent: * disallow: /downloads/
Hiçbir arama motorunun /downloads
klasörünü taramasına izin verilmiyor.
Arama motoru tarayıcıları, yalnızca en belirgin kullanıcı aracısı adına sahip bölümdeki yönergeleri izler. Örneğin, user-agent: *
ve user-agent: Googlebot-Image
için yönergeleriniz varsa Googlebot Görseller yalnızca user-agent: Googlebot-Image
bölümündeki yönergeleri uygular.
sitemap
için mutlak URL sağlayın
Site haritası dosyaları, arama motorlarına web sitenizdeki sayfalar hakkında bilgi vermenin harika bir yoludur. Bir site haritası dosyası genellikle web sitenizdeki URL’lerin bir listesini ve bu URL’lerin en son ne zaman değiştirildiğine dair bilgileri içerir.
robots.txt
üzerinden bir site haritası dosyası göndermeyi tercih ederseniz mutlak URL kullandığınızdan emin olun.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml