Faydalı robots.txt kuralları

Yaygın olarak uygulanan bazı faydalı robots.txt kuralları aşağıda listelenmiştir:

Faydalı kurallar
Sitenin tamamının taranmasına izin vermeme

Bazı durumlarda sitedeki URL'lerin, taranmamış olsalar bile yine de dizine eklenebileceklerini unutmayın.

User-agent: *
Disallow: /
Bir dizin ve içeriğinin taranmasına izin vermeme

Tüm bir dizinin taranmasına izin vermemek için dizin adının sonuna bir öne eğik çizgi ekleyin.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
Tek bir tarayıcının erişimine izin verme

Yalnızca googlebot-news tüm siteyi tarayabilir.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Bir tarayıcı dışında tüm tarayıcıların erişimine izin verme

Unnecessarybot hariç tüm botlar siteyi tarayabilir.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Tek bir web sayfasının taranmasına izin vermeme

Örneğin, https://example.com/useless_file.html adresinde bulunan useless_file.html sayfasına ve junk dizininde other_useless_file.html sayfasına izin vermeme.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Alt dizin dışında, sitenin taranmasını tümüyle reddetme

Tarayıcılar yalnızca public alt dizinine erişebilir.

User-agent: *
Disallow: /
Allow: /public/

Google Görseller'den belirli bir görseli engelleme

Örneğin, dogs.jpg görselinin taranmasını reddedebilirsiniz.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Google Görseller'den sitenizdeki tüm görselleri engelleme

Google, görselleri ve videoları taramadan dizine ekleyemez.

User-agent: Googlebot-Image
Disallow: /

Belirli bir türdeki dosyaların taranmasına izin vermeme

Örneğin, tüm .gif dosyalarının taranmasını reddedebilirsiniz.

User-agent: Googlebot
Disallow: /*.gif$

Sitenin tamamının Mediapartners-Google dışındaki tarayıcılar tarafından taranmasına izin vermeme

Bu uygulama, sayfalarınızı arama sonuçlarından gizler. Ancak Mediapartners-Google web tarayıcısının sitenizde ziyaretçilere hangi reklamların gösterileceğini belirlemek için sayfalarınızı analiz etmesi engellenmez.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Belirli bir dizeyle biten URL'leri eşleştirmek için * ve $ joker karakterleri kullanın

Örneğin, tüm .xls dosyalarının taranmasını engelleyebilirsiniz.

User-agent: Googlebot
Disallow: /*.xls$