알아 두면 좋은 robots.txt 규칙

다음은 알아 두면 좋은 몇 가지 일반적인 robots.txt 규칙입니다.

유용한 규칙
전체 사이트 크롤링 금지

사이트의 URL이 크롤링된 적이 없어도 색인이 생성되는 경우가 있다는 점을 기억하시기 바랍니다.

User-agent: *
Disallow: /
디렉터리 및 디렉터리의 콘텐츠 크롤링 금지

디렉터리 이름에 슬래시를 추가하여 전체 디렉터리의 크롤링을 금지합니다.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
크롤러 하나에만 액세스 허용

googlebot-news만 전체 사이트를 크롤링할 수 있습니다.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
하나를 제외한 모든 크롤러에 액세스 허용

Unnecessarybot은 사이트를 크롤링하지 못할 수 있으며 다른 모든 크롤러는 크롤링할 수도 있습니다.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

단일 웹페이지 크롤링 금지

예를 들어 https://example.com/useless_file.html에 있는 useless_file.html 페이지와 junk 디렉터리에 other_useless_file.html 페이지의 크롤링을 금지합니다.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

하위 디렉터리를 제외한 전체 사이트 크롤링 금지

크롤러는 public 하위 디렉터리에 한하여 액세스할 수 있습니다.

User-agent: *
Disallow: /
Allow: /public/

Google 이미지의 특정 이미지 크롤링 차단

예를 들어 dogs.jpg 이미지를 금지합니다.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Google 이미지의 사이트 내 모든 이미지 크롤링 차단

Google은 이미지와 동영상을 크롤링하지 않고는 색인을 생성할 수 없습니다.

User-agent: Googlebot-Image
Disallow: /

특정 파일 형식의 파일 크롤링 금지

예를 들어 모든 .gif 파일의 크롤링을 금지합니다.

User-agent: Googlebot
Disallow: /*.gif$

전체 사이트 크롤링은 금지하지만 Mediapartners-Google 크롤링은 허용

이 구현으로 검색 결과에서 페이지를 숨길 수 있지만 Mediapartners-Google 웹 크롤러는 여전히 페이지를 분석하여 사이트 방문자에게 표시할 광고를 결정할 수 있습니다.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
*$ 와일드 카드를 사용하여 특정 문자열로 끝나는 URL에 적용

예를 들어 .xls 파일은 모두 금지합니다.

User-agent: Googlebot
Disallow: /*.xls$