알아 두면 좋은 robots.txt 규칙
다음은 알아 두면 좋은 몇 가지 일반적인 robots.txt 규칙입니다.
| 유용한 규칙 | |
|---|---|
| 전체 사이트 크롤링 금지 |
사이트의 URL이 크롤링된 적이 없어도 색인이 생성되는 경우가 있다는 점을 기억하시기 바랍니다. User-agent: * Disallow: / |
| 디렉터리 및 디렉터리의 콘텐츠 크롤링 금지 |
디렉터리 이름에 슬래시를 추가하여 전체 디렉터리의 크롤링을 금지합니다. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
| 크롤러 하나에만 액세스 허용 |
User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
| 하나를 제외한 모든 크롤러에 액세스 허용 |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
단일 웹페이지 크롤링 금지 |
예를 들어 User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
하위 디렉터리를 제외한 전체 사이트 크롤링 금지 |
크롤러는 User-agent: * Disallow: / Allow: /public/ |
|
Google 이미지의 특정 이미지 크롤링 차단 |
예를 들어 User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Google 이미지의 사이트 내 모든 이미지 크롤링 차단 |
Google은 이미지와 동영상을 크롤링하지 않고는 색인을 생성할 수 없습니다. User-agent: Googlebot-Image Disallow: / |
|
특정 파일 형식의 파일 크롤링 금지 |
예를 들어 모든 User-agent: Googlebot Disallow: /*.gif$ |
|
전체 사이트 크롤링은 금지하지만 |
이 구현으로 검색 결과에서 페이지를 숨길 수 있지만 User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
* 및 $ 와일드 카드를 사용하여 특정 문자열로 끝나는 URL에 적용
|
예를 들어 User-agent: Googlebot Disallow: /*.xls$ |