알아 두면 좋은 robots.txt 규칙
다음은 알아 두면 좋은 몇 가지 일반적인 robots.txt 규칙입니다.
| 유용한 규칙 | |
|---|---|
| 전체 사이트 크롤링 금지 |
사이트의 URL이 크롤링된 적이 없어도 색인이 생성되는 경우가 있다는 점을 기억하시기 바랍니다. User-agent: * Disallow: / |
전체 사이트 크롤링 허용(Disallow 규칙이 비어 있음)
|
이렇게 하면 모든 크롤러가 전체 사이트에 액세스할 수 있습니다. 이는 robots.txt 파일이 없거나 User-agent: * Disallow: |
| 디렉터리 및 디렉터리의 콘텐츠 크롤링 금지 |
디렉터리 이름에 슬래시를 추가하여 전체 디렉터리의 크롤링을 금지합니다. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
|
단일 웹페이지 크롤링 금지 |
예를 들어 User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
하위 디렉터리를 제외한 전체 사이트 크롤링 금지 |
크롤러는 User-agent: * Disallow: / Allow: /public/ |
| 크롤러 하나에만 액세스 허용 |
User-agent: Googlebot-News Allow: / User-agent: * Disallow: / |
| 하나를 제외한 모든 크롤러에 액세스 허용 |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
전체 사이트 크롤링은 금지하지만 |
이 구현으로 Google 검색 결과에서 페이지를 숨길 수 있지만 User-agent: * Disallow: / User-agent: Storebot-Google Allow: / |
|
Google의 사이트 내 모든 이미지 크롤링 차단 (Google 이미지 및 디스커버를 비롯해 Google에 이미지가 표시되는 모든 위치 포함) |
Google은 이미지와 동영상을 크롤링하지 않고는 색인을 생성할 수 없습니다. User-agent: Googlebot-Image Disallow: / |
|
Google 이미지의 특정 이미지 크롤링 차단 |
예를 들어 User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
특정 파일 형식의 파일 크롤링 금지 |
예를 들어 모든 User-agent: Googlebot Disallow: /*.gif$ |
* 및 $ 와일드 카드를 사용하여 특정 문자열로 끝나는 URL에 적용
|
예를 들어 User-agent: Googlebot Disallow: /*.xls$ |
| 단일 그룹에 여러 사용자 에이전트 결합 |
여러 크롤러의 규칙을 하나의 그룹으로 통합하면 그룹의 모든 규칙이 나열된 모든 사용자 에이전트에 적용되므로 파일을 더 짧게 만들고 관리하기가 더 쉬워집니다. 이는 각각의 규칙과 함께 사용자 에이전트를 두 번 나열하는 것과 동일합니다. User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: / |