알아 두면 좋은 robots.txt 규칙

다음은 알아 두면 좋은 몇 가지 일반적인 robots.txt 규칙입니다.

유용한 규칙
전체 사이트 크롤링 금지	사이트의 URL이 크롤링된 적이 없어도 색인이 생성되는 경우가 있다는 점을 기억하시기 바랍니다. 참고: 웹사이트 크롤링 금지는 이름을 명시적으로 지정해야 하는 여러 AdsBot 크롤러에는 적용되지 않습니다. User-agent: * Disallow: /
디렉터리 및 디렉터리의 콘텐츠 크롤링 금지	디렉터리 이름에 슬래시를 추가하여 전체 디렉터리의 크롤링을 금지합니다. 주의: 비공개 콘텐츠에 대한 액세스를 차단하는 데 robots.txt를 사용하면 안 됩니다. 대신 적절한 인증 방법을 사용하세요. robots.txt 파일을 통해 금지된 URL은 크롤링되지 않아도 색인이 생성될 수 있으며 robots.txt 파일은 누구나 볼 수 있으므로 비공개 콘텐츠의 위치가 공개될 수도 있습니다. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
크롤러 하나에만 액세스 허용	`googlebot-news`만 전체 사이트를 크롤링할 수 있습니다. User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
하나를 제외한 모든 크롤러에 액세스 허용	`Unnecessarybot`은 사이트를 크롤링하지 못할 수 있으며 다른 모든 크롤러는 크롤링할 수도 있습니다. User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
단일 웹페이지 크롤링 금지	예를 들어 `https://example.com/useless_file.html`에 있는 `useless_file.html` 페이지와 `junk` 디렉터리에 `other_useless_file.html` 페이지의 크롤링을 금지합니다. User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
하위 디렉터리를 제외한 전체 사이트 크롤링 금지	크롤러는 `public` 하위 디렉터리에 한하여 액세스할 수 있습니다. User-agent: * Disallow: / Allow: /public/
Google 이미지의 특정 이미지 크롤링 차단	예를 들어 `dogs.jpg` 이미지를 금지합니다. User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Google 이미지의 사이트 내 모든 이미지 크롤링 차단	Google은 이미지와 동영상을 크롤링하지 않고는 색인을 생성할 수 없습니다. User-agent: Googlebot-Image Disallow: /
특정 파일 형식의 파일 크롤링 금지	예를 들어 모든 `.gif` 파일의 크롤링을 금지합니다. User-agent: Googlebot Disallow: /*.gif$
전체 사이트 크롤링은 금지하지만 `Mediapartners-Google` 크롤링은 허용	이 구현으로 검색 결과에서 페이지를 숨길 수 있지만 `Mediapartners-Google` 웹 크롤러는 여전히 페이지를 분석하여 사이트 방문자에게 표시할 광고를 결정할 수 있습니다. User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
`*` 및 `$` 와일드 카드를 사용하여 특정 문자열로 끝나는 URL에 적용	예를 들어 `.xls` 파일은 모두 금지합니다. User-agent: Googlebot Disallow: /*.xls$