robots.txt 소개

robots.txt 파일이란 무엇인가요?

robots.txt 파일을 사용하면 크롤러가 사이트에 요청할 수 있는 페이지/파일과 요청할 수 없는 페이지/파일을 검색엔진 크롤러에 알려 줄 수 있습니다. 이 파일은 주로 요청으로 인해 사이트가 오버로드되는 것을 방지하기 위해 사용하며, Google로부터 웹페이지를 숨기기 위한 메커니즘이 아닙니다. 웹페이지가 Google에 표시되지 않도록 하려면 noindex 명령어를 사용하거나 비밀번호로 페이지를 보호해야 합니다.

robots.txt 파일의 용도는 무엇인가요?

robots.txt 파일은 주로 사이트의 크롤러 트래픽을 관리하고, 일반적으로 다음과 같은 파일 형식에 따라 Google에 파일을 표시하지 않기 위해 사용합니다.

파일 형식 트래픽 관리 Google로부터 숨겨짐 설명
웹페이지

Google 크롤러의 요청으로 인해 서버에 부하가 크다고 생각되는 경우 robots.txt 파일을 사용하여 웹페이지(HTML, PDF 또는 기타 Google에서 읽을 수 있지만, 미디어 형식은 아닌 웹페이지)의 크롤링 트래픽을 관리할 수 있으며 사이트에서 중요하지 않거나 비슷한 페이지의 크롤링을 피할 수 있습니다.

robots.txt 파일을 Google 검색결과에서 웹페이지를 숨기는 데 사용해서는 안 됩니다. 다른 페이지에서 설명문을 통해 내 페이지로 연결되면 페이지를 방문하지 않아도 내 페이지에서 색인이 생성될 수 있기 때문입니다. 검색결과에 페이지가 표시되지 않도록 하려면 비밀번호 보호나 noindex 명령어 등 다른 방법을 사용하세요.

robots.txt 파일로 웹페이지를 차단하는 경우 검색 결과에 계속 표시될 수 있지만, 설명이 나타나지 않으며 이와 같이 표시됩니다. 이미지 파일, 동영상 파일, PDF 및 기타 HTML이 아닌 파일은 제외됩니다. 페이지에 관한 검색결과가 이와 같이 표시되는 문제를 해결하려면 페이지를 차단하고 있는 robots.txt 항목을 삭제하세요. 페이지를 검색에서 완전히 숨기려면 다른 방법을 사용해야 합니다.

미디어 파일

robots.txt 파일을 사용하여 크롤링 트래픽을 관리하고 Google 검색결과에 이미지, 동영상, 오디오 파일이 표시되지 않도록 하세요. 이렇게 해도 다른 페이지에서 또는 다른 사용자가 내 이미지/동영상/오디오 파일을 링크하는 것을 막을 수는 없습니다.

리소스 파일 리소스 파일(예: 중요하지 않은 이미지, 스크립트, 스타일 파일) 없이 페이지가 로드되어도 크게 영향을 받지 않는다면 robots.txt 파일을 사용하여 이러한 리소스 파일을 차단해도 됩니다. 하지만 이러한 리소스가 없이는 Google 크롤러가 페이지를 이해하기 어렵다면 차단해서는 안 됩니다. 차단하면 Google에서 이러한 리소스에 의존하는 페이지를 제대로 분석할 수 없게 됩니다.

사이트 호스팅 서비스를 사용하는 경우

Wix, Drupal, Blogger와 같은 웹사이트 호스팅 서비스를 사용하는 경우 robots.txt 파일을 직접 수정할 필요가 없거나 수정하지 못할 수 있습니다. 대신, 호스팅 업체에서 검색엔진이 페이지를 크롤링할 수 있게 할지 결정하는 검색 설정 페이지나 기타 메커니즘을 제공할 수 있습니다.

Google에서 페이지를 크롤링했는지 확인하려면 Google에서 페이지 URL을 검색하세요.

검색엔진에서 페이지를 숨기거나 노출하려면 페이지의 로그인 요구사항을 추가하거나 삭제하고, 사용 중인 호스팅 서비스의 검색엔진 페이지 공개 상태를 수정하는 방법을 찾아보세요(예: 검색엔진에서 wix 페이지 숨기기).

robots.txt 파일의 제한사항 이해

robots.txt 파일을 작성하거나 수정하기 전에 이 URL 차단 방법의 제한사항에 관해 알아야 합니다. 경우에 따라 웹에서 내 URL이 검색되지 않도록 하는 다른 메커니즘을 고려해볼 수도 있습니다.

  • Robots.txt 명령어는 일부 검색엔진에서는 지원되지 않을 수 있음
    robots.txt 파일의 지침은 사이트에서의 크롤러 동작을 강제할 수 없습니다. 지침을 준수할지는 크롤러가 스스로 판단합니다. Googlebot 및 기타 잘 제작된 웹 크롤러는 robots.txt 파일의 지침을 준수하지만 그렇지 않은 크롤러도 있습니다. 그러므로 웹 크롤러로부터 정보를 안전하게 보호하려면 비밀번호로 서버의 비공개 파일을 보호하는 등 다른 차단 방법을 사용하는 것이 더 좋습니다.
  • 크롤러마다 구문을 다르게 해석함
    잘 제작된 웹 크롤러는 robots.txt 파일의 명령어를 따르지만, 크롤러마다 명령어를 다르게 해석할 수도 있습니다. 특정 지침을 이해하지 못하는 크롤러도 있으므로 다양한 웹 크롤러에 적용될 수 있는 적절한 구문을 알아야 합니다.
  • 다른 사이트에서 연결된 경우 robots.txt 파일을 사용한 페이지의 색인이 생성될 수 있음
    Google에서 robots.txt 파일에 의해 차단된 콘텐츠를 크롤링하거나 콘텐츠의 색인을 생성하지는 않지만, 웹의 다른 곳에서 연결된 페이지의 경우 허용되지 않는 URL을 찾아 색인을 생성할 수도 있습니다. 결과적으로 URL 주소뿐만 아니라 페이지 링크의 앵커 텍스트와 같은 기타 공개 정보가 Google 검색결과에 표시될 수 있습니다. URL이 Google 검색결과에 표시되지 않게 하려면 서버의 파일을 비밀번호로 보호하거나 noindex 메타 태그 또는 응답 헤더를 사용하세요. 또는 페이지 전체를 삭제해야 합니다.

페이지의 robots.txt 차단 여부 테스트

robots.txt 규칙에 의해 페이지 또는 리소스가 차단되었는지 테스트할 수 있습니다.

noindex 명령어를 테스트하려면 URL 검사 도구를 사용합니다.