robots.txt에서 지원되지 않는 규칙에 관한 참고사항

2019년 7월 2일 화요일

어제 Google은 프로덕션 robots.txt 파서를 오픈소스로 제공한다고 발표했습니다. 향후 검색 오픈소스 프로젝트를 펼쳐나갈 수 있는 토대를 마련하는 멋진 순간이었습니다. 의견을 보내주시면 큰 도움이 됩니다. 개발자웹마스터 여러분 모두 궁금한 점을 질문해 주시기 바랍니다. 질문 하나가 특히 눈에 띄었습니다. 이 게시글에서 다룰 텐데요.
코드에 크롤링 지연과 같은 다른 규칙의 코드 핸들러가 포함되지 않은 이유는 무엇인가요?

어제 게시된 인터넷 초안을 보면 표준에 속하지 않는 규칙에 사용할 수 있는 확장 가능한 아키텍처를 제공합니다. 다시 말해 크롤러가 unicorns: allowed와 같은 자체 라인을 지원하려고 한다면 지원할 수 있습니다. 이 아키텍처가 파서에서 어떻게 나타나는지 보여주기 위하여 오픈소스 robots.txt 파서에 매우 일반적인 라인인 사이트맵을 넣었습니다.

파서 라이브러리를 오픈소스로 제공하는 동안 Google에서는 robots.txt 규칙 사용을 분석했습니다. 특히 crawl-delay, nofollow, noindex와 같이 인터넷 초안에서 지원되지 않는 규칙에 중점을 두었습니다. 이러한 규칙은 Google에서 한 번도 문서화한 적이 없기 때문에 Googlebot과 관련된 규칙의 사용 빈도는 매우 낮습니다. 더 자세히 알아본 결과, 인터넷의 모든 robots.txt 파일 중 0.001%를 제외한 모든 파일에서 이러한 규칙이 다른 규칙과 상충한다는 것을 확인했습니다. 이러한 실수는 웹마스터의 의도와는 다르게 Google 검색결과에 사이트가 표시되는 방식에 영향을 미칩니다.

건전한 생태계를 유지하고 향후 오픈소스 출시에 대비하기 위하여, Search Console에서는 게시되지 않은 미지원 규칙(예: noindex)을 처리하는 모든 코드를 2019년 9월 1일에 폐기할 예정입니다. 크롤링 제어용 robots.txt 파일의 noindex 색인 생성 규칙을 사용했다면, 다음과 같은 여러 대체 옵션이 있습니다.

  • robots meta 태그의 noindex:noindex 규칙은 HTTP 응답 헤더와 HTML에서 모두 지원되며, 크롤링이 허용되는 경우 색인에서 URL을 삭제하기 위한 가장 효과적인 방법입니다.
  • 404410 HTTP 상태 코드: 두 상태 코드 모두 페이지가 존재하지 않음을 의미하며, 이러한 URL이 크롤링 및 처리되면 Google 색인에서 제거됩니다.
  • 비밀번호 보호: 마크업을 사용하여 구독 또는 페이월 콘텐츠를 표시하지 않는 이상 로그인 뒤에 페이지를 숨기면 일반적인 경우 Google 색인에서 페이지가 삭제됩니다.
  • robots.txtDisallow: 검색엔진은 알고 있는 페이지의 색인만 생성할 수 있으므로 보통 페이지가 크롤링되지 않도록 차단하면 콘텐츠의 색인이 생성되지 않습니다. 검색엔진이 콘텐츠를 확인하지 않고 다른 페이지의 링크를 기반으로 URL의 색인을 생성할 수도 있습니다. 하지만 앞으로 이러한 페이지를 더 적게 표시하기 위해 노력하고 있습니다.
  • Search Console URL 삭제 도구: 이 도구를 사용하면 Google 검색결과에서 URL을 쉽고 빠르게 일시적으로 삭제할 수 있습니다.

Google 검색결과에서 정보를 삭제하는 방법을 자세히 알아보려면 고객센터를 방문하세요. 궁금한 점이 있으면 Twitter웹마스터 커뮤니티(오프라인 및 온라인)에서 도움을 받을 수 있습니다.