URL 삭제 설명, 파트 1: URL 및 디렉터리

2010년 3월 30일 화요일

요즘은 인터넷에 수없이 많은 콘텐츠가 있습니다. 큰 논란을 불러 일으키는 바람에 게시하지 말 걸 그랬다고 후회하는 블로그 게시물, 실수로 노출된 기밀 데이터 등 인터넷에 올리지 않았더라면 좋았을 콘텐츠를 인터넷 상에서 마주하게 되는 순간이 오기도 합니다. 대부분의 경우 이 콘텐츠에 대한 액세스를 삭제하거나 제한하면 일정 시간이 지난 후 검색결과에서 콘텐츠가 자연스럽게 사라집니다. 하지만 이미 Google에서 색인을 생성해 버린, 내가 원치 않은 콘텐츠를 신속하게 삭제하기를 원하며 자연스럽게 사라질 때까지 기다릴 수 없다면 Google URL 삭제 도구를 사용해 검색결과에서 콘텐츠를 빠르게 삭제할 수 있습니다. 다만 특정 기준을 충족해야 하며 이는 아래에서 설명합니다.

다양한 유형의 콘텐츠를 성공적으로 삭제하는 방법과 피해야 할 일반적인 실수를 설명하는 블로그 게시물 시리즈가 준비되어 있습니다. 이 첫 번째 게시물에서는 단일 URL 삭제, 전체 디렉터리 또는 사이트 삭제, 삭제된 콘텐츠 다시 포함 등 몇 가지 기본적인 시나리오를 살펴보겠습니다. 또한 온라인에서 사용할 수 있는 정보 관리하기에 관한 이전 게시물을 살펴보시는 것이 좋습니다.

단일 URL 삭제

일반적으로 삭제 요청이 성공하려면 문제가 되는 URL의 소유자(본인 또는 타인)가 콘텐츠를 삭제해도 괜찮다는 의향을 나타내어야 합니다. 개별 URL의 경우 이러한 의향이 있음을 다음의 세 가지 방법 중 하나로 표현할 수 있습니다.

삭제 요청을 제출하기 전에 URL이 제대로 차단되었는지 확인하세요.

  • robots.txt Fetch as Googlebot 또는 웹마스터 도구의 robots.txt 테스트 기능 중 하나를 사용해 URL이 올바르게 허용 중지되었는지 확인할 수 있습니다.
  • noindex meta 태그: Fetch as Googlebot을 사용하여 meta 태그가 <head> 태그와 </head> 태그 사이에 표시되는지 확인하세요. 웹마스터 도구에서 확인할 수 없는 페이지를 확인하려면 브라우저에서 URL을 열고 보기> 페이지 소스로 이동한 다음 <head> 태그와 </head> 태그 사이에 meta 태그가 표시되는지 확인하시기 바랍니다.
  • 404410 상태 코드: Fetch as Googlebot 또는 실시간 HTTP 헤더web-sniffer.net과 같은 도구를 사용하여 URL이 실제로 올바른 코드를 반환하는지 확인합니다. '삭제됨' 페이지에 '404' 또는 '찾을 수 없음'이라고 표시되지만 실제로는 페이지 헤더에는 200 상태 코드가 반환될 때도 있습니다. 따라서 적절한 헤더 검사 도구를 사용하여 다시 확인하는 것이 좋습니다.

원치 않는 콘텐츠는 페이지에서 삭제되었지만 위의 방법 중 어떤 것을 사용해도 페이지가 차단되지 않았다면 Google 검색결과에서 해당 URL을 완전히 삭제할 수 없는 것입니다. 이러한 현상은 콘텐츠를 호스팅하고 있는 사이트의 소유자가 아닌 경우 가장 흔히 나타납니다. 이러한 상황에 대처하는 방법은 후속 게시물인 삭제 시리즈 2부에서 다룰 예정입니다.

URL이 위 기준 중 하나를 충족하는 경우 삭제 도구로 이동하여 삭제할 URL을 입력하고 '웹마스터가 이미 페이지를 차단함' 옵션을 선택하여 URL을 삭제할 수 있습니다. Google 검색에서 콘텐츠가 표시되는 URL이 아닌 콘텐츠가 호스팅되는 URL을 입력해야 합니다. 예를 들어 https://www.google.com/search?q=embarrassing+stuff아닌 https://www.example.com/embarrassing-stuff.html을 입력해야 합니다.

고객센터 도움말에서 올바른 URL을 입력했는지 확인하는 방법에 관해 알아볼 수 있습니다. Google에 문제가 되는 URL을 정확히 알리지 않으면 삭제하고자 하는 콘텐츠를 삭제할 수 없습니다.

전체 디렉터리 또는 사이트 삭제

디렉터리 또는 사이트 전체를 삭제하려면 디렉터리 또는 사이트가 사이트의 robots.txt 파일에서 허용되지 않아야 합니다. 예를 들어 https://www.example.com/secret/ 디렉터리를 삭제하려면 robots.txt 파일에 다음을 포함해야 합니다.

User-agent: *
Disallow: /secret/

디렉터리의 루트가 404 상태 코드를 반환하는 것만으로는 충분하지 않습니다. 디렉터리가 404를 반환하더라도 그 아래에서 파일을 계속 제공할 수 있기 때문입니다. robots.txt를 사용하여 디렉터리(또는 전체 사이트)를 차단하면 이 디렉터리(또는 사이트)에 포함된 모든 URL도 함께 차단됩니다. Fetch as Googlebot 또는 웹마스터 도구의 robots.txt 테스트를 사용하여 디렉터리가 제대로 차단되었는지 테스트할 수 있습니다.

사이트의 확인된 소유자만 웹마스터 도구에서 사이트 또는 디렉터리 전체의 삭제를 요청할 수 있습니다. 디렉터리나 사이트 삭제를 요청하려면 해당 사이트를 클릭한 후 사이트 구성 > 크롤러 액세스 > URL 삭제로 이동합니다. 사이트 루트를 삭제할 사이트로 입력하면 전체 사이트를 삭제할지 확인하는 메시지가 표시됩니다. 하위 디렉터리를 입력하는 경우 드롭다운 메뉴에서 '디렉터리 삭제' 옵션을 선택하세요.

콘텐츠 다시 포함

다른 사용자가 제출한 사이트 등 내가 소유하고 있는 사이트의 삭제 요청을 언제든지 취소할 수 있습니다. 이렇게 하려면 웹마스터 도구에서 이 사이트의 확인된 소유자여야 합니다. 소유권을 확인하고 나면 다음 페이지로 이동합니다. 사이트 구성> 크롤러 액세스> URL 삭제> 삭제된 URL(> 다른 사람이 삭제 요청한 URL)를 클릭하고 취소할 요청 옆에 있는 '취소'를 클릭합니다.

다른 궁금한 점이 있으신가요? Google 검색결과에서 콘텐츠를 삭제하는 방법을 다루는 이 시리즈의 다른 에피소드도 기대해 주세요. 기다리실 수 없다면 도움말 포럼을 확인하세요. URL 삭제 및 개별 케이스 해결에 관한 많은 내용이 이미 설명되어 있습니다. 다른 사람의 경험을 읽은 후에도 궁금한 점이 있다면 질문해 보세요. 대부분의 경우 해당 사이트나 URL을 모르면 특정 삭제 조치에 관한 조언을 제공하기가 어렵습니다. 문제의 URL이 게시물의 일부로 색인이 생성되지 않도록 URL 단축 서비스를 사용하여 URL을 공유하는 것이 좋습니다. 일부 URL 단축 서비스를 사용하면 나중에 문제가 해결되었을 때 바로가기를 사용 중지하는 것도 가능합니다.

마지막으로 온라인에 표시되는 내 정보 관리하기를 읽어보는 것도 좋습니다.