Robots Refresher: 페이지 수준 세부사항

2025년 3월 14일 금요일

사이트 소유자는 robots.txt 파일을 사용하여 크롤러가 액세스할 수 있는 웹사이트 부분을 간단하게 제어할 수 있습니다. 사이트 소유자가 검색엔진과 웹 크롤러가 페이지를 사용하는 방법을 더 명확하게 표현할 수 있도록 웹 표준 개발에 참여한 커뮤니티는 meta 태그가 HTML에 제안된 지 불과 몇 개월 후인 1996년에 로봇 meta 태그를 고안했습니다. 참고로 Google이 설립되기 전이기도 합니다. 나중에 X-Robots-Tag HTTP 응답 헤더가 추가되었습니다. 이러한 안내는 URL과 함께 전송되므로 크롤러는 robots.txt 파일을 통해 URL을 크롤링하는 것이 금지되지 않은 경우에만 이를 고려할 수 있습니다. 이 두 가지가 함께 로봇 제외 프로토콜(REP)을 형성합니다.

robots meta 태그 살펴보기

메타 태그(또는 요소)는 기계가 읽을 수 있는 메타데이터를 포함하는 방법입니다. 로봇 meta 태그는 meta 태그의 한 '종류'이며 검색엔진 크롤러를 비롯한 크롤러에 적용됩니다. 콘텐츠의 색인 생성이 차단되었는지 나타냅니다. 크롤링을 위해 페이지의 링크를 따라가면 안 되나요? 로봇 meta 태그를 사용하여 페이지에서 이 정보를 쉽게 제공할 수 있습니다.

모든 URL의 로봇 제외 프로토콜

HTML 이외의 콘텐츠에 동일한 수준 컨트롤을 제공하기 위해 'X-Robots-Tag' HTTP 응답 헤더가 만들어졌습니다. 이러한 HTTP 헤더는 REP의 일부로 간주됩니다. 이 헤더는 로봇 meta 태그와 동일한 값을 지원하며 온라인에 게재되는 모든 콘텐츠에 추가할 수 있습니다. Google은 HTML 외에도 PDF, 문서 파일, 이미지와 같은 콘텐츠에도 이 기능을 지원합니다. 이러한 파일 형식의 대부분에는 meta 태그와 동등한 메커니즘이 없으므로 HTTP 응답 헤더가 유용합니다.

로봇 meta 태그 및 헤더 시작하기

구문은 간단하고 확장 가능합니다. 규칙은 일반적으로 웹 개발자가 구현하거나 콘텐츠 관리 시스템(CMS)을 통해 구현되며, 여기에서 사이트 소유자는 체크박스 또는 드롭다운 메뉴를 사용하여 환경설정을 선택할 수 있습니다. 이러한 컨트롤은 Googlebot과 같은 특정 크롤러를 처리하거나 특정 이름을 생략하여 이러한 값을 지원하는 모든 크롤러를 처리할 수 있습니다.

예를 들어 다음 규칙은 모든 크롤러에 색인 생성에 연결된 페이지를 사용하지 말라고 지시합니다.

  • 웹페이지에서 HTML meta 태그 형식:
    <meta name="robots" content="noindex">

    기존 meta 태그 또는 응답 헤더를 확인하는 것은 조금 더 복잡하며 페이지 콘텐츠 또는 헤더를 직접 검사해야 합니다. 브라우저에서 페이지 소스를 확인하거나 Chrome의 개발자 도구를 사용하여 페이지를 검사하여 모든 페이지에서 HTML meta 태그를 볼 수 있습니다.

  • HTTP 응답 헤더 형식:
    X-Robots-Tag: noindex

    Chrome의 개발자 도구 Network 패널에서 개별 URL의 HTTP 응답 헤더를 확인할 수 있습니다.

다음과 같은 작업도 할 수 있습니다.

이 페이지 또는 문서의 스니펫을 표시하지 않습니다.

HTTP 헤더:
X-Robots-Tag: nosnippet
또는 HTML:
<meta name="robots" content="nosnippet">

다른 페이지의 환경설정을 지정하지 않고 ExampleBot-News에서 이 페이지의 색인을 생성하지 않습니다.

이 컨트롤은 크롤러 하나를 명시적으로 지정합니다.

X-Robots-Tag: examplebot-news: noindex
또는
<meta name="examplebot-news" content="noindex">

ExampleBot은 스니펫을 표시해서는 안 되며, 모든 크롤러는 이 페이지의 링크를 따라가서는 안 됩니다.

가장 제한적이며 유효한 지시어가 적용되므로 ExampleBot의 경우 지시어가 'nosnippet, nofollow'로 결합됩니다.

X-Robots-Tag: examplebot: nosnippet
X-Robots-Tag: nofollow
또는
<meta name="examplebot" content="nosnippet">
<meta name="robots" content="nofollow">

REP 메커니즘 선택

어떤 메커니즘을 사용할지 어떻게 선택하나요? 기본적으로 robots.txt와 페이지 수준 컨트롤은 유사하지만 완전히 호환되지는 않습니다. 경우에 따라 메커니즘 중 하나로만 가능한 특정 작업이 있습니다. 예를 들어 크롤링 작업을 중지하려는 경우(예: 무한 검색 결과 페이지의 경우, robots.txt로 가능), FTP 서버를 제어해야 하는 경우(robots.txt로 가능), 페이지에 스니펫을 표시하지 않으려는 경우(페이지 수준 요소로만 가능) 등이 여기에 해당합니다. 크롤링 차단과 색인 생성 차단을 구분할 필요가 없는 경우, 웹사이트의 상당 부분을 차단하는 보다 광범위한 컨트롤을 위해 robots.txt를 사용하고 개별 페이지를 차단하기 위해 페이지 수준 컨트롤을 사용하는 것이 좋습니다.

로봇 제외 프로토콜 - 강력한 현행 표준

이러한 모든 컨트롤은 기본적으로 확장 가능합니다. 수년 동안 사이트 소유자, 크롤러 운영자, 검색엔진이 함께 노력하여 이를 발전시켜 왔습니다. 이전에는 noindexnofollow를 비롯한 소수의 값으로 시작했지만 나중에 nosnippet, noarchive, max-snippet:과 같은 더 많은 값이 채택되었습니다. 디렉터리가 폐쇄되기 전에 DMOZ / 공개 디렉터리 프로젝트의 스니펫을 사용했던 noodp의 경우와 같이 값이 지원 중단되는 경우도 있습니다. Google에서는 사이트 소유자를 위해 다양한 값을 지원하며, 다른 대규모 크롤러 운영업체에서도 비슷한 양의 값을 지원합니다.

REP의 범위 내에서 사이트 소유자는 크롤링되는 항목과 크롤링된 데이터가 검색엔진에서 사용되는 방식을 관리할 수 있습니다. 웹사이트의 큰 부분에 대해 광범위하게 또는 개별 페이지에 대해 매우 세부적으로, 심지어 페이지 내 이미지에 대해서도 적용할 수 있습니다. 이러한 컨트롤은 잘 알려져 있으며 모든 일반적인 콘텐츠 관리 시스템에서 사용할 수 있고 상업적 운영자가 광범위하게 지원하며 오늘날 인터넷의 수십억 호스트에서 사용됩니다.


Robots Refresher 시리즈의 나머지 콘텐츠를 확인해 보세요.