Robots Refresher: 새로운 시리즈 소개

2025년 2월 24일 월요일

robots.txt, robots 메타 태그, 그리고 이러한 태그가 제공하는 제어 기능에 관한 질문이 종종 올라옵니다. 이번이 크롤링에 관한 12월 시리즈에 이어 가볍게 복습할 수 있는 좋은 기회인 것 같습니다. 이러한 제어 기능에 관해 궁금하다면 이 새로운 블로그 게시물 시리즈를 확인하세요.

먼저 robots.txt부터 시작하겠습니다.

robots.txt란 무엇인가요?

"robots.txt"는 모든 웹사이트에서 제공할 수 있는 파일입니다. 가장 간단한 형태의 경우 서버에 저장되는 텍스트 파일입니다. 거의 모든 웹사이트에 robots.txt 파일이 있습니다. 이를 확인하려면 도메인 이름의 끝에 /robots.txt를 추가한 다음 해당 주소로 이동합니다. 예를 들어 이 웹사이트의 robots.txt 파일은 developers.google.com/robots.txt에 있습니다.

대부분의 웹사이트는 이러한 파일을 자동으로 만드는 콘텐츠 관리 시스템 (CMS)을 사용하지만 웹사이트를 '수동으로' 만들더라도 쉽게 만들 수 있습니다. 향후 게시물에서 몇 가지 변형을 살펴보겠습니다.

이 파일은 어떤 용도인가요?

robots.txt 파일은 웹사이트 크롤러에 웹사이트의 어느 부분을 자동으로 액세스(크롤링이라고 함)할 수 있고 어느 부분을 액세스할 수 없는지 알려 줍니다. 이를 통해 사이트는 전체 사이트, 사이트의 일부 또는 사이트 내 특정 파일 등 모든 항목을 처리할 수 있습니다. 파일은 머신에서 읽을 수 있을 뿐만 아니라 인간이 읽을 수도 있습니다. 즉, 특정 크롤러가 자동화된 방식으로 페이지에 액세스할 수 있는지 여부에 관한 명확한 예/아니요 답변이 항상 있습니다.

크롤러를 빌드하는 모든 사용자는 이러한 지시를 따르는 것이 표준 관행이며 개발자가 이를 쉽게 지원할 수 있습니다. 개발자를 위해 1,000개가 넘는 오픈소스 라이브러리가 제공됩니다. 이 파일은 웹사이트를 최적으로 크롤링하기 위한 안내를 크롤러에 제공합니다. 현대 웹사이트는 복잡할 수 있으며 자동으로 탐색하기 어려울 수 있습니다. robots.txt 규칙은 크롤러가 적절한 콘텐츠에 집중하는 데 도움이 됩니다. 또한 크롤러가 서버에 부담을 줄 수 있고 크롤링을 불필요하게 비효율적으로 만드는 동적으로 생성된 페이지를 피하는 데 도움이 됩니다. robots.txt 파일은 기술적으로 유용하고 웹사이트 소유자와의 관계에도 도움이 되므로 대부분의 상용 크롤러 운영자는 robots.txt 파일을 따릅니다.

일반 사용자에 의한 구축 및 확장

robots.txt 파일은 인터넷이 생겨난 거의 그 시점부터 존재해 왔으며 인터넷이 제대로 작동하도록 하는 필수 도구 중 하나입니다. 웹페이지의 기반인 HTML은 1991년에 발명되었고, 첫 번째 브라우저는 1992년에, robots.txt는 1994년에 등장했습니다. 즉, 1998년에 설립된 Google보다 먼저 설립된 것입니다. 그 이후로 형식은 거의 변경되지 않았으며 초기 파일은 지금도 유효합니다. 3년간의 전 세계 커뮤니티 참여를 통해 2022년에 IETF 제안 표준이 되었습니다.

웹사이트가 있으면 robots.txt 파일도 있을 가능성이 높습니다. robots.txt를 중심으로 활발한 커뮤니티가 있으며, 다양한 크기와 형태의 robots.txt 파일을 빌드, 테스트, 관리 또는 이해하는 데 도움이 되는 수천 개의 소프트웨어 도구가 있습니다. 하지만 robots.txt의 장점은 별도의 도구가 필요하지 않고 브라우저에서 파일을 읽을 수 있으며 관리하는 웹사이트의 경우 간단한 텍스트 편집기로 조정할 수 있다는 점입니다.

향후 전망…

robots.txt 형식은 유연합니다. 성장의 여지가 있으며, 공개 웹 커뮤니티는 이를 확장할 수 있고 크롤러는 기존 사용을 중단하지 않고 적절한 경우 확장 프로그램을 발표할 수 있습니다. 2007년 검색엔진에서 '사이트맵' 지침을 발표하면서 이러한 변화가 시작되었습니다. 또한 AI 목적으로 사용되는 크롤러 운영자 및 검색엔진에서 새로운 'user-agent'(사용자 에이전트)를 지원함에 따라 정기적으로 발생합니다.

robots.txt는 계속 사용될 것입니다. 새로운 파일 형식이 대규모 인터넷 커뮤니티에서 최종적으로 완성되기까지 몇 년이 걸리고, 생태계에서 유용하게 사용할 수 있는 적절한 도구를 만드는 데는 훨씬 더 오래 걸립니다. robots.txt는 간단하고 세부적이고 표현력이 있으며 잘 이해되고 받아들여지며 수십 년 동안 작동해 왔던 것처럼 작동합니다.

자세한 내용이 궁금하신가요? 검색 센터 블로그에서 Robots Refresher 시리즈의 다음 버전을 기대해 주세요.