2024년 12월 3일 화요일
웹페이지가 Google 검색 결과에 표시되려면 먼저 Google 검색에서 약간의 작업이 필요하다고 들어본 적이 있으실 겁니다. 그중 한 단계가 크롤링입니다. Google 검색 크롤링은 Google 서버에서 실행되는 프로그램인 Googlebot이 수행합니다. Googlebot은 URL을 검색하고 네트워크 오류, 리디렉션 및 웹에서 작업하는 동안 발생할 수 있는 기타 사소한 문제를 처리합니다. 하지만 자주 언급되지 않는 몇 가지 세부정보가 있습니다. 이번 달에는 사이트 크롤링 방식에 큰 영향을 미칠 수 있는 이러한 세부정보 몇 가지를 매주 살펴보겠습니다.
복습: 크롤링이란 무엇인가요?
크롤링은 새 웹페이지를 발견하고 업데이트된 웹페이지를 다시 방문하여 다운로드하는 프로세스입니다. 간단히 말해 Googlebot은 URL을 가져와 이를 호스팅하는 서버에 HTTP 요청을 한 다음 해당 서버의 응답을 처리하여 리디렉션, 오류 처리, 페이지 콘텐츠를 Google의 색인 생성 시스템으로 전달하는 등의 작업을 수행합니다.
하지만 최신 웹페이지는 순수한 HTML만 있는 것이 아닌데 페이지를 구성하는 다른 리소스는 어떻게 될까요? 이러한 리소스를 크롤링하면 '크롤링 예산'에 어떤 영향을 미칠까요? 리소스를 Google 측에서 캐시할 수 있나요? 이전에 크롤링되지 않은 URL과 이미 색인이 생성된 URL에는 차이가 있을까요? 이 게시물을 통해 이러한 질문에 답변해 드리겠습니다.
Googlebot 및 페이지 리소스 크롤링
최신 웹사이트는 HTML 외에도 JavaScript, CSS 등 다양한 기술을 조합하여 사용자에게 생생한 환경과 유용한 기능을 제공합니다. 브라우저로 이러한 페이지에 액세스하면 브라우저는 먼저 사용자를 위해 페이지 빌드를 시작하는 데 필요한 데이터(페이지의 HTML)를 호스팅하는 상위 URL을 다운로드합니다. 이 초기 데이터에는 JavaScript 및 CSS와 같은 리소스에 대한 참조뿐만 아니라 브라우저가 최종 페이지를 구성하기 위해 다시 다운로드하여 사용자에게 표시되는 이미지와 동영상도 포함될 수 있습니다.
Google도 정확히 동일한 작업을 실행하지만 약간의 차이가 있습니다.
- Googlebot은 상위 URL(페이지의 HTML)에서 초기 데이터를 다운로드합니다.
- Googlebot은 가져온 데이터를 웹 렌더링 서비스(WRS)에 전달합니다.
- WRS는 Googlebot을 사용하여 원본 데이터에 참조된 리소스를 다운로드합니다.
- WRS는 사용자의 브라우저처럼 다운로드한 모든 리소스를 사용하여 페이지를 구성합니다.
브라우저에 비해 페이지 렌더링에 필요한 리소스를 호스팅하는 서버의 감지된 부하와 같은 스케줄링 제약 조건으로 인해 각 단계 사이의 시간이 훨씬 더 길어질 수 있습니다. 이때 크롤링 예산을 고려해야 합니다.
페이지를 렌더링하는 데 필요한 리소스를 크롤링하면 해당 리소스를 호스팅하는 호스트 이름의 크롤링 예산이 줄어듭니다. 이를 개선하기 위해 WRS는 렌더링하는 페이지에서 참조되는 모든 리소스(JavaScript 및 CSS)를 캐시하려고 시도합니다. WRS 캐시의 TTL(수명)은 HTTP 캐싱 지시어의 영향을 받지 않습니다. 대신 WRS는 최대 30일 동안 모든 항목을 캐시하여 다른 크롤링 작업에 사용할 사이트의 크롤링 예산을 보존하는 데 도움이 됩니다.
사이트 소유자의 입장에서 크롤링하는 방법과 리소스를 관리하는 것은 사이트의 크롤링 예산에 영향을 미칠 수 있는 문제이므로 다음을 권장합니다:
- 사용자에게 우수한 환경을 제공할 수 있도록 가능한 한 적은 리소스를 사용합니다. 페이지 렌더링에 필요한 리소스가 적을수록 렌더링 중에 크롤링 예산이 적게 소요됩니다.
- 캐시 무효화 매개변수를 신중히 사용하세요. 리소스의 URL이 변경되면 콘텐츠가 변경되지 않았더라도 Google에서 리소스를 다시 크롤링해야 할 수 있습니다. 당연히 크롤링 예산도 소모됩니다.
- CDN을 사용하거나 다른 하위 도메인에 리소스를 호스팅하는 등 기본 사이트와 다른 호스트 이름으로 리소스를 호스팅합니다. 이렇게 하면 크롤링 예산 문제가 리소스를 제공하는 호스트로 이전됩니다.
이 모든 사항은 미디어 리소스에도 적용됩니다. Googlebot(구체적으로는 각각 Googlebot-Image
및 Googlebot-Video
)이 미디어 리소스를 가져오면 사이트의 크롤링 예산이 소모됩니다.
목록에 robots.txt도 추가하고 싶을 수 있으니 렌더링 시 리소스 크롤링을 허용하지 않으면 일반적으로 문제가 발생합니다. WRS가 렌더링에 중요한 리소스를 가져올 수 없는 경우 Google 검색에서 페이지의 콘텐츠를 추출하고 페이지가 검색 순위에 오르는 데 문제가 발생할 수 있습니다.
Googlebot 크롤링이란 무엇인가요?
Google에서 크롤링하는 리소스를 분석하는 가장 유용한 소스는 브라우저와 크롤러에서 모두 요청한 모든 URL 항목이 포함된 사이트의 원시 액세스 로그입니다. Google은 액세스 로그에서 Google 크롤러를 식별할 수 있도록 개발자 문서에 IP 범위를 게시합니다.
두 번째로 유용한 리소스는 크롤러별로 각 리소스 유형을 분류하는 Search Console 크롤링 통계 보고서입니다.

마지막으로 크롤링과 렌더링에 관심이 있고 다른 사용자의 생각도 궁금하다면 검색 센터 커뮤니티를 방문하세요. LinkedIn에서도 확인할 수 있습니다.
업데이트
- 2024년 12월 6일 업데이트: 다른 출처의 리소스를 게재할 때 성능에 미치는 영향이 확인되었습니다.
크롤링에 대해 자세히 알아보시겠어요? 12월 크롤링 시리즈 전체를 확인해보세요.
게리 일리스
Google 검색팀의 분석가 게리 일리스는 Google 검색팀의 분석가로, 게시자가 사용자와 Google 검색 모두에 효과적인 웹사이트를 만들 수 있도록 지원하기 위해 Google 검색 시스템에 대한 정보를 게시하는 데 주력하고 있습니다. LinkedIn | Mastodon | Twitter
그렉 그로트하우스
Google 검색 품질관리팀 직원 소프트웨어 엔지니어 Google 검색 센터 블로그에서 그레그 그로트하우스의 게시물을 확인하세요. 웹사이트
니르 칼루쉬
Google 트렌드 및 Search Console 제품 관리자 니르 칼루쉬는 Google 트렌드 및 Search Console팀의 제품 관리자로, 열린 웹 및 뉴스 생태계를 개선하는 도구를 주로 담당하고 있습니다. 이전에는 Google Ads(디스플레이 및 앱)와 관련한 다양한 직무를 수행했습니다. Google에 합류하기 전에는 SAAS 스타트업, 엔지니어링 회사, 연구기관을 비롯한 여러 업계에서 연구, 엔지니어링, 기술 영업, 프로젝트 관리
다니엘 마샤크
동영상 검색 제품 관리자 Google 검색 센터 블로그에서 다니엘 마샤크의 게시물을 확인하세요. LinkedIn
다니엘 요세프
소프트웨어 엔지니어 Google 검색 센터 블로그에서 다니엘 요세프의 게시물을 확인하세요. LinkedIn
다니엘 웨이스버그
Google 검색 애드보킷 다니엘은 Google 검색 홍보팀 소속 Google 검색 애드보킷입니다. 다니엘이 하는 일은 검색 커뮤니티에 정보를 제공하고, Search Console 엔지니어링팀과 협력하여 새로운 제품 전문 역량을 개발하는 업무로 나뉩니다. 특히 원형 차트를 사용하지 않고도 데이터를 멋지게 활용하는 방법을 심층적으로 다룹니다. 또한 Search Console에서 URL Inspection API 및 대량 데이터 내보내기 와 같은
대니 설리반
검색 공공 부문 담당자 Google 검색 센터 블로그에서 대니 설리반의 게시물을 확인하세요. Mastodon
두이 응우옌
검색 품질 분석가 Google 검색 센터 블로그에서 두이 응우옌의 게시물을 확인하세요.
라이언 레버링
Google 검색 엔지니어링팀 Google 검색 센터 블로그에서 라이언 레버링의 게시물을 확인하세요. Mastodon
로니 팔콘
제품 관리자 Google 검색 센터 블로그에서 로니 팔콘의 게시물을 확인하세요. LinkedIn
로데 반데네
소프트웨어 엔지니어 Google 검색 센터 블로그에서 로데 반데네의 게시물을 확인하세요. GitHub
리사 디아트코
검색 품질 분석가 Google 검색 센터 블로그에서 리사 디아트코의 게시물을 확인하세요.
리지 사스만
Google 검색팀 테크니컬 라이터 Google 검색 센터 블로그에서 리지 사스만의 게시물을 확인하세요. LinkedIn | Twitter | Mastodon
마이레이 오야
개발자 프로그램 기술 담당자 Google 검색 센터 블로그에서 마이레이 오야의 게시물을 확인하세요.
마이클 레
학습 및 교육 검색 제품 관리자 Google 검색 센터 블로그의 마이클 레의 게시물을 확인하세요. LinkedIn
마이클 슈
소프트웨어 엔지니어 Google 검색 센터 블로그의 마이클 슈의 게시물을 확인하세요. LinkedIn
마이클 위조미어스키
검색 품질관리팀 Google 검색 센터 블로그에서 마이클 위조미어스키의 게시물을 확인하세요. 웹사이트
마키노 타카키
검색 홍보 프로그램 관리자 Google 검색 센터 블로그에서 마키노 타카키의 게시물을 확인하세요. 웹사이트
마틴 스플리트
Google 검색 홍보팀 Googlebot 위스퍼러 Google 검색 센터 블로그에서 마틴 스플리트의 게시물을 확인하세요. 웹사이트 | LinkedIn | Twitter | GitHub | Mastodon
말릭 시드
Google 검색 홍보팀 Google 검색 센터 블로그에서 말릭 시드의 게시물을 확인하세요. Twitter | LinkedIn
맷 컷츠
검색 품질관리팀 책임 엔지니어(DE) Google 검색 센터 블로그에서 맷 컷츠의 게시물을 확인하세요. 웹사이트 | Twitter | LinkedIn
메구미 히토미
신뢰 및 안전 프로그램 관리자 Google 검색 센터 블로그에서 메구미 히토미의 게시물을 확인하세요.
메리 첸
수석 웹마스터 관계 전문가 Google 검색 센터 블로그에서 메리 첸의 게시물을 확인하세요. LinkedIn
모시 사멧
Search Console 제품 관리자 모시는 Google 검색의 제품 관리자로서 더욱 열린 앱을 만드는 데 주력하고 있습니다. 제품 관리, 소프트웨어 엔지니어링, 프로젝트 관리 등 기술 업계의 다양한 분야에서 20년 이상의 경력을 쌓았습니다. 모시는 스포츠를 향한 열정을 바탕으로 방송사를 위한 스포츠 기술을 개발하여 American National Academy of Television Arts and Science에서 기술·공학 에미상을
무샨 양
소프트웨어 엔지니어 Google 검색 센터 블로그에서 무샨 양의 게시물을 확인하세요. LinkedIn
미미 언더우드
검색 성장 및 분석 부문 수석 프로그램 관리자 Google 검색 센터 블로그에서 미미 언더우드의 게시물을 확인하세요. Twitter
바네사 폭스
웹마스터 도구 제품 관리자 Google 검색 센터 블로그에서 바네사 폭스의 게시물을 확인하세요. LinkedIn | Mastodon | Twitter | 웹사이트
수전 모스크와
웹마스터 트렌드 분석가 Google 검색 센터 블로그에서 수전 모스크와의 게시물을 확인하세요.
술리나 코날
뉴스 파트너십 상무이사 Google 검색 센터 블로그에서 술리나 코날의 게시물을 확인하세요.
아드리아나 포터 펠트
Chrome 보안팀 Google 검색 센터 블로그에서 아드리아나 포터 펠트의 게시물을 확인하세요.