Google 검색의 작동 방식에 대한 상세 가이드
Google 검색은 웹 크롤러라는 소프트웨어를 사용하는 완전히 자동화된 검색엔진입니다. 웹 크롤러는 정기적으로 웹을 탐색하여 Google 색인에 추가할 페이지를 찾습니다. 실제로 Google 검색결과에 표시되는 페이지의 대부분은 사이트 소유자가 사이트를 검색결과에 포함하기 위해 직접 제출한 것이 아니라 Google 웹 크롤러가 웹을 탐색할 때 발견되어 자동으로 추가된 것입니다. 이 문서에서는 웹사이트 환경에서 Google 검색이 어떻게 작동하는지를 단계별로 설명합니다. 이러한 기본 지식을 바탕으로 크롤링 문제를 해결하고 페이지의 색인이 생성되도록 하는 한편, 사이트가 Google 검색에 표시되는 방식을 최적화하는 방법도 알아보세요.
시작하기 전 참고사항
Google 검색이 어떻게 작동하는지 자세히 알아보기 전에, Google에서는 금전적인 대가를 받고 특정 사이트를 더 자주 크롤링하거나 사이트의 순위를 높이지 않는다는 점에 유의하시기 바랍니다. 이것과 다른 주장은 사실이 아닙니다.
Google에서는 페이지가 Google 검색 Essentials를 준수하더라도 페이지가 크롤링, 색인 생성, 게재된다고 보장하지 않습니다.
Google 검색의 3단계 소개
Google 검색은 세 단계로 작동하며, 각 단계가 모든 페이지에 적용되는 것은 아닙니다.
- 크롤링: Google은 크롤러라는 자동화된 프로그램을 사용하여 인터넷에서 찾은 페이지로부터 텍스트, 이미지, 동영상을 다운로드합니다.
- 색인 생성: Google은 페이지의 텍스트, 이미지, 동영상 파일을 분석하고 대규모 데이터베이스인 Google 색인에 이 정보를 저장합니다.
- 검색결과 게재: 사용자가 Google에서 검색하면 Google에서는 사용자의 검색어와 관련된 정보를 반환합니다.
크롤링
첫 번째 단계는 웹에 어떤 페이지가 존재하는지 파악하는 것입니다. 모든 웹페이지가 등록되는 중앙 레지스트리가 있는 것은 아니므로 Google은 계속해서 새 페이지와 업데이트된 페이지를 검색하여 파악된 페이지 목록에 추가해야 합니다. 이 프로세스를 'URL 검색'이라고 합니다. Google이 방문한 적이 있는 페이지는 파악된 페이지 목록에 추가되어 있습니다. 다른 페이지는 파악된 페이지에서 새 페이지로 연결되는 링크를 따라갈 때 발견됩니다. 예를 들어 카테고리 페이지와 같은 허브 페이지는 새 블로그 게시물로 연결됩니다. Google에서 크롤링할 수 있도록 사이트 소유자가 페이지 목록(사이트맵)을 제출해서 발견되는 페이지도 있습니다.
Google에서 페이지의 URL을 발견하면 내용을 확인하기 위해 페이지를 방문(또는 '크롤링')할 수 있습니다. Google은 막대한 수의 컴퓨터를 사용하여 웹에 있는 페이지 수십억 개를 크롤링합니다. 이때 웹페이지를 가져오는 프로그램을 Googlebot(또는 크롤러, 로봇, 봇, 스파이더)이라고 합니다. Googlebot은 알고리즘 프로세스를 사용하여 크롤링할 사이트와 크롤링 빈도, 각 사이트에서 가져올 페이지 수를 결정합니다. 또한 Google 크롤러는 과부하를 피하기 위해 사이트를 너무 빠르게 크롤링하지 않도록 프로그래밍되는데, 이를 위해 사이트의 응답(예: HTTP 500 오류는 '속도 저하'를 의미함)을 사용합니다.
Googlebot이 발견한 페이지를 모두 크롤링하는 것은 아닙니다. 사이트 소유자가 크롤링을 허용하지 않는 페이지도 있고, 사이트에 로그인해야 액세스할 수 있는 페이지도 있습니다.
크롤링하는 동안 Google은 브라우저에서 방문 페이지를 렌더링하는 방식과 유사하게 최신 버전의 Chrome을 사용하여 페이지를 렌더링하고 발견된 자바스크립트를 실행합니다. 렌더링은 중요합니다. 웹사이트가 자바스크립트를 사용하여 페이지에 콘텐츠를 표시하는 경우가 많아 Google도 렌더링하지 않으면 콘텐츠를 보지 못할 수 있기 때문입니다.
크롤링 여부는 Google 크롤러가 사이트에 액세스할 수 있는지에 따라 다릅니다. 일반적으로 Googlebot이 사이트에 액세스하는 문제는 다음과 같습니다.
색인 생성
페이지가 크롤링되면 Google은 페이지의 내용을 파악하려고 합니다. 이 단계를 색인 생성이라고 하며 <title>
요소 및 Alt 속성, 이미지, 동영상 등 텍스트 콘텐츠 및 핵심 콘텐츠 태그와 속성을 처리하고 분석하는 작업이 포함됩니다.
색인 생성 프로세스 중에 Google에서는 페이지가 인터넷에 있는 다른 페이지와 중복되는지 아니면 표준 페이지인지 판단합니다. 표준 페이지는 검색결과에 표시될 수 있는 페이지입니다. 표준 페이지를 정하기 위해 Google은 먼저 인터넷에서 찾은 비슷한 콘텐츠의 페이지를 그룹으로 묶은 다음(클러스터링이라고도 함)한 다음 이 그룹을 가장 잘 대표하는 페이지를 선택합니다. 그룹의 나머지 페이지는 사용자가 휴대기기에서 검색하거나 이 클러스터의 특정 페이지를 찾는 경우와 같이 다양한 컨텍스트에서 게재 가능한 대체 버전입니다.
또한 Google에서는 표준 페이지와 그 콘텐츠에 관한 신호를 수집하며, 이는 검색결과에 페이지를 게재하는 다음 단계에서 사용될 수 있습니다. 일부 신호에는 페이지의 언어, 콘텐츠가 속하는 국가, 페이지의 사용성이 포함됩니다.
표준 페이지와 해당 클러스터에 관해 수집한 정보는 수천 대의 컴퓨터에서 호스팅되는 대규모 데이터베이스에 저장될 수 있는데, 이를 Google 색인이라고 합니다. 색인 생성은 보장되지 않으며 Google에서 처리하는 모든 페이지의 색인이 생성되는 것은 아닙니다.
색인 생성은 페이지 콘텐츠 및 메타데이터에 따라서도 달라집니다. 색인 생성과 관련하여 일반적으로 발생하는 문제는 다음과 같습니다.
검색결과 게재
사용자가 검색어를 입력하면 Google 컴퓨터는 색인에서 일치하는 페이지를 검색한 다음 품질이 가장 높고 사용자의 검색어와 가장 관련성이 크다고 판단되는 결과를 반환합니다. 관련성은 사용자의 위치와 언어, 기기(데스크톱 또는 휴대전화)와 같은 정보를 비롯하여 수많은 요인으로 결정됩니다. 예를 들어 '자전거 수리점'을 검색하면 파리에 있는 사용자와 홍콩에 있는 사용자에게 서로 다른 결과가 표시됩니다.
사용자의 검색어에 따라 검색결과 페이지에 표시되는 검색 기능도 달라집니다. 예를 들어 '자전거 수리점'을 검색하면 지역 검색결과가 표시되고 이미지 검색결과는 표시되지 않지만 '최신 자전거'를 검색하면 로컬 결과가 아닌 이미지 검색결과가 표시될 가능성이 더 높습니다. 시각적 요소 갤러리에서 Google 웹 검색의 가장 일반적인 UI 요소를 살펴볼 수 있습니다.
Search Console에 페이지의 색인이 생성된 것으로 나타나는데 검색결과에는 페이지가 표시되지 않는 경우가 있습니다. 원인은 다음과 같을 수 있습니다.
Google에서는 이 가이드를 통해 Google 검색의 작동 방식을 설명하는 한편 항상 알고리즘을 개선하기 위해 노력하고 있습니다. Google 검색 센터 블로그를 팔로우하여 변경사항을 지속적으로 추적하시기 바랍니다.