12월 크롤링: 속성 탐색

2024년 12월 17일 화요일

속성 탐색 권장사항에 관한 새로운 문서가 게시되었습니다. 이 문서는 블로그 게시물로 처음 게시된 바 있습니다. 다음은 새 문서 페이지의 몇 가지 중요한 부분을 요약한 내용입니다.

속성 탐색은 사용자가 사이트에서 필요한 항목을 찾을 수 있도록 돕기에 좋은 방법이지만, 속성 탐색을 신중하게 구현하지 않으면 SEO에 큰 문제가 될 수 있습니다. 왜 그럴까요? 속성 탐색은 거의 무한대의 URL을 생성할 수 있으므로 다음과 같은 문제가 발생할 수 있습니다.

  • 과도한 크롤링: 검색엔진이 검색 사용자에게 가치가 없는 수많은 URL을 크롤링하는 데 시간을 낭비합니다.
  • 탐색 속도 저하: 과도한 크롤링으로 인해 중요한 새 콘텐츠가 탐색되는 속도가 느려집니다.

실제로 사이트 소유자가 Google에 신고하는 과도한 크롤링 문제의 가장 일반적인 원인은 속성 탐색으로, 대부분의 경우 몇 가지 권장사항을 따르면 방지할 수 있는 문제였습니다. 조금만 더 주의하면 좋을 것 같습니다.

URL 문제

일반적으로 속성 탐색에서 각각의 필터를 조합하면 고유한 URL이 만들어집니다. 예를 들면 다음과 같습니다.

https://example.com/items.shtm?products=fish&color=radioactive_green&size=tiny

product, color 또는 size 매개변수를 변경하면 새 URL이 생성되어 URL이 급증할 수 있습니다. 바로 이것이 문제입니다. 탐색되기를 기다리는 새로운 URL이 거의 무한에 가깝게 존재하는 것입니다. 이 문제를 해결해 봅시다.

두 가지 접근 방식

  1. 속성 탐색 URL 차단:
    • 이러한 URL의 색인이 생성되지 않아도 된다면 robots.txt를 사용하여 크롤링을 허용하지 마세요.
    • 또는 필터에 URL 프래그먼트(#)를 사용하세요. 일반적으로 검색엔진에서는 URL 프래그먼트를 무시합니다.
  2. 속성 탐색 URL을 최적화합니다(비용과 관계없이 크롤링이 필요한 경우).
    • URL 매개변수에는 표준 & 구분자를 사용하세요. 💩은 적절한 매개변수 구분 기호가 아닙니다.
    • URL 경로에서 필터의 순서를 일관되게 유지하세요.
    • 결과가 없는 필터 조합에 대해 404 상태 코드를 반환하세요.
    • 다른 옵션이 없는 경우(예: 단일 페이지 앱이 있음)가 아니라면, 빈 결과를 일반적인 '찾을 수 없음' 페이지로 리디렉션하지 않는 것이 좋습니다.

중요 고려사항

  • rel="canonical"을 사용해 신호를 통합하는 방법도 있습니다. 변형 페이지를 기본 페이지로 포인팅하는 것입니다. 이 경우 크롤러에서 이를 인식하기까지 시간이 걸립니다.
  • 필터 링크에 rel="nofollow"를 사용하면 크롤링을 방해할 수 있습니다. 하지만 일관성 있게 적용해야 합니다. 즉, 이러한 페이지를 가리키는 모든 링크(내부 및 외부)에 rel="nofollow" 속성이 있어야 합니다.
  • 속성 탐색 URL을 크롤링하면 항상 서버 리소스가 소모되며 새 콘텐츠 탐색에 영향을 줄 수 있습니다.

속성 탐색 권장사항에 관한 새 문서에 관한 제안사항이 있거나 문의사항이 있는 경우 해당 문서의 의견 도구를 사용하세요. 속성 탐색에 관심이 있고 다른 사용자의 생각도 궁금하다면 검색 센터 커뮤니티를 방문하세요. LinkedIn에 방문하셔도 됩니다.


크롤링에 대해 자세히 알아보시겠어요? 12월 크롤링 시리즈 전체를 확인해보세요.

2024년 12월 24일 화요일 콘텐츠 전송 네트워크(CDN)는 웹사이트의 지연 시간을 줄이고 일반적으로 웹 트래픽 관련 문제를 해결하는 데 특히 적합합니다. CDN의 기본 목적은 사이트에 많은 트래픽이 발생하더라도 콘텐츠를 빠르게 전송하는 것입니다. CDN의 "D" 는 전 세계에 콘텐츠를 전송하거나 배포하기 위한 것이므로 사용자에게 전송하는 시간도 한 곳의 데이터 센터에 호스팅할 때보다 단축됩니다. 이 게시물에서는 사이트의 크롤링 및 사용자

2024년 12월 9일 월요일 Google에서 캐시를 사용할 수 있도록 허용해 주세요. 지난 몇 년간 인터넷이 성장함에 따라 Google에서 실행한 크롤링 양도 증가했습니다. Google의 크롤링 인프라는 휴리스틱 캐싱 메커니즘을 지원합니다. 사실항상 지원해 왔지요. 한편, 로컬 캐시에서 반환할 수 있는 요청 수가 줄어들었습니다. 10년 전에는 총 가져오기 중 약 0.026% 정도를 캐싱할 수 있었지만(그닥 인상적인 수치는 아닙니다) 지금은

2024년 12월 3일 화요일 웹페이지가 Google 검색 결과에 표시되려면 먼저 Google 검색에서 약간의 작업이 필요하다고 들어본 적이 있으실 겁니다. 그중 한 단계가 크롤링입니다. Google 검색 크롤링은 Google 서버에서 실행되는 프로그램인 Googlebot이 수행합니다. Googlebot은 URL을 검색하고 네트워크 오류, 리디렉션 및 웹에서 작업하는 동안 발생할 수 있는 기타 사소한 문제를 처리합니다. 하지만 자주 언급되지