12월 크롤링: 속성 탐색

2024년 12월 17일 화요일

속성 탐색 권장사항에 관한 새로운 문서가 게시되었습니다. 이 문서는 블로그 게시물로 처음 게시된 바 있습니다. 다음은 새 문서 페이지의 몇 가지 중요한 부분을 요약한 내용입니다.

속성 탐색은 사용자가 사이트에서 필요한 항목을 찾을 수 있도록 돕기에 좋은 방법이지만, 속성 탐색을 신중하게 구현하지 않으면 SEO에 큰 문제가 될 수 있습니다. 왜 그럴까요? 속성 탐색은 거의 무한대의 URL을 생성할 수 있으므로 다음과 같은 문제가 발생할 수 있습니다.

  • 과도한 크롤링: 검색엔진이 검색 사용자에게 가치가 없는 수많은 URL을 크롤링하는 데 시간을 낭비합니다.
  • 탐색 속도 저하: 과도한 크롤링으로 인해 중요한 새 콘텐츠가 탐색되는 속도가 느려집니다.

실제로 사이트 소유자가 Google에 신고하는 과도한 크롤링 문제의 가장 일반적인 원인은 속성 탐색으로, 대부분의 경우 몇 가지 권장사항을 따르면 방지할 수 있는 문제였습니다. 조금만 더 주의하면 좋을 것 같습니다.

URL 문제

일반적으로 속성 탐색에서 각각의 필터를 조합하면 고유한 URL이 만들어집니다. 예를 들면 다음과 같습니다.

https://example.com/items.shtm?products=fish&color=radioactive_green&size=tiny

product, color 또는 size 매개변수를 변경하면 새 URL이 생성되어 URL이 급증할 수 있습니다. 바로 이것이 문제입니다. 탐색되기를 기다리는 새로운 URL이 거의 무한에 가깝게 존재하는 것입니다. 이 문제를 해결해 봅시다.

두 가지 접근 방식

  1. 속성 탐색 URL 차단:
    • 이러한 URL의 색인이 생성되지 않아도 된다면 robots.txt를 사용하여 크롤링을 허용하지 마세요.
    • 또는 필터에 URL 프래그먼트(#)를 사용하세요. 일반적으로 검색엔진에서는 URL 프래그먼트를 무시합니다.
  2. 속성 탐색 URL을 최적화합니다(비용과 관계없이 크롤링이 필요한 경우).
    • URL 매개변수에는 표준 & 구분자를 사용하세요. 💩은 적절한 매개변수 구분 기호가 아닙니다.
    • URL 경로에서 필터의 순서를 일관되게 유지하세요.
    • 결과가 없는 필터 조합에 대해 404 상태 코드를 반환하세요.
    • 다른 옵션이 없는 경우(예: 단일 페이지 앱이 있음)가 아니라면, 빈 결과를 일반적인 '찾을 수 없음' 페이지로 리디렉션하지 않는 것이 좋습니다.

중요 고려사항

  • rel="canonical"을 사용해 신호를 통합하는 방법도 있습니다. 변형 페이지를 기본 페이지로 포인팅하는 것입니다. 이 경우 크롤러에서 이를 인식하기까지 시간이 걸립니다.
  • 필터 링크에 rel="nofollow"를 사용하면 크롤링을 방해할 수 있습니다. 하지만 일관성 있게 적용해야 합니다. 즉, 이러한 페이지를 가리키는 모든 링크(내부 및 외부)에 rel="nofollow" 속성이 있어야 합니다.
  • 속성 탐색 URL을 크롤링하면 항상 서버 리소스가 소모되며 새 콘텐츠 탐색에 영향을 줄 수 있습니다.

속성 탐색 권장사항에 관한 새 문서에 관한 제안사항이 있거나 문의사항이 있는 경우 해당 문서의 의견 도구를 사용하세요. 속성 탐색에 관심이 있고 다른 사용자의 생각도 궁금하다면 검색 센터 커뮤니티를 방문하세요. LinkedIn에 방문하셔도 됩니다.


크롤링에 대해 자세히 알아보시겠어요? 12월 크롤링 시리즈 전체를 확인해보세요.