데이터 샘플링 및 분할

샘플링 소개

머신러닝 프로젝트를 진행하기에 충분한 데이터를 수집하는 데 어려움을 겪는 경우가 많습니다. 그러나 데이터가 너무 많은 경우에는 학습용 예시의 하위 집합을 선택해야 합니다.

하위 집합은 어떻게 선택하나요? Google 검색을 예로 들어 보겠습니다. 방대한 양의 데이터에서 샘플링할 수 있는 것은 무엇인가요? 무작위 쿼리를 사용하시겠어요? 임의 세션? 무작위 사용자?

궁극적으로 정답은 문제에 따라 다릅니다. 무엇을 예측하려고 하고 어떤 특성을 원하는가?

  • 이전 쿼리 기능을 사용하려면 세션에 일련의 쿼리가 포함되어 있으므로 세션 수준에서 샘플링해야 합니다.
  • 이전 날짜의 사용자 행동 기능을 사용하려면 사용자 수준에서 샘플링해야 합니다.

PII 필터링 (개인 식별 정보)

데이터에 PII (개인 식별 정보)가 포함되어 있으면 데이터에서 필터링해야 할 수 있습니다. 정책에 따라 자주 사용하지 않는 기능을 삭제해야 할 수 있습니다.

이 필터링은 분포를 왜곡합니다. 꼬리에서 정보를 잃을 것입니다(평균이 매우 낮고 분포가 매우 낮은 부분).

이 필터링은 매우 드물게 특성을 학습하기 어려우므로 유용합니다. 그러나 데이터 세트가 헤드 쿼리에 편향되어 있다는 점을 인식하는 것이 중요합니다. 서빙 시 테일의 예시가 학습 데이터에서 필터링되었던 예시이므로 서빙 성능이 떨어질 수 있습니다. 이러한 편향은 피할 수 없지만 분석 중에는 잘 알고 있어야 합니다.