수치 데이터: 첫 번째 단계

특성 벡터를 만들기 전에 다음 두 가지 방법으로 숫자 데이터를 연구하는 것이 좋습니다.

  • 플롯 또는 그래프로 데이터를 시각화합니다.
  • 데이터에 대한 통계를 가져옵니다.

데이터 시각화

그래프를 사용하면 데이터에 숨겨진 이상치나 패턴을 찾을 수 있습니다. 따라서 분석을 진행하기 전에 산점도 또는 히스토그램으로 데이터를 그래픽으로 살펴보세요. 데이터 파이프라인 시작 시뿐만 아니라 데이터 변환 전반에서 그래프를 볼 수 있습니다. 시각화를 사용하면 가정을 지속적으로 확인할 수 있습니다.

시각화를 위해 pandas를 사용하는 것이 좋습니다.

특정 시각화 도구는 특정 데이터 형식에 최적화되어 있습니다. 프로토콜 버퍼를 평가하는 데 도움이 되는 시각화 도구는 CSV 데이터를 평가하는 데 도움이 될 수도 있고 아닐 수도 있습니다.

데이터를 통계적으로 평가

시각적 분석 외에도 다음과 같은 기본 통계를 수집하여 잠재적 기능과 라벨을 수학적으로 평가하는 것이 좋습니다.

  • 평균 및 중앙값
  • 표준 편차
  • 0번째, 25번째, 50번째, 75번째, 100번째 백분위수와 같은 분위수 구간의 값 0번째 백분위수는 이 열의 최솟값이고 100번째 백분위수는 이 열의 최댓값입니다. 50번째 백분위수는 중앙값입니다.

이상점 찾기

이상치는 지형지물 또는 라벨의 다른 대부분의 값과 거리가 먼 값입니다. 이상치는 모델 학습에서 문제를 일으키는 경우가 많으므로 이상치를 찾는 것이 중요합니다.

0번째 백분위수와 25번째 백분위수 간의 델타가 75번째 백분위수와 100번째 백분위수 간의 델타와 크게 다른 경우 데이터 세트에 외부값이 포함되어 있을 가능성이 큽니다.

이상치는 다음 카테고리 중 하나에 속할 수 있습니다.

  • 이치에 맞지 않는 값은 실수로 인한 것입니다. 예를 들어 실험자가 실수로 0을 하나 더 입력했거나 데이터를 수집하는 기기가 오작동했을 수 있습니다. 일반적으로 오류가 있는 예외가 포함된 예시를 삭제합니다.
  • 이상치는 실수가 아닌 유효한 데이터 포인트입니다. 이 경우 학습된 모델은 궁극적으로 이러한 이상치에 대한 좋은 예측을 추론해야 하나요?
    • 그렇다면 이러한 이상치를 학습 세트에 유지합니다. 특정 특성의 이상치가 라벨의 이상치를 반영하는 경우가 있으므로 이상치가 모델의 예측을 개선하는 데 실제로 도움이 될 수 있습니다. 주의하세요. 극단적인 이상치는 여전히 모델에 영향을 줄 수 있습니다.
    • 그렇지 않은 경우 이상치를 삭제하거나 클리핑과 같은 더 침습적인 특성 공학 기법을 적용합니다.