특성 벡터를 만들기 전에 두 가지 방법:
- 데이터를 플롯 또는 그래프로 시각화합니다.
- 데이터에 대한 통계를 가져옵니다.
데이터 시각화
그래프는 데이터에 숨겨진 이상치나 패턴을 찾는 데 도움이 됩니다. 따라서 분석에 깊이 들어가기 전에 먼저 데이터를 분산형 차트 또는 히스토그램으로 그래픽으로 변환합니다. 그래프가 표시되지 않음 데이터 파이프라인의 시작 부분에만 적용하거나 사용할 수 있습니다 시각화는 가정을 지속적으로 확인하는 데 도움이 됩니다.
시각화를 위해 Pandas를 사용하는 것이 좋습니다.
특정 시각화 도구는 특정 데이터 형식에 최적화되어 있습니다. 프로토콜 버퍼를 평가하는 데 도움이 되는 시각화 도구는 CSV 데이터를 평가하는 데 도움을 드릴 수 있습니다.
데이터를 통계적으로 평가
시각적 분석 외에도 잠재적인 기능을 평가하고 라벨을 지정하여 다음과 같은 기본 통계를 수집합니다.
- 평균과 중앙값
- 표준 편차
- 사분위수의 값(0번째, 25번째, 50번째, 75번째, 100번째) 백분위수입니다. 0번째 백분위수는 이 열의 최솟값입니다. 100번째 백분위수는 이 열의 최댓값입니다. (50% 백분위수 가 중앙값입니다.)
이상점 찾기
이상점은 거리에 있는 값입니다. 대부분의 다른 값에서 추출됩니다. 이상점은 종종 문제를 일으킵니다. 매우 중요하므로 이상점을 찾는 것이 중요합니다.
0번째 백분위수와 25번째 백분위수 사이의 델타가 크게 다른 경우 75번째 백분위수와 100번째 백분위수 사이의 델타에서 추출한 경우 데이터 세트는 이상점이 포함되어 있습니다.
이상점은 다음 카테고리 중 하나에 속합니다.
- 이상점이 실수로 인한 것입니다. 예를 들어 실험자가 실수로 0을 추가로 입력한 경우 또는 오작동하는 데이터를 수집한 악기일 수도 있습니다. 일반적으로 실수 이상점이 포함된 예시는 삭제합니다.
- 이상점은 실수가 아닌 적법한 데이터 포인트입니다.
이 경우 학습된 모델이
이상점에 대한 좋은 예측을 추론해야 할까요?
- 그렇다면 학습 세트에 이러한 이상점을 유지하세요. 결국 이상점은 특정 특성에서는 라벨의 이상점을 반영하는 경우가 있습니다. 따라서 이상점이 실제로 모델이 더 나은 예측을 하는 데 도움이 될 수 있습니다. 주의가 필요합니다. 극단적인 이상점은 여전히 모델에 해를 끼칠 수 있습니다.
- 그렇지 않다면 이상점을 삭제하거나 보다 침습적인 특성 추출을 적용하세요. 자르기와 같은 기법에 해당합니다.