데이터 준비

이 섹션에서는 클러스터링과 가장 관련된 데이터 준비 단계를 검토합니다. - 수치 데이터 다루기 모듈에 오신 것을 환영합니다.

클러스터링에서는 두 예의 유사성을 숫자 값으로 변환합니다. 이를 위해서는 정규화를 통해 달성할 수 있는 동일한 규모로 또는 분위수를 생성하는 것입니다. 머신러닝 모델을 배포를 검사하지 않는 경우 분위수로 기본값을 설정할 수 있습니다.

데이터 정규화

정규화를 통해 여러 특성의 데이터를 동일한 규모로 변환할 수 있음 데이터를 얻을 수 있습니다.

Z-점수

대략적 모양의 데이터 세트를 볼 때마다 가우시안 분포, z-점수를 계산해야 합니다. 생성합니다. Z-점수는 값의 표준 편차 수입니다. 나타냅니다. 데이터 세트가 쿼리를 실행하기에 충분하지 않은 경우에도 z-점수를 분위수입니다.

자세한 내용은 Z-점수 조정 단계를 검토하세요.

다음은 데이터 세트의 두 특성을 시각화한 전후의 데이터입니다 z-점수 조정:

<ph type="x-smartling-placeholder">
</ph> 정규화 전후의 특성 데이터를 비교하는 두 그래프
그림 1: 정규화 전과 후의 특성 데이터 비교

왼쪽의 정규화되지 않은 데이터 세트인 특성 1과 특성 2에서 x축과 y축에 각각 그래프로 표시되며, 동일한 척도를 사용하지 않습니다. 일 빨간색 예시는 노란색보다는 파란색에 더 가깝거나 더 비슷하다는 것을 알 수 있습니다. 오른쪽은 특성 1과 특성 2의 척도는 동일하고 빨간색은 노란색 예제에 더 가까워집니다. 정규화된 데이터 세트는 더 정확하게 측정할 수 있습니다.

로그 변환

데이터 세트가 전원 법칙 분포가 사용됩니다. 가장 낮은 값에 심하게 묶여 있다면 로그 변환을 사용합니다. 자세한 내용은 로그 확장 단계를 검토하세요.

다음은 로그 변환 전후의 멱의 법칙 데이터 세트를 시각화한 것입니다.

<ph type="x-smartling-placeholder">
</ph> 대부분의 데이터가 최저점에 있는 막대 그래프
그림 2: 멱의 법칙 분포
<ph type="x-smartling-placeholder">
</ph> 정상 (가우시안) 분포를 보여주는 그래프
그림 3: 그림 2의 로그 변환

로그 배율을 조정하기 전 (그림 2) 빨간색 예는 노란색과 더 유사해 보입니다. 로그 조정 (그림 3) 후에는 빨간색이 파란색과 비슷하게 표시됩니다.

분위수

데이터 세트가 맞지 않을 때 데이터를 분위수로 비닝하는 것이 좋습니다. 배포할 수 있습니다 다음 데이터 세트를 예로 들어보겠습니다.

<ph type="x-smartling-placeholder">
</ph> 전처리 전 데이터 분포를 보여주는 그래프
그림 4: 전처리 이전의 분류 불가능한 분포

직관적으로 볼 때, 두 예시는 몇 개의 예시만 다음 범위에 속할 때 더 유사합니다. 분류하고 이에 따라 많은 예시가 있는 경우 그 사이에 갈 수 있습니다. 위의 시각화 자료로는 전체 통계를 보기가 어렵습니다. 빨간색과 노란색 사이 또는 빨간색과 파란색 사이에 속하는 예의 수.

유사성에 대한 이러한 이해는 데이터 세트를 분위수 또는 각각 동일한 수의 예를 포함하는 간격 각 예에 분위수 지수 할당 자세한 내용은 분위수 버케팅 단계를 검토하세요.

이전 분포를 분위수로 나눈 값인 빨간색은 노란색에서 1분위, 파란색에서 3분위 떨어져 있습니다.

<ph type="x-smartling-placeholder">
</ph> 전환 후 데이터를 보여주는 그래프
  분위수로 변환합니다 선은 20개의 간격을 나타냅니다.]
그림 5: 20분위로 변환한 후의 그림 4 분포

분위수는 원하는 만큼 \(n\) 선택할 수 있습니다. 그러나 유의미하게 나타내고자 한다면 데이터 세트에는 최소한 \(10n\) 예. 데이터가 충분하지 않으면 대신 정규화합니다.

이해도 확인

다음 질문에서는 분위수를 만들기에 충분한 데이터가 있다고 가정해 보겠습니다.

질문 1

세 가지 데이터 분포를 보여주는 플롯
이전 섹션에 표시된 데이터 배포를 어떻게 처리해야 하나요? 그래프인가요?
분위수를 만듭니다.
정답입니다. 분포가 A/B 테스트와 표준 데이터 분포의 경우 분위수를 생성합니다.
정규화.
일반적으로 다음과 같은 경우 데이터를 정규화합니다. <ph type="x-smartling-placeholder">
    </ph>
  • 데이터 분포는 가우시안입니다.
  • 데이터가 실제로 무엇을 나타내는지 일부 통찰력이 있습니다. 이는 데이터가 비선형적으로 변환되어서는 안 된다는 것을 시사합니다.
두 가지 경우 모두 해당되지 않습니다. 데이터 분포가 가우시안이 아닙니다. 이건 대칭적이지 않죠. 이러한 값이 표현되어야 합니다.
로그 변환
이는 완벽한 멱법 분포가 아니므로 로그를 사용하지 않고 사용됩니다.

질문 2

세 가지 데이터 분포를 보여주는 플롯
이 데이터 배포를 어떻게 처리할까요?
정규화.
정답입니다. 가우시안 분포입니다.
분위수를 만듭니다.
틀렸습니다. 이는 가우시안 분포이기 때문에 정규화입니다.
로그 변환
틀렸습니다. 멱의 법칙 분포에만 로그 변환을 적용하세요.

데이터 누락

데이터 세트에 특정 특성의 값이 누락된 예시가 있지만 이러한 사례가 드물게 발생하는 경우 이러한 예를 삭제할 수 있습니다. 이러한 예가 문제가 자주 발생하는 경우 해당 기능을 완전히 삭제하거나 또는 머신을 사용하여 다른 예에서 누락된 값을 예측할 수 있습니다. 학습 모델입니다. 예를 들어 누락된 숫자 데이터를 귀속시키는 를 사용하여 회귀 모델입니다.