데이터 세트: 데이터 변환

머신러닝 모델은 부동 소수점 값에 대해서만 학습할 수 있습니다. 하지만 많은 데이터 세트 특성은 기본적으로 부동 소수점 값이 아닙니다. 따라서 머신러닝의 중요한 부분 중 하나는 비부동 소수점 특성을 부동 소수점 표현으로 바꾸는 방법을 보여줍니다

예를 들어 street names가 특성이라고 가정해 보겠습니다. 대부분의 도로명 'Broadway'와 같은 또는 '빌라카지'입니다. 이 모델은 'Broadway'로 학습시킬 수 없으므로 'Broadway'를 변환해야 합니다. 부동 소수점 수로 변환합니다. 범주형 데이터 모듈 방법을 설명합니다.

또한 대부분의 부동 소수점 특성도 변환해야 합니다. 이러한 변환 과정을 일명 정규화: 부동 소수점 숫자를 제한된 범위로 변환하여 모델 학습을 개선합니다. 수치 데이터 모듈 방법을 설명합니다.

데이터가 너무 많을 때의 샘플링

어떤 조직은 많은 데이터를 가지고 있습니다. 데이터 세트에 예가 너무 많으면 하위 집합을 선택해야 합니다. 학습용 예시를 살펴보겠습니다. 가능한 경우 가장 적합한 하위 집합을 선택하세요. 관련이 있습니다.

PII가 포함된 예시 필터링

좋은 데이터 세트에는 개인 식별 정보가 포함된 예가 생략됩니다. PII(개인 식별 정보)가 포함되어 있습니다. 이 정책은 개인 정보를 보호하는 데 도움이 되지만 모델에 영향을 미칠 수 있습니다.

이러한 주제에 관한 자세한 내용은 과정 후반부의 안전 및 개인 정보 보호 모듈을 참고하세요.