데이터 세트: 데이터 변환

머신러닝 모델은 부동 소수점 값으로만 학습할 수 있습니다. 하지만 많은 데이터 세트 지형지물은 자연스럽게 부동 소수점 값이 아닙니다. 따라서 머신러닝에서 중요한 부분 중 하나는 부동 소수점 이외의 특성을 부동 소수점 표현으로 변환하는 것입니다.

예를 들어 street names가 지형지물이라고 가정해 보겠습니다. 대부분의 도로 이름은 'Broadway' 또는 'Vilakazi'와 같은 문자열입니다. 모델은 'Broadway'로 학습할 수 없으므로 'Broadway'를 부동 소수점 수로 변환해야 합니다. 범주형 데이터 모듈에서 이 방법을 설명합니다.

또한 대부분의 부동 소수점 지형지물을 변환해야 합니다. 정규화라고 하는 이 변환 프로세스는 부동 소수점 숫자를 제약된 범위로 변환하여 모델 학습을 개선합니다. 숫자 데이터 모듈에서 이를 수행하는 방법을 설명합니다.

데이터가 너무 많은 경우 샘플링

일부 조직은 풍부한 데이터를 보유하고 있습니다. 데이터 세트에 예시가 너무 많으면 학습할 예시의 하위 집합을 선택해야 합니다. 가능한 경우 모델의 예측과 가장 관련성이 높은 하위 집합을 선택합니다.

PII가 포함된 필터 예시

좋은 데이터 세트는 개인 식별 정보(PII)가 포함된 예시를 생략합니다. 이 정책은 개인 정보를 보호하는 데 도움이 되지만 모델에 영향을 줄 수 있습니다.

이 주제에 관한 자세한 내용은 과정 후반의 안전 및 개인 정보 보호 모듈을 참고하세요.