데이터 세트: 데이터 변환
머신러닝 모델은 부동 소수점 값으로만 학습할 수 있습니다.
하지만 많은 데이터 세트 지형지물은 자연스럽게 부동 소수점 값이 아닙니다.
따라서 머신러닝에서 중요한 부분 중 하나는 부동 소수점 이외의 특성을 부동 소수점 표현으로 변환하는 것입니다.
예를 들어 street names
가 지형지물이라고 가정해 보겠습니다. 대부분의 도로 이름은 'Broadway' 또는 'Vilakazi'와 같은 문자열입니다.
모델은 'Broadway'로 학습할 수 없으므로 'Broadway'를 부동 소수점 수로 변환해야 합니다. 범주형 데이터 모듈에서 이 방법을 설명합니다.
또한 대부분의 부동 소수점 지형지물을 변환해야 합니다.
정규화라고 하는 이 변환 프로세스는 부동 소수점 숫자를 제약된 범위로 변환하여 모델 학습을 개선합니다.
숫자 데이터 모듈에서 이를 수행하는 방법을 설명합니다.
데이터가 너무 많은 경우 샘플링
일부 조직은 풍부한 데이터를 보유하고 있습니다.
데이터 세트에 예시가 너무 많으면 학습할 예시의 하위 집합을 선택해야 합니다. 가능한 경우 모델의 예측과 가장 관련성이 높은 하위 집합을 선택합니다.
PII가 포함된 필터 예시
좋은 데이터 세트는 개인 식별 정보(PII)가 포함된 예시를 생략합니다. 이 정책은 개인 정보를 보호하는 데 도움이 되지만 모델에 영향을 줄 수 있습니다.
이 주제에 관한 자세한 내용은 과정 후반의 안전 및 개인 정보 보호 모듈을 참고하세요.
달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.
최종 업데이트: 2024-11-14(UTC)
[null,null,["최종 업데이트: 2024-11-14(UTC)"],[[["Machine learning models require all data, including features like street names, to be transformed into numerical (floating-point) representations for training."],["Normalization is crucial for optimizing model training by converting existing floating-point features to a specific range."],["When dealing with large datasets, selecting a relevant subset of data for training is essential for model performance."],["Protecting user privacy by excluding Personally Identifiable Information (PII) from datasets is a critical consideration."]]],[]]