머신러닝 (ML) 모델의 상태는 데이터에 따라 결정됩니다. 모델에 유효한 데이터를 제공하면 모델이 잘 작동합니다. 모델에 무의미한 데이터를 제공하면 예측이 무용지물이 됩니다.
숫자 데이터 작업을 위한 권장사항:
- ML 모델은 데이터 세트의 데이터가 아닌 특성 벡터의 데이터와 상호작용합니다.
- 대부분의 숫자 특성을 정규화합니다.
- 첫 번째 정규화 전략이 성공하지 못하면 다른 방법으로 데이터를 정규화해 보세요.
- 분류라고도 하는 비닝은 정규화보다 나을 때가 있습니다.
- 데이터가 어떻게 표시되어야 하는지 고려하여 확인 테스트를 작성하여 이러한 기대치를 검증합니다. 예를 들면 다음과 같습니다.
- 위도의 절대값은 90을 초과해서는 안 됩니다. 테스트를 작성하여 데이터에 90보다 큰 위도 값이 표시되는지 확인할 수 있습니다.
- 데이터가 플로리다주로 제한되는 경우 위도가 24~31(포함) 사이에 속하는지 확인하는 테스트를 작성할 수 있습니다.
- 산점도와 히스토그램으로 데이터를 시각화합니다. 이상치를 찾습니다.
- 전체 데이터 세트뿐만 아니라 데이터 세트의 작은 하위 집합에 대한 통계도 수집합니다. 집계 통계는 데이터 세트의 작은 섹션에서 발생하는 문제를 가릴 수 있기 때문입니다.
- 모든 데이터 변환을 문서화합니다.
데이터는 가장 중요한 리소스이므로 신중하게 처리하세요.
추가 정보
- 머신러닝 규칙 가이드에는 유용한 특성 추출 섹션이 포함되어 있습니다.
다음 단계
이 모듈을 완료하신 것을 축하합니다.
나에게 맞는 속도와 관심분야에 맞춰 다양한 MLCC 모듈을 살펴보는 것이 좋습니다. 권장 순서를 따르려면 다음 모듈인 범주형 데이터 표현으로 이동하세요.