머신러닝 (ML) 모델의 상태는 데이터로 결정됩니다. 먹이 주기 데이터를 모델링하면 성공을 거둘 수 있습니다 모델에 정크 및 쓸모없게 됩니다.
수치 데이터 작업 시 권장사항:
- ML 모델은 학습 프로세스의 데이터와 상호작용한다는 점을 떠올려 보세요 특성 벡터와 데이터가 아닌 데이터 세트로 데이터 세트를 다운로드합니다.
- 최대한 정규화 숫자 특성입니다.
- 첫 번째 정규화 전략이 성공하지 못하면 다른 데이터를 정규화하는 방법입니다.
- 비닝 또는 버케팅은 정규화하는 것이 좋습니다
- 데이터가 어떻게 표시되어야 하는지 고려하여 쓰기 확인
테스트를 통해 이러한 기대치를 검증할 수 있습니다. 예를 들면 다음과 같습니다.
- 위도의 절대값은 90을 초과하면 안 됩니다. 사용자는 를 실행하여 데이터에 90보다 큰 위도 값이 나타나는지 확인합니다.
- 데이터가 플로리다주로 제한된 경우 테스트를 작성할 수 있습니다. 위도가 24~31 범위에 속하는지 확인합니다.
- 분산형 차트와 히스토그램으로 데이터를 시각화하세요. 검색 이상치입니다.
- 전체 데이터 세트뿐만 아니라 더 작은 데이터 세트에 대한 통계 수집 데이터 세트의 하위 집합입니다. 왜냐하면 집계 통계는 더 작은 규모의 문제를 더 쉽게 해결할 수 있습니다.
- 모든 데이터 변환을 문서화합니다.
데이터는 가장 소중한 자원이므로 주의해서 다뤄야 합니다.
추가 정보
- 머신러닝의 규칙 가이드에는 <ph type="x-smartling-placeholder"></ph> 특성 추출 섹션을 참조하세요.
다음 단계
이 모듈을 완료하신 것을 축하합니다.
다양한 MLCC 모듈을 살펴보시기 바랍니다. 자신만의 속도와 관심분야에 맞춰 조정할 수 있습니다 권장 순서를 따르려면 다음 모듈로 넘어가시기 바랍니다. 범주형 데이터 표현.