많은 데이터 세트가 CSV 형식으로, 또는 스프레드시트에서 직접 생성할 수 있습니다 테이블은 기계의 직관적인 입력 형식임 모델을 학습합니다. 테이블의 각 행을 예시로 생각할 수 있습니다. 각 열을 잠재적 특성 또는 라벨로 정의합니다. 그렇긴 하지만 데이터 세트는 로그 파일 및 프로토콜 버퍼에 대한 정보를 찾을 수 있습니다.
형식과 상관없이 ML 모델의 성능은 학습에 사용되는 데이터입니다. 이 섹션에서는 주요 데이터 특성을 살펴봅니다.
데이터 유형
데이터 세트는 많은 종류의 데이터 유형을 포함할 수 있습니다. 다음에 국한되지 않음:
- 이는 별도의 교육 자료 단위
- 자세한 내용은 별도의 단위
- 개별 단어와 문장을 포함하는 인간 언어에 이르기까지 전체 텍스트 문서
- 멀티미디어 (예: 이미지, 동영상, 오디오 파일)
- 다른 ML 시스템의 출력과
- 임베딩 벡터와 이 과정의 뒷부분에서
위의 데이터 유형은 훨씬 더 세분화할 수 있습니다. 이 과정의 후속 모듈(예: 범주형 데이터 모듈: 세부정보 이러한 데이터 유형을 하위 카테고리로 분류합니다.
데이터 양
대략적으로 모델은 하나 이상의 주문에 대해 학습해야 합니다. 학습 가능한 매개변수보다 크기 (한두 개) 더 많은 예시입니다. 하지만 모델은 일반적으로 이보다 훨씬 더 많은 예시를 통해 학습합니다.
대규모 데이터 세트로 학습시킨 기능 일반적으로 작은 데이터 세트로 학습시킨 모델보다 다양한 기능을 제공합니다 Google은 지금까지 한 개의 기계에서 간단한 모델을 학습시켰고 대규모 데이터 세트입니다
다양한 머신러닝 프로그램의 다양한 데이터 세트에는 유용한 모델을 구축하기 위해 다양한 예시가 필요합니다 상대적으로 몇 가지 예시로도 충분할 수 있습니다 다른 문제의 경우 1조 개의 예시로는 충분하지 않을 수 있습니다.
데이터를 조정하는 경우 소규모 데이터 세트에서 좋은 결과를 얻을 수 있습니다. 학습시킨 기존의 모델을 사용하여 사용할 수 있습니다
데이터의 품질 및 신뢰성
누구나 낮은 품질보다 고품질을 선호하지만 품질이 매우 모호합니다. 다양한 방법으로 정의할 수 있다는 개념입니다. 이 과정에서는 품질을 실용적으로 개선할 수 있습니다.
고품질 데이터 세트는 모델이 목표를 달성하는 데 도움이 됩니다. 품질이 낮은 데이터 세트는 모델이 목표를 달성하는 데 방해가 됩니다.
또한 고품질 데이터 세트는 일반적으로 안정적입니다. 신뢰성은 데이터를 신뢰할 수 있는 정도를 나타냅니다. 신뢰할 수 있는 데이터 세트로 학습된 모델이 유용한 결과를 생성할 가능성이 높음 예측이 더 효율적입니다.
안정성을 측정할 때 다음을 결정해야 합니다.
- 라벨 오류는 얼마나 일반적인가요? 예를 들어 데이터가 인간 평가자들이 실수를 얼마나 자주 했는가?
- 특성에 노이즈가 많나요? 즉, 특성의 값을 포함되어 있나요? 현실적으로 데이터 세트를 삭제할 수 없음 노이즈를 더합니다. 약간의 노이즈는 정상입니다. 예를 들어 모든 종류의 GPS 측정이 위치가 항상 약간씩 변동합니다.
- 데이터가 문제에 맞게 적절히 필터링되었나요? 예를 들어 데이터 세트에 봇의 검색어를 포함해야 할까요? 만약 답은 '예'일 가능성이 높습니다. 하지만 사람이 볼 수 있는 검색 결과를 개선하는 게 목적이면 안 되죠.
데이터 세트에서 데이터가 신뢰할 수 없는 일반적인 원인은 다음과 같습니다.
- 생략된 값입니다. 예를 들어 사용자가 확인할 수 있습니다.
- 중복 예시 예를 들어 서버에서 실수로 동일한 2배입니다
- 특성 값이 잘못되었습니다. 예를 들어 사용자가 숫자를 더 입력했거나 온도계를 햇빛에 두었습니다.
- 잘못된 라벨입니다. 예를 들어 어떤 사람이 실수로 사진에 라벨을 단풍나무로 표현한 참나무입니다.
- 잘못된 데이터 섹션. 예를 들어 특정 특성은 매우 신뢰할 수 있습니다. 네트워크가 계속 다운되었던 하루만 빼고요.
자동화를 사용하여 신뢰할 수 없는 데이터를 신고하는 것이 좋습니다. 예를 들어 외부 공식 데이터 스키마를 정의하거나 의존하는 단위 테스트는 플래그를 지정할 수 있습니다.
완전한 예와 불완전한 예
완벽한 환경에서는 모든 예가 완전합니다. 즉, 각 예에는 각 특성의 값
안타깝게도 실제 사례는 불완전한 경우가 많습니다. 즉, 특성 값이 하나 이상 누락되었습니다.
불완전한 예를 기반으로 모델을 학습시키지 마세요. 대신 이러한 문제를 해결하거나 다음 중 하나를 수행하여 불완전한 예제를 만들 수 있습니다.
- 불완전한 예를 삭제하세요.
- 누락된 값을 Impute합니다. 즉, 타당한 근거를 기반으로 추측할 수 있습니다
데이터 세트에 유용한 모델을 학습시키기에 충분한 완전한 예시가 있다면 불완전한 예를 삭제하는 것이 좋습니다. 마찬가지로 하나의 특성에서만 상당량의 데이터가 누락되고 한 가지 특성은 모델에 큰 도움이 되지 않을 수 있으므로 특성 추출을 사용하여 특성의 품질 손실이 얼마나 발생하는지 삭제. 그것이 없어도 모델이 거의 또는 거의 잘 작동한다면 잘된 것입니다. 반대로 유용한 모델을 학습시키기에 완전한 예가 충분하지 않은 경우 누락된 값을 대입하는 것을 고려할 수 있습니다.
쓸모 없거나 중복된 예를 삭제할 수 있지만 삭제하는 것은 좋지 않습니다. 중요한 예입니다. 안타깝게도 구분하기가 어려울 수 있습니다. 구분해야 합니다. 계정을 생성할지 여부를 결정할 수 없다면 데이터를 삭제하려면 데이터 세트 2개를 빌드하는 것이 좋습니다. 나머지 하나는 귀속하여 보여주기 때문입니다. 그런 다음 더 나은 모델을 학습시키는 데이터 세트를 결정합니다.
<ph type="x-smartling-placeholder">
일반적인 알고리즘 중 하나는 평균 또는 중앙값을 대입 값으로 사용하는 것입니다. 결과적으로 숫자 특성을 나타내는 것은 Z-점수 대입된 값은 일반적으로 0입니다 (0은 일반적으로 평균 Z-점수이기 때문입니다).
연습문제: 학습 내용 점검하기
다음은 Timestamp
에 따라 정렬된 데이터 세트의 두 열입니다.
타임스탬프 | 온도 |
---|---|
2023년 6월 8일 09:00 | 12 |
2023년 6월 8일 10:00 | 18 |
2023년 6월 8일 11:00 | 결측치 |
2023년 6월 8일 12:00 | 24 |
2023년 6월 8일 13:00 | 38 |
다음 중 귀속되기에 적합한 값은 무엇인가요? 온도의 누락된 값