사과나무에서는 훌륭한 과일과 벌레 먹는 사과가 섞여 있습니다. 하지만 고급 식료품점에서 판매하는 사과는 100% 완벽합니다. 과수원과 식료품점 사이를 오가면서 많은 시간을 보내는 사람 나쁜 사과에 작은 왁스를 뿌려보죠. ML 엔지니어로서 여러분은 문제 해결에 엄청난 시간을 나쁜 예를 버리고 고용 가능한 예시를 정리하는 것입니다. 몇 개의 나쁜 사과가 대규모 데이터 세트를 망칠 수 있습니다.
데이터 세트의 많은 예는 다음과 같은 이유로 인해 다음과 같은 문제가 있습니다.
문제 카테고리 | 예 |
---|---|
생략된 값 | 인구 조사 조사자가 거주자 연령을 기록하지 못하는 경우 |
중복 예 | 서버에서 동일한 로그를 두 번 업로드합니다. |
범위를 벗어난 특성 값입니다. | 사람이 실수로 추가 숫자를 입력합니다. |
잘못된 라벨 | 참나무 사진에 라벨을 잘못 지정한 인간 평가자 단풍나무. |
프로그램이나 스크립트를 작성하여 다음과 같은 문제를 감지할 수 있습니다.
- 생략된 값
- 중복 예
- 범위를 벗어난 특성 값
예를 들어 다음 데이터세트에는 6개의 반복되는 값이 포함되어 있습니다.
또 다른 예로, 특정 특성의 온도 범위가 10도 이상 30도 이하로 설정할 수 있습니다. 하지만 사고는 일어납니다. 아마도 온도계가 일시적으로 태양에 노출되어 이상치가 나빠집니다. 프로그램 또는 스크립트는 10보다 작은 온도 값을 식별해야 합니다. 30보다 작음:
여러 사용자가 라벨을 생성한 경우 통계적으로 각 평가자가 동등한 라벨 집합을 생성했는지 여부를 판단합니다. 한 평가자가 다른 평가자보다 더 엄격한 평가자이거나 어떻게 해야 할까요?
일단 탐지되면, 일반적으로 "해결"합니다. 잘못된 특성이 포함된 예 또는 잘못된 라벨을 지정할 수 있습니다 자세한 내용은 데이터 특성 섹션의 데이터 세트, 일반화, 과적합 모듈을 마칩니다