수치 데이터: 스크러빙

사과나무에서는 훌륭한 과일과 벌레 먹는 사과가 섞여 있습니다. 하지만 고급 식료품점에서 판매하는 사과는 100% 완벽합니다. 과수원과 식료품점 사이를 오가면서 많은 시간을 보내는 사람 나쁜 사과에 작은 왁스를 뿌려보죠. ML 엔지니어로서 여러분은 문제 해결에 엄청난 시간을 나쁜 예를 버리고 고용 가능한 예시를 정리하는 것입니다. 몇 개의 나쁜 사과가 대규모 데이터 세트를 망칠 수 있습니다.

데이터 세트의 많은 예는 다음과 같은 이유로 인해 다음과 같은 문제가 있습니다.

문제 카테고리
생략된 값 인구 조사 조사자가 거주자 연령을 기록하지 못하는 경우
중복 예 서버에서 동일한 로그를 두 번 업로드합니다.
범위를 벗어난 특성 값입니다. 사람이 실수로 추가 숫자를 입력합니다.
잘못된 라벨 참나무 사진에 라벨을 잘못 지정한 인간 평가자 단풍나무.

프로그램이나 스크립트를 작성하여 다음과 같은 문제를 감지할 수 있습니다.

  • 생략된 값
  • 중복 예
  • 범위를 벗어난 특성 값

예를 들어 다음 데이터세트에는 6개의 반복되는 값이 포함되어 있습니다.

그림 15. 처음 6개 값은 반복됩니다. 마지막 8개 팀
            값은 포함되지 않습니다.
그림 15. 처음 6개의 값은 반복됩니다.

또 다른 예로, 특정 특성의 온도 범위가 10도 이상 30도 이하로 설정할 수 있습니다. 하지만 사고는 일어납니다. 아마도 온도계가 일시적으로 태양에 노출되어 이상치가 나빠집니다. 프로그램 또는 스크립트는 10보다 작은 온도 값을 식별해야 합니다. 30보다 작음:

그림 16. 범위 내 값 19개와 범위를 벗어난 값 1개
그림 16. 범위를 벗어난 값입니다.

여러 사용자가 라벨을 생성한 경우 통계적으로 각 평가자가 동등한 라벨 집합을 생성했는지 여부를 판단합니다. 한 평가자가 다른 평가자보다 더 엄격한 평가자이거나 어떻게 해야 할까요?

일단 탐지되면, 일반적으로 "해결"합니다. 잘못된 특성이 포함된 예 또는 잘못된 라벨을 지정할 수 있습니다 자세한 내용은 데이터 특성 섹션의 데이터 세트, 일반화, 과적합 모듈을 마칩니다