사과나무에서는 훌륭한 과일과 벌레 먹는 사과가 섞여 있습니다.
하지만 고급 식료품점에서 판매하는 사과는 100% 완벽합니다.
과수원과 식료품점 사이를 오가면서 많은 시간을 보내는 사람
나쁜 사과에 작은 왁스를 뿌려보죠.
ML 엔지니어로서 여러분은 문제 해결에 엄청난 시간을
나쁜 예를 버리고 고용 가능한 예시를 정리하는 것입니다.
몇 개의 나쁜 사과가 대규모 데이터 세트를 망칠 수 있습니다.
데이터 세트의 많은 예는 다음과 같은 이유로 인해
다음과 같은 문제가 있습니다.
문제 카테고리
예
생략된 값
인구 조사 조사자가 거주자 연령을 기록하지 못하는 경우
중복 예
서버에서 동일한 로그를 두 번 업로드합니다.
범위를 벗어난 특성 값입니다.
사람이 실수로 추가 숫자를 입력합니다.
잘못된 라벨
참나무 사진에 라벨을 잘못 지정한 인간 평가자
단풍나무.
프로그램이나 스크립트를 작성하여 다음과 같은 문제를 감지할 수 있습니다.
생략된 값
중복 예
범위를 벗어난 특성 값
예를 들어 다음 데이터세트에는 6개의 반복되는 값이 포함되어 있습니다.
그림 15. 처음 6개의 값은 반복됩니다.
또 다른 예로, 특정 특성의 온도 범위가
10도 이상 30도 이하로 설정할 수 있습니다. 하지만 사고는 일어납니다. 아마도
온도계가 일시적으로 태양에 노출되어 이상치가 나빠집니다.
프로그램 또는 스크립트는 10보다 작은 온도 값을 식별해야 합니다.
30보다 작음:
그림 16. 범위를 벗어난 값입니다.
여러 사용자가 라벨을 생성한 경우 통계적으로
각 평가자가 동등한 라벨 집합을 생성했는지 여부를 판단합니다.
한 평가자가 다른 평가자보다 더 엄격한 평가자이거나
어떻게 해야 할까요?
일단 탐지되면, 일반적으로 "해결"합니다. 잘못된 특성이 포함된 예
또는 잘못된 라벨을
지정할 수 있습니다
자세한 내용은
데이터 특성
섹션의
데이터 세트, 일반화, 과적합
모듈을 마칩니다
[null,null,["최종 업데이트: 2024-08-13(UTC)"],[[["Like sorting good apples from bad, ML engineers spend significant time cleaning data by removing or fixing bad examples to improve dataset quality."],["Common data problems include omitted values, duplicate examples, out-of-range values, and incorrect labels, which can negatively impact model performance."],["You can use programs or scripts to identify and handle data issues such as omitted values, duplicates, and out-of-range feature values by removing or correcting them."],["When multiple individuals label data, it's important to check for consistency and identify potential biases to ensure label quality."],["Addressing data quality issues before training a model leads to better model accuracy and overall performance."]]],[]]