데이터 세트: 라벨

이 섹션에서는 라벨에 중점을 둡니다.

직접 라벨과 프록시 라벨

다음 두 가지 종류의 라벨을 고려해 보세요.

직접 라벨: 모델이 예측하려는 것과 동일한 라벨입니다. 즉, 모델이 예측하려는 값이 데이터 세트의 열로 정확하게 표시됩니다. 예를 들어 bicycle owner이라는 열은 사람이 자전거를 소유하고 있는지 여부를 예측하는 이진 분류 모델의 직접 라벨이 됩니다.
프록시 라벨: 모델이 예측하려는 값과 유사하지만 동일하지 않은 라벨입니다. 예를 들어 Bicycle Bizarre 잡지를 구독하는 사람은 자전거를 소유하고 있을 가능성이 높지만 확실하지는 않습니다.

일반적으로 직접 라벨이 프록시 라벨보다 좋습니다. 데이터 세트에서 가능한 직접 라벨을 제공하는 경우 이를 사용하는 것이 좋습니다. 하지만 직접 라벨을 사용할 수 없는 경우가 많습니다.

프록시 라벨은 항상 절충안입니다. 직접 라벨의 불완전한 근사치입니다. 하지만 일부 프록시 라벨은 유용할 만큼 충분히 근사합니다. 프록시 라벨을 사용하는 모델은 프록시 라벨과 예측 간의 연결만큼만 유용합니다.

모든 라벨은 특성 벡터와 유사한 부동 소수점 숫자로 표현되어야 합니다 (머신러닝은 기본적으로 수학 연산의 모음이기 때문). 직접 라벨이 있지만 부동 소수점 숫자로 쉽게 표현할 수 없는 경우가 있습니다. 이 경우 프록시 라벨을 사용합니다.

연습: 학습 내용 점검하기

회사에서 다음 작업을 수행하려고 합니다.

자전거 소유자에게 쿠폰 ('새 자전거 헬멧 15% 할인')을 우편으로 발송합니다.

따라서 모델은 다음을 수행해야 합니다.

자전거를 소유한 사람을 예측합니다.

죄송하지만 데이터 세트에 bike owner이라는 열이 포함되어 있지 않습니다. 하지만 데이터 세트에는 recently bought a bicycle이라는 열이 포함되어 있습니다.

recently bought a bicycle은(는) 이 모델에 적합한 프록시 라벨인가요, 아니면 적합하지 않은 프록시 라벨인가요?

적절한 프록시 라벨

recently bought a bicycle 열은 비교적 적절한 프록시 라벨입니다. 결국 현재 자전거를 구매하는 대부분의 사람은 자전거를 소유하고 있습니다. 하지만 모든 프록시 라벨과 마찬가지로 매우 우수한 라벨이라도

recently bought a
            bicycle

는 완벽하지 않습니다. 결국 상품을 구매하는 사람이 항상 해당 상품을 사용하거나 소유하는 것은 아닙니다. 예를 들어 자전거를 선물로 구매하는 경우가 있습니다.

잘못된 유추 라벨

모든 프록시 라벨과 마찬가지로 recently bought a bicycle는 완벽하지 않습니다 (일부 자전거는 선물로 구매하여 다른 사람에게 제공됨). 하지만 recently bought a bicycle은 여전히 누군가 자전거를 소유하고 있다는 것을 나타내는 비교적 좋은 지표입니다.

사람이 생성한 데이터

일부 데이터는 사람이 생성합니다. 즉, 한 명 이상의 사람이 일부 정보를 검토하고 일반적으로 라벨에 대한 값을 제공합니다. 예를 들어 한 명 이상의 기상학자가 하늘 사진을 살펴보고 구름 유형을 식별할 수 있습니다.

또는 일부 데이터는 자동으로 생성됩니다. 즉, 소프트웨어(다른 머신러닝 모델일 수 있음)가 값을 결정합니다. 예를 들어 머신러닝 모델은 하늘 사진을 검사하고 구름 유형을 자동으로 식별할 수 있습니다.

이 섹션에서는 사람이 생성한 데이터의 장단점을 살펴봅니다.

장점

사람 평가자는 정교한 머신러닝 모델조차 어려워할 수 있는 다양한 작업을 수행할 수 있습니다.
이 프로세스를 통해 데이터 세트 소유자는 명확하고 일관된 기준을 개발해야 합니다.

단점

일반적으로 인간 평가자에게 비용을 지불하므로 인간이 생성한 데이터는 비용이 많이 들 수 있습니다.
실수는 인간의 영역입니다. 따라서 여러 명의 인적 평가자가 동일한 데이터를 평가해야 할 수 있습니다.

다음 질문을 통해 요구사항을 파악하세요.

평가자의 숙련도는 어느 정도여야 하나요? (예: 평가자가 특정 언어를 알아야 하나요? 대화 또는 NLP 애플리케이션에 언어학자가 필요한가요?
라벨이 지정된 예시가 얼마나 필요한가요? 얼마나 빨리 필요하신가요?
예산은 얼마인가요?

항상 실제 평가자를 다시 확인하세요. 예를 들어 1,000개의 예시를 직접 라벨링하고 결과가 다른 평가자의 결과와 얼마나 일치하는지 확인합니다. 불일치가 발견되면 특히 가치 판단이 포함된 경우 내 등급이 올바르다고 가정하지 마세요. 사람 평가자가 오류를 도입한 경우 사람 평가자를 지원하는 안내를 추가한 후 다시 시도해 보세요.

더하기 아이콘을 클릭하여 사람이 생성한 데이터에 대해 자세히 알아보세요.

데이터를 어떻게 획득했는지와 관계없이 데이터를 직접 살펴보는 것은 좋은 연습입니다. 안드레이 카르파티는 ImageNet에서 이 작업을 수행하고 경험에 관해 작성했습니다.

모델은 자동 생성 라벨과 사람이 생성한 라벨을 혼합하여 학습할 수 있습니다. 하지만 대부분의 모델에서는 사람이 생성한 추가 라벨 (오래될 수 있음)이 추가 복잡성과 유지보수 비용을 감당할 만한 가치가 없습니다. 하지만 수동으로 생성된 라벨은 자동 라벨에서 제공되지 않는 추가 정보를 제공할 수 있습니다.

데이터 특성 (10분)

불균형 데이터 세트 (10분)