이 섹션에서는 라벨에 중점을 둡니다.
직접 라벨과 프록시 라벨 비교
다음과 같은 두 가지 유형의 라벨을 고려해 보세요.
- 직접 라벨: 모델이 시도하는 예측과 동일한 라벨입니다. 즉, 모델이 시도하는 예측이 데이터 세트에 열로 정확하게 표시됩니다.
예를 들어
bicycle owner
열은 사용자가 자전거를 소유하고 있는지 여부를 예측하는 이진 분류 모델의 직접 라벨이 됩니다. - 프록시 라벨: 모델이 시도하는 예측과 유사하지만 동일하지 않은 라벨입니다. 예를 들어 Bicycle Bizarre 잡지를 구독하는 사용자는 자전거를 보유하고 있을 가능성이 높지만 반드시 그렇지는 않습니다.
직접 라벨은 일반적으로 대리 라벨보다 좋습니다. 데이터 세트에서 가능한 직접 라벨을 제공하는 경우 이를 사용하는 것이 좋습니다. 하지만 직접 라벨을 사용할 수 없는 경우가 많습니다.
프록시 라벨은 항상 타협안입니다. 즉, 직접 라벨을 대략적으로 추정하는 데 사용됩니다. 하지만 일부 대리 라벨은 유용하게 사용할 만큼 근사치에 가깝습니다. 프록시 라벨을 사용하는 모델은 프록시 라벨과 예측 간의 연결만큼만 유용합니다.
모든 라벨은 특성 벡터에서 부동 소수점 수로 표현되어야 합니다. 머신러닝은 근본적으로 수학적 연산의 거대한 혼합물이기 때문입니다. 직접 라벨이 있지만 특성 벡터에서 부동 소수점 수로 쉽게 표현할 수 없는 경우도 있습니다. 이 경우 프록시 라벨을 사용합니다.
연습문제: 이해도 확인
회사에서 다음을 수행하려고 합니다.
자전거 소유자에게 쿠폰 ('기존 자전거를 보상 판매하고 새 자전거를 15% 할인된 가격에 구매하세요')을 우편으로 보냅니다.
따라서 모델은 다음을 실행해야 합니다.
자전거를 소유한 사람을 예측합니다.
안타깝게도 데이터 세트에 bike owner
라는 열이 없습니다.
하지만 데이터 세트에는 recently bought a bicycle
라는 열이 포함되어 있습니다.
recently bought a bicycle
이 이 모델에 적합한 대리 라벨인가요 아니면 부적절한 대리 라벨인가요?recently bought a bicycle
열은 비교적 좋은 대리 라벨입니다. 결국 자전거를 구매하는 대부분의 사람들은 자전거를 소유하고 있습니다. 하지만 모든 프록시 라벨과 마찬가지로 recently bought a
bicycle
도 완벽하지는 않습니다. 결국 상품을 구매하는 사람이 항상 상품을 사용하거나 소유하는 것은 아닙니다.
예를 들어 사람들이 자전거를 선물로 구매하는 경우가 있습니다.recently bought a bicycle
도 불완전합니다 (일부 자전거는 선물로 구매하여 다른 사람에게 제공됨). 하지만 recently bought a bicycle
는 여전히 자전거를 소유하고 있다는 것을 나타내는 비교적 좋은 지표입니다.사람이 생성한 데이터
일부 데이터는 사람이 생성합니다. 즉, 한 명 이상의 사람이 일부 정보를 검토하고 값(일반적으로 라벨)을 제공합니다. 예를 들어 한 명 이상의 기상학자가 하늘 사진을 검토하고 구름 유형을 식별할 수 있습니다.
또는 일부 데이터는 자동으로 생성됩니다. 즉, 소프트웨어(다른 머신러닝 모델일 수 있음)가 값을 결정합니다. 예를 들어 머신러닝 모델은 하늘 사진을 검사하고 구름 유형을 자동으로 식별할 수 있습니다.
이 섹션에서는 사람이 생성한 데이터의 장점과 단점을 살펴봅니다.
장점
- 인간 평가자는 정교한 머신러닝 모델도 어려워할 수 있는 다양한 작업을 수행할 수 있습니다.
- 이 프로세스를 통해 데이터 세트 소유자는 명확하고 일관된 기준을 수립해야 합니다.
단점
- 일반적으로 인간 평가자에게 비용을 지불하므로 사람이 생성한 데이터는 비용이 많이 들 수 있습니다.
- 실수는 인간의 영역입니다. 따라서 여러 명의 평가자가 동일한 데이터를 평가해야 할 수 있습니다.
다음 질문을 통해 요구사항을 파악하세요.
- 평가자는 어느 정도의 기술을 갖추어야 하나요? (예를 들어 평가자가 특정 언어를 알아야 하나요? 대화 또는 NLP 애플리케이션에 언어학자가 필요한가요?
- 라벨이 지정된 예시가 몇 개인가요? 언제 필요하신가요?
- 예산이 얼마인가요?
항상 사람 검토자의 평가를 다시 확인합니다. 예를 들어 1,000개의 예시를 직접 라벨링하고 내 결과가 다른 평가자의 결과와 어떻게 일치하는지 확인합니다. 불일치가 발생하면 특히 가치 판단이 관련된 경우 내 평가가 올바르다고 가정하지 마세요. 사람 평가자가 오류를 일으킨 경우 평가자를 지원하는 안내를 추가하고 다시 시도해 보세요.