데이터 세트: 라벨

이 섹션에서는 라벨에 중점을 둡니다.

직접 라벨과 프록시 라벨 비교

두 가지 종류의 라벨을 고려하세요.

  • 직접 라벨: 모델의 예측과 동일한 라벨입니다. 만들고자 하는 것입니다. 즉, 모델이 수행하려는 예측은 데이터 세트에 열로 정확하게 존재합니다. 예를 들어 bicycle owner이라는 열은 다음 열의 직접 라벨이 됩니다. 사람의 소유 여부를 예측하는 이진 분류 모델 자전거입니다.
  • 프록시 라벨은 비슷하지만 동일하지는 않다는 것을 알 수 있습니다. 예: Bicycle Bizarre 잡지를 구독하는 사용자 아마도 자전거를 소유하고 있을 것입니다.

직접 라벨이 프록시 라벨보다 일반적으로 더 좋습니다. 데이터 세트가 가능한 직접 라벨을 제공하는 경우 이를 사용해야 합니다. 하지만 직접 라벨을 사용할 수 없는 경우도 많습니다.

프록시 라벨은 항상 보안 침해의 불완전한 근사치인 직접 라벨도 지정할 수 있습니다. 그러나 일부 프록시 라벨은 유용하게 활용할 수 있습니다. 프록시 라벨을 사용하는 모델은 연관성을 찾을 수 있습니다.

모든 라벨은 부동 소수점 수로 표현되어야 함 특성 벡터에 속함 (머신러닝은 기본적으로 수학적 사고와 사용됩니다. 직접 라벨이 있지만 다음과 같이 쉽게 표현할 수 없는 경우가 있습니다. 부동 소수점 숫자를 나타냅니다. 이 경우에는 프록시 라벨을 사용하세요.

연습문제: 학습 내용 점검하기

회사에서 다음을 수행하려고 합니다.

우편 쿠폰("오래된 자전거를 중고 자전거를 새 자전거 15% 할인')을 받을 수 있습니다.

따라서 모델은 다음을 실행해야 합니다.

어떤 사람이 자전거를 소유하는지 예측

하지만 데이터 세트에는 bike owner이라는 열이 포함되어 있지 않습니다. 하지만 데이터 세트에는 recently bought a bicycle이라는 열이 포함되어 있습니다.

recently bought a bicycle은(는) 좋은 프록시 라벨인가요? 이 모델에 대한 프록시 라벨 상태가 좋지 않습니까?
양호한 프록시 라벨
recently bought a bicycle 열은 사용할 수 있습니다. 결국 대부분의 사람들은 현재 자전거를 소유하고 있는 상황입니다 그럼에도 불구하고 아무리 좋은 라벨도 recently bought a bicycle는 불완전합니다. 결국 항목은 해당 항목을 사용하거나 소유한 사람이 아닐 수도 있습니다. 예를 들어 사람들은 선물로 자전거를 구매하기도 합니다.
프록시 라벨 불량
모든 프록시 라벨과 마찬가지로 recently bought a bicycle 불완전합니다 (일부 자전거는 선물로 구입되어 있습니다. 하지만 recently bought a bicycle는 다음과 같습니다. 여전히 한 사람이 소유하고 있다는 것을 있습니다.

사람이 생성한 데이터

일부 데이터는 사람이 생성했습니다. 즉, 한 명 이상의 사람이 정보를 제공하고 일반적으로 라벨에 대한 값을 제공합니다. 예를 들어 한 명 이상의 기상학자가 하늘 사진을 검토하고 살펴보겠습니다

또는 일부 데이터는 자동으로 생성됩니다. 즉, 소프트웨어 (다른 머신러닝 모델)이 값을 결정합니다 예를 들어 머신러닝 모델이 하늘 사진을 검사하고 자동으로 살펴보겠습니다

이 섹션에서는 사람이 생성한 데이터의 장단점을 살펴봅니다.

장점

  • 평가자는 매우 정교한 다양한 작업을 수행할 수 있습니다. 어려울 수 있습니다
  • 이 프로세스는 데이터 세트의 소유자가 데이터 세트에서 명확한 일관성 있는 기준을 제공합니다.

단점

  • 일반적으로 평가자에게 비용을 지불하므로 사람이 생성한 데이터는 많은 비용이 들 수 있습니다.
  • 실수는 인간입니다. 따라서 여러 명의 평가자가 동일한 데이터로 작업할 수 있습니다

다음 질문을 고려하여 요구사항을 결정하세요.

  • 평가자의 기술이 얼마나 숙련되어야 하나요? 예를 들어 평가자는 알고 있나요? 대화 또는 NLP를 위해 언어학자가 필요한가요? 지원하나요?)
  • 라벨이 있는 예가 몇 개 필요하신가요? 얼마나 빨리 필요하신가요?
  • 예산은 얼마인가요?

항상 평가자를 다시 한번 확인하세요. 예: 라벨 1, 000개의 예 자신의 결과가 다른 평가자의 결과와 얼마나 일치하는지 있습니다. 불일치가 나타나는 경우 평가가 올바르다고 가정하지 마세요. 특히 가치 판단이 포함된 경우 더욱 그렇습니다. 평가자가 오류를 해결하는 데 도움이 되는 안내를 추가하고 다시 시도해 보세요.

를 통해 개인정보처리방침을 정의할 수 있습니다.