라벨 및 소스 식별

직접 라벨 vs. 파생 라벨

라벨이 잘 정의되어 있으면 머신러닝이 더 쉬워집니다. 가장 좋은 라벨은 예측 대상의 직접 라벨입니다. 예를 들어 사용자가 Taylor Swift 팬인지 예측하려면 직접 라벨은 'Taylor Swift 팬'입니다.

간단한 팬 테스트 여부는 사용자가 YouTube에서 테일러 Swift 동영상을 시청했는지 여부입니다. 사용자가 YouTube에서 테일러 스위프트 동영상을 시청했습니다. 라벨은 예측 대상을 직접 측정하지 않으므로 파생된 라벨입니다. 파생된 라벨은 사용자가 테일러 스위프트를 좋아한다는 신뢰할 수 있는 지표인가요? 모델은 파생된 라벨과 원하는 예측 간의 연결만큼만 우수합니다.

라벨 소스

모델 출력은 이벤트 또는 속성일 수 있습니다. 그 결과 다음 두 가지 유형의 라벨이 생성됩니다.

  • 이벤트의 직접 라벨(예: '사용자가 상단 검색결과를 클릭했나요?')
  • 속성에 대한 직접 라벨(예: '다음 주에 X달러 이상을 지출하나요?')

이벤트 직접 라벨

이벤트의 경우 직접 라벨을 사용하는 것은 일반적으로 간단합니다. 이벤트 중에 라벨로 사용할 사용자 동작을 로깅할 수 있기 때문입니다. 이벤트에 라벨을 지정할 때는 다음 질문을 자문해 보세요.

  • 로그는 어떻게 구성되어 있나요?
  • 로그에서 '이벤트'로 간주되는 것은 무엇인가요?

예를 들어 시스템에서 사용자가 검색결과를 클릭할 때 또는 사용자가 검색할 때 기록하나요? 클릭 로그를 보유한 경우 클릭 없이는 노출이 발생하지 않습니다. 이벤트가 노출수인 로그가 필요하므로 사용자에게 상위 검색결과가 표시되는 모든 사례를 다룹니다.

속성의 직접 라벨

'광고주가 다음 주에 $X 이상 지출하게 될 것입니다.'라는 라벨이 있다고 가정해 보겠습니다. 일반적으로 다음 날의 데이터를 사용하여 향후 며칠에 어떤 일이 발생할지 예측합니다. 예를 들어 다음 그림은 향후 7일을 예측하는 10일간의 학습 데이터를 보여줍니다.

10일 블록과 7일 후 차단이 강조표시된 캘린더
모델은 10일 블록의 데이터를 사용하여 7일 블록에 대한 예측을 수행합니다.

시즌성 또는 주기적 영향을 고려하세요. 예를 들어 광고주는 주말에 더 많은 금액을 지출할 수 있습니다. 따라서 14일 기간을 대신 사용하거나 날짜를 특성으로 사용하여 모델이 연간 효과를 학습하도록 할 수 있습니다.

직접 라벨에는 과거 행동의 기록이 필요합니다

이전 사례에서는 실제 결과에 대한 데이터가 필요했습니다. 광고주가 얼마를 지출했든 테일러 스위프트 동영상을 시청한 사람이든 관계없이 지도 머신러닝을 사용하려면 과거 데이터가 필요했습니다. 머신러닝은 과거의 상황을 기반으로 하여 예측하므로 과거의 로그가 없으면 로그를 가져와야 합니다.

로깅할 데이터가 없는 경우에는 어떻게 하나요?

제품이 아직 존재하지 않아 로깅할 데이터가 없을 수도 있습니다. 이 경우 다음 작업 중 하나 이상을 할 수 있습니다.

  • 처음 실행하는 데 휴리스틱을 사용한 다음 기록된 데이터에 따라 시스템을 학습시킵니다.
  • 비슷한 문제의 로그를 사용하여 시스템을 부트스트랩합니다.
  • 태스크를 완료하여 사용자 평가자를 통해 데이터를 생성합니다.

사람이 라벨을 지정한 데이터를 사용하는 이유

사람이 라벨을 지정한 데이터를 사용할 경우의 장단점이 있습니다.

장점

  • 평가자가 다양한 작업을 실행할 수 있습니다.
  • 데이터를 통해 명확한 문제 정의를 만들 수 있습니다.

단점

  • 특정 도메인에는 많은 비용이 듭니다.
  • 좋은 데이터에는 일반적으로 여러 번 반복해야 합니다.

품질 개선

평가자의 평가는 항상 해야 합니다. 예를 들어 1,000개의 예시에 라벨을 직접 지정하고 결과가 평가자와 어떻게 일치하는지 확인할 수 있습니다. 데이터에 직접 라벨을 지정하는 것도 좋은 방법입니다. 불일치가 나타나는 경우 특히 값 판단이 관련되어 있는 경우 평점이 정확하다고 가정하지 마세요. 평가자가 오류를 도입한 경우 도움이 되는 안내를 추가하고 다시 시도하세요.

직접 데이터를 살펴보는 것은 데이터를 획득한 방법에 관계없이 좋은 연습입니다. 안드레이 카르파티는 ImageNet에서 이를 수행하고 환경에 관해 작성했습니다.