숫자 데이터는 과학 기기나 자동 측정으로 기록되는 경우가 많습니다. 반면 범주형 데이터는 사람 또는 머신러닝 (ML) 모델로 분류되는 경우가 많습니다. 누가 카테고리와 라벨을 결정하고 이러한 결정을 내리는 방법은 데이터의 신뢰성과 유용성에 영향을 미칩니다.
인간 평가자
사람이 수동으로 라벨을 지정한 데이터를 골드 라벨이라고 하며, 학습 모델에서는 비교적 우수한 데이터 품질로 인해 머신으로 라벨을 지정한 데이터보다 더 바람직하다고 간주됩니다.
그렇다고 해서 사람이 라벨을 지정한 데이터 세트가 반드시 고품질이라는 의미는 아닙니다. 인간의 실수, 편향, 악의는 데이터 수집 시점이나 데이터 정리 및 처리 중에 발생할 수 있습니다. 학습 전에 확인하세요
두 사람이 동일한 예시를 다르게 라벨링할 수 있습니다. 인간 평가자의 결정 간의 차이를 평가자 간 동의라고 합니다. 예시당 여러 평가자를 사용하고 평가자 간 동의 여부를 측정하면 평가자 의견의 차이를 파악할 수 있습니다.
머신 평가자
하나 이상의 분류 모델에 의해 카테고리가 자동으로 결정되는 머신 라벨 데이터는 실버 라벨이라고도 합니다. 머신 라벨이 지정된 데이터의 품질은 매우 다양할 수 있습니다. 정확성과 편향뿐만 아니라 상식, 현실, 의도를 위반하는지 여부도 확인하세요. 예를 들어 컴퓨터 비전 모델이 치와와 사진에 머핀 라벨을 지정하거나 머핀 사진에 치와와 라벨을 지정하면 라벨이 지정된 데이터로 학습된 모델의 품질이 떨어집니다.
마찬가지로 중립적인 단어의 점수를 -0.25로 매기는 감정 분석 도구는 0.0이 중립적 값일 때 데이터에 실제로 존재하지 않는 추가 부정적인 편향으로 모든 단어를 채점할 수 있습니다. 지나치게 민감한 유해성 감지기는 많은 중립적인 진술을 악의적이라고 잘못 신고할 수 있습니다. 데이터를 학습하기 전에 데이터에 있는 머신 라벨과 주석의 품질과 편향을 파악해 보세요.
고차원성
범주형 데이터는 고차원 특성 벡터, 즉 요소가 많은 특성 벡터를 생성하는 경향이 있습니다. 차원이 높을수록 학습 비용이 증가하고 학습이 더 어려워집니다. 이러한 이유로 ML 전문가는 종종 학습 전에 측정기준 수를 줄이는 방법을 모색합니다.
자연 언어 데이터의 경우 차원 수를 줄이는 기본 방법은 특징 벡터를 임베딩 벡터로 변환하는 것입니다. 이 내용은 이 과정의 뒷부분에 나오는 임베딩 모듈에서 설명합니다.