범주형 데이터: 일반적인 문제

수치 데이터는 종종 과학 도구 또는 자동으로 측정됩니다. 반면에 범주형 데이터는 인간 또는 머신러닝 (ML) 모델별로 분류됩니다. 주체가 결정 그리고 이러한 결정을 내리는 방법이 신뢰성과 유용성을 갖출 수 있습니다.

평가자

사람이 수동으로 라벨을 지정한 데이터를 골드 라벨이라고 합니다. 모델 학습에는 머신 라벨이 지정된 데이터보다 더 바람직한 것으로 간주됩니다. 데이터 품질이 낮기 때문입니다

그렇다고 해서 사람이 지정한 라벨 데이터 세트의 품질이 높다는 의미는 아닙니다. 있습니다. 이 시점에서 사람의 실수, 편향, 악의가 발생할 수 있음 데이터 정리 및 처리 도중에 발생하는 문제를 예로 들 수 있습니다 확인 살펴봤습니다

두 사람이 동일한 예에 서로 다른 라벨을 지정할 수 있습니다. 차이점 인간 평가자 간의 결정을 상호 평가자 계약에 동의해야 합니다. 평가자 간의 차이를 확인하고 Google의 의견이나 예를 들어 평가자 간 동의 여부를 측정할 수 있어야 합니다.

머신 평가자

머신 라벨 지정 데이터(카테고리는 하나 이상의 실버 라벨이라고도 합니다. 머신으로 라벨이 지정된 데이터는 품질이 크게 다를 수 있습니다. 정확성뿐 아니라 상식, 현실, 의도를 위반하는 행위이기도 합니다 대상 예를 들어 컴퓨터 비전 모델이 사진에서 라벨을 잘못 지정하면 머핀 치와와, 또는 치와와인 머핀 사진이 있는 경우 해당 라벨이 지정된 데이터로 학습된 모델은 품질이 낮아야 합니다.

마찬가지로 감정 분석 도구는 중립적인 단어에 0.0이 표시될 때 -0.25로 점수를 매깁니다. 모든 단어에 추가 음수 편향을 추가하여 점수를 매길 수 있습니다. 데이터를 추출하는 것입니다. 과민한 독성 감지기 많은 중립적인 표현이 악의적이라고 허위로 신고할 수 있습니다. 그들의 문화를 데이터에 있는 머신 라벨과 주석의 품질과 편향을 학습할 수 있습니다.

높은 차원

범주형 데이터는 고차원 특성 벡터를 생성하는 경향이 있습니다. 즉, 특성 벡터를 생성합니다. 고차원으로 인해 학습 비용이 증가하고 학습률이 높아집니다. 있습니다. 이러한 이유로 ML 전문가는 종종 인코더-디코더 아키텍처를 차원의 크기를 마음대로 줄일 수 있습니다.

자연어 데이터의 경우 차원을 줄이는 주요 방법은 임베딩 벡터로 변환할 수 있습니다. 이 내용은 임베딩 모듈의 뒷부분에서 이 과정에서 살펴봤습니다