Dados categóricos: problemas comuns

Os dados numéricos geralmente são registrados por instrumentos científicos ou medições automatizadas. Os dados categóricos, por outro lado, geralmente são categorizados por seres humanos ou por modelos de machine learning (ML). Quem decide sobre categorias e rótulos e como eles tomam essas decisões afetam a confiabilidade e a utilidade desses dados.

Avaliadores humanos

Os dados rotulados manualmente por seres humanos geralmente são chamados de rótulos de ouro e são considerados mais desejáveis do que os dados rotulados por máquina para treinamento de modelos, devido à qualidade relativamente melhor dos dados.

Isso não significa necessariamente que qualquer conjunto de dados rotulados por humanos seja de alta qualidade. Erros humanos, vieses e malícia podem ser introduzidos na coleta de dados ou durante a limpeza e o processamento de dados. Verifique se há antes do treinamento.

Duas pessoas podem rotular o mesmo exemplo de maneira diferente. A diferença entre as decisões dos avaliadores humanos é chamada de acordo entre avaliadores. Você pode ter uma noção da variação nas opiniões dos avaliadores usando vários avaliadores por exemplo e medindo a concordância entre eles.

Avaliadores de máquinas

Os dados rotulados por máquina, em que as categorias são determinadas automaticamente por um ou mais modelos de classificação, geralmente são chamados de rótulos prata. A qualidade dos dados rotulados por máquina varia muito. Verifique não apenas a precisão e os vieses, mas também as violações do senso comum, da realidade e da intenção. Por exemplo, se um modelo de visão computacional rotular incorretamente uma foto de um chihuahua como um muffin, ou uma foto de um muffin como um chihuahua, os modelos treinados com esses dados rotulados serão de qualidade inferior.

Da mesma forma, um analisador de sentimentos que marca palavras neutras como -0,25, quando 0,0 é o valor neutro, pode pontuar todas as palavras com um viés negativo extra que não está realmente presente nos dados. Um detector de toxicidade supersensível pode sinalizar erroneamente muitas declarações neutras como tóxicas. Tente ter uma ideia da qualidade e dos vieses dos rótulos e anotações da máquina nos seus dados antes de fazer o treinamento.

Alta dimensionalidade

Os dados categóricos tendem a produzir vetores de recursos de alta dimensão, ou seja, vetores de recursos com um grande número de elementos. A alta dimensionalidade aumenta os custos de treinamento e dificulta o treinamento. Por esses motivos, os especialistas em ML geralmente procuram maneiras de reduzir o número de dimensões antes do treinamento.

Para dados de linguagem natural, o principal método de redução de dimensionalidade é converter vetores de recursos em vetores de embedding. Isso será abordado no módulo de incorporação mais adiante neste curso.