Dados categóricos: problemas comuns

Os dados numéricos geralmente são registrados por instrumentos científicos ou medições automatizadas. Os dados categóricos, por outro lado, são frequentemente categorizadas por seres humanos ou por modelos de machine learning (ML). Quem decide sobre categorias e rótulos, e como eles tomam essas decisões, afeta a confiabilidade e a utilidade desses dados.

Avaliadores humanos

Os dados rotulados manualmente por seres humanos geralmente são chamados de rótulos ouro, e são considerados mais desejáveis do que dados rotulados por máquina para modelos de treinamento, devido à qualidade dos dados relativamente melhor.

Isso não significa necessariamente que qualquer conjunto de dados rotulados por humanos seja de alto de qualidade. Erros humanos, viés e malícia podem ser introduzidos no ponto. da coleta de dados ou durante a limpeza e o processamento deles. Procure por eles antes do treinamento.

Duas pessoas podem rotular o mesmo exemplo de maneira diferente. A diferença entre avaliadores humanos decisões é chamado entre avaliadores em um contrato. Você pode ter uma noção da variação nos avaliadores de opiniões usando vários avaliadores, por exemplo, e medir a concordância entre eles.

Avaliadores de máquinas

Dados rotulados por máquina, em que as categorias são determinadas automaticamente por um ou mais modelos de classificação, é frequentemente chamado de rótulos de prata. A qualidade dos dados rotulados por máquina varia muito. Confira não apenas a precisão e vieses, mas também por violações do bom senso, da realidade e da intenção. Para Por exemplo, se um modelo de visão computacional rotula incorretamente uma foto de um chihuahua como muffin, ou de um muffin no formato de um chihuahua, os modelos treinados nesses dados rotulados ser de qualidade inferior.

Da mesma forma, um analisador de sentimento pontua palavras neutras como -0,25, quando 0,0 é o valor neutro, pode estar pontuando todas as palavras com um viés negativo adicional que não está realmente presente nos dados. Um detector de toxicidade supersensível pode sinalizar incorretamente várias declarações neutras como tóxicas. Tente ter uma noção do e os vieses dos rótulos e anotações de máquina nos dados antes o treinamento sobre isso.

Alta dimensionalidade

Os dados categóricos tendem a produzir vetores de atributo de alta dimensão. ou seja, vetores de atributo com um grande número de elementos. A alta dimensionalidade aumenta os custos de treinamento e torna o treinamento mais difícil. Por esses motivos, os especialistas em ML muitas vezes buscam maneiras de reduzir o número das dimensões antes do treinamento.

Para dados em linguagem natural, o principal método de redução de dimensionalidade é para converter vetores de atributo em vetores de embedding. Isso é discutido nas Módulo Incorporações, mais adiante neste curso.