Como trabalhar com dados categóricos

Os dados categóricos têm uma conjunto específico de valores possíveis. Exemplo:

  • As diferentes espécies de animais em um parque nacional
  • Os nomes das ruas de uma determinada cidade
  • Se um e-mail é ou não spam
  • As cores que o exterior das casas são pintados
  • Números agrupados, que são descritos na seção Como trabalhar com dados Data

Os números também podem ser dados categóricos

Dados numéricos verdadeiros podem ser multiplicadas de modo significativo. Por exemplo, considere um que prevê o valor de uma casa com base na área dela. Um modelo útil para avaliar preços de imóveis normalmente depende centenas de atributos. Dito isso, com todo o resto sendo igual, uma casa de 200 m2 metros deve ser aproximadamente duas vezes mais valioso do que uma casa idêntica com 100 metros quadrados metros.

Muitas vezes, você deve representar atributos que contenham valores inteiros como dados categóricos em vez de numéricos. Por exemplo, considere um atributo de código em que os valores são números inteiros. Se você representa esse de modo numérico, em vez de categórico, pede ao modelo para encontrar uma relação numérica entre códigos postais diferentes. Ou seja, você está dizendo ao modelo para considerar o código postal 20004 como duas vezes (ou metade) um sinal grande como o código postal 10002 Representar códigos postais como dados categóricos permite que o modelo ponderar cada código postal separadamente.

Codificação

Codificação significa converter dados categóricos ou outros dados em vetores numéricos em que um modelo pode ser treinado. Essa conversão é necessária porque os modelos podem Treinar somente em valores de ponto flutuante. os modelos não podem ser treinados com strings como "dog" ou "maple". Este módulo explica diferentes e de codificação de tipos de dados para dados categóricos.