Preparação de dados

Esta seção analisa as etapas de preparação de dados mais relevantes para o clustering do Como trabalhar com dados numéricos no curso intensivo de machine learning.

No clustering, você calcula a semelhança entre dois exemplos combinando todos os dados de atributos desses exemplos em um valor numérico. Isso exige que atributos tenham a mesma escala, o que pode ser alcançado por meio da normalização, transformação ou criação de quantis. Se você quer transformar sem inspecionar a distribuição, use os quantis como padrão.

Normalização de dados

Para transformar dados de vários atributos na mesma escala, normalize dos dados.

Pontuações Z

Sempre que você vir um conjunto de dados com a forma aproximada Distribuição gaussiana, calcule as pontuação-z para os dados. Os pontos Z são o número de desvios padrão de um valor do falo. Você também pode usar pontuação-z quando o conjunto de dados não for grande o suficiente para quantis.

Consulte Escalonamento do Z-score para revisar as etapas.

Aqui está uma visualização de dois atributos de um conjunto de dados antes e depois escala Z-score:

Dois gráficos comparando dados de atributos antes e depois da normalização
Figura 1: uma comparação dos dados de atributos antes e depois da normalização.

No conjunto de dados não normalizado à esquerda, Atributo 1 e Atributo 2, respectivamente representados nos eixos X e Y, não têm a mesma escala. No(s) dia(s) à esquerda, o exemplo vermelho parece mais próximo, ou mais semelhante, do azul do que do amarelo. À direita, depois de o escalonamento z-score, o atributo 1 e o atributo 2 têm a mesma escala, e o vermelho mais próximo ao amarelo. O conjunto de dados normalizado fornece medida mais precisa da semelhança entre os pontos.

Transformações de registro

Quando um conjunto de dados está perfeitamente em conformidade com um distribuição da lei de potência, em que os dados estiver muito agrupada com os valores mais baixos, use uma transformação de registro. Consulte Escalonamento de registros para revisar as etapas.

Esta é uma visualização de um conjunto de dados de leis de potências antes e depois de uma transformação de registro:

Gráfico de barras com a maioria dos dados na extremidade inferior
Figura 2: uma distribuição da lei de potência.
Gráfico mostrando uma distribuição normal (gaussiana)
Figura 3: uma transformação de registro da Figura 2.

Antes do dimensionamento de log (Figura 2), o exemplo vermelho parece mais semelhante ao amarelo. Após o dimensionamento de registro (Figura 3), o vermelho parece mais semelhante ao azul.

Quantis

Agrupar os dados em quantis funciona bem quando o conjunto de dados não está em conformidade a uma distribuição conhecida. Considere este conjunto de dados, por exemplo:

Um gráfico que mostra uma distribuição de dados antes de qualquer pré-processamento
Figura 4: uma distribuição não categorizada antes de qualquer pré-processamento.

Intuitivamente, dois exemplos são mais semelhantes se apenas alguns exemplos estiverem entre independentemente dos valores, e mais diferentes se houver muitos exemplos ficam entre eles. A visualização acima dificulta ver o total número de exemplos que ficam entre vermelho e amarelo ou entre vermelho e azul.

Esse entendimento de similaridade pode ser demonstrado ao dividir o conjunto de dados em quantis ou intervalos que contêm o mesmo número de exemplos, e atribuindo o índice de quantil a cada exemplo. Consulte Agrupamento por classes de quantis para revisar as etapas.

Aqui está a distribuição anterior dividida em quantis, mostrando que o vermelho é a um quantil do amarelo e três quantis do azul:

Um gráfico mostrando os dados depois da conversão
  em quantis. A linha representa 20 intervalos.]
Figura 5: a distribuição na Figura 4 após a conversão em 20 quantis.

Você pode escolher quantos \(n\) quantis quiser. No entanto, para os quantis representar os dados subjacentes de modo significativo, seu conjunto de dados deve ter pelo menos \(10n\) exemplos. Se você não tiver dados suficientes, normalize.

Teste seu conhecimento

Para as perguntas a seguir, suponha que você tem dados suficientes para criar quantis.

Pergunta um

Um gráfico exibindo três distribuições de dados
Como você deve processar a distribuição de dados mostrada nos gráfico?
Criar quantis.
Correto. Como a distribuição não corresponde a a distribuição de dados padrão, o padrão é a criação de quantis.
Normalizar.
Normalmente, os dados são normalizados se:
  • A distribuição dos dados é gaussiana.
  • Você tem algumas informações sobre o que os dados representam no mundo real que sugere que os dados não devem ser transformados de forma não linear.
. Nenhum dos casos se aplica aqui. A distribuição de dados não é gaussiana porque não é simétrico. Você não sabe quais valores representam no mundo real.
Transformação de registro.
Essa não é uma distribuição perfeita de leis de poder, portanto, não use um registro transformam.

Pergunta dois

Um gráfico exibindo três distribuições de dados
Como você processaria essa distribuição de dados?
Normalizar.
Correto. Esta é uma distribuição gaussiana.
Criar quantis.
Incorreto. Como esta é uma distribuição gaussiana, o método transformação é a normalização.
Transformação de registro.
Incorreto. Só aplique uma transformação de registro a distribuições de lei de potência.

Dados ausentes

Se o conjunto de dados tem exemplos com valores ausentes para um determinado atributo, mas esses exemplos raramente ocorrem, você pode removê-los. Se esses exemplos ocorrem com frequência, você pode remover esse recurso completamente, Também é possível prever os valores que estão faltando em outros exemplos usando uma modelo de machine learning. Por exemplo, é possível imputar dados numéricos ausentes usando um modelo de regressão treinado com dados de atributos atuais.