Esta seção analisa as etapas de preparação de dados mais relevantes para o clustering do Como trabalhar com dados numéricos no curso intensivo de machine learning.
No clustering, você calcula a semelhança entre dois exemplos combinando todos os dados de atributos desses exemplos em um valor numérico. Isso exige que atributos tenham a mesma escala, o que pode ser alcançado por meio da normalização, transformação ou criação de quantis. Se você quer transformar sem inspecionar a distribuição, use os quantis como padrão.
Normalização de dados
Para transformar dados de vários atributos na mesma escala, normalize dos dados.
Pontuações Z
Sempre que você vir um conjunto de dados com a forma aproximada Distribuição gaussiana, calcule as pontuação-z para os dados. Os pontos Z são o número de desvios padrão de um valor do falo. Você também pode usar pontuação-z quando o conjunto de dados não for grande o suficiente para quantis.
Consulte Escalonamento do Z-score para revisar as etapas.
Aqui está uma visualização de dois atributos de um conjunto de dados antes e depois escala Z-score:
No conjunto de dados não normalizado à esquerda, Atributo 1 e Atributo 2, respectivamente representados nos eixos X e Y, não têm a mesma escala. No(s) dia(s) à esquerda, o exemplo vermelho parece mais próximo, ou mais semelhante, do azul do que do amarelo. À direita, depois de o escalonamento z-score, o atributo 1 e o atributo 2 têm a mesma escala, e o vermelho mais próximo ao amarelo. O conjunto de dados normalizado fornece medida mais precisa da semelhança entre os pontos.
Transformações de registro
Quando um conjunto de dados está perfeitamente em conformidade com um distribuição da lei de potência, em que os dados estiver muito agrupada com os valores mais baixos, use uma transformação de registro. Consulte Escalonamento de registros para revisar as etapas.
Esta é uma visualização de um conjunto de dados de leis de potências antes e depois de uma transformação de registro:
Antes do dimensionamento de log (Figura 2), o exemplo vermelho parece mais semelhante ao amarelo. Após o dimensionamento de registro (Figura 3), o vermelho parece mais semelhante ao azul.
Quantis
Agrupar os dados em quantis funciona bem quando o conjunto de dados não está em conformidade a uma distribuição conhecida. Considere este conjunto de dados, por exemplo:
Intuitivamente, dois exemplos são mais semelhantes se apenas alguns exemplos estiverem entre independentemente dos valores, e mais diferentes se houver muitos exemplos ficam entre eles. A visualização acima dificulta ver o total número de exemplos que ficam entre vermelho e amarelo ou entre vermelho e azul.
Esse entendimento de similaridade pode ser demonstrado ao dividir o conjunto de dados em quantis ou intervalos que contêm o mesmo número de exemplos, e atribuindo o índice de quantil a cada exemplo. Consulte Agrupamento por classes de quantis para revisar as etapas.
Aqui está a distribuição anterior dividida em quantis, mostrando que o vermelho é a um quantil do amarelo e três quantis do azul:
Você pode escolher quantos \(n\) quantis quiser. No entanto, para os quantis representar os dados subjacentes de modo significativo, seu conjunto de dados deve ter pelo menos \(10n\) exemplos. Se você não tiver dados suficientes, normalize.
Teste seu conhecimento
Para as perguntas a seguir, suponha que você tem dados suficientes para criar quantis.
Pergunta um
- A distribuição dos dados é gaussiana.
- Você tem algumas informações sobre o que os dados representam no mundo real que sugere que os dados não devem ser transformados de forma não linear.
Pergunta dois
Dados ausentes
Se o conjunto de dados tem exemplos com valores ausentes para um determinado atributo, mas esses exemplos raramente ocorrem, você pode removê-los. Se esses exemplos ocorrem com frequência, você pode remover esse recurso completamente, Também é possível prever os valores que estão faltando em outros exemplos usando uma modelo de machine learning. Por exemplo, é possível imputar dados numéricos ausentes usando um modelo de regressão treinado com dados de atributos atuais.