Os modelos de machine learning só podem ser treinados com valores de ponto flutuante. No entanto, muitos elementos do conjunto de dados não são valores de ponto flutuante de forma natural. Portanto, uma parte importante do aprendizado de máquina é transformar atributos que não são de ponto flutuante em representações de ponto flutuante.
Por exemplo, suponha que street names
seja um recurso. A maioria dos nomes de ruas
são strings, como "Broadway" ou "Vilakazi".
O modelo não pode ser treinado em "Broadway", então você precisa transformar "Broadway"
em um número de ponto flutuante. O módulo de dados categóricos explica como fazer isso.
Além disso, é necessário transformar a maioria dos recursos de ponto flutuante. Esse processo de transformação, chamado de normalização, converte números de ponto flutuante em um intervalo restrito que melhora o treinamento do modelo. O módulo de dados numéricos explica como fazer isso.
Fazer amostragem de dados quando há muitos deles
Algumas organizações têm uma abundância de dados. Quando o conjunto de dados contém muitos exemplos, é necessário selecionar um subconjunto de exemplos para treinamento. Sempre que possível, selecione o subconjunto mais relevante para as previsões do modelo.
Exemplos de filtros que contêm PII
Bons conjuntos de dados omitem exemplos que contêm informações de identificação pessoal (PII). Essa política ajuda a proteger a privacidade, mas pode influenciar o modelo.
Consulte o módulo "Segurança e privacidade" mais adiante no curso para saber mais sobre esses tópicos.