Os modelos de machine learning só podem ser treinados em valores de ponto flutuante. No entanto, muitos atributos de conjuntos de dados não são naturalmente valores de ponto flutuante. Portanto, uma parte importante do machine learning é transformar de atributos de ponto não flutuante a representações de ponto flutuante.
Por exemplo, suponha que street names
seja um recurso. A maioria dos nomes de rua
são strings, como "Broadway" ou "Vilakazi".
Não é possível treinar seu modelo na "Broadway", então você precisa transformar "Broadway"
a um número de ponto flutuante. Os dados categóricos
módulo
explica como fazer isso.
Além disso, você precisa até mesmo transformar a maioria dos atributos de ponto flutuante. Esse processo de transformação, chamado normalização, converte números de ponto flutuante em um intervalo restrito que melhora o treinamento do modelo. Os dados numéricos módulo explica como fazer isso.
Amostras de dados quando você tem muito
Algumas organizações são abençoadas com uma abundância de dados. Quando o conjunto de dados contém muitos exemplos, é necessário selecionar um subconjunto de exemplos para treinamento. Quando possível, selecione o subconjunto que é mais relevantes para as previsões do modelo.
Exemplos de filtros que contêm PII
Bons conjuntos de dados omitem exemplos que contêm informações de identificação pessoal (PII). Essa política ajuda a proteger a privacidade, mas pode influenciar o modelo.
Veja o módulo "Segurança e privacidade" mais adiante neste curso para saber mais sobre esses tópicos.