os profissionais de ML passam muito mais tempo avaliando, limpando e transformando do que criar modelos. Os dados são tão importantes que este curso dedica três unidades inteiras ao tópico:
- Como trabalhar com dados numéricos (esta unidade)
- Como trabalhar com dados categóricos
- Conjuntos de dados, generalização e overfitting
O foco desta unidade é dados numéricos; ou seja, números inteiros ou valores de ponto flutuante que se comportam como números. Ou seja, eles são aditivos, contáveis, ordenados, e assim por diante. A próxima unidade aborda dados categóricos, que podem incluir números que se comportam como categorias. A terceira unidade se concentra em como preparar seus dados para garantir resultados de alta qualidade ao treinar e avaliar seu modelo.
Exemplos de dados numéricos incluem:
- Temperatura
- Peso
- O número de cervos passando o inverno em uma reserva natural
Por outro lado, os códigos postais dos EUA, sendo números de cinco ou nove dígitos, não se comportam como números nem representam relações matemáticas. O código postal 40004 (no Condado de Nelson, Kentucky) é não duas vezes a quantidade do código postal 20002 (em Washington, DC). Esses números representam categorias, especificamente áreas geográficas, e são consideradas dados categóricos.