O processo de preparação de dados e engenharia de atributos

Como é o processo?

Como mencionado anteriormente, este curso se concentra em construir o conjunto de dados e transformá-los.

A criação do conjunto de dados consiste nas seguintes tarefas: 1. Coletar dados brutos.  2. Identificar fontes de rótulos e recursos. 3. Selecione uma estratégia de amostragem.
4. dividir os dados; A transformação de dados consiste nas seguintes tarefas:
1. Explore e limpe seus dados. 2. fazer engenharia de atributos;

Lembre-se:

  • A figura mostra um processo normal, que pode não ser ideal para todos os projetos. Este curso se aplica principalmente a regressão linear e redes neurais.
  • O processo mostrado nem sempre é sequencial. É possível, por exemplo, dividir os dados depois de transformá-los. Talvez seja necessário coletar mais dados. Talvez seja necessário modificar o conjunto de atributos, mesmo após o início do treinamento, conforme você aprende empiricamente o que funciona e o que não funciona.

Quanto tempo leva?

Para a seguinte pergunta, clique na seta desejada para verificar sua resposta:

Adivinha essa: no seu projeto de machine learning, quanto tempo você normalmente passa com preparação e transformação de dados?
Mais da metade do tempo do projeto
Correto: você passará a maior parte do tempo em um projeto de machine learning que cria conjuntos de dados e transforma dados.
Menos da metade do tempo do projeto
Planeje mais! Normalmente, 80% do tempo em um projeto de machine learning é gasto na construção de conjuntos de dados e na transformação de dados.