Introdução à criação do conjunto de dados

Etapas para criar seu conjunto de dados

Para criar seu conjunto de dados (e antes de fazer a transformação de dados), você precisa:

Colete os dados brutos.
Identificar fontes de rótulos e recursos.
Selecione uma estratégia de amostragem.
dividir os dados;

Essas etapas dependem muito de como você enquadrau seu problema de ML. Use a autoverificação abaixo para atualizar sua memória sobre o enquadramento do problema e suas suposições sobre a coleta de dados.

Autoverificação de quadros de problemas e conceitos de coleta de dados

Para as seguintes perguntas, clique na seta para conferir sua resposta:

Você está em um novo projeto de machine learning, prestes a selecionar seus primeiros recursos. Quantos atributos você deve escolher?

Escolha de um a três atributos que parecem ter um poder preditivo forte.

O melhor é que o pipeline de coleta de dados comece com apenas um ou dois recursos. Isso ajudará a confirmar se o modelo de ML funciona conforme o esperado. Além disso, ao criar um valor de referência com alguns recursos, você se sentirá como se estivesse progredindo.

Escolha de quatro a seis atributos que parecem ter um poder preditivo forte.

Você pode usar tantos recursos depois, mas é melhor começar com menos. Com menos recursos, geralmente há menos complicações desnecessárias.

Escolha o máximo de atributos possível para observar quais recursos têm o poder preditivo mais forte.

Comece devagar. Cada novo recurso adiciona uma nova dimensão ao conjunto de dados de treinamento. Quando a dimensionalidade aumenta, o volume do espaço aumenta tão rapidamente que os dados de treinamento disponíveis se tornam esparsos. Quanto mais esparsos forem seus dados, mais difícil vai para um modelo aprender a relação entre os atributos realmente importantes e o rótulo. Esse fenômeno é chamado de "a maldição da dimensionalidade"."

Samuel está empolgado com os resultados iniciais da análise estatística dele. Ele afirma que os dados mostram uma correlação positiva entre o número de downloads de apps e o número de impressões de avaliações de apps. No entanto, ele não tem certeza se o download teria sido feito de qualquer maneira sem ver a avaliação. Qual resposta seria mais útil para Samuel?

Você pode realizar um experimento para comparar o comportamento dos usuários que não viram a avaliação com usuários semelhantes.

correto. Se Samuel observar que os usuários que viram a avaliação positiva tinham mais chances de fazer o download do app do que aqueles que fizeram o download, ele terá evidências razoáveis para sugerir que a avaliação positiva está incentivando as pessoas a fazer o download do app.

Confiar nos dados. É claro que essa ótima avaliação é o motivo de os usuários fazerem o download do app.

Incorreto. Essa resposta não levaria Sam à direção certa. Não é possível determinar a causa apenas com dados observados. Samuel está vendo uma correlação (ou seja, uma dependência estatística entre os números) que pode ou não indicar a causa. Não permita que suas análises se juntem às classificações de correlações falsas.

O processo

Tamanho e qualidade de um conjunto de dados