Etapas para criar seu conjunto de dados
Para criar seu conjunto de dados (e antes de fazer a transformação de dados), você precisa:
- Colete os dados brutos.
- Identificar fontes de rótulos e recursos.
- Selecione uma estratégia de amostragem.
- dividir os dados;
Essas etapas dependem muito de como você enquadrau seu problema de ML. Use a autoverificação abaixo para atualizar sua memória sobre o enquadramento do problema e suas suposições sobre a coleta de dados.
Autoverificação de quadros de problemas e conceitos de coleta de dados
Para as seguintes perguntas, clique na seta para conferir sua resposta:
Você está em um novo projeto de machine learning, prestes a selecionar
seus primeiros recursos. Quantos atributos você deve escolher?
Escolha de um a três atributos que parecem ter um poder preditivo forte.
O melhor é que o pipeline de coleta de dados comece com apenas um ou
dois recursos. Isso ajudará a confirmar se o modelo de ML funciona conforme o esperado.
Além disso, ao criar um valor de referência com alguns recursos,
você se sentirá como se estivesse progredindo.
Escolha de quatro a seis atributos que parecem ter um poder preditivo forte.
Você pode usar tantos recursos depois, mas é melhor começar
com menos. Com menos recursos, geralmente há menos complicações
desnecessárias.
Escolha o máximo de atributos possível para observar quais
recursos têm o poder preditivo mais forte.
Comece devagar. Cada novo recurso adiciona uma nova dimensão ao conjunto de dados de treinamento. Quando a dimensionalidade aumenta, o volume do espaço aumenta tão rapidamente que os dados de treinamento disponíveis se tornam esparsos. Quanto mais esparsos forem seus dados, mais difícil vai para um modelo aprender a relação entre os atributos realmente importantes e o rótulo. Esse fenômeno
é chamado de "a maldição da dimensionalidade"."
Samuel está empolgado com os resultados iniciais da análise
estatística dele. Ele afirma que os dados mostram uma correlação positiva entre o
número de downloads de apps e o número de impressões de avaliações de apps. No entanto,
ele não tem certeza se o download teria sido feito de qualquer maneira sem ver
a avaliação. Qual resposta seria mais útil para Samuel?
Você pode realizar um experimento para comparar o comportamento dos usuários que
não viram a avaliação com usuários semelhantes.
correto. Se Samuel observar que os usuários que viram a avaliação positiva tinham mais chances de
fazer o download do app do que aqueles que fizeram o download, ele terá
evidências razoáveis para sugerir que a avaliação positiva está incentivando as pessoas a fazer o download do app.
Confiar nos dados. É claro que essa ótima avaliação é o motivo de os usuários
fazerem o download do app.
Incorreto. Essa resposta não levaria Sam à direção certa.
Não é possível determinar a causa apenas com dados observados. Samuel está vendo uma correlação (ou seja, uma dependência estatística entre os números) que pode ou não indicar a causa. Não permita que suas análises se juntem às classificações de correlações falsas.