As perguntas a seguir ajudam a solidificar seu entendimento dos conceitos principais de ML.
Poder de previsão
Os modelos de ML supervisionados são treinados usando conjuntos de dados com exemplos rotulados. O modelo aprende a prever o rótulo com base nos atributos. No entanto, nem todo atributo
em um conjunto de dados tem poder preditivo. Em alguns casos, apenas alguns atributos funcionam como preditores do rótulo. No conjunto de dados abaixo, use o preço como o rótulo
e as colunas restantes como os atributos.
Quais são os três atributos que você acha que são os melhores preditores do preço de um carro?
Make_model, ano, milhas.
A marca/modelo, o ano e a quilometragem de um carro provavelmente estão entre os indicadores mais fortes de seu preço.
Cor, altura, make_model.
A altura e a cor de um carro não são indicadores fortes do preço de um carro.
Milhas, caixa de câmbio, make_model.
A caixa de câmbio não é um indicador principal de preço.
Tamanho do pneu, distância entre rodas, ano.
O tamanho do pneu e a base da roda não são indicadores fortes do preço de um carro.
Aprendizado supervisionado e não supervisionado
Com base no problema, você vai usar uma abordagem supervisionada ou não.
Por exemplo, se você souber de antemão o valor ou a categoria que quer prever, use o aprendizado supervisionado. No entanto, se você quiser saber se o conjunto de dados contém segmentações ou agrupamentos de exemplos relacionados, use o aprendizado não supervisionado.
Suponha que você tenha um conjunto de dados de usuários de um site de compras on-line que contenha as seguintes colunas:
Se quisesse entender os tipos de usuários que visitam o site, você usaria aprendizado supervisionado ou não supervisionado?
Aprendizado não supervisionado.
Como queremos que o modelo agrupe grupos de clientes relacionados,
usaríamos o aprendizado não supervisionado. Depois que o modelo agrupou os usuários, criaríamos os próprios nomes para cada cluster, por exemplo, "buscadores de descontos", "caçadores de ofertas", "surfistas", "leais" e "viajantes".
Aprendizado supervisionado porque quero prever a que classe
um usuário pertence.
No aprendizado supervisionado, o conjunto de dados precisa conter o rótulo que você está tentando prever. No conjunto de dados, não há rótulo que se refira a uma categoria de usuário.
Suponha que você tenha um conjunto de dados de uso de energia para casas com as seguintes colunas:
Que tipo de ML você usaria para prever os quilowatts-hora usados por ano para uma casa recém-construída?
Aprendizado supervisionado.
O aprendizado supervisionado é treinado com exemplos rotulados. Nesse conjunto de dados, "quilowatt-horas usadas por ano" seria o rótulo, porque é o valor que você quer que o modelo preveja. Os atributos seriam "metro quadrado", "local" e "ano de construção".
Aprendizado não supervisionado.
O aprendizado não supervisionado usa exemplos não rotulados. Nesse exemplo, "quilowatt-horas usadas por ano" seria o rótulo, porque esse é o valor que você quer que o modelo preveja.
Suponha que você tenha um conjunto de dados de voos com as seguintes colunas:
Se você quisesse prever o custo de uma passagem de ônibus, usaria regressão ou classificação?
Regressão
A saída de um modelo de regressão é um valor numérico.
Classificação
A saída de um modelo de classificação é um valor discreto, normalmente uma palavra. Nesse caso, o custo da passagem de ônibus é um valor numérico.
Com base no conjunto de dados, é possível treinar um modelo de classificação para classificar o custo de uma passagem de ônibus como "alto", "médio" ou "baixo"?
Sim, mas primeiro precisaríamos converter os valores numéricos na coluna
coach_ticket_cost
em valores categóricos.
É possível criar um modelo de classificação com base no conjunto de dados.
Faça o seguinte:
- Encontre o custo médio de uma passagem do aeroporto de partida para o de destino.
- Determine os limites que constituem "alto", "médio" e "baixo".
- Compare o custo previsto com os limites e gere a
categoria em que o valor se enquadra.
Não é possível criar um modelo de classificação. Os valores coach_ticket_cost
são numéricos e não categóricos.
Com um pouco de trabalho, você vai conseguir criar um modelo de classificação.
Não. Os modelos de classificação só preveem duas categorias, como spam
ou not_spam
. Esse modelo precisaria prever
três categorias.
Os modelos de classificação podem prever várias categorias. Eles são
chamados de modelos de classificação multiclasse.
Treinamento e avaliação
Depois de treinarmos um modelo, nós o avaliamos usando um conjunto de dados com exemplos rotulados e comparamos o valor previsto do modelo com o valor real do rótulo.
Selecione as duas melhores respostas para a pergunta.
Se as previsões do modelo estão muito distantes, o que você pode fazer para aprimorá-las?
Treine novamente o modelo, mas use apenas os atributos que você acredita terem o poder preditivo mais forte para o rótulo.
Treinar novamente o modelo com menos atributos, mas que tem mais poder de previsão, pode produzir um modelo que faz previsões melhores.
Não é possível corrigir um modelo com previsões muito distantes.
É possível corrigir modelos com previsões incorretas. A maioria dos modelos requer várias rodadas de treinamento até fazer previsões úteis.
Treine o modelo novamente usando um conjunto de dados maior e mais diversificado.
Modelos treinados em conjuntos de dados com mais exemplos e um intervalo maior de valores podem produzir previsões melhores porque o modelo tem uma solução mais generalizada para a relação entre os atributos e o rótulo.
Tente uma abordagem de treinamento diferente. Por exemplo, se você usou uma abordagem supervisionada, escolha uma não supervisionada.
Uma abordagem de treinamento diferente não produziria previsões melhores.
Agora está tudo pronto para você avançar na sua jornada de ML:
People + AI Guidebook (em inglês). Se você está em busca de um conjunto de métodos, práticas recomendadas e exemplos apresentados por Googlers, especialistas do setor e pesquisas acadêmicas para usar ML.
Definição do problema. Se você estiver procurando uma abordagem testada para criar modelos de ML e evitar armadilhas comuns.
Curso intensivo de machine learning Se estiver tudo pronto para uma abordagem
profunda e prática para aprender mais sobre ML.