Aprendizado supervisionado
Confira as opções abaixo.
Imagine que você queira desenvolver um modelo de machine learning supervisionado para prever
se um determinado e-mail é "spam" ou "não é spam." Quais das seguintes afirmações são verdadeiras?
E-mails não marcados como "spam" ou "não é spam" são exemplos não rotulados.
Como nosso marcador consiste nos valores "spam" e "não é spam"
qualquer e-mail que ainda não esteja marcado como spam ou não é spam é um
exemplo sem marcador.
As palavras no cabeçalho do assunto terão boas etiquetas.
As palavras no cabeçalho do assunto podem criar recursos excelentes, mas
não serão boas etiquetas.
Usaremos exemplos sem rótulos para treinar o modelo.
Usaremos exemplos rotulados para treinar o modelo. Em seguida,
podemos executar o modelo treinado em exemplos não rotulados para inferir
se as mensagens de e-mail sem marcador são spam ou não.
Os rótulos aplicados a alguns exemplos podem não ser confiáveis.
Certamente. É importante verificar se os dados são confiáveis. Os rótulos do conjunto de dados provavelmente são de usuários de e-mail que marcam mensagens de e-mail específicas como spam. Como
a maioria dos usuários não marca todas as mensagens de e-mail suspeitas como spam, podemos ter
problemas para saber se um e-mail é spam. Além disso,
os criadores de spam podem intencionalmente envenenar nosso modelo enviando rótulos
com defeito.
Recursos e identificadores
Confira as opções abaixo.
Imagine que uma loja de sapatos on-line queira criar um modelo de ML supervisionado que fornecerá recomendações personalizadas de calçados aos usuários. Ou seja,
o modelo recomendará determinados pares de sapatos para Marty e
diferentes pares de sapatos para Janet. O sistema vai usar dados de comportamento do usuário
anteriores para gerar dados de treinamento. Quais das seguintes afirmações são verdadeiras?
"Tamanho do calçado" é uma característica útil.
"Tamanho do calçado" é um sinal quantificável que provavelmente tem
um forte impacto sobre se o usuário gostará dos sapatos
recomendados. Por exemplo, se Marty usar o tamanho 9, o modelo não poderá
recomendar calçados tamanho 7.
"Beleza" é um recurso útil.
Bons atributos são concretos e quantificáveis.
Beleza é um conceito muito vago para servir como um recurso útil.
A beleza é uma mistura de certos recursos concretos,
como estilo e cor. O estilo e a cor seriam
recursos melhores do que a beleza.
"O usuário clicou na descrição do calçado" é um marcador útil.
Os usuários provavelmente querem apenas ler mais sobre os calçados de que
gostam. Portanto, os cliques por usuários são uma métrica observável e quantificável que pode servir como um bom rótulo de treinamento. Como nossos dados de treinamento são derivados do comportamento anterior do usuário, nossos rótulos precisam derivar de comportamentos objetivos, como cliques que se correlacionam fortemente às preferências do usuário.
"Calçados que um usuário adora" é uma etiqueta útil.
A adoração não é uma métrica observável e quantificável. O melhor que podemos
fazer é pesquisar métricas de proxy observáveis para adoração.