Uma versão nova e aprimorada do curso intensivo de machine learning vai ser lançada em agosto de 2024. Não perca as novidades!

Esta página foi traduzida pela API Cloud Translation.

Enquadramento: verificar seu conhecimento

Aprendizado supervisionado

Confira as opções abaixo.

Imagine que você queira desenvolver um modelo de machine learning supervisionado para prever se um determinado e-mail é "spam" ou "não é spam." Quais das seguintes afirmações são verdadeiras?

E-mails não marcados como "spam" ou "não é spam" são exemplos não rotulados.

Como nosso marcador consiste nos valores "spam" e "não é spam" qualquer e-mail que ainda não esteja marcado como spam ou não é spam é um exemplo sem marcador.

As palavras no cabeçalho do assunto terão boas etiquetas.

As palavras no cabeçalho do assunto podem criar recursos excelentes, mas não serão boas etiquetas.

Usaremos exemplos sem rótulos para treinar o modelo.

Usaremos exemplos rotulados para treinar o modelo. Em seguida, podemos executar o modelo treinado em exemplos não rotulados para inferir se as mensagens de e-mail sem marcador são spam ou não.

Os rótulos aplicados a alguns exemplos podem não ser confiáveis.

Certamente. É importante verificar se os dados são confiáveis. Os rótulos do conjunto de dados provavelmente são de usuários de e-mail que marcam mensagens de e-mail específicas como spam. Como a maioria dos usuários não marca todas as mensagens de e-mail suspeitas como spam, podemos ter problemas para saber se um e-mail é spam. Além disso, os criadores de spam podem intencionalmente envenenar nosso modelo enviando rótulos com defeito.

Recursos e identificadores

Confira as opções abaixo.

Imagine que uma loja de sapatos on-line queira criar um modelo de ML supervisionado que fornecerá recomendações personalizadas de calçados aos usuários. Ou seja, o modelo recomendará determinados pares de sapatos para Marty e diferentes pares de sapatos para Janet. O sistema vai usar dados de comportamento do usuário anteriores para gerar dados de treinamento. Quais das seguintes afirmações são verdadeiras?

"Tamanho do calçado" é uma característica útil.

"Tamanho do calçado" é um sinal quantificável que provavelmente tem um forte impacto sobre se o usuário gostará dos sapatos recomendados. Por exemplo, se Marty usar o tamanho 9, o modelo não poderá recomendar calçados tamanho 7.

"Beleza" é um recurso útil.

Bons atributos são concretos e quantificáveis. Beleza é um conceito muito vago para servir como um recurso útil. A beleza é uma mistura de certos recursos concretos, como estilo e cor. O estilo e a cor seriam recursos melhores do que a beleza.

"O usuário clicou na descrição do calçado" é um marcador útil.

Os usuários provavelmente querem apenas ler mais sobre os calçados de que gostam. Portanto, os cliques por usuários são uma métrica observável e quantificável que pode servir como um bom rótulo de treinamento. Como nossos dados de treinamento são derivados do comportamento anterior do usuário, nossos rótulos precisam derivar de comportamentos objetivos, como cliques que se correlacionam fortemente às preferências do usuário.

"Calçados que um usuário adora" é uma etiqueta útil.

A adoração não é uma métrica observável e quantificável. O melhor que podemos fazer é pesquisar métricas de proxy observáveis para adoração.

Terminologia importante de ML

Apresentação sobre vídeos