O que é machine learning (supervisionado)? Em resumo, o seguinte é:
- Os sistemas de ML aprendem a combinar entradas para produzir previsões úteis sobre dados nunca vistos antes.
Vamos explorar a terminologia fundamental de machine learning.
Identificadores
Um marcador é o que estamos prevendo, a variável y
na
regressão linear simples. O rótulo pode ser o preço futuro
de trigo, o tipo de animal mostrado em uma imagem, o significado de
um clipe de áudio ou qualquer outro item.
Recursos
Um recurso é uma variável de entrada: a variável x
na regressão linear simples. Um projeto de machine learning simples pode usar um único recurso, enquanto um projeto de machine learning mais sofisticado pode usar milhões de atributos, especificados como:
\[\\{x_1, x_2, ... x_N\\}\]
No exemplo do detector de spam, os recursos podem incluir o seguinte:
- palavras no texto do e-mail
- endereço do remetente
- hora do dia em que o e-mail foi enviado
- o e-mail contém a frase "um truque estranho".
Exemplos
Um exemplo é uma instância específica de dados, x. Colocamos x em negrito para indicar que é um vetor. Dividimos os exemplos em duas categorias:
- exemplos rotulados
- exemplos sem rótulos
Um exemplo rotulado inclui os recursos e o rótulo. Ou seja:
labeled examples: {features, label}: (x, y)
Use exemplos rotulados para treinar o modelo. Em nosso exemplo do detector de spam, os exemplos rotulados seriam e-mails individuais que os usuários marcaram explicitamente como "quot;spam" ou "não é spam".
Por exemplo, a tabela a seguir mostra cinco exemplos rotulados de um conjunto de dados que contém informações sobre preços de imóveis na Califórnia:
habitMedianAge (recurso) |
totalRooms (recurso) |
totalBedrooms (recurso) |
medianHouseValue (rótulo) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
Um exemplo não rotulado contém recursos, mas não o rótulo. Ou seja:
unlabeled examples: {features, ?}: (x, ?)
Veja a seguir três exemplos não rotulados do mesmo conjunto de dados de imóveis,
que excluem medianHouseValue
:
habitMedianAge (recurso) |
totalRooms (recurso) |
totalBedrooms (recurso) |
---|---|---|
42 | 1686 | 361 |
34 | 1226 | 180 |
33 | 1077 | 271 |
Depois de treinarmos nosso modelo com exemplos rotulados, usamos esse modelo para prever o rótulo em exemplos não rotulados. No detector de spam, os exemplos não rotulados são novos e-mails que ainda não foram identificados por humanos.
Modelos
Um modelo define a relação entre os atributos e o rótulo. Por exemplo, um modelo de detecção de spam pode associar determinados recursos a "quot;spam"". Vamos destacar duas fases da vida de um modelo:
Treinamento significa criar ou aprender o modelo. Ou seja, você mostra exemplos do modelo rotulado e permite que o modelo aprenda gradativamente as relações entre os atributos e o rótulo.
Inferência significa aplicar o modelo treinado a exemplos não rotulados. Ou seja, use o modelo treinado para fazer previsões úteis (
y'
). Por exemplo, durante a inferência, é possível prevermedianHouseValue
para novos exemplos não rotulados.
regressão x classificação
Um modelo de regressão prevê valores contínuos. Por exemplo, os modelos de regressão fazem previsões que respondem a perguntas como as seguintes:
Qual é o valor de uma casa na Califórnia?
Qual é a probabilidade de um usuário clicar nesse anúncio?
Um modelo de classificação prevê valores discretos. Por exemplo, os modelos de classificação fazem previsões que respondem a perguntas como as seguintes:
Uma determinada mensagem de e-mail é spam ou não é spam?
Esta é uma imagem de um cachorro, um gato ou um hamster?