Conjuntos de dados: rótulos

Esta seção se concentra nos rótulos.

Rótulos diretos versus proxy

Considere dois tipos diferentes de rótulos:

  • Rótulos diretos, que são idênticos à previsão do seu modelo. está tentando fazer. Ou seja, a previsão que o modelo está tentando fazer é exatamente como uma coluna no conjunto de dados. Por exemplo, uma coluna chamada bicycle owner seria um rótulo direto para uma modelo de classificação binária que prevê se uma pessoa tem ou não uma bicicleta.
  • Rótulos de proxy, que são semelhantes, mas ou não é idêntica à previsão que o modelo está tentando fazer. Por exemplo, uma pessoa assina a revista bicicleta Bizarra provavelmente tem uma bicicleta, mas não definitivamente.

Os marcadores diretos geralmente são melhores do que os marcadores de proxy. Se o conjunto de dados fornece um possível rótulo direto, você provavelmente deve usá-lo. Muitas vezes, porém, os marcadores diretos não estão disponíveis.

Rótulos de proxy são sempre um comprometimento, uma aproximação imperfeita dos um marcador direto. No entanto, alguns rótulos de proxy estão próximos o suficiente úteis. Modelos que usam rótulos de proxy são tão úteis quanto o entre o rótulo de proxy e a previsão.

Lembre-se de que cada rótulo precisa ser representado como um número de ponto flutuante no vetor de recurso (porque o machine learning é, fundamentalmente, um enorme amágamo de operações operações). Às vezes, existe um rótulo direto, mas não pode ser facilmente representado como um número de ponto flutuante no vetor do atributo. Nesse caso, use um rótulo de proxy.

Exercício: testar seu conhecimento

Sua empresa quer fazer o seguinte:

Cupons de correspondência ("Troque sua bicicleta antiga por 15% de desconto em uma bicicleta nova") para proprietários de bicicletas.

Portanto, seu modelo precisa fazer o seguinte:

Prever quais pessoas têm uma bicicleta.

Infelizmente, o conjunto de dados não contém uma coluna chamada bike owner. No entanto, o conjunto de dados contém uma coluna chamada recently bought a bicycle.

recently bought a bicycle é um bom marcador de proxy ou um rótulo de proxy ruim para esse modelo?
Rótulo de proxy "Bom"
A coluna recently bought a bicycle é uma rótulo de proxy relativamente bom. Afinal, a maioria das pessoas que compram bicicletas agora as têm. No entanto, como todas rótulos de proxy, mesmo os muito bons, recently bought a bicycle é imperfeito. Afinal, a pessoa que está comprando um item nem sempre é a pessoa que está usando (ou possuindo) esse item. Por exemplo, as pessoas às vezes compram bicicletas para presentear.
Rótulo de proxy ruim
Como todos os marcadores de proxy, recently bought a bicycle é imperfeita (algumas bicicletas são compradas como presentes e dadas outros). No entanto, recently bought a bicycle é ainda é um indicador relativamente bom de que alguém tem bicicleta.

Dados gerados por humanos

Alguns dados são gerados por humanos. ou seja, um ou mais humanos examinam algumas e fornecem um valor, geralmente para o rótulo. Por exemplo: um ou mais meteorologistas poderiam examinar fotos do céu e identificar tipos de nuvem.

Como alternativa, alguns dados são gerados automaticamente. Ou seja, software (possivelmente outro modelo de machine learning) determina o valor. Por exemplo, de machine learning pode examinar imagens do céu e identificar automaticamente tipos de nuvem.

Nesta seção, exploramos as vantagens e desvantagens dos dados gerados por humanos.

Vantagens

  • Os avaliadores humanos podem realizar uma ampla gama de tarefas que até mesmo sofisticados para os modelos de machine learning.
  • O processo força o proprietário do conjunto de dados a desenvolver e manter a consistência dos critérios.

Desvantagens

  • Normalmente, você paga avaliadores humanos, então os dados gerados por humanos podem ser caros.
  • Errar é humano. Portanto, vários avaliadores humanos podem precisar avaliar os mesmos dados.

Pense nestas perguntas para determinar suas necessidades:

  • Qual é o nível de habilidade dos seus avaliadores? Por exemplo, se os avaliadores sabe um idioma específico? Você precisa de linguistas para diálogos ou PLN? aplicativos?)
  • De quantos exemplos rotulados você precisa? Para quando você precisa deles?
  • Qual é seu orçamento?

Sempre verifique novamente seus avaliadores humanos. Por exemplo, rotular 1.000 exemplos e conferir como seus resultados se comparam aos de outros avaliadores resultados. Se houver discrepâncias, não presuma que suas classificações estão corretas. especialmente se houver um julgamento de valor envolvido. Se os avaliadores humanos introduzirem erros, considere adicionar instruções para ajudá-los e tente novamente.

.