Conjuntos de dados: rótulos

Esta seção se concentra nos rótulos.

Rótulos diretos e indiretos

Considere dois tipos diferentes de rótulos:

  • Rótulos diretos, que são idênticos à previsão que o modelo está tentando fazer. Ou seja, a previsão que seu modelo está tentando fazer está exatamente presente como uma coluna no conjunto de dados. Por exemplo, uma coluna chamada bicycle owner seria um rótulo direto para um modelo de classificação binária que prevê se uma pessoa tem ou não uma bicicleta.
  • Rótulos substitutos, que são semelhantes, mas não idênticos, à previsão que o modelo está tentando fazer. Por exemplo, uma pessoa que assina a revista Bicycle Bizarre provavelmente tem uma bicicleta, mas não é certeza.

Os rótulos diretos geralmente são melhores do que os indiretos. Se o conjunto de dados fornecer um rótulo direto possível, use-o. No entanto, muitas vezes, os rótulos diretos não estão disponíveis.

Os rótulos de proxy são sempre um compromisso, uma aproximação imperfeita de um rótulo direto. No entanto, alguns rótulos de proxy são aproximações boas o suficiente para serem úteis. Os modelos que usam rótulos substitutos são tão úteis quanto a conexão entre o rótulo substituto e a previsão.

Lembre-se de que cada rótulo precisa ser representado como um número de ponto flutuante no vetor de atributos (porque o machine learning é fundamentalmente apenas uma enorme amálgama de operações matemáticas). Às vezes, um rótulo direto existe, mas não pode ser facilmente representado como um número de ponto flutuante no vetor de atributo. Nesse caso, use um rótulo de proxy.

Exercício: teste de conhecimentos

Sua empresa quer fazer o seguinte:

Envie cupons por e-mail ("Ganhe 15% de desconto em um capacete de bicicleta novo") para proprietários de bicicletas.

Portanto, seu modelo precisa fazer o seguinte:

Prever quais pessoas têm uma bicicleta.

Infelizmente, o conjunto de dados não tem uma coluna chamada bike owner. No entanto, o conjunto de dados tem uma coluna chamada recently bought a bicycle.

recently bought a bicycle seria um bom ou um mau rótulo substituto para esse modelo?
Boa rotulação indireta
A coluna recently bought a bicycle é um rótulo substituto relativamente bom. Afinal, a maioria das pessoas que compram bicicletas já tem uma. No entanto, como todos os rótulos substitutos, mesmo os muito bons, recently bought a bicycle é imperfeito. Afinal, nem sempre a pessoa que compra um item é a mesma que o usa ou possui. Por exemplo, às vezes as pessoas compram bicicletas como presente.
Rotulação indireta ruim
Como todos os rótulos de proxy, recently bought a bicycle é imperfeito (algumas bicicletas são compradas como presentes e dadas a outras pessoas). No entanto, recently bought a bicycle ainda é um indicador relativamente bom de que alguém tem uma bicicleta.

Dados gerados por humanos

Alguns dados são gerados por humanos. Ou seja, uma ou mais pessoas examinam algumas informações e fornecem um valor, geralmente para o rótulo. Por exemplo, um ou mais meteorologistas podem examinar fotos do céu e identificar tipos de nuvens.

Outra opção é usar dados gerados automaticamente. Ou seja, um software (possivelmente, outro modelo de machine learning) determina o valor. Por exemplo, um modelo de aprendizado de máquina pode analisar fotos do céu e identificar automaticamente os tipos de nuvens.

Esta seção aborda as vantagens e desvantagens dos dados gerados por humanos.

Vantagens

  • Os rotuladores humanos podem realizar uma ampla variedade de tarefas que até mesmo modelos sofisticados de aprendizado de máquina podem ter dificuldade.
  • O processo força o proprietário do conjunto de dados a desenvolver critérios claros e consistentes.

Desvantagens

  • Normalmente, você paga avaliadores humanos, então os dados gerados por humanos podem ser caros.
  • Errar é humano. Portanto, vários rotuladores humanos podem precisar avaliar os mesmos dados.

Pense nas seguintes perguntas para determinar suas necessidades:

  • Qual nível de habilidade os avaliadores precisam ter? Por exemplo, os avaliadores precisam saber um idioma específico? Você precisa de linguistas para aplicativos de diálogo ou PNL?
  • De quantos exemplos rotulados você precisa? Para quando você precisa deles?
  • Qual é seu orçamento?

Sempre confira os avaliadores humanos. Por exemplo, rotule 1.000 exemplos e veja como seus resultados correspondem aos de outros avaliadores. Se surgirem discrepâncias, não presuma que suas classificações estão corretas, principalmente se houver um julgamento de valor envolvido. Se os rotuladores humanos tiverem introduzido erros, adicione instruções para ajudar e tente de novo.