Esta página foi traduzida pela API Cloud Translation.

Conjuntos de dados: rótulos

Esta seção se concentra em rótulos.

Rótulos diretos e de proxy

Considere dois tipos diferentes de rótulos:

Rótulos diretos, que são rótulos idênticos à previsão que o modelo está tentando fazer. Ou seja, a previsão que o modelo está tentando fazer está presente exatamente como uma coluna no conjunto de dados. Por exemplo, uma coluna chamada bicycle owner seria um rótulo direto para um modelo de classificação binária que prevê se uma pessoa tem ou não uma bicicleta.
Rótulos de proxy, que são rótulos semelhantes, mas não idênticos, à previsão que o modelo está tentando fazer. Por exemplo, uma pessoa que assina a revista Bicycle Bizarre provavelmente tem uma bicicleta, mas não necessariamente.

Os rótulos diretos geralmente são melhores do que os rótulos de proxy. Se o conjunto de dados oferecer um possível rótulo direto, use-o. No entanto, muitas vezes, os rótulos diretos não estão disponíveis.

Os rótulos de proxy são sempre um compromisso, uma aproximação imperfeita de um rótulo direto. No entanto, alguns rótulos de proxy são aproximações próximas o suficiente para serem úteis. Os modelos que usam rótulos de proxy são úteis apenas se a conexão entre o rótulo de proxy e a previsão for boa.

Lembre-se de que cada rótulo precisa ser representado como um número de ponto flutuante no vetor de atributos porque o aprendizado de máquina é basicamente um grande amálgama de operações matemáticas. Às vezes, um rótulo direto existe, mas não pode ser representado facilmente como um número de ponto flutuante no vetor de atributos. Nesse caso, use um rótulo de proxy.

Exercício: testar seu conhecimento

Sua empresa quer fazer o seguinte:

Envie cupons por correio ("Troque sua bicicleta antiga por 15% de desconto em uma nova bicicleta") para os proprietários de bicicletas.

Portanto, seu modelo precisa fazer o seguinte:

Prever quais pessoas têm uma bicicleta.

Infelizmente, o conjunto de dados não contém uma coluna chamada bike owner. No entanto, o conjunto de dados contém uma coluna chamada recently bought a bicycle.

recently bought a bicycle seria um bom rótulo de proxy ou um rótulo de proxy ruim para esse modelo?

Rótulo de proxy bom

A coluna recently bought a bicycle é um rótulo de proxy relativamente bom. Afinal, a maioria das pessoas que compra bicicletas agora é proprietária delas. No entanto, como todos os rótulos de proxy, mesmo os muito bons,

recently bought a
            bicycle

não é perfeito. Afinal, a pessoa que compra um item nem sempre é a que o usa (ou que é proprietária dele). Por exemplo, às vezes as pessoas compram bicicletas como presente.

Rótulo de proxy ruim

Como todos os rótulos de proxy, recently bought a bicycle é imperfeito (algumas bicicletas são compradas como presentes e dadas a outras pessoas). No entanto, recently bought a bicycle ainda é um indicador relativamente bom de que alguém tem uma bicicleta.

Dados gerados por humanos

Alguns dados são gerados por humanos, ou seja, um ou mais humanos examinam algumas informações e fornecem um valor, geralmente para o rótulo. Por exemplo, um ou mais meteorologistas podem examinar imagens do céu e identificar tipos de nuvens.

Alguns dados são gerados automaticamente. Ou seja, o software (talvez outro modelo de aprendizado de máquina) determina o valor. Por exemplo, um modelo de aprendizado de máquina pode examinar imagens do céu e identificar automaticamente tipos de nuvens.

Esta seção aborda as vantagens e desvantagens dos dados gerados por humanos.

Vantagens

Os rotuladores humanos podem realizar uma ampla gama de tarefas que até mesmo modelos de aprendizado de máquina sofisticados podem achar difíceis.
O processo força o proprietário do conjunto de dados a desenvolver critérios claros e consistentes.

Desvantagens

Normalmente, você paga os avaliadores humanos, então os dados gerados por humanos podem ser caros.
Errar é humano. Portanto, vários avaliadores humanos podem ter que avaliar os mesmos dados.

Pense nas seguintes perguntas para determinar suas necessidades:

Qual é o nível de habilidade necessário para os avaliadores? Por exemplo, os avaliadores precisam conhecer um idioma específico? Você precisa de linguistas para diálogos ou aplicativos de PLNP?)
Quantos exemplos rotulados você precisa? Para quando você precisa deles?
Qual é seu orçamento?

Sempre confira novamente os avaliadores humanos. Por exemplo, rotule 1.000 exemplos por conta própria e confira como seus resultados correspondem aos de outros avaliadores. Se houver discrepâncias, não presuma que suas classificações estão corretas, principalmente se houver um julgamento de valor envolvido. Se os avaliadores humanos cometeram erros, adicione instruções para ajudar e tente de novo.

Clique no ícone de adição para saber mais sobre os dados gerados por humanos.

Analisar os dados manualmente é um bom exercício, independentemente de como você os obteve. Andrej Karpathy fez isso no ImageNet e escreveu sobre a experiência.

Os modelos podem ser treinados com uma combinação de rótulos automatizados e gerados por humanos. No entanto, para a maioria dos modelos, um conjunto extra de rótulos gerados por humanos (que podem ficar desatualizados) geralmente não vale a pena pela complexidade e manutenção extras. No entanto, às vezes, os rótulos gerados por humanos podem fornecer informações extras que não estão disponíveis nos rótulos automatizados.

Características dos dados (10 min)

conjuntos de dados desequilibrados (10 min)