Uma versão nova e aprimorada do curso intensivo de machine learning vai ser lançada em agosto de 2024. Não perca as novidades!

Esta página foi traduzida pela API Cloud Translation.

Representação

Um modelo de machine learning não pode ver, ouvir nem detectar exemplos de entrada diretamente. Em vez disso, é necessário criar uma representação dos dados para fornecer ao modelo um ponto de vista útil sobre as principais qualidades dos dados. Ou seja, para treinar um modelo, você precisa escolher o conjunto de atributos que melhor representa os dados.

Representação

De dados brutos a atributos

A ideia é mapear cada parte do vetor à esquerda em um ou mais campos no vetor de recurso à direita.

Os dados brutos são mapeados para um vetor de atributo com um processo chamado engenharia de atributos.

De dados brutos a atributos

Exemplo de atributo que pode ser copiado diretamente dos dados brutos

De dados brutos a atributos

Exemplo de um elemento de string (nome da rua) que não pode ser copiado diretamente dos dados brutos

De dados brutos a atributos

O dicionário mapeia cada nome de rua para um int em {0, ...,V-1}.
Agora, represente o vetor one-hot acima como <i>

Propriedades de um bom atributo

Os valores de atributos precisam aparecer com um valor diferente de zero mais do que algumas vezes no conjunto de dados.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Propriedades de um bom atributo

Os atributos precisam ter um significado claro e óbvio.

user_age:23

user_age:123456789

Propriedades de um bom atributo

Os atributos não podem assumir valores "mágicos".

(use um recurso booleano adicional, como watch_time_is_datasets!)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

Propriedades de um bom atributo

A definição de um elemento não deve mudar com o tempo.

(Cuidado ao depender de outros sistemas de ML!)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

Propriedades de um bom atributo

A distribuição não pode ter outliers extremos

Idealmente, todos os atributos transformados em um intervalo semelhante, como (-1, 1) ou (0, 5).

Distribuição com valores atípicos e uma distribuição com um limite

O truque do agrupamento

Gráfico que mostra uma distribuição com uma curva de ajuste com base na localização

O truque do agrupamento

Criar vários agrupamentos booleanos, cada um mapeando para um novo atributo exclusivo
Permite que o modelo ajuste um valor diferente para cada agrupamento

Bons Hábitos

CONHEÇA SEUS DADOS

Visualizar: traçar histogramas, classificar da maior para a menos comum.
Depuração: exemplos duplicados? Valores ausentes? Valores atípicos? Os dados estão de acordo com os painéis? Os dados de treinamento e validação são parecidos?
Monitorar: quantis de atributos, número de exemplos ao longo do tempo?

Exercício de programação

Feature Engineering