Um modelo de machine learning não pode ver, ouvir nem detectar exemplos de entrada diretamente.
Em vez disso, é necessário criar uma representação dos dados para fornecer ao modelo
um ponto de vista útil sobre as principais qualidades dos dados. Ou seja, para treinar um modelo, você precisa escolher o conjunto de atributos que melhor representa os dados.
Representação
De dados brutos a atributos
A ideia é mapear cada parte do vetor à esquerda em um ou mais campos no vetor de recurso à direita.
De dados brutos a atributos
De dados brutos a atributos
De dados brutos a atributos
O dicionário mapeia cada nome de rua para um int em {0, ...,V-1}.
Agora, represente o vetor one-hot acima como <i>
Propriedades de um bom atributo
Os valores de atributos precisam aparecer com um valor diferente de zero mais do que algumas vezes no conjunto de dados.
my_device_id:8SK982ZZ1242Z
device_model:galaxy_s6
Propriedades de um bom atributo
Os atributos precisam ter um significado claro e óbvio.
user_age:23
user_age:123456789
Propriedades de um bom atributo
Os atributos não podem assumir valores "mágicos".
(use um recurso booleano adicional, como watch_time_is_datasets!)
watch_time: -1.0
watch_time: 1.023
watch_time_is_defined: 1.0
Propriedades de um bom atributo
A definição de um elemento não deve mudar com o tempo.
(Cuidado ao depender de outros sistemas de ML!)
city_id:"br/sao_paulo"
inferred_city_cluster_id:219
Propriedades de um bom atributo
A distribuição não pode ter outliers extremos
Idealmente, todos os atributos transformados em um intervalo semelhante, como (-1, 1) ou (0, 5).
O truque do agrupamento
O truque do agrupamento
Criar vários agrupamentos booleanos, cada um mapeando para um novo atributo exclusivo
Permite que o modelo ajuste um valor diferente para cada agrupamento
Bons Hábitos
CONHEÇA SEUS DADOS
Visualizar: traçar histogramas, classificar da maior para a menos comum.
Depuração: exemplos duplicados? Valores ausentes? Valores atípicos? Os dados estão de acordo com os painéis? Os dados de treinamento e validação são parecidos?
Monitorar: quantis de atributos, número de exemplos ao longo do tempo?