Dados numéricos: qualidades de bons atributos numéricos

Esta unidade explorou maneiras de mapear dados brutos em dados vetores de atributo. Bons recursos numéricos compartilham a qualidades descritas nesta seção.

Nome claro

Cada recurso deve ter um significado claro, sensível e óbvio para qualquer pessoa o projeto. Por exemplo, o significado do valor de atributo a seguir é confusa:

Não recomendado

house_age: 851472000

Por outro lado, o nome e o valor do atributo abaixo são muito mais claros:

Recomendado

house_age_years: 27

.

Verificado ou testado antes do treinamento

Embora este módulo tenha dedicado muito tempo outliers, o assunto é importante o suficiente para justificar uma última menção. Em alguns casos, dados ruins (em vez de escolhas ruins de engenharia) gera valores pouco claros. Por exemplo: o(a) user_age_in_years a seguir veio de uma fonte que não verificou valores adequados:

Não recomendado

user_age_in_years: 224

Mas as pessoas podem ter 24 anos:

Recomendado

user_age_in_years: 24 anos

Verifique seus dados

Sensível

Um "valor mágico" é uma descontinuidade proposital em um estado contínuo . Por exemplo, suponha que um atributo contínuo chamado watch_time_in_seconds pode conter qualquer valor de ponto flutuante entre 0 e 30, mas representa a ausência de uma medida com o valor mágico -1:

Não recomendado

tempo_de_exibição_em_segundos: -1

Um watch_time_in_seconds de -1 forçaria o modelo a tentar descobrir o que significa assistir a um filme de trás para frente no tempo. O modelo resultante provavelmente não farão boas previsões.

Uma técnica melhor é criar um atributo booleano separado que indique se é ou não um watch_time_in_seconds é fornecido. Exemplo:

Recomendado

tempo_de_exibição_em_segundos: 4,82
is_watch_time_in_seconds_defined=True

tempo_de_exibição_em_segundos: 0
is_watch_time_in_seconds_defined=False

Agora considere um discreto atributo numérico em que os valores devem pertencer a um conjunto finito de valores. Neste caso, quando um valor estiver ausente, significa que esse valor está ausente usando um novo valor no o conjunto finito. Com um atributo discreto, o modelo aprenderá pesos diferentes para cada valor, incluindo pesos originais para atributos ausentes.