Esta unidade explorou maneiras de mapear dados brutos em dados vetores de atributo. Bons recursos numéricos compartilham a qualidades descritas nesta seção.
Nome claro
Cada recurso deve ter um significado claro, sensível e óbvio para qualquer pessoa o projeto. Por exemplo, o significado do valor de atributo a seguir é confusa:
Não recomendado
house_age: 851472000
Por outro lado, o nome e o valor do atributo abaixo são muito mais claros:
Recomendado
.house_age_years: 27
Verificado ou testado antes do treinamento
Embora este módulo tenha dedicado muito tempo
outliers, o assunto é
importante o suficiente para justificar
uma última menção. Em alguns casos, dados ruins
(em vez de escolhas ruins de engenharia) gera valores pouco claros. Por exemplo:
o(a) user_age_in_years
a seguir veio de uma fonte que não verificou
valores adequados:
Não recomendado
user_age_in_years: 224
Mas as pessoas podem ter 24 anos:
Recomendado
user_age_in_years: 24 anos
Verifique seus dados
Sensível
Um "valor mágico" é uma descontinuidade proposital em um estado contínuo
. Por exemplo, suponha que um atributo contínuo chamado watch_time_in_seconds
pode conter qualquer valor de ponto flutuante entre 0 e 30, mas representa a ausência
de uma medida com o valor mágico -1:
Não recomendado
tempo_de_exibição_em_segundos: -1
Um watch_time_in_seconds
de -1 forçaria o modelo a tentar descobrir
o que significa assistir a um filme de trás para frente no tempo. O modelo resultante
provavelmente não farão boas previsões.
Uma técnica melhor é criar um atributo booleano separado que indique
se é ou não um watch_time_in_seconds
é fornecido. Exemplo:
Recomendado
tempo_de_exibição_em_segundos: 4,82
is_watch_time_in_seconds_defined=Truetempo_de_exibição_em_segundos: 0
is_watch_time_in_seconds_defined=False
Agora considere um discreto atributo numérico em que os valores devem pertencer a um conjunto finito de valores. Neste caso, quando um valor estiver ausente, significa que esse valor está ausente usando um novo valor no o conjunto finito. Com um atributo discreto, o modelo aprenderá pesos diferentes para cada valor, incluindo pesos originais para atributos ausentes.