Esta lição se concentra nas perguntas que você deve fazer sobre seus dados
e modelos em sistemas de produção.
Todos os recursos são úteis?
Monitore continuamente seu modelo para remover atributos que contribuam
pouca ou nada à capacidade preditiva do modelo. Se os dados de entrada
mudanças repentinas, o comportamento do modelo também pode
mudanças indesejáveis.
Considere também a seguinte pergunta relacionada:
- A utilidade do recurso justifica o custo de incluí-lo?
É sempre tentador adicionar mais atributos ao modelo. Por exemplo:
suponha que você encontrou um novo atributo cuja adição faz as previsões do seu modelo
um pouco melhor. Previsões um pouco melhores certamente parecem melhores do que
previsões um pouco piores; No entanto, o recurso extra complementa
para reduzir a carga de manutenção.
Sua fonte de dados é confiável?
Algumas perguntas a serem feitas sobre a confiabilidade dos dados de entrada:
- O sinal sempre vai estar disponível ou vem de um
não confiável? Exemplo:
- O sinal vem de um servidor que falha sob carga pesada?
- O sinal vem de pessoas que saem de férias em agosto?
- O sistema que calcula os dados de entrada do seu modelo muda? Nesse caso:
- Com que frequência?
- Como você vai saber quando esse sistema for alterado?
Considere criar sua própria cópia dos dados que você recebe da
processo upstream. Depois, só avance para a próxima versão do upstream
dados quando tiver certeza de que é seguro fazê-lo.
Seu modelo faz parte de um ciclo de feedback?
Às vezes, um modelo pode afetar os próprios dados de treinamento. Por exemplo, o
os resultados de alguns modelos, por sua vez, tornam-se (direta ou indiretamente) entradas
para o mesmo modelo.
Às vezes, um modelo pode afetar outro. Por exemplo, considere duas
modelos para prever preços de ações:
- Modelo A, que é um modelo preditivo ruim.
- Modelo B.
Como o Modelo A tem um bug, ele decide por engano comprar ações do estoque X.
Essas compras elevam o preço do estoque X. O modelo B usa o preço
do estoque X como um atributo de entrada, de modo que o modelo B possa chegar a alguns falsos
conclusões sobre o valor das ações X. Assim, o modelo B poderia
comprar ou vender ações do Estoque X com base no comportamento de bug do Modelo A.
O comportamento do Modelo B, por sua vez, pode afetar o modelo A, possivelmente desencadeando
tulip mania ou um slide in
Ações da empresa X.
Exercício: testar seu conhecimento
Quais são os três modelos a seguir suscetíveis a
um ciclo de feedback?
Um modelo de previsão de tráfego que prevê congestionamentos em saídas de rodovias
perto da praia, usando o número de pessoas na praia como uma das características.
É provável que alguns banhistas baseiem seus planos no trânsito
a previsão Se houver um grande número de pessoas na praia e a previsão de tráfego for de
pesado, muitas pessoas podem
fazer planos alternativos. Isso pode deprimir a praia
, o que resulta em uma previsão de tráfego mais leve, o que pode
aumentar a participação e o ciclo se repete.
Um modelo de recomendação de livros que sugere romances que os usuários podem gostar
com base na popularidade (ou seja, o número de vezes que os livros foram
comprado).
As recomendações de livros provavelmente impulsionarão as compras, e essas
vendas adicionais
serão retornados ao modelo como entrada,
aumentando a probabilidade de recomendar esses mesmos livros
futuro.
Um modelo de classificação universitária que classifica as escolas em parte pelo
Seletividade: a porcentagem de alunos que se candidataram
é permitido.
As classificações do modelo podem gerar mais interesse para
escolas, aumentando o número de candidaturas que elas recebem. Se essas
as escolas continuarem a admitir o mesmo número de alunos, a seletividade
aumentar (a porcentagem de alunos admitidos diminuirá). Isso
impulsionará as escolas as classificações, o que aumentará ainda mais
o interesse de um possível estudante e assim por diante.
Um modelo de resultados eleitorais que prevê o vencedor de uma
corrida para prefeito pesquisando 2% dos eleitores após o fechamento das urnas.
Se o modelo não publicar a previsão até que as enquetes tenham
fechado, não é possível que as previsões afetem o eleitor
do seu modelo.
Um modelo de valor de imóveis que prevê preços de casas usando
tamanho (área em metros quadrados), número de quartos e localização geográfica
como atributos.
Não é possível mudar rapidamente a localização de uma casa,
tamanho ou número de quartos em resposta a previsões de preços,
tornando improvável um ciclo de feedback. No entanto, é possível
uma correlação entre tamanho e número de quartos (casas maiores
e provavelmente terão mais cômodos) que talvez precisem ser separados.
Um modelo de atributos faciais que detecta se uma pessoa está sorrindo
em uma foto, que é regularmente treinada em um banco de dados de banco de fotos
que é atualizado automaticamente todo mês.
Não há ciclo de feedback aqui, porque as previsões do modelo não têm
qualquer impacto no banco de dados de fotos. No entanto, o controle de versões da entrada
é uma preocupação, pois essas atualizações mensais podem potencialmente
causar efeitos imprevistos no modelo.