Esta lição se concentra nas perguntas que você precisa fazer sobre seus dados
e modelo em sistemas de produção.
Cada recurso é útil?
Monitore seu modelo continuamente para remover recursos que contribuem
pouco ou nada para a capacidade preditiva do modelo. Se os dados de entrada desse recurso mudarem abruptamente, o comportamento do modelo também poderá mudar de forma indesejada.
Considere também a seguinte pergunta relacionada:
- A utilidade do recurso justifica o custo de incluí-lo?
É sempre tentador adicionar mais recursos ao modelo. Por exemplo,
suponha que você encontre um novo recurso cuja adição melhore um pouco as previsões do modelo. Previsões um pouco melhores certamente parecem melhores do que
previsões um pouco piores. No entanto, o recurso extra aumenta sua
carga de manutenção.
Sua fonte de dados é confiável?
Algumas perguntas a se fazer sobre a confiabilidade dos dados de entrada:
- O sinal vai estar sempre disponível ou vem de uma
fonte não confiável? Exemplo:
- O sinal está vindo de um servidor que falha com carga pesada?
- O sinal vem de pessoas que saem de férias todo mês de agosto?
- O sistema que calcula os dados de entrada do modelo muda? Se sim:
- Com que frequência?
- Como você vai saber quando esse sistema mudar?
Crie sua própria cópia dos dados recebidos do
processo upstream. Em seguida, avance para a próxima versão dos dados
upstream somente quando tiver certeza de que é seguro fazer isso.
O modelo faz parte de um ciclo de feedback?
Às vezes, um modelo pode afetar os próprios dados de treinamento. Por exemplo, os
resultados de alguns modelos, por sua vez, se tornam (diretamente ou indiretamente) recursos
de entrada para esse mesmo modelo.
Às vezes, um modelo pode afetar outro. Por exemplo, considere dois
modelos para prever preços de ações:
- Modelo A, que é um modelo preditivo ruim.
- Modelo B.
Como o Modelo A tem bugs, ele decide comprar ações da Ação X por engano.
Essas compras aumentam o preço da ação X. O Modelo B usa o preço
da ação X como um recurso de entrada. Assim, ele pode chegar a algumas conclusões
falsas sobre o valor da ação X. O Modelo B pode, portanto,
comprar ou vender ações da Stock X com base no comportamento com bugs do Modelo A.
O comportamento do Modelo B, por sua vez, pode afetar o Modelo A, possivelmente desencadeando uma
mania da tulipa ou uma queda nas
ações da Empresa X.
Exercício: testar seu conhecimento
Quais três dos modelos a seguir são suscetíveis a um
ciclo de feedback?
Um modelo de previsão de tráfego que prevê congestionamentos em saídas de rodovias próximas à praia, usando o número de pessoas na praia como uma das características.
É provável que alguns banhistas baseiem seus planos na previsão do tráfego. Quando há um grande número de pessoas na praia e previsão de tráfego intenso, muitos podem fazer planos alternativos. Isso pode diminuir o fluxo de chegada às praias, resultando em uma previsão de tráfego menos intenso, o que pode aumentar o fluxo de pessoas, repetindo o ciclo.
Um modelo de recomendação de livros que sugere romances relevantes aos usuários com base na popularidade (ou seja, no número de vezes que os livros foram comprados).
As recomendações de livros provavelmente impulsionarão as compras, e essas
vendas adicionais serão realimentadas no modelo como entrada,
aumentando a probabilidade de recomendação desses mesmos livros no
futuro.
Um modelo de classificação universitária que avalia as escolas, em parte, pela
seletividade, ou seja, a porcentagem de estudantes que se candidataram e foram
admitidos.
As classificações do modelo podem resultar em maior interesse nas escolas mais bem avaliadas, o que aumenta o número de candidaturas recebidas. Se essas
escolas continuarem a admitir o mesmo número de estudantes, a seletividade vai
aumentar (a porcentagem de estudantes admitidos vai diminuir). Isso
vai impulsionar as classificações das escolas, o que aumentará ainda mais
o interesse de futuros alunos e assim por diante.
Um modelo de resultados eleitorais que prevê o vencedor de uma
disputa para prefeito pesquisando 2% dos eleitores após o fechamento das urnas.
Se o modelo não publicar a previsão antes do fechamento das urnas, as previsões não poderão afetar o comportamento dos eleitores.
Um modelo de valor de imóveis que prevê os preços das casas, usando como características o tamanho (área em metros quadrados), o número de quartos e a localização.
Não é possível mudar rapidamente a localização,
o tamanho ou o número de quartos de uma casa em resposta às previsões de preços,
o que torna improvável um ciclo de feedback. No entanto, há uma correlação provável
entre o tamanho e o número de quartos (casas maiores
podem ter mais quartos) que pode precisar de análise.
Um modelo de atributos faciais que detecta se uma pessoa está sorrindo
em uma foto e é regularmente treinado em um banco de imagens
atualizado automaticamente todos os meses.
Não há ciclo de feedback aqui, porque as previsões do modelo não têm
nenhum impacto no banco de imagens. No entanto, o controle de versões dos dados de entrada é relevante, porque as atualizações mensais podem ter efeitos potencialmente imprevistos no modelo.