Sistemas de ML de produção: perguntas a serem feitas

Esta lição se concentra nas perguntas que você precisa fazer sobre seus dados e modelo em sistemas de produção.

Cada recurso é útil?

Monitore seu modelo continuamente para remover recursos que contribuem pouco ou nada para a capacidade preditiva do modelo. Se os dados de entrada desse recurso mudarem abruptamente, o comportamento do modelo também poderá mudar de forma indesejada.

Considere também a seguinte pergunta relacionada:

  • A utilidade do recurso justifica o custo de incluí-lo?

É sempre tentador adicionar mais recursos ao modelo. Por exemplo, suponha que você encontre um novo recurso cuja adição melhore um pouco as previsões do modelo. Previsões um pouco melhores certamente parecem melhores do que previsões um pouco piores. No entanto, o recurso extra aumenta sua carga de manutenção.

Sua fonte de dados é confiável?

Algumas perguntas a se fazer sobre a confiabilidade dos dados de entrada:

  • O sinal vai estar sempre disponível ou vem de uma fonte não confiável? Exemplo:
    • O sinal está vindo de um servidor que falha com carga pesada?
    • O sinal vem de pessoas que saem de férias todo mês de agosto?
  • O sistema que calcula os dados de entrada do modelo muda? Se sim:
    • Com que frequência?
    • Como você vai saber quando esse sistema mudar?

Crie sua própria cópia dos dados recebidos do processo upstream. Em seguida, avance para a próxima versão dos dados upstream somente quando tiver certeza de que é seguro fazer isso.

O modelo faz parte de um ciclo de feedback?

Às vezes, um modelo pode afetar os próprios dados de treinamento. Por exemplo, os resultados de alguns modelos, por sua vez, se tornam (diretamente ou indiretamente) recursos de entrada para esse mesmo modelo.

Às vezes, um modelo pode afetar outro. Por exemplo, considere dois modelos para prever preços de ações:

  • Modelo A, que é um modelo preditivo ruim.
  • Modelo B.

Como o Modelo A tem bugs, ele decide comprar ações da Ação X por engano. Essas compras aumentam o preço da ação X. O Modelo B usa o preço da ação X como um recurso de entrada. Assim, ele pode chegar a algumas conclusões falsas sobre o valor da ação X. O Modelo B pode, portanto, comprar ou vender ações da Stock X com base no comportamento com bugs do Modelo A. O comportamento do Modelo B, por sua vez, pode afetar o Modelo A, possivelmente desencadeando uma mania da tulipa ou uma queda nas ações da Empresa X.

Exercício: testar seu conhecimento

Quais três dos modelos a seguir são suscetíveis a um ciclo de feedback?
Um modelo de previsão de tráfego que prevê congestionamentos em saídas de rodovias próximas à praia, usando o número de pessoas na praia como uma das características.
É provável que alguns banhistas baseiem seus planos na previsão do tráfego. Quando há um grande número de pessoas na praia e previsão de tráfego intenso, muitos podem fazer planos alternativos. Isso pode diminuir o fluxo de chegada às praias, resultando em uma previsão de tráfego menos intenso, o que pode aumentar o fluxo de pessoas, repetindo o ciclo.
Um modelo de recomendação de livros que sugere romances relevantes aos usuários com base na popularidade (ou seja, no número de vezes que os livros foram comprados).
As recomendações de livros provavelmente impulsionarão as compras, e essas vendas adicionais serão realimentadas no modelo como entrada, aumentando a probabilidade de recomendação desses mesmos livros no futuro.
Um modelo de classificação universitária que avalia as escolas, em parte, pela seletividade, ou seja, a porcentagem de estudantes que se candidataram e foram admitidos.
As classificações do modelo podem resultar em maior interesse nas escolas mais bem avaliadas, o que aumenta o número de candidaturas recebidas. Se essas escolas continuarem a admitir o mesmo número de estudantes, a seletividade vai aumentar (a porcentagem de estudantes admitidos vai diminuir). Isso vai impulsionar as classificações das escolas, o que aumentará ainda mais o interesse de futuros alunos e assim por diante.
Um modelo de resultados eleitorais que prevê o vencedor de uma disputa para prefeito pesquisando 2% dos eleitores após o fechamento das urnas.
Se o modelo não publicar a previsão antes do fechamento das urnas, as previsões não poderão afetar o comportamento dos eleitores.
Um modelo de valor de imóveis que prevê os preços das casas, usando como características o tamanho (área em metros quadrados), o número de quartos e a localização.
Não é possível mudar rapidamente a localização, o tamanho ou o número de quartos de uma casa em resposta às previsões de preços, o que torna improvável um ciclo de feedback. No entanto, há uma correlação provável entre o tamanho e o número de quartos (casas maiores podem ter mais quartos) que pode precisar de análise.
Um modelo de atributos faciais que detecta se uma pessoa está sorrindo em uma foto e é regularmente treinado em um banco de imagens atualizado automaticamente todos os meses.
Não há ciclo de feedback aqui, porque as previsões do modelo não têm nenhum impacto no banco de imagens. No entanto, o controle de versões dos dados de entrada é relevante, porque as atualizações mensais podem ter efeitos potencialmente imprevistos no modelo.