Sistemas de ML de produção: perguntas a serem feitas

Esta lição se concentra nas perguntas que você deve fazer sobre seus dados e modelos em sistemas de produção.

Todos os recursos são úteis?

Monitore continuamente seu modelo para remover atributos que contribuam pouca ou nada à capacidade preditiva do modelo. Se os dados de entrada mudanças repentinas, o comportamento do modelo também pode mudanças indesejáveis.

Considere também a seguinte pergunta relacionada:

  • A utilidade do recurso justifica o custo de incluí-lo?

É sempre tentador adicionar mais atributos ao modelo. Por exemplo: suponha que você encontrou um novo atributo cuja adição faz as previsões do seu modelo um pouco melhor. Previsões um pouco melhores certamente parecem melhores do que previsões um pouco piores; No entanto, o recurso extra complementa para reduzir a carga de manutenção.

Sua fonte de dados é confiável?

Algumas perguntas a serem feitas sobre a confiabilidade dos dados de entrada:

  • O sinal sempre vai estar disponível ou vem de um não confiável? Exemplo:
    • O sinal vem de um servidor que falha sob carga pesada?
    • O sinal vem de pessoas que saem de férias em agosto?
  • O sistema que calcula os dados de entrada do seu modelo muda? Nesse caso:
    • Com que frequência?
    • Como você vai saber quando esse sistema for alterado?

Considere criar sua própria cópia dos dados que você recebe da processo upstream. Depois, só avance para a próxima versão do upstream dados quando tiver certeza de que é seguro fazê-lo.

Seu modelo faz parte de um ciclo de feedback?

Às vezes, um modelo pode afetar os próprios dados de treinamento. Por exemplo, o os resultados de alguns modelos, por sua vez, tornam-se (direta ou indiretamente) entradas para o mesmo modelo.

Às vezes, um modelo pode afetar outro. Por exemplo, considere duas modelos para prever preços de ações:

  • Modelo A, que é um modelo preditivo ruim.
  • Modelo B.

Como o Modelo A tem um bug, ele decide por engano comprar ações do estoque X. Essas compras elevam o preço do estoque X. O modelo B usa o preço do estoque X como um atributo de entrada, de modo que o modelo B possa chegar a alguns falsos conclusões sobre o valor das ações X. Assim, o modelo B poderia comprar ou vender ações do Estoque X com base no comportamento de bug do Modelo A. O comportamento do Modelo B, por sua vez, pode afetar o modelo A, possivelmente desencadeando tulip mania ou um slide in Ações da empresa X.

Exercício: testar seu conhecimento

Quais são os três modelos a seguir suscetíveis a um ciclo de feedback?
Um modelo de previsão de tráfego que prevê congestionamentos em saídas de rodovias perto da praia, usando o número de pessoas na praia como uma das características.
É provável que alguns banhistas baseiem seus planos no trânsito a previsão Se houver um grande número de pessoas na praia e a previsão de tráfego for de pesado, muitas pessoas podem fazer planos alternativos. Isso pode deprimir a praia , o que resulta em uma previsão de tráfego mais leve, o que pode aumentar a participação e o ciclo se repete.
Um modelo de recomendação de livros que sugere romances que os usuários podem gostar com base na popularidade (ou seja, o número de vezes que os livros foram comprado).
As recomendações de livros provavelmente impulsionarão as compras, e essas vendas adicionais serão retornados ao modelo como entrada, aumentando a probabilidade de recomendar esses mesmos livros futuro.
Um modelo de classificação universitária que classifica as escolas em parte pelo Seletividade: a porcentagem de alunos que se candidataram é permitido.
As classificações do modelo podem gerar mais interesse para escolas, aumentando o número de candidaturas que elas recebem. Se essas as escolas continuarem a admitir o mesmo número de alunos, a seletividade aumentar (a porcentagem de alunos admitidos diminuirá). Isso impulsionará as escolas as classificações, o que aumentará ainda mais o interesse de um possível estudante e assim por diante.
Um modelo de resultados eleitorais que prevê o vencedor de uma corrida para prefeito pesquisando 2% dos eleitores após o fechamento das urnas.
Se o modelo não publicar a previsão até que as enquetes tenham fechado, não é possível que as previsões afetem o eleitor do seu modelo.
Um modelo de valor de imóveis que prevê preços de casas usando tamanho (área em metros quadrados), número de quartos e localização geográfica como atributos.
Não é possível mudar rapidamente a localização de uma casa, tamanho ou número de quartos em resposta a previsões de preços, tornando improvável um ciclo de feedback. No entanto, é possível uma correlação entre tamanho e número de quartos (casas maiores e provavelmente terão mais cômodos) que talvez precisem ser separados.
Um modelo de atributos faciais que detecta se uma pessoa está sorrindo em uma foto, que é regularmente treinada em um banco de dados de banco de fotos que é atualizado automaticamente todo mês.
Não há ciclo de feedback aqui, porque as previsões do modelo não têm qualquer impacto no banco de dados de fotos. No entanto, o controle de versões da entrada é uma preocupação, pois essas atualizações mensais podem potencialmente causar efeitos imprevistos no modelo.