Amostragem e divisão: teste para entender

Para as seguintes perguntas, clique na seta para conferir sua resposta:

Imagine que você tem um conjunto de dados com uma proporção de negativo de 1:1.000. Infelizmente, o modelo está sempre prevendo a classe majoritária. Qual técnica ajudaria você a lidar melhor com esse problema? Observe que você quer que o modelo informe uma probabilidade calibrada.
Reduza a amostra dos exemplos negativos.
Este é um bom começo, mas você alterará a taxa básica do modelo, para que ele não seja mais calibrado.
Fazer downgrade dos exemplos negativos (a classe de maioria). Em seguida, aumente o peso da classe amostrada pelo mesmo fator.
Essa é uma maneira eficaz de lidar com dados desequilibrados e ainda conseguir a distribuição real de rótulos. Observe se você se importa se o modelo informa uma probabilidade calibrada ou não. Se ela não precisar ser calibrada, você não precisará se preocupar em alterar a taxa básica.
Quais técnicas perdem dados da cauda de um conjunto de dados? Marque todas as opções válidas.
Filtragem de PIIs
Filtrar PII dos seus dados pode remover informações da cauda, distorcendo a distribuição.
Ponderação
A ponderação de exemplos muda a importância de diferentes exemplos, mas não perde informações. Na verdade, adicionar peso aos exemplos de cauda pode ajudar seu modelo a aprender o comportamento da cauda.
Amostragem
A cauda de distribuições de atributos perderá informações na redução da amostragem. No entanto, como geralmente fazemos uma amostra reduzida da classe majoritária, essa perda geralmente não é um grande problema.
Normalização
A normalização funciona em exemplos individuais, por isso não causa viés de amostragem.
Você está trabalhando em um problema de classificação e dividiu aleatoriamente os dados em conjuntos de treinamento, avaliação e teste. Parece que o classificador está funcionando perfeitamente. Mas na produção, o classificador é uma falha total. Mais tarde, você descobrirá que o problema foi causado pela divisão aleatória. Que tipos de dados são suscetíveis a esse problema?
Dados de série temporal
Essa divisão divide cada cluster na divisão de teste/treinamento, fornecendo uma "pré-lançamento" para o modelo que não estará disponível na produção.
Dados que não mudam muito com o tempo
Se os dados não mudarem muito com o tempo, você terá chances melhores com uma divisão aleatória. Por exemplo, é possível identificar a raça de cachorro em fotos ou prever pacientes em risco de defeito cardíaco com base em dados biométricos anteriores. Em ambos os casos, os dados geralmente não mudam com o tempo, portanto, a divisão aleatória não causa um problema.
Agrupamentos de dados
O conjunto de teste será sempre muito semelhante ao conjunto de treinamento porque clusters de dados semelhantes estão nos dois conjuntos. O modelo terá um poder preditivo melhor do que ele.
Dados com burst (que chegam em bursts intermitentes, e não em um fluxo contínuo)
Clusters de dados semelhantes (os bursts) serão exibidos em treinamentos e testes. O modelo fará previsões melhores em testes do que com dados novos.