Muestreo y división: Comprueba tu comprensión

En las siguientes preguntas, haz clic en la flecha deseada para verificar tu respuesta:

Imagina que tienes un conjunto de datos con una proporción positiva de 1:1000. Lamentablemente, tu modelo siempre predice la clase mayoritaria. ¿Qué técnica te ayudaría a resolver este problema? Ten en cuenta que deseas que el modelo informe una probabilidad calibrada.
Simplemente toma muestras de los ejemplos negativos.
Es un buen comienzo, pero modificarás la tarifa base del modelo para que ya no esté calibrado.
Tomar muestras de los ejemplos negativos (la clase mayoritaria) Luego, aumenta el peso de la clase con reducción de muestreo mediante el mismo factor.
Esta es una forma eficaz de lidiar con los datos desequilibrados y, aun así, obtener la distribución real de las etiquetas. Ten en cuenta que es importante si te importa si el modelo informa una probabilidad calibrada o no. Si no es necesario calibrarlo, no tienes que preocuparte por cambiar la tarifa base.
¿Qué técnicas pierden datos de la cola de un conjunto de datos? Marca todas las opciones que correspondan.
Filtrado de PII
Si filtras la PII de tus datos, se puede quitar información de la cola, lo que sesga la distribución.
Ponderación
La ponderación de ejemplo cambia la importancia de diferentes ejemplos, pero no pierde información. De hecho, agregar peso a los ejemplos de cola puede ayudar a tu modelo a aprender el comportamiento de la cola.
Remuestreo
La cola de las distribuciones de atributos perderá información en el submuestreo. Sin embargo, debido a que reducimos el muestreo de la clase mayoritaria, esta pérdida no suele ser un gran problema.
Normalización
La normalización opera en ejemplos individuales, por lo que no causa sesgos de muestreo.
Estás trabajando en un problema de clasificación y divides los datos de forma aleatoria en conjuntos de entrenamiento, evaluación y prueba. Parece que tu clasificador funciona correctamente. Sin embargo, en producción, el clasificador es una falla total. Más adelante, descubres que el problema se debe a la división aleatoria. ¿Qué tipos de datos son susceptibles a este problema?
Datos de series temporales
La división aleatoria divide cada clúster en la división de prueba/entrenamiento, lo que proporciona una “vista previa” al modelo que no estará disponible en producción.
Datos que no cambian mucho con el tiempo
Si tus datos no cambian mucho con el tiempo, tendrás mejores posibilidades con una división aleatoria. Por ejemplo, es posible que desees identificar la raza de perro en fotos o predecir pacientes en riesgo de sufrir defectos cardíacos según datos anteriores de datos biométricos. En ambos casos, los datos no suelen cambiar con el tiempo, por lo que la división aleatoria no debería causar ningún problema.
Agrupaciones de datos
El conjunto de prueba siempre será demasiado similar al conjunto de entrenamiento porque los clústeres de datos similares están en ambos conjuntos. El modelo parecerá tener un mejor poder de predicción que el que tiene.
Datos con picos de actividad (datos que llegan en picos de actividad intermitentes, en comparación con los de una transmisión continua)
Los clústeres de datos similares (los picos de actividad) se mostrarán en el entrenamiento y en las pruebas. El modelo realizará mejores predicciones durante las pruebas que con datos nuevos.