Conjuntos de datos: conjuntos de datos desequilibrados

Considera un conjunto de datos que contenga una etiqueta categórica cuyo valor sea uno de los siguientes: Positiva o Negativa. En un conjunto de datos equilibrado, la cantidad de positivos y las etiquetas negativas son casi iguales. Sin embargo, si una etiqueta es más común que la otra etiqueta, el conjunto de datos se desequilibrado. La etiqueta predominante en un conjunto de datos desequilibrado se denomina clase mayor; la etiqueta menos común se llama clase minoritaria.

La siguiente tabla proporciona nombres y rangos generalmente aceptados para diferentes grados de desequilibrio:

Porcentaje de datos que pertenecen a la clase minoritaria Grado de desequilibrio
20-40% del conjunto de datos Leve
Del 1 al 20% del conjunto de datos Moderado
<1% del conjunto de datos Extremo

Por ejemplo, considera un conjunto de datos de detección de virus en el que la clase minoritaria representa el 0.5% del conjunto de datos y la clase mayoritaria representa el 99.5%. Los conjuntos de datos extremadamente desequilibrados como este son comunes la mayoría de las personas no tendrán el virus.

Figura 5: Gráfico de barras con dos barras. Una barra exhibe alrededor de 200
            clases negativas; la otra barra muestra 1 clase positiva.
Figura 5: Conjunto de datos extremadamente desequilibrado.

 

Los conjuntos de datos desequilibrados a veces no contienen suficiente clase minoritaria. para entrenar un modelo de forma apropiada. Es decir, con tan pocas etiquetas positivas, el modelo se entrena casi exclusivamente con las etiquetas negativas y no podemos aprender lo suficiente sobre las etiquetas positivas. Por ejemplo: si el tamaño del lote es 50, muchos lotes no contendrán etiquetas positivas.

A menudo, especialmente para levemente desequilibrados y algunos moderadamente desequilibrados conjuntos de datos, el desequilibrio no es un problema. Por lo tanto, primero debes intentar entrenar con el conjunto de datos original. Si el modelo funciona bien, no necesitas hacer nada más. Si no es así, al menos el modelo subóptimo brinda una buena modelo de referencia para experimentos futuros. Luego, puedes probar las siguientes técnicas para superar problemas causados por el desequilibrio de los conjuntos de datos.

Reducción de muestreo y aumento de peso

Una forma de controlar un conjunto de datos desequilibrados es reducir el muestreo y aumentar el peso del mayoritaria. A continuación, presentamos las definiciones de esos dos términos nuevos:

  • Reducción de muestreo (en este contexto) implica capacitarse en un subconjunto desproporcionadamente bajo de la clase mayoritaria, ejemplos.
  • Subir ponderación significa agregar un de muestra a la clase de reducción de muestreo igual al factor por el que se con reducción de muestreo.

Paso 1: Reduce el muestreo de la clase mayoritaria. Ten en cuenta que conjunto de datos de virus que tiene una proporción de 1 etiqueta positiva por cada 200 negativos con etiquetas de recursos. Submuestreo por un factor de 20 mejora el equilibrio de 1 positivo a 10 negativos (10%). Si bien el que el conjunto de entrenamiento resultante sigue moderadamente desequilibrado, la proporción de de positivos a negativos es mucho mejor que el original extremadamente desequilibrado. proporción (0,5%).

Figura 6: Gráfico de barras con dos barras. Una barra muestra 20 palabras clave negativas
            clases; la otra barra muestra 1 clase positiva.
Figura 6. Reducción de muestreo.

 

Paso 2: Aumenta el peso de la clase con reducción de muestreo: Agrega un ejemplo. los pesos a la clase de reducción de muestreo. Después de realizar una reducción de muestreo por un factor de 20, el peso del ejemplo debería ser 20. (Sí, esto puede parecer contradictorio, pero explicar por qué más adelante).

Figura 7: Diagrama de dos pasos de reducción de muestreo y aumento de peso.
            Paso 1: La reducción de muestreo extrae ejemplos aleatorios de la mayoría
            clase. Paso 2: El aumento de peso agrega peso al submuestreo
            ejemplos.
Figura 7: Aumento de los pesos

 

El término peso no se refiere a los parámetros del modelo (como w1 o w2). Aquí, peso se refiere a Ponderaciones de ejemplo, lo que aumenta la importancia de un ejemplo individual durante el entrenamiento. Un peso de ejemplo de 10 significa que el modelo trata el ejemplo como 10 veces más importante (al calcular la pérdida) que un ejemplo de Peso 1.

El peso debe ser igual al factor que usaste para realizar una reducción de muestreo:

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

Puede parecer extraño agregar pesos de ejemplo después de la reducción de muestreo. Después de todo, eres tratar de hacer que el modelo mejore a la clase minoritaria, entonces, ¿por qué aumentar mayoritaria? De hecho, subir de peso a la clase mayoritaria suele reducir sesgo de predicción. Es decir, el aumento de peso después de la reducción de muestreo tiende a reducir el delta entre de las predicciones de tu modelo y el promedio de las etiquetas de tu conjunto de datos.

Proporción de rebalanceo

¿Cuánto deberías reducir y aumentar el peso para rebalancear tu conjunto de datos? Para determinar la respuesta, debe experimentar con la proporción de rebalanceo tal como lo harías con otras hiperparámetros. Dicho esto, la respuesta en última instancia depende de los siguientes factores:

  • El tamaño del lote
  • La proporción de desequilibrio
  • La cantidad de ejemplos en el conjunto de entrenamiento

Lo ideal sería que cada lote contenga varios ejemplos de clases minoritarias. Los lotes que no contengan suficientes clases minoritarias se entrenarán muy mal. El tamaño del lote debe ser varias veces mayor que la proporción de desequilibrio. Por ejemplo, si la proporción de desequilibrio es 100:1, entonces el tamaño del lote debería ser de al menos 500.

Ejercicio: Comprueba tus conocimientos

Ten en cuenta la siguiente situación:

  • El tamaño del lote es 128.
  • La proporción de desequilibrio es de 100:1.
  • El conjunto de entrenamiento contiene mil millones de ejemplos.
¿Cuáles de las siguientes afirmaciones son verdaderas?
Aumentar el tamaño del lote a 1,024 mejorará el resultado un modelo de responsabilidad compartida.
Con un tamaño de lote de 1,024, cada lote tendrá un promedio de 10 de clase minoritaria, lo que debería ser suficiente para el entrenamiento. Sin la reducción de muestreo, el conjunto de entrenamiento contiene uno mil millones de ejemplos.
Reducción de muestreo (y aumento de peso) a 20:1 mientras se mantiene el tamaño del lote en 128 mejorará el modelo resultante.
Cada lote tendrá un promedio de 9 ejemplos de clases minoritarias, que deberían ser suficiente para el entrenamiento. La reducción de muestreo reduce eficazmente la cantidad de ejemplos en el conjunto de entrenamiento de mil millones a 40 millones.
La situación actual está bien.
La mayoría de los lotes no contendrá suficientes clases minoritarias para entrenar un un modelo de responsabilidad compartida.