Sobreajuste: Complejidad del modelo

La unidad anterior introdujo el siguiente modelo, que categorizaba mucho de árboles en el conjunto de prueba:

Figura 16. La misma imagen de la Figura 13. Se trata de una forma compleja que
            clasifica incorrectamente muchos árboles.
Figura 16: El modelo complejo de comportamiento incorrecto de la unidad anterior.

El modelo anterior contiene muchas formas complejas. ¿Un cambio más simple manejar mejor los datos nuevos? Supongamos que reemplazas el modelo complejo por un modelo absurdamente sencillo: una línea recta.

Figura 17. Un modelo en línea recta que hace un excelente trabajo
            los árboles enfermos de los sanos.
Figura 17: Un modelo mucho más sencillo.

El modelo simple generaliza mejor que el modelo complejo con datos nuevos. Es decir, el modelo simple hizo mejores predicciones con el conjunto de prueba que el complejo.

La simplicidad ha venido superando la complejidad durante mucho tiempo. De hecho, el la preferencia por la simplicidad se remonta a la antigua Grecia. Siglos después, un fraile del siglo XIV llamado Guillermo de Ockham formalizó la preferencia por la sencillez en una filosofía conocida como el navaja. Esta filosofía sigue siendo un principio subyacente esencial de muchas ciencias, como aprendizaje automático.

Ejercicios: Verifica tus conocimientos

Estás desarrollando una ecuación física. ¿Cuál de las siguientes fórmulas ajustarse más a la navaja de Ockham?
Fórmula con tres variables.
Tres variables son más compatibles con Ockham que doce variables.
Es una fórmula con doce variables.
Doce variables parecen demasiado complicadas, ¿no? Las dos fórmulas físicas más famosas de todos los tiempos (F=ma y E=mc2) cada uno involucra solo tres variables.
Estás en un proyecto de aprendizaje automático nuevo, a punto de seleccionar sus primeras funciones. ¿Cuántas funciones deberías elegir?
Elige de 1 a 3 funciones que parezcan tener un gran poder predictivo.
Lo mejor es que tu canalización de recopilación de datos comience con un solo dos funciones. Esto te ayudará a confirmar que el modelo de AA funciona según lo previsto. Además, cuando creas un modelo de referencia a partir de algunas funciones, sentirás que estás progresando.
Elige de 4 a 6 funciones que parezcan tener un gran poder predictivo.
Puede que, en algún momento, uses muchas funciones, pero aún es mejor comienzan con menos. Menos atributos suele significar menos complicaciones.
Elige tantas funciones como puedas para comenzar a observar cuáles atributos tienen el mayor poder predictivo.
Comienza más pequeño. Cada función nueva agrega una dimensión nueva a tu entrenamiento de tu conjunto de datos. Cuando la dimensionalidad aumenta, el volumen del espacio aumenta tan rápido que los datos de entrenamiento disponibles se dispersan. El más dispersos, más difícil es para un modelo aprender la relación entre los atributos que realmente importan y la etiqueta. Este fenómeno se llama "la maldición de la dimensionalidad".

Regularización

Los modelos de aprendizaje automático deben cumplir dos objetivos en conflicto:

  • Ajusta bien los datos.
  • Ajusta los datos de la manera más sencilla posible.

Un enfoque para mantener la simplicidad de un modelo es penalizar los modelos complejos. es decir, para hacer que el modelo sea más simple durante el entrenamiento. Complejo de penalización es una forma de regularización.

Pérdida y complejidad

Hasta ahora, en este curso se sugirió que el único objetivo de la capacitación minimizar la pérdida; es decir:

$$\text{minimize(loss)}$$

Como pudiste ver, los modelos enfocados únicamente en minimizar la pérdida tienden a sobreajustar. Un mejor algoritmo de optimización de entrenamiento minimiza alguna combinación de pérdida y complejidad:

$$\text{minimize(loss + complexity)}$$

Desafortunadamente, la pérdida y la complejidad suelen estar inversas. Como aumenta la complejidad y la pérdida disminuye. A medida que la complejidad disminuye, la pérdida aumenta. Debes encontrar un punto medio razonable en el que el modelo funcione bien predicciones con los datos de entrenamiento y con los del mundo real. Es decir, tu modelo debería encontrar un compromiso razonable entre la pérdida y la complejidad.

¿Qué es la complejidad?

Ya viste diferentes formas de cuantificar la pérdida. ¿Cómo y cuantificar la complejidad? Comienza tu exploración mediante el siguiente ejercicio:

Ejercicio: Evalúa tu intuición

Hasta ahora, hemos sido bastante poco claros acerca de qué complejidad es en realidad en la nube. ¿Cuál de las siguientes ideas crees que sería razonable? y las métricas de complejidad?
La complejidad es una función de los pesos del modelo.
Sí, esta es una forma de medir las capacidades y complejidad. Esta métrica se llama Regularización L1.
La complejidad es una función del cuadrado de los pesos del modelo.
Sí, puede medir la capacidad de algunos modelos complejidad de esta manera. Esta métrica se llama Regularización L2
La complejidad es una función de los sesgos de todos los atributos en un modelo de responsabilidad compartida.
El sesgo no mide la complejidad.