La unidad anterior introdujo el siguiente modelo, que categorizaba mucho
de árboles en el conjunto de prueba:
El modelo anterior contiene muchas formas complejas. ¿Un cambio más simple
manejar mejor los datos nuevos? Supongamos que reemplazas el modelo complejo por
un modelo absurdamente sencillo: una línea recta.
El modelo simple generaliza mejor que el modelo complejo con datos nuevos. Es decir,
el modelo simple hizo mejores predicciones
con el conjunto de prueba que el complejo.
La simplicidad ha venido superando la complejidad durante mucho tiempo. De hecho, el
la preferencia por la simplicidad se remonta a la antigua Grecia. Siglos después,
un fraile del siglo XIV llamado Guillermo de Ockham formalizó la preferencia
por la sencillez en una filosofía conocida como el
navaja. Esta filosofía
sigue siendo un principio subyacente esencial de muchas ciencias, como
aprendizaje automático.
Ejercicios: Verifica tus conocimientos
Estás desarrollando una ecuación física. ¿Cuál de las siguientes fórmulas
ajustarse más a la navaja de Ockham?
Fórmula con tres variables.
Tres variables son más compatibles con Ockham que doce variables.
Es una fórmula con doce variables.
Doce variables parecen demasiado complicadas, ¿no?
Las dos fórmulas físicas más famosas de todos los tiempos (F=ma y
E=mc2) cada uno involucra solo tres variables.
Estás en un proyecto de aprendizaje automático nuevo, a punto de seleccionar
sus primeras funciones. ¿Cuántas funciones deberías elegir?
Elige de 1 a 3 funciones que parezcan tener un gran poder predictivo.
Lo mejor es que tu canalización de recopilación de datos comience con un solo
dos funciones. Esto te ayudará a confirmar que el modelo de AA funciona según lo previsto.
Además, cuando creas un modelo de referencia a partir de algunas funciones,
sentirás que estás progresando.
Elige de 4 a 6 funciones que parezcan tener un gran poder predictivo.
Puede que, en algún momento, uses muchas funciones, pero aún es mejor
comienzan con menos. Menos atributos suele significar menos
complicaciones.
Elige tantas funciones como puedas para comenzar a observar cuáles
atributos tienen el mayor poder predictivo.
Comienza más pequeño. Cada función nueva agrega una dimensión nueva a tu entrenamiento
de tu conjunto de datos. Cuando la dimensionalidad aumenta, el volumen del espacio
aumenta tan rápido que los datos de entrenamiento disponibles se dispersan. El
más dispersos, más difícil es para un modelo aprender la relación
entre los atributos que realmente importan y la etiqueta. Este fenómeno
se llama "la maldición de la dimensionalidad".
Regularización
Los modelos de aprendizaje automático deben cumplir dos objetivos en conflicto:
Ajusta bien los datos.
Ajusta los datos de la manera más sencilla posible.
Un enfoque para mantener la simplicidad de un modelo es penalizar los modelos complejos. es decir,
para hacer que el modelo sea
más simple durante el entrenamiento. Complejo de penalización
es una forma de regularización.
Pérdida y complejidad
Hasta ahora, en este curso se sugirió que el único objetivo de la capacitación
minimizar la pérdida; es decir:
$$\text{minimize(loss)}$$
Como pudiste ver, los modelos enfocados únicamente en minimizar la pérdida tienden a sobreajustar.
Un mejor algoritmo de optimización de entrenamiento minimiza alguna combinación de
pérdida y complejidad:
$$\text{minimize(loss + complexity)}$$
Desafortunadamente, la pérdida y la complejidad suelen estar inversas. Como
aumenta la complejidad y la pérdida disminuye. A medida que la complejidad disminuye, la pérdida aumenta.
Debes encontrar un punto medio razonable en el que el modelo funcione bien
predicciones con los datos de entrenamiento
y con los del mundo real.
Es decir, tu modelo debería encontrar un compromiso razonable
entre la pérdida y la complejidad.
¿Qué es la complejidad?
Ya viste diferentes formas de cuantificar la pérdida. ¿Cómo
y cuantificar la complejidad? Comienza tu exploración mediante el siguiente ejercicio:
Ejercicio: Evalúa tu intuición
Hasta ahora, hemos sido bastante poco claros acerca de qué complejidad es en realidad
en la nube. ¿Cuál de las siguientes ideas crees que sería razonable?
y las métricas de complejidad?
La complejidad es una función de los pesos del modelo.
Sí, esta es una forma de medir las capacidades y complejidad.
Esta métrica se llama
Regularización L1.
La complejidad es una función del cuadrado de los pesos del modelo.
Sí, puede medir la capacidad de algunos modelos complejidad de esta manera. Esta métrica
se llama
Regularización L2
La complejidad es una función de los sesgos de todos los atributos en
un modelo de responsabilidad compartida.