Reducción de la pérdida: Un enfoque iterativo

En el módulo anterior, se presentó el concepto de pérdida. Aquí, aprenderás cómo un modelo de aprendizaje automático reduce la pérdida de forma iterativa.

Es posible que el aprendizaje iterativo te recuerde el juego infantil en el que los niños fríos y calientes se usan para encontrar un objeto oculto, como un dedal. En este juego, el "objeto oculto" es el mejor modelo posible. Comenzarás con una suposición ("El valor de \(w_1\) es 0") y esperarás a que el sistema te diga cuál es la pérdida. Luego, intentarás otra suposición ("El valor de \(w_1\) es 0.5") para ver cuál es la pérdida. Ah, te estás calentando. En realidad, si juegas bien a este juego, por lo general, estarás más cerca. El verdadero truco del juego es tratar de encontrar el mejor modelo posible de la manera más eficiente posible.

En la siguiente figura, se sugiere el proceso iterativo de prueba y error que usan los algoritmos de aprendizaje automático para entrenar un modelo:

El ciclo de pasar de atributos y etiquetas a modelos y predicciones.

Figura 1: Un enfoque iterativo para entrenar un modelo.

Usaremos este mismo enfoque iterativo durante todo el Curso intensivo de aprendizaje automático y detallaremos diversas complicaciones, particularmente dentro de la tormentosa nube etiquetada como “Modelo (función de predicción)”. Las estrategias iterativas prevalecen en el aprendizaje automático, principalmente porque se ajustan muy bien a los conjuntos de datos grandes.

El “modelo” toma uno o más atributos como entrada y muestra una predicción como resultado. Para simplificarlo, considera un modelo que tome un atributo (\(x_1\)) y muestre una predicción (\(y'\)):

$$ y' = b + w_1x_1 $$

¿Qué valores iniciales deberíamos establecer para \(b\)y \(w_1\)? Para los problemas de regresión lineal, resulta que los valores iniciales no son importantes. Podríamos elegir valores aleatorios, pero tomaremos los siguientes valores triviales en su lugar:

  • \(b\) = 0
  • \(w_1\) = 0

Supongamos que el primer valor del atributo es 10. Conectar el valor de ese atributo a la función de predicción produce lo siguiente:

$$ y' = 0 + 0 \cdot 10 = 0 $$

La parte de “Calcular pérdida” del diagrama es la función de pérdida que usará el modelo. Supongamos que usamos la función de pérdida al cuadrado. La función de pérdida incorpora dos valores de entrada:

  • \(y'\): La predicción del modelo para los atributos x
  • \(y\): Es la etiqueta correcta correspondiente a los atributos x.

Por último, llegamos a la parte "Actualizar parámetros" del diagrama. Aquí, el sistema de aprendizaje automático examina el valor de la función de pérdida y genera valores nuevos para \(b\) y \(w_1\). Por ahora, solo debes suponer que este cuadro misterioso crea valores nuevos y, luego, el sistema de aprendizaje automático vuelve a evaluar todos esos atributos con todas esas etiquetas, lo que produce un nuevo valor para la función de pérdida, que genera valores de parámetros nuevos. El aprendizaje continúa iterando hasta que el algoritmo descubre los parámetros del modelo con la pérdida más baja posible. Por lo general, iteras hasta que la pérdida general deja de cambiar o, al menos, cambia muy lentamente. Cuando eso sucede, decimos que el modelo ha convergido.