Plongée dans le ML: entraînement et perte

L'entraînement d'un modèle implique simplement d'apprendre (déterminer) de bonnes valeurs pour toutes les pondérations et le biais à partir d'exemples étiquetés. Dans l'apprentissage supervisé, un algorithme de machine learning crée un modèle en examinant de nombreux exemples, puis en essayant de trouver un modèle qui minimise la perte. Ce processus est appelé minimisation du risque empirique.

La perte est la pénalité liée à une mauvaise prédiction. C'est-à-dire que la perte est un nombre indiquant à quel point la prédiction du modèle a été mauvaise sur un seul exemple. Si la prédiction du modèle est parfaite, la perte est nulle. Sinon, la perte est supérieure à zéro. L'objectif de l'entraînement d'un modèle est de trouver un ensemble de pondérations et de biais présentant une perte faible sur tous les exemples. Par exemple, la figure 3 montre un modèle de perte élevée à gauche et un modèle à faible perte à droite. Remarques concernant la figure:

  • Les flèches représentent la perte.
  • Les lignes bleues représentent les prédictions.

Deux graphiques cartésiens, chacun montrant une ligne et des points de données. Dans le premier graphique, la ligne est terriblement adaptée aux données. La perte est donc élevée. Dans le deuxième graphique, la courbe est plus adaptée aux données. La perte est donc faible.

Figure 3. Perte élevée dans le modèle de gauche ; perte faible dans le modèle de droite.

 

Notez que les flèches du graphique de gauche sont beaucoup plus longues que celles du graphique de droite. À l'évidence, la ligne du bon graphique représente un meilleur modèle prédictif que la ligne du graphique de gauche.

Vous vous demandez peut-être si vous pourriez créer une fonction mathématique (une fonction de perte) qui regrouperait les pertes individuelles de manière significative.

Les modèles de régression linéaire que nous allons examiner ici utilisent une fonction de perte appelée perte quadratique (également appelée L2perte). La perte quadratique d'un seul exemple est la suivante:

  = the square of the difference between the label and the prediction
  = (observation - prediction(x))2
  = (y - y')2

L'erreur quadratique moyenne (MSE) correspond à la perte quadratique moyenne par exemple sur l'ensemble de données complet. Pour calculer l'erreur MSE, additionnez toutes les pertes au carré pour des exemples individuels, puis divisez-les par le nombre d'exemples:

$$ MSE = \frac{1}{N} \sum_{(x,y)\in D} (y - prediction(x))^2 $$

où :

  • \((x, y)\) est un exemple dans lequel
    • \(x\) est l'ensemble des caractéristiques (par exemple, bips/minute, âge, sexe) que le modèle utilise pour effectuer des prédictions.
    • \(y\) est le libellé de l'exemple (température, par exemple).
  • \(prediction(x)\) est une fonction de pondérations et de biais associée à l'ensemble de caractéristiques \(x\).
  • \(D\) est un ensemble de données contenant de nombreux exemples étiquetés, qui sont des \((x, y)\) paires.
  • \(N\) est le nombre d'exemples dans \(D\).

Bien que la MSE soit couramment utilisée en machine learning, elle n'est ni la seule fonction de perte pratique, ni la meilleure fonction de perte pour toutes les circonstances.