Qu'est-ce que le machine learning ?

Le machine learning (ML) est au cœur de certaines des technologies les plus importantes que nous utilisons, des applications de traduction aux véhicules autonomes. Ce cours décrit les concepts fondamentaux du ML.

Le ML offre une nouvelle façon de résoudre des problèmes, de répondre à des questions complexes et de créer de nouveaux contenus. Le ML permet de prédire la météo, d'estimer les temps de trajet, de recommander des titres, de compléter automatiquement des phrases, de résumer des articles et de générer des images inédites.

En termes simples, le ML est le processus d'entraînement d'un logiciel, appelé model, afin d'effectuer des prédictions utiles ou de générer du contenu à partir de données.

Par exemple, supposons que nous voulions créer une application pour prédire les précipitations. Nous pourrions utiliser une approche traditionnelle ou une approche de ML. En utilisant une approche traditionnelle, nous créerions une représentation physique de l'atmosphère et de la surface de la Terre, basée sur la physique, en calculant de grandes quantités d'équations de la dynamique des fluides. C'est incroyablement difficile.

À l'aide d'une approche de ML, nous fournissons à un modèle de ML d'énormes quantités de données météorologiques jusqu'à ce qu'il apprenne la relation mathématique entre les modèles météorologiques qui produisent des quantités de pluie différentes. Nous fournirons ensuite au modèle les données météorologiques actuelles, qui permettront de prédire la quantité de précipitations.

Testez vos connaissances

Qu'est-ce qu'un "modèle" en machine learning ?
Un modèle est une relation mathématique dérivée de données qu'un système de ML utilise pour réaliser des prédictions
Un modèle est un matériel informatique
Un modèle est une représentation plus petite de ce que vous étudiez.

Types de systèmes de ML

Les systèmes de ML appartiennent à une ou plusieurs des catégories suivantes, en fonction de la manière dont ils apprennent à effectuer des prédictions ou à générer du contenu:

  • Apprentissage supervisé
  • Apprentissage non supervisé
  • Apprentissage par renforcement
  • IA générative

Apprentissage supervisé

Les modèles d'apprentissage supervisé peuvent faire des prédictions après avoir examiné un grand nombre de données avec les bonnes réponses, puis découvert les liens entre les éléments des données qui produisent les bonnes réponses. C'est un peu comme si un élève acquérait de nouveaux matériaux en étudiant d'anciens examens comportant à la fois des questions et des réponses. Une fois que l'étudiant a suivi une formation sur suffisamment d'anciens examens, il est prêt à passer un nouvel examen. Ces systèmes de ML sont "supervisés" dans le sens où un humain fournit les données du système de ML avec les résultats corrects connus.

La régression et la classification sont deux des cas d'utilisation les plus courants de l'apprentissage supervisé.

Régression

Un modèle de régression prédit une valeur numérique. Par exemple, un modèle météo qui prédit la quantité de précipitations, en pouces ou en millimètres, est un modèle de régression.

Consultez le tableau ci-dessous pour obtenir d'autres exemples de modèles de régression:

Scénario Données d'entrée possibles Prédiction numérique
Prix futur du logement Superficie, code postal, nombre de chambres et de salles de bain, superficie du terrain, taux d'intérêt hypothécaire, taux de taxe foncière, coûts de construction et nombre de logements à vendre dans la région. Prix du logement.
Temps de trajet à venir l'historique des conditions de circulation (recueillies à partir de smartphones, de capteurs de trafic, de VTC et d'autres applications de navigation), la distance par rapport à la destination et les conditions météorologiques ; Temps nécessaire pour arriver à destination, en minutes et en secondes.

Classification

Les modèles de classification prédisent la probabilité qu'un élément appartienne à une catégorie. Contrairement aux modèles de régression, dont le résultat est un nombre, les modèles de classification génèrent une valeur qui indique si un élément appartient ou non à une catégorie particulière. Par exemple, des modèles de classification sont utilisés pour prédire si un e-mail est un spam ou si une photo contient un chat.

Les modèles de classification sont divisés en deux groupes: la classification binaire et la classification multiclasse. Les modèles de classification binaire génèrent une valeur à partir d'une classe qui ne contient que deux valeurs. C'est par exemple le cas d'un modèle qui génère rain ou no rain. Les modèles de classification à classes multiples génèrent une valeur à partir d'une classe qui contient plus de deux valeurs (par exemple, un modèle pouvant générer rain, hail, snow ou sleet).

Testez vos connaissances

Supposons que vous vouliez prédire la consommation d'énergie de bâtiments commerciaux à l'aide d'un modèle de ML. Quel type de modèle choisiriez-vous ?
Régression
La consommation d'énergie est mesurée en kilowattheures (kWh), qui est un nombre. Il est donc préférable d'utiliser un modèle de régression.
Classification
Les modèles de classification prédisent si quelque chose appartient ou non à une catégorie, tandis que les modèles de régression prédisent un nombre. La consommation d'énergie étant mesurée en kilowattheures (kWh), qui est un nombre, vous devez utiliser un modèle de régression.

Apprentissage non supervisé

Les modèles d'apprentissage non supervisé effectuent des prédictions sur la base de données qui ne contiennent aucune réponse correcte. L'objectif d'un modèle d'apprentissage non supervisé est d'identifier des tendances significatives parmi les données. En d'autres termes, le modèle ne dispose d'aucune indication sur la façon de catégoriser chaque élément de données, mais il doit déduire ses propres règles.

Un modèle d'apprentissage non supervisé couramment utilisé fait appel à une technique appelée clustering. Le modèle trouve des points de données qui délimitent les regroupements naturels.

Image montrant des groupes de points colorés.

Figure 1 : Modèle de ML regroupant des points de données similaires.

Image montrant des groupes de points colorés encadrés et entourés d'une bordure.

Figure 2 : Groupes de clusters avec des démarcations naturelles.

Le clustering diffère de la classification, car vous ne définissez pas les catégories. Par exemple, un modèle non supervisé peut regrouper un ensemble de données météorologiques en fonction de la température, révélant ainsi des segmentations définissant les saisons. Vous pouvez ensuite essayer de nommer ces clusters en fonction de votre compréhension de l'ensemble de données.

Image montrant des groupes de points colorés portant les libellés "Neige, pluie, grêle et pas de pluie".

Image 3. Un modèle de ML regroupe des modèles météorologiques similaires.

Image montrant des points colorés représentant de la neige, de la pluie, de la grêle et une absence de pluie, entourés d'une forme et entourés d'une bordure.

Figure 4. Clusters de conditions météorologiques étiquetées comme de la neige, de la grésil, de la pluie et de l'absence de pluie.

Testez vos connaissances

Qu'est-ce qui distingue une approche supervisée d'une approche non supervisée ?
Une approche supervisée reçoit des données qui contiennent la bonne réponse.
Une approche supervisée reçoit des données qui contiennent la bonne réponse. Le rôle du modèle consiste à rechercher, dans les données, des connexions qui génèrent la bonne réponse. Une approche non supervisée reçoit des données sans la bonne réponse. Son rôle est de rechercher des regroupements dans les données.
Une approche supervisée utilise généralement le clustering.
Une approche non supervisée utilise le clustering.
Une approche non supervisée sait comment étiqueter des clusters de données.
Une approche non supervisée ne sait pas ce que signifient les clusters de données. En fonction de votre compréhension des données, il vous appartient de les définir.

Apprentissage par renforcement

Les modèles d'apprentissage par renforcement effectuent des prédictions en obtenant des récompenses ou des pénalités en fonction des actions effectuées dans un environnement. Un système d'apprentissage par renforcement génère une règle qui définit la meilleure stratégie pour obtenir le plus de récompenses possible.

L'apprentissage par renforcement permet d'entraîner des robots à effectuer des tâches, comme se déplacer dans une pièce, et des programmes logiciels tels qu'AlphaGo pour jouer au jeu de Go.

IA générative

L'IA générative est une classe de modèles qui crée du contenu à partir d'une entrée utilisateur. Par exemple, l'IA générative peut créer des images, des compositions musicales et des blagues uniques. Elle peut résumer des articles, expliquer comment effectuer une tâche ou retoucher une photo.

L'IA générative peut générer diverses entrées et sorties, comme du texte, des images, de l'audio et de la vidéo. Il peut également prendre et créer des combinaisons de ces éléments. Par exemple, un modèle peut prendre une image en entrée et créer une image et du texte en sortie, ou utiliser une image et du texte en entrée pour créer une vidéo en sortie.

Nous pouvons discuter des modèles génératifs en fonction de leurs entrées et sorties, généralement écrites comme "type d'entrée" à "type de sortie". Par exemple, voici une liste partielle de certaines entrées et sorties pour les modèles génératifs:

  • Texte-vers-texte
  • Texte-vers-image
  • Texte-vers-vidéo
  • Texte-vers-code
  • Synthèse vocale
  • Image et texte-vers-image

Le tableau suivant répertorie des exemples de modèles génératifs, leur entrée et un exemple de sortie possible:

Livraison Entrée Exemple de résultat :
Texte-vers-texte Qui a inventé la course au Mans ? Les 24 Heures du Mans ont été fondées par l'Automobile Club de l'Ouest (ACO), une organisation automobile fondée en 1906. La première course a eu lieu les 26 et 27 mai 1923 sur le circuit de Sarthe, un circuit routier de 13 426 kilomètres situé près de la ville du Mans, en France. À l'origine, l'organisation avait été conçue comme un moyen de promouvoir l'ACO et la région de Sarthe.
Source: Bard
Texte-vers-image Pieuvre extraterrestre flotte à travers un portail en lisant un journal. Image d'une pieuvre de dessin animé.
Source: Imagen
Texte-vers-vidéo Ours en peluche photoréaliste en train de nager dans l'océan à San Francisco. L'ours en peluche passe sous l'eau. L'ours en peluche n'arrête pas de nager sous l'eau au milieu de poissons colorés. Panda en train de nager sous l'eau. Vidéo d'un ours en peluche nageant sous l'eau.
Source: Phenaki
Texte-vers-code Écrivez une boucle Python qui effectue une boucle sur une liste de nombres et imprime les nombres premiers.
for number in numbers:
  # Check if the number is prime.
  is_prime = True
  for i in range(2, number):
    if number % i == 0:
        is_prime = False
        break
  # If the number is prime, print it.
  if is_prime:
    print(number)

Source: Bard
Image-vers-texte Image d'un flamant rose. C'est un flamant rose. On les trouve dans les Caraïbes.
Source: Google DeepMind

Comment fonctionne l'IA générative ? De manière générale, les modèles génératifs apprennent des modèles de données dans le but de produire des données nouvelles mais similaires. Les modèles génératifs sont les suivants:

  • Humoristes qui apprennent à imiter les autres en observant les comportements et le style de parole
  • Artistes qui ont appris à peindre dans un style particulier en étudiant de nombreuses peintures dans ce style
  • Groupes de reprises qui apprennent à ressembler à un groupe de musique spécifique en écoutant beaucoup de musique de ce groupe

Pour produire des résultats uniques et créatifs, les modèles génératifs sont initialement entraînés à l'aide d'une approche non supervisée, où le modèle apprend à imiter les données sur lesquelles il a été entraîné. Le modèle est parfois entraîné davantage à l'aide de l'apprentissage supervisé ou par renforcement sur des données spécifiques liées à des tâches qu'il peut être amené à effectuer (par exemple, résumer un article ou retoucher une photo).

L'IA générative est une technologie en constante évolution, et de nouveaux cas d'utilisation sont découverts en permanence. Par exemple, les modèles génératifs aident les entreprises à affiner les images de leurs produits d'e-commerce en supprimant automatiquement les arrière-plans gênants ou en améliorant la qualité des images basse résolution.