Qu'est-ce que le machine learning ?

Certaines des technologies les plus importantes que nous utilisons reposent sur le machine learning (ML), des applications de traduction aux véhicules autonomes. Ce cours présente les concepts fondamentaux qui se cachent derrière le ML.

Le ML offre une nouvelle façon de résoudre les problèmes, de répondre à des questions complexes et de créer contenus. Le ML peut prédire la météo, estimer les temps de trajet, recommander des chansons, des phrases à saisie semi-automatique, des résumés d'articles et des images inédites.

En termes simples, le ML est le processus entraîner un logiciel, appelé model, pour rendre des prédictions ou générer du contenu à partir données.

Par exemple, supposons que nous voulions créer une application pour prédire les précipitations. Nous pourrions une approche traditionnelle ou de ML. L'utilisation d'un modèle nous créerions une représentation physique de l'atmosphère terrestre et la surface, calculant d'énormes quantités d'équations de la dynamique des fluides. C'est incroyablement difficile.

En utilisant une approche de ML, nous donnerions à un modèle de ML d'énormes quantités de données météorologiques jusqu'à ce que le modèle de ML finisse par apprendre la relation mathématique entre les conditions météorologiques qui produisent différentes quantités de précipitations. Nous donnerions ensuite les données météorologiques actuelles et il pourrait prédire la quantité de précipitations.

Testez vos connaissances

Qu'est-ce qu'un "modèle" en machine learning ?
Un modèle est une relation mathématique dérivée des données qu'un ML le système utilise pour faire des prédictions
Un modèle est un élément matériel informatique
Un modèle est une représentation plus petite de ce que vous étudiez.

Types de systèmes de ML

Les systèmes de ML appartiennent à une ou plusieurs des catégories suivantes, selon la façon dont ils apprendre à faire des prédictions ou à générer du contenu:

  • Apprentissage supervisé
  • Apprentissage non supervisé
  • Apprentissage par renforcement
  • IA générative

Apprentissage supervisé

Apprentissage supervisé les modèles peuvent faire des prédictions après avoir examiné de nombreuses données avec les bonnes réponses puis découvrir les connexions entre les éléments des données qui pour produire les bonnes réponses. C'est comme si un élève apprenait de nouveaux contenus d'anciens examens contenant à la fois des questions et des réponses. Une fois que l'élève a avoir obtenu suffisamment d'anciens examens, l'élève est prêt à passer un nouvel examen. Ces systèmes de ML sont "supervisés" dans le sens où l'humain transmet au système de ML avec les résultats corrects connus.

Deux des cas d'utilisation les plus courants de l'apprentissage supervisé sont la régression la classification.

Régression

Un modèle de régression prédit valeur numérique. Par exemple, un modèle météo qui prédit la quantité de précipitations ou millimètres, est un modèle de régression.

Vous trouverez d'autres exemples de modèles de régression dans le tableau ci-dessous:

Scénario Données d'entrée possibles Prédiction numérique
Cours futur d'une maison Superficie, code postal, nombre de chambres et de salles de bain, superficie du terrain, taux d'intérêt hypothécaire, taux de taxe foncière, frais de construction et le nombre de maisons à vendre dans la région. Le prix de la maison.
Durée future du trajet l'historique des conditions de circulation (collectées à partir des smartphones, des conditions de circulation) ; (véhicules et autres applications de navigation), la distance votre destination et les conditions météorologiques. Temps d'arrivée à destination, en minutes et en secondes.

Classification

Les modèles de classification prédisent la probabilité qu'un élément appartienne à une catégorie. Contrairement aux modèles de régression, dont le résultat est un nombre, les modèles de classification génèrent une valeur qui indique si un élément appartient ou non à une catégorie particulière. Par exemple : les modèles de classification permettent de prédire si un e-mail est un spam ou si une photo contient un chat.

Les modèles de classification sont divisés en deux groupes: la classification binaire et classification à classes multiples. Les modèles de classification binaire génèrent une valeur à partir d'un qui ne contient que deux valeurs (par exemple, un modèle qui renvoie soit rain ou no rain. Les modèles de classification à classes multiples génèrent une valeur à partir d'un contenant plus de deux valeurs (par exemple, un modèle capable de générer rain, hail, snow ou sleet.

Testez vos connaissances

Si vous voulez utiliser un modèle de ML pour prédire la consommation d'énergie de bâtiments, quel type de modèle utiliseriez-vous ?
Régression
La consommation d'énergie se mesure en kilowattheures (kWh), qui est un nombre. Vous devez donc utiliser un modèle de régression.
Classification
Les modèles de classification prédisent si un élément appartient ou non à une catégorie, tandis que les modèles de régression prédisent un nombre. La consommation d'énergie étant mesurée en kilowattheures (kWh), qui est un nombre, il est préférable d'utiliser un modèle de régression.

Apprentissage non supervisé

Apprentissage non supervisé les modèles effectuent des prédictions en recevant des données qui ne contiennent pas réponses. L'objectif d'un modèle d'apprentissage non supervisé est d'identifier des modèles parmi les données. En d'autres termes, le modèle ne dispose d'aucune astuce classer chaque élément de données, mais au contraire, il doit déduire ses propres règles.

Un modèle d'apprentissage non supervisé couramment utilisé emploie une technique appelée clustering. Le modèle trouve des points de données qui délimitent des groupes naturels.

Image montrant des groupes de points colorés.

Figure 1 : Modèle de ML regroupant des points de données similaires.

Image montrant des groupes de points de couleur encadrés par une forme et en bordure l'un de l'autre.

Figure 2 : Groupes de clusters avec des démarcations naturelles.

Le clustering diffère de la classification, car les catégories ne sont pas définies par vous. Par exemple, un modèle non supervisé peut regrouper un ensemble de données météorologiques la température, révélant ainsi les segmentations qui définissent les saisons. Vous pourriez alors essayez de nommer ces clusters en fonction de votre compréhension de l'ensemble de données.

Image montrant des groupes de points de couleur étiquetés "Neige, Pluie, grêle" et Pas de pluie.

Figure 3. Un modèle de ML regroupant des modèles météorologiques similaires.

Image montrant des groupes de points de couleur étiquetés "Neige, Pluie, grêle" et "Pas de pluie", qui sont entourés d'une forme et se trouvent au bord l'un de l'autre.

Figure 4. Ensembles de modèles météorologiques étiquetés "neige, grésil" de pluie et pas de pluie.

Testez vos connaissances

Qu'est-ce qui distingue une approche supervisée d'une approche non supervisée ?
Une approche supervisée reçoit des données qui contiennent la bonne réponse.
Une approche supervisée reçoit des données qui contiennent la bonne réponse. Le travail du modèle consiste à trouver, dans les données, des connexions qui produisent réponse. Dans une approche non supervisée, les données sont transmises sans la bonne réponse. Son rôle est de trouver des regroupements dans les données.
Une approche supervisée utilise généralement le clustering.
Une approche non supervisée utilise le clustering.
Une approche non supervisée permet d'étiqueter des clusters de données.
Une approche non supervisée ne sait pas ce que signifient les clusters de données. Sur la base de votre compréhension des données, c'est à vous de les définir.

Apprentissage par renforcement

Apprentissage par renforcement les modèles effectuent des prédictions en obtenant des récompenses ou des pénalités basées sur des actions effectuées dans un environnement. Un renfort de machine learning génère une règle qui définit la meilleure stratégie pour obtenir le plus de récompenses possible.

L'apprentissage par renforcement est utilisé pour entraîner des robots à effectuer des tâches, comme la marche autour d'une pièce, et les logiciels tels que AlphaGo pour jouer au jeu de go.

IA générative

L'IA générative est une classe de modèles qui crée du contenu à partir des entrées utilisateur. Par exemple, l'IA générative peut créer des images uniques, des compositions musicales et des blagues ; il peut résumer des articles, expliquer comment effectuer une tâche ou modifier une photo.

L'IA générative peut accepter diverses entrées et sorties, comme du texte, des images, de l'audio et de la vidéo. Il peut également prendre et créer des combinaisons de ces éléments. Par exemple, un modèle peut utiliser une image en entrée et en créer une du texte en sortie, ou prendre une image et du texte en entrée et créer une vidéo en sortie.

Nous pouvons aborder les modèles génératifs en fonction de leurs entrées et sorties, généralement écrites de « type d'entrée » à « type de sortie ». Par exemple, voici un exemple de Voici une liste d'entrées et de sorties pour les modèles génératifs:

  • Texte-vers-texte
  • Texte-vers-image
  • Texte-vers-vidéo
  • Texte-vers-code
  • Synthèse vocale
  • Image et texte-vers-image

Le tableau suivant répertorie des exemples de modèles génératifs, leurs entrées et une exemple de résultat possible:

Modèle Entrée Exemple de résultat :
Texte-vers-texte Qui a inventé la course du Mans ? Les 24 Heures du Mans ont été fondées par l'Automobile Club de l'Ouest (ACO), un organisme automobile fondé en 1906. La première course a eu lieu les 26 et 27 mai 1923 sur le circuit de la Sarthe, qui s'étend sur 13,426 km Circuit routier de 13,37 km situé à proximité de la ville du Mans, en France. À l'origine, le concours était conçu pour promouvoir l'ACO et Sarthe.
Source: Bard
Texte-vers-image Une pieuvre extraterrestre flotte à travers un portail en lisant un journal.
Image d'un dessin de pieuvre. Source: Imagen
Texte-vers-vidéo Un ours en peluche photoréaliste nageant dans l'océan à San Francisco. L'ours en peluche passe sous l'eau. L'ours en peluche n'arrête pas de nager sous avec des poissons colorés. Panda en train de nager sous l'eau.
Vidéo d'un ours en peluche nageant sous l'eau. Source: Phenaki
Texte-vers-code Écrivez une boucle Python qui boucle sur une liste de nombres et imprime les nombres premiers.
for number in numbers:
  # Check if the number is prime.
  is_prime = True
  for i in range(2, number):
    if number % i == 0:
        is_prime = False
        break
  # If the number is prime, print it.
  if is_prime:
    print(number)
Source: Bard
Image-to-Text Image d'un flamant rose. C'est un flamant rose. On les trouve dans les Caraïbes.
<ph type="x-smartling-placeholder"></ph> Source: Google DeepMind .

Comment fonctionne l'IA générative ? De manière générale, les modèles génératifs apprennent des modèles de données dans le but de produire des données nouvelles mais similaires. Modèles génératifs les modèles sont semblables à ceux-ci:

  • Comédiens qui apprennent à imiter les autres en observant les comportements et les style de parole
  • Les artistes qui apprennent à peindre dans un style particulier en étudiant tableaux dans ce style
  • Reprises de groupes qui apprennent à se faire entendre d'un groupe de musique spécifique en écoutant beaucoup de musique de ce groupe

Pour produire des résultats uniques et créatifs, les modèles génératifs sont d'abord entraînés à l'aide d'une approche non supervisée, dans laquelle le modèle apprend à imiter les données entraîné. Le modèle est parfois entraîné plus en détail à l'aide de apprentissage par renforcement sur des données spécifiques liées aux tâches que le modèle pourrait être que vous demandez à effectuer, par exemple, de résumer un article ou de retoucher une photo.

L'IA générative est une technologie qui évolue rapidement et propose constamment de nouveaux cas d'utilisation d'être découvert. Par exemple, les modèles génératifs aident les entreprises à affiner les images des produits d'e-commerce en supprimant automatiquement les arrière-plans gênants ou améliorer la qualité des images basse résolution.