Préparation des données et extraction de caractéristiques en ML

Le machine learning nous aide à identifier des modèles dans les données, c'est-à-dire des modèles que nous utilisons ensuite pour faire des prédictions sur les nouveaux points de données. Pour obtenir ces prédictions correctes, nous devons construire l'ensemble de données et transformer les données correctement. Ce cours traite de ces deux étapes clés. Nous verrons également les considérations relatives à l'entraînement et à la diffusion dans ces étapes.

Un projet de machine learning organisé en cinq étapes. 1. Définir un problème de ML et proposer une solution 2. Créez votre ensemble de données. 3. Transformer des données
4. Entraîner un modèle 5. Utilisez le modèle pour réaliser des prédictions  Dans ce cours, vous apprendrez à créer un ensemble de données et à les transformer.

Conditions préalables

Dans ce cours, vous devez disposer des éléments suivants:

Pourquoi en savoir plus sur la préparation des données et l'extraction de caractéristiques ?

L'extraction de caractéristiques revient à aider le modèle à comprendre l'ensemble de données de la même manière que vous. Les participants accèdent souvent à un cours de machine learning axé sur la création de modèles, mais ils finissent par passer beaucoup plus de temps à se concentrer sur les données.

Pour la question suivante, cliquez sur la flèche souhaitée pour vérifier votre réponse:

Si vous deviez prioriser l'un des domaines ci-dessous dans votre projet de machine learning, lequel aurait le plus d'impact ?
Qualité et taille de vos données
Les données ont la priorité Il est vrai que la mise à jour de votre algorithme d'apprentissage ou de votre architecture de modèle vous permettra d'apprendre différents types de modèles, mais si vos données sont de mauvaise qualité, vous finirez par créer des fonctions qui ne conviennent pas au bon. La qualité et la taille de l'ensemble de données ont bien plus d'importance que l'algorithme brillant que vous utilisez.
Utiliser le dernier algorithme d'optimisation
Vous pourriez certainement constater des avantages à transmettre les optimiseurs, mais cela n'aura pas d'impact aussi important sur votre modèle qu'un autre élément de cette liste.
Un réseau plus profond
Bien qu'un réseau plus profond puisse améliorer votre modèle, l'impact sera moins important qu'un autre élément de cette liste.
Une fonction de perte plus intelligente
Presque ! Une meilleure fonction de perte peut vous apporter une victoire, mais elle est toujours la deuxième à un autre élément de cette liste.

Pourquoi est-il important de collecter un ensemble de données de qualité ?

Google Traduction

"... l'une de nos avancées en matière de qualité ayant le plus d'impact depuis l'identification de la traduction automatique neuronale est le meilleur sous-ensemble de données d'entraînement à utiliser."

- Ingénieur logiciel, Google Traduction

L'équipe Google Traduction a plus de données d'entraînement qu'elle ne peut en tirer. Plutôt que d'ajuster son modèle, l'équipe a gagné plus de bénéfices en utilisant les meilleures caractéristiques de ses données.

 

 

 

"...la plupart du temps, lorsque j'essayais de déboguer manuellement des erreurs à l'aspect intéressant, elles pouvaient remonter à des problèmes liés aux données d'entraînement." - Ingénieur logiciel, Google Traduction

Ce type d'erreur est généralement dû aux données. Des données incorrectes peuvent entraîner l'apprentissage de mauvais schémas par votre modèle, quelles que soient les techniques de modélisation que vous essayez.

 

 

Projet de Brain Retinopathy diabétique

Le projet de rétinopathie diabétique de Google Brain a utilisé une architecture de réseau de neurones, appelée Inception, pour détecter les maladies en classant les images. L'équipe n'a pas modifié les modèles. Au lieu de cela, ils ont créé un ensemble de données de 120 000 exemples étiquetés par des ophtalmologues. Pour en savoir plus, consultez la page https://research.google.com/pubs/pub43022.html.