Présentation de la création d'un ensemble de données

Étapes pour créer votre ensemble de données

Pour construire votre ensemble de données (et avant d'effectuer la transformation des données), vous devez:

  1. Collectez les données brutes.
  2. Identifiez les sources de caractéristiques et de libellés.
  3. Sélectionnez une stratégie d'échantillonnage.
  4. Diviser les données

Ces étapes dépendent beaucoup de la façon dont vous avez défini votre problème de ML. Utilisez l'autovérification ci-dessous pour actualiser votre mémoire sur l'encadrement des problèmes et vérifier vos hypothèses concernant la collecte de données.

Auto-vérification des concepts d'encadrement et de collecte de données

Pour les questions suivantes, cliquez sur la flèche souhaitée pour vérifier votre réponse:

Vous travaillez sur un tout nouveau projet de machine learning, sur le point de sélectionner vos premières caractéristiques. Combien de fonctionnalités choisir ?
Sélectionnez 1 à 3 caractéristiques qui semblent avoir une forte puissance prédictive.
Il est préférable que votre pipeline de collecte de données commence par une ou deux fonctionnalités. Cela vous aidera à vérifier que le modèle de ML fonctionne comme prévu. De plus, lorsque vous établirez une référence à partir de quelques caractéristiques, vous aurez l'impression d'avancer.
Choisissez quatre à six caractéristiques qui semblent avoir une forte puissance prédictive.
Vous pourriez utiliser ces nombreuses fonctionnalités à terme, mais il est toujours préférable d'en utiliser moins. Moins de fonctionnalités signifient généralement moins de complications inutiles.
Sélectionnez autant de caractéristiques que possible afin de commencer à observer les caractéristiques qui présentent la puissance de prédiction la plus élevée.
Commencez en plus petit. Chaque nouvelle caractéristique ajoute une dimension à votre ensemble de données d'entraînement. Lorsque la dimensionnalité augmente, le volume de l'espace augmente si rapidement que les données d'entraînement disponibles deviennent creuses. Plus vous avez de données creuses, plus il est difficile pour un modèle d'apprendre la relation entre les caractéristiques qui comptent réellement et l'étiquette. Ce phénomène est appelé la "malédiction de la dimensionnalité".
Votre ami Sam est ravi des résultats initiaux de son analyse statistique. Il explique que les données montrent une corrélation positive entre le nombre de téléchargements de l'application et le nombre d'impressions d'avis. Toutefois, il n'est pas certain qu'il l'aurait téléchargé sans consulter l'avis. Quelle réponse pourrait lui être la plus utile ?
Vous pouvez effectuer un test afin de comparer le comportement des utilisateurs qui n'ont pas vu l'avis avec ceux d'utilisateurs similaires.
Bonne réponse ! Si Sam constate que les utilisateurs ayant vu l'avis positif sont plus susceptibles de télécharger l'application que ceux qui ne l'ont pas fait, il a des raisons de penser que cet avis encourage les utilisateurs à installer l'application.
Faites confiance aux données. Il est évident que cet avis positif est la raison pour laquelle les utilisateurs téléchargent l'application.
Mauvaise réponse. Cette réponse ne l'orienterait pas dans la bonne direction. Vous ne pouvez pas déterminer la causalité à partir de données d'observation uniquement. Sam constate une corrélation (c'est-à-dire une dépendance statistique entre les chiffres) qui peut indiquer ou non une causalité. Ne laissez pas vos analyses rejoindre les rangs des fausses corrélations.