I modelli di machine learning possono essere addestrati solo con valori in virgola mobile. Tuttavia, molte caratteristiche del set di dati non sono valori in virgola mobile naturali. Di conseguenza, una parte importante del machine learning sta trasformando le caratteristiche non con rappresentazione in virgola mobile alle rappresentazioni con rappresentazione in virgola mobile.
Ad esempio, supponiamo che street names
sia una funzionalità. La maggior parte dei nomi di vie
sono stringhe come "Broadway" o "Vilakazi".
Il tuo modello non può essere addestrato a "Broadway", quindi devi trasformare "Broadway"
in un numero con rappresentazione in virgola mobile. I dati categorici
modulo
spiega come fare.
Inoltre, devi anche trasformare la maggior parte delle caratteristiche in virgola mobile. Questo processo di trasformazione, normalization, converte numeri in virgola mobile in un intervallo vincolato che migliora l'addestramento del modello. La colonna Dati numerici modulo spiega come fare.
Dati di esempio quando ne hai troppi
Alcune organizzazioni sono benedette dall'abbondanza di dati. Se il set di dati contiene troppi esempi, devi selezionare un sottoinsieme di esempi per l'addestramento. Se possibile, seleziona il sottoinsieme più pertinenti alle previsioni del modello.
Esempi di filtri contenenti PII
I set di dati validi omettono esempi contenenti informazioni che consentono l'identificazione personale (PII). Queste norme contribuiscono a salvaguardare la privacy, ma possono influenzare il modello.
Consulta il modulo Sicurezza e privacy più avanti nel corso per ulteriori informazioni su questi argomenti.