I modelli di machine learning possono essere addestrati solo su valori in virgola mobile. Tuttavia, molti elementi del set di dati non sono valori di tipo floating point. Pertanto, una parte importante del machine learning è la trasformazione delle funzionalità non a virgola mobile in rappresentazioni a virgola mobile.
Ad esempio, supponiamo che street names
sia una funzionalità. La maggior parte dei nomi di strade
è costituita da stringhe, ad esempio "Broadway" o "Vilakazi".
Il modello non può essere addestrato su "Broadway", quindi devi trasformare "Broadway"
in un numero a virgola mobile. Il modulo Dati categoriali spiega come eseguire questa operazione.
Inoltre, devi trasformare anche la maggior parte delle funzionalità con virgola mobile. Questo processo di trasformazione, chiamato normalizzazione, consente di convertire i numeri in virgola mobile in un intervallo limitato che migliora l'addestramento del modello. Il modulo Dati numerici spiega come eseguire questa operazione.
Campionare i dati quando sono troppi
Alcune organizzazioni dispongono di una grande quantità di dati. Quando il set di dati contiene troppi esempi, devi selezionare un sottoinsieme di esempi per l'addestramento. Se possibile, seleziona il sottoinsieme più pertinente per le previsioni del modello.
Esempi di filtri contenenti PII
I set di dati di buona qualità omettono gli esempi contenenti informazioni che consentono l'identificazione personale (PII). Queste norme contribuiscono a salvaguardare la privacy, ma possono influenzare il modello.
Per saperne di più su questi argomenti, consulta il modulo Sicurezza e privacy più avanti nel corso.