Utilizzo dei dati relativi alle categorie

I dati categoriali hanno un insieme specifico di valori possibili. Ad esempio:

  • Le diverse specie di animali in un parco nazionale
  • I nomi delle strade in una determinata città
  • Se un'email è spam o meno
  • I colori con cui vengono dipinti gli esterni delle case
  • I numeri selezionati, descritti nella sezione Utilizzo dei numeri numerici Modulo Dati

I numeri possono anche essere dati categorici

Dati numerici reali può essere moltiplicato in modo significativo. Ad esempio, considera un modello che prevede il valore di una casa in base alla sua area. Tieni presente che un modello utile per valutare i prezzi degli immobili di solito si basa su centinaia di funzionalità. Detto questo, a parità di condizioni, una casa di 200 m2 i metri dovrebbero avere circa il doppio del valore di una casa identica di 100 metri quadrati metri.

Spesso, dovresti rappresentare le caratteristiche che contengono valori interi come dati categorici anziché dati numerici. Ad esempio, consideriamo un codice postale caratteristica di codice in cui i valori sono numeri interi. Se rappresenti questo una caratteristica numerica piuttosto che categorica, per trovare una relazione numerica tra codici postali diversi. Ciò significa che il modello considera il codice postale 20004 come il doppio (o la metà) di un indicatore rispetto al codice postale 10002. Rappresentare i codici postali come dati categorici consente al modello ponderare ogni singolo codice postale separatamente.

Codifica

Codifica significa convertire dati categorici o di altro tipo in vettori numerici su cui può essere addestrato un modello. Questa conversione è necessaria perché i modelli possono vengono addestrate solo con valori in virgola mobile; i modelli non possono essere addestrati su stringhe come "dog" o "maple". Questo modulo illustra diverse metodi di codifica per dati categorici.