Los datos categóricos tienen una conjunto específico de valores posibles. Por ejemplo:
- Diferentes especies de animales en un parque nacional
- Los nombres de las calles de una ciudad en particular
- Si un correo electrónico es o no spam
- Los colores que pintan los exteriores de las casas
- Números agrupados, que se describen en el artículo Cómo trabajar con números Módulo
Los números también pueden ser datos categóricos
Datos numéricos verdaderos puedan multiplicarse de manera significativa. Por ejemplo, considera un que predice el valor de una casa en función de su área. Ten en cuenta que un modelo útil para evaluar los precios de las casas generalmente se basa en cientos de funciones. Dicho esto, si todo lo demás permanece constante, una casa de 200 cuadrados metros deberían ser aproximadamente el doble de valor que una casa idéntica de 100 cuadrados metros.
A menudo, debes representar atributos que contienen valores enteros como datos categóricos en vez de datos numéricos. Por ejemplo, considera un mensaje en el que los valores son números enteros. Si representas esto, de forma numérica en lugar de categórico, le pedirás al modelo para encontrar una relación numérica entre diferentes códigos postales. Es decir, le estás indicando al modelo Trata el código postal 20004 como el doble (o la mitad) de un indicador que el código postal 10,002. La representación de códigos postales como datos categóricos le permite al modelo ponderar cada código postal individual por separado.
Codificación
Codificación significa convertir datos categóricos o de otro tipo en vectores numéricos.
con las que se puede entrenar un modelo. Esta conversión es necesaria porque los modelos pueden
solo se entrena con valores de punto flotante. modelos no se pueden entrenar con cadenas como
"dog"
o "maple"
. En este módulo, se explican los diferentes
métodos de codificación para datos categóricos.