Las siguientes preguntas te ayudarán a consolidar tu comprensión de los conceptos básicos de AA.
Poder predictivo
Los modelos de AA supervisados se entrenan con conjuntos de datos que contienen ejemplos etiquetados. El modelo
aprende a predecir la etiqueta a partir de los atributos. Sin embargo, no todos los atributos de un conjunto de datos tienen poder predictivo. En algunos casos, solo unos pocos atributos actúan como
predictores de la etiqueta. En el siguiente conjunto de datos, usa el precio como etiqueta
y las columnas restantes como atributos.
¿Qué tres atributos crees que son los mejores predictores
del precio de un automóvil?
Marca_modelo, año y millas
Es probable que la marca y el modelo, el año y las millas de un automóvil se encuentren entre los
predictores más sólidos de su precio.
Color, altura y marca_modelo
La altura y el color de un automóvil no son buenos predictores de su
precio.
Millas, caja de cambios y marca_modelo
La caja de cambios no es un predictor principal del precio.
Tamaño_neumático, distancia_entre_ejes y año
El tamaño de los neumáticos y la distancia entre ejes no son buenos predictores del precio de un automóvil.
Aprendizaje supervisado y no supervisado
Según el problema, usarás un enfoque supervisado o no supervisado.
Por ejemplo, si conoces de antemano el valor o la categoría que deseas predecir,
usarías el aprendizaje supervisado. Sin embargo, si deseas saber si tu conjunto de datos
contiene segmentaciones o agrupaciones de ejemplos relacionados, usarías el
aprendizaje no supervisado.
Supongamos que tienes un conjunto de datos de usuarios para un sitio web de compras en línea y que
contiene las siguientes columnas:
Si deseas comprender los tipos de usuarios que visitan el sitio,
¿usarías el aprendizaje supervisado o no supervisado?
Aprendizaje no supervisado
Como queremos que el modelo agrupe a los clientes relacionados,
usaríamos el aprendizaje no supervisado. Después de que el modelo agrupe a los usuarios,
crearíamos nuestros propios nombres para cada grupo, por ejemplo,
"buscadores de descuentos", "cazadores de ofertas", "navegantes", "leales",
y "vagabundos".
Aprendizaje supervisado porque intento predecir a qué clase
pertenece un usuario
En el aprendizaje supervisado, el conjunto de datos debe contener la etiqueta que intentas predecir. En el conjunto de datos, no hay ninguna etiqueta que se refiera a una
categoría de usuario.
Supongamos que tienes un conjunto de datos de uso de energía para viviendas con las siguientes columnas:
¿Qué tipo de AA usarías para predecir los kilovatios-hora usados por
año para una casa recién construida?
Aprendizaje supervisado
El aprendizaje supervisado se entrena con ejemplos etiquetados. En este conjunto de datos
"kilovatios-hora usados por año" sería la etiqueta porque es el
valor que deseas que prediga el modelo. Los atributos serían
"metros cuadrados", "ubicación" y "año de construcción".
Aprendizaje no supervisado
El aprendizaje no supervisado usa ejemplos sin etiqueta. En este ejemplo,
"kilovatios-hora usados por año" sería la etiqueta porque es el
valor que deseas que prediga el modelo.
Supongamos que tienes un conjunto de datos de vuelos con las siguientes columnas:
Si deseas predecir el costo de un boleto de avión, ¿usarías
la regresión o la clasificación?
Regresión
El resultado de un modelo de regresión es un valor numérico.
Clasificación
El resultado de un modelo de clasificación es un valor discreto,
normalmente una palabra. En este caso, el costo de un boleto de avión es
un valor numérico.
Según el conjunto de datos, ¿podrías entrenar un modelo de clasificación
para clasificar el costo de un boleto de avión como
"alto", "promedio" o "bajo"?
Sí, pero primero deberíamos convertir los valores numéricos de la columna
airplane_ticket_cost en valores categóricos.
Es posible crear un modelo de clasificación a partir del conjunto de datos.
Harías algo como lo siguiente:
- Busca el costo promedio de un boleto desde el aeropuerto de salida hasta
el aeropuerto de destino.
- Determina los umbrales que constituirían "alto", "promedio",
y "bajo".
- Compara el costo previsto con los umbrales y muestra la
categoría en la que se encuentra el valor.
No, no es posible crear un modelo de clasificación. Los valores de
airplane_ticket_cost son numéricos, no categóricos.
Con un poco de trabajo, podrías crear un modelo de clasificación
No. Los modelos de clasificación solo predicen dos categorías, como
spam o not_spam. Este modelo debería predecir
tres categorías.
Los modelos de clasificación pueden predecir varias categorías. Se denominan
modelos de clasificación multiclase.
Entrenamiento y evaluación
Después de entrenar un modelo, lo evaluamos con un conjunto de datos con
ejemplos etiquetados y comparamos el valor previsto del modelo con el valor real de la etiqueta.
Selecciona las dos mejores respuestas para la pregunta.
Si las predicciones del modelo son muy diferentes, ¿qué podrías hacer para mejorar
las?
Vuelve a entrenar el modelo, pero usa solo los atributos que crees que tienen el
poder predictivo más sólido para la etiqueta.
Volver a entrenar el modelo con menos atributos, pero que tengan más
poder predictivo, puede producir un modelo que realice mejores
predicciones.
No puedes corregir un modelo cuyas predicciones sean muy diferentes.
Es posible corregir un modelo cuyas predicciones sean diferentes. La mayoría de los modelos
requieren varias rondas de entrenamiento hasta que realizan
predicciones útiles.
Vuelve a entrenar el modelo con un conjunto de datos más grande y diverso.
Los modelos entrenados en conjuntos de datos con más ejemplos y una mayor variedad de
valores pueden producir mejores predicciones porque el modelo tiene una mejor
solución generalizada para la relación entre los atributos y
la etiqueta.
Prueba con un enfoque de entrenamiento diferente. Por ejemplo, si usaste un
enfoque supervisado, prueba con uno no supervisado.
Un enfoque de entrenamiento diferente no produciría mejores
predicciones.
Ahora estás listo para dar el siguiente paso en tu recorrido de AA: