Los modelos de bosques de decisión se componen de árboles de decisión. Los algoritmos de aprendizaje de bosques de decisión (como los bosques aleatorios) dependen, al menos en parte, del aprendizaje de árboles de decisión.
En esta sección del curso, estudiarás un pequeño conjunto de datos de ejemplo y aprenderás a entrenar un solo árbol de decisión. En las siguientes secciones, aprenderás cómo se combinan los árboles de decisión para entrenar bosques de decisión.
En YDF, usa el algoritmo de aprendizaje CART para entrenar modelos individuales de árboles de decisión:
# https://ydf.readthedocs.io/en/latest/py_api/CartLearner import ydf model = ydf.CartLearner(label="my_label").train(dataset)
El modelo
Un árbol de decisión es un modelo compuesto por una colección de "preguntas" organizadas de forma jerárquica en forma de árbol. Por lo general,las preguntas se denominan condiciones, divisiones o pruebas. Usaremos el término “condición” en esta clase. Cada nodo que no es hoja contiene una condición, y cada nodo hoja contiene una predicción.
Los árboles botánicos suelen crecer con la raíz en la parte inferior. Sin embargo, los árboles de decisión suelen representarse con la raíz (el primer nodo) en la parte superior.
Figura 1: Un árbol de decisión de clasificación simple. La leyenda en verde no forma parte del árbol de decisión.
La inferencia de un modelo de árbol de decisión se calcula enrutando un ejemplo de la raíz (en la parte superior) a uno de los nodos de hoja (en la parte inferior) según las condiciones. El valor de la hoja alcanzada es la predicción del árbol de decisión. El conjunto de nodos visitados se denomina ruta de inferencia. Por ejemplo, considera los siguientes valores de atributos:
num_legs | num_eyes |
---|---|
4 | 2 |
La predicción sería perro. La ruta de inferencia sería la siguiente:
- num_legs ≥ 3 → Sí
- num_eyes ≥ 3 → No
Figura 2: La ruta de inferencia que culmina en la hoja *dog* en el ejemplo *{num_legs : 4, num_eyes : 2}*.
En el ejemplo anterior, las hojas del árbol de decisión contienen predicciones de clasificación, es decir, cada hoja contiene una especie de animal entre un conjunto de especies posibles.
Del mismo modo, los árboles de decisión pueden predecir valores numéricos etiquetando las hojas con predicciones de regresión (valores numéricos). Por ejemplo, el siguiente árbol de decisiones predice una puntuación numérica de ternura de un animal entre 0 y 10.
Figura 3: Un árbol de decisión que realiza predicciones numéricas.