Esta página contiene los términos del glosario de bosques de decisión. Para ver todos los términos del glosario, haz clic aquí.
A
muestreo de atributos
Una táctica para entrenar un bosque de decisión en el que cada árbol de decisión considera solo un subconjunto aleatorio de atributos posibles cuando aprende la condición. Por lo general, se muestrea un subconjunto diferente de atributos para cada nodo. Por el contrario, cuando se entrena un árbol de decisión sin muestreo de atributos, se consideran todas las características posibles para cada nodo.
condición alineada con el eje
En un árbol de decisión, una condición que solo involucra una sola función. Por ejemplo, si area
es un componente, la siguiente es una condición alineada con el eje:
area > 200
Compara esto con la condición oblicua.
B
bagging
Un método para entrenar un conjunto en el que cada modelo constituyente se entrena en un subconjunto aleatorio de ejemplos de entrenamiento muestreados con reemplazo. Por ejemplo, un bosque aleatorio es una colección de árboles de decisión entrenados con el método de agrupamiento.
El término bagging es la forma abreviada en inglés de bootstrap aggregating.
Consulta Bosques aleatorios en el curso Bosques de decisión para obtener más información.
condición binaria
En un árbol de decisión, es una condición que solo tiene dos resultados posibles, por lo general, sí o no. Por ejemplo, la siguiente es una condición binaria:
temperature >= 100
Compara esto con la condición no binaria.
Consulta Tipos de condiciones en el curso Bosques de decisión para obtener más información.
C
de transición
En un árbol de decisión, cualquier nodo que evalúe una expresión. Por ejemplo, la siguiente parte de un árbol de decisiones contiene dos condiciones:
Una condición también se denomina división o prueba.
Compara la condición con hoja.
Consulta lo siguiente:
Consulta Tipos de condiciones en el curso Bosques de decisión para obtener más información.
D
bosque de decisión
Un modelo creado a partir de varios árboles de decisión. Un bosque de decisión realiza una predicción a través de la agregación de las predicciones de sus árboles de decisión. Entre los tipos populares de bosques de decisión, se incluyen los bosques aleatorios y los árboles potenciados por gradientes.
Consulta la sección Bosques de decisión del curso Bosques de decisión para obtener más información.
árbol de decisión
Un modelo de aprendizaje supervisado compuesto por un conjunto de condiciones y hojas organizadas de forma jerárquica. Por ejemplo, el siguiente es un árbol de decisiones:
E
entropía
En la teoría de la información, es una descripción de lo impredecible que es una distribución de probabilidad. Como alternativa, la entropía también se define como la cantidad de información que contiene cada ejemplo. Una distribución tiene la entropía más alta posible cuando todos los valores de una variable aleatoria tienen la misma probabilidad.
La entropía de un conjunto con dos valores posibles "0" y "1" (por ejemplo, las etiquetas en un problema de clasificación binaria) tiene la siguiente fórmula:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
Donde:
- H es la entropía.
- p es la fracción de ejemplos de "1".
- q es la fracción de ejemplos de “0”. Ten en cuenta que q = (1 - p).
- Por lo general, log es log2. En este caso, la unidad de entropía es un bit.
Por ejemplo, supongamos lo siguiente:
- 100 ejemplos contienen el valor "1"
- 300 ejemplos contienen el valor "0".
Por lo tanto, el valor de entropía es:
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 bits por ejemplo
Un conjunto que esté perfectamente equilibrado (por ejemplo, 200 "0" y 200 "1") tendría una entropía de 1.0 bit por ejemplo. A medida que un conjunto se vuelve más desequilibrado, su entropía se mueve hacia 0.0.
En los árboles de decisión, la entropía ayuda a formular la ganancia de información para ayudar al divisor a seleccionar las condiciones durante el crecimiento de un árbol de decisión de clasificación.
Compara la entropía con lo siguiente:
- impureza de Gini
- Función de pérdida de entropía cruzada
A menudo, la entropía se denomina entropía de Shannon.
Consulta Divisor exacto para la clasificación binaria con atributos numéricos en el curso Bosques de decisión para obtener más información.
F
importancias de los atributos
Sinónimo de importancia de las variables.
G
impureza de Gini
Es una métrica similar a la entropía. Los divisores usan valores derivados de la impureza de Gini o la entropía para componer condiciones para la clasificación de árboles de decisión. La ganancia de información se deriva de la entropía. No existe un término equivalente aceptado universalmente para la métrica derivada de la impureza de Gini. Sin embargo, esta métrica sin nombre es tan importante como la ganancia de información.
La impureza de Gini también se denomina índice de Gini o simplemente Gini.
árboles (de decisión) impulsados por gradientes (GBT)
Es un tipo de bosque de decisión en el que se cumple lo siguiente:
- El entrenamiento se basa en el aumento de gradientes.
- El modelo débil es un árbol de decisión.
Consulta Árboles de decisión mejorados por gradientes en el curso Bosques de decisión para obtener más información.
potenciación del gradiente
Un algoritmo de entrenamiento en el que se entrenan modelos débiles para mejorar de forma iterativa la calidad (reducir la pérdida) de un modelo sólido. Por ejemplo, un modelo débil podría ser un modelo lineal o un árbol de decisión pequeño. El modelo sólido se convierte en la suma de todos los modelos débiles entrenados anteriormente.
En la forma más simple del aumento de gradientes, en cada iteración, se entrena un modelo débil para predecir el gradiente de pérdida del modelo fuerte. Luego, se actualiza el resultado del modelo sólido restando el gradiente previsto, similar al descenso del gradiente.
Donde:
- $F_{0}$ es el modelo fuerte inicial.
- $F_{i+1}$ es el siguiente modelo sólido.
- $F_{i}$ es el modelo fuerte actual.
- $\xi$ es un valor entre 0.0 y 1.0 llamado reducción, que es análogo a la tasa de aprendizaje en el descenso del gradiente.
- $f_{i}$ es el modelo débil entrenado para predecir el gradiente de pérdida de $F_{i}$.
Las variaciones modernas del aumento de gradiente también incluyen la segunda derivada (Hessiana) de la pérdida en su cálculo.
Los árboles de decisión suelen usarse como modelos débiles en el aumento de gradiente. Consulta árboles (de decisión) potenciados por gradientes.
I
ruta de inferencia
En un árbol de decisión, durante la inferencia, la ruta que toma un ejemplo en particular desde la raíz a otras condiciones finaliza con una hoja. Por ejemplo, en el siguiente árbol de decisión, las flechas más gruesas muestran la ruta de inferencia de un ejemplo con los siguientes valores de atributos:
- x = 7
- y = 12
- z = -3
La ruta de inferencia de la siguiente ilustración pasa por tres condiciones antes de llegar a la hoja (Zeta
).
Las tres flechas gruesas muestran la ruta de inferencia.
Consulta Árboles de decisión en el curso Bosques de decisión para obtener más información.
ganancia de información
En los bosques de decisión, la diferencia entre la entropía de un nodo y la suma ponderada (por cantidad de ejemplos) de la entropía de sus nodos secundarios. La entropía de un nodo es la entropía de los ejemplos en ese nodo.
Por ejemplo, considera los siguientes valores de entropía:
- Entropía del nodo superior = 0.6
- entropía de un nodo secundario con 16 ejemplos relevantes = 0.2
- entropía de otro nodo secundario con 24 ejemplos relevantes = 0.1
Por lo tanto, el 40% de los ejemplos se encuentra en un nodo secundario y el 60% en el otro. Por lo tanto:
- suma de entropía ponderada de los nodos secundarios = (0.4 × 0.2) + (0.6 × 0.1) = 0.14
Por lo tanto, la ganancia de información es la siguiente:
- ganancia de información = entropía del nodo superior - suma ponderada de la entropía de los nodos secundarios
- ganancia de información = 0.6 - 0.14 = 0.46
La mayoría de los divisores buscan crear condiciones que maximicen la ganancia de información.
condición del conjunto
En un árbol de decisión, es una condición que prueba la presencia de un elemento en un conjunto de elementos. Por ejemplo, la siguiente es una condición del conjunto:
house-style in [tudor, colonial, cape]
Durante la inferencia, si el valor del atributo de estilo de casa es tudor
, colonial
o cape
, esta condición se evalúa como Sí. Si el valor del atributo estilo de casa es otro (por ejemplo, ranch
), esta condición se evalúa como No.
Las condiciones del conjunto suelen generar árboles de decisión más eficientes que las condiciones que prueban atributos codificados one-hot.
L
hoja
Cualquier extremo en un árbol de decisión A diferencia de una condición, un elemento hoja no realiza una prueba. En cambio, una hoja es una predicción posible. Una hoja también es el nodo terminal de una ruta de inferencia.
Por ejemplo, el siguiente árbol de decisión contiene tres hojas:
N
nodo (árbol de decisiones)
En un árbol de decisión, cualquier condición o hoja.
condición no binaria
Es una condición que contiene más de dos resultados posibles. Por ejemplo, la siguiente condición no binaria contiene tres resultados posibles:
O
condición oblicua
En un árbol de decisión, una condición que involucra más de un atributo. Por ejemplo, si la altura y el ancho son atributos, la siguiente es una condición oblicua:
height > width
Compara esto con la condición alineada con el eje.
evaluación fuera del modelo (evaluación fuera del modelo)
Es un mecanismo para evaluar la calidad de un bosque de decisión probando cada árbol de decisión en comparación con los ejemplos que no se usaron durante el entrenamiento de ese árbol de decisión. Por ejemplo, en el siguiente diagrama, observa que el sistema entrena cada árbol de decisión en aproximadamente dos tercios de los ejemplos y, luego, realiza la evaluación en el tercio restante de los ejemplos.
La evaluación fuera del conjunto es una aproximación conservadora y eficiente en términos de procesamiento del mecanismo de validación cruzada. En la validación cruzada, se entrena un modelo para cada ronda de validación cruzada (por ejemplo, se entrenan 10 modelos en una validación cruzada por 10). Con la evaluación fuera del modelo, se entrena un solo modelo. Debido a que el bagged retiene algunos datos de cada árbol durante el entrenamiento, la evaluación fuera del conjunto puede usar esos datos para aproximar la validación cruzada.
P
importancias de las variables de permutación
Es un tipo de importancia de las variables que evalúa el aumento en el error de predicción de un modelo después de permutar los valores del atributo. La importancia de las variables de permutación es una métrica independiente del modelo.
R
bosque aleatorio
Un conjunto de árboles de decisión en el que cada árbol de decisión se entrena con un ruido aleatorio específico, como el bagging.
Los bosques aleatorios son un tipo de bosque de decisión.
raíz
El nodo inicial (la primera condición) en un árbol de decisión. Por convención, los diagramas colocan la raíz en la parte superior del árbol de decisión. Por ejemplo:
S
muestreo con reemplazo
Es un método para elegir elementos de un conjunto de elementos candidatos en el que se puede elegir el mismo elemento varias veces. La frase “con reemplazo” significa que, después de cada selección, el elemento elegido se devuelve al grupo de elementos candidatos. El método inverso, el muestreo sin reemplazo, significa que un elemento candidato solo se puede elegir una vez.
Por ejemplo, considera el siguiente conjunto de frutas:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Supongamos que el sistema elige fig
de forma aleatoria como primer elemento.
Si usas el muestreo con reemplazo, el sistema elige el segundo elemento del siguiente conjunto:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Sí, es el mismo conjunto que antes, por lo que el sistema podría volver a elegir fig
.
Si usas el muestreo sin reemplazo, una vez que se elige una muestra, no se puede volver a elegir. Por ejemplo, si el sistema elige fig
de forma aleatoria como el primer
ejemplo, no se puede volver a elegir fig
. Por lo tanto, el sistema elige la segunda muestra del siguiente conjunto (reducido):
fruit = {kiwi, apple, pear, cherry, lime, mango}
contracción
Un hiperparámetro en el aumento de gradiente que controla el ajuste excesivo. La contracción en el aumento de gradientes es análoga a la tasa de aprendizaje en el descenso de gradientes. El encogimiento es un valor decimal entre 0.0 y 1.0. Un valor de contracción más bajo reduce el sobreajuste más que un valor de contracción más alto.
split
En un árbol de decisión, es otro nombre para una condición.
divisor
Durante el entrenamiento de un árbol de decisión, la rutina (y el algoritmo) son responsables de encontrar la mejor condición en cada nodo.
T
prueba
En un árbol de decisión, es otro nombre para una condición.
umbral (para árboles de decisión)
En una condición alineada con el eje, es el valor con el que se compara una función. Por ejemplo, 75 es el valor del umbral en la siguiente condición:
grade >= 75
V
importancias de las variables
Un conjunto de puntuaciones que indica la importancia relativa de cada atributo para el modelo.
Por ejemplo, considera un árbol de decisión que estime los precios de las casas. Supongamos que este árbol de decisión usa tres atributos: tamaño, edad y estilo. Si un conjunto de importancias de las variables para las tres características es {size=5.8, age=2.5, style=4.7}, entonces el tamaño es más importante para el árbol de decisión que la edad o el estilo.
Existen diferentes métricas de importancia de las variables, que pueden informar a los expertos en la IA sobre diferentes aspectos de los modelos.
W
sabiduría de la multitud
La idea de que el promedio de las opiniones o estimaciones de un gran grupo de personas ("la multitud") suele producir resultados sorprendentemente buenos. Por ejemplo, considera un juego en el que las personas adivinan la cantidad de gomitas de gelatina que hay en un frasco grande. Aunque la mayoría de las conjeturas individuales serán imprecisas, se demostró empíricamente que el promedio de todas las conjeturas es sorprendentemente cercano a la cantidad real de gomitas de gelatina en el frasco.
Los conjuntos son un análogo de software de la sabiduría de la multitud. Incluso si los modelos individuales hacen predicciones muy imprecisas, el promedio de las predicciones de muchos modelos a menudo genera predicciones sorprendentemente buenas. Por ejemplo, aunque un árbol de decisiones individual puede hacer predicciones deficientes, un bosque de decisión suele hacer predicciones muy buenas.