Datos adecuados para bosques de decisión

Los bosques de decisión son más eficaces cuando tienes un conjunto de datos tabular (datos que puedes representar en una hoja de cálculo, un archivo CSV o una tabla de base de datos). Los datos tabulares son uno de los formatos de datos más comunes, y los bosques de decisión deben ser tu solución preferida para modelarlos.

Tabla 1: Un ejemplo de un conjunto de datos tabular.

Cantidad de etapas Cantidad de ojos Peso (lb) Especies (etiqueta)
2 2 12 Pingüino
8 6 0.1 Araña
4 2 44 Perro

A diferencia de las redes neuronales, los bosques de decisión consumen datos tabulares de forma nativa. Cuando desarrollas bosques de decisión, no tienes que realizar tareas como las siguientes:

  • Realizar procesamientos previos, como la normalización de atributos o la codificación one-hot
  • Realiza la asignación (por ejemplo, reemplaza un valor faltante por -1).

Sin embargo, los bosques de decisión no son adecuados para consumir directamente datos no tabulares (también llamados datos no estructurados), como imágenes o texto. Sí, existen soluciones alternativas para esta limitación, pero las redes neuronales, en general, controlan mejor los datos no estructurados.

Rendimiento

Los bosques de decisión son eficientes en cuanto a las muestras. Es decir, los bosques de decisión son adecuados para el entrenamiento en conjuntos de datos pequeños o en conjuntos de datos en los que la proporción de atributos y ejemplos es alta (posiblemente mayor que 1). Aunque los bosques de decisión son eficientes en cuanto a muestras, como todos los modelos de aprendizaje automático, estos funcionan mejor cuando hay muchos datos disponibles.

Por lo general, los bosques de decisión infieren más rápido que las redes neuronales comparables. Por ejemplo, un bosque de decisión de tamaño mediano ejecuta la inferencia en unos pocos microsegundos en una CPU moderna.