Datos adecuados para los bosques de decisión

Los bosques de decisión son más eficaces cuando tienes un conjunto de datos tabular (datos que podrías representar en una hoja de cálculo, un archivo CSV o una tabla de base de datos). Los datos tabulares son uno de los formatos de datos más comunes, y los bosques de decisión deben ser tu solución “principal” para modelarlos.

Tabla 1. Ejemplo de un conjunto de datos tabular.

Cantidad de tramos Cantidad de ojos Peso (lb) Especie (etiqueta)
2 2 12 Pingüino
8 6 0.1 Araña
4 2 44 Perro

A diferencia de las redes neuronales, los bosques de decisión consumen datos tabulares de modelos de forma nativa. Cuando desarrollas bosques de decisión, no tienes que realizar tareas como las siguientes:

  • Realiza el procesamiento previo, como la normalización de atributos o la codificación one-hot.
  • Realizar la imputación (por ejemplo, reemplazar un valor faltante por -1)

Sin embargo, los bosques de decisión no son adecuados para consumir directamente datos no tabulares (también llamados datos no estructurados), como imágenes o texto. Sí, existen soluciones alternativas para esta limitación, pero las redes neuronales suelen manejar mejor los datos no estructurados.

Rendimiento

Los bosques de decisión son eficientes en muestras. Es decir, los bosques de decisión son adecuados para el entrenamiento en conjuntos de datos pequeños o en conjuntos de datos en los que la proporción de la cantidad de atributos / cantidad de ejemplos es alta (posiblemente superior a 1). Aunque los bosques de decisión son eficientes en muestras, como todos los modelos de aprendizaje automático, funcionan mejor cuando hay muchos datos disponibles.

Los bosques de decisión suelen inferir más rápido que las redes neuronales comparables. Por ejemplo, un bosque de decisión de tamaño mediano ejecuta la inferencia en unos pocos microsegundos en una CPU moderna.