As florestas de decisão são mais eficazes quando você tem um conjunto de dados tabular (dados que podem ser representados em uma planilha, um arquivo CSV ou uma tabela de banco de dados). Os dados tabulares são um dos formatos de dados mais comuns, e as florestas de decisão devem ser sua solução principal para modelagem.
Tabela 1. Exemplo de um conjunto de dados tabular.
Número de pernas | Número de olhos | Peso (lb) | Espécie (rótulo) |
---|---|---|---|
2 | 2 | 12 | Pinguim |
8 | 6 | 0,1 | Aranha |
4 | 2 | 44 | Cachorro |
… | … | … | … |
Ao contrário das redes neurais, as florestas de decisão consomem dados tabulares de modelos de forma nativa. Ao desenvolver florestas de decisão, você não precisa fazer tarefas como estas:
- Realize o pré-processamento, como a normalização de atributos ou a codificação one-hot.
- Fazer a imputação (por exemplo, substituir um valor ausente por
-1
).
No entanto, as florestas de decisão não são adequadas para consumir diretamente dados não tabulares (também chamados de dados não estruturados), como imagens ou texto. Sim, existem soluções alternativas para essa limitação, mas as redes neurais geralmente processam melhor os dados não estruturados.
Desempenho
As florestas de decisão são eficientes em amostras. Ou seja, as florestas de decisão são adequadas para treinamento em pequenos conjuntos de dados ou em conjuntos de dados em que a proporção de número de features / número de exemplos é alta (possivelmente maior que 1). Embora as florestas de decisão sejam eficientes em amostras, como todos os modelos de aprendizado de máquina, elas têm melhor desempenho quando há muitos dados disponíveis.
As florestas de decisão geralmente inferem mais rápido do que redes neurais comparáveis. Por exemplo, uma floresta de decisão de tamanho médio executa a inferência em algumas microssegundos em uma CPU moderna.