Geeignete Daten für Entscheidungsforen

Entscheidungsstrukturen sind am effektivsten, wenn Sie ein tabellarisches Dataset haben (Daten, die Sie möglicherweise in einer Tabelle, CSV-Datei oder Datenbanktabelle darstellen). Tabellarische Daten sind eines der am häufigsten verwendeten Datenformate. Entscheidungs-Gesamtformate sind Ihre „gängige“ Lösung zur Modellierung.

Tabelle 1. Ein Beispiel für ein tabellarisches Dataset

Anzahl der Streckenabschnitte Anzahl der Augen Gewicht (kg) Spezies (Label)
2 2 12 Pinguin
8 6 0,1 Spinne
4 2 44 Hund

Im Gegensatz zu neuronalen Netzwerken verbrauchen Entscheidungsforscher nativ Daten zu tabellarischen Modellen. Bei der Entwicklung von Entscheidungsforen müssen Sie die folgenden Aufgaben nicht ausführen:

  • Führen Sie eine Vorverarbeitung wie die Featurenormalisierung oder One-Hot-Codierung durch.
  • Berechnen Sie den Wert, z. B. indem Sie einen fehlenden Wert durch -1 ersetzen.

Entscheidungsforen sind jedoch nicht gut dafür geeignet, nicht tabellarische Daten (z. B. unstrukturierte Daten) wie Bilder oder Text direkt zu verarbeiten. Ja, es gibt Problemumgehungen für diese Einschränkung, aber in neuronalen Netzwerken werden unstrukturierte Daten in der Regel besser verarbeitet.

Leistung

Bei der Entscheidungsfindung handelt es sich um eine effiziente Stichprobe. Entscheidungsforen sind daher gut zum Trainieren kleiner Datasets oder für Datasets geeignet, in denen das Verhältnis von Features zu vielen Beispielen hoch ist (größer als 1). Obwohl Entscheidungswälder wie bei allen Modellen für maschinelles Lernen stichprobenartig sind, erzielen sie am besten, wenn viele Daten verfügbar sind.

Entscheidungsstrukturen leiten in der Regel schneller ab als vergleichbare neuronale Netzwerke. Beispielsweise führt eine mittelgroße Entscheidungsstruktur Inferenz in wenigen Mikrosekunden auf einer modernen CPU aus.