デシジョン フォレストに適したデータ

決定木は、表形式のデータセット(スプレッドシート、CSV ファイル、データベース テーブルで表されるデータ)がある場合に最も効果的です。表形式のデータは最も一般的なデータ形式の一つであり、意思決定木はそれをモデリングするための「頼りになる」ソリューションです。

表 1. 表形式データセットの例。

区間の数 目の数 重量(ポンド) 種(ラベル)
2 2 12 ペンギン
8 6 0.1 クモ
4 2 44

ニューラル ネットワークとは異なり、ディシジョン フォレストはモデルの表形式データをネイティブに使用します。ディシジョン フォレストを開発する際に、次のようなタスクを行う必要はありません。

  • 特徴の正規化やワンホット エンコーディングなどの前処理を行います。
  • 補完を実行します(欠損値を -1 に置き換えるなど)。

ただし、決定木は、画像やテキストなどの表形式以外のデータ(非構造化データ)を直接使用するには適していません。はい。この制限を回避する方法はありますが、通常、ニューラル ネットワークは非構造化データをより適切に処理します。

パフォーマンス

デシジョン フォレストはサンプル効率が高いため、つまり、決定木は、小規模なデータセットや、特徴数 / サンプル数の比率が高い(1 より大きい場合もある)データセットでのトレーニングに適しています。決定木はサンプル効率が高いものの、他の ML モデルと同様に、大量のデータが利用可能な場合に最も高いパフォーマンスを発揮します。

通常、決定木は同等のニューラル ネットワークよりも高速に推論します。たとえば、中程度のサイズのディシジョン フォレストは、最新の CPU で数マイクロ秒で推論を実行します。