決定木は、表形式のデータセット(スプレッドシート、CSV ファイル、データベース テーブルで表されるデータ)がある場合に最も効果的です。表形式のデータは最も一般的なデータ形式の一つであり、意思決定木はそれをモデリングするための「頼りになる」ソリューションです。
表 1. 表形式データセットの例。
区間の数 | 目の数 | 重量(ポンド) | 種(ラベル) |
---|---|---|---|
2 | 2 | 12 | ペンギン |
8 | 6 | 0.1 | クモ |
4 | 2 | 44 | 犬 |
… | … | … | … |
ニューラル ネットワークとは異なり、ディシジョン フォレストはモデルの表形式データをネイティブに使用します。ディシジョン フォレストを開発する際に、次のようなタスクを行う必要はありません。
- 特徴の正規化やワンホット エンコーディングなどの前処理を行います。
- 補完を実行します(欠損値を
-1
に置き換えるなど)。
ただし、決定木は、画像やテキストなどの表形式以外のデータ(非構造化データ)を直接使用するには適していません。はい。この制限を回避する方法はありますが、通常、ニューラル ネットワークは非構造化データをより適切に処理します。
パフォーマンス
デシジョン フォレストはサンプル効率が高いため、つまり、決定木は、小規模なデータセットや、特徴数 / サンプル数の比率が高い(1 より大きい場合もある)データセットでのトレーニングに適しています。決定木はサンプル効率が高いものの、他の ML モデルと同様に、大量のデータが利用可能な場合に最も高いパフォーマンスを発揮します。
通常、決定木は同等のニューラル ネットワークよりも高速に推論します。たとえば、中程度のサイズのディシジョン フォレストは、最新の CPU で数マイクロ秒で推論を実行します。