デシジョン フォレストは、表形式のデータセット(スプレッドシート、csv ファイル、データベース テーブルで表す可能性のあるデータ)がある場合に最も効果的です。表形式データは最も一般的なデータ形式の 1 つであり、モデリングには、デシジョン フォレストが頼りになるソリューションです。
表 1. 表形式のデータセットの例。
区間数 | 目の数 | 重量 (ポンド) | 種(ラベル) |
---|---|---|---|
2 | 2 | 12 | ペンギン |
8 | 6 | 0.1 | クモ |
4 | 2 | 44 | 犬 |
… | … | … | … |
ニューラル ネットワークとは異なり、デシジョン フォレストはモデルの表形式データをネイティブに消費します。デシジョン フォレストを開発する場合、次のようなタスクを行う必要はありません。
- 特徴の正規化やワンホット エンコードなどの前処理を実行する。
- 補完を実行します(欠損値を
-1
に置き換えるなど)。
ただし、デシジョン フォレストは表形式以外のデータ(非構造化データとも呼ばれます)を直接使用するのには適していません。はい、この制限の回避策は存在しますが、一般にニューラル ネットワークは非構造化データの取り扱い方が適切です。
Performance
デシジョン フォレストはサンプル効率が良い。つまり、デシジョン フォレストは、小規模なデータセットや、特徴数 / サンプル数の割合が高い(おそらく 1 より大きい)データセットでのトレーニングに適しています。ディシジョン フォレストは、すべての機械学習モデルと同様にサンプル効率が優れていますが、十分なデータがあるときに最も効果を発揮します。
デシジョン フォレストは通常、同等のニューラル ネットワークよりも速く推論できます。たとえば、中規模のディシジョン フォレストでは、最新の CPU に対して数マイクロ秒の推論が行われます。