デシジョン フォレストに適したデータ
決定木は、表形式のデータセット(スプレッドシート、CSV ファイル、データベース テーブルで表されるデータ)がある場合に最も効果的です。表形式のデータは最も一般的なデータ形式の一つであり、意思決定木はそれをモデリングするための「頼りになる」ソリューションです。
表 1. 表形式データセットの例。
区間の数 |
目の数 |
重量(ポンド) |
種(ラベル) |
2 | 2 | 12 | ペンギン |
8 | 6 | 0.1 | クモ |
4 | 2 | 44 | 犬 |
… | … | … | … |
ニューラル ネットワークとは異なり、ディシジョン フォレストはモデルの表形式データをネイティブに使用します。ディシジョン フォレストを開発する際に、次のようなタスクを行う必要はありません。
- 特徴の正規化やワンホット エンコーディングなどの前処理を行います。
- 補完を実行します(欠損値を
-1
に置き換えるなど)。
ただし、決定木は、画像やテキストなどの表形式以外のデータ(非構造化データ)を直接使用するには適していません。はい。この制限を回避する方法はありますが、通常、ニューラル ネットワークは非構造化データをより適切に処理します。
デシジョン フォレストはサンプル効率が高いため、つまり、決定木は、小規模なデータセットや、特徴数 / サンプル数の比率が高い(1 より大きい場合もある)データセットでのトレーニングに適しています。決定木はサンプル効率が高いものの、他の ML モデルと同様に、大量のデータが利用可能な場合に最も高いパフォーマンスを発揮します。
通常、決定木は同等のニューラル ネットワークよりも高速に推論します。たとえば、中程度のサイズのディシジョン フォレストは、最新の CPU で数マイクロ秒で推論を実行します。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-02-25 UTC。
[null,null,["最終更新日 2025-02-25 UTC。"],[[["Decision forests are highly effective for modeling tabular data, making them a primary choice for datasets commonly found in spreadsheets, CSV files, or databases."],["Unlike neural networks, decision forests directly handle tabular data without requiring preprocessing steps like feature normalization or imputation."],["While decision forests can be adapted for non-tabular data like images or text, neural networks are generally better suited for such data types."],["Decision forests are sample efficient, performing well even with small datasets or those with a high feature-to-example ratio, but still benefit from larger datasets."],["Decision forests offer faster inference speeds compared to neural networks, typically completing predictions within microseconds on modern CPUs."]]],[]]