Machine Learning | Google for Developers

このページは Cloud Translation API によって翻訳されました。

アウトオブバッグ評価

ランダムフォレストには検証データセットは必要ありません。ほとんどのランダムフォレストは、アウトオブバッグ評価（OOB 評価）と呼ばれる手法を使用してモデルの品質を評価します。OOB 評価では、トレーニングセットがクロスバリデーションのテストセット上にあるかのように扱われます。

前述のように、ランダムフォレストの各ディシジョンツリーは通常、トレーニングサンプルの約 67% でトレーニングされます。したがって、各ディシジョンツリーはトレーニング例の約 33% を参照しません。OOB 評価の基本的な考え方は次のとおりです。

トレーニングセットでランダムフォレストを評価します。
各例に対して、トレーニング中に例を見なかったディシジョンツリーのみを使用します。

次の表は、6 つのサンプルでトレーニングされた 3 つのディシジョンツリーを含むランダムフォレストの OOB 評価を示しています。（これは、バギングセクションの表と同じです）。この表は、OOB 評価中にどのサンプルでどのディシジョンツリーが使用されているかを示しています。

表 7. OOB 評価 - 数字は、特定の例のトレーニング中に特定のトレーニングサンプルが使用された回数を表します。

	トレーニングサンプル						OOB 評価の例
	#1	#2	#3	#4	#5	#6
元のデータセット	1	1	1	1	1	1
ディシジョンツリー 1	1	1	0	2	1	1	#3
ディシジョンツリー 2	3	0	1	0	2	0	#2、#4、#6
ディシジョンツリー 3	0	1	3	1	0	1	1 と 5

表 7 の例では、トレーニング例 1 の OOB 予測はディシジョンツリー #3 で計算されます（ディシジョンツリー #1 と #2 はこの例をトレーニングに使用したため）。実際には、適度なサイズのデータセットといくつかのディシジョンツリーでは、すべてのサンプルに OOB 予測があります。

YDF コード

YDF では、モデルが compute_oob_performances=True でトレーニングされている場合、トレーニングログで OOB 評価を使用できます。

OOB 評価は、ランダムフォレストモデルの置換変数の重要度を計算する場合にも効果的です。変数の重要度で説明したように、Permutation Variable Importance は、この変数がシャッフルされたときのモデル品質の低下を測定して、変数の重要度を測定します。ランダムフォレストの「OOB 置換変数の重要度」は、OOB 評価を使用して計算された置換変数の重要度です。

YDF コード

YDF では、モデルが compute_oob_variable_importances=True でトレーニングされている場合、OOB 並べ替え変数の重要度はトレーニングログで確認できます。

理解度を確認する

その他のトピック