ML 用語集: デシジョン フォレスト

このページでは、デシジョン フォレストの用語集の用語について説明します。用語集のすべての用語については、こちらをクリックしてください。

A

属性サンプリング

#df

ディシジョン フォレストをトレーニングするための戦術。各ディシジョン ツリーは、条件を学習するときに、可能な特徴のランダムなサブセットのみを考慮します。通常、ノードごとに異なる特徴量のサブセットがサンプリングされます。一方、属性サンプリングなしで決定木をトレーニングする場合、各ノードに対して考えられるすべての特徴が考慮されます。

軸合わせ条件

#df

ディシジョン ツリーでは、単一の特徴のみを含む条件。たとえば、area が特徴である場合、次は軸に沿った条件です。

area > 200

斜め条件とは対照的です。

B

バギング

#df

アンサンブルトレーニングする方法。各構成要素のモデルは、置換サンプリングされたトレーニング サンプルのランダムなサブセットでトレーニングします。たとえば、ランダム フォレストは、バギングでトレーニングされたディシジョン ツリーのコレクションです。

bagging という用語は、bootstrap aggregating の略です。

詳細については、意思決定木コースのランダム フォレストをご覧ください。

バイナリ条件

#df

ディシジョン ツリーで、結果が 2 つ(通常は「はい」または「いいえ」)しかない条件。たとえば、次はバイナリ条件です。

temperature >= 100

バイナリ以外の条件とは対照的です。

詳細については、決定木コースの条件の種類をご覧ください。

C

商品の状態(condition)

#df

ディシジョン ツリーでは、式を評価するノード。たとえば、次の部分の分類ツリーには 2 つの条件が含まれています。

(x > 0)と(y > 0)の 2 つの条件で構成されるディシジョン ツリー。

条件は、分割またはテストとも呼ばれます。

とのコントラスト条件。

関連項目:

詳細については、決定木コースの条件の種類をご覧ください。

D

デシジョン フォレスト

#df

複数のディシジョン ツリーから作成されたモデル。デシジョン フォレストは、ディシジョン ツリーの予測を集約して予測を行います。よく使用されるディシジョン フォレストのタイプには、ランダム フォレスト勾配ブースト ツリーがあります。

詳細については、決定木コースの決定木のセクションをご覧ください。

ディシジョン ツリー

#df

一連の条件と階層的に編成されたリーフで構成される教師あり学習モデル。たとえば、次の図は意思決定ツリーを示しています。

4 つの条件からなるディシジョン ツリーが階層的に配置され、5 つのリーフにつながっています。

E

エントロピー

#df

情報理論では、確率分布がどれほど予測不可能かを記述します。エントロピーは、各に含まれる情報量としても定義されます。分布のエントロピーが最大になるのは、確率変数のすべての値が同等の確率で発生する場合です。

2 つの可能な値「0」と「1」を持つセット(バイナリ分類問題のラベルなど)のエントロピーは、次の式で表されます。

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

ここで

  • H はエントロピーです。
  • p は「1」の例の割合です。
  • q は「0」の例の割合です。q = (1 - p) です。
  • log は通常 log2 です。この場合、エントロピーの単位はビットです。

たとえば、次のように仮定します。

  • 100 個のサンプルに値「1」が含まれている
  • 300 件のサンプルに値「0」が含まれている

したがって、エントロピー値は次のようになります。

  • p = 0.25
  • q = 0.75
  • H =(-0.25)log2(0.25)-(0.75)log2(0.75)= 0.81 ビット / サンプル

完全にバランスが取れたセット(200 個の「0」と 200 個の「1」など)では、エントロピーは例あたり 1.0 ビットになります。セットのアンバランスが増加すると、エントロピーは 0.0 に近づきます。

分類ツリーでは、エントロピーは情報量の増加を定式化して、分類分類ツリーの成長中に分割ツール条件を選択するのに役立ちます。

エントロピーを次と比較します。

エントロピーは、シャノンのエントロピーとも呼ばれます。

詳細については、意思決定木コースの数値特徴量を使用した二値分類の Exact スプリッタをご覧ください。

F

特徴の重要度

#df

変数の重要度と同義。

G

ジニ不純度

#df

エントロピーに似た指標。分割ツールは、Gini 不純物またはエントロピーから導出された値を使用して、分類決定木条件を作成します。情報量の増加はエントロピーから導出されます。ジニ不純度から導出された指標に、広く認められた同等の用語はありません。ただし、この名前のない指標は情報量の増加と同じくらい重要です。

ジニ不純度は、ジニ係数または単にジニとも呼ばれます。

勾配ブースト(ディシジョン)ツリー(GBT)

#df

デシジョン フォレストの一種で、次のような特徴があります。

詳細については、ディシジョン フォレスト コースの勾配ブースト決定ツリーをご覧ください。

勾配ブースト

#df

弱いモデルをトレーニングして、強力なモデルの品質を反復的に改善(損失を削減)するトレーニング アルゴリズム。たとえば、弱いモデルには、線形モデルや小規模なディシジョン ツリー モデルがあります。強力なモデルは、以前にトレーニングされたすべての弱いモデルの合計になります。

最も単純な形の勾配ブーストでは、反復処理のたびに弱いモデルがトレーニングされ、強力なモデルの損失勾配が予測されます。次に、勾配降下法と同様に、予測された勾配を減算して、強力なモデルの出力を更新します。

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

ここで

  • $F_{0}$ は開始時の強力なモデルです。
  • $F_{i+1}$ は次の強力なモデルです。
  • $F_{i}$ は現在の強力なモデルです。
  • $\xi$ は 0.0 ~ 1.0 の値で、縮小と呼ばれます。これは、勾配降下法の学習率に似ています。
  • $f_{i}$ は、$F_{i}$ の損失勾配を予測するようにトレーニングされた弱いモデルです。

最新の勾配ブーストのバリエーションでは、損失の 2 階微分(ヘッセ)も計算に含めています。

ディシジョン ツリーは、勾配ブーストで弱いモデルとしてよく使用されます。勾配ブースト(ディシジョン)ツリーをご覧ください。

I

推論パス

#df

ディシジョン ツリーでは、推論中に、特定のルートから他の条件に移動し、リーフで終了します。たとえば、次の意思決定ツリーでは、太い矢印は、次の特徴値を持つ例の推論パスを示しています。

  • x = 7
  • y = 12
  • z = -3

次の図の推論パスは、リーフ(Zeta)に到達する前に 3 つの条件を通過します。

4 つの条件と 5 つのリーフで構成されるディシジョン ツリー。ルート条件は(x > 0)です。答えが「はい」であるため、推論パスはルートから次の条件(y > 0)に移動します。答えが「はい」であるため、推論パスは次の条件(z > 0)に移動します。答えが「いいえ」であるため、推論パスは終端ノード(リーフ(Zeta))に移動します。

3 つの太い矢印は推論パスを示しています。

詳細については、ディシジョン フォレスト コースのディシジョン ツリーをご覧ください。

情報利得

#df

ディシジョン フォレストでは、ノードのエントロピーと、その子ノードのエントロピーの重み付け(例数による)の合計の差です。ノードのエントロピーは、そのノードのサンプルのエントロピーです。

たとえば、次のエントロピー値について考えてみましょう。

  • 親ノードのエントロピー = 0.6
  • 関連する例が 16 個ある 1 つの子ノードのエントロピー = 0.2
  • 関連する例が 24 個ある別の子ノードのエントロピー = 0.1

つまり、例の 40% が 1 つの子ノードに、60% がもう 1 つの子ノードに分類されます。そのため、次のようになります。

  • 子ノードの加重エントロピーの合計 =(0.4 × 0.2)+(0.6 × 0.1)= 0.14

したがって、情報利得は次のようになります。

  • 情報利得 = 親ノードのエントロピー - 子ノードの重み付けエントロピーの合計
  • 情報利得 = 0.6 - 0.14 = 0.46

ほとんどの分割ツールは、情報量を最大化する条件を作成しようとします。

セット内の条件

#df

ディシジョン ツリーでは、アイテムのセット内に 1 つのアイテムが存在するかどうかをテストする条件。たとえば、次はセット内条件です。

  house-style in [tudor, colonial, cape]

推論中に、住宅スタイルの特徴量の値が tudorcolonial、または cape の場合、この条件は「はい」と評価されます。住宅スタイルの特徴の値が他の場合(ranch など)は、この条件は「いいえ」と評価されます。

通常、セット内条件は、ワンホット エンコードされた特徴をテストする条件よりも効率的なディシジョン ツリーにつながります。

L

#df

ディシジョン ツリー内の任意のエンドポイント。リーフは、条件とは異なり、テストを実行しません。むしろ、リーフは可能な予測です。リーフは、推論パスの終端ノードでもあります。

たとえば、次のディシジョン ツリーには 3 つのリーフがあります。

2 つの条件から 3 つのリーフに至るディシジョン ツリー。

N

ノード(ディシジョン ツリー)

#df

ディシジョン ツリー内の条件またはリーフ

2 つの条件と 3 つのリーフを含むディシジョン ツリー。

ノンバイナリー条件

#df

2 つを超える結果が想定される条件。たとえば、次の非バイナリ条件には、次の 3 つの結果が考えられます。

3 つの結果につながる条件(number_of_legs = ?)。1 つの結果(number_of_legs = 8)は、spider という名前のリーフにつながります。2 番目の結果(number_of_legs = 4)は、dog という名前のリーフにつながります。3 つ目の結果(number_of_legs = 2)は、penguin という名前のリーフにつながります。

O

斜め状態

#df

ディシジョン ツリーでは、複数の特徴が関係する条件。たとえば、高さと幅の両方が特徴量である場合、次の条件は斜め条件です。

  height > width

軸方向の条件とは対照的です。

アウトオブバッグ評価(OOB 評価)

#df

ディシジョン ツリーを、そのディシジョン ツリーのトレーニング使用されていないと比較して、ディシジョン フォレストの品質を評価するメカニズム。たとえば、次の図では、システムが各デシジョン ツリーを約 3 分の 2 の例でトレーニングし、残りの 3 分の 1 の例で評価していることがわかります。

3 つのディシジョン ツリーで構成されるディシジョン フォレスト。1 つのディシジョン ツリーはサンプルの 3 分の 2 でトレーニングし、残りの 3 分の 1 を OOB 評価に使用します。2 つ目の決定木は、前の決定木とは異なる 3 分の 2 の例でトレーニングし、前の決定木とは異なる 3 分の 1 を使用して OOB 評価を行います。

アウトオブバッグ評価は、クロス バリデーション メカニズムの計算効率が高く保守的な近似です。クロス バリデーションで、クロス バリデーション ラウンドごとに 1 つのモデルがトレーニングされます(10 分割クロス バリデーションで 10 個のモデルがトレーニングされます)。OOB 評価では、単一のモデルがトレーニングされます。バギングではトレーニング中に各ツリーから一部のデータが保持されるため、OOB 評価ではそのデータを使用してクロス バリデーションを近似できます。

P

順列変数の重要度

#df

特徴量の値を並べ替えたのモデルの予測誤差の増加を評価する変数重要度の一種。変数の並べ替えの重要度は、モデルに依存しない指標です。

R

ランダム フォレスト

#df

ディシジョン ツリーアンサンブル。各ディシジョン ツリーは、バギングなどの特定のランダム ノイズでトレーニングされます。

ランダム フォレストは、デシジョン フォレストの一種です。

root

#df

分類ツリーの開始ノード(最初の条件)。ディシジョン ツリーを図で表す場合、ルートをツリーの上部に配置するのが一般的です。次に例を示します。

2 つの条件と 3 つのリーフを含むディシジョン ツリー。開始条件(x > 2)がルートです。

S

置換サンプリング

#df

同じアイテムを複数回選択できる候補アイテムのセットからアイテムを選択する方法。「置換あり」とは、選択のたびに、選択したアイテムが候補アイテムのプールに返されることを意味します。逆の方法である置換なしのサンプリングでは、候補アイテムを選択できるのは 1 回だけです。

たとえば、次のフルーツセットについて考えてみましょう。

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

システムが最初のアイテムとして fig をランダムに選択したとします。置換ありサンプリングを使用する場合、システムは次のセットから 2 番目のアイテムを選択します。

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

はい。これは以前と同じセットであるため、システムは fig を再度選択する可能性があります。

入れ替えなしのサンプリングを使用する場合、一度選択したサンプルを再度選択することはできません。たとえば、システムが最初のサンプルとして fig をランダムに選択した場合、fig を再度選択することはできません。そのため、システムは次の(削減された)セットから 2 番目のサンプルを選択します。

fruit = {kiwi, apple, pear, cherry, lime, mango}

縮み

#df

勾配ブーストハイパーパラメータ過剰適合を制御します。勾配ブーストの縮小は、勾配降下学習率に似ています。収縮は 0.0 ~ 1.0 の小数値です。収縮値が小さいほど、収縮値が大きい場合よりも過剰適合が軽減されます。

分割

#df

分岐図では、条件の別名。

分割バー

#df

デシジョン ツリーのトレーニング中に、各ノードで最適な条件を見つけるルーティン(およびアルゴリズム)。

T

test

#df

分岐図では、条件の別名。

しきい値(ディシジョン ツリーの場合)

#df

軸に沿った条件では、特徴量が比較される値。たとえば、次の条件のしきい値は 75 です。

grade >= 75

V

変数の重要度

#df

モデルに対する各特徴量の相対的な重要度を示すスコアのセット。

たとえば、住宅価格を推定する意思決定ツリーについて考えてみましょう。このディシジョン ツリーでサイズ、年齢、スタイルの 3 つの特徴を使用するとします。3 つの特徴量の変数の重要性のセットが {size=5.8, age=2.5, style=4.7} と計算された場合、サイズは年齢やスタイルよりも決定木にとって重要です。

さまざまな変数の重要度指標があり、ML の専門家はモデルのさまざまな側面について情報を得ることができます。

W

群知の知恵

#df

大勢の人々(「群衆」)の意見や推定値を平均すると、驚くほど良い結果が得られることが多いという考え方。たとえば、大きなジャーに詰められたジェリービーンズの数を推測するゲームについて考えてみましょう。個々の推測のほとんどは不正確ですが、すべての推測の平均は、実証的に、ジャーに入っている実際のゼリービーンズの数に驚くほど近いことがわかっています。

アンサンブルは、クラウドソースのソフトウェア アナログです。個々のモデルの予測が非常に不正確であっても、多くのモデルの予測を平均化すると、驚くほど優れた予測が得られることがあります。たとえば、個々のディシジョン ツリーでは予測が不十分な場合でも、ディシジョン フォレストでは非常に優れた予測が得られることがあります。