このページは Cloud Translation API によって翻訳されました。

ディシジョンツリーの拡大

すべての教師あり ML モデルと同様に、ディシジョンツリーは、一連のトレーニングサンプルを最も適切に説明するようにトレーニングされます。ディシジョンツリーの最適なトレーニングは NP 困難な問題です。したがって、トレーニングは通常、ヒューリスティクスを使用して行われます。ヒューリスティクスは、最適ではないが最適に近い決定木を生成できる、作成が簡単な学習アルゴリズムです。

ディシジョンツリーのトレーニングに使用されるほとんどのアルゴリズムは、貪欲な分割統治戦略で動作します。このアルゴリズムは、単一のノード（ルート）を作成することから始まり、再帰的に貪欲に決定木を成長させます。

各ノードで、考えられるすべての条件が評価され、スコアが付けられます。アルゴリズムは「最適な」条件（スコアが最も高い条件）を選択します。スコアはタスクと関連する指標であり、その指標を最大化するように条件が選択されることを理解しておいてください。

たとえば、Palmer Penguins データセット（このコースの後半のコード例で使用）では、ほとんどのアデリーペンギンとチンストラップペンギンのくちばしの長さが 16 mm を超えるのに対し、ほとんどのジェンツーペンギンのくちばしの長さは短くなります。したがって、条件 bill_length_mm ≥ 16 はジェンツーペンギンの予測をほぼ完璧に行うことができますが、アデリーペンギンとチンストラップペンギンを区別することはできません。アルゴリズムはおそらくこの条件を選択します。

1 つの条件が 2 つのリーフにつながっている。条件は「bill_length_mm >= 16」です。ある場合は、葉は「Adelie or Chinstrap」です。ない場合、リーフは「Gentoo」です。

図 7. 木を育てる最初のステップです。

その後、アルゴリズムは両方の子ノードで再帰的に独立して繰り返します。条件を満たすノードが見つからない場合、ノードはリーフになります。リーフ予測は、サンプルで最も代表的なラベル値として決定されます。

アルゴリズムは次のとおりです。

def train_decision_tree(training_examples):
  root = create_root() # Create a decision tree with a single empty root.
  grow_tree(root, training_examples) # Grow the root node.
  return root

def grow_tree(node, examples):
  condition = find_best_condition(examples) # Find the best condition.

  if condition is None:
    # No satisfying conditions were found, therefore the grow of the branch stops.
    set_leaf_prediction(node, examples)
    return

  # Create two childrens for the node.
  positive_child, negative_child = split_node(node, condition)

  # List the training examples used by each children.
  negative_examples = [example for example in examples if not condition(example)]
  positive_examples = [example for example in examples if condition(example)]

  # Continue the growth of the children.
  grow_tree(negative_child, negative_examples)
  grow_tree(positive_child, positive_examples)

特定のディシジョンツリーをトレーニングする手順について詳しく説明します。

ステップ 1: ルートを作成します。

疑問符が付いたノード。