ランダム フォレスト

これは牛です。

牛の昔の写真。

図 19. 牛。

 

1906 年、イングランドで重量審査大会が開催されました。787 人の参加者が牛の体重を推測しました。個々の推測の誤差の中央値は 37 lb(3.1% の誤差)でした。ただし、推測の全体的な中央値は、牛の実際の体重(1,198 lb)からわずか 9 lb であり、誤差はわずか 0.7% でした。

個々の推測のヒストグラム。ほとんどの推測は、牛の実際の体重を中心にクラスタ化されています。

図 20. 個々の体重の推測のヒストグラム。

 

この逸話は、多くの人々の知恵を表しています。特定の状況においては、集合的な意見によって優れた判断を下すことができます。

数学的には、群衆の知恵は中央限界定理でモデル化できます。非公式では、値とこの値の N 個のノイズ平均の平均の間の二乗誤差は、1/N の係数でゼロになる傾向があります。ただし、変数が独立していない場合、分散は大きくなります。

機械学習において、アンサンブルは予測が平均化される(またはなんらかの方法で集約される)モデルのコレクションです。アンサンブル モデルは、個々に劣ることなく十分に異なるものである場合、一般に、各モデルの品質よりもアンサンブルの品質が高くなります。アンサンブルは、単一のモデルよりも多くのトレーニングと推論の時間を必要とします。要するに、単一のモデルではなく、複数のモデルに対してトレーニングと推論を行う必要があります。

非公式にアンサンブルを動作させるためには、個々のモデルを独立させる必要があります。たとえば、まったく同じモデル 10 個で構成されたアンサンブル(まったく独立していない場合)は、個々のモデルよりも優れません。一方、モデルを独立させることは、モデルの悪化につながる可能性があります。効果的なアンサンブルには、モデルの独立性とそのサブモデルの品質のバランスを見つける必要があります。