ランダム フォレスト
これは牛です。
図 19. 牛。
1906 年、イングランドで重量審査大会が開催されました。787 人の参加者が牛の体重を推測しました。個々の推測の誤差の中央値は 37 lb(3.1% の誤差)でした。ただし、推測の全体的な中央値は、牛の実際の体重(1,198 lb)からわずか 9 lb であり、誤差はわずか 0.7% でした。
![image_tooltip 個々の推測のヒストグラム。ほとんどの推測は、牛の実際の体重を中心にクラスタ化されています。](https://developers.google.cn/static/machine-learning/decision-forests/images/HistogramOfWeightGuesses.png?authuser=19&hl=ja)
図 20. 個々の体重の推測のヒストグラム。
この逸話は、多くの人々の知恵を表しています。特定の状況においては、集合的な意見によって優れた判断を下すことができます。
数学的には、群衆の知恵は中央限界定理でモデル化できます。非公式では、値とこの値の N 個のノイズ平均の平均の間の二乗誤差は、1/N の係数でゼロになる傾向があります。ただし、変数が独立していない場合、分散は大きくなります。
機械学習において、アンサンブルは予測が平均化される(またはなんらかの方法で集約される)モデルのコレクションです。アンサンブル モデルは、個々に劣ることなく十分に異なるものである場合、一般に、各モデルの品質よりもアンサンブルの品質が高くなります。アンサンブルは、単一のモデルよりも多くのトレーニングと推論の時間を必要とします。要するに、単一のモデルではなく、複数のモデルに対してトレーニングと推論を行う必要があります。
非公式にアンサンブルを動作させるためには、個々のモデルを独立させる必要があります。たとえば、まったく同じモデル 10 個で構成されたアンサンブル(まったく独立していない場合)は、個々のモデルよりも優れません。一方、モデルを独立させることは、モデルの悪化につながる可能性があります。効果的なアンサンブルには、モデルの独立性とそのサブモデルの品質のバランスを見つける必要があります。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2022-09-26 UTC。
[null,null,["最終更新日 2022-09-26 UTC。"],[[["The \"wisdom of the crowd\" suggests that collective opinions can provide surprisingly accurate judgments, as demonstrated by a 1906 ox weight-guessing competition where the collective guess was remarkably close to the true weight."],["This phenomenon can be explained by the Central Limit Theorem, which states that the average of multiple independent estimates tends to converge towards the true value."],["In machine learning, ensembles leverage this principle by combining predictions from multiple models, improving overall accuracy when individual models are sufficiently diverse and reasonably accurate."],["While ensembles require more computational resources, their enhanced predictive performance often outweighs the added cost, especially when individual models are carefully selected and combined."],["Achieving optimal ensemble performance involves striking a balance between ensuring model independence to avoid redundant predictions and maintaining the individual quality of sub-models for overall accuracy."]]],[]]