랜덤 포레스트
컬렉션을 사용해 정리하기
내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.
황소입니다.
그림 19. 황소입니다.
1906년 영국에서 체중 심사 대회가 열렸습니다.
787명의 참여자가 소의 무게를 추측했습니다. 개별 추측의 중앙값 오류는 37파운드 (3.1% 오류)였습니다. 하지만 추측의 전반적인 중앙값은 황소의 실제 무게(1,198파운드)에서 9파운드(0.7%)밖에 차이가 나지 않았습니다.

그림 20. 개별 체중 추측의 히스토그램입니다.
이 일화는 집단지성을 보여줍니다. 특정 상황에서는 집단의 의견이 매우 좋은 판단을 제공합니다.
수학적으로는 중앙 극한 정리를 사용하여 군중의 지혜를 모델링할 수 있습니다. 비공식적으로는 값과 이 값의 노이즈가 있는 추정치 N개 평균 간의 제곱 오차가 1/N 계수와 함께 0으로 수렴합니다.
그러나 변수가 독립적이지 않으면 분산이 더 큽니다.
머신러닝에서 앙상블은 예측이 평균화되거나 어떤 방식으로든 집계되는 모델 모음입니다. 앙상블 모델이 개별적으로 너무 나쁘지 않으면서도 충분히 다르면 일반적으로 앙상블의 품질이 각 개별 모델의 품질보다 우수합니다. 앙상블에는 단일 모델보다 더 많은 학습 및 추론 시간이 필요합니다. 결국 단일 모델이 아닌 여러 모델에서 학습 및 추론을 실행해야 합니다.
비공식적으로, 앙상블이 가장 잘 작동하려면 개별 모델이 독립적이어야 합니다. 예를 들어 정확히 동일한 10개의 모델 (즉, 전혀 독립적이지 않음)로 구성된 앙상블은 개별 모델보다 나을 수 없습니다. 반면에 모델을 독립적으로 강제하면 모델이 더 나빠질 수 있습니다. 효과적인 앙상블링을 위해서는 모델 독립성과 하위 모델의 품질 간의 균형을 찾아야 합니다.
달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.
최종 업데이트: 2025-07-27(UTC)
[null,null,["최종 업데이트: 2025-07-27(UTC)"],[[["\u003cp\u003eThe "wisdom of the crowd" suggests that collective opinions can provide surprisingly accurate judgments, as demonstrated by a 1906 ox weight-guessing competition where the collective guess was remarkably close to the true weight.\u003c/p\u003e\n"],["\u003cp\u003eThis phenomenon can be explained by the Central Limit Theorem, which states that the average of multiple independent estimates tends to converge towards the true value.\u003c/p\u003e\n"],["\u003cp\u003eIn machine learning, ensembles leverage this principle by combining predictions from multiple models, improving overall accuracy when individual models are sufficiently diverse and reasonably accurate.\u003c/p\u003e\n"],["\u003cp\u003eWhile ensembles require more computational resources, their enhanced predictive performance often outweighs the added cost, especially when individual models are carefully selected and combined.\u003c/p\u003e\n"],["\u003cp\u003eAchieving optimal ensemble performance involves striking a balance between ensuring model independence to avoid redundant predictions and maintaining the individual quality of sub-models for overall accuracy.\u003c/p\u003e\n"]]],[],null,["# Random Forest\n\n\u003cbr /\u003e\n\nThis is an Ox.\n\n\n**Figure 19. An ox.**\n\n\u003cbr /\u003e\n\nIn 1906, a [weight judging competition was held in\nEngland](https://www.nature.com/articles/075450a0.pdf).\n787 participants guessed the weight of an ox. The median *error* of individual\nguesses was 37 lb (an error of 3.1%). However, the overall median of the\nguesses was only 9 lb away from the real weight of the ox (1198 lb), which was\nan error of only 0.7%.\n\n**Figure 20. Histogram of individual weight guesses.**\n\nThis anecdote illustrates the\n[Wisdom of the crowd](/machine-learning/glossary#wisdom_of_the_crowd): *In\ncertain situations, collective opinion provides very good judgment.*\n\nMathematically, the wisdom of the crowd can be modeled with the\n[Central limit theorem](https://wikipedia.org/wiki/Central_limit_theorem):\nInformally, the squared error between a value and the average of N noisy\nestimates of this value tends to zero with a 1/N factor.\nHowever, if the variables are not independent, the variance is greater.\n\nIn machine learning, an\n**[ensemble](/machine-learning/glossary#ensemble)** is a collection of models\nwhose predictions are averaged (or aggregated in some way). If the ensemble\nmodels are different enough without being too bad individually, the quality of\nthe ensemble is generally better than the quality of each of the individual\nmodels. An ensemble requires more training and inference time than a single\nmodel. After all, you have to perform training and inference on multiple models\ninstead of a single model.\n\nInformally, for an ensemble to work best, the individual models should be\nindependent. As an illustration, an ensemble composed of 10 of the exact same\nmodels (that is, not independent at all) won't be better than the individual\nmodel. On the other hand, forcing models to be independent could mean making\nthem worse. Effective ensembling requires finding the balance between model\nindependence and the quality of its sub-models."]]