Rừng ngẫu nhiên

Đây là một con Ox.

Bức ảnh cũ về một con bò.

Hình 19. Một con bò.

 

Năm 1906, một cuộc thi đánh giá trọng tài được tổ chức tại Anh. 787 người tham gia đoán trọng lượng của một con bò. Lỗi trung bình của từng đối số là 37 lb (lỗi 3,1%). Tuy nhiên, giá trị trung bình tổng thể của các loài bò sát chỉ cách trọng lượng của bò (1198 lb) là 9 lb, tức là chỉ có sai số là 0,7%.

Biểu đồ của các phỏng đoán riêng lẻ, cho thấy hầu hết các phỏng đoán tập trung xung quanh trọng lượng thực của bò.

Hình 20. Biểu đồ về các lần đoán trọng lượng riêng lẻ.

 

Giai thoại này minh hoạ Sự thông thái của đám đông: Trong một số tình huống nhất định, ý kiến tập thể đưa ra đánh giá rất tốt.

Về mặt toán học, trí tuệ của đám đông có thể được mô hình hoá bằng Định lý giới hạn trung tâm: Về mặt chính thức, lỗi bình phương giữa một giá trị và giá trị trung bình của N ước tính nhiễu của giá trị này có xu hướng bằng 0 với hệ số 1/N. Tuy nhiên, nếu các biến không độc lập, thì sự chênh lệch sẽ lớn hơn.

Trong công nghệ máy học, tổng hợp là một tập hợp các mô hình có giá trị dự đoán trung bình (hoặc tổng hợp theo một cách nào đó). Nếu các mô hình tập hợp đủ khác biệt mà không quá tệ, thì chất lượng của tập hợp nói chung tốt hơn chất lượng của từng mô hình. Một quần thể cần nhiều thời gian đào tạo và dự đoán hơn so với một mô hình. Sau cùng, bạn phải thực hiện đào tạo và suy luận trên nhiều mô hình thay vì một mô hình duy nhất.

Một cách không chính thức, để một quần thể hoạt động hiệu quả nhất, các mô hình riêng lẻ phải độc lập. Hình minh hoạ, một tập hợp bao gồm 10 mô hình giống hệt nhau (tức là không độc lập chút nào) sẽ không tốt hơn từng mô hình. Mặt khác, việc buộc các mô hình độc lập có thể đồng nghĩa với việc làm cho các mô hình đó trở nên tệ hơn. Để kết hợp hiệu quả, bạn phải tìm sự cân bằng giữa sự độc lập của mô hình với chất lượng của các mô hình phụ.