Rừng ngẫu nhiên

Đây là bò.

Một bức ảnh rất cũ về một con bò.

Hình 19. Bò.

 

Năm 1906, một cuộc thi đánh giá trọng lượng đã được tổ chức ở Vương quốc Anh. 787 người tham gia đoán trọng lượng của một con bò. Lỗi trung bình của các lần đoán riêng lẻ là 37 lb (lỗi 3,1%). Tuy nhiên, trung vị tổng thể của các con số dự đoán chỉ chênh lệch 4 kg so với trọng lượng thực của con bò (1.198 kg), tức là chỉ sai số 0,7%.

Biểu đồ về các lần đoán riêng lẻ, cho thấy hầu hết các lần đoán đều tập trung xung quanh trọng lượng thực tế của con bò.

Hình 20. Biểu đồ tần suất của các lần đoán cân nặng riêng lẻ.

 

Câu chuyện này minh hoạ Sự khôn ngoan của đám đông: Trong một số trường hợp, ý kiến tập thể đưa ra những nhận định rất chính xác.

Về mặt toán học, trí tuệ của đám đông có thể được mô hình hoá bằng Định lý giới hạn trung tâm: Nói một cách không chính thức, sai số bình phương giữa một giá trị và trung bình của N giá trị ước tính nhiễu của giá trị này có xu hướng bằng 0 với hệ số 1/N. Tuy nhiên, nếu các biến không độc lập, thì phương sai sẽ lớn hơn.

Trong học máy, bộ mô hình là một tập hợp các mô hình có dự đoán được tính trung bình (hoặc tổng hợp theo một cách nào đó). Nếu các mô hình tổng hợp khác nhau đủ mà không quá tệ riêng lẻ, thì chất lượng của mô hình tổng hợp thường tốt hơn chất lượng của từng mô hình riêng lẻ. Một tập hợp cần nhiều thời gian huấn luyện và suy luận hơn so với một mô hình. Xét cho cùng, bạn phải huấn luyện và suy luận trên nhiều mô hình thay vì một mô hình duy nhất.

Nói một cách không chính thức, để một tập hợp hoạt động hiệu quả nhất, các mô hình riêng lẻ phải độc lập. Ví dụ: một tập hợp gồm 10 mô hình giống hệt nhau (tức là hoàn toàn không độc lập) sẽ không tốt hơn mô hình riêng lẻ. Mặt khác, việc buộc các mô hình phải độc lập có thể khiến các mô hình đó hoạt động kém hiệu quả hơn. Để tạo ra tập hợp hiệu quả, bạn cần tìm sự cân bằng giữa tính độc lập của mô hình và chất lượng của các mô hình phụ.