Hutan Acak

Ini adalah Sapi sapi.

Foto sapi tua.

Gambar 19. Kerbau.

 

Pada tahun 1906, kompetisi penjurian berat diadakan di Inggris. 787 peserta menebak berat lembu. Error median setiap tebakan individual adalah 37 lb (error 3,1%). Namun, median keseluruhan rata-rata hanya berjarak 9 lb dari berat nyata lembu (1198 lb), yang merupakan error hanya 0,7%.

Histogram tebakan individual, yang menunjukkan sebagian besar tebakan yang dikelompokkan di sekitar
berat sapi yang sebenarnya.

Gambar 20. Histogram tebakan berat individual.

 

Anekdot ini menggambarkan Kebijaksanaan orang banyak: Dalam situasi tertentu, opini kolektif memberikan penilaian yang sangat baik.

Secara matematis, kebijaksanaan kerumunan dapat dimodelkan dengan Teorema batas pusat: Secara non-finansi, error kuadrat antara nilai dan rata-rata N perkiraan yang bising dari nilai ini cenderung nol dengan faktor 1/N. Namun, jika variabel tidak independen, variansnya lebih besar.

Dalam machine learning, ensemble adalah kumpulan model yang prediksinya dirata-ratakan (atau digabungkan dengan cara tertentu). Jika model ensemble cukup berbeda tanpa terlalu buruk satu per satu, kualitas ansambel umumnya lebih baik daripada kualitas masing-masing model. Ansambel memerlukan lebih banyak waktu pelatihan dan inferensi daripada model tunggal. Lagi pula, Anda harus melakukan pelatihan dan inferensi pada beberapa model, bukan model tunggal.

Secara informal, agar ansambel berfungsi paling baik, setiap model harus bersifat independen. Sebagai ilustrasi, ansambel yang terdiri dari 10 model yang sama persis (yaitu, tidak independen sama sekali) tidak akan lebih baik daripada model individual. Di sisi lain, memaksa model menjadi independen dapat membuatnya lebih buruk. Ansambel yang efektif memerlukan keseimbangan antara independensi model dan kualitas sub-modelnya.