Ini adalah suara Sapi jantan.
Gambar 19. Sapi jantan.
Pada tahun 1906, kompetisi penjurian berat diadakan di Inggris. 787 peserta menebak berat lembu. Error median dari masing-masing tebakan adalah 37 lb (error 3,1%). Namun, median keseluruhan tebakan hanya berbeda 4 kg dari berat sapi yang sebenarnya (490 kg), yang merupakan error hanya 0,7%.
Gambar 20. Histogram tebakan berat individual.
Anekdot ini mengilustrasikan Kebijaksanaan massa: Dalam situasi tertentu, pendapat kolektif memberikan penilaian yang sangat baik.
Secara matematis, kebijaksanaan massa dapat dimodelkan dengan Teorema batas pusat: Secara informal, error kuadrat antara nilai dan rata-rata N estimasi yang berisi derau dari nilai ini cenderung nol dengan faktor 1/N. Namun, jika variabel tidak independen, variansinya akan lebih besar.
Dalam machine learning, ensemble adalah kumpulan model yang prediksinya dirata-ratakan (atau digabungkan dengan cara tertentu). Jika model ensemble cukup berbeda tanpa terlalu buruk secara individual, kualitas ensemble umumnya lebih baik daripada kualitas setiap model individual. Ensemble memerlukan lebih banyak waktu pelatihan dan inferensi daripada satu model. Lagi pula, Anda harus melakukan pelatihan dan inferensi pada beberapa model, bukan satu model.
Secara informal, agar ensemble berfungsi dengan baik, setiap model harus independen. Sebagai ilustrasi, ensemble yang terdiri dari 10 model yang sama persis (yaitu, sama sekali tidak independen) tidak akan lebih baik daripada model individual. Di sisi lain, memaksa model menjadi independen dapat membuat model menjadi lebih buruk. Ensembling yang efektif memerlukan keseimbangan antara independensi model dan kualitas submodelnya.