Pelajaran ini berfokus pada pertanyaan yang harus Anda ajukan tentang data
dan model dalam sistem produksi.
Apakah setiap fitur bermanfaat?
Anda harus terus memantau model untuk menghapus fitur yang berkontribusi sedikit atau tidak sama sekali pada kemampuan prediktif model. Jika data input untuk fitur tersebut berubah secara tiba-tiba, perilaku model Anda mungkin juga berubah secara tiba-tiba dengan cara yang tidak diinginkan.
Pertimbangkan juga pertanyaan terkait berikut:
- Apakah kegunaan fitur tersebut sebanding dengan biaya yang diperlukan untuk menyertakannya?
Anda selalu tergoda untuk menambahkan lebih banyak fitur ke model. Misalnya,
Anda menemukan fitur baru yang penambahannya membuat prediksi model
Anda sedikit lebih baik. Prediksi yang sedikit lebih baik tentu tampak lebih baik daripada
prediksi yang sedikit lebih buruk; namun, fitur tambahan akan menambah beban
pemeliharaan Anda.
Apakah sumber data Anda dapat diandalkan?
Beberapa pertanyaan yang perlu diajukan tentang keandalan data input Anda:
- Apakah sinyal akan selalu tersedia atau berasal dari
sumber yang tidak dapat diandalkan? Misalnya:
- Apakah sinyal berasal dari server yang tidak bekerja kalau ada beban berat?
- Apakah sinyal berasal dari manusia yang pergi berlibur setiap bulan Agustus?
- Apakah sistem yang menghitung data input model Anda pernah berubah? Jika ya:
- Seberapa sering?
- Bagaimana Anda akan mengetahui kapan sistem tersebut berubah?
Pertimbangkan untuk membuat salinan data yang Anda terima dari
proses upstream. Kemudian, lanjutkan ke versi data upstream berikutnya
hanya jika Anda yakin bahwa hal itu aman untuk dilakukan.
Apakah model Anda merupakan bagian dari loop masukan?
Terkadang, model dapat memengaruhi data pelatihannya sendiri. Misalnya, hasil dari beberapa model, pada gilirannya, menjadi (langsung atau tidak langsung) fitur
input ke model yang sama.
Terkadang, model dapat memengaruhi model lain. Misalnya, pertimbangkan dua
model untuk memprediksi harga saham:
- Model A, yang merupakan model prediktif yang buruk.
- Model B.
Karena Model A bermasalah, model tersebut keliru memutuskan untuk membeli saham di Saham X.
Pembelian tersebut menaikkan harga Saham X. Model B menggunakan harga
Saham X sebagai fitur input, sehingga Model B dapat membuat beberapa
kesimpulan palsu tentang nilai Saham X. Oleh karena itu, Model B dapat
membeli atau menjual saham Saham X berdasarkan perilaku error Model A.
Perilaku Model B, pada gilirannya, dapat memengaruhi Model A, yang mungkin memicu
tulip mania atau penurunan
saham Perusahaan X.
Latihan: Periksa pemahaman Anda
Manakah tiga model berikut yang rentan terhadap umpan balik (feedback loop)?
Model perkiraan traffic yang memprediksi kemacetan di pintu keluar jalan raya dekat pantai, menggunakan ukuran kerumunan pantai sebagai salah satu fiturnya.
Beberapa pengunjung pantai cenderung mendasarkan rencana mereka pada perkiraan
traffic. Jika ada banyak orang di pantai dan perkiraan traffic
padat, banyak orang mungkin membuat rencana alternatif. Hal ini dapat mengurangi jumlah pengunjung pantai, sehingga menghasilkan perkiraan traffic yang lebih ringan, yang kemudian dapat
meningkatkan jumlah pengunjung, dan siklusnya berulang.
Model rekomendasi buku yang menyarankan novel yang mungkin disukai penggunanya
berdasarkan popularitasnya (yaitu, frekuensi buku tersebut
dibeli).
Rekomendasi buku cenderung mendorong pembelian, dan
penjualan tambahan ini akan dimasukkan kembali ke dalam model sebagai input,
sehingga lebih cenderung merekomendasikan buku yang sama ini di
masa mendatang.
Model peringkat universitas yang menilai sekolah sebagian berdasarkan
tingkat selektifnya—persentase siswa yang mendaftar dan
diterima.
Peringkat model dapat mendorong minat tambahan ke sekolah dengan rating tertinggi, sehingga meningkatkan jumlah lamaran yang diterima. Jika sekolah
ini terus menerima jumlah siswa yang sama, selektifitas akan
meningkat (persentase siswa yang diterima akan menurun). Hal ini
akan meningkatkan peringkat sekolah tersebut, yang akan semakin meningkatkan
minat calon siswa, dan seterusnya…
Model hasil pemilu yang memperkirakan pemenang
pemilu wali kota dengan mensurvei 2% pemilih setelah pemungutan suara ditutup.
Jika model tidak memublikasikan perkiraan hingga setelah pemungutan suara ditutup, prediksinya tidak akan memengaruhi perilaku pemilih.
Model nilai perumahan yang memprediksi harga rumah, menggunakan
ukuran (luas dalam meter persegi), jumlah kamar tidur, dan lokasi geografis
sebagai fitur.
Tidak mungkin mengubah lokasi rumah, ukuran rumah, atau jumlah kamar tidur dengan cepat sebagai respons terhadap perkiraan harga, sehingga umpan balik (feedback loop) cenderung tidak terjadi. Namun, ada potensi
korelasi antara ukuran dan jumlah kamar tidur (rumah yang lebih besar
cenderung memiliki lebih banyak kamar) yang mungkin perlu dipisahkan.
Model atribut wajah yang mendeteksi apakah seseorang tersenyum
dalam foto, yang secara rutin dilatih pada database fotografi stok
yang diperbarui secara otomatis setiap bulan.
Tidak ada umpan balik (feedback loop) di sini, karena prediksi model tidak
berdampak pada database foto. Namun, pembuatan versi data
input menjadi masalah di sini, karena update bulanan ini berpotensi
memiliki efek yang tidak terduga pada model.