Sistem ML Produksi: Pertanyaan yang perlu diajukan

Pelajaran ini berfokus pada pertanyaan yang harus Anda ajukan tentang data dan model dalam sistem produksi.

Apakah setiap fitur bermanfaat?

Anda harus terus memantau model untuk menghapus fitur yang berkontribusi sedikit atau tidak sama sekali pada kemampuan prediktif model. Jika data input untuk fitur tersebut berubah secara tiba-tiba, perilaku model Anda mungkin juga berubah secara tiba-tiba dengan cara yang tidak diinginkan.

Pertimbangkan juga pertanyaan terkait berikut:

  • Apakah kegunaan fitur tersebut sebanding dengan biaya yang diperlukan untuk menyertakannya?

Anda selalu tergoda untuk menambahkan lebih banyak fitur ke model. Misalnya, Anda menemukan fitur baru yang penambahannya membuat prediksi model Anda sedikit lebih baik. Prediksi yang sedikit lebih baik tentu tampak lebih baik daripada prediksi yang sedikit lebih buruk; namun, fitur tambahan akan menambah beban pemeliharaan Anda.

Apakah sumber data Anda dapat diandalkan?

Beberapa pertanyaan yang perlu diajukan tentang keandalan data input Anda:

  • Apakah sinyal akan selalu tersedia atau berasal dari sumber yang tidak dapat diandalkan? Misalnya:
    • Apakah sinyal berasal dari server yang tidak bekerja kalau ada beban berat?
    • Apakah sinyal berasal dari manusia yang pergi berlibur setiap bulan Agustus?
  • Apakah sistem yang menghitung data input model Anda pernah berubah? Jika ya:
    • Seberapa sering?
    • Bagaimana Anda akan mengetahui kapan sistem tersebut berubah?

Pertimbangkan untuk membuat salinan data yang Anda terima dari proses upstream. Kemudian, lanjutkan ke versi data upstream berikutnya hanya jika Anda yakin bahwa hal itu aman untuk dilakukan.

Apakah model Anda merupakan bagian dari loop masukan?

Terkadang, model dapat memengaruhi data pelatihannya sendiri. Misalnya, hasil dari beberapa model, pada gilirannya, menjadi (langsung atau tidak langsung) fitur input ke model yang sama.

Terkadang, model dapat memengaruhi model lain. Misalnya, pertimbangkan dua model untuk memprediksi harga saham:

  • Model A, yang merupakan model prediktif yang buruk.
  • Model B.

Karena Model A bermasalah, model tersebut keliru memutuskan untuk membeli saham di Saham X. Pembelian tersebut menaikkan harga Saham X. Model B menggunakan harga Saham X sebagai fitur input, sehingga Model B dapat membuat beberapa kesimpulan palsu tentang nilai Saham X. Oleh karena itu, Model B dapat membeli atau menjual saham Saham X berdasarkan perilaku error Model A. Perilaku Model B, pada gilirannya, dapat memengaruhi Model A, yang mungkin memicu tulip mania atau penurunan saham Perusahaan X.

Latihan: Periksa pemahaman Anda

Manakah tiga model berikut yang rentan terhadap umpan balik (feedback loop)?
Model perkiraan traffic yang memprediksi kemacetan di pintu keluar jalan raya dekat pantai, menggunakan ukuran kerumunan pantai sebagai salah satu fiturnya.
Beberapa pengunjung pantai cenderung mendasarkan rencana mereka pada perkiraan traffic. Jika ada banyak orang di pantai dan perkiraan traffic padat, banyak orang mungkin membuat rencana alternatif. Hal ini dapat mengurangi jumlah pengunjung pantai, sehingga menghasilkan perkiraan traffic yang lebih ringan, yang kemudian dapat meningkatkan jumlah pengunjung, dan siklusnya berulang.
Model rekomendasi buku yang menyarankan novel yang mungkin disukai penggunanya berdasarkan popularitasnya (yaitu, frekuensi buku tersebut dibeli).
Rekomendasi buku cenderung mendorong pembelian, dan penjualan tambahan ini akan dimasukkan kembali ke dalam model sebagai input, sehingga lebih cenderung merekomendasikan buku yang sama ini di masa mendatang.
Model peringkat universitas yang menilai sekolah sebagian berdasarkan tingkat selektifnya—persentase siswa yang mendaftar dan diterima.
Peringkat model dapat mendorong minat tambahan ke sekolah dengan rating tertinggi, sehingga meningkatkan jumlah lamaran yang diterima. Jika sekolah ini terus menerima jumlah siswa yang sama, selektifitas akan meningkat (persentase siswa yang diterima akan menurun). Hal ini akan meningkatkan peringkat sekolah tersebut, yang akan semakin meningkatkan minat calon siswa, dan seterusnya…
Model hasil pemilu yang memperkirakan pemenang pemilu wali kota dengan mensurvei 2% pemilih setelah pemungutan suara ditutup.
Jika model tidak memublikasikan perkiraan hingga setelah pemungutan suara ditutup, prediksinya tidak akan memengaruhi perilaku pemilih.
Model nilai perumahan yang memprediksi harga rumah, menggunakan ukuran (luas dalam meter persegi), jumlah kamar tidur, dan lokasi geografis sebagai fitur.
Tidak mungkin mengubah lokasi rumah, ukuran rumah, atau jumlah kamar tidur dengan cepat sebagai respons terhadap perkiraan harga, sehingga umpan balik (feedback loop) cenderung tidak terjadi. Namun, ada potensi korelasi antara ukuran dan jumlah kamar tidur (rumah yang lebih besar cenderung memiliki lebih banyak kamar) yang mungkin perlu dipisahkan.
Model atribut wajah yang mendeteksi apakah seseorang tersenyum dalam foto, yang secara rutin dilatih pada database fotografi stok yang diperbarui secara otomatis setiap bulan.
Tidak ada umpan balik (feedback loop) di sini, karena prediksi model tidak berdampak pada database foto. Namun, pembuatan versi data input menjadi masalah di sini, karena update bulanan ini berpotensi memiliki efek yang tidak terduga pada model.