Sistem ML Produksi: Pertanyaan yang perlu diajukan

Pelajaran ini berfokus pada pertanyaan-pertanyaan yang harus Anda ajukan tentang data Anda dan model dalam sistem produksi.

Apakah setiap fitur membantu?

Anda harus terus memantau model untuk menghapus fitur yang berkontribusi sedikit atau tidak ada sama sekali dengan kemampuan prediktif model. Jika data input untuk yang memiliki fitur berubah tiba-tiba, perilaku model juga mungkin tiba-tiba berubah dengan cara yang tidak diinginkan.

Pertimbangkan juga pertanyaan terkait berikut ini:

  • Apakah kegunaan fitur sesuai dengan biaya yang dikeluarkan?

Menambahkan lebih banyak fitur ke model adalah hal yang selalu tergoda. Misalnya, misalkan Anda menemukan fitur baru yang penambahannya membuat prediksi model sedikit lebih baik. Prediksi yang sedikit lebih baik pasti lebih baik daripada prediksi yang sedikit lebih buruk; Namun, fitur ekstra ini akan menambah dan beban pemeliharaan yang berat.

Apakah sumber data Anda dapat diandalkan?

Beberapa pertanyaan yang harus diajukan tentang keandalan data input Anda:

  • Apakah sinyal itu akan selalu tersedia atau berasal dari sumber yang tidak dapat diandalkan? Misalnya:
    • Apakah sinyal berasal dari server yang {i>crash<i} pada beban berat?
    • Apakah sinyal itu berasal dari manusia yang pergi berlibur setiap bulan Agustus?
  • Apakah sistem yang menghitung data input model Anda pernah berubah? Jika ya:
    • Seberapa sering?
    • Bagaimana Anda tahu ketika sistem itu berubah?

Pertimbangkan untuk membuat salinan data yang Anda terima dari proses upstream. Kemudian, hanya lanjutkan ke upstream versi berikutnya data ketika Anda yakin bahwa itu aman untuk melakukannya.

Apakah model Anda merupakan bagian dari feedback loop?

Terkadang sebuah model dapat memengaruhi data pelatihannya sendiri. Misalnya, hasil dari beberapa model, yang nantinya menjadi input (langsung atau tidak langsung) fitur ke model yang sama.

Terkadang sebuah model dapat memengaruhi model lain. Misalnya, pertimbangkan dua untuk memprediksi harga saham:

  • Model A, yang merupakan model prediktif yang buruk.
  • Model B.

Karena Model A memiliki bug, model ini keliru memutuskan untuk membeli saham di Saham X. Pembelian tersebut mendorong harga Saham X. Model B menggunakan harga dari Stok X sebagai fitur input, jadi Model B bisa menghasilkan beberapa kesimpulan tentang nilai Saham X. Model B bisa, Oleh karena itu, membeli atau menjual saham Saham X berdasarkan perilaku bug Model A. Perilaku Model B, pada akhirnya, bisa memengaruhi Model A, yang mungkin memicu tulip mania atau slide masuk Saham Perusahaan X.

Latihan: Memeriksa pemahaman Anda

Manakah dari tiga model berikut yang rentan terhadap {i>feedback loop<i}?
Model prakiraan lalu lintas yang memprediksi kemacetan di pintu keluar jalan raya di dekat pantai, menggunakan ukuran kerumunan pantai sebagai salah satu fiturnya.
Beberapa pengunjung pantai cenderung mendasarkan rencana mereka pada lalu lintas prakiraan cuaca. Jika ada keramaian pantai yang besar dan lalu lintas diperkirakan akan berat, banyak orang mungkin membuat rencana alternatif. Hal ini dapat menekan pantai menghasilkan perkiraan lalu lintas yang lebih ringan, yang kemudian dapat meningkatkan kehadiran, dan siklusnya berulang.
Model rekomendasi buku yang menyarankan novel yang mungkin disukai penggunanya berdasarkan popularitasnya (yaitu, berapa kali buku tersebut sebelumnya).
Rekomendasi buku cenderung mendorong pembelian, dan penjualan tambahan akan dimasukkan kembali ke model sebagai input, sehingga cenderung akan merekomendasikan buku-buku yang sama dalam masa depan.
Model peringkat universitas yang menilai sekolah sebagian berdasarkan selektivitas—persentase siswa yang mendaftar yang diterima.
Peringkat model dapat mendorong minat tambahan ke model sekolah, sehingga meningkatkan jumlah pendaftaran yang diterima. Jika sekolah terus menerima jumlah siswa yang sama, selektivitas akan meningkat (persentase siswa yang diterima akan turun). Ini akan meningkatkan sehingga akan meningkatkan minat calon siswa, dan seterusnya...
Model hasil pemilu yang memperkirakan pemenang pemilu pemilihan wali kota dengan menyurvei 2% pemilih setelah pemungutan suara ditutup.
Jika model tidak memublikasikan perkiraannya sampai setelah polling selesai ditutup, prediksinya tidak mungkin memengaruhi pemilih perilaku model.
Model nilai perumahan yang memprediksi harga rumah, menggunakan ukuran (area dalam meter persegi), jumlah kamar tidur, dan lokasi geografis sebagai fitur.
Tidak mungkin mengubah lokasi rumah dengan cepat, ukuran, atau jumlah kamar tidur sebagai tanggapan atas perkiraan harga, sehingga tidak memungkinkan terjadinya umpan balik (feedback loop). Namun, ada potensi korelasi antara ukuran dan jumlah kamar tidur (rumah yang lebih besar cenderung memiliki lebih banyak ruang) yang mungkin perlu dibahas secara terpisah.
Model atribut wajah yang mendeteksi apakah seseorang sedang tersenyum dalam sebuah foto, yang secara rutin dilatih menggunakan database fotografi stok yang diperbarui secara otomatis setiap bulan.
Tidak ada feedback loop di sini, karena prediksi model tidak memiliki apa pun terhadap database foto. Namun, pembuatan versi input data menjadi perhatian di sini, karena pembaruan bulanan ini berpotensi memiliki efek tak terduga pada model.