Pelajaran ini berfokus pada pertanyaan-pertanyaan yang harus Anda ajukan tentang data Anda
dan model dalam sistem produksi.
Apakah setiap fitur membantu?
Anda harus terus memantau model untuk menghapus fitur yang berkontribusi
sedikit atau tidak ada sama sekali dengan kemampuan prediktif model. Jika data input untuk
yang memiliki fitur berubah tiba-tiba, perilaku model juga mungkin tiba-tiba
berubah dengan cara yang
tidak diinginkan.
Pertimbangkan juga pertanyaan terkait berikut ini:
- Apakah kegunaan fitur sesuai dengan biaya yang dikeluarkan?
Menambahkan lebih banyak fitur ke model adalah hal yang selalu tergoda. Misalnya,
misalkan Anda menemukan fitur baru yang penambahannya membuat prediksi model
sedikit lebih baik. Prediksi yang sedikit lebih baik pasti lebih baik daripada
prediksi yang sedikit lebih buruk; Namun, fitur ekstra ini akan menambah
dan beban pemeliharaan yang berat.
Apakah sumber data Anda dapat diandalkan?
Beberapa pertanyaan yang harus diajukan tentang keandalan data input Anda:
- Apakah sinyal itu akan selalu tersedia atau berasal dari
sumber yang tidak dapat diandalkan? Misalnya:
- Apakah sinyal berasal dari server yang {i>crash<i} pada beban berat?
- Apakah sinyal itu berasal dari manusia yang pergi berlibur setiap bulan Agustus?
- Apakah sistem yang menghitung data input model Anda pernah berubah? Jika ya:
- Seberapa sering?
- Bagaimana Anda tahu ketika sistem itu berubah?
Pertimbangkan untuk membuat salinan data yang Anda terima dari
proses upstream. Kemudian, hanya lanjutkan ke upstream versi berikutnya
data ketika Anda yakin bahwa
itu aman untuk melakukannya.
Apakah model Anda merupakan bagian dari feedback loop?
Terkadang sebuah model dapat memengaruhi data pelatihannya sendiri. Misalnya,
hasil dari beberapa model, yang nantinya menjadi input (langsung atau tidak langsung)
fitur ke model yang sama.
Terkadang sebuah model dapat memengaruhi model lain. Misalnya, pertimbangkan dua
untuk memprediksi harga saham:
- Model A, yang merupakan model prediktif yang buruk.
- Model B.
Karena Model A memiliki bug, model ini keliru memutuskan untuk membeli saham di Saham X.
Pembelian tersebut mendorong harga Saham X. Model B menggunakan harga
dari Stok X sebagai fitur input, jadi Model B bisa menghasilkan beberapa
kesimpulan tentang nilai Saham X. Model B bisa, Oleh karena itu,
membeli atau menjual saham Saham X berdasarkan perilaku bug Model A.
Perilaku Model B, pada akhirnya, bisa memengaruhi Model A, yang mungkin memicu
tulip mania atau slide masuk
Saham Perusahaan X.
Latihan: Memeriksa pemahaman Anda
Manakah dari tiga model berikut yang rentan terhadap
{i>feedback loop<i}?
Model prakiraan lalu lintas yang memprediksi kemacetan di pintu keluar jalan raya
di dekat pantai, menggunakan ukuran kerumunan pantai sebagai salah satu fiturnya.
Beberapa pengunjung pantai cenderung mendasarkan rencana mereka pada lalu lintas
prakiraan cuaca. Jika ada keramaian pantai yang besar dan lalu lintas diperkirakan akan
berat, banyak orang mungkin
membuat rencana alternatif. Hal ini dapat menekan pantai
menghasilkan perkiraan lalu lintas yang lebih ringan, yang kemudian dapat
meningkatkan kehadiran, dan siklusnya berulang.
Model rekomendasi buku yang menyarankan novel yang mungkin disukai penggunanya
berdasarkan popularitasnya (yaitu, berapa kali buku tersebut
sebelumnya).
Rekomendasi buku cenderung mendorong pembelian, dan
penjualan tambahan akan dimasukkan kembali ke model sebagai input,
sehingga cenderung akan merekomendasikan
buku-buku yang sama dalam
masa depan.
Model peringkat universitas yang menilai sekolah sebagian berdasarkan
selektivitas—persentase siswa yang mendaftar yang
diterima.
Peringkat model dapat mendorong minat tambahan ke model
sekolah, sehingga meningkatkan
jumlah pendaftaran yang diterima. Jika
sekolah terus menerima jumlah siswa yang sama, selektivitas akan
meningkat (persentase siswa yang diterima akan turun). Ini
akan meningkatkan sehingga akan meningkatkan
minat calon siswa, dan seterusnya...
Model hasil pemilu yang memperkirakan pemenang pemilu
pemilihan wali kota dengan menyurvei 2% pemilih setelah pemungutan suara ditutup.
Jika model tidak memublikasikan perkiraannya sampai setelah polling selesai
ditutup, prediksinya tidak mungkin memengaruhi pemilih
perilaku model.
Model nilai perumahan yang memprediksi harga rumah, menggunakan
ukuran (area dalam meter persegi), jumlah kamar tidur, dan lokasi geografis
sebagai fitur.
Tidak mungkin mengubah lokasi rumah dengan cepat,
ukuran, atau jumlah kamar tidur
sebagai tanggapan atas perkiraan harga,
sehingga tidak memungkinkan terjadinya umpan
balik (feedback loop). Namun, ada potensi
korelasi antara ukuran dan jumlah kamar tidur (rumah yang lebih besar
cenderung memiliki lebih banyak ruang)
yang mungkin perlu dibahas secara terpisah.
Model atribut wajah yang mendeteksi apakah seseorang sedang tersenyum
dalam sebuah foto, yang secara rutin dilatih menggunakan database fotografi stok
yang diperbarui secara otomatis setiap bulan.
Tidak ada feedback loop di sini, karena prediksi model tidak memiliki
apa pun terhadap database foto. Namun, pembuatan versi input
data menjadi perhatian di sini, karena pembaruan bulanan ini berpotensi
memiliki efek tak terduga pada model.