Bagaimana cara mengetahui apakah implementasi ML Anda sepadan dengan hasil yang didapat? Kapan sebaiknya Anda mulai merayakan: tepat setelah model masuk ke tahap produksi dan menayangkan prediksi pertamanya, atau hanya setelah metrik bisnis kuantitatif mulai bergerak ke arah yang tepat?
Sebelum memulai proyek, sangat penting untuk menentukan metrik keberhasilan dan menyetujui {i>deliverable<i}. Anda harus menentukan dan melacak dua jenis metrik berikut:
Metrik bisnis. Metrik untuk mengukur performa bisnis, misalnya, pendapatan, rasio klik-tayang, atau jumlah pengguna.
Metrik model. Metrik untuk mengukur kualitas model, misalnya, Root Mean Kuadrat Error, presisi, atau perolehan.
Metrik bisnis
Metrik bisnis adalah yang paling penting. Itulah alasan Anda menggunakan ML: Anda ingin meningkatkan bisnis.
Mulailah dengan metrik produk atau bisnis yang dapat diukur. Metrik harus sedetail dan sefokus mungkin. Berikut adalah contoh metrik bisnis yang terfokus dan terukur:
- Mengurangi biaya listrik bulanan pusat data sebesar 30 persen.
- Meningkatkan pendapatan dari rekomendasi produk sebesar 12 persen.
- Meningkatkan rasio klik-tayang sebesar 9 persen.
- Meningkatkan sentimen pelanggan dari survei keikutsertaan sebesar 20 persen.
- Tingkatkan waktu di halaman sebesar 4 persen.
Melacak metrik bisnis
Jika Anda tidak melacak metrik bisnis yang ingin ditingkatkan, mulailah dengan mengimplementasikan infrastruktur untuk melakukannya. Menetapkan sasaran untuk meningkatkan rasio klik-tayang sebesar 15% tidaklah logis jika saat ini Anda tidak mengukur rasio klik-tayang.
Lebih penting lagi, pastikan Anda mengukur metrik yang tepat untuk masalah Anda. Misalnya, jangan luangkan waktu untuk menulis instrumentasi untuk melacak rasio klik-tayang jika metrik yang lebih penting mungkin merupakan pendapatan dari rekomendasi.
Seiring kemajuan proyek, Anda akan menyadari apakah metrik target keberhasilan sebenarnya adalah target yang realistis atau tidak. Dalam beberapa kasus, Anda mungkin menentukan bahwa proyek tidak layak mengingat metrik keberhasilan yang ditentukan.
Metrik model
Kapan sebaiknya model mulai diproduksi? Saat AUC berada di nilai tertentu? Saat model mencapai skor F1 tertentu? Jawaban atas pertanyaan ini bergantung pada jenis masalah yang Anda pecahkan dan kualitas prediksi yang menurut Anda perlu untuk meningkatkan metrik bisnis.
Saat menentukan metrik yang akan digunakan untuk mengevaluasi model, pertimbangkan hal berikut:
Tentukan satu metrik yang akan dioptimalkan. Misalnya, model klasifikasi dapat dievaluasi terhadap berbagai metrik (AUC, AUC-PR, dll). Memilih model terbaik bisa menjadi tantangan jika metrik yang berbeda memilih model yang berbeda pula. Oleh karena itu, setujui satu metrik untuk mengevaluasi model.
Tentukan sasaran penerimaan yang harus dipenuhi. Sasaran penerimaan berbeda dengan metrik evaluasi model. Persyaratan ini mengacu pada tujuan yang harus dipenuhi model agar dianggap dapat diterima untuk kasus penggunaan yang dimaksudkan. Misalnya, sasaran penerimaan mungkin adalah "output yang salah kurang dari 0,1%", atau "perolehan untuk lima kategori teratas lebih besar dari 97%".
Misalnya, model klasifikasi biner mendeteksi transaksi penipuan. Metrik pengoptimalannya mungkin dapat diingat, sementara sasaran penerimaannya mungkin presisi. Dengan kata lain, kami akan memprioritaskan penarikan (sering mengidentifikasi penipuan dengan benar) sekaligus menginginkan presisi agar tetap berada pada atau di atas nilai tertentu (mengidentifikasi transaksi penipuan yang sebenarnya).
Hubungan antara metrik model dan metrik bisnis
Pada dasarnya, Anda mencoba mengembangkan model yang kualitas prediksinya terkait secara kausalitas dengan metrik bisnis Anda. Metrik model yang hebat tidak selalu menyiratkan peningkatan metrik bisnis. Tim Anda mungkin mengembangkan model dengan metrik yang mengesankan, tetapi prediksi model mungkin gagal meningkatkan metrik bisnis.
Jika Anda sudah puas dengan kualitas prediksi model Anda, coba tentukan bagaimana metrik model memengaruhi metrik bisnis. Biasanya, tim akan men-deploy model tersebut ke 1% pengguna, lalu memantau metrik bisnis.
Misalnya, tim Anda mengembangkan model untuk meningkatkan pendapatan dengan memprediksi churn pelanggan. Secara teori, jika Anda dapat memprediksi apakah seorang pelanggan cenderung akan meninggalkan platform atau tidak, Anda dapat mendorong mereka untuk tetap menggunakan platform.
Tim Anda membuat model dengan kualitas prediksi 95% dan mengujinya pada sebagian kecil pengguna. Namun, pendapatan tidak meningkat. Churn pelanggan benar-benar meningkat. Berikut beberapa penjelasannya:
Prediksi tidak terjadi cukup awal untuk dapat ditindaklanjuti. Model ini hanya dapat memprediksi churn pelanggan dalam jangka waktu tujuh hari, yang tidak akan cukup untuk menawarkan insentif agar mereka terus menggunakan platform ini.
Fitur yang tidak lengkap. Mungkin faktor lain berkontribusi pada churn pelanggan yang tidak ada di set data pelatihan.
Nilai minimum tidak cukup tinggi. Agar dapat berguna, model tersebut mungkin harus memiliki kualitas prediksi 97% atau lebih tinggi.
Contoh sederhana ini menyoroti dua poin:
- Penting untuk melakukan pengujian pengguna awal untuk membuktikan (dan memahami) hubungan antara metrik model dan metrik bisnis.
- Metrik model yang hebat tidak menjamin metrik bisnis yang lebih baik.
AI Generatif
Mengevaluasi output AI generatif menghadirkan berbagai tantangan unik. Dalam banyak kasus, seperti output terbuka atau kreatif, lebih sulit daripada mengevaluasi output ML tradisional.
LLM dapat diukur dan dievaluasi berdasarkan berbagai metrik. Menentukan metrik yang akan digunakan untuk mengevaluasi model bergantung pada kasus penggunaan Anda. Untuk informasi selengkapnya, lihat Pengantar Evaluasi LLM.
Perhatikan
Jangan samakan kesuksesan model dengan kesuksesan bisnis. Dengan kata lain, model dengan metrik yang luar biasa tidak menjamin kesuksesan bisnis.
Banyak engineer terampil dapat membuat model dengan metrik yang mengesankan. Melatih model yang cukup baik biasanya tidak menjadi masalah. Justru, model tersebut tidak meningkatkan metrik bisnis. Project ML dapat dipastikan gagal karena ketidakselarasan antara metrik bisnis dan metrik model.