Bayangkan Anda sedang mengembangkan aplikasi rekomendasi makanan, di mana pengguna memasukkan makanan favorit mereka, dan aplikasi menyarankan makanan serupa yang mungkin mereka sukai. Anda ingin mengembangkan model machine learning (ML) yang dapat memprediksi kesamaan makanan, sehingga aplikasi Anda dapat membuat rekomendasi ("Karena Anda suka pancake, kami sarankan crepes").
Untuk melatih model, Anda menyeleksi {i>dataset<i} yang berisi 5.000 kumpulan data jenis makanan, termasuk borscht, hot dog, salad, pizza, dan shawarma.
Anda membuat fitur meal
yang berisi
enkode one-hot
representasi dari setiap item makanan dalam {i>dataset <i}itu.
Perangkap representasi data renggang
Meninjau enkode one-hot ini, Anda melihat dua masalah utama dengan representasi atau representasi dari data.
- Jumlah bobot. Vektor input yang besar berarti sejumlah besar
bobot
untuk jaringan neural.
Dengan entri M dalam encoding one-hot, dan N
di lapisan pertama jaringan setelah input, model harus melatih
Bobot MxN untuk lapisan tersebut. Jumlah bobot yang besar menyebabkan masalah lebih lanjut:
- Jumlah titik data. Semakin banyak bobot dalam model, semakin banyak data yang perlu berlatih secara efektif.
- Jumlah komputasi. Semakin besar bobot, semakin banyak komputasi yang diperlukan untuk melatih dan menggunakan model. Sangat mudah untuk melampaui kemampuan perangkat keras.
- Jumlah memori. Semakin banyak bobot dalam model Anda, semakin banyak memori yang diperlukan pada akselerator yang melatih dan menyajikannya. Meningkatkan skala ini secara efisien sangat sulit.
- Kesulitan dalam memberikan dukungan machine learning di perangkat (ODML). Jika Anda ingin menjalankan model ML Anda di perangkat lokal (bukan menyajikan Anda harus fokus untuk membuat model yang lebih kecil, dan sebaiknya Anda untuk mengurangi jumlah bobot.
- Kurangnya hubungan yang bermakna antarvektor. Nilai vektor dalam formula pengkodean one-hot untuk makanan tidak memberikan informasi apa pun yang berarti tentang kesamaan bahan makanan. Secara matematis, indeks 1 ("hot dog") adalah lebih dekat ke indeks 2 ("salad") daripada indeks 4999 ("shawarma"), meskipun kondisi lebih mirip dengan shawarma (keduanya mengandung daging dan roti) daripada salad.
Dalam modul ini, Anda akan mempelajari cara membuat embeddings, yang memiliki dimensi lebih rendah representasi dari data sparse, yang mengatasi kedua masalah ini.