Embedding adalah ruang dimensi yang relatif rendah tempat Anda dapat menerjemahkan vektor berdimensi tinggi. Embeddings memudahkan machine learning untuk input besar seperti vektor renggang yang mewakili kata. Idealnya, sematan menangkap beberapa semantik input dengan menempatkan input yang mirip secara semantik berdekatan dengan satu sama lain dalam ruang sematan. Penyematan dapat dipelajari dan digunakan kembali di seluruh model.
Embeddings
Motivasi dari Pemfilteran Kolaboratif
- Input: 1.000.000 film yang telah dipilih oleh 500.000 pengguna untuk ditonton
- Tugas: Merekomendasikan film ke pengguna
Untuk mengatasi masalah ini, beberapa metode diperlukan untuk menentukan film mana yang mirip satu sama lain.
Mengatur Film Berdasarkan Kemiripan (1d)
Mengatur Film Berdasarkan Kemiripan (2d)
Embedding Dua Dimensi
Embedding Dua Dimensi
Embedding Dimensi d
- Asumsikan minat pengguna terhadap film kurang lebih dapat dijelaskan oleh aspek d
- Setiap film menjadi titik dimensi d, yang mana nilai dalam dimensi d merepresentasikan sejauh mana film sesuai dengan aspek tersebut
- Embeddings dapat dipelajari dari data
Mempelajari Embeddings dalam Jaringan Dalam
- Tidak perlu proses pelatihan terpisah -- lapisan sematan hanya merupakan lapisan tersembunyi dengan satu unit per dimensi
- Informasi yang diawasi (misalnya pengguna menonton dua film yang sama) menyesuaikan penyematan yang dipelajari untuk tugas yang diinginkan
- Unit tersembunyi secara intuitif menemukan cara untuk mengatur item dalam ruang d dimensi dengan cara terbaik untuk mengoptimalkan tujuan akhir
Representasi Input
- Setiap contoh (baris dalam matriks ini) merupakan vektor renggang dari fitur (film) yang telah ditonton oleh pengguna
- Representasi padat dari contoh ini adalah: (0, 1, 0, 1, 0, 0, 0, 1)
Tidak efisien dalam hal ruang dan waktu.

Representasi Input
- Buat kamus yang memetakan setiap fitur ke bilangan bulat dari 0, ..., # film - 1
- Secara efisien mewakili vektor renggang hanya sebagai film yang ditonton pengguna. Hal ini mungkin akan direpresentasikan sebagai:

Lapisan Penyematan dalam Jaringan Dalam
Masalah regresi untuk memprediksi harga promo rumah:
Lapisan Penyematan dalam Jaringan Dalam
Masalah regresi untuk memprediksi harga promo rumah:
Lapisan Penyematan dalam Jaringan Dalam
Masalah regresi untuk memprediksi harga promo rumah:
Lapisan Penyematan dalam Jaringan Dalam
Masalah regresi untuk memprediksi harga promo rumah:
Lapisan Penyematan dalam Jaringan Dalam
Masalah regresi untuk memprediksi harga promo rumah:
Lapisan Penyematan dalam Jaringan Dalam
Masalah regresi untuk memprediksi harga promo rumah:
Lapisan Penyematan dalam Jaringan Dalam
Klasifikasi Multiclass untuk memprediksi angka dari tulisan tangan:
Lapisan Penyematan dalam Jaringan Dalam
Klasifikasi Multiclass untuk memprediksi angka dari tulisan tangan:
Lapisan Penyematan dalam Jaringan Dalam
Klasifikasi Multiclass untuk memprediksi angka dari tulisan tangan:
Lapisan Penyematan dalam Jaringan Dalam
Klasifikasi Multiclass untuk memprediksi angka dari tulisan tangan:
Lapisan Penyematan dalam Jaringan Dalam
Klasifikasi Multiclass untuk memprediksi angka dari tulisan tangan:
Lapisan Penyematan dalam Jaringan Dalam
Klasifikasi Multiclass untuk memprediksi angka dari tulisan tangan:
Lapisan Penyematan dalam Jaringan Dalam
Klasifikasi Multiclass untuk memprediksi angka dari tulisan tangan:
Lapisan Penyematan dalam Jaringan Dalam
Penyaringan Kolaboratif untuk memprediksi film untuk direkomendasikan:
Lapisan Penyematan dalam Jaringan Dalam
Penyaringan Kolaboratif untuk memprediksi film untuk direkomendasikan:
Lapisan Penyematan dalam Jaringan Dalam
Penyaringan Kolaboratif untuk memprediksi film untuk direkomendasikan:
Lapisan Penyematan dalam Jaringan Dalam
Penyaringan Kolaboratif untuk memprediksi film untuk direkomendasikan:
Lapisan Penyematan dalam Jaringan Dalam
Penyaringan Kolaboratif untuk memprediksi film untuk direkomendasikan:
Lapisan Penyematan dalam Jaringan Dalam
Penyaringan Kolaboratif untuk memprediksi film untuk direkomendasikan:
Lapisan Penyematan dalam Jaringan Dalam
Penyaringan Kolaboratif untuk memprediksi film untuk direkomendasikan:
Korespondensi dengan Tampilan Geometrik
Jaringan Dalam
- Setiap unit tersembunyi berkaitan dengan dimensi (fitur laten)
- Bobot tepi antara film dan lapisan tersembunyi adalah nilai koordinat
Tampilan geometris dari sematan satu film
Memilih Berapa Banyak Peredupan Embeddings
- Embeddings dimensi yang lebih tinggi dapat mewakili hubungan antara nilai input secara lebih akurat
- Namun, semakin banyak dimensi akan meningkatkan peluang overfit dan menyebabkan pelatihan yang lebih lambat
- Aturan empiris (titik awal yang baik, tetapi harus disesuaikan menggunakan data validasi): $$ dimensions \approx \sqrt[4]{possible\;values} $$
Embeddings sebagai Alat
- Menyematkan item peta (misalnya film, teks,...) ke vektor nyata dimensi rendah dengan cara item yang serupa saling berdekatan
- Embeddings juga dapat diterapkan ke data padat (mis. audio) untuk menciptakan metrik kesamaan yang bermakna
- Menggabungkan berbagai jenis data secara bersama (misalnya teks, gambar, audio, ...) menentukan kesamaan di antara keduanya