Embeddings

Embedding adalah ruang dimensi yang relatif rendah tempat Anda dapat menerjemahkan vektor berdimensi tinggi. Embeddings memudahkan machine learning untuk input besar seperti vektor renggang yang mewakili kata. Idealnya, sematan menangkap beberapa semantik input dengan menempatkan input yang mirip secara semantik berdekatan dengan satu sama lain dalam ruang sematan. Penyematan dapat dipelajari dan digunakan kembali di seluruh model.

Embeddings

  • Input: 1.000.000 film yang telah dipilih oleh 500.000 pengguna untuk ditonton
  • Tugas: Merekomendasikan film ke pengguna

Untuk mengatasi masalah ini, beberapa metode diperlukan untuk menentukan film mana yang mirip satu sama lain.

Daftar film yang diurutkan dalam satu baris dari kiri ke kanan. Dimulai dengan sebelah kiri, 'Shrek', 'The Incredibles', 'The Triplets of Belleville', 'Harry Potter', 'Star Wars', 'Bleu', 'Meman

Daftar film yang sama di slide sebelumnya tetapi disusun dalam dua dimensi, jadi misalnya 'Shrek' di sebelah kiri dan di atas 'The Incredibles

Mirip dengan diagram sebelumnya tetapi dengan sumbu dan label untuk setiap kuadran. Pengaturan filmnya adalah sebagai berikut: di kuadran kanan atas pertama adalah Dewasa Blockbuster yang berisi 'Star Wars' dan 'The Dark Knight Rises' dengan film 'Hero' dan 'Crouching Tiger, Naga Tersembunyi' ditambahkan ke Blok Dewasa. Kuadran kanan bawah kedua adalah Arthouse Dewasa yang berisi film 'Bleu' dan 'Memento' dengan 'Waking Life' ditambahkan ke kuadran Arthouse Dewasa. Kuadran kiri bawah ketiga adalah Children Arthouse dan berisi film 'The Triplets of Belleville' dan 'Wallace and Gromit' ditambahkan ke kuadran Children Arthouse. Kuadran keempat dan terakhir di kiri atas adalah Children Blockbusters yang berisi 'Shrek', 'The Incredibles', dan 'Harry Potter' dan film 'school of Rock' ditambahkan ke kuadran Blockbusters Anak.

Pengaturan yang sama seperti slide terakhir. 'Shrek' dan 'Bleu' disorot sebagai contoh koordinat mereka di bidang penyematan 2d.

  • Asumsikan minat pengguna terhadap film kurang lebih dapat dijelaskan oleh aspek d
  • Setiap film menjadi titik dimensi d, yang mana nilai dalam dimensi d merepresentasikan sejauh mana film sesuai dengan aspek tersebut
  • Embeddings dapat dipelajari dari data
  • Tidak perlu proses pelatihan terpisah -- lapisan sematan hanya merupakan lapisan tersembunyi dengan satu unit per dimensi
  • Informasi yang diawasi (misalnya pengguna menonton dua film yang sama) menyesuaikan penyematan yang dipelajari untuk tugas yang diinginkan
  • Unit tersembunyi secara intuitif menemukan cara untuk mengatur item dalam ruang d dimensi dengan cara terbaik untuk mengoptimalkan tujuan akhir
  • Setiap contoh (baris dalam matriks ini) merupakan vektor renggang dari fitur (film) yang telah ditonton oleh pengguna
  • Representasi padat dari contoh ini adalah: (0, 1, 0, 1, 0, 0, 0, 1)

Tidak efisien dalam hal ruang dan waktu.

Tabel yang setiap header kolomnya adalah film, dan setiap baris mewakili pengguna dan film yang telah mereka tonton.
  • Buat kamus yang memetakan setiap fitur ke bilangan bulat dari 0, ..., # film - 1
  • Secara efisien mewakili vektor renggang hanya sebagai film yang ditonton pengguna. Hal ini mungkin akan direpresentasikan sebagai: Berdasarkan posisi kolom film dalam vektor renggang yang ditampilkan di sebelah kanan, film 'The Triplets dari Belleville', 'Wallace and Gromit', dan 'Memento' dapat direpresentasikan secara efisien sebagai (0,1, 999999)
Vektor renggang yang ditampilkan sebagai tabel dengan setiap kolom mewakili film dan setiap baris mewakili pengguna. Tabel ini berisi film dari diagram sebelumnya dan diberi nomor dari 1 hingga 999999. Setiap sel tabel akan diperiksa apakah pengguna telah menonton film.

Masalah regresi untuk memprediksi harga promo rumah:

Diagram jaringan neural dalam yang digunakan untuk memprediksi harga promo rumah

Masalah regresi untuk memprediksi harga promo rumah:

Diagram jaringan neural dalam yang digunakan untuk memprediksi harga promo rumah (encoding vektor jarang ditandai)

Masalah regresi untuk memprediksi harga promo rumah:

Diagram jaringan neural dalam yang digunakan untuk memprediksi harga promo rumah (lapisan sematan tiga dimensi tersembunyi ditandai)

Masalah regresi untuk memprediksi harga promo rumah:

Diagram jaringan neural dalam yang digunakan untuk memprediksi harga promo rumah (fitur masukan lintang dan bujur tambahan ditandai)

Masalah regresi untuk memprediksi harga promo rumah:

Diagram jaringan neural dalam yang digunakan untuk memprediksi harga promo rumah (fitur input memasukkan feed ke beberapa lapisan tersembunyi ditandai)

Masalah regresi untuk memprediksi harga promo rumah:

Diagram jaringan neural dalam yang digunakan untuk memprediksi harga promo rumah
  (output jaringan neural dalam ditandai)

Klasifikasi Multiclass untuk memprediksi angka dari tulisan tangan:

Diagram jaringan neural dalam yang digunakan untuk memprediksi angka dari tulisan tangan

Klasifikasi Multiclass untuk memprediksi angka dari tulisan tangan:

Diagram jaringan neural dalam yang digunakan untuk memprediksi angka dari tulisan tangan (encoding vektor sparse input ditandai)

Klasifikasi Multiclass untuk memprediksi angka dari tulisan tangan:

Diagram jaringan neural dalam yang digunakan untuk memprediksi angka dari tulisan tangan (fitur lainnya ditandai)

Klasifikasi Multiclass untuk memprediksi angka dari tulisan tangan:

Diagram jaringan neural dalam yang digunakan untuk memprediksi angka dari tulisan tangan (sematan tiga dimensi ditandai)

Klasifikasi Multiclass untuk memprediksi angka dari tulisan tangan:

Diagram jaringan neural dalam yang digunakan untuk memprediksi angka dari tulisan tangan (lapisan tersembunyi ditandai)

Klasifikasi Multiclass untuk memprediksi angka dari tulisan tangan:

Diagram jaringan neural dalam yang digunakan untuk memprediksi angka dari tulisan tangan (lapisan logi ditandai)

Klasifikasi Multiclass untuk memprediksi angka dari tulisan tangan:

Diagram jaringan neural dalam yang digunakan untuk memprediksi angka dari tulisan tangan (lapisan kelas target ditandai)

Penyaringan Kolaboratif untuk memprediksi film untuk direkomendasikan:

Diagram jaringan neural dalam yang digunakan untuk memprediksi film mana yang akan direkomendasikan

Penyaringan Kolaboratif untuk memprediksi film untuk direkomendasikan:

Diagram jaringan neural dalam yang digunakan untuk memprediksi film mana yang akan direkomendasikan (lapisan kelas target ditandai)

Penyaringan Kolaboratif untuk memprediksi film untuk direkomendasikan:

Diagram jaringan neural dalam yang digunakan untuk memprediksi film mana yang akan direkomendasikan (encoding vektor renggang ditandai)

Penyaringan Kolaboratif untuk memprediksi film untuk direkomendasikan:

Diagram jaringan neural dalam yang digunakan untuk memprediksi film mana yang akan direkomendasikan (sematan tiga dimensi ditandai)

Penyaringan Kolaboratif untuk memprediksi film untuk direkomendasikan:

Diagram jaringan neural dalam yang digunakan untuk memprediksi film mana yang akan direkomendasikan (fitur lainnya ditandai)

Penyaringan Kolaboratif untuk memprediksi film untuk direkomendasikan:

Diagram jaringan neural dalam yang digunakan untuk memprediksi film mana yang akan direkomendasikan (lapisan tersembunyi ditandai)

Penyaringan Kolaboratif untuk memprediksi film untuk direkomendasikan:

Diagram jaringan neural dalam yang digunakan untuk memprediksi film mana yang akan direkomendasikan (lapisan logis ditandai)

Jaringan Dalam

  • Setiap unit tersembunyi berkaitan dengan dimensi (fitur laten)
  • Bobot tepi antara film dan lapisan tersembunyi adalah nilai koordinat
  • Diagram pohon jaringan neural dalam dengan node di lapisan terendah yang terhubung ke tiga titik di lapisan yang lebih tinggi berikutnya

Tampilan geometris dari sematan satu film

Titik dalam ruang 3 dimensi yang sesuai dengan node lapisan di bagian bawah disagram jaringan neural dalam.
  • Embeddings dimensi yang lebih tinggi dapat mewakili hubungan antara nilai input secara lebih akurat
  • Namun, semakin banyak dimensi akan meningkatkan peluang overfit dan menyebabkan pelatihan yang lebih lambat
  • Aturan empiris (titik awal yang baik, tetapi harus disesuaikan menggunakan data validasi):
  • $$ dimensions \approx \sqrt[4]{possible\;values} $$
  • Menyematkan item peta (misalnya film, teks,...) ke vektor nyata dimensi rendah dengan cara item yang serupa saling berdekatan
  • Embeddings juga dapat diterapkan ke data padat (mis. audio) untuk menciptakan metrik kesamaan yang bermakna
  • Menggabungkan berbagai jenis data secara bersama (misalnya teks, gambar, audio, ...) menentukan kesamaan di antara keduanya