Bir yemek önerisi uygulaması geliştirdiğinizi düşünün. Kullanıcılar favori öğünlerini giriyor ve uygulama da benzer öğünler öneriyor pek çok bilgi edindiniz. Makine öğrenimi (ML) modeli geliştirmek istiyorsanız yiyecek benzerliğini tahmin edebilen, böylece uygulamanız yüksek kaliteli içerikler üretebilir önerileri ("Krepleri sevdiğiniz için krep öneririz").
Modelinizi eğitmek için 5.000 popüler kullanıcı içeren bir veri kümesi borş çorbası dahil olmak üzere yemek ürünleri, sosisli sandviç salata, pizza, ve şavurma.
Şunları içeren bir meal
özelliği oluşturursunuz:
tek seferlik kodlama
temsili bir grafik oluşur.
Seyrek veri temsillerinin tehlikeleri
Bu tek kullanımlık kodlamaları incelediğinizde, burada temsil eder.
- Ağırlık sayısı. Giriş vektörlerinin büyük olması,
ağırlıklar
nöral ağ için kullanılabilir.
Tek seferlik kodlamanızda M girişleriyle ve N
düğümlerden sonra ağın ilk katmanında yer alıyorsa model,
MxN ağırlıklarını belirtir. Çok sayıda ağırlık başka sorunlara neden olur:
- Veri noktalarının sayısı. Modelinizde ne kadar ağırlık olursa o kadar fazla veri ihtiyacınız olacak.
- İşlem miktarı. Ne kadar ağırlık olursa o kadar hesaplama gerekir kullanmaya karar verebilir. Hesabınızın yeteneklerini aşmak çok kolaydır. donanım.
- Bellek miktarı. Modelinizde ne kadar ağırlık varsa onu eğiten ve sunan hızlandırıcılar için gereklidir. Bunu ölçeklendirme çok zor bir süreçtir.
- Destek vermenin zorluğu cihaz üzerinde makine öğrenimi (ODML) ile ilgili daha fazla bilgi edinin. Makine öğrenimi modelinizi yerel cihazlarda (ör. sunucu yerine modelinizi daha küçük yapmaya odaklanmalı ve daha küçük ağırlık sayısını azaltmak için kullanılır.
- Vektörler arasında anlamlı ilişkiler eksikliği. tek seferlik kodlamalar, yiyecekle ilgili anlamlı bilgiler vermez. benzerliklerini görebiliriz. Matematiksel olarak indeks 1 ("sosisli sandviç") 4999'a ("şavurma") kıyasla indeks 2'ye ("salata") daha yakındır. köpek, salatadan çok şavurma'ya (et ve ekmek içerir) benzer.
Bu modülde, daha düşük boyutlu yerleştirmelerin nasıl oluşturulacağını öğreneceksiniz. hem bu iki sorunu da ele alan seyrek verilerin temsilleridir.