Gözetimli benzerlik ölçümü

Manuel olarak birleştirilen özellik verilerini karşılaştırmak yerine, özellik denemenizin temsillere yönelik veriler embeddings'i (Yerleştirmeler) tıklayın ve yerleştirme. Yerleştirmeler, derin sinirselgözetimli bir kişinin eğitilmesiyle ağ (DNN) aracılığıyla verilerdir. Yerleştirmeler, özellik verilerini bir yerleştirilmiş öğedeki bir vektörle eşler genelde özellik verilerinden daha az boyuta sahip bir alan oluşturur. Gömmeler konusunda ele alınan konular: Yerleştirmeler modülünde anlatacağım. Ayrıca, sinir ağları da Nöral ağlar modülünü kullanabilirsiniz. Benzer örnekler için vektörler yerleştirme (ör. web sitesindeki YouTube videoları) Aynı kullanıcılar tarafından izlenen benzer konular, yerleştirilmiş öğelerde birbirine yakın boşluk oluşturur. Gözetimli benzerlik ölçüsü bu "yakınlık" iki benzerlik modelini kullanarak örnekler.

Unutmayın, yalnızca benzerliğimizi sağlamak için gözetimli öğrenmeden bahsedeceğim. Benzerlik ölçüsü ister manuel ister gözetimli olsun, daha sonra gözetimsiz kümeleme gerçekleştirmek için bir algoritma

Manuel ve Gözetimli Ölçümlerin Karşılaştırması

Bu tabloda, manuel veya gözetimli benzerliğin ne zaman kullanılacağı açıklanmaktadır. farklı ölçümler yapabilirsiniz.

GereksinimManuelGözetimli
İlişkili özelliklerdeki gereksiz bilgileri ortadan kaldırır mı? Hayır, özellikler arasındaki ilişkileri araştırmanız gerekir. Evet, DNN gereksiz bilgileri ortadan kaldırır.
Hesaplanmış benzerliklerle ilgili analiz sağlıyor mu? Evet Hayır, yerleştirilmiş öğeler çözümlenemez.
Az sayıda özelliğe sahip küçük veri kümeleri için uygun mu? Evet. Hayır, küçük veri kümeleri DNN için yeterli eğitim verisi sağlamaz.
Birçok özelliğe sahip büyük veri kümeleri için uygun mu? Hayır, gereksiz bilgileri birden fazla özellikten manuel olarak elemek bunları birleştirmek çok zor. Evet. DNN, gereksiz bilgileri otomatik olarak ortadan kaldırır ve özellikleri bir araya getirir.

Gözetimli benzerlik ölçüsü oluşturma

Gözetimli benzerlik ölçümü oluşturma sürecine ilişkin bir genel bakışı burada bulabilirsiniz:

Özellik verilerini girin. DNN: otomatik kodlayıcı veya tahminci'yi seçin.
      Yerleştirmeleri ayıklayın. Ölçüm seçin: Nokta çarpımı, kosinüs veya
      Öklid mesafesi.
Şekil 1: Gözetimli benzerlik oluşturmaya yönelik adımlar bahsedeceğiz.

Bu sayfada DNN'ler ele alınmaktadır. Sonraki sayfalarda kalan adımlar ele alınmaktadır.

Eğitim etiketlerine göre DNN seçin

DNN'yi eğiterek özellik verilerinizi daha düşük boyutlu yerleştirmelere hem giriş hem de etiket olarak aynı özellik verilerini kullanır. Örneğin, DNN, ev verileri söz konusu olduğunda posta kodu: bu özellikleri tahmin etmek için.

Otomatik kodlayıcı

Giriş verilerinin kendisini tahmin ederek giriş verilerinin yerleştirmelerini öğrenen bir DNN otomatik kodlayıcı olarak adlandırılır. Otomatik kodlayıcının gizli katmanları daha küçük olduğu için Bu durumda, otomatik kodlayıcının farklı bir kod giriş özelliği verilerinin sıkıştırılmış temsilidir. DNN eğitildikten sonra benzerliği hesaplamak için en küçük gizli katmandan yapılan yerleştirmeleri ayıklama.

Aynı öğe için çok sayıda düğümü gösteren şekil
       ortada üç düğüme sıkıştırılan giriş ve çıkış verileridir.
       katmandır.
Şekil 2: Otomatik kodlayıcı mimarisi.

Tahminci

Otomatik kodlayıcı, yerleştirme oluşturmak için en basit seçenektir. Ancak Otomatik kodlayıcı ideal seçenek değildir. Belirli özellikler daha fazla daha önemlidir. Örneğin, şirket içi veriler, fiyatın posta kodundan daha önemli olduğunu varsayın. Böyle durumlarda eğitim etiketi olarak yalnızca önemli özelliği eklemeniz gerekir. Bu DNN'den beri tüm giriş özelliklerini tahmin etmek yerine belirli bir giriş özelliğini tahmin ederse, predictor DNN'dir. Gömülü öğeler genellikle son yerleştiren katman.

Giriş vektöründeki çok sayıda düğümü gösteren şekil
       üç gizli katmandan oluşan üç düğümlü bir katmana indirgenerek
       öğeler ayıklanır. Son çıkış katmanı,
       etiket değeri.
Şekil 3: Tahminci mimarisi.

Etiket olacak özelliği seçerken:

  • Kayıp ve kategorik özelliklere göre sayısal değerleri tercih ederler sayısal özelliklerde hesaplanıp yorumlanması daha kolaydır.

  • DNN girişinden etiket olarak kullandığınız özelliği kaldırın veya Aksi takdirde DNN, sonucu mükemmel bir şekilde tahmin etmek için bu özelliği kullanır. (Bu, etiket sızıntısı ile ilgili çok uç bir örnek.)

Etiket seçiminize bağlı olarak, sonuçta ortaya çıkan DNN otomatik kodlayıcı veya tahmin edici gibi araçlar vardır.