Manuel benzerlik ölçümü

Az önce gösterildiği gibi, k-ortalaması noktaları en yakın merkeze atar. Ama ne işe yarar "en yakın" ne demek?

K-ortalamaları özellik verilerine uygulamak için, bir teslim tarihinin tüm özellik verilerini tek bir sayısal değerde birleştiren benzerlik, manuel benzerlik ölçüsü olarak adlandırılır.

Ayakkabı veri kümesini ele alalım. Bu veri kümesinin tek özelliği ayakkabı numarasıysa iki ayakkabının benzerliğini, aralarındaki fark nedeniyle nasıl sağlayabileceğini de öğreneceksiniz. Boyutlar arasındaki sayısal fark ne kadar küçükse ne kadar iyi karşıladığını görebileceksiniz.

Bu ayakkabı veri kümesinde beden ve fiyat olmak üzere iki sayısal özellik varsa bunları, benzerliği temsil eden tek bir sayıya dönüştürün. Öncelikle verileri ölçeklendirin ve benzerdir:

  • Beden (s): Ayakkabı bedeni büyük olasılıkla bir Gauss dağılımını oluşturur. Bunu onaylayın. Daha sonra verileri normalleştirin.
  • Fiyat (p): Veriler muhtemelen bir Poisson dağılımıdır. Bunu onaylayın. Şu durumda: yeterli veriye sahip olup verileri yüzdelik dilimlere dönüştürüp \([0,1]\)olarak ölçeklendirin.

Ardından, iki özelliği hesaplayarak ve kök ortalama karesel hata (RMSE) kapsamında değerlendirilir. Bu kabaca benzerlik ölçüsü, \(\sqrt{\frac{(s_i - s_j)^2+(p_i - p_j)^2}{2}}\)

Basit bir örnek olarak, ABD bedenine sahip iki ayakkabı için benzerliği hesaplayın. 8 ve 11, fiyatlar ise 120 ve 150. Elimizde yeterli veri olmadığından etmek için verileri normalleştirmeden veya kullanmadan yüzdelik dilim.

İşlemYöntem
Boyutu ölçeklendirin. Olası maksimum ayakkabı numarasının 20 olduğunu varsayalım. 8 ve 11'i şuna bölün: 0,4 ve 0,55 almak için maksimum boyut 20'yi seçin.
Fiyatı ölçeklendirin. 0,8 ve 1'i elde etmek için 120 ve 150'yi maksimum fiyat olan 150'ye bölün.
Boyuttaki farkı bulun. \(0.55 - 0.4 = 0.15\)
Fiyattaki farkı bulun. \(1 - 0.8 = 0.2\)
RMSE'yi hesaplayın. \(\sqrt{\frac{0.2^2+0.15^2}{2}} = 0.17\)

Sezgisel olarak, özellik verileri daha çok olduğunda benzerlik ölçümünüz benzer. Bunun yerine benzerlik ölçümünüz (RMSE) aslında azalır. Sevdiğiniz bir benzerlik ölçüsü 1'den çıkarıp sezgilerinizi izler.

\[\text{Similarity} = 1 - 0.17 = 0.83\]

Genel olarak, sayısal verileri aşağıdaki gibi hazırlayabilirsiniz: Verileri hazırlayın ve ardından Öklid mesafesi kullanılarak oluşturulan verilerdir.

Söz konusu veri kümesinde hem ayakkabı numarası hem de ayakkabı rengi varsa ne olur? Renk: kategorik veriler, Makine Öğrenimi Crash Course'ta ele aldığımız Kategorik verilerle çalışma. Kategorik verilerin sayısal boyut verileriyle birleştirilmesi daha zordur. Şunlardan biri olabilir:

  • Arabanın rengi ("beyaz" veya "mavi" gibi) ancak hiçbir zaman her ikisi için de)
  • Birden çok değerli (çok değişkenli), örneğin filmin türü (bir film hem "işlem" ve "komedi" gibi veya yalnızca "işlem")

Eşdeğer olmayan veriler eşleşirse, örneğin iki çift mavi ayakkabı örneğinde, örnekler arasındaki benzerlik 1'dir. Aksi takdirde, benzerlik 0 olur.

Film türleri gibi çok değerli verilerle çalışmak daha zordur. Bir sabit film türlerinin bir kümesi olarak kabul edildiğinde, benzerlik, yaygın olarak kullanılan Jaccard benzerliği. Örnek Jaccard benzerliği hesaplamaları:

  • ["komedi",aksiyon"] ve ["komedi",aksiyon"] = 1
  • ["komedi",aksiyon"] ve [“aksiyon”] = 1⁄2
  • ["komedi",aksiyon"] ve ["aksiyon", "drama"] = 1⁄3
  • ["komedi",aksiyon"] ve ["kurmaca olmayan","biyografi"] = 0

Jaccard benzerliği, görevler için kullanılabilecek tek manuel benzerlik kategorik veridir. Diğer iki örnek:

  • Posta kodları, önceden enlem ve boylama dönüştürülebilir. aralarındaki Öklid mesafesi hesaplanır.
  • Renk, değerleri Öklid mesafesi olarak birleştirilir.

Bkz. Kategorik verilerle çalışma .

Genel olarak, manuel benzerlik ölçüsü, irdeleyelim. Seçtiğiniz metrik belirtilmiyorsa metriği kodlamamış demektir. kodlamasını istediğiniz bilgileri içerir.

Bir benzerlik ölçüsü hesaplamadan önce verilerinizi dikkatli bir şekilde önceden işleyin. İlgili içeriği oluşturmak için kullanılan bu sayfadaki örnekler basitleştirilmiştir. Gerçek dünyadaki veri kümelerinin çoğu büyük, ve karmaşık hale getirebilirsiniz. Daha önce de belirtildiği gibi, yüzdelik dilimler iyi bir varsayılan seçenektir .

Verilerin karmaşıklığı arttıkça kılavuz oluşturmak da zorlaşıyor. bir ölçüdür. Bu durumda, gözetimli benzerlik ölçüsü (gözetimli benzerlik ölçüsü), benzerliği hesaplar. Bu konu daha ayrıntılı olarak açıklanacak daha sonra.