Az önce gösterildiği gibi, k-ortalama, noktaları en yakın merkez noktalarına atar. Peki "en yakın" ne anlama geliyor?
K-ortalamaları özellik verilerine uygulamak için tüm özellik verilerini tek bir sayısal değerde birleştiren bir benzerlik ölçümü (manuel benzerlik ölçümü) tanımlamanız gerekir.
Bir ayakkabı veri kümesini düşünün. Bu veri kümesinin tek özelliği ayakkabı bedeniyse iki ayakkabının benzerliğini, bedenleri arasındaki fark açısından tanımlayabilirsiniz. Bedenler arasındaki sayısal fark ne kadar küçükse ayakkabılar arasındaki benzerlik o kadar fazladır.
Bu ayakkabı veri kümesinde beden ve fiyat olmak üzere iki sayısal özellik varsa bunları benzerliği temsil eden tek bir sayıyla birleştirebilirsiniz. Öncelikle verileri, her iki özelliğin de karşılaştırılabilir olması için ölçeklendirin:
- Beden (s): Ayakkabı bedeni muhtemelen Gauss dağılımına sahiptir. Bunu onaylayın. Ardından verileri normalleştirin.
- Fiyat (p): Veriler muhtemelen Poisson dağılımına sahiptir. Bunu onaylayın. Yeterli veriniz varsa verileri yüzdelik dilimlere dönüştürün ve ölçeğine göre ayarlayın.
Ardından, kök ortalama kare hatasını (RMSE) hesaplayarak iki özelliği birleştirin. Bu kaba benzerlik ölçümüile verilir.
Basit bir örnek olarak, ABD bedenleri 8 ve 11, fiyatları 120 ve 150 olan iki ayakkabının benzerliğini hesaplayın. Dağılımı anlamak için yeterli verimiz olmadığından verileri normalleştirmeden veya yüzdelik dilim kullanmadan ölçeklendireceğiz.
İşlem | Yöntem |
---|---|
Boyutu ölçeklendirin. | Mümkün olan maksimum ayakkabı boyutunun 20 olduğunu varsayalım. 8 ve 11'i maksimum boyut olan 20'ye bölerek 0,4 ve 0,55 elde edin. |
Fiyatı ölçeklendirin. | 120 ve 150'yi maksimum fiyat olan 150'e bölerek 0,8 ve 1'i elde edin. |
Boyuttaki farkı bulun. | |
Fiyat farkını bulun. | |
RMSE'yi hesaplayın. |
Mantıksal olarak, özellik verileri daha benzer olduğunda benzerlik ölçümünüz artar. Bunun yerine, benzerlik ölçütünüz (RMSE) aslında azalır. Benzerlik ölçümünüzü 1'den çıkararak sezgilerinize uygun hale getirin.
Genel olarak, sayısal verileri Verileri hazırlama bölümünde açıklandığı gibi hazırlayabilir ve ardından Öklid mesafesini kullanarak verileri birleştirebilirsiniz.
Bu veri kümesi hem ayakkabı bedenini hem de ayakkabı rengini içeriyorsa ne olur? Renk, Kategorik verilerle çalışma başlıklı Makine Öğrenimi Acele Kursu bölümünde ele alınan kategorik veri türüdür. Kategorik verilerin sayısal boyut verileriyle birleştirilmesi daha zordur. Bu durum aşağıdakilerden kaynaklanabilir:
- Tek değerli (tek değerli), ör. bir arabanın rengi ("beyaz" veya "mavi" ancak ikisinin birden olmaması gerekir)
- Filmin türü gibi çok değerli (çok değerli), (bir film hem "aksiyon" hem de "komedi" olabilir veya yalnızca "aksiyon" olabilir)
Tek değerli veriler eşleşirse (ör. iki çift mavi ayakkabı söz konusu olduğunda) örnekler arasındaki benzerlik 1 olur. Aksi takdirde benzerlik 0 olur.
Film türleri gibi çok değerli verilerle çalışmak daha zordur. Sabit bir film türü grubu varsa benzerlik, ortak değerlerin oranı kullanılarak hesaplanabilir. Bu orana Jaccard benzerliği denir. Jaccard benzerliğiyle ilgili örnek hesaplamalar:
- ["komedi","aksiyon"] ve ["komedi","aksiyon"] = 1
- ["komedi","aksiyon"] ve ["aksiyon"] = ½
- ["komedi", "aksiyon"] ve ["aksiyon", "dram"] = ⅓
- ["komedi","aksiyon"] ve ["kurgusal olmayan","biyografi"] = 0
Jaccard benzerliği, kategorik veriler için kullanılabilecek tek manuel benzerlik ölçümü değildir. Diğer iki örnek:
- Posta kodları, aralarındaki Öklid mesafesi hesaplanmadan önce enlem ve boylam olarak dönüştürülebilir.
- Renk, değerlerdeki farklılıklar Öklid mesafesinde birleştirilerek sayısal RGB değerlerine dönüştürülebilir.
Daha fazla bilgi için Kategorik verilerle çalışma başlıklı makaleyi inceleyin.
Genel olarak, manuel benzerlik ölçümü doğrudan gerçek benzerlikle eşleşmelidir. Seçtiğiniz metrik bunu yapmıyorsa kodlamasını istediğiniz bilgileri kodlamıyor demektir.
Benzerlik ölçümünü hesaplamadan önce verilerinizi dikkatlice ön işleme alın. Bu sayfadaki örnekler basitleştirilmiştir. Gerçek dünyadaki veri kümelerinin çoğu büyük ve karmaşıktır. Daha önce de belirtildiği gibi, sayısal verileri işlemek için iyi bir varsayılan seçimdir.
Verilerin karmaşıklığı arttıkça manuel benzerlik ölçümü oluşturmak zorlaşır. Bu durumda, gözetimli bir makine öğrenimi modelinin benzerliği hesapladığı gözetimli benzerlik ölçümüne geçin. Bu konu daha sonra ayrıntılı olarak ele alınacaktır.