Kümeleme algoritmaları

Makine öğrenimi veri kümelerinde milyonlarca ancak tüm kümeleme algoritmaları verimli bir şekilde ölçeklenmez. Birçok kümeleme Algoritmalar, tüm örnek çiftleri arasındaki benzerliği hesaplar. Bu benzerlik, örnek sayısının karesi arttıkça çalışma zamanı da artar \(n\). \(O(n^2)\) karmaşıklık gösterimi \(O(n^2)\) şeklinde ifade edilir.Algoritmalar açısından kullanışlı bir uygulamadır.

k-ortalama algoritmasında karmaşıklık \(O(n)\), yani algoritmanın \(n\)ile doğrusal olarak ölçeklendiği anlamına gelir. Bu algoritma, bu kursun odak noktası olacaktır.

Kümeleme türleri

Kümelemeye ilişkin farklı yaklaşımların kapsamlı bir listesi için Kapsamlı Bir Kümeleme Algoritmaları Anketi Xu, D. & Tian, Y. Ayşe Veri. Bilim (2015) 2: 165. Her bir yaklaşım size en uygun veri dağılımını kullanır. Bu kursta, proje yönetiminde yaygın olarak kullanılan yaklaşımlarını anlatacağım.

Centroid tabanlı kümeleme

Kümenin merkezi, tüm noktaların aritmetik ortalaması kümesidir. Centroid tabanlı kümeleme, verileri hiyerarşik olmayan fark edebilirsiniz. Centroid tabanlı kümeleme algoritmaları verimlidir ancak ve aykırı değerleri içerir. Bunlar arasında k-ortalamanın yaygın bir şekilde kullanılır. Kullanıcıların centroid sayısını, k ve genel olarak eşit büyüklükteki kümelerde iyi performans gösterir.

Merkez tabanlı kümeleme kullanılarak kümeler halinde gruplandırılmış örnekler.
           Çizgiler, kümeler arasındaki sınırları gösterir.
Şekil 1: Merkez tabanlı kümeleme örneği.

Yoğunluğa dayalı kümeleme

Yoğunluğa dayalı kümeleme, yüksek örnek yoğunluğuna sahip bitişik alanları fark edebilirsiniz. Bu, herhangi bir şekilde, istenilen sayıda kümenin keşfedilmesine olanak tanır. Aykırı değerler kümelere atanmaz. Bu algoritmaların, ve yüksek boyutlara sahip veri kümelerinden oluşan bir derleme öğesi seçin.

Yoğunluğa dayalı kümeleme kullanılarak iki küme halinde gruplandırılmış örnekler.
      Kümeler doğrusal olarak ayrılamaz.
Şekil 2: Yoğunluğa dayalı kümeleme örneği.

Dağıtıma dayalı kümeleme

Bu kümeleme yaklaşımında verilerin olasılıksal ve örneğin Gauss dağılımları. İçinde Şekil 3, dağıtıma dayalı algoritma verilerini üç Gauss en iyi uygulamaları içerir. Dağılımın merkezine olan mesafe arttıkça, bir noktanın dağılıma ait olma olasılığı azalır. Müzik grupları hesaplamaya devam eder. Belirli bir şeyi düşünmek konusunda kendinizi rahat hissettiğinizde dağılımını görüyorsanız farklı bir algoritma kullanmalısınız.

Dağıtıma dayalı kümeleme kullanılarak kümelenen örnekler. Her kümedeki örnek yoğunluğunun gölgelendirmesi, kümelerin dağılımlarla nasıl eşleştiğini gösterir.
Şekil 3: Dağıtıma dayalı kümeleme örneği.

Hiyerarşik kümeleme

Hiyerarşik kümeleme, bir küme ağacı oluşturur. Hiyerarşik kümeleme, olduğu gibi, sınıflandırmalar gibi hiyerarşik verilere uygundur. Görüntüleyin Sıralı 61 Escherichia coli Genomunun Karşılaştırması Hazırlayan: Oksana Lukjancenko, Trudy Wassenaar ve Buna örnek olarak Dave Ussery verilebilir. Ağacı doğru düzeyde keserek istenilen sayıda küme seçilebilir.

Hiyerarşik bir ağaç kullanılarak kümelenen hayvanlar.
Şekil 4: Hayvanları kümeleyen hiyerarşik ağaç örneği.