Makine öğrenimi veri kümelerinde milyonlarca ancak tüm kümeleme algoritmaları verimli bir şekilde ölçeklenmez. Birçok kümeleme Algoritmalar, tüm örnek çiftleri arasındaki benzerliği hesaplar. Bu benzerlik, örnek sayısının karesi arttıkça çalışma zamanı da artar \(n\). \(O(n^2)\) karmaşıklık gösterimi \(O(n^2)\) şeklinde ifade edilir.Algoritmalar açısından kullanışlı bir uygulamadır.
k-ortalama algoritmasında karmaşıklık \(O(n)\), yani algoritmanın \(n\)ile doğrusal olarak ölçeklendiği anlamına gelir. Bu algoritma, bu kursun odak noktası olacaktır.
Kümeleme türleri
Kümelemeye ilişkin farklı yaklaşımların kapsamlı bir listesi için Kapsamlı Bir Kümeleme Algoritmaları Anketi Xu, D. & Tian, Y. Ayşe Veri. Bilim (2015) 2: 165. Her bir yaklaşım size en uygun veri dağılımını kullanır. Bu kursta, proje yönetiminde yaygın olarak kullanılan yaklaşımlarını anlatacağım.
Centroid tabanlı kümeleme
Kümenin merkezi, tüm noktaların aritmetik ortalaması kümesidir. Centroid tabanlı kümeleme, verileri hiyerarşik olmayan fark edebilirsiniz. Centroid tabanlı kümeleme algoritmaları verimlidir ancak ve aykırı değerleri içerir. Bunlar arasında k-ortalamanın yaygın bir şekilde kullanılır. Kullanıcıların centroid sayısını, k ve genel olarak eşit büyüklükteki kümelerde iyi performans gösterir.
Yoğunluğa dayalı kümeleme
Yoğunluğa dayalı kümeleme, yüksek örnek yoğunluğuna sahip bitişik alanları fark edebilirsiniz. Bu, herhangi bir şekilde, istenilen sayıda kümenin keşfedilmesine olanak tanır. Aykırı değerler kümelere atanmaz. Bu algoritmaların, ve yüksek boyutlara sahip veri kümelerinden oluşan bir derleme öğesi seçin.
Dağıtıma dayalı kümeleme
Bu kümeleme yaklaşımında verilerin olasılıksal ve örneğin Gauss dağılımları. İçinde Şekil 3, dağıtıma dayalı algoritma verilerini üç Gauss en iyi uygulamaları içerir. Dağılımın merkezine olan mesafe arttıkça, bir noktanın dağılıma ait olma olasılığı azalır. Müzik grupları hesaplamaya devam eder. Belirli bir şeyi düşünmek konusunda kendinizi rahat hissettiğinizde dağılımını görüyorsanız farklı bir algoritma kullanmalısınız.
Hiyerarşik kümeleme
Hiyerarşik kümeleme, bir küme ağacı oluşturur. Hiyerarşik kümeleme, olduğu gibi, sınıflandırmalar gibi hiyerarşik verilere uygundur. Görüntüleyin Sıralı 61 Escherichia coli Genomunun Karşılaştırması Hazırlayan: Oksana Lukjancenko, Trudy Wassenaar ve Buna örnek olarak Dave Ussery verilebilir. Ağacı doğru düzeyde keserek istenilen sayıda küme seçilebilir.