hızlıca kümeleme algoritması türlerine ve her türü ne zaman seçmeniz gerektiğine bakalım.
Kümeleme algoritması seçerken, algoritmanın veri kümenize ölçeklendirilip ölçeklendirilmediğini değerlendirmeniz gerekir. Makine öğreniminde veri kümelerinin milyonlarca örneği olabilir ancak tüm kümeleme algoritmaları verimli bir şekilde ölçeklendirilemez. Birçok küme algoritması, tüm örnek çiftler arasındaki benzerliği hesaplayarak çalışır. Bu, karmaşık çalışma notasyonunda \(O(n^2)\) belirtilen \(n\)örnek sayısının karesi olarak çalışma zamanının arttığı anlamına gelir. \(O(n^2)\) Örneklerin sayısı milyon olduğunda algoritmalar pratik değildir. Bu kurs, \(O(n)\)karmaşıklığına ve yani algoritmanın doğrusal olarak ölçeklendirildiği \(n\)k ortalamalı algoritmaya odaklanmaktadır.
Kümeleme Türleri
Kümelemeye çeşitli yaklaşımlar vardır. Kapsamlı bir liste için Küme Algoritmaları Kapsamlı Anketi Xu, D. Tian, Y. Ann Verileri. Bilim (2015) 2: 165. Her yaklaşım, belirli bir veri dağıtımı için en uygun yöntemdir. Aşağıda, k ortalama değerleriyle merkeze dayalı kümelemeye odaklanan dört yaygın yaklaşımdan bahsedilmektedir.
Centroid Tabanlı Kümeleme
Centroid tabanlı kümeleme, verileri hiyerarşik olmayan kümeler halinde düzenler. Aşağıda tanımlanan hiyerarşik kümenin aksine bu en çok kullanılan kronolojik kümeleme algoritmasıdır. Centroid tabanlı algoritmalar etkilidir ancak ilk koşullar ve aykırı değerlere karşı hassastır. Bu kurs verimli, etkili ve basit bir kümeleme algoritması olduğundan k ortalamalarına odaklanmaktadır.
Yoğunluğa Dayalı Kümeleme
Yoğunluğa dayalı kümeleme, örnek yoğunluğunun yüksek olduğu alanları kümelere bağlar. Bu, yoğun alanlar bağlanabildiği sürece rastgele şekilli dağıtımlara izin verir. Bu algoritmalar, farklı yoğunluklara ve yüksek boyutlara sahip verilerle ilgili zorluk yaşar. Ayrıca bu algoritmalar, tasarım gereği kümelere aykırı değerler atamaz.
Dağıtım Tabanlı Kümeleme
Bu kümeleme yaklaşımı, verilerin Gauss dağıtımları gibi dağıtımlardan oluştuğunu varsayar. Şekil 3'te dağıtıma dayalı algoritma, verileri üç Gauss dağıtımı şeklinde gruplandırmaktadır. Dağın merkezine olan uzaklık arttıkça noktanın dağıtım noktasına ait olma olasılığı da azalır. Bantlar değişim olasılığında düşüş olduğunu gösterir. Verilerinizdeki dağılımın türünü bilmiyorsanız farklı bir algoritma kullanmanız gerekir.
Hiyerarşik Kümeleme
Hiyerarşik kümeleme, bir küme ağacı oluşturur. Taksonomi gibi hiyerarşik verilere ise hiyerarşik kümeleme uygundur. Örnek için Oksana Lukjancenko, Trudy Wassenaar ve Dave Ussery'nin Sıra Dizisi Escherichia coli Genomes karşılaştırmasını inceleyin. Buna ek olarak bir başka avantaj, ağacı doğru düzeyde keserek istediğiniz sayıda küme seçilebilmesidir.