Makine Öğrenimi Sözlüğü: Kümeleme

Bu sayfada Kümeleme sözlüğü terimleri bulunuyor. Tüm sözlük terimleri için burayı tıklayın.

A

toplama kümeleme

#clustering

Hiyerarşi kümeleme bölümüne bakın.

C

centroid

#clustering

Bir kümenin k-ortalamaları veya k-ortan algoritması tarafından belirlenen merkezi. Örneğin, k 3 ise k ortalama değeri veya k-ortanca algoritması 3 santimetre bulur.

centroid tabanlı kümeleme

#clustering

Verileri hiyerarşik olmayan kümeler halinde düzenleyen bir kümeleme algoritması kategorisi. K-ortalaması, en yaygın olarak kullanılan merkeze dayalı kümeleme algoritmasıdır.

Hiyerarşik kümeleme algoritmalarıyla kontrast.

kümeleme

#clustering

İlgili örnekleri, özellikle denetimsiz öğrenme sırasında gruplandırma. Tüm örnekler gruplandırıldığında gerçek kişi, her bir kümenin anlamını belirleyebilir.

Birçok kümeleme algoritması vardır. Örneğin, k-ortalaması algoritması, aşağıdaki şemada olduğu gibi bir centroid yakınlığına göre küme kümeleri oluşturur:

X ekseninin "ağaç genişliği" olarak etiketlendiği ve y ekseninin "ağaç yüksekliği" olarak etiketlendiği iki boyutlu bir grafik. Grafikte iki centroid ve birkaç düzine veri noktası bulunuyor. Veri noktaları, yakınlıklarına göre
          kategorize edilir. Diğer bir deyişle, bir merkeze en yakın olan veri noktaları "küme 1" olarak, diğer merkeze en yakın olan noktalar ise "küme 2" olarak sınıflandırılır.

Ardından gerçek bir araştırmacı, kümeleri inceleyebilir ve örneğin, 1. kümeyi "cüce ağaçlar" ve 2. kümeyi "tam boyutlu ağaçlar" olarak etiketleyebilir.

Başka bir örnek olarak, bir örneğin merkezden belirli bir uzaklığına göre kümeleme algoritmasını değerlendirin. Örnek:

Onlarca veri noktası, bir dart tahtasının ortasındaki delikler gibi iç içe geçmiş daireler halinde düzenlenir. Veri noktalarının en yakın halkası "küme 1", orta halkanın "küme 2", en dış çember "küme 3" olarak kategorize edilir.

D

bölmeli kümeleme

#clustering

Hiyerarşi kümeleme bölümüne bakın.

H

hiyerarşik kümeleme

#clustering

Küme ağacı oluşturan bir kümeleme algoritması kategorisi. Hiyerarşik kümeleme, botanik taksonomiler gibi hiyerarşik verilere uygundur. İki tür hiyerarşik kümeleme algoritması vardır:

  • Toplama kümeleme ilk olarak her bir örneği kendi kümesine atar ve hiyerarşik bir ağaç oluşturmak için en yakındaki kümeleri tekrar tekrar birleştirir.
  • Bölünmüş kümeleme ilk olarak tüm örnekleri bir küme halinde gruplandırır, ardından kümeyi hiyerarşik olarak bir hiyerarşik ağa böler.

Merkezi tabanlı kümelemeyle kontrast.

K

k-ortalama

#clustering

Gözetimsiz öğrenmede kullanılan örnekleri gruplandıran popüler bir kümeleme algoritmasıdır. K-ortalaması algoritması temel olarak aşağıdakileri yapar:

  • En iyi k merkezi noktalarını (centroid olarak bilinir) tekrar tekrar belirler.
  • Her örneği en yakın merkeze atar. Aynı merkeze en yakın örnekler aynı gruba aittir.

K-ortalama algoritması, her örnekten en yakın merkeze olan mesafenin kümülatif kare değerini en aza indirmek için merkezi konumları seçer.

Örneğin, aşağıdaki köpek yüksekliği-köpek genişliği grafiğini düşünün:

Onlarca veri noktası içeren bir Kartesyen şeması.

k=3 ise k-ortalaması algoritması üç merkezi belirler. Her örnek en yakın merkeze atanır ve üç grup elde edilir:

Üç santimetre eklenmiş olan hariç, önceki resimde olduğu gibi Kartezyen çizimi.
          Önceki veri noktaları, her biri belirli bir merkeze en yakın veri noktalarını temsil eden üç ayrı grup halinde
 kümelenir.

Bir üreticinin, köpekler için küçük, orta ve büyük kazak için ideal bedenleri belirlemek istediğini düşünün. Üç merkez, söz konusu kümedeki her köpeğin ortalama yüksekliğini ve ortalama genişliğini tanımlar. Bu nedenle, muhtemelen kazak boyutlarını bu üç merkeze dayandırmanız gerekir. Bir kümenin santralinin genellikle kümedeki bir örnek olmadığını unutmayın.

Yukarıdaki resimlerde, yalnızca iki özelliğe (yükseklik ve genişlik) sahip örnekler için k ortalama değeri gösterilmektedir. K-ortalamalarının birçok özelliği kapsayan örnekleri gruplandırabileceğini unutmayın.

k-ortanca

#clustering

K-ortalamalarıyla yakından ilişkili bir kümeleme algoritması. Bu iki uygulamanın arasındaki fark şunlardır:

  • K-ortalamasında, centroid'ler bir centroid adayı ile örneklerinin her biri arasındaki mesafenin karelerinin en aza indirilmesiyle belirlenir.
  • K-ortanca centroid, bir centroid adayı ile örneklerinin her biri arasındaki mesafenin en aza indirilmesiyle belirlenir.

Mesafe tanımlarının da farklı olduğunu unutmayın:

  • k ortalamaları, merkezin bir örneğe olan Öklid mesafesine dayanır. (İki boyutta Öklid mesafesi, hipotenüsü hesaplamak için Pisagor teoremini kullanmak anlamına gelir.) Örneğin, (2,2) ile (5,-2) arasındaki k anlamı şudur:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median, merkezin bir örneğine kadar Manhattan mesafesine dayanır. Bu mesafe, her boyuttaki mutlak deltaların toplamıdır. Örneğin, (2,2) ile (5,-2) arasındaki k-ortanca mesafe şu şekilde olur:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

C

benzerlik ölçüsü

#clustering

Kümeleme algoritmalarında, iki örneğin ne kadar benzer (ne kadar benzer) olduğunu belirlemek için kullanılan metrik.

eskiz

#clustering

Gözetimsiz makine öğrenimi bölümünde, örneklerde ön benzerlik analizi gerçekleştiren bir algoritma kategorisidir. Çizim algoritmaları, benzer olma ihtimali olan noktaları tanımlamak için bölgeye duyarlı bir karma işlevi kullanır, ardından bunları gruplar halinde gruplandırır.

Çizim, büyük veri kümelerinde benzerlik hesaplamaları için gereken hesaplamayı azaltır. Veri kümesindeki her bir örnek çifti için benzerliği hesaplamak yerine benzerliği yalnızca her paket içindeki her bir nokta çifti için hesaplarız.

T

zaman serisi analizi

#clustering

Geçici verileri analiz eden bir makine öğrenimi ve istatistik alt alanı. Sınıflandırma, kümeleme, öngörme ve anormallik algılamayı da içeren birçok makine öğrenimi sorunu türü, zaman serisi analizi gerektirir. Örneğin, geçmiş satış verilerine göre gelecekteki montların gelecekteki satışlarını aya göre tahmin etmek için zaman serisi analizini kullanabilirsiniz.

U

gözetimsiz makine öğrenimi

#clustering
#fundamentals

Bir veri kümesindeki (genellikle etiketlenmemiş bir veri kümesi) modelleri bulmak için bir model eğitme.

Gözetimsiz makine öğreniminin en yaygın kullanımı, verileri benzer örneklerden oluşan gruplara kümelemektir. Örneğin, gözetimsiz bir makine öğrenimi algoritması, müziğin çeşitli özelliklerine göre şarkıları gruplandırabilir. Oluşturulan kümeler, diğer makine öğrenimi algoritmalarının (ör. bir müzik öneri hizmeti) girişi olabilir. Kümeleme, yararlı etiketlerin çok az veya hiç olmaması durumunda yararlı olabilir. Örneğin, kötüye kullanım karşıtı ve sahtekarlık gibi alanlarda kümeler, kullanıcıların verileri daha iyi anlamasına yardımcı olabilir.

Gözetimli makine öğreniminin karşıtıdır.