Glosarium Machine Learning: Pengelompokan

Halaman ini berisi istilah glosarium Pengelompokan. Untuk semua istilah glosarium, klik di sini.

A

pengelompokan aglomeratif

#clustering

Lihat pengelompokan hierarkis.

C

sentroid

#clustering

Pusat cluster ditentukan oleh algoritme k-intent atau k-median. Misalnya, jika k adalah 3, algoritme k-intent atau k-median akan menemukan 3 sentroid.

pengklasteran berdasarkan sentroid

#clustering

Kategori algoritme pengelompokan yang mengatur data ke dalam cluster non-hierarki. k-intent adalah algoritme pengelompokan berdasarkan sentroid yang paling banyak digunakan.

Berbeda dengan algoritme pengelompokan hierarkis.

pengklasteran

#clustering

Mengelompokkan contoh terkait, terutama selama pembelajaran yang tidak diawasi. Setelah semua contoh dikelompokkan, manusia dapat secara opsional memberikan arti pada setiap cluster.

Ada banyak algoritme pengelompokan. Misalnya, contoh algoritma k-intent akan dikelompokkan berdasarkan jaraknya ke centroid, seperti pada diagram berikut:

Grafik dua dimensi yang sumbu x-nya diberi label 'lebar pohon' dan
          sumbu y yang diberi label 'tinggi pohon'. Grafik ini berisi dua
          sentroid dan beberapa lusin titik data. Titik data dikategorikan berdasarkan jaraknya. Artinya, titik data yang paling dekat dengan satu sentroid dikategorikan sebagai 'cluster 1', sedangkan titik yang paling dekat dengan sentroid lainnya dikategorikan sebagai 'cluster 2'.

Peneliti manusia kemudian dapat meninjau cluster tersebut, misalnya label cluster 1 sebagai "pohon kerdil" dan cluster 2 sebagai "pohon berukuran penuh".

Sebagai contoh lainnya, pertimbangkan algoritme pengelompokan berdasarkan jarak contoh dari titik tengah, yang diilustrasikan sebagai berikut:

Puluhan titik data disusun dalam lingkaran konsentris, seperti lubang di tengah papan panah. Cincin terdalam
          titik data dikategorikan sebagai 'cluster 1', cincin tengah
          dikategorikan sebagai 'cluster 2', dan cincin terluar sebagai
          'cluster 3'.

D

pengelompokan divisi

#clustering

Lihat pengelompokan hierarkis.

H

pengelompokan hierarki

#clustering

Kategori algoritme pengelompokan yang membuat pohon klaster. Pengelompokan hierarki sangat cocok untuk data hierarkis, seperti taksonomi botani. Ada dua jenis algoritme pengelompokan hierarki:

  • Pengelompokan aglomeratif menetapkan setiap contoh ke clusternya sendiri terlebih dahulu, dan secara berulang menggabungkan cluster terdekat untuk membuat hierarki hierarki.
  • Pengelompokan pembagian mengelompokkan semua contoh ke dalam satu cluster terlebih dahulu, lalu secara berulang membagi cluster ke dalam hierarki hierarki.

Berbeda dengan pengelompokan berbasis sentroid.

K

k-mean

#clustering

Algoritme pengelompokan populer yang mengelompokkan contoh dalam unSupervised learning. Algoritme k-intent pada dasarnya melakukan hal berikut:

  • Secara berulang menentukan titik tengah k terbaik (dikenal sebagai sentiroid).
  • Menetapkan setiap contoh ke sentroid terdekat. Contoh yang terdekat dengan sentroid yang sama termasuk dalam grup yang sama.

Algoritme k-intent memilih lokasi sentroid untuk meminimalkan kuadrat kumulatif jarak dari setiap contoh ke sentroid terdekatnya.

Misalnya, perhatikan plot tinggi berikut terhadap lebar:

Plot Kartesius dengan beberapa lusin titik data.

Jika k=3, algoritme k-intent akan menentukan tiga sentroid. Setiap contoh ditetapkan ke sentroid terdekatnya, yang menghasilkan tiga grup:

Plot Kartesius yang sama seperti dalam ilustrasi sebelumnya, kecuali dengan tambahan tiga centroid.
          Titik data sebelumnya dikelompokkan ke dalam tiga grup yang berbeda, dengan setiap grup mewakili titik data yang paling dekat dengan sentroid tertentu.

Bayangkan produsen ingin menentukan ukuran yang ideal untuk sweater kecil, sedang, dan besar untuk. Ketiga sentroid mengidentifikasi tinggi rata-rata dan lebar rata-rata setiap dalam kelompok tersebut. Jadi, produsen mungkin seharusnya mendasarkan ukuran sweater pada tiga sentroid tersebut. Perlu diperhatikan bahwa sentroid cluster biasanya bukan contoh dalam cluster.

Ilustrasi sebelumnya menunjukkan k-intent untuk contoh dengan hanya dua fitur (tinggi dan lebar). Perhatikan bahwa k-intent dapat mengelompokkan contoh di banyak fitur.

median k

#clustering

Algoritme pengelompokan yang sangat berkaitan dengan k-artinya. Perbedaan praktis antara keduanya adalah sebagai berikut:

  • Dalam k-berarti, centroid ditentukan dengan meminimalkan jumlah kuadrat jarak antara kandidat sentroid dan setiap contohnya.
  • Dalam k-median, sentroid ditentukan dengan meminimalkan jumlah jarak antara kandidat sentroid dan setiap contohnya.

Perhatikan bahwa definisi jarak juga berbeda:

  • k-artinya bergantung pada jarak Euclidean dari sentroid ke contoh. (Dalam dua dimensi, jarak Euclidean berarti menggunakan teorema Pythagoras untuk menghitung sisi miring.) Misalnya, jarak k-berarti antara (2,2) dan (5,-2) adalah:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median bergantung pada jarak Manhattan dari sentroid ke contoh. Jarak ini adalah jumlah delta absolut di setiap dimensi. Misalnya, jarak k-median antara (2,2) dan (5,-2) adalah:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

M

ukuran kesamaan

#clustering

Dalam algoritme pengelompokan, metrik yang digunakan untuk menentukan seberapa mirip dua contoh yang diberikan.

membuat sketsa

#clustering

Dalam unSupervised machine learning, kategori algoritme yang melakukan analisis kesamaan awal pada contoh. Algoritme pembuatan sketsa menggunakan fungsi hash yang sensitif terhadap lokalitas untuk mengidentifikasi titik-titik yang mungkin mirip, lalu mengelompokkannya ke dalam bucket.

Sketsa mengurangi komputasi yang diperlukan untuk penghitungan kesamaan pada set data besar. Bukannya menghitung kesamaan untuk setiap pasangan contoh dalam set data, kami menghitung kesamaan hanya untuk setiap pasangan titik dalam setiap bucket.

T

analisis deret waktu

#clustering

Subkolom machine learning dan statistik yang menganalisis data sementara. Banyak jenis masalah machine learning memerlukan analisis deret waktu, termasuk klasifikasi, pengelompokan, perkiraan, dan deteksi anomali. Misalnya, Anda dapat menggunakan analisis deret waktu untuk memperkirakan penjualan mantel musim dingin di masa mendatang menurut bulan berdasarkan data penjualan historis.

U

machine learning yang tidak diawasi

#clustering
#fundamentals

Melatih model untuk menemukan pola dalam set data, biasanya set data tak berlabel.

Penggunaan machine learning yang tidak diawasi paling umum adalah dengan mengelompokkan data ke dalam grup contoh yang serupa. Misalnya, algoritme machine learning yang tidak diawasi dapat mengelompokkan lagu berdasarkan berbagai properti musik. Kluster yang dihasilkan dapat menjadi input untuk algoritme machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Pengelompokan dapat membantu jika label yang berguna langka atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, cluster dapat membantu manusia untuk lebih memahami data.

Berbeda dengan machine learning yang diawasi.