Glosarium Machine Learning: Pengelompokan

Halaman ini berisi istilah glosarium Pengelompokan. Untuk semua istilah glosarium, klik di sini.

A

pengelompokan aglomeratif

#clustering

Lihat pengelompokan hierarkis.

C

sentroid

#clustering

Pusat cluster seperti yang ditentukan oleh algoritma k-means atau k-median. Misalnya, jika k bernilai 3, maka algoritme k-means atau k-median akan menemukan 3 sentroid.

Lihat Algoritma pengelompokan di kursus Pengelompokan untuk mengetahui informasi selengkapnya.

pengelompokan berbasis sentroid

#clustering

Kategori algoritma pengelompokan yang mengatur data ke dalam cluster nonhierarkis. k-means adalah algoritma pengelompokan berbasis sentroid yang paling banyak digunakan.

Berbeda dengan algoritma pengelompokan hierarkis.

Lihat Algoritma pengelompokan di kursus Pengelompokan untuk mengetahui informasi selengkapnya.

pengelompokan

#clustering

Mengelompokkan contoh terkait, terutama selama pembelajaran tanpa pengawasan. Setelah semua contoh dikelompokkan, manusia dapat secara opsional memberikan arti pada setiap cluster.

Ada banyak algoritma pengelompokan. Misalnya, algoritma k-means mengelompokkan contoh berdasarkan kedekatannya dengan centroid, seperti pada diagram berikut:

Grafik dua dimensi dengan sumbu x berlabel lebar pohon,
          dan sumbu y berlabel tinggi pohon. Grafik berisi dua
          centroid dan beberapa lusin titik data. Titik data
          dikategorikan berdasarkan kedekatannya. Artinya, titik data yang paling dekat dengan satu centroid dikategorikan sebagai cluster 1, sedangkan titik data yang paling dekat dengan centroid lainnya dikategorikan sebagai cluster 2.

Kemudian peneliti manusia dapat meninjau kluster dan, misalnya, memberi label kluster 1 sebagai "pohon kerdil" dan kluster 2 sebagai "pohon berukuran normal".

Sebagai contoh lain, pertimbangkan algoritma pengelompokan berdasarkan jarak contoh dari titik tengah, yang diilustrasikan sebagai berikut:

Puluhan titik data disusun dalam lingkaran konsentris, hampir
          seperti lubang di sekitar pusat papan dart. Cincin paling dalam
          titik data dikategorikan sebagai cluster 1, cincin tengah
          dikategorikan sebagai cluster 2, dan cincin terluar sebagai
          cluster 3.

Lihat Materi pengelompokan untuk mengetahui informasi selengkapnya.

D

pengelompokan divisif

#clustering

Lihat pengelompokan hierarkis.

H

pengelompokan hierarkis

#clustering

Kategori algoritma pengelompokan yang membuat hierarki cluster. Pengelompokan hierarkis sangat cocok untuk data hierarkis, seperti taksonomi botani. Ada dua jenis algoritma pengelompokan hierarkis:

  • Pengelompokan aglomeratif pertama-tama menetapkan setiap contoh ke clusternya sendiri, dan secara berulang menggabungkan cluster terdekat untuk membuat hierarki pohon.
  • Pengelompokan divisif mengelompokkan semua contoh ke dalam satu cluster terlebih dahulu, lalu secara berulang membagi kluster ke dalam pohon hierarki.

Berbeda dengan pengelompokan berbasis sentroid.

Lihat Algoritma pengelompokan di kursus Pengelompokan untuk mengetahui informasi selengkapnya.

K

k-means

#clustering

Algoritme pengelompokan populer yang mengelompokkan contoh dalam unsupervised learning. Algoritma k-means pada dasarnya melakukan hal berikut:

  • Secara berulang menentukan titik tengah k terbaik (dikenal sebagai sentroid).
  • Menetapkan setiap contoh ke centroid terdekat. Contoh yang paling dekat dengan centroid yang sama berada dalam grup yang sama.

Algoritma k-means memilih lokasi sentroid untuk meminimalkan kuadrat kumulatif jarak dari setiap contoh ke sentroid terdekatnya.

Misalnya, perhatikan plot tinggi terhadap lebar berikut:

Plot Kartesius dengan beberapa lusin titik data.

Jika k=3, algoritma k-means akan menentukan tiga sentroid. Setiap contoh ditetapkan ke centroid terdekatnya, sehingga menghasilkan tiga grup:

Plot Kartesius yang sama seperti pada ilustrasi sebelumnya, kecuali
          dengan tiga centroid yang ditambahkan.
          Titik data sebelumnya dikelompokkan ke dalam tiga grup yang berbeda,
          dengan setiap grup mewakili titik data yang paling dekat dengan centroid
          tertentu.

Bayangkan produsen ingin menentukan ukuran ideal untuk sweter berukuran kecil, sedang, dan besar. Tiga centroid mengidentifikasi tinggi rata-rata dan lebar rata-rata setiap dalam cluster tersebut. Jadi, produsen mungkin harus mendasarkan ukuran sweter pada tiga centroid tersebut. Perhatikan bahwa centroid cluster biasanya bukan contoh dalam cluster.

Ilustrasi sebelumnya menunjukkan k-means untuk contoh dengan hanya dua fitur (tinggi dan lebar). Perhatikan bahwa k-means dapat mengelompokkan contoh di banyak fitur.

k-median

#clustering

Algoritme pengelompokan yang sangat terkait dengan k-means. Perbedaan praktis antara keduanya adalah sebagai berikut:

  • Dalam k-means, centroid ditentukan dengan meminimalkan jumlah kuadrat jarak antara kandidat centroid dan setiap contohnya.
  • Dalam k-median, centroid ditentukan dengan meminimalkan jumlah jarak antara kandidat centroid dan setiap contohnya.

Perhatikan bahwa definisi jarak juga berbeda:

  • k-means bergantung pada jarak Euclidean dari sentroid ke contoh. (Dalam dua dimensi, jarak Euclid berarti menggunakan teorema Pythagoras untuk menghitung sisi miring.) Misalnya, jarak k-means antara (2,2) dan (5,-2) adalah:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median bergantung pada jarak Manhattan dari sentroid ke contoh. Jarak ini adalah jumlah delta absolut di setiap dimensi. Misalnya, jarak k-median antara (2,2) dan (5,-2) adalah:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

ukuran kesamaan

#clustering

Dalam algoritma pengelompokan, metrik yang digunakan untuk menentukan seberapa mirip (seberapa serupa) dua contoh yang diberikan.

sketching

#clustering

Dalam unsupervised machine learning, kategori algoritma yang melakukan analisis kesamaan awal pada contoh. Algoritme sketching menggunakan fungsi hash yang sensitif terhadap lokalitas untuk mengidentifikasi titik-titik yang mungkin mirip, lalu mengelompokkannya ke dalam bucket.

Sketching mengurangi komputasi yang diperlukan untuk penghitungan kesamaan pada set data besar. Bukannya menghitung kesamaan untuk setiap pasangan contoh dalam set data, kita menghitung kesamaan hanya untuk setiap pasangan titik dalam setiap bucket.

S

analisis deret waktu

#clustering

Subbidang machine learning dan statistik yang menganalisis data temporal. Banyak jenis masalah machine learning memerlukan analisis deret waktu, termasuk klasifikasi, pengelompokan, perkiraan, dan deteksi anomali. Misalnya, Anda dapat menggunakan analisis deret waktu untuk memperkirakan penjualan mantel musim dingin mendatang berdasarkan bulan berdasarkan data penjualan historis.

U

unsupervised machine learning

#clustering
#fundamentals

Melatih model untuk menemukan pola dalam set data, biasanya set data tak berlabel.

Penggunaan unsupervised machine learning yang paling umum adalah mengelompokkan data ke dalam beberapa kelompok contoh yang serupa. Misalnya, algoritma machine learning tanpa pengawasan dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input untuk algoritma machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Clustering dapat membantu jika label yang berguna langka atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, kluster dapat membantu manusia untuk lebih memahami data.

Berbeda dengan supervised machine learning.