Halaman ini berisi istilah glosarium Pengelompokan. Untuk semua istilah glosarium, klik di sini.
A
pengelompokan aglomeratif
Lihat pengelompokan hierarkis.
C
sentroid
Pusat cluster seperti yang ditentukan oleh algoritma k-means atau k-median. Misalnya, jika k bernilai 3, maka algoritme k-means atau k-median akan menemukan 3 sentroid.
Lihat Algoritma pengelompokan di kursus Pengelompokan untuk mengetahui informasi selengkapnya.
pengelompokan berbasis sentroid
Kategori algoritma pengelompokan yang mengatur data ke dalam cluster nonhierarkis. k-means adalah algoritma pengelompokan berbasis sentroid yang paling banyak digunakan.
Berbeda dengan algoritma pengelompokan hierarkis.
Lihat Algoritma pengelompokan di kursus Pengelompokan untuk mengetahui informasi selengkapnya.
pengelompokan
Mengelompokkan contoh terkait, terutama selama pembelajaran tanpa pengawasan. Setelah semua contoh dikelompokkan, manusia dapat secara opsional memberikan arti pada setiap cluster.
Ada banyak algoritma pengelompokan. Misalnya, algoritma k-means mengelompokkan contoh berdasarkan kedekatannya dengan centroid, seperti pada diagram berikut:
Kemudian peneliti manusia dapat meninjau kluster dan, misalnya, memberi label kluster 1 sebagai "pohon kerdil" dan kluster 2 sebagai "pohon berukuran normal".
Sebagai contoh lain, pertimbangkan algoritma pengelompokan berdasarkan jarak contoh dari titik tengah, yang diilustrasikan sebagai berikut:
Lihat Materi pengelompokan untuk mengetahui informasi selengkapnya.
D
pengelompokan divisif
Lihat pengelompokan hierarkis.
H
pengelompokan hierarkis
Kategori algoritma pengelompokan yang membuat hierarki cluster. Pengelompokan hierarkis sangat cocok untuk data hierarkis, seperti taksonomi botani. Ada dua jenis algoritma pengelompokan hierarkis:
- Pengelompokan aglomeratif pertama-tama menetapkan setiap contoh ke clusternya sendiri, dan secara berulang menggabungkan cluster terdekat untuk membuat hierarki pohon.
- Pengelompokan divisif mengelompokkan semua contoh ke dalam satu cluster terlebih dahulu, lalu secara berulang membagi kluster ke dalam pohon hierarki.
Berbeda dengan pengelompokan berbasis sentroid.
Lihat Algoritma pengelompokan di kursus Pengelompokan untuk mengetahui informasi selengkapnya.
K
k-means
Algoritme pengelompokan populer yang mengelompokkan contoh dalam unsupervised learning. Algoritma k-means pada dasarnya melakukan hal berikut:
- Secara berulang menentukan titik tengah k terbaik (dikenal sebagai sentroid).
- Menetapkan setiap contoh ke centroid terdekat. Contoh yang paling dekat dengan centroid yang sama berada dalam grup yang sama.
Algoritma k-means memilih lokasi sentroid untuk meminimalkan kuadrat kumulatif jarak dari setiap contoh ke sentroid terdekatnya.
Misalnya, perhatikan plot tinggi terhadap lebar berikut:
Jika k=3, algoritma k-means akan menentukan tiga sentroid. Setiap contoh ditetapkan ke centroid terdekatnya, sehingga menghasilkan tiga grup:
Bayangkan produsen ingin menentukan ukuran ideal untuk sweter berukuran kecil, sedang, dan besar. Tiga centroid mengidentifikasi tinggi rata-rata dan lebar rata-rata setiap dalam cluster tersebut. Jadi, produsen mungkin harus mendasarkan ukuran sweter pada tiga centroid tersebut. Perhatikan bahwa centroid cluster biasanya bukan contoh dalam cluster.
Ilustrasi sebelumnya menunjukkan k-means untuk contoh dengan hanya dua fitur (tinggi dan lebar). Perhatikan bahwa k-means dapat mengelompokkan contoh di banyak fitur.
k-median
Algoritme pengelompokan yang sangat terkait dengan k-means. Perbedaan praktis antara keduanya adalah sebagai berikut:
- Dalam k-means, centroid ditentukan dengan meminimalkan jumlah kuadrat jarak antara kandidat centroid dan setiap contohnya.
- Dalam k-median, centroid ditentukan dengan meminimalkan jumlah jarak antara kandidat centroid dan setiap contohnya.
Perhatikan bahwa definisi jarak juga berbeda:
- k-means bergantung pada jarak Euclidean dari sentroid ke contoh. (Dalam dua dimensi, jarak Euclid berarti menggunakan teorema Pythagoras untuk menghitung sisi miring.) Misalnya, jarak k-means antara (2,2) dan (5,-2) adalah:
- k-median bergantung pada jarak Manhattan dari sentroid ke contoh. Jarak ini adalah jumlah delta absolut di setiap dimensi. Misalnya, jarak k-median antara (2,2) dan (5,-2) adalah:
S
ukuran kesamaan
Dalam algoritma pengelompokan, metrik yang digunakan untuk menentukan seberapa mirip (seberapa serupa) dua contoh yang diberikan.
sketching
Dalam unsupervised machine learning, kategori algoritma yang melakukan analisis kesamaan awal pada contoh. Algoritme sketching menggunakan fungsi hash yang sensitif terhadap lokalitas untuk mengidentifikasi titik-titik yang mungkin mirip, lalu mengelompokkannya ke dalam bucket.
Sketching mengurangi komputasi yang diperlukan untuk penghitungan kesamaan pada set data besar. Bukannya menghitung kesamaan untuk setiap pasangan contoh dalam set data, kita menghitung kesamaan hanya untuk setiap pasangan titik dalam setiap bucket.
S
analisis deret waktu
Subbidang machine learning dan statistik yang menganalisis data temporal. Banyak jenis masalah machine learning memerlukan analisis deret waktu, termasuk klasifikasi, pengelompokan, perkiraan, dan deteksi anomali. Misalnya, Anda dapat menggunakan analisis deret waktu untuk memperkirakan penjualan mantel musim dingin mendatang berdasarkan bulan berdasarkan data penjualan historis.
U
unsupervised machine learning
Melatih model untuk menemukan pola dalam set data, biasanya set data tak berlabel.
Penggunaan unsupervised machine learning yang paling umum adalah mengelompokkan data ke dalam beberapa kelompok contoh yang serupa. Misalnya, algoritma machine learning tanpa pengawasan dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input untuk algoritma machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Clustering dapat membantu jika label yang berguna langka atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, kluster dapat membantu manusia untuk lebih memahami data.
Berbeda dengan supervised machine learning.