Halaman ini berisi istilah glosarium Pengelompokan. Untuk semua istilah glosarium, klik di sini.
A
pengelompokan aglomeratif
Lihat pengelompokan hierarkis.
C
sentroid
Pusat cluster ditentukan oleh algoritme k-intent atau k-median. Misalnya, jika k adalah 3, algoritme k-intent atau k-median akan menemukan 3 sentroid.
pengklasteran berdasarkan sentroid
Kategori algoritme pengelompokan yang mengatur data ke dalam cluster non-hierarki. k-intent adalah algoritme pengelompokan berdasarkan sentroid yang paling banyak digunakan.
Berbeda dengan algoritme pengelompokan hierarkis.
pengklasteran
Mengelompokkan contoh terkait, terutama selama pembelajaran yang tidak diawasi. Setelah semua contoh dikelompokkan, manusia dapat secara opsional memberikan arti pada setiap cluster.
Ada banyak algoritme pengelompokan. Misalnya, contoh algoritma k-intent akan dikelompokkan berdasarkan jaraknya ke centroid, seperti pada diagram berikut:
Peneliti manusia kemudian dapat meninjau cluster tersebut, misalnya label cluster 1 sebagai "pohon kerdil" dan cluster 2 sebagai "pohon berukuran penuh".
Sebagai contoh lainnya, pertimbangkan algoritme pengelompokan berdasarkan jarak contoh dari titik tengah, yang diilustrasikan sebagai berikut:
D
pengelompokan divisi
Lihat pengelompokan hierarkis.
H
pengelompokan hierarki
Kategori algoritme pengelompokan yang membuat pohon klaster. Pengelompokan hierarki sangat cocok untuk data hierarkis, seperti taksonomi botani. Ada dua jenis algoritme pengelompokan hierarki:
- Pengelompokan aglomeratif menetapkan setiap contoh ke clusternya sendiri terlebih dahulu, dan secara berulang menggabungkan cluster terdekat untuk membuat hierarki hierarki.
- Pengelompokan pembagian mengelompokkan semua contoh ke dalam satu cluster terlebih dahulu, lalu secara berulang membagi cluster ke dalam hierarki hierarki.
Berbeda dengan pengelompokan berbasis sentroid.
K
k-mean
Algoritme pengelompokan populer yang mengelompokkan contoh dalam unSupervised learning. Algoritme k-intent pada dasarnya melakukan hal berikut:
- Secara berulang menentukan titik tengah k terbaik (dikenal sebagai sentiroid).
- Menetapkan setiap contoh ke sentroid terdekat. Contoh yang terdekat dengan sentroid yang sama termasuk dalam grup yang sama.
Algoritme k-intent memilih lokasi sentroid untuk meminimalkan kuadrat kumulatif jarak dari setiap contoh ke sentroid terdekatnya.
Misalnya, perhatikan plot tinggi berikut terhadap lebar:
Jika k=3, algoritme k-intent akan menentukan tiga sentroid. Setiap contoh ditetapkan ke sentroid terdekatnya, yang menghasilkan tiga grup:
Bayangkan produsen ingin menentukan ukuran yang ideal untuk sweater kecil, sedang, dan besar untuk. Ketiga sentroid mengidentifikasi tinggi rata-rata dan lebar rata-rata setiap dalam kelompok tersebut. Jadi, produsen mungkin seharusnya mendasarkan ukuran sweater pada tiga sentroid tersebut. Perlu diperhatikan bahwa sentroid cluster biasanya bukan contoh dalam cluster.
Ilustrasi sebelumnya menunjukkan k-intent untuk contoh dengan hanya dua fitur (tinggi dan lebar). Perhatikan bahwa k-intent dapat mengelompokkan contoh di banyak fitur.
median k
Algoritme pengelompokan yang sangat berkaitan dengan k-artinya. Perbedaan praktis antara keduanya adalah sebagai berikut:
- Dalam k-berarti, centroid ditentukan dengan meminimalkan jumlah kuadrat jarak antara kandidat sentroid dan setiap contohnya.
- Dalam k-median, sentroid ditentukan dengan meminimalkan jumlah jarak antara kandidat sentroid dan setiap contohnya.
Perhatikan bahwa definisi jarak juga berbeda:
- k-artinya bergantung pada jarak Euclidean dari sentroid ke contoh. (Dalam dua dimensi, jarak Euclidean berarti menggunakan teorema Pythagoras untuk menghitung sisi miring.) Misalnya, jarak k-berarti antara (2,2) dan (5,-2) adalah:
- k-median bergantung pada jarak Manhattan dari sentroid ke contoh. Jarak ini adalah jumlah delta absolut di setiap dimensi. Misalnya, jarak k-median antara (2,2) dan (5,-2) adalah:
4
ukuran kesamaan
Dalam algoritme pengelompokan, metrik yang digunakan untuk menentukan seberapa mirip dua contoh yang diberikan.
membuat sketsa
Dalam unSupervised machine learning, kategori algoritme yang melakukan analisis kesamaan awal pada contoh. Algoritme pembuatan sketsa menggunakan fungsi hash yang sensitif terhadap lokalitas untuk mengidentifikasi titik-titik yang mungkin mirip, lalu mengelompokkannya ke dalam bucket.
Sketsa mengurangi komputasi yang diperlukan untuk penghitungan kesamaan pada set data besar. Bukannya menghitung kesamaan untuk setiap pasangan contoh dalam set data, kami menghitung kesamaan hanya untuk setiap pasangan titik dalam setiap bucket.
T
analisis deret waktu
Subkolom machine learning dan statistik yang menganalisis data sementara. Banyak jenis masalah machine learning memerlukan analisis deret waktu, termasuk klasifikasi, pengelompokan, perkiraan, dan deteksi anomali. Misalnya, Anda dapat menggunakan analisis deret waktu untuk memperkirakan penjualan mantel musim dingin di masa mendatang menurut bulan berdasarkan data penjualan historis.
U
machine learning yang tidak diawasi
Melatih model untuk menemukan pola dalam set data, biasanya set data tak berlabel.
Penggunaan machine learning yang tidak diawasi paling umum adalah dengan mengelompokkan data ke dalam grup contoh yang serupa. Misalnya, algoritme machine learning yang tidak diawasi dapat mengelompokkan lagu berdasarkan berbagai properti musik. Kluster yang dihasilkan dapat menjadi input untuk algoritme machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Pengelompokan dapat membantu jika label yang berguna langka atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, cluster dapat membantu manusia untuk lebih memahami data.
Berbeda dengan machine learning yang diawasi.