Data kategorik: Masalah umum

Data numerik sering kali direkam dengan instrumen ilmiah atau pengukuran otomatis. Di sisi lain, data kategorik sering yang dikategorikan berdasarkan manusia atau model machine learning (ML). Siapa yang memutuskan pada kategori dan label, serta bagaimana mereka membuat keputusan tersebut, memengaruhi keandalan dan manfaat dari data tersebut.

Penilai manusia

Data yang diberi label secara manual oleh manusia sering disebut sebagai label emas, dan dianggap lebih diminati daripada data berlabel mesin untuk melatih model, karena kualitas datanya yang relatif lebih baik.

Ini tidak berarti bahwa satu set data yang diberi label manusia memiliki {i>sandwich<i} itu. Kesalahan manusia, bias, dan kejahatan dapat diperkenalkan pada titik dari pengumpulan data atau selama pembersihan dan pemrosesan data. Periksa sebelum pelatihan.

Setiap dua orang dapat memberi label contoh yang sama secara berbeda. Perbedaan antara penilai manusia keputusan disebut inter-rater perjanjian. Anda dapat merasakan perbedaan pada opini dengan menggunakan beberapa pelabel per contoh dan mengukur kesepakatan antar-pelabel.

Pelabel mesin

Data berlabel mesin, yang kategorinya ditentukan secara otomatis oleh satu atau model klasifikasi lainnya, sering disebut sebagai label perak. Data berlabel mesin dapat sangat bervariasi kualitasnya. Periksa bukan hanya keakuratannya dan bias, tetapi juga untuk pelanggaran akal, kenyataan, dan niat. Sebagai jika model pandangan komputer salah memberi label pada foto sebuah chihuahua sebagai muffin, atau foto muffin sebagai chihuahua, model yang dilatih dengan data berlabel itu akan berkualitas lebih rendah.

Demikian pula, penganalisis sentimen yang menilai kata-kata netral sebagai -0,25, jika 0,0 adalah nilai netral, mungkin menilai semua kata dengan bias negatif tambahan yang sebenarnya tidak ada dalam data. Pendeteksi toksisitas yang terlalu sensitif dapat secara keliru menandai banyak pernyataan netral sebagai negatif. Cobalah untuk memahami kualitas dan bias label dan anotasi mesin dalam data Anda sebelum pelatihannya.

Dimensi tinggi

Data kategorik cenderung menghasilkan vektor fitur berdimensi tinggi; yaitu, vektor fitur yang memiliki elemen dalam jumlah besar. Dimensiitas tinggi meningkatkan biaya pelatihan dan membuat pelatihan menjadi lebih sulit. Karena alasan ini, pakar ML sering mencari cara untuk mengurangi jumlah sebelum pelatihan.

Untuk data bahasa alami, metode utama untuk mengurangi dimensi adalah untuk mengonversi vektor fitur menjadi vektor embedding. Hal ini dibahas dalam Modul embedding nanti di materi ini.