Data numerik sering direkam dengan instrumen ilmiah atau pengukuran otomatis. Di sisi lain, data kategorik sering kali dikategorikan berdasarkan manusia atau model machine learning (ML). Siapa yang memutuskan kategori dan label, serta cara mereka membuat keputusan tersebut, memengaruhi keandalan dan kegunaan data tersebut.
Pelabel manusia
Data yang diberi label secara manual oleh manusia sering disebut sebagai label emas, dan dianggap lebih diinginkan daripada data berlabel mesin untuk melatih model, karena kualitas datanya relatif lebih baik.
Hal ini tidak berarti bahwa kumpulan data yang diberi label manual memiliki kualitas tinggi. Kesalahan manusia, bias, dan niat jahat dapat terjadi pada saat pengumpulan data atau selama pembersihan dan pemrosesan data. Periksa hal tersebut sebelum pelatihan.
Dua orang dapat memberi label pada contoh yang sama secara berbeda. Perbedaan antara keputusan penilai manusia disebut kesepakatan antar-penilai. Anda bisa mendapatkan gambaran tentang varians dalam pendapat penilai dengan menggunakan beberapa penilai per contoh dan mengukur kesepakatan antar-penilai.
Pelabel mesin
Data berlabel mesin, dengan kategori yang ditentukan secara otomatis oleh satu atau beberapa model klasifikasi, sering disebut sebagai label perak. Kualitas data yang diberi label mesin dapat sangat bervariasi. Periksa tidak hanya untuk akurasi dan bias, tetapi juga untuk pelanggaran akal sehat, kenyataan, dan niat. Misalnya, jika model computer vision salah memberi label pada foto chihuahua sebagai muffin, atau foto muffin sebagai chihuahua, model yang dilatih pada data berlabel tersebut akan memiliki kualitas yang lebih rendah.
Demikian pula, penganalisis sentimen yang memberi skor kata netral sebagai -0,25, jika 0,0 adalah nilai netral, mungkin memberi skor semua kata dengan bias negatif tambahan yang sebenarnya tidak ada dalam data. Detektor toksisitas yang terlalu sensitif dapat salah menandai banyak pernyataan netral sebagai toksik. Coba pahami kualitas dan bias label dan anotasi mesin dalam data Anda sebelum melakukan pelatihan.
Dimensi tinggi
Data kategoris cenderung menghasilkan vektor fitur berdimensi tinggi; yaitu, vektor fitur yang memiliki banyak elemen. Dimensi yang tinggi akan meningkatkan biaya pelatihan dan mempersulit pelatihan. Karena alasan ini, pakar ML sering kali mencari cara untuk mengurangi jumlah dimensi sebelum pelatihan.
Untuk data bahasa alami, metode utama untuk mengurangi dimensi adalah mengonversi vektor fitur menjadi vektor penyematan. Hal ini akan dibahas dalam modul Penyematan nanti di materi ini.