Data numerik: Penggesekan

Pohon apel menghasilkan campuran buah-buahan besar dan cacing. Namun, apel di toko bahan makanan kelas atas memajang buah yang 100% sempurna. Antara kebun hingga kelontong, seseorang menghabiskan banyak waktu untuk memindahkan apel yang telah rusak atau menyemprotkan sedikit walau ke apel yang masih bisa diselamatkan. Sebagai engineer ML, Anda akan menghabiskan banyak waktu membuang contoh yang buruk dan membersihkan contoh yang masih dapat diselamatkan. Bahkan beberapa apel yang buruk dapat merusak {i>dataset<i} yang besar.

Banyak contoh dalam {i>dataset<i} yang tidak dapat diandalkan karena satu atau lebih masalah berikut:

Kategori masalah Contoh
Nilai yang tidak ditampilkan Peserta sensus gagal mencatat usia seorang penduduk.
Contoh duplikat Server mengupload log yang sama dua kali.
Nilai fitur di luar rentang. Manusia tidak sengaja mengetik digit tambahan.
Label buruk Seorang evaluator manusia salah memberi label pada gambar pohon ek sebagai maple.

Anda dapat menulis program atau skrip untuk mendeteksi salah satu masalah berikut:

  • Nilai yang tidak ditampilkan
  • Contoh duplikat
  • Nilai fitur di luar rentang

Misalnya, {i>dataset<i} berikut berisi enam nilai berulang:

Gambar 15. Enam nilai pertama diulang. Delapan terakhir
            nilai negatif.
Gambar 15. Enam nilai pertama diulang.

Contoh lain, misalkan rentang suhu untuk fitur tertentu harus antara 10 dan 30 derajat, inklusif. Tapi kebetulan bisa terjadi—mungkin termometer yang terpapar matahari untuk sementara waktu sehingga menyebabkan {i>outlier <i}yang buruk. Program atau skrip Anda harus mengidentifikasi nilai suhu kurang dari 10 atau lebih besar dari 30:

Gambar 16. Sembilan belas nilai dalam rentang dan satu nilai di luar rentang.
Gambar 16. Nilai di luar rentang.

Jika label dibuat oleh beberapa orang, sebaiknya secara statistik menentukan apakah setiap pemberi rating menghasilkan kumpulan label yang setara. Mungkin satu penilai lebih keras daripada penilai lainnya atau digunakan kumpulan kriteria penilaian yang berbeda?

Setelah terdeteksi, Anda biasanya akan "memperbaiki" contoh yang berisi fitur buruk atau label yang buruk dengan menghapusnya dari {i>dataset <i}atau menghitung nilainya. Untuk mengetahui detailnya, lihat Karakteristik data bagian dari Set data, generalisasi, dan overfitting ruang lingkup modul ini.