Sistem ML di Dunia Nyata: Sastra

Dalam pelajaran ini, Anda akan men-debug masalah ML di dunia nyata* yang berkaitan dengan sastra abad ke-18.

Contoh di Dunia Nyata: Sastra Abad ke-18

  • Profesor Sastra Abad Ke-18 ingin memprediksi afiliasi politik penulis hanya berdasarkan "metafora pikiran" yang digunakan penulis.
Buku Lama
  • Profesor Sastra Abad Ke-18 ingin memprediksi afiliasi politik penulis hanya berdasarkan "metafora pikiran" yang digunakan penulis.
  • Tim peneliti membuat set data berlabel besar dengan banyak penulis' karya, kalimat demi kalimat, dan dibagi menjadi set pelatihan/validasi/pengujian.
Buku Lama
  • Profesor Sastra Abad Ke-18 ingin memprediksi afiliasi politik penulis hanya berdasarkan "metafora pikiran" yang digunakan penulis.
  • Tim peneliti membuat set data berlabel besar dengan banyak penulis' karya, kalimat demi kalimat, dan dibagi menjadi set pelatihan/validasi/pengujian.
  • Model terlatih melakukan data pengujian hampir sempurna, tetapi para peneliti merasa hasilnya akurat secara mencurigakan. Apa yang mungkin salah?
Buku Lama

Menurut Anda, mengapa akurasi pengujian sangat tinggi dan mencurigakan? Lihat apakah Anda bisa mengetahui masalahnya, lalu klik tombol Putar ▶ di bawah untuk mencari tahu apakah Anda benar.

  • Pembagian Data A: Peneliti menempatkan beberapa contoh dari setiap penulis di set pelatihan, beberapa di set validasi, beberapa di set pengujian.
Semua contoh milik Richardson mungkin ada di set pelatihan, sementara semua contoh Swift mungkin ada di set validasi.
Diagram yang menunjukkan perincian contoh penulis dalam set pelatihan, validasi, dan pengujian. Contoh dari ketiga penulis tersebut ditampilkan dalam setiap kumpulan.
  • Pembagian Data B: Peneliti menempatkan semua contoh milik setiap penulis dalam satu set.
Diagram yang menunjukkan perincian contoh penulis dalam set pelatihan, validasi, dan pengujian. Set pelatihan hanya berisi contoh dari Swift, set validasi hanya berisi contoh dari Blake, dan set pengujian hanya berisi contoh dari Defoe.
  • Pembagian Data A: Peneliti menempatkan beberapa contoh dari setiap penulis di set pelatihan, beberapa di set validasi, beberapa di set pengujian.
  • Pembagian Data B: Peneliti menempatkan semua contoh milik setiap penulis dalam satu set.
  • Hasil: Model yang dilatih pada Pembagian Data A memiliki akurasi yang jauh lebih tinggi daripada model yang dilatih pada Pembagian Data B.

Moral: pertimbangkan dengan cermat cara Anda membagi contoh.

Mengetahui apa yang diwakili oleh data.

* Kita mendasarkan modul ini secara longgar (dengan melakukan beberapa perubahan) pada "Arti dan Pertambangan: Dampak Asumsi Implisit dalam Penambangan Data untuk Humaniora" oleh DoCoMoey dan Pasanek.