Jika Anda mempertimbangkan untuk menggunakan AutoML, Anda mungkin memiliki pertanyaan tentang cara kerja dan langkah-langkah yang harus Anda lakukan untuk memulai. Bagian ini membahas lebih mendalam pola AutoML umum, mempelajari cara kerja AutoML, dan memeriksa langkah-langkah yang mungkin perlu Anda lakukan sebelum mulai menggunakan AutoML untuk project Anda.
Alat AutoML
Alat AutoML terbagi menjadi dua kategori utama:
- Alat yang tidak memerlukan coding biasanya berbentuk aplikasi web yang memungkinkan Anda mengonfigurasi dan menjalankan eksperimen melalui antarmuka pengguna untuk menemukan model terbaik untuk data Anda tanpa menulis kode apa pun.
- Alat API dan CLI menyediakan fitur otomatisasi lanjutan, tetapi memerlukan lebih banyak (terkadang jauh lebih banyak) keahlian pemrograman dan ML.
Alat AutoML yang memerlukan coding dapat lebih canggih dan lebih fleksibel daripada alat tanpa kode, tetapi juga dapat lebih sulit digunakan. Modul ini berfokus pada opsi no-code untuk pengembangan model, tetapi perlu diketahui bahwa opsi API dan CLI dapat membantu jika Anda memerlukan otomatisasi yang disesuaikan.
Alur kerja AutoML
Mari kita pelajari alur kerja ML standar dan lihat cara kerjanya saat Anda menggunakan AutoML. Langkah-langkah tingkat tinggi dalam alur kerja sama dengan yang Anda gunakan untuk pelatihan kustom; perbedaan utamanya adalah AutoML menangani beberapa tugas untuk Anda.
Definisi masalah
Langkah pertama dalam alur kerja ML adalah menentukan masalah Anda. Saat menggunakan AutoML, pastikan alat yang Anda pilih dapat mendukung tujuan project ML Anda. Sebagian besar alat AutoML mendukung berbagai algoritma machine learning terpantau dan jenis data input.
Untuk mengetahui informasi selengkapnya tentang framing masalah, lihat modul tentang Pengantar Framing Masalah Machine Learning.
Pengumpulan data
Sebelum dapat mulai menggunakan alat AutoML, Anda perlu mengumpulkan data ke dalam satu sumber data. Periksa dokumentasi produk untuk memastikan bahwa alat Anda mendukung: sumber data, jenis data dalam set data, ukuran set data.
Persiapan data
Persiapan data adalah area tempat alat AutoML dapat membantu Anda, tetapi tidak ada alat yang dapat melakukan semuanya secara otomatis. Jadi, Anda harus melakukan beberapa pekerjaan sebelum dapat mengimpor data ke alat tersebut. Persiapan data untuk AutoML mirip dengan hal yang perlu Anda lakukan untuk melatih model secara manual. Jika Anda perlu mengetahui lebih lanjut cara menyiapkan data untuk pelatihan, lihat bagian Persiapan Data.
Untuk informasi selengkapnya tentang cara menyiapkan data, lihat modul menggunakan data numerik dan menggunakan data kategoris.
Sebelum mengimpor data untuk pelatihan AutoML, Anda harus menyelesaikan langkah-langkah berikut:
Memberi label pada data
Setiap contoh dalam set data Anda memerlukan label.
Membersihkan dan memformat data
Data dunia nyata cenderung berantakan, jadi Anda harus membersihkan data sebelum menggunakannya. Meskipun dengan AutoML, Anda perlu menentukan perlakuan terbaik untuk set data dan masalah tertentu. Hal ini mungkin memerlukan beberapa eksplorasi dan mungkin beberapa AutoML dijalankan sebelum Anda mendapatkan hasil terbaik.
Melakukan transformasi fitur
Beberapa alat AutoML menangani transformasi fitur tertentu untuk Anda. Namun, jika alat yang Anda gunakan tidak mendukung transformasi fitur yang Anda perlukan atau tidak mendukungnya dengan baik, Anda mungkin perlu melakukan transformasi terlebih dahulu.
Pengembangan model (dengan AutoML tanpa kode)
AutoML akan melakukan tugas untuk Anda selama pelatihan. Namun, sebelum memulai pelatihan, Anda perlu mengonfigurasi eksperimen. Untuk menyiapkan pelatihan AutoML, Anda biasanya perlu menentukan langkah-langkah tingkat tinggi berikut:
Mengimpor data
Untuk mengimpor data, tentukan sumber data Anda. Selama proses impor, alat AutoML menetapkan jenis data semantik ke setiap nilai data.
Menganalisis data Anda
Produk AutoML biasanya menyediakan alat untuk menganalisis set data Anda sebelum dan setelah pelatihan. Sebagai praktik terbaik, sebaiknya gunakan alat analisis ini untuk memahami dan memverifikasi data Anda sebelum memulai operasi AutoML.
Memfilter data
Alat AutoML sering kali menyediakan mekanisme untuk membantu Anda menyaring data setelah diimpor dan sebelum pelatihan. Berikut beberapa tugas yang dapat Anda selesaikan untuk menyaring data:
Pemeriksaan Semantik: Selama impor, alat AutoML mencoba menentukan jenis semantik yang benar untuk setiap fitur, tetapi ini hanyalah tebakan. Anda harus memeriksa jenis yang ditetapkan ke semua fitur dan mengubahnya jika ditetapkan secara salah.
Misalnya, Anda mungkin memiliki kode pos yang disimpan sebagai angka dalam kolom di database. Sebagian besar sistem AutoML akan mendeteksi data sebagai data numerik kontinu. Hal ini akan salah untuk kode pos dan pengguna mungkin ingin mengubah jenis semantik menjadi kategoris, bukan kontinu untuk kolom fitur ini.
Transformasi: Beberapa alat memungkinkan pengguna menyesuaikan transformasi data sebagai bagian dari proses pemurnian. Terkadang hal ini diperlukan saat set data memiliki fitur prediktif potensial yang perlu ditransformasikan atau digabungkan dengan cara yang sulit ditentukan oleh alat AutoML tanpa bantuan.
Misalnya, pertimbangkan set data perumahan yang Anda gunakan untuk memprediksi harga promo rumah. Misalkan ada fitur yang mewakili deskripsi untuk listingan rumah yang disebut
description
dan Anda ingin menggunakan data ini untuk membuat fitur baru yang disebutdescription_length
. Beberapa sistem AutoML menawarkan cara untuk menggunakan transformasi kustom. Untuk contoh ini, mungkin ada fungsiLENGTH
untuk menghasilkan fitur panjang deskripsi baru seperti ini:LENGTH(description)
.
Mengonfigurasi parameter operasi AutoML
Langkah terakhir sebelum menjalankan eksperimen pelatihan adalah memilih beberapa setelan konfigurasi untuk memberi tahu alat cara Anda ingin melatih model. Meskipun setiap alat AutoML memiliki kumpulan opsi konfigurasi uniknya sendiri, berikut beberapa tugas konfigurasi penting yang mungkin perlu Anda selesaikan:
- Pilih jenis masalah ML yang ingin Anda pecahkan. Misalnya, apakah Anda menyelesaikan masalah klasifikasi atau regresi?
- Pilih kolom mana di set data Anda yang merupakan label.
- Pilih kumpulan fitur yang akan digunakan untuk melatih model.
- Pilih kumpulan algoritma ML yang dipertimbangkan AutoML dalam penelusuran model.
- Pilih metrik evaluasi yang digunakan AutoML untuk memilih model terbaik.
Setelah mengonfigurasi eksperimen AutoML, Anda siap memulai pelatihan. Pelatihan mungkin memerlukan waktu beberapa saat untuk diselesaikan (dalam hitungan jam).
Mengevaluasi model
Setelah pelatihan, Anda dapat memeriksa hasilnya menggunakan alat yang disediakan produk AutoML untuk membantu Anda:
- Evaluasi fitur Anda dengan memeriksa metrik nilai penting fitur.
- Pahami model Anda dengan memeriksa arsitektur dan hyperparameter yang digunakan untuk mem-build-nya.
- Mengevaluasi performa model tingkat atas dengan plot dan metrik yang dikumpulkan selama pelatihan untuk model output.
Productionization
Meskipun berada di luar cakupan modul ini, beberapa sistem AutoML dapat membantu Anda menguji dan men-deploy model.
Melatih ulang model
Anda mungkin perlu melatih ulang model dengan data baru. Hal ini dapat terjadi setelah Anda mengevaluasi pelatihan AutoML yang dijalankan atau setelah model Anda diproduksi selama beberapa waktu. Apa pun yang Anda pilih, sistem AutoML juga dapat membantu pelatihan ulang. Tidak jarang Anda perlu melihat kembali data setelah AutoML berjalan, dan melatih ulang dengan set data yang ditingkatkan.
Langkah berikutnya
Selamat, Anda telah menyelesaikan modul ini.
Sebaiknya Anda menjelajahi berbagai modul MLCC sesuai minat dan kecepatan Anda sendiri. Jika Anda ingin mengikuti urutan yang direkomendasikan, sebaiknya lanjutkan ke modul berikut: Keadilan ML.