AutoML: Memulai

Jika Anda berpikir untuk menggunakan AutoML, Anda mungkin memiliki pertanyaan tentang bagaimana AutoML bekerja dan langkah-langkah apa yang harus Anda ambil untuk memulai. Bagian ini membahas lebih mendalam ke dalam pola AutoML umum, mempelajari cara kerja AutoML, dan memeriksa langkah-langkah yang perlu diambil sebelum mulai menggunakan AutoML untuk project Anda.

Alat AutoML

Alat AutoML terbagi dalam dua kategori utama:

  • Alat yang tidak memerlukan coding biasanya berbentuk aplikasi web yang memungkinkan Anda mengonfigurasi dan menjalankan eksperimen melalui antarmuka pengguna untuk menemukan model terbaik untuk data Anda tanpa menulis kode apa pun.
  • Alat API dan CLI menyediakan fitur otomatisasi lanjutan, tetapi memerlukan lebih banyak (terkadang jauh lebih banyak) keahlian ML dan pemrograman.

Alat AutoML yang memerlukan coding bisa jadi lebih andal dan lebih fleksibel dibandingkan alat tanpa kode, tetapi mereka juga bisa lebih sulit digunakan. Modul ini berfokus opsi tanpa kode untuk pengembangan model, tetapi perhatikan bahwa API dan CLI dapat membantu jika Anda memerlukan otomatisasi yang disesuaikan.

Alur kerja AutoML

Mari kita pelajari alur kerja ML pada umumnya dan lihat cara kerjanya saat Anda menggunakan AutoML. Langkah-langkah tingkat tinggi dalam alur kerja sama dengan yang Anda gunakan untuk pelatihan khusus; perbedaan utamanya adalah AutoML menangani beberapa tugas untuk Anda.

Definisi masalah

Langkah pertama dalam alur kerja ML adalah menentukan masalah Anda. Saat Anda menggunakan AutoML, pastikan alat yang Anda pilih dapat mendukung dari project ML Anda. Sebagian besar alat AutoML mendukung berbagai algoritma {i>machine learning<i} dan tipe data input.

Untuk informasi lebih lanjut tentang {i> problem framing<i}, lihat modul tentang Pengantar Framing Masalah Machine Learning.

Pengumpulan data

Sebelum dapat mulai menggunakan alat AutoML, Anda perlu mengumpulkan data menjadi satu sumber data. Periksa dokumentasi produk untuk memastikan bahwa yang didukung alat Anda: sumber data, jenis data dalam set data, ukuran dalam set data Anda.

Persiapan data

Persiapan data adalah area di mana alat AutoML dapat membantu Anda, tetapi dapat melakukan semuanya secara otomatis, jadi Anda harus melakukan beberapa pekerjaan sebelum Anda dapat mengimpor data Anda ke alat ini. Persiapan data untuk AutoML mirip dengan apa yang perlu Anda lakukan untuk melatih model secara manual. Jika Anda perlu mengetahui lebih banyak tentang cara menyiapkan data Anda untuk pelatihan, lihat halaman Persiapan Data bagian.

Untuk informasi selengkapnya tentang cara menyiapkan data Anda, lihat menggunakan data numerik dan menggunakan data kategorik modul.

Sebelum mengimpor data untuk pelatihan AutoML, Anda harus menyelesaikan langkah-langkah berikut langkah:

  • Memberi label pada data

    Setiap contoh dalam {i>dataset<i} Anda membutuhkan label.

  • Membersihkan dan memformat data

    Data yang ada di dunia nyata cenderung berantakan, jadi Anda harus membersihkan data sebelum menggunakannya anotasi. Bahkan dengan AutoML, Anda perlu menentukan perawatan terbaik untuk {i>dataset <i}dan masalah tertentu. Hal ini mungkin memerlukan eksplorasi dan beberapa AutoML mungkin berjalan sebelum Anda mendapatkan hasil terbaik.

  • Melakukan transformasi fitur

    Beberapa alat AutoML dapat menangani transformasi fitur tertentu untuk Anda. Tapi, jika alat yang Anda gunakan tidak mendukung transformasi fitur yang Anda butuhkan atau tidak mendukungnya dengan baik, Anda mungkin perlu melakukan transformasi terlebih dahulu waktu tertentu.

Pengembangan model (dengan AutoML tanpa kode)

AutoML melakukan pekerjaan untuk Anda selama pelatihan. Namun, sebelum mulai Anda harus mengonfigurasi eksperimen. Untuk menyiapkan pelatihan AutoML berjalan, Anda biasanya harus menentukan langkah-langkah tingkat tinggi ini:

  1. Mengimpor data

    Untuk mengimpor data, tentukan sumber data Anda. Selama impor otomatis, alat AutoML menetapkan jenis data semantik ke setiap nilai data.

  2. Menganalisis data

    Produk AutoML biasanya menyediakan alat untuk menganalisis set data Anda sebelum dan setelah pelatihan. Sebagai praktik terbaik, Anda mungkin ingin menggunakan alat analisis ini untuk memahami dan memverifikasi data Anda sebelum memulai AutoML.

  3. Menyaring data Anda

    Alat AutoML sering kali menyediakan mekanisme untuk membantu Anda mempertajam data setelah diimpor dan sebelum pelatihan. Berikut beberapa tugas yang mungkin ingin Anda selesaikan untuk menyaring data Anda:

    • Pemeriksaan Semantik: Selama impor, alat AutoML mencoba menentukan jenis semantik yang benar untuk setiap fitur, tetapi ini hanya perkiraan. Anda harus memeriksa tipe yang ditetapkan untuk semua fitur dan mengubahnya jika mereka tidak ditetapkan dengan benar.

      Misalnya, Anda mungkin memiliki kode pos yang disimpan sebagai angka dalam kolom di {i>database<i} Anda. Sebagian besar sistem AutoML akan mendeteksi data sebagai data numerik. Ini akan salah untuk kode pos dan pengguna mungkin ingin mengubah tipe semantik menjadi kategorikal lebih daripada berkelanjutan untuk kolom fitur ini.

    • Transformasi: Beberapa alat memungkinkan pengguna menyesuaikan data transformasi sebagai bagian dari proses penyempurnaan. Terkadang ini adalah yang diperlukan saat set data memiliki fitur prediktif yang berpotensi diubah atau digabungkan dengan cara yang sulit dilakukan oleh alat AutoML untuk menentukan tanpa bantuan.

      Misalnya, pertimbangkan {i>dataset<i} perumahan yang Anda gunakan untuk memprediksi harga promo rumah. Misalkan ada fitur yang mewakili deskripsi untuk listingan rumah bernama description dan Anda akan menggunakan data ini untuk membuat fitur baru yang disebut description_length. Beberapa sistem AutoML menawarkan cara menggunakan transformasi. Untuk contoh ini, mungkin ada fungsi LENGTH untuk membuat fitur panjang deskripsi baru seperti ini: LENGTH(description).

  4. Mengonfigurasi parameter run AutoML

    Langkah terakhir sebelum menjalankan eksperimen pelatihan adalah memilih beberapa pengaturan konfigurasi untuk memberi tahu alat bagaimana Anda ingin melatih model. Meskipun setiap alat AutoML memiliki serangkaian opsi konfigurasi yang unik, berikut adalah beberapa tugas konfigurasi penting yang mungkin Anda perlukan selesai:

    • Pilih jenis masalah ML yang ingin Anda selesaikan. Misalnya, apakah Anda memecahkan masalah klasifikasi atau regresi?
    • Pilih kolom mana dalam {i>dataset <i}Anda yang akan diberi label.
    • Pilih set fitur yang akan digunakan untuk melatih model.
    • Pilih kumpulan algoritma ML yang dipertimbangkan AutoML dalam penelusuran model.
    • Pilih metrik evaluasi yang digunakan AutoML untuk memilih model terbaik.

Setelah mengonfigurasi eksperimen AutoML, Anda siap untuk memulai pelatihan akan dijalankan. Mungkin perlu waktu beberapa saat untuk menyelesaikan pelatihan (berdasarkan urutan jam).

Mengevaluasi model

Setelah pelatihan, Anda dapat memeriksa hasilnya menggunakan alat AutoML yang diberikan untuk membantu Anda:

  • Evaluasi fitur Anda dengan memeriksa metrik tingkat kepentingan fitur.
  • Pahami model Anda dengan memeriksa arsitektur dan hyperparameter yang digunakan untuk membangunnya.
  • Evaluasi performa model tingkat teratas dengan plot dan metrik yang dikumpulkan selama pelatihan model output.

Produksi

Meskipun berada di luar cakupan modul ini, beberapa sistem AutoML dapat membantu Anda menguji dan men-deploy model Anda.

Latih ulang model

Anda mungkin perlu melatih ulang model dengan data baru. Hal ini mungkin terjadi setelah Anda untuk mengevaluasi pelatihan AutoML atau setelah model berada dalam produksi untuk baik. Apa pun itu, sistem AutoML juga dapat membantu pelatihan ulang. Tidak tidak umum untuk melihat kembali data Anda setelah AutoML dijalankan, dan latih kembali dengan mendapatkan {i>dataset<i} yang lebih baik.

Langkah berikutnya

Selamat, Anda telah menyelesaikan modul ini!

Sebaiknya Anda mempelajari berbagai modul MLCC sesuai dengan kemampuan dan minat Anda sendiri. Jika Anda ingin mengikuti pesanan yang disarankan, sebaiknya Anda melanjutkan ke modul berikut: Keadilan ML.