AutoML: เริ่มต้นใช้งาน

หากกำลังพิจารณาที่จะใช้ AutoML คุณอาจมีคําถามเกี่ยวกับวิธีการทํางานและขั้นตอนที่ควรทําเพื่อเริ่มต้นใช้งาน ส่วนนี้จะเจาะลึกรูปแบบ AutoML ทั่วไป สำรวจวิธีการทํางานของ AutoML และพิจารณาขั้นตอนที่คุณอาจต้องทำก่อนเริ่มใช้ AutoML ในโปรเจ็กต์

เครื่องมือ AutoML

เครื่องมือ AutoML แบ่งออกเป็น 2 หมวดหมู่หลัก ได้แก่

  • เครื่องมือที่ไม่จําเป็นต้องเขียนโค้ดมักอยู่ในรูปแบบของเว็บแอปพลิเคชันที่ช่วยให้คุณกําหนดค่าและทำการทดสอบผ่านอินเทอร์เฟซผู้ใช้เพื่อค้นหารูปแบบที่ดีที่สุดสําหรับข้อมูลของคุณได้โดยไม่ต้องเขียนโค้ด
  • เครื่องมือ API และ CLI มีฟีเจอร์การทำงานอัตโนมัติขั้นสูง แต่ต้องใช้ความเชี่ยวชาญด้าน ML และการเขียนโปรแกรมมากกว่า (บางครั้งมาก)

เครื่องมือ AutoML ที่ต้องเขียนโค้ดอาจมีประสิทธิภาพและยืดหยุ่นกว่าเครื่องมือแบบไม่ต้องเขียนโค้ด แต่ก็อาจใช้งานยากกว่าด้วย โมดูลนี้มุ่งเน้นไปที่ตัวเลือกแบบไม่ต้องเขียนโค้ดสําหรับการพัฒนาโมเดล แต่โปรดทราบว่าตัวเลือก API และ CLI จะช่วยได้หากคุณต้องการการทำงานอัตโนมัติที่กําหนดเอง

เวิร์กโฟลว์ AutoML

มาดูเวิร์กโฟลว์ ML ทั่วไปและดูวิธีการทํางานเมื่อใช้ AutoML ขั้นตอนระดับสูงในเวิร์กโฟลว์จะเหมือนกับที่คุณใช้สำหรับการฝึกแบบกำหนดเอง ความแตกต่างหลักคือ AutoML จะจัดการงานบางอย่างให้คุณ

คําจํากัดความของปัญหา

ขั้นตอนแรกในเวิร์กโฟลว์ ML คือการกำหนดปัญหา เมื่อใช้ AutoML โปรดตรวจสอบว่าเครื่องมือที่เลือกรองรับวัตถุประสงค์ของโปรเจ็กต์ ML เครื่องมือ AutoML ส่วนใหญ่รองรับอัลกอริทึมแมชชีนเลิร์นนิงแบบควบคุมและประเภทข้อมูลอินพุตที่หลากหลาย

ดูข้อมูลเพิ่มเติมเกี่ยวกับการกำหนดปัญหาได้ที่ข้อบังคับเกี่ยวกับข้อมูลเบื้องต้นเกี่ยวกับการกำหนดปัญหาแมชชีนเลิร์นนิง

การเก็บรวบรวมข้อมูล

คุณต้องรวบรวมข้อมูลไว้ในแหล่งข้อมูลเดียวก่อนจึงจะเริ่มทํางานกับเครื่องมือ AutoML ได้ ตรวจสอบเอกสารประกอบของผลิตภัณฑ์เพื่อให้แน่ใจว่าเครื่องมือรองรับแหล่งข้อมูล ประเภทข้อมูลในชุดข้อมูล และขนาดของชุดข้อมูล

การจัดเตรียมข้อมูล

การเตรียมข้อมูลเป็นงานที่เครื่องมือ AutoML ช่วยคุณได้ แต่ไม่มีเครื่องมือใดที่ทําทุกอย่างได้อัตโนมัติ คุณจึงต้องทํางานบางอย่างก่อนจึงจะนําเข้าข้อมูลไปยังเครื่องมือได้ การเตรียมข้อมูลสําหรับ AutoML คล้ายกับสิ่งที่คุณต้องทําเพื่อฝึกโมเดลด้วยตนเอง หากต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับวิธีเตรียมข้อมูลสําหรับการฝึก โปรดดูที่ส่วนการเตรียมข้อมูล

ดูข้อมูลเพิ่มเติมเกี่ยวกับการเตรียมข้อมูลได้ในข้อบังคับการทํางานกับข้อมูลตัวเลข และการทํางานกับข้อมูลเชิงหมวดหมู่

ก่อนนําเข้าข้อมูลสําหรับการฝึก AutoML คุณต้องทําตามขั้นตอนต่อไปนี้

  • ติดป้ายกำกับข้อมูล

    ตัวอย่างทุกรายการในชุดข้อมูลต้องมีป้ายกำกับ

  • ล้างและจัดรูปแบบข้อมูล

    ข้อมูลในชีวิตจริงมักจะมีความยุ่งเหยิง ดังนั้นคุณจึงต้องจัดระเบียบข้อมูลก่อนใช้งาน แม้จะใช้ AutoML คุณก็ต้องพิจารณาวิธีจัดการชุดข้อมูลและปัญหาหนึ่งๆ ให้ดีที่สุด ซึ่งอาจต้องมีการสํารวจและอาจต้องเรียกใช้ AutoML หลายครั้งก่อนที่คุณจะได้รับผลลัพธ์ที่ดีที่สุด

  • เปลี่ยนรูปแบบองค์ประกอบ

    เครื่องมือ AutoML บางรายการจะจัดการการเปลี่ยนรูปแบบฟีเจอร์บางอย่างให้คุณ แต่หากเครื่องมือที่คุณใช้ไม่รองรับการเปลี่ยนรูปแบบฟีเจอร์ที่คุณต้องการหรือรองรับอย่างไม่สมบูรณ์ คุณอาจต้องเปลี่ยนรูปแบบล่วงหน้า

การพัฒนาโมเดล (ด้วย AutoML แบบไม่ต้องเขียนโค้ด)

AutoML จะทํางานให้คุณในระหว่างการฝึก อย่างไรก็ตาม ก่อนเริ่มการฝึกอบรม คุณต้องกําหนดค่าการทดสอบ หากต้องการตั้งค่าการเรียกใช้การฝึก AutoML โดยปกติแล้วคุณจะต้องระบุขั้นตอนระดับสูงต่อไปนี้

  1. นําเข้าข้อมูล

    ระบุแหล่งข้อมูลเพื่อนําเข้าข้อมูล ในระหว่างกระบวนการนําเข้า เครื่องมือ AutoML จะกําหนดประเภทข้อมูลเชิงความหมายให้กับค่าข้อมูลแต่ละค่า

  2. วิเคราะห์ข้อมูลของคุณ

    ผลิตภัณฑ์ AutoML มักจะมีเครื่องมือวิเคราะห์ชุดข้อมูลก่อนและหลังการฝึก แนวทางปฏิบัติแนะนำคือคุณอาจต้องใช้เครื่องมือวิเคราะห์เหล่านี้เพื่อทำความเข้าใจและยืนยันข้อมูลก่อนเริ่มการเรียกใช้ AutoML

  3. ปรับแต่งข้อมูล

    เครื่องมือ AutoML มักจะมีกลไกที่ช่วยให้คุณปรับแต่งข้อมูลหลังจากนําเข้าและก่อนการฝึก งานที่คุณอาจต้องทำเพื่อปรับแต่งข้อมูลมีดังนี้

    • การตรวจสอบเชิงความหมาย: ระหว่างการนําเข้า เครื่องมือ AutoML จะพยายามระบุประเภทเชิงความหมายที่ถูกต้องสําหรับฟีเจอร์แต่ละรายการ แต่การระบุนี้เป็นเพียงการคาดเดาเท่านั้น คุณควรตรวจสอบประเภทที่กําหนดให้กับฟีเจอร์ทั้งหมดและเปลี่ยนแปลงหากกําหนดไม่ถูกต้อง

      เช่น คุณอาจจัดเก็บรหัสไปรษณีย์เป็นตัวเลขในคอลัมน์ในฐานข้อมูล ระบบ AutoML ส่วนใหญ่จะตรวจหาข้อมูลเป็นข้อมูลตัวเลขต่อเนื่อง ซึ่งไม่ถูกต้องสำหรับรหัสไปรษณีย์ และผู้ใช้อาจต้องการเปลี่ยนประเภทเชิงอรรถเป็นเชิงหมวดหมู่แทนแบบต่อเนื่องสำหรับคอลัมน์ฟีเจอร์นี้

    • การเปลี่ยนรูปแบบ: เครื่องมือบางรายการอนุญาตให้ผู้ใช้ปรับแต่งการเปลี่ยนรูปแบบข้อมูลเป็นส่วนหนึ่งของกระบวนการปรับแต่ง บางครั้งก็จำเป็นต้องใช้ในกรณีที่ชุดข้อมูลมีฟีเจอร์ที่อาจมีการคาดการณ์ซึ่งต้องเปลี่ยนรูปแบบหรือรวมกันด้วยวิธีที่เครื่องมือ AutoML ไม่สามารถระบุได้หากไม่มีความช่วยเหลือ

      ตัวอย่างเช่น ลองพิจารณาชุดข้อมูลที่อยู่อาศัยที่คุณใช้คาดการณ์ราคาขายบ้าน สมมติว่าฟีเจอร์หนึ่งแสดงคำอธิบายของข้อมูลบ้านชื่อ description และคุณต้องการใช้ข้อมูลนี้เพื่อสร้างฟีเจอร์ใหม่ชื่อ description_length ระบบ AutoML บางระบบมีวิธีใช้การเปลี่ยนรูปแบบที่กำหนดเอง ในตัวอย่างนี้ อาจมีฟังก์ชัน LENGTH เพื่อสร้างฟีเจอร์ความยาวคําอธิบายใหม่ ดังนี้ LENGTH(description)

  4. กําหนดค่าพารามิเตอร์การเรียกใช้ AutoML

    ขั้นตอนสุดท้ายก่อนทำการทดสอบการฝึกคือเลือกการตั้งค่าการกําหนดค่า 2-3 อย่างเพื่อบอกเครื่องมือว่าคุณต้องการให้ฝึกโมเดลอย่างไร แม้ว่าเครื่องมือ AutoML แต่ละรายการจะมีชุดตัวเลือกการกําหนดค่าที่ไม่เหมือนกัน แต่งานการกําหนดค่าที่สําคัญ 2-3 อย่างที่คุณอาจต้องทำมีดังนี้

    • เลือกประเภทปัญหา ML ที่คุณวางแผนจะแก้ปัญหา เช่น คุณต้องการแก้ปัญหาการแยกประเภทหรือการถดถอย
    • เลือกคอลัมน์ในชุดข้อมูลที่เป็นป้ายกำกับ
    • เลือกชุดฟีเจอร์ที่จะใช้ฝึกโมเดล
    • เลือกชุดอัลกอริทึม ML ที่ AutoML จะพิจารณาในการค้นหาโมเดล
    • เลือกเมตริกการประเมินที่ AutoML ใช้เพื่อเลือกโมเดลที่ดีที่สุด

หลังจากกําหนดค่าการทดสอบ AutoML แล้ว คุณก็พร้อมที่จะเริ่มการเรียกใช้การฝึกแล้ว การฝึกอาจใช้เวลาสักครู่จึงจะเสร็จสมบูรณ์ (ประมาณ 1-2 ชั่วโมง)

ประเมินโมเดล

หลังจากการฝึกอบรม คุณสามารถตรวจสอบผลลัพธ์ได้โดยใช้เครื่องมือที่ผลิตภัณฑ์ AutoML มีให้เพื่อช่วยคุณในเรื่องต่อไปนี้

  • ประเมินฟีเจอร์โดยตรวจสอบเมตริกความสำคัญของฟีเจอร์
  • ทําความเข้าใจโมเดลโดยตรวจสอบสถาปัตยกรรมและไฮเปอร์พารามิเตอร์ที่ใช้ในการสร้าง
  • ประเมินประสิทธิภาพของโมเดลระดับบนสุดด้วยผังและเมตริกที่รวบรวมระหว่างการฝึกโมเดลเอาต์พุต

การนำไปใช้จริง

แม้ว่าจะไม่ได้อยู่ในขอบเขตของโมดูลนี้ แต่ระบบ AutoML บางระบบสามารถช่วยคุณทดสอบและนำโมเดลไปใช้งานได้

ฝึกโมเดลอีกครั้ง

คุณอาจต้องฝึกโมเดลอีกครั้งด้วยข้อมูลใหม่ กรณีนี้อาจเกิดขึ้นหลังจากที่คุณประเมินการเรียกใช้การฝึก AutoML หรือหลังจากที่โมเดลทํางานอยู่ในระบบเป็นระยะเวลาหนึ่ง ไม่ว่าจะด้วยวิธีใด ระบบ AutoML ก็สามารถช่วยฝึกใหม่ได้เช่นกัน การตรวจสอบข้อมูลอีกครั้งหลังจากเรียกใช้ AutoML และฝึกใหม่ด้วยชุดข้อมูลที่ปรับปรุงแล้วนั้นไม่ใช่เรื่องแปลก

ขั้นตอนถัดไป

ยินดีด้วยที่ผ่านโมดูลนี้

เราขอแนะนำให้คุณสำรวจข้อบังคับ MLCC ต่างๆ ตามความสนใจและในแบบของคุณ หากต้องการทําตามลําดับที่แนะนํา เราขอแนะนําให้ไปที่ข้อบังคับต่อไปนี้ ความยุติธรรมของ ML