ทําความเข้าใจปัญหา

ทําตามงานต่อไปนี้เพื่อทำความเข้าใจปัญหา

  • ระบุเป้าหมายสำหรับผลิตภัณฑ์ที่คุณกำลังพัฒนาหรือเปลี่ยนโครงสร้างภายในโค้ด
  • พิจารณาว่าเป้าหมายจะได้รับการแก้ไขได้ดีที่สุดโดยใช้ ML การคาดการณ์หรือไม่ Generative AI หรือโซลูชันที่ไม่ใช่ ML
  • ตรวจสอบว่าคุณมีข้อมูลที่จําเป็นในการฝึกโมเดลหากใช้แนวทาง ML เชิงคาดการณ์

ระบุเป้าหมาย

เริ่มต้นด้วยการระบุเป้าหมายในข้อความที่ไม่ใช่ ML เป้าหมายคือคำตอบของ คำถามที่ว่า "ฉันกำลังพยายามทำอะไร"

ตารางต่อไปนี้ระบุเป้าหมายสําหรับแอปสมมติอย่างชัดเจน

แอปพลิเคชัน เป้าหมาย
แอปสภาพอากาศ คำนวณปริมาณน้ำฝนที่เพิ่มขึ้นเป็น 6 ชั่วโมงสำหรับพื้นที่ทางภูมิศาสตร์หนึ่งๆ
แอปแฟชั่น สร้างเสื้อเชิ้ตหลากสไตล์
แอปวิดีโอ แนะนำวิดีโอที่มีประโยชน์
แอปอีเมล ตรวจหาสแปม
แอปการเงิน สรุปข้อมูลทางการเงินจากแหล่งข่าวหลายแห่ง
แอปแผนที่ คำนวณเวลาเดินทาง
แอปธนาคาร ระบุธุรกรรมที่เป็นการฉ้อโกง
แอปรับประทานอาหาร ระบุอาหารตามเมนูของร้านอาหาร
แอปอีคอมเมิร์ซ ตอบรีวิวด้วยคำตอบที่เป็นประโยชน์

กรณีการใช้งานที่ชัดเจนสําหรับ ML

บางคนมองว่า ML เป็นเครื่องมืออเนกประสงค์ที่ใช้งานได้กับทุกปัญหา แต่ความจริงแล้ว ML เป็นเครื่องมือเฉพาะทางที่เหมาะกับปัญหาบางอย่างเท่านั้น คุณไม่ต้องการนําโซลูชัน ML ที่ซับซ้อนมาใช้เมื่อโซลูชันที่ไม่ใช่ ML ที่ง่ายกว่าก็ทํางานได้

ระบบ ML แบ่งออกเป็น 2 หมวดหมู่ใหญ่ๆ ได้แก่ แมชชีนเลิร์นนิงแบบคาดการณ์ และ Generative AI ดังต่อไปนี้ ตารางนี้จะแสดงลักษณะเฉพาะดังต่อไปนี้

อินพุต เอาต์พุต เทคนิคการฝึกอบรม
ML การคาดการณ์ ข้อความ
รูปภาพ
เสียง
วิดีโอ
ตัวเลข
ทำการคาดการณ์ เช่น การแยกประเภท ส่งอีเมลว่าเป็นสแปมหรือไม่ใช่สแปม คาดเดาปริมาณฝนของพรุ่งนี้ หรือ การคาดการณ์ราคาหุ้น โดยทั่วไปแล้ว เอาต์พุตสามารถตรวจสอบเทียบกับความเป็นจริงได้ โดยทั่วไปจะใช้ข้อมูลจํานวนมากเพื่อฝึกโมเดลการเรียนรู้ภายใต้การควบคุม การเรียนรู้ที่ไม่มีการควบคุม หรือการเรียนรู้ด้วยการทำซ้ำเพื่อทํางานบางอย่าง
Generative AI ข้อความ
รูปภาพ
เสียง
วิดีโอ
ตัวเลข
สร้างเอาต์พุตตามความต้องการของผู้ใช้ เช่น การสรุปบทความ การสร้างคลิปเสียงหรือวิดีโอสั้น โดยปกติจะใช้ข้อมูลที่ไม่มีป้ายกำกับจำนวนมากเพื่อฝึกโมเดลภาษาขนาดใหญ่ หรือโปรแกรมสร้างรูปภาพเพื่อกรอกข้อมูลที่ขาดหายไป จากนั้นจึงนำไปใช้กับงานที่มีลักษณะเป็นงานเติมคำในช่องว่าง หรือจะปรับแต่งให้ละเอียดยิ่งขึ้นโดยการฝึกโมเดลด้วยข้อมูลที่ติดป้ายกำกับสำหรับงานบางอย่างที่เฉพาะเจาะจง เช่น การแยกประเภทก็ได้

เพื่อยืนยันว่า ML คือแนวทางที่ถูกต้อง ก่อนอื่นให้ยืนยันว่าเนื้อหาที่ไม่ใช่ ML ปัจจุบันของคุณ ให้แก่โซลูชันของคุณ หากไม่ได้ติดตั้งใช้งานโซลูชันที่ไม่ใช่ ML ให้ลองแก้ปัญหาด้วยตนเองโดยใช้วิธีการแก้ปัญหาแบบเฮิวริสติก

โซลูชันที่ไม่ใช่ ML คือเกณฑ์มาตรฐานที่คุณจะใช้เพื่อระบุว่า ML เป็น กรณีการใช้งานที่ดีสำหรับปัญหาของคุณ ลองพิจารณาคำถามต่อไปนี้เมื่อเปรียบเทียบแนวทางที่ไม่ใช่ ML กับแนวทาง ML

  • คุณภาพ คุณคิดว่าโซลูชัน ML จะมีประสิทธิภาพดีกว่ามากน้อยเพียงใด หากคุณ คิดว่าโซลูชัน ML อาจเป็นการปรับปรุงเล็กๆ น้อยๆ ที่อาจบ่งชี้ถึง โซลูชันปัจจุบันเป็นวิธีที่ดีที่สุด

  • ค่าใช้จ่ายและการบำรุงรักษา โซลูชัน ML มีค่าใช้จ่ายสูงเพียงใดทั้งใน ในระยะสั้นและระยะยาว ในบางกรณี การใช้ ML อาจต้องใช้ทรัพยากรการประมวลผลและเวลามากกว่ามาก ลองพิจารณาคำถามต่อไปนี้

    • โซลูชัน ML สนับสนุนต้นทุนที่เพิ่มขึ้นได้ไหม โปรดทราบว่าการปรับปรุงเล็กๆ น้อยๆ ในระบบขนาดใหญ่สามารถอธิบายต้นทุนและการบำรุงรักษาในการติดตั้งใช้งานโซลูชัน ML ได้อย่างง่ายดาย
    • โซลูชันต้องมีการบำรุงรักษามากเพียงใด ในหลายกรณี การใช้งาน ML ต้องได้รับการบำรุงรักษาระยะยาวโดยเฉพาะ
    • ผลิตภัณฑ์ของคุณมีทรัพยากรที่จะสนับสนุนการฝึกอบรมหรือการว่าจ้างหรือไม่ ที่มีความเชี่ยวชาญด้าน ML

ทดสอบความเข้าใจ

เหตุใดจึงต้องมีโซลูชันที่ไม่ใช่ ML หรือใช้วิธีการเฮิวริสติกก่อนวิเคราะห์โซลูชัน ML
โซลูชันที่ไม่ใช่ ML เป็นมาตรฐานการวัดโซลูชัน ML
โซลูชันที่ไม่ใช่ ML ช่วยให้คุณกำหนดได้ว่าโซลูชัน ML จะมีค่าใช้จ่ายเท่าใด

ML และข้อมูลการคาดการณ์

ข้อมูลคือแรงขับเคลื่อนของ ML แบบคาดการณ์ เพื่อชดเชย การคาดการณ์ คุณต้องมีข้อมูล มีฟีเจอร์ที่มีการคาดการณ์ ขั้นสูง ข้อมูลของคุณควรมีลักษณะต่อไปนี้

  • มีมาก ยิ่งมีตัวอย่างที่เกี่ยวข้องและมีประโยชน์ในชุดข้อมูลมากเท่าไร โมเดลก็จะยิ่งมีประสิทธิภาพมากขึ้นเท่านั้น

  • มีความสม่ำเสมอและเชื่อถือได้ การมีข้อมูลที่สอดคล้องกันและเชื่อถือได้ ที่รวบรวมจะให้โมเดลดีขึ้น เช่น สภาพอากาศที่อิงตาม ML โมเดลจะได้ประโยชน์จากข้อมูลที่รวบรวมในช่วงเวลาหลายปีที่ผ่านมาจาก เครื่องดนตรีชนิดนี้

  • เชื่อถือได้ ทำความเข้าใจว่าข้อมูลของคุณมาจากที่ใด ข้อมูลจะ จากแหล่งที่มาที่เชื่อถือได้ซึ่งคุณควบคุม เช่น บันทึกจากผลิตภัณฑ์ของคุณ หรือจะเป็น จากแหล่งที่มาที่คุณไม่มีข้อมูลเชิงลึกมากนัก เช่น เอาต์พุตจากแหล่งข้อมูลอื่น ระบบ ML ได้ไหม

  • พร้อมใช้งาน ตรวจสอบว่าอินพุตทั้งหมดพร้อมใช้งานในเวลาการคาดการณ์ในรูปแบบที่ถูกต้อง หากรับค่าฟีเจอร์บางอย่างได้ยากเมื่อถึงเวลาทำนาย ให้ละเว้นฟีเจอร์เหล่านั้นจากชุดข้อมูล

  • ถูกต้อง ในชุดข้อมูลขนาดใหญ่ ป้ายกํากับบางรายการจะมีค่าที่ไม่ถูกต้องอยู่บ้าง แต่หากป้ายกํากับมากกว่า 1-2 เปอร์เซ็นต์ไม่ถูกต้อง โมเดลจะทําการคาดการณ์ได้ไม่ดี

  • เป็นตัวแทน ชุดข้อมูลควรเป็นตัวแทนของชีวิตจริงมากที่สุด กล่าวคือ ชุดข้อมูลควรแสดงเหตุการณ์ พฤติกรรมของผู้ใช้ และ/หรือปรากฏการณ์ในชีวิตจริงที่จำลองได้อย่างถูกต้อง การฝึกชุดข้อมูลที่ไม่เป็นตัวแทนอาจทําให้ประสิทธิภาพไม่ดี เมื่อระบบขอให้โมเดลทำการคาดการณ์จริง

หากไม่สามารถรับข้อมูลที่จําเป็นในรูปแบบที่จําเป็นได้ โมเดลจะทําการคาดการณ์ได้ไม่ดี

พลังในการคาดการณ์

เพื่อให้โมเดลคาดการณ์ได้ดี ฟีเจอร์ในชุดข้อมูลของคุณควรมี ความสามารถในการคาดการณ์ ยิ่งฟีเจอร์สัมพันธ์กับป้ายกำกับมากเท่าใด ก็ยิ่งมีแนวโน้มมากขึ้น ก็คือการคาดการณ์

ฟีเจอร์บางอย่างจะมีความแม่นยำในการคาดการณ์มากกว่าฟีเจอร์อื่นๆ ตัวอย่างเช่น ใน ชุดข้อมูลสภาพอากาศ ฟีเจอร์ต่างๆ เช่น cloud_coverage, temperature และ dew_point น่าจะพยากรณ์ฝนได้ดีกว่า moon_phase หรือ day_of_week สำหรับตัวอย่างแอปวิดีโอ คุณสามารถตั้งสมมติฐานว่าฟีเจอร์ต่างๆ เช่น video_description, length และ views อาจเป็นตัวคาดการณ์ที่ดีสำหรับ ที่ผู้ใช้จะต้องการชม

โปรดทราบว่าความสามารถในการคาดการณ์ของฟีเจอร์อาจเปลี่ยนแปลงได้เนื่องจากบริบทหรือโดเมนมีการเปลี่ยนแปลง เช่น ในแอปวิดีโอ ฟีเจอร์อย่าง upload_date มักมีความสัมพันธ์กับป้ายกำกับเล็กน้อย อย่างไรก็ตาม ใน โดเมนย่อยของวิดีโอการเล่นเกม upload_date อาจเกี่ยวข้องอย่างมากกับ ป้ายกำกับ

การพิจารณาว่าฟีเจอร์ใดมีความสามารถในการคาดการณ์อาจใช้เวลานาน คุณสามารถสำรวจความสามารถในการคาดการณ์ของฟีเจอร์ด้วยตนเองโดยการนําออกและเพิ่มฟีเจอร์ขณะฝึกโมเดล คุณสามารถค้นหาความสามารถในการคาดการณ์ของฟีเจอร์โดยอัตโนมัติได้โดยใช้อัลกอริทึมต่างๆ เช่น Pearson correlation, Adjusted mutual information (AMI) และ Shapley value ซึ่งจะให้การประเมินเชิงตัวเลขสําหรับการวิเคราะห์ความสามารถในการคาดการณ์ของฟีเจอร์

ทดสอบความเข้าใจ

เมื่อวิเคราะห์ชุดข้อมูล คุณควรมองหาแอตทริบิวต์หลัก 3 รายการใด
ตัวแทนของโลกความเป็นจริง
มีค่าที่ถูกต้อง
ฟีเจอร์มีความสามารถในการคาดการณ์สำหรับป้ายกำกับ
มีขนาดเล็กพอที่จะโหลดลงในเครื่องของคุณเอง
รวบรวมมาจากหลากหลายแหล่งที่มาที่คาดเดาไม่ได้

ดูคําแนะนําเพิ่มเติมเกี่ยวกับการวิเคราะห์และเตรียมชุดข้อมูลได้ที่การเตรียมข้อมูลและการสร้างฟีเจอร์สําหรับแมชชีนเลิร์นนิง

การคาดการณ์และการกระทำ

การคาดการณ์จะไร้ประโยชน์หากเปลี่ยนการคาดการณ์เป็นการดำเนินการที่เป็นประโยชน์ต่อผู้ใช้ไม่ได้ กล่าวคือ ผลิตภัณฑ์ควรดําเนินการจากเอาต์พุตของโมเดล

เช่น โมเดลที่คาดการณ์ว่าผู้ใช้จะพบว่าวิดีโอมีประโยชน์หรือไม่ ควรส่งไปยังแอปที่แนะนำวิดีโอที่มีประโยชน์ โมเดลที่คาดการณ์ว่าฝนจะตกหรือไม่ควรส่งไปยังแอปพยากรณ์อากาศ

ทดสอบความเข้าใจ

พิจารณาจากสถานการณ์ต่อไปนี้ว่าการใช้ ML เป็นแนวทางแก้ปัญหาที่ดีที่สุดหรือไม่

ทีมวิศวกรในองค์กรขนาดใหญ่มีหน้าที่จัดการ สายเรียกเข้า

เป้าหมาย: เพื่อแจ้งผู้โทรทราบถึงระยะเวลาที่จะต้องถือสายรอ ระดับเสียงของการโทรปัจจุบัน

พวกเขายังไม่มีโซลูชันที่พร้อมใช้ แต่พวกเขาคิดว่าการเรียนรู้แบบฮิวริสติก จะหารค่าปัจจุบัน จำนวนลูกค้าที่รอสาย ตามจำนวนพนักงานที่รับโทรศัพท์ แล้วคูณด้วย 10 นาที อย่างไรก็ตาม พวกเขารู้ว่าลูกค้าบางรายแก้ไขปัญหาได้ใน 2 นาที ขณะที่รายการอื่นๆ อาจใช้เวลานานถึง 45 นาที

การเรียนรู้ของพวกเขาอาจไม่ได้แสดงจำนวนที่ถูกต้องแม่นยำมากพอ โดยสามารถสร้างชุดข้อมูลที่มีคอลัมน์ต่อไปนี้ได้ number_of_callcenter_phones, user_issue, time_to_resolve, call_time, time_on_hold

ใช้ ML ทีมวิศวกรมีเป้าหมายที่ชัดเจน ของ การเรียนรู้ของผู้เรียนจะไม่ดีพอสำหรับกรณีการใช้งาน ชุดข้อมูลจะปรากฏขึ้น ให้มีฟีเจอร์การคาดการณ์สำหรับป้ายกำกับ time_on_hold
อย่าใช้ ML แม้ว่าจะมีเป้าหมายที่ชัดเจน แต่ควรติดตั้งใช้งานและเพิ่มประสิทธิภาพโซลูชันที่ไม่ใช่ ML ก่อน นอกจากนี้ ดูเหมือนว่าชุดข้อมูลจะมีฟีเจอร์ไม่เพียงพอพร้อมกับความสามารถในการคาดการณ์