การวัดความสำเร็จ

คุณจะทราบได้อย่างไรว่าการใช้ ML คุ้มค่ากับการลงทุนไหม คุณควรเริ่มฉลองเมื่อใด ทันทีที่โมเดลเข้าสู่เวอร์ชันที่ใช้งานจริงและแสดงการคาดการณ์แรก หรือหลังจากที่เมตริกธุรกิจเชิงปริมาณเริ่มไปในทิศทางที่ถูกต้องแล้วเท่านั้น

ก่อนที่จะเริ่มทำโปรเจ็กต์ คุณจำเป็นต้องกำหนดเมตริกความสำเร็จและข้อตกลงเกี่ยวกับผลลัพธ์ที่จะมอบให้ คุณจะต้องกำหนดและติดตาม เมตริกสองประเภทต่อไปนี้

เมตริกธุรกิจ

เมตริกธุรกิจคือสิ่งที่สำคัญที่สุด เหตุผลที่คุณใช้ ML คือ ต้องการปรับปรุงธุรกิจ

เริ่มจากเมตริกผลิตภัณฑ์หรือธุรกิจที่วัดได้ เมตริกควรละเอียดและตรงเป้าหมายมากที่สุดเท่าที่จะเป็นไปได้ ตัวอย่างของเมตริกธุรกิจที่มุ่งเน้นและวัดปริมาณได้มีดังนี้

  • ลดค่าใช้จ่ายรายเดือนของศูนย์ข้อมูลลง 30 เปอร์เซ็นต์
  • เพิ่มรายได้จากคำแนะนำผลิตภัณฑ์อีก 12 เปอร์เซ็นต์
  • เพิ่มอัตราการคลิกผ่าน 9 เปอร์เซ็นต์
  • เพิ่มความพึงพอใจของลูกค้าจากแบบสำรวจที่เลือกเข้าร่วมได้ 20 เปอร์เซ็นต์
  • เพิ่มเวลาบนหน้าเว็บ 4 เปอร์เซ็นต์

การติดตามเมตริกธุรกิจ

หากคุณไม่ได้ติดตามเมตริกธุรกิจที่ต้องการปรับปรุง ให้เริ่มด้วยการนำโครงสร้างพื้นฐานไปใช้ การตั้งเป้าหมายเพื่อเพิ่มอัตราการคลิกผ่าน 15% นั้นไม่สมเหตุสมผลหากคุณยังไม่ได้วัดอัตราการคลิกผ่านอยู่

ที่สำคัญกว่านั้นคือ ตรวจสอบว่าคุณวัดเมตริกที่เหมาะสมสำหรับปัญหา เช่น อย่าเสียเวลาเขียนการใช้เครื่องมือเพื่อติดตามอัตราการคลิกผ่าน หากเมตริกที่สำคัญกว่าอาจเป็นรายได้จากคำแนะนำ

เมื่อโครงการดำเนินไป คุณจะทราบว่าเมตริกความสำเร็จเป้าหมายนั้นเป็นเป้าหมายที่ทำได้จริงหรือไม่ ในบางกรณี คุณอาจพิจารณาว่าโปรเจ็กต์จะไม่สามารถบรรลุผลได้จากเมตริกความสำเร็จที่กำหนด

เมตริกโมเดล

คุณควรนำโมเดลนี้ไปใช้จริงเมื่อใด เมื่อ AUC อยู่ที่ค่าใดค่าหนึ่ง เมื่อโมเดลได้คะแนน F1 ถึงระดับใดระดับหนึ่ง คำตอบของคำถามนี้ขึ้นอยู่กับประเภทของปัญหาที่คุณแก้ไขและคุณภาพการคาดการณ์ที่คุณคิดว่าต้องปรับปรุงเมตริกธุรกิจ

เมื่อกำหนดเมตริกที่จะใช้ประเมินโมเดลของคุณ ให้พิจารณาสิ่งต่อไปนี้

  • กำหนดเมตริกเดียวที่จะเพิ่มประสิทธิภาพ เช่น โมเดลการแยกประเภทจะประเมินได้โดยใช้เมตริกต่างๆ (AUC, AUC-PR ฯล) การเลือกรูปแบบที่ดีที่สุดอาจเป็นเรื่องท้าทายเมื่อเมตริกต่างๆ ไปชอบโมเดลที่แตกต่างกัน ดังนั้น คุณควรยอมรับเมตริกเดียวเพื่อประเมินโมเดล

  • กำหนดเป้าหมายด้านการยอมรับเพื่อให้บรรลุผล เป้าหมายการยอมรับแตกต่างจากเมตริกการประเมินโมเดล หมายถึงเป้าหมายที่โมเดลจำเป็นต้องทำตามเพื่อให้ได้รับการยอมรับสำหรับกรณีการใช้งานที่ต้องการ เช่น เป้าหมายการยอมรับอาจเป็น "เอาต์พุตที่ไม่ถูกต้องน้อยกว่า 0.1%" หรือ "การเรียกคืนหมวดหมู่ 5 อันดับแรกมีค่ามากกว่า 97%"

เช่น สมมติว่าโมเดลการจัดประเภทแบบไบนารีตรวจพบธุรกรรมที่เป็นการฉ้อโกง อาจมีการเรียกคืนเมตริกการเพิ่มประสิทธิภาพ ในขณะที่เป้าหมาย การยอมรับอาจเป็นความแม่นยํา กล่าวคือ เราจะให้ความสำคัญกับการเรียกคืน (ระบุธุรกรรมที่ฉ้อโกงอย่างถูกต้องเกือบตลอดเวลา) ขณะที่คุณต้องการความแม่นยำในการรักษาระดับหรือสูงกว่ามูลค่าหนึ่งๆ (ระบุธุรกรรมที่เป็นการฉ้อโกงจริง)

การเชื่อมโยงระหว่างเมตริกรูปแบบกับเมตริกธุรกิจ

โดยพื้นฐานแล้ว คุณกำลังพยายามพัฒนาโมเดลให้คุณภาพการคาดการณ์เชื่อมโยงกับเมตริกธุรกิจของคุณอย่างสมเหตุสมผล เมตริกโมเดลที่ดีไม่ได้หมายความว่ามีเมตริกธุรกิจที่ดีขึ้นเสมอไป ทีมของคุณอาจพัฒนาโมเดลที่มีเมตริกที่น่าประทับใจ แต่การคาดการณ์ของโมเดลอาจไม่ได้ปรับปรุงเมตริกธุรกิจให้ดีขึ้น

เมื่อพอใจกับคุณภาพการคาดการณ์ของโมเดลแล้ว ให้ลองดูว่าเมตริกของโมเดลมีผลต่อเมตริกธุรกิจอย่างไร โดยปกติแล้วทีมจะทำให้โมเดลใช้งานได้กับผู้ใช้ 1% จากนั้นตรวจสอบเมตริกธุรกิจ

เช่น สมมติว่าทีมของคุณพัฒนาโมเดลเพื่อเพิ่มรายได้โดยการคาดการณ์การเลิกใช้งานของลูกค้า ในทางทฤษฎี หากคุณคาดการณ์ได้ว่าลูกค้าจะออกจากแพลตฟอร์มหรือไม่ คุณก็กระตุ้นให้ลูกค้าอยู่ต่อได้

ทีมของคุณสร้างโมเดลที่มีคุณภาพการคาดการณ์ 95% และทดสอบกับกลุ่มผู้ใช้กลุ่มเล็กๆ แต่รายได้จะไม่เพิ่มขึ้น การเลิกใช้งานของลูกค้าเพิ่มขึ้นจริง ซึ่งอาจเกิดจากสาเหตุต่อไปนี้

  • การคาดการณ์ไม่ได้เกิดขึ้นเร็วพอที่จะนำไปดำเนินการได้ โมเดลนี้จะคาดการณ์การเลิกใช้งานของลูกค้าได้ภายใน 7 วันเท่านั้น ซึ่งยังไม่เพียงพอที่จะเสนอสิ่งจูงใจเพื่อให้ลูกค้ายังคงอยู่บนแพลตฟอร์ม

  • ฟีเจอร์ไม่สมบูรณ์ อาจมีปัจจัยอื่นๆ ที่ทำให้เกิดการเลิกใช้งานของลูกค้า ที่ไม่ได้อยู่ในชุดข้อมูลการฝึก

  • เกณฑ์ไม่สูงพอ โมเดลอาจต้องมีคุณภาพการคาดการณ์ 97% ขึ้นไปจึงจะมีประโยชน์

ตัวอย่างง่ายๆ นี้เน้นที่ 2 ประเด็นนี้:

  • คุณควรทําการทดสอบผู้ใช้ตั้งแต่เนิ่นๆ เพื่อพิสูจน์ (และทำความเข้าใจ) ความเชื่อมโยงระหว่างเมตริกของโมเดลกับเมตริกธุรกิจ
  • เมตริกโมเดลที่ดีไม่ได้รับประกันว่าเมตริกธุรกิจจะดีขึ้น

Generative AI

การประเมินเอาต์พุตของ Generative AI สร้างความท้าทายที่ไม่เหมือนใคร ในหลายกรณี เช่น คำถามปลายเปิดหรือผลลัพธ์ที่ได้จากครีเอทีฟโฆษณา อาจเป็นเรื่องยากกว่าการประเมินผลลัพธ์ ML แบบเดิม

ระบบจะวัดและประเมิน LLM โดยใช้เมตริกที่หลากหลาย การกำหนดเมตริกที่จะใช้ประเมินโมเดลขึ้นอยู่กับกรณีการใช้งานของคุณ ดูข้อมูลเพิ่มเติมได้ใน ข้อมูลเบื้องต้นเกี่ยวกับการประเมิน LLM

โปรดทราบ

อย่าสับสนระหว่างความสำเร็จของรูปแบบกับความสำเร็จทางธุรกิจ หรือพูดอีกอย่างก็คือ โมเดลที่มีเมตริกที่โดดเด่นไม่ได้รับประกันความสำเร็จทางธุรกิจ

วิศวกรที่มีทักษะมากมายสามารถสร้างโมเดลที่มีเมตริกที่น่าประทับใจ การฝึกโมเดลให้ดีเพียงพอมักไม่ใช่ปัญหา แต่เป็นเพราะโมเดลไม่ได้ปรับปรุง เมตริกธุรกิจ โปรเจ็กต์ ML อาจมีความล้มเหลวเกิดขึ้นได้เนื่องจากความคลาดเคลื่อนระหว่างเมตริกธุรกิจกับเมตริกโมเดล

ทดสอบความเข้าใจ