การจัดกรอบปัญหา ML

หลังจากยืนยันว่าปัญหาได้รับการแก้ไขได้ดีที่สุดด้วยการใช้ ML แบบคาดการณ์หรือ Generative AI แล้ว คุณก็พร้อมที่จะตีกรอบปัญหาด้วย ML ได้ คุณตีกรอบปัญหาในคำศัพท์ ML โดยดำเนินการต่อไปนี้ให้เสร็จสมบูรณ์

  • กำหนดผลลัพธ์และเป้าหมายของรูปแบบในอุดมคติ
  • ระบุเอาต์พุตของโมเดล
  • กำหนดเมตริกความสำเร็จ

กำหนดผลลัพธ์และเป้าหมายของรูปแบบในอุดมคติ

ผลลัพธ์ที่สมบูรณ์แบบโดยไม่ต้องพึ่งโมเดล ML คืออะไร กล่าวคือ คุณต้องการให้ผลิตภัณฑ์หรือฟีเจอร์ทำงานอะไร ซึ่งเป็นคำสั่งเดียวกันกับที่เคยกำหนดไว้ในส่วนระบุเป้าหมาย

เชื่อมโยงเป้าหมายของโมเดลกับผลลัพธ์ที่ต้องการโดยกำหนดสิ่งที่คุณต้องการให้โมเดลทำอย่างชัดเจน ตารางต่อไปนี้จะระบุผลลัพธ์และเป้าหมายของโมเดลสำหรับแอปสมมติ

App ผลลัพธ์ที่เหมาะสม เป้าหมายของโมเดล
แอปสภาพอากาศ คำนวณปริมาณฝนที่เพิ่มขึ้นครั้งละ 6 ชั่วโมงสำหรับพื้นที่ทางภูมิศาสตร์ คาดการณ์ปริมาณฝนในช่วง 6 ชั่วโมงสำหรับพื้นที่ทางภูมิศาสตร์ที่เฉพาะเจาะจง
แอปแฟชั่น สร้างเสื้อเชิ้ตที่หลากหลาย สร้างดีไซน์เสื้อ 3 รูปแบบจากข้อความและรูปภาพ โดยข้อความจะระบุรูปแบบและสี รวมถึงรูปภาพคือประเภทของเสื้อ (เสื้อยืด กระดุมหน้า โปโล)
แอปวิดีโอ แนะนำวิดีโอที่มีประโยชน์ คาดการณ์ว่าผู้ใช้จะคลิกวิดีโอหรือไม่
แอปอีเมล ตรวจหาสแปม คาดการณ์ว่าอีเมลเป็นสแปมหรือไม่
แอปการเงิน สรุปข้อมูลทางการเงินจากแหล่งข่าวหลายแห่ง สร้างข้อมูลสรุป 50 คำเกี่ยวกับแนวโน้มทางการเงินที่สำคัญจากช่วง 7 วันที่ผ่านมา
แอปแผนที่ คำนวณเวลาเดินทาง คาดการณ์ระยะเวลาที่จะใช้ในการเดินทางระหว่าง 2 จุด
แอปธนาคาร ระบุธุรกรรมที่เป็นการฉ้อโกง คาดการณ์ว่าผู้ถือบัตรทำธุรกรรมหรือไม่
แอปร้านอาหาร ระบุอาหารตามเมนูของร้านอาหาร คาดการณ์ประเภทร้านอาหาร
แอปอีคอมเมิร์ซ สร้างการตอบกลับฝ่ายสนับสนุนลูกค้าเกี่ยวกับผลิตภัณฑ์ของบริษัท สร้างการตอบกลับโดยใช้การวิเคราะห์ความเห็นและฐานความรู้ขององค์กร

ระบุเอาต์พุตที่คุณต้องการ

การเลือกประเภทรูปแบบจะขึ้นอยู่กับบริบทและข้อจำกัดที่เฉพาะเจาะจงของปัญหา เอาต์พุตของโมเดลควรทำงานที่กำหนดไว้ในผลลัพธ์ที่เหมาะสม ดังนั้น คำถามแรกที่ควรตอบคือ "ฉันต้องใช้เอาต์พุตประเภทใดเพื่อแก้ปัญหา"

หากต้องการแยกประเภทหรือสร้างการคาดการณ์เป็นตัวเลข คุณอาจใช้ ML แบบคาดคะเน หากต้องการสร้างเนื้อหาใหม่หรือสร้างเอาต์พุตที่เกี่ยวข้องกับความเข้าใจภาษาธรรมชาติ คุณอาจต้องใช้ Generative AI

ตารางต่อไปนี้แสดงรายการเอาต์พุต ML แบบคาดการณ์และ Generative AI

ตารางที่ 1 ML ตามการคาดการณ์
ระบบ ML ตัวอย่างเอาต์พุต
การจำแนกประเภท ไบนารี จัดประเภทอีเมลว่าเป็นจดหมายขยะหรือไม่ใช่จดหมายขยะ
ป้ายกำกับเดียวแบบหลายคลาส จำแนกสัตว์ในรูปภาพ
หลายป้ายกำกับแบบหลายคลาส จำแนกประเภทสัตว์ทุกตัวในรูปภาพ
ตัวเลข การถดถอยในมิติเดียว คาดการณ์ยอดดูที่วิดีโอจะได้รับ
การถดถอยแบบหลายมิติ คาดการณ์ความดันโลหิต อัตราการเต้นของหัวใจ และระดับคอเลสเตอรอลสำหรับบุคคล
ตารางที่ 2 Generative AI
ประเภทโมเดล ตัวอย่างเอาต์พุต
ข้อความ
สรุปบทความ

ตอบรีวิวของลูกค้า

แปลเอกสารจากภาษาอังกฤษเป็นภาษาจีนกลาง

เขียนคำอธิบายผลิตภัณฑ์

วิเคราะห์เอกสารทางกฎหมาย
รูปภาพ
สร้างรูปภาพการตลาด

ใส่เอฟเฟกต์ภาพกับรูปภาพ

สร้างดีไซน์ผลิตภัณฑ์รูปแบบต่างๆ
เสียง
สร้างบทสนทนาในสำเนียงที่เฉพาะเจาะจง

สร้างการเรียบเรียงเพลงสั้นๆ ในประเภทที่เฉพาะเจาะจง เช่น แจ๊ส
วิดีโอ
สร้างวิดีโอที่ดูเหมือนจริง

วิเคราะห์วิดีโอไฟล์ดิบและใช้เอฟเฟกต์ภาพ
หลายรูปแบบ สร้างเอาต์พุตหลายประเภท เช่น วิดีโอที่มีคำบรรยายวิดีโอ

การจำแนกประเภท

โมเดลการจัดประเภทจะคาดการณ์หมวดหมู่ของข้อมูลอินพุต เช่น ควรจัดประเภทอินพุตเป็น A, B หรือ C

โมเดลการจัดประเภทกำลังคาดการณ์

รูปที่ 1 โมเดลการจัดประเภทที่ทำการคาดการณ์

แอปของคุณอาจตัดสินใจขึ้นอยู่กับการคาดการณ์ของโมเดล ตัวอย่างเช่น หากการคาดคะเนอยู่ในหมวดหมู่ A ให้ทำ X หากการคาดคะเนอยู่ในหมวดหมู่ B ให้ทำ Y หากการคาดคะเนอยู่ในหมวดหมู่ C ให้ทำ Z ในบางกรณี การคาดการณ์จะเป็นเอาต์พุตของแอป

รหัสผลิตภัณฑ์จะใช้เอาต์พุตของโมเดลเพื่อตัดสินใจ

รูปที่ 2 เอาต์พุตของโมเดลการจัดประเภทที่ใช้ในรหัสผลิตภัณฑ์เพื่อการตัดสินใจ

การถดถอย

โมเดลการถดถอยคาดการณ์ค่าตัวเลข

โมเดลการถดถอยกำลังทำการคาดการณ์

รูปที่ 3 โมเดลการถดถอยที่สร้างการคาดการณ์เป็นตัวเลข

แอปของคุณอาจตัดสินใจขึ้นอยู่กับการคาดการณ์ของโมเดล ตัวอย่างเช่น หากการคาดการณ์อยู่ในช่วง A ให้ทำ X หากการคาดการณ์อยู่ในช่วง B ให้ทำ Y หากการคาดการณ์อยู่ในช่วง C ให้ทำ Z ในบางกรณี การคาดการณ์จะเป็นเอาต์พุตของแอป

รหัสผลิตภัณฑ์จะใช้เอาต์พุตของโมเดลเพื่อตัดสินใจ

รูปที่ 4 เอาต์พุตของโมเดลการถดถอยที่ใช้ในรหัสผลิตภัณฑ์เพื่อ ตัดสินใจ

พิจารณาสถานการณ์ต่อไปนี้

คุณต้องการแคชวิดีโอตามความนิยมที่คาดการณ์ไว้ กล่าวคือ หากโมเดลของคุณคาดการณ์ว่าวิดีโอจะได้รับความนิยม คุณก็ต้องนำวิดีโอไปแสดงให้ผู้ใช้เห็นอย่างรวดเร็ว ในการทำเช่นนั้น คุณจะใช้แคชที่มีประสิทธิภาพและมีราคาแพงกว่า สำหรับวิดีโออื่นๆ คุณจะใช้ แคชอื่น เกณฑ์การแคชมีดังนี้

  • หากมีการคาดการณ์ว่าวิดีโอจะได้รับยอดดู 50 ครั้งขึ้นไป คุณจะใช้แคชที่มีราคาแพง
  • หากวิดีโอคาดว่าจะได้รับยอดดูตั้งแต่ 30 ถึง 50 ครั้ง คุณจะใช้แคชราคาถูก
  • หากมีการคาดการณ์ว่าวิดีโอจะมียอดดูน้อยกว่า 30 ครั้ง คุณจะไม่แคชวิดีโอนั้น

คุณคิดว่ารูปแบบการถดถอยเป็นวิธีที่เหมาะสม เพราะคุณกำลังจะคาดการณ์ค่าตัวเลข ซึ่งก็คือยอดดู อย่างไรก็ตาม ขณะฝึกโมเดลการถดถอย คุณทราบว่าโมเดลนั้นสร้างความสูญเสียแบบเดียวกันสำหรับการคาดการณ์ 28 และ 32 สำหรับวิดีโอที่มียอดดู 30 ครั้ง กล่าวคือ แม้ว่าแอปของคุณจะมีลักษณะการทำงานที่แตกต่างกันมากหากการคาดการณ์เป็น 28 กับ 32 แต่โมเดลจะถือว่าการคาดการณ์ทั้ง 2 รายการดีเท่ากัน

โมเดลที่กำลังฝึกและประเมินการสูญเสีย

รูปที่ 5 การฝึกโมเดลการถดถอย

โมเดลการถดถอยไม่ทราบเกณฑ์ที่ผลิตภัณฑ์กำหนด ดังนั้นหากพฤติกรรมของแอปมีการเปลี่ยนแปลงอย่างมากเนื่องจากการคาดการณ์ของโมเดลการถดถอยที่แตกต่างกันเล็กน้อย คุณควรพิจารณาใช้โมเดลการแยกประเภทแทน

ในสถานการณ์นี้ โมเดลการจัดประเภทจะสร้างพฤติกรรมที่ถูกต้องเนื่องจากโมเดลการจัดประเภทจะสูญเสียการคาดการณ์ 28 มากกว่า 32 ในความหมาย โมเดลการแยกประเภทจะสร้างเกณฑ์โดยค่าเริ่มต้น

สถานการณ์นี้เน้นประเด็นสำคัญสองประการ:

  • คาดการณ์ผลการตัดสิน เมื่อเป็นไปได้ ให้คาดการณ์ ผลการตัดสินของแอป ในตัวอย่างวิดีโอ โมเดลการจัดประเภทจะคาดการณ์การตัดสินหากหมวดหมู่ที่มีการจัดประเภทวิดีโอเป็น "ไม่มีแคช" "แคชราคาถูก" และ "แคชที่มีราคาแพง" การซ่อนลักษณะการทำงานของแอปจากโมเดลอาจเป็นสาเหตุให้แอปสร้างลักษณะการทำงานที่ไม่ถูกต้อง

  • ทำความเข้าใจข้อจำกัดของปัญหา หากแอปดำเนินการแตกต่างกันตามเกณฑ์ที่แตกต่างกัน ให้พิจารณาว่าเกณฑ์เหล่านั้นได้รับการแก้ไขหรือเป็นแบบไดนามิก

    • เกณฑ์แบบไดนามิก: หากเกณฑ์เป็นแบบไดนามิก ให้ใช้โมเดลการถดถอย และตั้งขีดจำกัดเกณฑ์ในโค้ดของแอป วิธีนี้ช่วยให้คุณอัปเดตเกณฑ์ได้อย่างง่ายดายในขณะที่ยังคงโมเดลให้คาดการณ์ได้อย่างสมเหตุสมผล
    • เกณฑ์คงที่: หากเกณฑ์ได้รับการแก้ไข ให้ใช้โมเดลการจัดประเภทและติดป้ายกำกับชุดข้อมูลตามขีดจำกัดของเกณฑ์

    โดยทั่วไปแล้ว การจัดสรรแคชส่วนใหญ่จะเป็นแบบไดนามิก และเกณฑ์จะเปลี่ยนแปลงเมื่อเวลาผ่านไป ดังนั้น เนื่องจากนี่เป็นปัญหาการแคชโดยเฉพาะ โมเดลการถดถอยจึงเป็นตัวเลือกที่ดีที่สุด อย่างไรก็ตาม สำหรับปัญหาหลายๆ อย่างนั้น เกณฑ์จะได้รับการแก้ไข ซึ่งทำให้โมเดลการจัดประเภทเป็นโซลูชันที่ดีที่สุด

ลองมาดูอีกตัวอย่างหนึ่งกัน หากคุณกำลังสร้างแอปสภาพอากาศที่มีผลลัพธ์ที่เหมาะสมคือการแจ้งผู้ใช้ว่าฝนจะตกมากแค่ไหนในช่วง 6 ชั่วโมงข้างหน้า คุณสามารถใช้โมเดลการถดถอยที่คาดการณ์ป้ายกำกับ precipitation_amount.

ผลลัพธ์ที่เหมาะสม ป้ายกำกับที่เหมาะสม
แจ้งให้ผู้ใช้ทราบว่าพื้นที่ของตนจะมีฝนตกเท่าไร ในอีก 6 ชั่วโมงข้างหน้า precipitation_amount

ในตัวอย่างของแอปสภาพอากาศ ป้ายกำกับจะระบุผลลัพธ์ที่ตรงที่สุด อย่างไรก็ตาม ในบางกรณี ความสัมพันธ์แบบหนึ่งต่อหนึ่งอาจไม่มีความชัดเจนระหว่างผลลัพธ์ที่เหมาะสมกับป้ายกํากับ เช่น ผลลัพธ์ที่ดีที่สุดในแอปวิดีโอคือ การแนะนำวิดีโอที่มีประโยชน์ อย่างไรก็ตาม ชุดข้อมูลที่ชื่อว่า useful_to_user. ไม่มีป้ายกำกับ

ผลลัพธ์ที่เหมาะสม ป้ายกำกับที่เหมาะสม
แนะนำวิดีโอที่มีประโยชน์ ?

ดังนั้น คุณต้องค้นหาป้ายกำกับพร็อกซี

ป้ายกำกับพร็อกซี

โดยป้ายกำกับพร็อกซีจะใช้แทนป้ายกำกับที่ไม่ได้อยู่ในชุดข้อมูล ป้ายกำกับพร็อกซีเป็นสิ่งจำเป็นเมื่อคุณไม่สามารถ วัดผลสิ่งที่ต้องการคาดการณ์ได้โดยตรง ในแอปวิดีโอ เราไม่สามารถวัดได้โดยตรงว่าวิดีโอมีประโยชน์ ต่อผู้ใช้หรือไม่ คงจะดีมากหากชุดข้อมูลมีฟีเจอร์ useful และผู้ใช้ทำเครื่องหมายวิดีโอทั้งหมดที่พบว่ามีประโยชน์ แต่เนื่องจากชุดข้อมูลไม่มีประโยชน์ เราจึงต้องมีป้ายกำกับพร็อกซีซึ่งจะมาแทนที่ความมีประโยชน์

ป้ายกำกับพร็อกซีเพื่อความมีประโยชน์อาจหมายถึงว่าผู้ใช้จะแชร์หรือชอบวิดีโอหรือไม่

ผลลัพธ์ที่เหมาะสม ป้ายกำกับพร็อกซี
แนะนำวิดีโอที่มีประโยชน์ shared OR liked

โปรดใช้ความระมัดระวังกับป้ายกำกับพร็อกซี เนื่องจากป้ายกำกับเหล่านั้นไม่ได้วัดสิ่งที่คุณต้องการคาดการณ์โดยตรง ตัวอย่างเช่น ตารางต่อไปนี้สรุปปัญหาเกี่ยวกับป้ายกำกับพร็อกซีที่เป็นไปได้สำหรับแนะนำวิดีโอที่มีประโยชน์

ป้ายกำกับพร็อกซี ปัญหา
คาดการณ์ว่าผู้ใช้จะคลิกปุ่ม "ชอบ" หรือไม่ ผู้ใช้ส่วนใหญ่ไม่เคยคลิก "ชอบ"
คาดการณ์ว่าวิดีโอจะได้รับความนิยมหรือไม่ ไม่ได้ปรับเปลี่ยนให้เหมาะกับคุณ ผู้ใช้บางคนอาจไม่ชอบวิดีโอยอดนิยม
คาดการณ์ว่าผู้ใช้จะแชร์วิดีโอหรือไม่ ผู้ใช้บางรายไม่ได้แชร์วิดีโอ บางครั้งผู้คนแชร์วิดีโอเนื่องจากไม่ชอบวิดีโอประเภทนี้
คาดการณ์ว่าผู้ใช้จะคลิกเล่นหรือไม่ เพิ่มจำนวนคลิกสูงสุด
คาดการณ์ระยะเวลาที่ผู้ใช้ดูวิดีโอ ชื่นชอบวิดีโอแบบยาวที่โดดเด่นกว่าวิดีโอสั้น
คาดการณ์ว่าผู้ใช้จะดูวิดีโอซ้ำกี่ครั้ง เลือกให้วิดีโอ "ดูซ้ำได้" แทนประเภทวิดีโอที่ดูซ้ำไม่ได้

ไม่มีป้ายกำกับพร็อกซีใดสามารถใช้แทนผลลัพธ์ที่ดีที่สุดได้ ทั้งหมดจะมีปัญหาที่อาจเกิดขึ้นได้ ให้เลือกวิธีที่มีปัญหาน้อยที่สุดสำหรับ กรณีการใช้งานของคุณ

ทำความเข้าใจ

บริษัทแห่งหนึ่งต้องการใช้ ML ในแอปด้านสุขภาพและความเป็นอยู่ที่ดีเพื่อช่วยให้ผู้คนรู้สึกดีขึ้น คุณคิดว่าพวกเขาต้องใช้ป้ายกำกับพร็อกซีเพื่อ บรรลุเป้าหมายไหม
ใช่ บริษัทจะต้องค้นหาป้ายกำกับพร็อกซี ระบบวัดหมวดหมู่ต่างๆ เช่น ความสุขและความเป็นอยู่ที่ดีโดยตรงไม่ได้ แต่จะต้องใช้ตัวเลขโดยประมาณจากฟีเจอร์อื่นๆ ด้วย เช่น ชั่วโมงออกกำลังกายต่อสัปดาห์ หรือเวลาที่ใช้ในการทำงานอดิเรกหรือกับเพื่อนๆ
ไม่ บริษัทไม่จำเป็นต้องใช้ป้ายกำกับพร็อกซี คุณวัดความสุขและคุณภาพชีวิตได้โดยตรง

รุ่น

ในกรณีส่วนใหญ่ คุณจะไม่ได้ฝึกโมเดล Generative ของคุณเอง เนื่องจากการทำเช่นนั้นต้องอาศัยข้อมูลการฝึกและทรัพยากรการคำนวณจำนวนมาก แต่คุณจะปรับแต่งโมเดล Generative ที่ฝึกไว้แล้วล่วงหน้าแทน หากต้องการรับโมเดล Generative เพื่อ สร้างเอาต์พุตที่ต้องการ คุณอาจต้องใช้เทคนิคต่อไปนี้อย่างน้อย 1 ข้อ

  • การกรอง หากต้องการสร้างโมเดลที่เล็กลงจากโมเดลที่ใหญ่กว่า คุณต้องสร้างชุดข้อมูลที่ติดป้ายกำกับสังเคราะห์จากโมเดลขนาดใหญ่ที่คุณใช้ในการฝึกโมเดลที่เล็กกว่า โมเดล Generative มักมีขนาดมหึมาและใช้ทรัพยากรจำนวนมาก (เช่น หน่วยความจำและไฟฟ้า) การกลั่นช่วยให้โมเดลขนาดเล็กที่ใช้ทรัพยากรน้อยกว่าสามารถประเมินประสิทธิภาพของโมเดลที่ใหญ่กว่าได้

  • การปรับแต่งหรือการปรับแต่งแบบเพิ่มประสิทธิภาพพารามิเตอร์ ในการปรับปรุงประสิทธิภาพของโมเดลในงานที่เจาะจง คุณต้องฝึกโมเดลเพิ่มเติมบนชุดข้อมูลที่มีตัวอย่างของประเภทเอาต์พุตที่ต้องการสร้าง

  • การดำเนินการด้านวิศวกรรมทันที หากต้องการทำให้โมเดลทำงานเฉพาะหรือสร้างเอาต์พุตในรูปแบบที่กำหนด คุณต้องบอกโมเดลเกี่ยวกับงานที่คุณต้องการให้ทำ หรืออธิบายวิธีที่ต้องการจัดรูปแบบเอาต์พุต กล่าวคือ ข้อความแจ้งอาจรวมคำสั่งที่ใช้ภาษาธรรมชาติเพื่อดูวิธีทำงานดังกล่าว หรือใส่ตัวอย่างให้คำอธิบายพร้อมกับเอาต์พุตที่ต้องการ

    ตัวอย่างเช่น หากต้องการสรุปบทความสั้นๆ คุณอาจต้องป้อนข้อมูลต่อไปนี้

    Produce 100-word summaries for each article.
    

    หากต้องการให้โมเดลสร้างข้อความสำหรับระดับการอ่านที่เฉพาะเจาะจง คุณอาจป้อนข้อมูลต่อไปนี้

    All the output should be at a reading level for a 12-year-old.
    

    หากต้องการให้โมเดลให้เอาต์พุตในรูปแบบที่เฉพาะเจาะจง คุณอาจอธิบายว่าควรจัดรูปแบบเอาต์พุตอย่างไร เช่น "จัดรูปแบบผลลัพธ์ในตาราง" หรือคุณจะสาธิตงานด้วยการยกตัวอย่างก็ได้ ตัวอย่างเช่น คุณอาจป้อนข้อมูลต่อไปนี้

    Translate words from English to Spanish.
    
    English: Car
    Spanish: Auto
    
    English: Airplane
    Spanish: Avión
    
    English: Home
    Spanish:______
    

การกลั่นและการปรับแต่งจะอัปเดตพารามิเตอร์ของโมเดล Prompt Engineering ไม่อัปเดตพารามิเตอร์ของโมเดล ทาง Prompt Engineering จะช่วยให้โมเดลเรียนรู้วิธีสร้างผลลัพธ์ที่ต้องการจากบริบทของข้อความแจ้ง

ในบางกรณี คุณยังต้องใช้ชุดข้อมูลการทดสอบเพื่อประเมินผลลัพธ์ของโมเดล Generative กับค่าที่รู้จัก เช่น ตรวจสอบว่าข้อมูลสรุปของโมเดลคล้ายกับรายการที่มนุษย์สร้างขึ้น หรือมนุษย์ให้คะแนนข้อมูลสรุปของโมเดลดี

นอกจากนี้ Generative AI ยังนำโซลูชัน ML ตามการคาดการณ์ไปใช้ได้ เช่น การแยกประเภทหรือการถดถอย ตัวอย่างเช่น เนื่องจากมีความรู้ลึกซึ้งเกี่ยวกับภาษาธรรมชาติ โมเดลภาษาขนาดใหญ่ (LLM) จึงสามารถดำเนินงานเกี่ยวกับการจัดประเภทข้อความได้ดีกว่า ML แบบคาดคะเนที่ฝึกให้ทำงานสำหรับงานนั้นๆ

กำหนดเมตริกความสำเร็จ

กำหนดเมตริกที่จะใช้พิจารณาว่าการใช้ ML ประสบความสำเร็จหรือไม่ เมตริกวัดความสำเร็จจะเป็นตัวกำหนดสิ่งที่คุณสนใจ เช่น การมีส่วนร่วม หรือการช่วยให้ผู้ใช้ดำเนินการที่เหมาะสม เช่น การดูวิดีโอที่พวกเขาคิดว่ามีประโยชน์ เมตริกวัดความสำเร็จแตกต่างจากเมตริกการประเมินของโมเดล เช่น ความแม่นยำ, ความแม่นยำ, การจำได้ หรือ AUC

เช่น เมตริกความสำเร็จและความล้มเหลวของแอปสภาพอากาศอาจกำหนดไว้ดังต่อไปนี้

สำเร็จ ผู้ใช้เปิดฟีเจอร์ "ฝนจะตกไหม" บ่อยกว่าเดิม 50 เปอร์เซ็นต์
ความล้มเหลว ผู้ใช้เปิดฟีเจอร์ "ฝนจะตกไหม" ไม่บ่อยนัก

เมตริกของแอปวิดีโออาจมีการกำหนดไว้ดังต่อไปนี้

สำเร็จ ผู้ใช้ใช้เวลาในเว็บไซต์มากขึ้นโดยเฉลี่ย 20%
ความล้มเหลว โดยเฉลี่ย ผู้ใช้ใช้เวลาบนไซต์มากเป็นพิเศษ

เราขอแนะนำให้กำหนดเมตริกความสำเร็จที่ต้องการ แต่ความทะเยอทะยานสูงอาจทำให้เกิดช่องว่างระหว่าง ความสำเร็จกับความล้มเหลว ตัวอย่างเช่น การที่ผู้ใช้ใช้เวลาบนไซต์มากกว่าเดิมโดยเฉลี่ย 10% ก็ไม่ใช่ความสำเร็จหรือความล้มเหลว ช่องว่างที่ไม่ได้ระบุไม่ใช่สิ่งสำคัญ

สิ่งที่สำคัญคือความสามารถของโมเดลในการขยับใกล้หรือก้าวล้ำกว่านั้น คือคำจำกัดความของความสำเร็จ เช่น เมื่อวิเคราะห์ประสิทธิภาพของโมเดล ให้พิจารณาคำถามต่อไปนี้ การปรับปรุงโมเดลจะช่วยให้คุณเข้าใกล้เกณฑ์ความสำเร็จที่กำหนดไว้มากขึ้นไหม ตัวอย่างเช่น โมเดลหนึ่งอาจมีเมตริกการประเมินที่ดี แต่ไม่ได้ทำให้คุณเข้าใกล้เกณฑ์ความสำเร็จมากขึ้น ซึ่งบ่งชี้ว่าแม้ว่าจะมีโมเดลที่สมบูรณ์แบบ คุณก็อาจจะไม่ตรงตามเกณฑ์ความสำเร็จที่กำหนดไว้ ในทางกลับกัน โมเดลอาจมีเมตริกการประเมินต่ำ แต่ทำให้คุณเข้าใกล้เกณฑ์ความสำเร็จมากขึ้น ซึ่งบ่งชี้ว่าการปรับปรุงโมเดลจะทำให้คุณเข้าใกล้ความสำเร็จมากขึ้น

ต่อไปนี้คือมิติข้อมูลที่ควรพิจารณาเมื่อพิจารณาว่ารูปแบบดังกล่าวควรปรับปรุงดีหรือไม่

  • ยังไม่ดีพอ แต่ดำเนินการต่อ ไม่ควรใช้โมเดลนี้ในสภาพแวดล้อมการใช้งานจริง แต่เมื่อเวลาผ่านไป อาจมีการปรับปรุงให้ดีขึ้นอย่างมาก

  • ดีพอ แล้วดำเนินการต่อ โมเดลนี้สามารถนำไปใช้ในสภาพแวดล้อมการใช้งานจริงและอาจได้รับการปรับปรุงเพิ่มเติม

  • ดีพอแล้ว แต่ปรับปรุงให้ดีขึ้นไม่ได้ โมเดลนี้อยู่ในสภาพแวดล้อมการใช้งานจริง แต่อาจจะดีที่สุดเท่าที่จะเป็นไปได้

  • ยังดีไม่พอและจะไม่มีวันเปลี่ยนไป ไม่ควรใช้โมเดลในสภาพแวดล้อมการใช้งานจริง และอาจไม่มีการฝึกจำนวนมาก

เมื่อตัดสินใจปรับปรุงโมเดล ให้ประเมินอีกครั้งว่าทรัพยากรที่เพิ่มขึ้น เช่น เวลาด้านวิศวกรรมและค่าใช้จ่ายในการประมวลผล เป็นเหตุผลรองรับการปรับปรุงโมเดลที่คาดการณ์ไว้หรือไม่

หลังจากกำหนดเมตริกความสำเร็จและความล้มเหลวแล้ว คุณต้องกำหนดความถี่ในการวัดผล เช่น คุณอาจวัดเมตริกวัดความสำเร็จหลังจากติดตั้งใช้งานระบบไปแล้ว 6 วัน 6 สัปดาห์ หรือ 6 เดือน

เมื่อวิเคราะห์เมตริกที่ไม่สำเร็จ ให้ลองหาสาเหตุที่ระบบทำงานไม่สำเร็จ ตัวอย่างเช่น โมเดลอาจคาดการณ์ว่าผู้ใช้จะคลิกวิดีโอใด แต่โมเดลอาจเริ่มแนะนำชื่อคลิกเบตที่ทำให้ผู้ใช้มีส่วนร่วมลดลง ในตัวอย่างของแอปสภาพอากาศ โมเดลอาจคาดการณ์ได้ล่วงหน้าว่าฝนจะตกเมื่อใด แต่สำหรับพื้นที่ทางภูมิศาสตร์ที่มีขนาดใหญ่เกินไป

ทำความเข้าใจ

บริษัทแฟชั่นต้องการขายเสื้อผ้าได้มากขึ้น มีผู้แนะนำให้ใช้ ML ในการระบุว่าบริษัทควรผลิตเสื้อผ้าแบบใด โดยคิดว่าสามารถฝึกนายแบบ/นางแบบเพื่อระบุได้ว่าเป็นเสื้อผ้าประเภทใด หลังจากฝึกโมเดลแล้ว ลูกค้าต้องการใช้โมเดลกับแคตตาล็อกเพื่อเลือกเสื้อผ้าที่จะทำ

ทางบริษัทควรกำหนดกรอบปัญหาโดยใช้คำศัพท์ ML อย่างไร

ผลลัพธ์ที่เหมาะสม: ตัดสินใจว่าจะผลิตผลิตภัณฑ์ใด

เป้าหมายของโมเดล: คาดการณ์บทความเสื้อผ้าที่เป็นแฟชั่น

เอาต์พุตโมเดล: การจัดประเภทแบบไบนารี, in_fashion, not_in_fashion

เมตริกวัดความสำเร็จ: ขายเสื้อผ้าที่ผลิตได้อย่างน้อย 70%

ผลลัพธ์ที่เหมาะสม: ระบุจำนวนผ้าและวัสดุที่จะสั่งซื้อ

เป้าหมายของโมเดล: คาดการณ์จำนวนสินค้าแต่ละรายการที่จะผลิต

เอาต์พุตโมเดล: การจัดประเภทแบบไบนารี, make, do_not_make

เมตริกวัดความสำเร็จ: ขายเสื้อผ้าที่ผลิตได้อย่างน้อย 70%

ผลลัพธ์ที่ดีที่สุดคือการไม่ได้กำหนดว่าต้องสั่งซื้อผ้าและวัสดุจำนวนเท่าใด ใช้เพื่อพิจารณาว่าควรผลิตสินค้าหรือไม่ ดังนั้น เป้าหมายของรูปแบบจะระบุวัตถุประสงค์ที่ไม่ถูกต้อง