การจัดกรอบปัญหา ML

หลังจากยืนยันว่าปัญหาได้รับการแก้ไขได้ดีที่สุดโดยใช้การคาดคะเน การใช้ ML หรือ Generative AI คุณก็พร้อมที่จะตีกรอบปัญหาด้วยคำที่เป็น ML คุณตีกรอบปัญหาในคำศัพท์ ML โดยทำงานต่อไปนี้ให้เสร็จ

  • กำหนดผลลัพธ์ที่สมบูรณ์แบบและเป้าหมายของโมเดล
  • ระบุเอาต์พุตของโมเดล
  • กำหนดเมตริกวัดความสำเร็จ

กำหนดผลลัพธ์ที่สมบูรณ์แบบและเป้าหมายของโมเดล

ผลลัพธ์ที่ดีที่สุดคืออะไรหากไม่ใช้โมเดล ML กล่าวอีกนัยหนึ่งคือ กับงานเฉพาะแบบที่คุณอยากให้ผลิตภัณฑ์หรือคุณลักษณะทำได้อย่างไร นี่เหมือนเดิม ที่เคยกำหนดไว้ในระบุเป้าหมาย

เชื่อมโยงเป้าหมายของโมเดลกับผลลัพธ์ที่ดีที่สุดด้วยการกำหนดสิ่งที่คุณ ที่โมเดลต้องการทำ ตารางต่อไปนี้ระบุผลลัพธ์ในอุดมคติและ เป้าหมายของแอปสมมติ

App ผลลัพธ์ที่เหมาะสมที่สุด เป้าหมายของโมเดล
แอปสภาพอากาศ คำนวณปริมาณน้ำฝนที่เพิ่มขึ้นทีละ 6 ชั่วโมงสำหรับพื้นที่ทางภูมิศาสตร์หนึ่งๆ คาดการณ์ปริมาณน้ำฝน 6 ชั่วโมงสำหรับพื้นที่ทางภูมิศาสตร์ที่เฉพาะเจาะจง
แอปแฟชั่น สร้างเสื้อเชิ้ตหลากสไตล์ สร้างรูปแบบเสื้อ 3 แบบจากข้อความและรูปภาพ โดยที่ข้อความระบุรูปแบบและสี และรูปภาพเป็นประเภท เสื้อเชิ้ต (เสื้อยืด กระดุมหน้า โปโล)
แอปวิดีโอ แนะนำวิดีโอที่มีประโยชน์ คาดการณ์ว่าผู้ใช้จะคลิกวิดีโอหรือไม่
แอปอีเมล ตรวจหาสแปม คาดการณ์ว่าอีเมลเป็นจดหมายขยะหรือไม่
แอปการเงิน สรุปข้อมูลทางการเงินจากแหล่งข่าวหลายแห่ง สร้างสรุปแนวโน้มทางการเงินหลักจำนวน 50 คำจาก 7 วันก่อนหน้า
แอปแผนที่ คำนวณเวลาเดินทาง คาดการณ์ระยะเวลาที่ใช้ในการเดินทางไประหว่าง 2 จุด
แอปธนาคาร ระบุธุรกรรมที่เป็นการฉ้อโกง คาดการณ์ว่าเจ้าของบัตรเป็นธุรกรรมที่ทำธุรกรรมหรือไม่
แอปรับประทานอาหาร ระบุอาหารจากเมนูของร้านอาหาร คาดการณ์ประเภทของร้านอาหาร
แอปอีคอมเมิร์ซ สร้างการตอบกลับจากฝ่ายสนับสนุนลูกค้าเกี่ยวกับผลิตภัณฑ์ของบริษัท สร้างคำตอบโดยใช้การวิเคราะห์ความเห็นและ ฐานความรู้

ระบุผลลัพธ์ที่คุณต้องการ

ประเภทโมเดลที่คุณเลือกขึ้นอยู่กับบริบทเฉพาะและข้อจำกัดของ ปัญหาของคุณ เอาต์พุตของโมเดลควรทำงานที่ระบุไว้ใน เพื่อให้ได้ผลลัพธ์ดีที่สุด ดังนั้น คำถามแรกที่ควรตอบคือ "ฉันต้องใช้ผลลัพธ์ประเภทใดเพื่อแก้ไขปัญหา"

หากคุณต้องการแยกประเภทบางอย่าง หรือสร้างการคาดการณ์ที่เป็นตัวเลข คุณจะ ใช้ ML การคาดการณ์ หากต้องการสร้างเนื้อหาใหม่หรือสร้างเอาต์พุต เกี่ยวกับการทำความเข้าใจภาษาธรรมชาติ คุณก็น่าจะใช้ Generative AI

ตารางต่อไปนี้แสดงรายการเอาต์พุต ML การคาดการณ์และ Generative AI

ตาราง 1 ML การคาดการณ์
ระบบ ML ตัวอย่างเอาต์พุต
การจัดประเภท ไบนารี จัดประเภทอีเมลว่าเป็นจดหมายขยะหรือไม่ใช่จดหมายขยะ
ป้ายกำกับเดียวแบบหลายคลาส จำแนกประเภทสัตว์ในรูปภาพ
หลายป้ายกำกับหลายคลาส จำแนกประเภทสัตว์ทั้งหมดในภาพ
ตัวเลข การถดถอยไม่จำกัดมิติ คาดการณ์จำนวนการดูที่วิดีโอจะได้รับ
การถดถอยหลายมิติ คาดเดาระดับความดันโลหิต อัตราการเต้นของหัวใจ และคอเลสเตอรอลสำหรับ บุคคลธรรมดา
ตาราง 2 Generative AI
ประเภทโมเดล ตัวอย่างเอาต์พุต
ข้อความ
สรุปบทความ

ตอบกลับรีวิวของลูกค้า

แปลเอกสารจากภาษาอังกฤษเป็นภาษาจีนกลาง

เขียนรายละเอียดผลิตภัณฑ์

วิเคราะห์เอกสารทางกฎหมาย
รูปภาพ
สร้างรูปภาพการตลาด

ใช้เอฟเฟกต์ภาพกับรูปภาพ

สร้างรูปแบบต่างๆ ของผลิตภัณฑ์
เสียง
สร้างบทสนทนาในสำเนียงเฉพาะ

สร้างบทประพันธ์เพลงสั้นๆ ในประเภทที่เฉพาะเจาะจง เช่น แจ๊ส
วิดีโอ
สร้างวิดีโอที่ดูสมจริง

วิเคราะห์ฟุตเทจวิดีโอและใช้เอฟเฟกต์ภาพ
หลายรูปแบบ สร้างเอาต์พุตหลายประเภท เช่น วิดีโอที่มีคำบรรยาย

การจัดประเภท

โมเดลการจัดประเภท คาดการณ์หมวดหมู่ของข้อมูลอินพุต ตัวอย่างเช่น อินพุต ควรจัดประเภทเป็น A B หรือ C

โมเดลการจัดประเภทกำลังคาดการณ์

รูปที่ 1 โมเดลการจัดประเภทที่สร้างการคาดการณ์

แอปของคุณอาจทำการตัดสินใจอิงตามการคาดการณ์ของโมเดล ตัวอย่างเช่น หาก การคาดคะเนคือหมวดหมู่ A แล้วทำ X หากการคาดการณ์อยู่ในหมวดหมู่ B do, Y; หากการคาดการณ์อยู่ในหมวดหมู่ C ให้ทำ Z ในบางกรณี การคาดการณ์ เป็นเอาต์พุตของแอป

รหัสผลิตภัณฑ์ใช้เอาต์พุตของรุ่นในการตัดสินใจ

รูปที่ 2 เอาต์พุตของโมเดลการจัดประเภทที่ใช้ในโค้ดผลิตภัณฑ์เพื่อ เพื่อตัดสินใจ

การถดถอย

โมเดลการถดถอยคาดการณ์ ค่าที่เป็นตัวเลข

โมเดลการถดถอยกำลังทำการคาดการณ์

รูปที่ 3 โมเดลการถดถอยที่สร้างการคาดการณ์ที่เป็นตัวเลข

แอปของคุณอาจทำการตัดสินใจอิงตามการคาดการณ์ของโมเดล ตัวอย่างเช่น หาก การคาดการณ์อยู่ในช่วง A, do X หากการคาดการณ์อยู่ในช่วง B เติม Y หากการคาดการณ์อยู่ในช่วง C ให้ do Z ในบางกรณี ฟิลด์ การคาดการณ์เป็นเอาต์พุตของแอป

รหัสผลิตภัณฑ์ใช้เอาต์พุตของโมเดลในการตัดสินใจ

รูปที่ 4 มีการใช้เอาต์พุตของโมเดลการถดถอยในรหัสผลิตภัณฑ์เพื่อทำให้ การตัดสินใจ

พิจารณาสถานการณ์ต่อไปนี้

คุณต้องการแคช วิดีโอตามความนิยมที่คาดการณ์ไว้ กล่าวคือ หากโมเดลของคุณ คาดการณ์ว่าวิดีโอนั้นจะเป็นที่นิยม และต้องการแสดงให้ผู้ใช้เห็นอย่างรวดเร็ว ถึง คุณจะใช้แคชที่มีประสิทธิภาพและมีราคาแพงกว่า สำหรับวิดีโออื่นๆ คุณจะต้องใช้แคชอื่น เกณฑ์การแคชมีดังนี้

  • หากวิดีโอคาดว่าจะได้รับจำนวนการดู 50 ครั้งขึ้นไป คุณจะใช้ แคช
  • หากวิดีโอคาดว่าจะได้รับจำนวนการดูระหว่าง 30 ถึง 50 ครั้ง คุณจะใช้ แคช
  • หากวิดีโอคาดว่าจะมียอดดูน้อยกว่า 30 ครั้ง ระบบจะไม่แคช ในการสร้างสรรค์วิดีโอ

คุณคิดว่าโมเดลการถดถอยเป็นแนวทางที่ถูกต้อง เพราะคุณกำลังจะคาดการณ์ ค่าตัวเลข — จำนวนการดู แต่เมื่อฝึกการเกิดปัญหาซ้ำ คุณก็จะรู้ว่าโมเดลนี้ให้ loss สำหรับการคาดการณ์ของ 28 และ 32 สำหรับวิดีโอที่มียอดดู 30 ครั้ง กล่าวคือ แม้ว่าแอปของคุณจะมี พฤติกรรมที่ต่างกันหากการคาดการณ์คือ 28 เทียบกับ 32 โมเดลจะพิจารณาทั้ง ก็ทำได้ดีไม่แพ้กัน

โมเดลที่กำลังฝึกและประเมินการสูญเสีย

รูปที่ 5 การฝึกโมเดลการถดถอย

โมเดลการเกิดปัญหาซ้ำไม่ทราบเกณฑ์ที่ผลิตภัณฑ์กำหนด ดังนั้นถ้า พฤติกรรมของแอปเปลี่ยนแปลงไปอย่างมาก เนื่องจากมีความแตกต่างเล็กน้อยใน การคาดการณ์ของโมเดลการถดถอย คุณควรพิจารณาที่จะใช้ โมเดลการจัดประเภทแทน

ในสถานการณ์นี้ โมเดลการจัดประเภทจะสร้างลักษณะการทำงานที่ถูกต้อง เนื่องจากโมเดลการจัดประเภทจะทำให้การคาดการณ์ของ 28 จาก 32 ปี ดังนั้น โมเดลการจัดประเภทจะสร้างเกณฑ์โดยค่าเริ่มต้น

สถานการณ์นี้จะไฮไลต์ประเด็นสำคัญ 2 ข้อต่อไปนี้

  • คาดการณ์ผลการตัดสิน เมื่อเป็นไปได้ ให้คาดการณ์การตัดสินใจของแอป เทค ในตัวอย่างวิดีโอ โมเดลการจัดประเภทจะคาดการณ์ เลือกว่าหมวดหมู่วิดีโอ ที่จัดประเภทวิดีโอเป็น "ไม่มีแคช" หรือไม่ "ถูก แคช" และ "แคชราคาแพง" การซ่อนลักษณะการทำงานของแอปจากโมเดลสามารถ ทำให้แอปของคุณสร้างลักษณะการทำงานที่ไม่ถูกต้อง

  • ทำความเข้าใจข้อจำกัดของโจทย์ หากแอปมีขั้นตอนที่ต่างออกไป การดำเนินการตามเกณฑ์ที่แตกต่างกัน ให้ตรวจสอบว่าเกณฑ์เหล่านั้น แบบคงที่หรือแบบไดนามิก

    • เกณฑ์แบบไดนามิก: หากเกณฑ์เป็นแบบไดนามิก ให้ใช้โมเดลการถดถอย และกำหนดขีดจำกัดสูงสุดในโค้ดของแอป ซึ่งจะช่วยให้คุณ อัปเดตเกณฑ์ขณะที่ยังคงโมเดลให้สมเหตุสมผล การคาดการณ์
    • เกณฑ์คงที่: หากเกณฑ์คงที่ ให้ใช้โมเดลการจัดประเภท และติดป้ายกำกับชุดข้อมูลตามขีดจำกัดเกณฑ์

    โดยทั่วไปแล้ว การจัดสรรแคชส่วนใหญ่จะเป็นแบบไดนามิกและมีการเปลี่ยนแปลงเกณฑ์ เมื่อเวลาผ่านไป ดังนั้น เนื่องจากปัญหานี้เป็นการแคช รูปแบบการถดถอยคือตัวเลือกที่ดีที่สุด อย่างไรก็ตาม ในหลายๆ ปัญหา เกณฑ์ขั้นต่ำจะได้รับการแก้ไข โมเดลการจัดประเภทจึงเป็นโซลูชันที่ดีที่สุด

มาดูอีกตัวอย่างหนึ่งกัน หากคุณกำลังสร้างแอปสภาพอากาศ ผลลัพธ์ที่ดีที่สุดคือ การบอกให้ผู้ใช้ทราบว่าฝนจะตกเท่าไรในอีก 6 ชั่วโมงข้างหน้า ก็ใช้โมเดลการถดถอยที่คาดการณ์ป้ายกำกับ precipitation_amount. ได้

ผลลัพธ์ที่เหมาะสมที่สุด ป้ายกำกับที่เหมาะสม
บอกผู้ใช้ว่าพื้นที่ของผู้ใช้จะมีฝนตกมากแค่ไหน 6 ชั่วโมงข้างหน้า precipitation_amount

ในตัวอย่างแอปสภาพอากาศ ป้ายกำกับจะระบุผลลัพธ์ที่ดีที่สุดโดยตรง แต่ในบางกรณี ความสัมพันธ์แบบหนึ่งต่อหนึ่งจะไม่ชัดเจนระหว่าง ผลลัพธ์ที่ดีได้และป้ายกำกับ ตัวอย่างเช่น ผลลัพธ์ที่ดีที่สุดในแอปวิดีโอคือ เพื่อแนะนำวิดีโอที่มีประโยชน์ อย่างไรก็ตาม ไม่มีป้ายกำกับในชุดข้อมูลที่เรียกว่า useful_to_user.

ผลลัพธ์ที่เหมาะสมที่สุด ป้ายกำกับที่เหมาะสม
แนะนำวิดีโอที่มีประโยชน์ ?

ดังนั้นคุณต้องค้นหาป้ายกำกับพร็อกซี

ป้ายกำกับพร็อกซี

ป้ายกำกับพร็อกซีที่ใช้แทน ป้ายกำกับที่ไม่อยู่ในชุดข้อมูล ป้ายกำกับพร็อกซีจำเป็นต้องใช้ในกรณีที่คุณไม่สามารถ วัดสิ่งที่คุณต้องการคาดการณ์ได้โดยตรง ในแอปวิดีโอ เราไม่สามารถ ใช้วัดว่าผู้ใช้จะเห็นวิดีโอมีประโยชน์หรือไม่ คงจะดีหาก ชุดข้อมูลมีฟีเจอร์ useful และผู้ใช้ทำเครื่องหมายวิดีโอทั้งหมดที่พบ แต่เนื่องจากชุดข้อมูลไม่มีประโยชน์ เราจึงต้องมีป้ายกำกับพร็อกซีที่ สิ่งที่ใช้แทนความมีประโยชน์

ป้ายกำกับของพร็อกซีสำหรับความมีประโยชน์อาจหมายถึงว่าผู้ใช้จะแชร์หรือชอบหรือไม่ ในวิดีโอ

ผลลัพธ์ที่เหมาะสมที่สุด ป้ายกำกับพร็อกซี
แนะนำวิดีโอที่มีประโยชน์ shared OR liked

โปรดใช้ป้ายกำกับพร็อกซีอย่างระมัดระวัง เนื่องจากป้ายกำกับไม่ได้วัดสิ่งที่คุณต้องการโดยตรง เพื่อคาดการณ์ได้ เช่น ตารางต่อไปนี้จะสรุปปัญหาที่อาจเกิดขึ้น ป้ายกำกับพร็อกซีสำหรับแนะนำวิดีโอที่เป็นประโยชน์:

ป้ายกำกับพร็อกซี ปัญหา
คาดการณ์ว่าผู้ใช้จะคลิกปุ่ม "ชอบ" หรือไม่ ผู้ใช้ส่วนใหญ่ไม่เคยคลิก "ชอบ"
คาดการณ์ว่าวิดีโอนั้นจะเป็นที่นิยมหรือไม่ ไม่ได้ปรับเปลี่ยนให้เหมาะกับคุณ ผู้ใช้บางรายอาจไม่ชอบวิดีโอยอดนิยม
คาดการณ์ว่าผู้ใช้จะแชร์วิดีโอหรือไม่ ผู้ใช้บางรายไม่ได้แชร์วิดีโอ บางครั้ง ผู้คนแชร์วิดีโอเนื่องจาก พวกเขาไม่ชอบ
คาดการณ์ว่าผู้ใช้จะคลิกเล่นหรือไม่ เพิ่มคลิกเบตให้สูงสุด
คาดการณ์ระยะเวลาที่ใช้ในการรับชมวิดีโอ เน้นวิดีโอขนาดยาวมากกว่าวิดีโอสั้น
คาดการณ์จำนวนครั้งที่ผู้ใช้ดูวิดีโอซ้ำ ชอบ "ดูซ้ำได้" วิดีโอประเภทต่างๆ ที่ไม่สามารถดูได้ซ้ำ

ไม่มีป้ายกำกับพร็อกซีที่ใช้แทนผลลัพธ์ที่สมบูรณ์แบบของคุณได้ ทั้งหมดจะ พบปัญหาที่อาจเกิดขึ้น เลือกรายการที่มีปัญหาน้อยที่สุด Use Case

ตรวจสอบความเข้าใจ

บริษัทแห่งหนึ่งต้องการใช้ ML ในแอปด้านสุขภาพและความเป็นอยู่ที่ดี ผู้คนรู้สึกดีขึ้น คุณคิดว่าพวกเขาต้องใช้ป้ายกำกับพร็อกซีเพื่อ บรรลุเป้าหมายของตนได้อย่างไร
ใช่ บริษัทจะต้องหาป้ายกำกับพร็อกซี หมวดหมู่ต่างๆ เช่น วัดความสุขและความเป็นอยู่ที่ดีโดยตรงไม่ได้ แต่พวกเขาต้อง ที่จะใช้ในการประมาณค่าที่เกี่ยวข้องกับฟีเจอร์อื่นๆ เช่น จำนวนชั่วโมงที่ใช้ไป ออกกำลังกายต่อสัปดาห์ หรือเวลาที่ใช้ไปในงานอดิเรกหรือกับเพื่อนๆ
ไม่ บริษัทไม่จำเป็นต้องใช้ป้ายกำกับพร็อกซี ความสุขและคุณภาพชีวิต สามารถวัดได้โดยตรง

รุ่น

ในกรณีส่วนใหญ่ คุณจะไม่ต้องฝึกโมเดล Generative ของคุณเองเนื่องจากการทำเช่นนั้น ซึ่งต้องอาศัยข้อมูลการฝึกจำนวนมากและทรัพยากรด้านการคำนวณ แต่ คุณจะปรับแต่งโมเดล Generative ที่ฝึกไว้แล้วล่วงหน้าได้ หากต้องการให้โมเดล Generative ดำเนินการ สร้างเอาต์พุตที่คุณต้องการ คุณอาจต้องใช้ข้อมูลต่อไปนี้ เทคนิค

  • การกลั่น วิธีสร้าง โมเดลที่เล็กลงจากโมเดลใหญ่ๆ คุณสร้างชุดข้อมูลที่ติดป้ายกำกับซึ่งสังเคราะห์ จากโมเดลที่ใหญ่กว่าที่คุณใช้เพื่อฝึกโมเดลขนาดเล็ก สร้างขึ้น โมเดลมักมีขนาดมหึมาและใช้ทรัพยากรมาก (เช่น หน่วยความจำ และไฟฟ้า) การแยกประเภทจะช่วยให้ทรัพยากรที่มีขนาดเล็กและใช้ทรัพยากรน้อยลง เพื่อประมาณประสิทธิภาพของโมเดลที่ใหญ่กว่า

  • การปรับแต่ง หรือ การปรับแต่งประสิทธิภาพพารามิเตอร์ หากต้องการปรับปรุงประสิทธิภาพของโมเดลในงานใดงานหนึ่ง คุณต้องดำเนินการต่อไปนี้ ฝึกโมเดลในชุดข้อมูลที่มีตัวอย่างประเภทเอาต์พุตที่คุณ ต้องการผลิต

  • วิศวกรรมพรอมต์ ถึง ให้โมเดลทำงานที่เฉพาะเจาะจง หรือ สร้างเอาต์พุตในรูปแบบเฉพาะ คุณจึงบอกโมเดลของงานที่ต้องการ หรืออธิบายวิธีที่คุณต้องการจัดรูปแบบเอาต์พุต กล่าวคือ อาจมีคำแนะนำที่เป็นภาษาธรรมชาติสำหรับวิธีการทำงาน หรือตัวอย่างพร้อมเอาต์พุตที่ต้องการ

    ตัวอย่างเช่น หากต้องการสรุปบทความสั้นๆ คุณอาจป้อนข้อมูล ดังต่อไปนี้:

    Produce 100-word summaries for each article.
    

    หากต้องการให้โมเดลสร้างข้อความสำหรับระดับการอ่านที่เฉพาะเจาะจง คุณอาจป้อนข้อมูลต่อไปนี้

    All the output should be at a reading level for a 12-year-old.
    

    หากต้องการให้โมเดลส่งเอาต์พุตในรูปแบบที่เฉพาะเจาะจง คุณอาจ อธิบายว่าควรมีการจัดรูปแบบเอาต์พุตอย่างไร เช่น "จัดรูปแบบ ในตาราง" หรือคุณอาจสาธิตงานดังกล่าว ด้วยการยกตัวอย่าง ตัวอย่างเช่น คุณจะป้อนข้อมูลต่อไปนี้ได้

    Translate words from English to Spanish.
    
    English: Car
    Spanish: Auto
    
    English: Airplane
    Spanish: Avión
    
    English: Home
    Spanish:______
    

การกลั่นและปรับแต่งและอัปเดตโมเดล parameters วิศวกรรมพรอมต์ ไม่อัปเดตพารามิเตอร์ของโมเดล แต่พรอมต์วิศวกรรมจะช่วยให้ โมเดลจะเรียนรู้วิธีสร้างเอาต์พุตที่ต้องการจากบริบทของข้อความแจ้ง

ในบางกรณี คุณอาจต้อง ชุดข้อมูลทดสอบเพื่อประเมิน เอาต์พุตของโมเดล Generative เทียบกับค่าที่รู้จัก เช่น ตรวจสอบว่า ข้อมูลสรุปของโมเดลคล้ายคลึงกับข้อมูลที่มนุษย์สร้างขึ้น หรือที่มนุษย์ให้คะแนน สรุปของโมเดลได้ดี

Generative AI ยังใช้เพื่อนำ ML การคาดการณ์ไปใช้ได้ด้วย เช่น การแยกประเภทหรือการถดถอย ตัวอย่างเช่น เนื่องจากพวกเขามีความรู้ที่ลึกซึ้ง เกี่ยวกับภาษาธรรมชาติ โมเดลภาษาขนาดใหญ่ (LLM) สามารถทำงานการจำแนกประเภทข้อความได้ดีกว่า ML ด้านการคาดการณ์ ที่ได้รับการฝึกอบรม สำหรับงานที่เฉพาะเจาะจง

กำหนดเมตริกวัดความสำเร็จ

กำหนดเมตริกที่จะใช้เพื่อพิจารณาว่าจะนำ ML ไปใช้หรือไม่ ประสบความสำเร็จ เมตริกความสำเร็จจะกำหนดสิ่งที่คุณสนใจ เช่น การมีส่วนร่วม หรือ ช่วยผู้ใช้ดำเนินการที่เหมาะสม เช่น ดูวิดีโอที่จะค้นพบ มีประโยชน์ เมตริกความสำเร็จแตกต่างจากเมตริกการประเมินของโมเดล เช่น ความถูกต้อง precision recall หรือ AUC

เช่น เมตริกวัดความสำเร็จและความล้มเหลวของแอป Weather อาจกำหนดไว้เป็น ดังต่อไปนี้

สำเร็จ ผู้ใช้เปิดหน้า "ฝนจะตกไหม" แสดงบ่อยขึ้น 50 เปอร์เซ็นต์ กว่าแต่ก่อน
ความล้มเหลว ผู้ใช้เปิดหน้า "ฝนจะตกไหม" ฟีเจอร์ที่ไม่เกิน ก่อนหน้านี้

เมตริกแอปวิดีโออาจกำหนดไว้ดังต่อไปนี้

สำเร็จ ผู้ใช้ใช้เวลาบนเว็บไซต์เพิ่มขึ้นโดยเฉลี่ย 20 เปอร์เซ็นต์
ความล้มเหลว โดยเฉลี่ยแล้ว ผู้ใช้ใช้เวลาบนเว็บไซต์ไม่มากไปกว่าที่เคย

เราขอแนะนำให้กำหนดเมตริกวัดความสำเร็จที่ทะเยอทะยาน ความทะเยอทะยานที่สูงมากอาจทำให้เกิดช่องว่าง ระหว่างความสำเร็จกับความล้มเหลว เช่น ผู้ใช้ใช้จ่ายโดยเฉลี่ย การใช้เวลาบนไซต์มากกว่าเดิม 10 เปอร์เซ็นต์ไม่ใช่ความสำเร็จหรือความล้มเหลว ช่องว่างที่ไม่ระบุไม่ใช่เรื่องสำคัญ

สิ่งสำคัญคือความจุของโมเดลในการขยับเข้าใกล้ยิ่งขึ้น หรือ เกินคำนิยามของความสำเร็จ ตัวอย่างเช่น เมื่อวิเคราะห์โมเดล ประสิทธิภาพ ให้ลองพิจารณาคำถามต่อไปนี้: การปรับปรุงโมเดลจะช่วยให้คุณ ใกล้เกณฑ์ความสำเร็จที่คุณกำหนดไว้มากขึ้น ตัวอย่างเช่น โมเดลอาจมีแท็ก เมตริกประเมินผล แต่ไม่ได้พาคุณเข้าใกล้เกณฑ์ความสำเร็จของคุณมากขึ้น ซึ่งนั่นหมายถึง แม้ว่าจะมีโมเดลที่สมบูรณ์แบบ คุณก็คงไม่ได้มีคุณสมบัติตรงตามเกณฑ์ความสำเร็จ กำหนดไว้ ในทางกลับกัน โมเดลอาจมีเมตริกการประเมินต่ำ แต่ คุณจะเข้าใกล้เกณฑ์ความสำเร็จมากขึ้น ซึ่งแสดงให้เห็นว่าการปรับปรุงโมเดล ทำให้คุณเข้าใกล้ความสำเร็จมากขึ้น

ต่อไปนี้เป็นมิติข้อมูลที่ควรพิจารณาเมื่อพิจารณาว่าโมเดลมีมูลค่าหรือไม่ การปรับปรุง:

  • ไม่ดีพอ ขอต่อไปก่อน ไม่ควรใช้โมเดลใน สภาพแวดล้อมการใช้งานจริง แต่เมื่อเวลาผ่านไป ก็อาจจะดีขึ้นอย่างมาก

  • ดีพอและดำเนินการต่อ โมเดลนี้นำไปใช้ในเวอร์ชันที่ใช้งานจริงได้ และอาจได้รับการปรับปรุงให้ดีขึ้นอีก

  • ดีพอ แต่ต้องไม่ปรับปรุงให้ดีขึ้นอีก โมเดลนี้เป็นเวอร์ชันที่ใช้งานจริง แต่ก็อาจจะดีไม่น้อยไปกว่ากัน

  • ไม่ดีพอและไม่มีวันพัฒนาเลย ไม่ควรใช้โมเดลใน สภาพแวดล้อมของเวอร์ชันที่ใช้งานจริงและการฝึกอบรม จำนวนไม่มากก็น่าจะไปอยู่ในจุดนั้นได้

เมื่อตัดสินใจปรับปรุงโมเดล ให้ประเมินอีกครั้งว่าการเพิ่มขึ้นของทรัพยากรหรือไม่ เช่น เวลาด้านวิศวกรรมและต้นทุนในการคำนวณ อธิบายการปรับปรุงที่คาดการณ์ของ โมเดล

หลังจากกำหนดเมตริกความสำเร็จและล้มเหลว คุณต้องกำหนดความถี่ที่ ในการวัดค่าเหล่านั้น เช่น คุณสามารถวัดความสำเร็จของคุณหกเมตริก วัน 6 สัปดาห์ หรือ 6 เดือนหลังจากนำระบบไปใช้

เมื่อวิเคราะห์เมตริกความล้มเหลว ให้พยายามหาสาเหตุที่ระบบล้มเหลว สำหรับ เช่น โมเดลอาจคาดการณ์วิดีโอที่ผู้ใช้จะคลิก แต่ โมเดลอาจเริ่มแนะนำชื่อคลิกเบตที่ทำให้ผู้ใช้มีส่วนร่วม ออกจากไซต์ ในตัวอย่างแอปสภาพอากาศ โมเดลอาจคาดการณ์ได้อย่างแม่นยําเมื่อใด จะมีฝนตก แต่เป็นพื้นที่ทางภูมิศาสตร์ที่ใหญ่เกินไป

ตรวจสอบความเข้าใจ

บริษัทแฟชั่นแห่งหนึ่งต้องการขายเสื้อผ้าให้มากขึ้น มีคนแนะนำให้ใช้ ML เพื่อ กำหนดว่าบริษัทควรผลิตเสื้อผ้าแบบใด คิดว่าตัวเองทำได้ ฝึกนายแบบ/นางแบบ เพื่อดูว่าเสื้อผ้าแฟชั่นแบบไหน หลัง จะฝึกโมเดล และต้องการนำไปใช้กับแคตตาล็อกเพื่อตัดสินใจ ควรเลือกเสื้อผ้าแบบไหน

พวกเขาควรตีกรอบปัญหาในคำที่เป็น ML อย่างไร

ผลลัพธ์ที่ดีที่สุด: กำหนดผลิตภัณฑ์ที่จะผลิต

เป้าหมายของนายแบบ/นางแบบ: คาดเดาว่าบทความใดอยู่ในเสื้อผ้า แฟชั่น

เอาต์พุตโมเดล: การจัดประเภทแบบไบนารี in_fashion not_in_fashion

เมตริกวัดความสำเร็จ: ขายเสื้อผ้าได้อย่างน้อย 70 เปอร์เซ็นต์ สร้าง

ผลลัพธ์ที่ดีที่สุด: กำหนดจำนวนผ้าและสินค้าที่จะสั่งซื้อ

เป้าหมายของรุ่น: คาดการณ์ปริมาณสินค้าแต่ละรายการที่จะผลิต

เอาต์พุตโมเดล: การจัดประเภทแบบไบนารี make do_not_make

เมตริกวัดความสำเร็จ: ขายเสื้อผ้าได้อย่างน้อย 70 เปอร์เซ็นต์ สร้าง

ผลลัพธ์ที่ดีที่สุดไม่ใช่การกำหนดว่า ปริมาณผ้าและวัสดุที่จะผลิต คำสั่งซื้อ เป็นการกำหนดว่าควรผลิตสินค้าหรือไม่ ดังนั้น เป้าหมายของโมเดลระบุวัตถุประสงค์ที่ไม่ถูกต้อง