หลังจากยืนยันว่าปัญหาได้รับการแก้ไขได้ดีที่สุดด้วยการใช้ ML แบบคาดการณ์หรือ Generative AI แล้ว คุณก็พร้อมที่จะตีกรอบปัญหาด้วย ML ได้ คุณตีกรอบปัญหาในคำศัพท์ ML โดยดำเนินการต่อไปนี้ให้เสร็จสมบูรณ์
- กำหนดผลลัพธ์และเป้าหมายของรูปแบบในอุดมคติ
- ระบุเอาต์พุตของโมเดล
- กำหนดเมตริกความสำเร็จ
กำหนดผลลัพธ์และเป้าหมายของรูปแบบในอุดมคติ
ผลลัพธ์ที่สมบูรณ์แบบโดยไม่ต้องพึ่งโมเดล ML คืออะไร กล่าวคือ คุณต้องการให้ผลิตภัณฑ์หรือฟีเจอร์ทำงานอะไร ซึ่งเป็นคำสั่งเดียวกันกับที่เคยกำหนดไว้ในส่วนระบุเป้าหมาย
เชื่อมโยงเป้าหมายของโมเดลกับผลลัพธ์ที่ต้องการโดยกำหนดสิ่งที่คุณต้องการให้โมเดลทำอย่างชัดเจน ตารางต่อไปนี้จะระบุผลลัพธ์และเป้าหมายของโมเดลสำหรับแอปสมมติ
App | ผลลัพธ์ที่เหมาะสม | เป้าหมายของโมเดล |
---|---|---|
แอปสภาพอากาศ | คำนวณปริมาณฝนที่เพิ่มขึ้นครั้งละ 6 ชั่วโมงสำหรับพื้นที่ทางภูมิศาสตร์ | คาดการณ์ปริมาณฝนในช่วง 6 ชั่วโมงสำหรับพื้นที่ทางภูมิศาสตร์ที่เฉพาะเจาะจง |
แอปแฟชั่น | สร้างเสื้อเชิ้ตที่หลากหลาย | สร้างดีไซน์เสื้อ 3 รูปแบบจากข้อความและรูปภาพ โดยข้อความจะระบุรูปแบบและสี รวมถึงรูปภาพคือประเภทของเสื้อ (เสื้อยืด กระดุมหน้า โปโล) |
แอปวิดีโอ | แนะนำวิดีโอที่มีประโยชน์ | คาดการณ์ว่าผู้ใช้จะคลิกวิดีโอหรือไม่ |
แอปอีเมล | ตรวจหาสแปม | คาดการณ์ว่าอีเมลเป็นสแปมหรือไม่ |
แอปการเงิน | สรุปข้อมูลทางการเงินจากแหล่งข่าวหลายแห่ง | สร้างข้อมูลสรุป 50 คำเกี่ยวกับแนวโน้มทางการเงินที่สำคัญจากช่วง 7 วันที่ผ่านมา |
แอปแผนที่ | คำนวณเวลาเดินทาง | คาดการณ์ระยะเวลาที่จะใช้ในการเดินทางระหว่าง 2 จุด |
แอปธนาคาร | ระบุธุรกรรมที่เป็นการฉ้อโกง | คาดการณ์ว่าผู้ถือบัตรทำธุรกรรมหรือไม่ |
แอปร้านอาหาร | ระบุอาหารตามเมนูของร้านอาหาร | คาดการณ์ประเภทร้านอาหาร |
แอปอีคอมเมิร์ซ | สร้างการตอบกลับฝ่ายสนับสนุนลูกค้าเกี่ยวกับผลิตภัณฑ์ของบริษัท | สร้างการตอบกลับโดยใช้การวิเคราะห์ความเห็นและฐานความรู้ขององค์กร |
ระบุเอาต์พุตที่คุณต้องการ
การเลือกประเภทรูปแบบจะขึ้นอยู่กับบริบทและข้อจำกัดที่เฉพาะเจาะจงของปัญหา เอาต์พุตของโมเดลควรทำงานที่กำหนดไว้ในผลลัพธ์ที่เหมาะสม ดังนั้น คำถามแรกที่ควรตอบคือ "ฉันต้องใช้เอาต์พุตประเภทใดเพื่อแก้ปัญหา"
หากต้องการแยกประเภทหรือสร้างการคาดการณ์เป็นตัวเลข คุณอาจใช้ ML แบบคาดคะเน หากต้องการสร้างเนื้อหาใหม่หรือสร้างเอาต์พุตที่เกี่ยวข้องกับความเข้าใจภาษาธรรมชาติ คุณอาจต้องใช้ Generative AI
ตารางต่อไปนี้แสดงรายการเอาต์พุต ML แบบคาดการณ์และ Generative AI
ระบบ ML | ตัวอย่างเอาต์พุต | |
---|---|---|
การจำแนกประเภท | ไบนารี | จัดประเภทอีเมลว่าเป็นจดหมายขยะหรือไม่ใช่จดหมายขยะ |
ป้ายกำกับเดียวแบบหลายคลาส | จำแนกสัตว์ในรูปภาพ | |
หลายป้ายกำกับแบบหลายคลาส | จำแนกประเภทสัตว์ทุกตัวในรูปภาพ | |
ตัวเลข | การถดถอยในมิติเดียว | คาดการณ์ยอดดูที่วิดีโอจะได้รับ |
การถดถอยแบบหลายมิติ | คาดการณ์ความดันโลหิต อัตราการเต้นของหัวใจ และระดับคอเลสเตอรอลสำหรับบุคคล |
ประเภทโมเดล | ตัวอย่างเอาต์พุต |
---|---|
ข้อความ |
สรุปบทความ ตอบรีวิวของลูกค้า แปลเอกสารจากภาษาอังกฤษเป็นภาษาจีนกลาง เขียนคำอธิบายผลิตภัณฑ์ วิเคราะห์เอกสารทางกฎหมาย
|
รูปภาพ |
สร้างรูปภาพการตลาด ใส่เอฟเฟกต์ภาพกับรูปภาพ สร้างดีไซน์ผลิตภัณฑ์รูปแบบต่างๆ
|
เสียง |
สร้างบทสนทนาในสำเนียงที่เฉพาะเจาะจง
สร้างการเรียบเรียงเพลงสั้นๆ ในประเภทที่เฉพาะเจาะจง เช่น แจ๊ส
|
วิดีโอ |
สร้างวิดีโอที่ดูเหมือนจริง
วิเคราะห์วิดีโอไฟล์ดิบและใช้เอฟเฟกต์ภาพ
|
หลายรูปแบบ | สร้างเอาต์พุตหลายประเภท เช่น วิดีโอที่มีคำบรรยายวิดีโอ |
การจำแนกประเภท
โมเดลการจัดประเภทจะคาดการณ์หมวดหมู่ของข้อมูลอินพุต เช่น ควรจัดประเภทอินพุตเป็น A, B หรือ C
รูปที่ 1 โมเดลการจัดประเภทที่ทำการคาดการณ์
แอปของคุณอาจตัดสินใจขึ้นอยู่กับการคาดการณ์ของโมเดล ตัวอย่างเช่น หากการคาดคะเนอยู่ในหมวดหมู่ A ให้ทำ X หากการคาดคะเนอยู่ในหมวดหมู่ B ให้ทำ Y หากการคาดคะเนอยู่ในหมวดหมู่ C ให้ทำ Z ในบางกรณี การคาดการณ์จะเป็นเอาต์พุตของแอป
รูปที่ 2 เอาต์พุตของโมเดลการจัดประเภทที่ใช้ในรหัสผลิตภัณฑ์เพื่อการตัดสินใจ
การถดถอย
โมเดลการถดถอยคาดการณ์ค่าตัวเลข
รูปที่ 3 โมเดลการถดถอยที่สร้างการคาดการณ์เป็นตัวเลข
แอปของคุณอาจตัดสินใจขึ้นอยู่กับการคาดการณ์ของโมเดล ตัวอย่างเช่น หากการคาดการณ์อยู่ในช่วง A ให้ทำ X หากการคาดการณ์อยู่ในช่วง B ให้ทำ Y หากการคาดการณ์อยู่ในช่วง C ให้ทำ Z ในบางกรณี การคาดการณ์จะเป็นเอาต์พุตของแอป
รูปที่ 4 เอาต์พุตของโมเดลการถดถอยที่ใช้ในรหัสผลิตภัณฑ์เพื่อ ตัดสินใจ
พิจารณาสถานการณ์ต่อไปนี้
คุณต้องการแคชวิดีโอตามความนิยมที่คาดการณ์ไว้ กล่าวคือ หากโมเดลของคุณคาดการณ์ว่าวิดีโอจะได้รับความนิยม คุณก็ต้องนำวิดีโอไปแสดงให้ผู้ใช้เห็นอย่างรวดเร็ว ในการทำเช่นนั้น คุณจะใช้แคชที่มีประสิทธิภาพและมีราคาแพงกว่า สำหรับวิดีโออื่นๆ คุณจะใช้ แคชอื่น เกณฑ์การแคชมีดังนี้
- หากมีการคาดการณ์ว่าวิดีโอจะได้รับยอดดู 50 ครั้งขึ้นไป คุณจะใช้แคชที่มีราคาแพง
- หากวิดีโอคาดว่าจะได้รับยอดดูตั้งแต่ 30 ถึง 50 ครั้ง คุณจะใช้แคชราคาถูก
- หากมีการคาดการณ์ว่าวิดีโอจะมียอดดูน้อยกว่า 30 ครั้ง คุณจะไม่แคชวิดีโอนั้น
คุณคิดว่ารูปแบบการถดถอยเป็นวิธีที่เหมาะสม เพราะคุณกำลังจะคาดการณ์ค่าตัวเลข ซึ่งก็คือยอดดู อย่างไรก็ตาม ขณะฝึกโมเดลการถดถอย คุณทราบว่าโมเดลนั้นสร้างความสูญเสียแบบเดียวกันสำหรับการคาดการณ์ 28 และ 32 สำหรับวิดีโอที่มียอดดู 30 ครั้ง กล่าวคือ แม้ว่าแอปของคุณจะมีลักษณะการทำงานที่แตกต่างกันมากหากการคาดการณ์เป็น 28 กับ 32 แต่โมเดลจะถือว่าการคาดการณ์ทั้ง 2 รายการดีเท่ากัน
รูปที่ 5 การฝึกโมเดลการถดถอย
โมเดลการถดถอยไม่ทราบเกณฑ์ที่ผลิตภัณฑ์กำหนด ดังนั้นหากพฤติกรรมของแอปมีการเปลี่ยนแปลงอย่างมากเนื่องจากการคาดการณ์ของโมเดลการถดถอยที่แตกต่างกันเล็กน้อย คุณควรพิจารณาใช้โมเดลการแยกประเภทแทน
ในสถานการณ์นี้ โมเดลการจัดประเภทจะสร้างพฤติกรรมที่ถูกต้องเนื่องจากโมเดลการจัดประเภทจะสูญเสียการคาดการณ์ 28 มากกว่า 32 ในความหมาย โมเดลการแยกประเภทจะสร้างเกณฑ์โดยค่าเริ่มต้น
สถานการณ์นี้เน้นประเด็นสำคัญสองประการ:
คาดการณ์ผลการตัดสิน เมื่อเป็นไปได้ ให้คาดการณ์ ผลการตัดสินของแอป ในตัวอย่างวิดีโอ โมเดลการจัดประเภทจะคาดการณ์การตัดสินหากหมวดหมู่ที่มีการจัดประเภทวิดีโอเป็น "ไม่มีแคช" "แคชราคาถูก" และ "แคชที่มีราคาแพง" การซ่อนลักษณะการทำงานของแอปจากโมเดลอาจเป็นสาเหตุให้แอปสร้างลักษณะการทำงานที่ไม่ถูกต้อง
ทำความเข้าใจข้อจำกัดของปัญหา หากแอปดำเนินการแตกต่างกันตามเกณฑ์ที่แตกต่างกัน ให้พิจารณาว่าเกณฑ์เหล่านั้นได้รับการแก้ไขหรือเป็นแบบไดนามิก
- เกณฑ์แบบไดนามิก: หากเกณฑ์เป็นแบบไดนามิก ให้ใช้โมเดลการถดถอย และตั้งขีดจำกัดเกณฑ์ในโค้ดของแอป วิธีนี้ช่วยให้คุณอัปเดตเกณฑ์ได้อย่างง่ายดายในขณะที่ยังคงโมเดลให้คาดการณ์ได้อย่างสมเหตุสมผล
- เกณฑ์คงที่: หากเกณฑ์ได้รับการแก้ไข ให้ใช้โมเดลการจัดประเภทและติดป้ายกำกับชุดข้อมูลตามขีดจำกัดของเกณฑ์
โดยทั่วไปแล้ว การจัดสรรแคชส่วนใหญ่จะเป็นแบบไดนามิก และเกณฑ์จะเปลี่ยนแปลงเมื่อเวลาผ่านไป ดังนั้น เนื่องจากนี่เป็นปัญหาการแคชโดยเฉพาะ โมเดลการถดถอยจึงเป็นตัวเลือกที่ดีที่สุด อย่างไรก็ตาม สำหรับปัญหาหลายๆ อย่างนั้น เกณฑ์จะได้รับการแก้ไข ซึ่งทำให้โมเดลการจัดประเภทเป็นโซลูชันที่ดีที่สุด
ลองมาดูอีกตัวอย่างหนึ่งกัน หากคุณกำลังสร้างแอปสภาพอากาศที่มีผลลัพธ์ที่เหมาะสมคือการแจ้งผู้ใช้ว่าฝนจะตกมากแค่ไหนในช่วง 6 ชั่วโมงข้างหน้า
คุณสามารถใช้โมเดลการถดถอยที่คาดการณ์ป้ายกำกับ precipitation_amount.
ผลลัพธ์ที่เหมาะสม | ป้ายกำกับที่เหมาะสม |
---|---|
แจ้งให้ผู้ใช้ทราบว่าพื้นที่ของตนจะมีฝนตกเท่าไร ในอีก 6 ชั่วโมงข้างหน้า | precipitation_amount
|
ในตัวอย่างของแอปสภาพอากาศ ป้ายกำกับจะระบุผลลัพธ์ที่ตรงที่สุด
อย่างไรก็ตาม ในบางกรณี ความสัมพันธ์แบบหนึ่งต่อหนึ่งอาจไม่มีความชัดเจนระหว่างผลลัพธ์ที่เหมาะสมกับป้ายกํากับ เช่น ผลลัพธ์ที่ดีที่สุดในแอปวิดีโอคือ
การแนะนำวิดีโอที่มีประโยชน์ อย่างไรก็ตาม ชุดข้อมูลที่ชื่อว่า useful_to_user.
ไม่มีป้ายกำกับ
ผลลัพธ์ที่เหมาะสม | ป้ายกำกับที่เหมาะสม |
---|---|
แนะนำวิดีโอที่มีประโยชน์ | ? |
ดังนั้น คุณต้องค้นหาป้ายกำกับพร็อกซี
ป้ายกำกับพร็อกซี
โดยป้ายกำกับพร็อกซีจะใช้แทนป้ายกำกับที่ไม่ได้อยู่ในชุดข้อมูล ป้ายกำกับพร็อกซีเป็นสิ่งจำเป็นเมื่อคุณไม่สามารถ
วัดผลสิ่งที่ต้องการคาดการณ์ได้โดยตรง ในแอปวิดีโอ เราไม่สามารถวัดได้โดยตรงว่าวิดีโอมีประโยชน์
ต่อผู้ใช้หรือไม่ คงจะดีมากหากชุดข้อมูลมีฟีเจอร์ useful
และผู้ใช้ทำเครื่องหมายวิดีโอทั้งหมดที่พบว่ามีประโยชน์ แต่เนื่องจากชุดข้อมูลไม่มีประโยชน์ เราจึงต้องมีป้ายกำกับพร็อกซีซึ่งจะมาแทนที่ความมีประโยชน์
ป้ายกำกับพร็อกซีเพื่อความมีประโยชน์อาจหมายถึงว่าผู้ใช้จะแชร์หรือชอบวิดีโอหรือไม่
ผลลัพธ์ที่เหมาะสม | ป้ายกำกับพร็อกซี |
---|---|
แนะนำวิดีโอที่มีประโยชน์ | shared OR liked |
โปรดใช้ความระมัดระวังกับป้ายกำกับพร็อกซี เนื่องจากป้ายกำกับเหล่านั้นไม่ได้วัดสิ่งที่คุณต้องการคาดการณ์โดยตรง ตัวอย่างเช่น ตารางต่อไปนี้สรุปปัญหาเกี่ยวกับป้ายกำกับพร็อกซีที่เป็นไปได้สำหรับแนะนำวิดีโอที่มีประโยชน์
ป้ายกำกับพร็อกซี | ปัญหา |
---|---|
คาดการณ์ว่าผู้ใช้จะคลิกปุ่ม "ชอบ" หรือไม่ | ผู้ใช้ส่วนใหญ่ไม่เคยคลิก "ชอบ" |
คาดการณ์ว่าวิดีโอจะได้รับความนิยมหรือไม่ | ไม่ได้ปรับเปลี่ยนให้เหมาะกับคุณ ผู้ใช้บางคนอาจไม่ชอบวิดีโอยอดนิยม |
คาดการณ์ว่าผู้ใช้จะแชร์วิดีโอหรือไม่ | ผู้ใช้บางรายไม่ได้แชร์วิดีโอ บางครั้งผู้คนแชร์วิดีโอเนื่องจากไม่ชอบวิดีโอประเภทนี้ |
คาดการณ์ว่าผู้ใช้จะคลิกเล่นหรือไม่ | เพิ่มจำนวนคลิกสูงสุด |
คาดการณ์ระยะเวลาที่ผู้ใช้ดูวิดีโอ | ชื่นชอบวิดีโอแบบยาวที่โดดเด่นกว่าวิดีโอสั้น |
คาดการณ์ว่าผู้ใช้จะดูวิดีโอซ้ำกี่ครั้ง | เลือกให้วิดีโอ "ดูซ้ำได้" แทนประเภทวิดีโอที่ดูซ้ำไม่ได้ |
ไม่มีป้ายกำกับพร็อกซีใดสามารถใช้แทนผลลัพธ์ที่ดีที่สุดได้ ทั้งหมดจะมีปัญหาที่อาจเกิดขึ้นได้ ให้เลือกวิธีที่มีปัญหาน้อยที่สุดสำหรับ กรณีการใช้งานของคุณ
ทำความเข้าใจ
รุ่น
ในกรณีส่วนใหญ่ คุณจะไม่ได้ฝึกโมเดล Generative ของคุณเอง เนื่องจากการทำเช่นนั้นต้องอาศัยข้อมูลการฝึกและทรัพยากรการคำนวณจำนวนมาก แต่คุณจะปรับแต่งโมเดล Generative ที่ฝึกไว้แล้วล่วงหน้าแทน หากต้องการรับโมเดล Generative เพื่อ สร้างเอาต์พุตที่ต้องการ คุณอาจต้องใช้เทคนิคต่อไปนี้อย่างน้อย 1 ข้อ
การกรอง หากต้องการสร้างโมเดลที่เล็กลงจากโมเดลที่ใหญ่กว่า คุณต้องสร้างชุดข้อมูลที่ติดป้ายกำกับสังเคราะห์จากโมเดลขนาดใหญ่ที่คุณใช้ในการฝึกโมเดลที่เล็กกว่า โมเดล Generative มักมีขนาดมหึมาและใช้ทรัพยากรจำนวนมาก (เช่น หน่วยความจำและไฟฟ้า) การกลั่นช่วยให้โมเดลขนาดเล็กที่ใช้ทรัพยากรน้อยกว่าสามารถประเมินประสิทธิภาพของโมเดลที่ใหญ่กว่าได้
การปรับแต่งหรือการปรับแต่งแบบเพิ่มประสิทธิภาพพารามิเตอร์ ในการปรับปรุงประสิทธิภาพของโมเดลในงานที่เจาะจง คุณต้องฝึกโมเดลเพิ่มเติมบนชุดข้อมูลที่มีตัวอย่างของประเภทเอาต์พุตที่ต้องการสร้าง
การดำเนินการด้านวิศวกรรมทันที หากต้องการทำให้โมเดลทำงานเฉพาะหรือสร้างเอาต์พุตในรูปแบบที่กำหนด คุณต้องบอกโมเดลเกี่ยวกับงานที่คุณต้องการให้ทำ หรืออธิบายวิธีที่ต้องการจัดรูปแบบเอาต์พุต กล่าวคือ ข้อความแจ้งอาจรวมคำสั่งที่ใช้ภาษาธรรมชาติเพื่อดูวิธีทำงานดังกล่าว หรือใส่ตัวอย่างให้คำอธิบายพร้อมกับเอาต์พุตที่ต้องการ
ตัวอย่างเช่น หากต้องการสรุปบทความสั้นๆ คุณอาจต้องป้อนข้อมูลต่อไปนี้
Produce 100-word summaries for each article.
หากต้องการให้โมเดลสร้างข้อความสำหรับระดับการอ่านที่เฉพาะเจาะจง คุณอาจป้อนข้อมูลต่อไปนี้
All the output should be at a reading level for a 12-year-old.
หากต้องการให้โมเดลให้เอาต์พุตในรูปแบบที่เฉพาะเจาะจง คุณอาจอธิบายว่าควรจัดรูปแบบเอาต์พุตอย่างไร เช่น "จัดรูปแบบผลลัพธ์ในตาราง" หรือคุณจะสาธิตงานด้วยการยกตัวอย่างก็ได้ ตัวอย่างเช่น คุณอาจป้อนข้อมูลต่อไปนี้
Translate words from English to Spanish. English: Car Spanish: Auto English: Airplane Spanish: Avión English: Home Spanish:______
การกลั่นและการปรับแต่งจะอัปเดตพารามิเตอร์ของโมเดล Prompt Engineering ไม่อัปเดตพารามิเตอร์ของโมเดล ทาง Prompt Engineering จะช่วยให้โมเดลเรียนรู้วิธีสร้างผลลัพธ์ที่ต้องการจากบริบทของข้อความแจ้ง
ในบางกรณี คุณยังต้องใช้ชุดข้อมูลการทดสอบเพื่อประเมินผลลัพธ์ของโมเดล Generative กับค่าที่รู้จัก เช่น ตรวจสอบว่าข้อมูลสรุปของโมเดลคล้ายกับรายการที่มนุษย์สร้างขึ้น หรือมนุษย์ให้คะแนนข้อมูลสรุปของโมเดลดี
นอกจากนี้ Generative AI ยังนำโซลูชัน ML ตามการคาดการณ์ไปใช้ได้ เช่น การแยกประเภทหรือการถดถอย ตัวอย่างเช่น เนื่องจากมีความรู้ลึกซึ้งเกี่ยวกับภาษาธรรมชาติ โมเดลภาษาขนาดใหญ่ (LLM) จึงสามารถดำเนินงานเกี่ยวกับการจัดประเภทข้อความได้ดีกว่า ML แบบคาดคะเนที่ฝึกให้ทำงานสำหรับงานนั้นๆ
กำหนดเมตริกความสำเร็จ
กำหนดเมตริกที่จะใช้พิจารณาว่าการใช้ ML ประสบความสำเร็จหรือไม่ เมตริกวัดความสำเร็จจะเป็นตัวกำหนดสิ่งที่คุณสนใจ เช่น การมีส่วนร่วม หรือการช่วยให้ผู้ใช้ดำเนินการที่เหมาะสม เช่น การดูวิดีโอที่พวกเขาคิดว่ามีประโยชน์ เมตริกวัดความสำเร็จแตกต่างจากเมตริกการประเมินของโมเดล เช่น ความแม่นยำ, ความแม่นยำ, การจำได้ หรือ AUC
เช่น เมตริกความสำเร็จและความล้มเหลวของแอปสภาพอากาศอาจกำหนดไว้ดังต่อไปนี้
สำเร็จ | ผู้ใช้เปิดฟีเจอร์ "ฝนจะตกไหม" บ่อยกว่าเดิม 50 เปอร์เซ็นต์ |
---|---|
ความล้มเหลว | ผู้ใช้เปิดฟีเจอร์ "ฝนจะตกไหม" ไม่บ่อยนัก |
เมตริกของแอปวิดีโออาจมีการกำหนดไว้ดังต่อไปนี้
สำเร็จ | ผู้ใช้ใช้เวลาในเว็บไซต์มากขึ้นโดยเฉลี่ย 20% |
---|---|
ความล้มเหลว | โดยเฉลี่ย ผู้ใช้ใช้เวลาบนไซต์มากเป็นพิเศษ |
เราขอแนะนำให้กำหนดเมตริกความสำเร็จที่ต้องการ แต่ความทะเยอทะยานสูงอาจทำให้เกิดช่องว่างระหว่าง ความสำเร็จกับความล้มเหลว ตัวอย่างเช่น การที่ผู้ใช้ใช้เวลาบนไซต์มากกว่าเดิมโดยเฉลี่ย 10% ก็ไม่ใช่ความสำเร็จหรือความล้มเหลว ช่องว่างที่ไม่ได้ระบุไม่ใช่สิ่งสำคัญ
สิ่งที่สำคัญคือความสามารถของโมเดลในการขยับใกล้หรือก้าวล้ำกว่านั้น คือคำจำกัดความของความสำเร็จ เช่น เมื่อวิเคราะห์ประสิทธิภาพของโมเดล ให้พิจารณาคำถามต่อไปนี้ การปรับปรุงโมเดลจะช่วยให้คุณเข้าใกล้เกณฑ์ความสำเร็จที่กำหนดไว้มากขึ้นไหม ตัวอย่างเช่น โมเดลหนึ่งอาจมีเมตริกการประเมินที่ดี แต่ไม่ได้ทำให้คุณเข้าใกล้เกณฑ์ความสำเร็จมากขึ้น ซึ่งบ่งชี้ว่าแม้ว่าจะมีโมเดลที่สมบูรณ์แบบ คุณก็อาจจะไม่ตรงตามเกณฑ์ความสำเร็จที่กำหนดไว้ ในทางกลับกัน โมเดลอาจมีเมตริกการประเมินต่ำ แต่ทำให้คุณเข้าใกล้เกณฑ์ความสำเร็จมากขึ้น ซึ่งบ่งชี้ว่าการปรับปรุงโมเดลจะทำให้คุณเข้าใกล้ความสำเร็จมากขึ้น
ต่อไปนี้คือมิติข้อมูลที่ควรพิจารณาเมื่อพิจารณาว่ารูปแบบดังกล่าวควรปรับปรุงดีหรือไม่
ยังไม่ดีพอ แต่ดำเนินการต่อ ไม่ควรใช้โมเดลนี้ในสภาพแวดล้อมการใช้งานจริง แต่เมื่อเวลาผ่านไป อาจมีการปรับปรุงให้ดีขึ้นอย่างมาก
ดีพอ แล้วดำเนินการต่อ โมเดลนี้สามารถนำไปใช้ในสภาพแวดล้อมการใช้งานจริงและอาจได้รับการปรับปรุงเพิ่มเติม
ดีพอแล้ว แต่ปรับปรุงให้ดีขึ้นไม่ได้ โมเดลนี้อยู่ในสภาพแวดล้อมการใช้งานจริง แต่อาจจะดีที่สุดเท่าที่จะเป็นไปได้
ยังดีไม่พอและจะไม่มีวันเปลี่ยนไป ไม่ควรใช้โมเดลในสภาพแวดล้อมการใช้งานจริง และอาจไม่มีการฝึกจำนวนมาก
เมื่อตัดสินใจปรับปรุงโมเดล ให้ประเมินอีกครั้งว่าทรัพยากรที่เพิ่มขึ้น เช่น เวลาด้านวิศวกรรมและค่าใช้จ่ายในการประมวลผล เป็นเหตุผลรองรับการปรับปรุงโมเดลที่คาดการณ์ไว้หรือไม่
หลังจากกำหนดเมตริกความสำเร็จและความล้มเหลวแล้ว คุณต้องกำหนดความถี่ในการวัดผล เช่น คุณอาจวัดเมตริกวัดความสำเร็จหลังจากติดตั้งใช้งานระบบไปแล้ว 6 วัน 6 สัปดาห์ หรือ 6 เดือน
เมื่อวิเคราะห์เมตริกที่ไม่สำเร็จ ให้ลองหาสาเหตุที่ระบบทำงานไม่สำเร็จ ตัวอย่างเช่น โมเดลอาจคาดการณ์ว่าผู้ใช้จะคลิกวิดีโอใด แต่โมเดลอาจเริ่มแนะนำชื่อคลิกเบตที่ทำให้ผู้ใช้มีส่วนร่วมลดลง ในตัวอย่างของแอปสภาพอากาศ โมเดลอาจคาดการณ์ได้ล่วงหน้าว่าฝนจะตกเมื่อใด แต่สำหรับพื้นที่ทางภูมิศาสตร์ที่มีขนาดใหญ่เกินไป
ทำความเข้าใจ
บริษัทแฟชั่นต้องการขายเสื้อผ้าได้มากขึ้น มีผู้แนะนำให้ใช้ ML ในการระบุว่าบริษัทควรผลิตเสื้อผ้าแบบใด โดยคิดว่าสามารถฝึกนายแบบ/นางแบบเพื่อระบุได้ว่าเป็นเสื้อผ้าประเภทใด หลังจากฝึกโมเดลแล้ว ลูกค้าต้องการใช้โมเดลกับแคตตาล็อกเพื่อเลือกเสื้อผ้าที่จะทำ
ทางบริษัทควรกำหนดกรอบปัญหาโดยใช้คำศัพท์ ML อย่างไร
ผลลัพธ์ที่เหมาะสม: ตัดสินใจว่าจะผลิตผลิตภัณฑ์ใด
เป้าหมายของโมเดล: คาดการณ์บทความเสื้อผ้าที่เป็นแฟชั่น
เอาต์พุตโมเดล: การจัดประเภทแบบไบนารี, in_fashion
,
not_in_fashion
เมตริกวัดความสำเร็จ: ขายเสื้อผ้าที่ผลิตได้อย่างน้อย 70%
ผลลัพธ์ที่เหมาะสม: ระบุจำนวนผ้าและวัสดุที่จะสั่งซื้อ
เป้าหมายของโมเดล: คาดการณ์จำนวนสินค้าแต่ละรายการที่จะผลิต
เอาต์พุตโมเดล: การจัดประเภทแบบไบนารี, make
,
do_not_make
เมตริกวัดความสำเร็จ: ขายเสื้อผ้าที่ผลิตได้อย่างน้อย 70%