หน้านี้ได้รับการแปลโดย Cloud Translation API ความยุติธรรม: ทดสอบความรู้ของคุณ กลับไปที่เส้นทาง จริงหรือเท็จ: การให้น้ำหนักพิเศษในอดีตจะเกิดขึ้นเมื่อโมเดลได้รับการฝึกกับข้อมูลเก่า จริง เท็จ วิศวกรกำลังฝึกโมเดลการถดถอยเพื่อคาดการณ์ปริมาณแคลอรีของมื้ออาหาร โดยอิงตามข้อมูลหลากหลายที่รวบรวมมาจากเว็บไซต์สูตรอาหารทั่วโลก รวมถึงขนาดหน่วยบริโภค ส่วนผสม และเทคนิคการเตรียมอาหาร ปัญหาเกี่ยวกับข้อมูลข้อใดต่อไปนี้คือแหล่งที่มาของอคติที่อาจเกิดขึ้นซึ่งควรตรวจสอบเพิ่มเติม เลือกคำตอบได้มากเท่าที่คุณเห็นว่าเหมาะสม ตัวอย่างการฝึกประมาณ 4,000 รายการจาก 40,000 รายการไม่มีค่าสำหรับฟีเจอร์ "ขนาดที่จะแสดง" ตัวอย่างการฝึกประมาณ 5,000 รายการมีการวัดในหน่วยวัดอิมพีเรียล (ออนซ์ ปอนด์ ฯลฯ) ในขณะที่ตัวอย่างอีก 35,000 ตัวอย่างมีการวัดในหน่วยเมตริก (กรัม ลิตร ฯลฯ) ตัวอย่างการฝึก 100 รายการจากทั้งหมด 40,000 รายการมีค่าส่วนผสมที่ดูเหมือนว่าจะไม่ถูกต้องอย่างมาก (เช่น เนย 100 กรัม) อาหารยอดนิยมบางมื้อมีข้อมูลไม่เพียงพอในข้อมูลการฝึกเมื่อเทียบกับมื้ออาหารยอดนิยมอื่นๆ (เช่น มีตัวอย่างการฝึกโดซา 200 รายการ แต่มีเพียง 10 ตัวอย่างสำหรับพิซซ่า) โมเดลตรวจจับการถากถางได้รับการฝึกผ่าน SMS จำนวน 80,000 ข้อความ โดยข้อความ 40,000 รายการที่ผู้ใหญ่ (อายุ 18 ปีขึ้นไป) ส่ง และ 40,000 ข้อความที่ผู้เยาว์ (อายุต่ำกว่า 18 ปี) ส่ง จากนั้นจึงประเมินโมเดลดังกล่าวในชุดทดสอบที่มีข้อความ 20,000 ข้อความ โดย 10,000 ข้อความจากผู้ใหญ่ และ 10,000 ข้อความจากผู้เยาว์ เมทริกซ์ความสับสนต่อไปนี้จะแสดงผลลัพธ์ของแต่ละกลุ่ม (การคาดคะเนเชิงบวกหมายถึงการจัดประเภทแบบ "ล้อเลียน" ส่วนการคาดคะเนเชิงลบหมายถึงการจัดประเภทแบบ "ไม่ใช่การเสียดสี"): ผู้ใหญ่ ผลบวกจริง (TP): 512 ผลบวกลวง (FP): 51 ผลลบลวง (FN): 36 ผลลบจริง (TN): 9401 ความแม่นยำ = TP/(TP + FP) = 0.909 ความอ่อนไหว = TP/(TP + FN) = 0.934 ผู้เยาว์ ผลบวกจริง (TP): 2147 ผลบวกลวง (FP): 96 ผลลบลวง (FN): 2,177 ผลลบจริง (TN): 5580 ความแม่นยำ = TP/(TP + FP) = 0.957 ความอ่อนไหว = TP/(TP + FN) = 0.497 ข้อใดต่อไปนี้เป็นจริงเกี่ยวกับประสิทธิภาพของชุดทดสอบของโมเดล เลือกคำตอบได้มากเท่าที่คุณเห็นว่าเหมาะสม โมเดลนี้ดำเนินการกับตัวอย่างจากผู้ใหญ่ได้ดีกว่าตัวอย่างจากผู้เยาว์ ข้อความ 10,000 รายการที่ผู้ใหญ่ส่งเข้ามาเป็นชุดข้อมูลที่ไม่สมดุลระหว่างชั้นเรียน ข้อความ 10,000 รายการที่ผู้เยาว์ส่งเข้ามาเป็นชุดข้อมูลที่ไม่สมดุลกันในชั้นเรียน ข้อความประมาณ 50% ที่ผู้เยาว์ส่งจัดว่าเป็นข้อความ "ประชดประชัน" อย่างไม่ถูกต้อง นายแบบ/นางแบบไม่ได้จัดประเภทข้อความเสียดสีผู้เยาว์โดยประมาณ 50% ว่าเป็น "การเสียดสี" สมมติฐานใดต่อไปนี้อธิบายถึงความแตกต่างของประสิทธิภาพของกลุ่มย่อยในชุดทดสอบสำหรับรูปแบบการตรวจหาการประชดประชันข้างต้นได้ เลือกคำตอบได้มากเท่าที่คุณเห็นว่าเหมาะสม โมเดลนี้ผิดพลาดมากเกินไปในฝั่งของการคาดคะเนว่าเป็น "การเสียดสี" ด้วยเหตุนี้ การระบุประเภทผู้เยาว์จึงมีข้อผิดพลาดมากกว่า เพราะมีข้อความเสียดสีจากผู้เยาว์ในชุดทดสอบมากกว่า โมเดลได้รับการประเมินจากตัวอย่างในเชิงลบ (ไม่ใช่การเสียดสี) จากผู้เยาว์มากกว่าผู้ใหญ่ ซึ่งส่งผลให้มีข้อผิดพลาดมากขึ้นสำหรับผู้เยาว์ การถากถางใน SMS ของผู้เยาว์มีความละเอียดอ่อนกว่านั้น นางแบบคนดังกล่าวจึงมีแนวโน้มที่จะแจ้งปัญหานี้น้อยลง ข้อความเสียดสีจากผู้ใหญ่ที่เกิดขึ้นจริงมีจำนวนน้อยกว่าข้อความจากผู้เยาว์มาก หากมีการประเมินโมเดลด้วยชุดข้อความสำหรับผู้ใหญ่ที่สมดุลยิ่งขึ้น ความจำอาจลดลงสำหรับกลุ่มย่อยนั้น วิศวกรกำลังฝึกรูปแบบการเสียดสีด้านบนเพื่อจัดการกับความไม่สอดคล้องในความแม่นยำของการตรวจหาการประชดประชันในประชากรอายุต่างๆ แต่โมเดลได้เผยแพร่เข้าสู่การใช้งานจริงแล้ว กลยุทธ์อุดช่องว่างใดต่อไปนี้จะช่วยลดข้อผิดพลาดในการคาดการณ์ของโมเดลได้ จำกัดการใช้โมเดลนี้สำหรับข้อความที่ส่งจากผู้เยาว์เท่านั้น ปรับเอาต์พุตของโมเดลเพื่อแสดงข้อความ "ประชดประชัน" สำหรับข้อความทั้งหมดที่ส่งมาจากผู้เยาว์ ไม่ว่าโมเดลจะคาดการณ์อะไรไว้แต่แรก เมื่อโมเดลคาดการณ์ว่า "ไม่ใช่การเสียดสี" สำหรับ SMS ที่ผู้เยาว์ส่ง ให้ปรับผลลัพธ์เพื่อให้โมเดลแสดงผลค่า "ไม่แน่ใจ" แทน ส่งคำตอบ error_outline เกิดข้อผิดพลาดขณะให้คะแนนแบบทดสอบ โปรดลองอีกครั้ง