Overfitting: การตีความเส้นโค้งการสูญเสีย

แมชชีนเลิร์นนิงจะง่ายขึ้นมากหากเส้นโค้งการสูญเสียทั้งหมดมีลักษณะเช่นนี้เมื่อคุณฝึกโมเดลเป็นครั้งแรก

รูปที่ 20 ผังแสดงเส้นโค้งการสูญเสียที่เหมาะสมเมื่อฝึกโมเดลแมชชีนเลิร์นนิง เส้นโค้งการสูญเสียจะแสดงการสูญเสียบนแกน y เทียบกับจํานวนขั้นตอนการฝึกบนแกน x เมื่อจํานวนขั้นตอนการฝึกอบรมเพิ่มขึ้น อัตราสูญเสียจะเริ่มต้นที่สูง จากนั้นจะลดลงแบบทวีคูณ และสุดท้ายจะคงที่เพื่อรักษาอัตราสูญเสียให้เหลือน้อยที่สุด
รูปที่ 20 เส้นโค้งการสูญเสียในอุดมคติ

แต่น่าเสียดายที่เส้นโค้งการสูญเสียมักตีความได้ยาก ใช้ความรู้เกี่ยวกับเส้นโค้งการสูญเสียเพื่อแก้ปัญหาในหน้านี้

แบบฝึกหัดที่ 1: เส้นโค้งการสูญเสียแบบสั่น

รูปที่ 21 เส้นโค้งการสูญเสีย (การสูญเสียบนแกน y; จำนวนขั้นตอนการฝึกบนแกน x) ที่มีการสูญเสียไม่ลดลง
            แต่การสูญเสียจะผันผวนอย่างผิดปกติ
รูปที่ 21 เส้นโค้งการสูญเสียแบบสั่น
คุณสามารถทําสิ่งใดได้บ้าง3 อย่างเพื่อพยายามปรับปรุงเส้นโค้งการสูญเสียที่แสดงในรูปที่ 21
ตรวจสอบข้อมูลกับสคีมาข้อมูลเพื่อตรวจหาตัวอย่างที่ไม่ถูกต้อง แล้วนำตัวอย่างที่ไม่ถูกต้องออกจากชุดการฝึก
ใช่ นี่เป็นแนวทางปฏิบัติแนะนำสำหรับทุกรุ่น
ลดอัตราการเรียนรู้
ใช่ การลดอัตราการเรียนรู้มักเป็นความคิดที่ดีเมื่อแก้ไขข้อบกพร่องของการฝึก
ลดชุดการฝึกให้มีตัวอย่างที่เชื่อถือได้เพียงไม่กี่รายการ
แม้ว่าเทคนิคนี้อาจฟังดูไม่เป็นธรรมชาติ แต่จริงๆ แล้วเป็นแนวคิดที่ดี สมมติว่าโมเดลมาบรรจบกันที่ชุดตัวอย่างขนาดเล็กที่เชื่อถือได้ คุณก็สามารถค่อยๆ เพิ่มตัวอย่างอื่นๆ ได้ โดยอาจค้นพบว่าตัวอย่างใดทําให้เส้นโค้งการสูญเสียสั่นไหว
เพิ่มจำนวนตัวอย่างในชุดการฝึก
แนวคิดนี้น่าดึงดูดใจ แต่แทบจะแก้ปัญหาไม่ได้เลย
เพิ่มอัตราการเรียนรู้
โดยทั่วไป หลีกเลี่ยงการเพิ่มอัตราการเรียนรู้เมื่อเส้นโค้งการเรียนรู้ของโมเดลบ่งบอกถึงปัญหา

แบบฝึกหัดที่ 2 เส้นโค้งการสูญเสียที่เพิ่มขึ้นอย่างรวดเร็ว

รูปที่ 22 ผังเส้นโค้งการสูญเสียที่แสดงการสูญเสียที่ลดลงจนถึงจำนวนขั้นตอนการฝึกที่กำหนด จากนั้นจะเพิ่มขึ้นอย่างฉับพลันเมื่อทำการฝึกในขั้นตอนถัดไป
รูปที่ 22 มีการสูญเสียเพิ่มขึ้นอย่างรวดเร็ว
ข้อความต่อไปนี้มี2 ข้อความใดที่ระบุสาเหตุที่เป็นไปได้ของผลขาดทุนที่เพิ่มขึ้นอย่างรวดเร็วดังที่แสดงในรูปที่ 22
ข้อมูลอินพุตมี NaN อย่างน้อย 1 รายการ เช่น ค่าที่เกิดจากการหารด้วย 0
ปัญหานี้เกิดขึ้นบ่อยกว่าที่คุณคิด
ข้อมูลอินพุตมีค่าผิดปกติจำนวนมาก
บางครั้งการสับเปลี่ยนกลุ่มที่ไม่เหมาะสมอาจทําให้กลุ่มหนึ่งมีค่าที่ผิดปกติจำนวนมาก
อัตราการเรียนรู้ต่ำเกินไป
อัตราการเรียนรู้ที่ต่ำมากอาจเพิ่มเวลาการฝึก แต่ไม่ใช่สาเหตุของเส้นโค้งการสูญเสียที่แปลกประหลาด
อัตราการปรับค่าใช้จ่ายสูงเกินไป
จริงอยู่ การปรับให้เหมาะสมที่สูงมากอาจทําให้โมเดลไม่บรรจบ แต่จะไม่ทําให้เกิดเส้นโค้งการสูญเสียที่แปลกประหลาดดังที่แสดงในรูปที่ 22

แบบฝึกหัดที่ 3 การสูญเสียในทดสอบแตกต่างจากการสูญเสียในการฝึก

รูปที่ 23 เส้นโค้งความสูญเสียของการฝึกดูเหมือนจะบรรจบกัน แต่ความสูญเสียในการทดสอบเริ่มเพิ่มขึ้นหลังจากขั้นตอนการฝึกจำนวนหนึ่ง
รูปที่ 23 การสูญเสียในการตรวจสอบเพิ่มขึ้นอย่างรวดเร็ว
ข้อความข้อใดต่อไปนี้ระบุสาเหตุของความแตกต่างนี้ระหว่างเส้นโค้งการสูญเสียของชุดข้อมูลการฝึกอบรมและชุดทดสอบได้ดีที่สุด
โมเดลกำลังปรับให้พอดีกับชุดข้อมูลการฝึกมากเกินไป
ใช่ อาจเป็นเช่นนั้น ทางแก้ปัญหาที่เป็นไปได้มีดังนี้
  • ทําให้โมเดลเรียบง่ายขึ้น ซึ่งอาจทำได้โดยการลดจํานวนฟีเจอร์
  • เพิ่มอัตราการทำให้เป็นปกติ
  • ตรวจสอบว่าชุดข้อมูลการฝึกอบรมและชุดทดสอบมีความเท่าเทียมกันทางสถิติ
อัตราการเรียนรู้สูงเกินไป
หากอัตราการเรียนรู้สูงเกินไป เส้นโค้งการสูญเสียของชุดข้อมูลการฝึกอบรมก็อาจไม่เป็นไปตามที่ควรจะเป็น

ตัวอย่างที่ 4 เส้นโค้งการสูญเสียค้าง

รูปที่ 24 ผังเส้นโค้งการสูญเสียที่แสดงให้เห็นว่าความสูญเสียเริ่มที่จะบรรจบกับการฝึก แต่หลังจากนั้นแสดงรูปแบบซ้ำๆ ที่ดูเหมือนคลื่นสี่เหลี่ยมผืนผ้า
รูปที่ 24 ความสับสนวุ่นวายหลังจากทำตามขั้นตอนจำนวนหนึ่ง
ข้อความข้อใดต่อไปนี้น่าจะเป็นคำอธิบายที่เป็นไปได้มากที่สุดสำหรับเส้นโค้งการสูญเสียที่ผันผวนซึ่งแสดงในรูปที่ 24
ชุดการฝึกอบรมมีลําดับตัวอย่างที่ซ้ำกัน
กรณีนี้เป็นไปได้ ตรวจสอบว่าคุณสับตัวอย่างอย่างเพียงพอ
อัตราการปรับค่าใช้จ่ายสูงเกินไป
ปัญหานี้ไม่น่าใช่สาเหตุ
ชุดข้อมูลการฝึกมีฟีเจอร์มากเกินไป
ปัญหานี้ไม่น่าใช่สาเหตุ