Overfitting: การตีความเส้นโค้งการสูญเสีย

แมชชีนเลิร์นนิงจะทำได้ง่ายขึ้นถ้า สูญเสียเส้นโค้ง ดูเหมือนครั้งแรกที่คุณฝึกโมเดลของคุณ:

วันที่ รูปที่ 20 แผนภูมิแสดงเส้นโค้งแบบสูญเสียในอุดมคติเมื่อฝึก
            โมเดลแมชชีนเลิร์นนิง กราฟ Loss Curve พล็อตการสูญเสียบนแกน Y
            เทียบกับจำนวนขั้นตอนการฝึกบนแกน x เป็นหมายเลข
            ของขั้นตอนการฝึกเพิ่มขึ้น การสูญเสียเริ่มต้นสูง แล้วลดลง
            เป็นทวีคูณ และท้ายที่สุดแล้วค่อยๆ ขยายออกไปเพื่อให้ถึงจุดต่ำสุด
            การสูญเสีย
รูปที่ 20 เส้นโค้งแบบสูญเสียในอุดมคติ

อย่างไรก็ตาม เส้นโค้งแบบสูญเสียบางส่วนมักจะตีความได้ยาก ใช้ สัญชาตญาณเกี่ยวกับเส้นโค้งสูญเสียเพื่อแก้โจทย์ในหน้าเว็บนี้

แบบฝึกหัดที่ 1: เส้นโค้งการสูญเสียแบบส่าย

วันที่ รูปที่ 21 เส้นโค้งการสูญเสีย (สูญเสียในแกน y จำนวนการฝึก
            บนแกน x) ซึ่งการสูญเสียไม่คงที่
            แต่การสูญเสียก็ผันผวนอย่างผิดพลาดแทน
รูปที่ 21 กราฟลดการส่าย
3 สิ่งที่คุณสามารถทำเพื่อลองปรับปรุงเส้นโค้งการสูญเสีย แสดงในรูปที่ 21
ตรวจสอบข้อมูลกับสคีมาข้อมูลเพื่อตรวจหาตัวอย่างที่ไม่ดี และ จากนั้นจึงนำตัวอย่างที่ไม่ดีออกจากชุดการฝึก
ใช่ วิธีนี้เป็นแนวทางปฏิบัติที่ดีสำหรับโมเดลทั้งหมด
ลดอัตราการเรียนรู้
ได้ การลดอัตราการเรียนรู้มักเป็นความคิดที่ดี เมื่อแก้ไขข้อบกพร่อง ในการฝึกอบรม
ลดการตั้งค่าการฝึกให้เหลือตัวอย่างที่เชื่อถือได้เพียงเล็กน้อย
ถึงแม้ว่าเทคนิคนี้จะฟังดูแปลก แต่ที่จริงแล้วเป็นเทคนิคที่ดี ไอเดียของคุณ สมมติว่าโมเดลบรรจบกับกลุ่ม ตัวอย่างที่น่าเชื่อถือ แล้วค่อยค่อยๆ เพิ่มตัวอย่าง ซึ่งอาจค้นพบตัวอย่างที่ทำให้สูญเสียเส้นโค้ง การแกว่งตัว
เพิ่มจำนวนตัวอย่างในชุดการฝึก
แนวคิดนี้ดูน่าสนใจ แต่คงไม่น่าจะแก้ไขได้มากนัก ปัญหาที่เกิดขึ้น
เพิ่มอัตราการเรียนรู้
โดยทั่วไป ให้หลีกเลี่ยงการเพิ่มอัตราการเรียนรู้เมื่อโมเดล เส้นโค้งการเรียนรู้จะเป็นตัวบ่งบอกปัญหา

แบบฝึกหัด 2 กราฟหลุดจากการกระโดดหักโหม

วันที่ รูปที่ 22 กราฟเส้นโค้งการสูญเสียที่แสดงการขาดทุนลดลงจนถึง
            จำนวนขั้นตอนการฝึกที่แน่นอน แล้วค่อยๆ เพิ่มขึ้น
            พร้อมด้วยขั้นตอนการฝึกอบรมเพิ่มเติม
รูปที่ 22 การสูญเสียเพิ่มขึ้นอย่างฉับพลัน
ข้อความ 2 ข้อใดต่อไปนี้ระบุว่าเป็นไปได้ สาเหตุของการสูญเสียแบบระเบิดที่แสดงในรูปที่ 22
ข้อมูลอินพุตมี NaN อย่างน้อย 1 รายการ เช่น ค่า ที่เกิดจากการหารด้วย 0
ซึ่งเป็นเรื่องปกติ
ข้อมูลอินพุตมีค่าผิดปกติจำนวนมาก
ในบางครั้ง การสับเปลี่ยนกลุ่มเนื้อหาที่ไม่เหมาะสม อาจทำให้ มีค่าผิดปกติจำนวนมาก
อัตราการเรียนรู้ต่ำเกินไป
แม้ว่าอัตราการเรียนรู้ที่ต่ำมากอาจเพิ่มเวลาการฝึกได้ แต่ ไม่ใช่สาเหตุของเส้นโค้งการสูญเสียแบบแปลกๆ
อัตราการทำให้เป็นมาตรฐานสูงเกินไป
จริง กฎเกณฑ์ที่สูงมากอาจทำให้โมเดล converging; แต่จะไม่ทำให้กราฟสูญเสียแบบแปลกๆ แสดงในรูปที่ 22

แบบฝึกหัดที่ 3 การสูญเสียการทดสอบแตกต่างจากการสูญเสียการฝึก

วันที่ รูปที่ 23 กราฟเส้นโค้งการฝึกสูญเสียการบรรจบกัน แต่
            การสูญเสียการตรวจสอบจะเริ่มเพิ่มขึ้นหลังจากผ่านการฝึกมาระยะหนึ่ง
            ขั้นตอน
รูปที่ 23 การสูญเสียการตรวจสอบที่เพิ่มขึ้นอย่างมาก
ข้อความใดต่อไปนี้ระบุถึง สาเหตุของความแตกต่างระหว่างเส้นโค้งการสูญเสียการเข้าชมของการฝึก และชุดทดสอบ
โมเดลมีการปรับเกินชุดการฝึก
อาจใช่ วิธีแก้ปัญหาที่เป็นไปได้
  • ทำให้โมเดลเรียบง่ายขึ้นโดยลดจำนวน หลายฟีเจอร์
  • เพิ่มอัตราการทำให้เป็นมาตรฐาน
  • ตรวจสอบว่าชุดการฝึกและชุดทดสอบมีนัยสำคัญทางสถิติ ที่เทียบเท่า
อัตราการเรียนรู้สูงเกินไป
หากอัตราการเรียนรู้สูงเกินไป เส้นโค้งการสูญเสียสำหรับชุดการฝึก มีแนวโน้มว่าจะไม่ทำงานเหมือนเดิม

แบบฝึกหัดที่ 4 Loss Curve ติดขัด

วันที่ รูปที่ 24 พล็อตเส้นโค้งการสูญเสียการแสดงผลตั้งแต่
            มาบรรจบกันกับการฝึก แต่แล้วก็แสดงรูปแบบซ้ำๆ ที่
            มีลักษณะเป็นคลื่นสี่เหลี่ยมผืนผ้า
รูปที่ 24 ความวุ่นวายหลังจบขั้นตอน
ข้อความข้อใดข้อหนึ่งต่อไปนี้มีแนวโน้มมากที่สุด คำอธิบายของกราฟการสูญเสียที่ผิดพลาดในรูปที่ 24 คืออะไร
ชุดการฝึกมีลำดับตัวอย่างที่ซ้ำกัน
นี่คือความเป็นไปได้ ตรวจสอบว่าคุณสุ่มเพลงตัวอย่าง อย่างเพียงพอ
อัตราการทำให้เป็นมาตรฐานสูงเกินไป
ซึ่งไม่น่าจะมีสาเหตุมาจากนี้
ชุดการฝึกมีฟีเจอร์มากเกินไป
ซึ่งไม่น่าจะมีสาเหตุมาจากนี้