Overfitting: การปรับมาตรฐาน L2

การกำหนดเป็นกฎ L2 คือเมตริกการทำให้เป็นมาตรฐานซึ่งเป็นที่นิยม ซึ่งใช้สูตรต่อไปนี้

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

เช่น ตารางต่อไปนี้แสดงการคำนวณ L2 การกำหนดมาตรฐานสำหรับโมเดลที่มีน้ำหนัก 6 แบบ ได้แก่

ค่า ค่ายกกำลังสอง
สัปดาห์ที่1 0.2 0.04
สัปดาห์ที่2 -0.5 0.25
w3 5.0 25 วินาที
w4 -1.2 1.44
w5 0.3 0.09
6 -0.1 0.01
    26.83 = ทั้งหมด

โปรดสังเกตว่าน้ำหนักที่ใกล้กับ 0 จะไม่ส่งผลต่อการกำหนดกฎ L2 แต่น้ำหนักที่มากก็มีผลอย่างมาก ตัวอย่างเช่น ใน การคำนวณก่อนหน้านี้:

  • น้ำหนักเดียว (w3) คิดเป็นประมาณ 93% ของ ความซับซ้อนทั้งหมด
  • น้ำหนักอีก 5 รายการรวมกันคิดเป็นประมาณ 7% ของ ความซับซ้อนทั้งหมด

การกำหนดมาตรฐาน L2 จะส่งเสริมให้น้ำหนักมุ่งสู่ 0 แต่ไม่เคยพุช น้ำหนักไปถึง 0

แบบฝึกหัด: ตรวจสอบความเข้าใจ

หากใช้มาตรฐาน L2 ขณะฝึกโมเดล คุณจะ มักเกิดขึ้นกับความซับซ้อนโดยรวมของโมเดล
ความซับซ้อนโดยรวมของระบบอาจลดลง
เนื่องจากมาตรฐาน L2 จะส่งเสริมให้น้ำหนักไปที่ 0 ความซับซ้อนโดยรวมจะลดลง
ความซับซ้อนโดยรวมของโมเดลอาจยังคง คงที่
ซึ่งไม่น่าจะเป็นไปได้อย่างมาก
ความซับซ้อนโดยรวมของโมเดลอาจเพิ่มขึ้น
กรณีนี้ไม่น่าเป็นไปได้ โปรดทราบว่าการทำให้เป็นมาตรฐาน L2 ส่งเสริมให้น้ำหนักไปที่ 0
หากใช้การกำหนดมาตรฐาน L2 ขณะฝึกโมเดล ฟีเจอร์บางอย่างจะถูกนำออกจากโมเดล
จริง
แม้ว่าการกำหนดมาตรฐาน L2 อาจทำให้น้ำหนักบาง เครื่องจะเล็กแต่ก็จะไม่ผลักให้น้ำหนักไปถึง 0 เลย ด้วยเหตุนี้ ฟีเจอร์ทั้งหมดจะยังคงมีส่วน โมเดล
เท็จ
การกำหนดมาตรฐาน L2 จะไม่ได้กดน้ำหนักไปจนสุด ศูนย์

อัตราการทำให้เป็นมาตรฐาน (lambda)

ดังที่ได้กล่าวไปแล้ว การฝึกจะพยายามลดความสูญเสียและความซับซ้อนบางอย่าง ดังนี้

$$\text{minimize(loss} + \text{ complexity)}$$

นักพัฒนาโมเดลจะปรับผลกระทบโดยรวมของความซับซ้อนที่มีต่อการฝึกโมเดล โดยการคูณค่าด้วยสเกลาร์ที่เรียกว่า อัตราปกติ ตัวอักษรกรีก lambda มักเป็นสัญลักษณ์ของอัตราการเรียงมาตรฐาน

กล่าวคือ นักพัฒนาซอฟต์แวร์โมเดลมีเป้าหมายที่จะดำเนินการต่อไปนี้

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

อัตราการทำให้เป็นมาตรฐานสูง:

  • เสริมสร้างอิทธิพลของการทำความเสมอภาค ทำให้สามารถลดโอกาสในการ มากเกินไป
  • มีแนวโน้มที่จะสร้างฮิสโตแกรมของน้ำหนักโมเดลที่มีสิ่งต่อไปนี้ ลักษณะเฉพาะ:
    • การกระจายปกติ
    • น้ำหนักเฉลี่ยเป็น 0

อัตราการทำให้เป็นมาตรฐานต่ำ:

  • ลดอิทธิพลของการกำหนดมาตรฐาน ซึ่งช่วยเพิ่มโอกาสในการ มากเกินไป
  • มีแนวโน้มที่จะสร้างฮิสโตแกรมของน้ำหนักโมเดลที่มีการแจกแจงแบบราบ

เช่น ฮิสโตแกรมของน้ำหนักโมเดลสำหรับอัตราการทำให้เป็นมาตรฐานสูง อาจมีหน้าตาดังแสดงในรูปที่ 18

วันที่ รูปที่ 18 ฮิสโตแกรมของน้ำหนักของโมเดลซึ่งมีค่าเฉลี่ยเป็น 0 และ
            การกระจายแบบปกติ
รูปที่ 18 ให้น้ำหนักฮิสโตแกรมสำหรับอัตราการทำให้เป็นมาตรฐานสูง ค่าเฉลี่ยคือ 0 การกระจายปกติ

 

ในทางตรงกันข้าม อัตราการกำหนดมาตรฐานที่ต่ำมีแนวโน้มที่จะให้ฮิสโตแกรมแบบแบนราบ ดังเช่น แสดงในรูปที่ 19

วันที่ รูปที่ 19 ฮิสโตแกรมของน้ำหนักโมเดลที่มีค่าเฉลี่ยเป็น 0
            อยู่ระหว่างการแจกแจงแบบราบและแบบปกติ
รูปที่ 19 ให้น้ำหนักฮิสโตแกรมสำหรับอัตราการทำให้เป็นมาตรฐานต่ำ ค่าเฉลี่ยอาจเป็น 0 หรือไม่ก็ได้

 

เลือกอัตราการกำหนดเป็นมาตรฐาน

อัตราการกำหนดมาตรฐานที่เหมาะสมจะสร้างรูปแบบที่เป็นภาพรวม ข้อมูลใหม่ๆ ที่ไม่เคยเห็นก่อนหน้านี้ แต่ค่าในอุดมคติจะขึ้นอยู่กับข้อมูล คุณจึงต้องดำเนินการบางอย่าง การปรับแต่ง

การหยุดก่อนกำหนด: ทางเลือกที่ใช้แทนการกำหนดมาตรฐานตามความซับซ้อน

การหยุดก่อนกำหนดเป็น วิธีการจัดระเบียบที่ไม่ต้องคำนวณความซับซ้อน แต่การหยุดก่อนกำหนดหมายความถึงการสิ้นสุดการฝึกก่อนโมเดล ผสานรวมอย่างสมบูรณ์ ตัวอย่างเช่น คุณจะสิ้นสุดการฝึกเมื่อเส้นโค้งการสูญเสีย สำหรับชุดการตรวจสอบเริ่มเพิ่มขึ้น (ความชันเปลี่ยนเป็นบวก)

แม้ว่าการหยุดก่อนกำหนดมักจะเพิ่มการสูญเสียการฝึกฝน แต่ก็อาจลด การสูญเสียการทดสอบ

การหยุดก่อนกำหนดคือรูปแบบของการปรับมาตรฐานอย่างรวดเร็วแต่ไม่ค่อยมีประสิทธิภาพ โมเดลที่ได้ไม่น่าจะดีเท่ากับโมเดลที่ฝึก ให้ละเอียดถี่ถ้วนในเรื่องอัตราการทำให้เป็นมาตรฐานที่ต้องการ

การหาสมดุลระหว่างอัตราการเรียนรู้กับอัตราการทำให้เป็นมาตรฐาน

อัตราการเรียนรู้และ อัตราการแปลงมาตรฐานมักจะดึงน้ำหนักไปในทางตรงกันข้าม เส้นทาง อัตราการเรียนรู้ที่สูงมักทำให้น้ำหนักหายไปจาก 0 อัตรามาตรฐานที่สูงจะดึงน้ำหนักไปยัง 0

หากอัตราการทำให้เป็นมาตรฐานสูงเมื่อเทียบกับอัตราการเรียนรู้ น้ำหนักที่มีประสิทธิภาพต่ำมีแนวโน้มที่จะสร้างโมเดลที่สามารถคาดการณ์ได้ไม่ดี ในทางกลับกัน หากอัตราการเรียนรู้สูงเมื่อเทียบกับการปรับให้เป็นมาตรฐาน น้ำหนักมากมีแนวโน้มที่จะสร้างรูปแบบที่โอเวอร์ฟิตได้

เป้าหมายของคุณคือการหาสมดุลระหว่างอัตราการเรียนรู้กับ มาตรฐาน นี่อาจเป็นเรื่องที่ท้าทาย ที่แย่ที่สุดก็คือ เมื่อพบ ความสมดุลที่เข้าใจยาก คุณอาจต้องเปลี่ยนอัตราการเรียนรู้ในท้ายที่สุด และเมื่อเปลี่ยนอัตราการเรียนรู้ ก็ต้องหาโอกาสที่เหมาะสมอีกครั้ง มาตรฐาน