Overfitting: การปรับมาตรฐาน L2

การทำ Regularization แบบ L2 เป็นเมตริกการทำ Regularization ที่ได้รับความนิยม ซึ่งใช้สูตรต่อไปนี้

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

ตัวอย่างเช่น ตารางต่อไปนี้แสดงการคำนวณ Regularization L2 สำหรับโมเดลที่มีน้ำหนัก 6 รายการ

ค่า ค่าที่ยกกำลัง 2
w1 0.2 0.04
w2 -0.5 0.25
w3 5.0 25.0
w4 -1.2 1.44
w5 0.3 0.09
w6 -0.1 0.01
    26.83 = ทั้งหมด

โปรดทราบว่าค่าถ่วงน้ำหนักที่ใกล้ 0 จะไม่ส่งผลต่อ Regularization L2 มากนัก แต่ค่าถ่วงน้ำหนักที่มากอาจส่งผลกระทบอย่างมาก ตัวอย่างเช่น ใน การคำนวณก่อนหน้านี้

  • น้ำหนักเดียว (w3) มีส่วนทำให้เกิดความซับซ้อนทั้งหมดประมาณ 93%
  • ส่วนอีก 5 น้ำหนักรวมกันมีส่วนทำให้เกิดความซับซ้อนทั้งหมดเพียงประมาณ 7%

การทำให้เป็นค่าปกติ L2 จะกระตุ้นให้ค่าถ่วงน้ำหนักเข้าใกล้ 0 แต่จะไม่ทำให้ค่าถ่วงน้ำหนักเป็น 0 ทั้งหมด

แบบฝึกหัด: ตรวจสอบความเข้าใจ

หากคุณใช้การทำให้เป็นปกติ L2 ขณะฝึกโมเดล โดยปกติแล้วความซับซ้อนโดยรวมของโมเดลจะเป็นอย่างไร
ความซับซ้อนโดยรวมของระบบอาจลดลง
เนื่องจากการควบคุม L2 จะกระตุ้นให้ค่าถ่วงน้ำหนักเข้าใกล้ 0 ความซับซ้อนโดยรวมจึงน่าจะลดลง
ความซับซ้อนโดยรวมของโมเดลอาจจะยังคง เท่าเดิม
ซึ่งมีโอกาสน้อยมากที่จะเกิดขึ้น
ความซับซ้อนโดยรวมของโมเดลอาจเพิ่มขึ้น
ซึ่งเป็นไปได้ยาก โปรดทราบว่าการทำให้เป็นค่าปกติ L2 จะกระตุ้นให้ค่าถ่วงน้ำหนักเข้าใกล้ 0
หากคุณใช้การทำให้เป็นปกติ L2 ขณะฝึกโมเดล ระบบจะนำฟีเจอร์บางอย่างออกจากโมเดล
จริง
แม้ว่าการปรับค่า L2 อาจทำให้ค่าถ่วงน้ำหนักบางค่ามีขนาดเล็กมาก แต่จะไม่ทำให้ค่าถ่วงน้ำหนักใดๆ เป็น 0 ดังนั้น ฟีเจอร์ทั้งหมดจะยังคงมีส่วนช่วยในโมเดล
เท็จ
Regularization L2 จะไม่ทำให้ค่าถ่วงน้ำหนักเป็น 0 ทั้งหมด

อัตรา Regularization (แลมบ์ดา)

ดังที่กล่าวไว้ การฝึกพยายามลดการสูญเสียและความซับซ้อนบางอย่างร่วมกัน

$$\text{minimize(loss} + \text{ complexity)}$$

ผู้พัฒนาโมเดลจะปรับผลกระทบโดยรวมของความซับซ้อนต่อการฝึกโมเดล โดยการคูณค่าด้วยสเกลาร์ที่เรียกว่าอัตราการทำให้เป็นปกติ โดยปกติแล้วอักขระแลมด้าของกรีกจะแสดงถึงอัตรา Regularization

กล่าวคือ นักพัฒนาโมเดลมีเป้าหมายที่จะทำสิ่งต่อไปนี้

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

อัตรา Regularization สูง

  • เพิ่มอิทธิพลของการปรับค่าปกติ ซึ่งจะช่วยลดโอกาสที่จะเกิด การปรับมากเกินไป
  • มีแนวโน้มที่จะสร้างฮิสโตแกรมของน้ำหนักโมเดลที่มีลักษณะต่อไปนี้
    • การกระจายปกติ
    • มีน้ำหนักเฉลี่ยเป็น 0

อัตราการทำให้เป็นปกติต่ำ

  • ลดอิทธิพลของการทำให้เป็นปกติ ซึ่งจะเพิ่มโอกาสในการปรับมากเกินไป
  • มีแนวโน้มที่จะสร้างฮิสโตแกรมของน้ำหนักโมเดลที่มีการกระจายแบบแบน

ตัวอย่างเช่น ฮิสโทแกรมของน้ำหนักโมเดลสำหรับอัตรา Regularization สูง อาจมีลักษณะดังที่แสดงในรูปที่ 18

รูปที่ 18 ฮิสโตแกรมของน้ำหนักของโมเดลที่มีค่าเฉลี่ยเป็น 0 และ
            การแจกแจงแบบปกติ
รูปที่ 18 ฮิสโตแกรมน้ำหนักสำหรับอัตรา Regularization สูง ค่าเฉลี่ยเป็น 0 การกระจายปกติ

 

ในทางตรงกันข้าม อัตรา Regularization ที่ต่ำมักจะทำให้ฮิสโตแกรมแบนราบมากขึ้น ดังที่แสดงในรูปที่ 19

รูปที่ 19 ฮิสโทแกรมของน้ำหนักของโมเดลที่มีค่าเฉลี่ยเป็น 0 ซึ่ง
            อยู่ระหว่างการกระจายแบบแบนและการกระจายแบบปกติ
รูปที่ 19 ฮิสโตแกรมน้ำหนักสำหรับอัตรา Regularization ต่ำ ค่าเฉลี่ยอาจเป็น 0 หรือไม่ก็ได้

 

จะทำให้มีความเสี่ยงที่จะเกิดการปรับมากเกินไปสูงที่สุด

การเลือกอัตรา Regularization

อัตรา Regularization ที่เหมาะสมจะสร้างโมเดลที่สรุปข้อมูลใหม่ที่ไม่เคยเห็นมาก่อนได้ดี แต่ค่าที่เหมาะสมนั้นขึ้นอยู่กับข้อมูล ดังนั้นคุณจึงต้องทำการ การปรับแต่ง

การหยุดก่อนเวลา: ทางเลือกแทน Regularization ที่อิงตามความซับซ้อน

การหยุดก่อนเวลาเป็นวิธีการ Regularization ที่ไม่เกี่ยวข้องกับการคำนวณความซับซ้อน แต่การหยุดก่อนกำหนดหมายถึงการสิ้นสุดการฝึกก่อนที่โมเดลจะ บรรจบกันอย่างสมบูรณ์ เช่น คุณจะสิ้นสุดการฝึกเมื่อเส้นโค้งการสูญเสียสำหรับชุดข้อมูลสำหรับตรวจสอบความถูกต้องเริ่มเพิ่มขึ้น (ความชันกลายเป็นบวก)

แม้ว่าการหยุดก่อนเวลาจะเพิ่มการสูญเสียการฝึก แต่ก็สามารถลดการสูญเสียการทดสอบได้

การหยุดก่อนเวลาเป็นรูปแบบ Regularization ที่รวดเร็ว แต่ไม่ค่อยเหมาะสม โมเดลที่ได้จึงไม่น่าจะดีเท่าโมเดลที่ได้รับการฝึกอย่างละเอียดในอัตราการควบคุมที่เหมาะสม

การหาสมดุลระหว่างอัตราการเรียนรู้กับอัตราการปรับค่าปกติ

อัตราการเรียนรู้และอัตรา Regularization มักจะย้ายน้ำหนักไปในทิศทางตรงกันข้าม อัตราการเรียนรู้ที่สูงมักจะดึงน้ำหนักออกจากศูนย์ อัตราการควบคุมแบบปกติที่สูงจะดันน้ำหนักเข้าหาศูนย์

หากอัตราการทำให้เป็นปกติสูงเมื่อเทียบกับอัตราการเรียนรู้ น้ำหนักที่อ่อนแอมีแนวโน้มที่จะสร้างโมเดลที่ทําการคาดการณ์ได้ไม่ดี ในทางกลับกัน หากอัตราการเรียนรู้สูงเมื่อเทียบกับอัตราการทำให้เป็นปกติ น้ำหนักที่มากมักจะทำให้เกิดโมเดลที่ Overfit

เป้าหมายของคุณคือการหาสมดุลระหว่างอัตราการเรียนรู้กับอัตราการปรับค่าปกติ ซึ่งอาจเป็นเรื่องท้าทาย ที่แย่ที่สุดคือเมื่อคุณพบค่าสมดุลที่หายากนั้นแล้ว คุณอาจต้องเปลี่ยนอัตราการเรียนรู้ในท้ายที่สุด และเมื่อเปลี่ยนอัตราการเรียนรู้ คุณจะต้องหาอัตราการทำให้เป็นปกติที่เหมาะสมอีกครั้ง