การทำ Regularization แบบ L2 เป็นเมตริกการทำ Regularization ที่ได้รับความนิยม ซึ่งใช้สูตรต่อไปนี้
ตัวอย่างเช่น ตารางต่อไปนี้แสดงการคำนวณ Regularization L2 สำหรับโมเดลที่มีน้ำหนัก 6 รายการ
| ค่า | ค่าที่ยกกำลัง 2 | |
|---|---|---|
| w1 | 0.2 | 0.04 |
| w2 | -0.5 | 0.25 |
| w3 | 5.0 | 25.0 |
| w4 | -1.2 | 1.44 |
| w5 | 0.3 | 0.09 |
| w6 | -0.1 | 0.01 |
| 26.83 = ทั้งหมด |
โปรดทราบว่าค่าถ่วงน้ำหนักที่ใกล้ 0 จะไม่ส่งผลต่อ Regularization L2 มากนัก แต่ค่าถ่วงน้ำหนักที่มากอาจส่งผลกระทบอย่างมาก ตัวอย่างเช่น ใน การคำนวณก่อนหน้านี้
- น้ำหนักเดียว (w3) มีส่วนทำให้เกิดความซับซ้อนทั้งหมดประมาณ 93%
- ส่วนอีก 5 น้ำหนักรวมกันมีส่วนทำให้เกิดความซับซ้อนทั้งหมดเพียงประมาณ 7%
การทำให้เป็นค่าปกติ L2 จะกระตุ้นให้ค่าถ่วงน้ำหนักเข้าใกล้ 0 แต่จะไม่ทำให้ค่าถ่วงน้ำหนักเป็น 0 ทั้งหมด
แบบฝึกหัด: ตรวจสอบความเข้าใจ
อัตรา Regularization (แลมบ์ดา)
ดังที่กล่าวไว้ การฝึกพยายามลดการสูญเสียและความซับซ้อนบางอย่างร่วมกัน
ผู้พัฒนาโมเดลจะปรับผลกระทบโดยรวมของความซับซ้อนต่อการฝึกโมเดล โดยการคูณค่าด้วยสเกลาร์ที่เรียกว่าอัตราการทำให้เป็นปกติ โดยปกติแล้วอักขระแลมด้าของกรีกจะแสดงถึงอัตรา Regularization
กล่าวคือ นักพัฒนาโมเดลมีเป้าหมายที่จะทำสิ่งต่อไปนี้
อัตรา Regularization สูง
- เพิ่มอิทธิพลของการปรับค่าปกติ ซึ่งจะช่วยลดโอกาสที่จะเกิด การปรับมากเกินไป
- มีแนวโน้มที่จะสร้างฮิสโตแกรมของน้ำหนักโมเดลที่มีลักษณะต่อไปนี้
- การกระจายปกติ
- มีน้ำหนักเฉลี่ยเป็น 0
อัตราการทำให้เป็นปกติต่ำ
- ลดอิทธิพลของการทำให้เป็นปกติ ซึ่งจะเพิ่มโอกาสในการปรับมากเกินไป
- มีแนวโน้มที่จะสร้างฮิสโตแกรมของน้ำหนักโมเดลที่มีการกระจายแบบแบน
ตัวอย่างเช่น ฮิสโทแกรมของน้ำหนักโมเดลสำหรับอัตรา Regularization สูง อาจมีลักษณะดังที่แสดงในรูปที่ 18
ในทางตรงกันข้าม อัตรา Regularization ที่ต่ำมักจะทำให้ฮิสโตแกรมแบนราบมากขึ้น ดังที่แสดงในรูปที่ 19
จะทำให้มีความเสี่ยงที่จะเกิดการปรับมากเกินไปสูงที่สุด
การเลือกอัตรา Regularization
อัตรา Regularization ที่เหมาะสมจะสร้างโมเดลที่สรุปข้อมูลใหม่ที่ไม่เคยเห็นมาก่อนได้ดี แต่ค่าที่เหมาะสมนั้นขึ้นอยู่กับข้อมูล ดังนั้นคุณจึงต้องทำการ การปรับแต่ง
การหยุดก่อนเวลา: ทางเลือกแทน Regularization ที่อิงตามความซับซ้อน
การหยุดก่อนเวลาเป็นวิธีการ Regularization ที่ไม่เกี่ยวข้องกับการคำนวณความซับซ้อน แต่การหยุดก่อนกำหนดหมายถึงการสิ้นสุดการฝึกก่อนที่โมเดลจะ บรรจบกันอย่างสมบูรณ์ เช่น คุณจะสิ้นสุดการฝึกเมื่อเส้นโค้งการสูญเสียสำหรับชุดข้อมูลสำหรับตรวจสอบความถูกต้องเริ่มเพิ่มขึ้น (ความชันกลายเป็นบวก)
แม้ว่าการหยุดก่อนเวลาจะเพิ่มการสูญเสียการฝึก แต่ก็สามารถลดการสูญเสียการทดสอบได้
การหยุดก่อนเวลาเป็นรูปแบบ Regularization ที่รวดเร็ว แต่ไม่ค่อยเหมาะสม โมเดลที่ได้จึงไม่น่าจะดีเท่าโมเดลที่ได้รับการฝึกอย่างละเอียดในอัตราการควบคุมที่เหมาะสม
การหาสมดุลระหว่างอัตราการเรียนรู้กับอัตราการปรับค่าปกติ
อัตราการเรียนรู้และอัตรา Regularization มักจะย้ายน้ำหนักไปในทิศทางตรงกันข้าม อัตราการเรียนรู้ที่สูงมักจะดึงน้ำหนักออกจากศูนย์ อัตราการควบคุมแบบปกติที่สูงจะดันน้ำหนักเข้าหาศูนย์
หากอัตราการทำให้เป็นปกติสูงเมื่อเทียบกับอัตราการเรียนรู้ น้ำหนักที่อ่อนแอมีแนวโน้มที่จะสร้างโมเดลที่ทําการคาดการณ์ได้ไม่ดี ในทางกลับกัน หากอัตราการเรียนรู้สูงเมื่อเทียบกับอัตราการทำให้เป็นปกติ น้ำหนักที่มากมักจะทำให้เกิดโมเดลที่ Overfit
เป้าหมายของคุณคือการหาสมดุลระหว่างอัตราการเรียนรู้กับอัตราการปรับค่าปกติ ซึ่งอาจเป็นเรื่องท้าทาย ที่แย่ที่สุดคือเมื่อคุณพบค่าสมดุลที่หายากนั้นแล้ว คุณอาจต้องเปลี่ยนอัตราการเรียนรู้ในท้ายที่สุด และเมื่อเปลี่ยนอัตราการเรียนรู้ คุณจะต้องหาอัตราการทำให้เป็นปกติที่เหมาะสมอีกครั้ง