การกำหนดเป็นกฎ L2 คือเมตริกการทำให้เป็นมาตรฐานซึ่งเป็นที่นิยม ซึ่งใช้สูตรต่อไปนี้
เช่น ตารางต่อไปนี้แสดงการคำนวณ L2 การกำหนดมาตรฐานสำหรับโมเดลที่มีน้ำหนัก 6 แบบ ได้แก่
ค่า | ค่ายกกำลังสอง | |
---|---|---|
สัปดาห์ที่1 | 0.2 | 0.04 |
สัปดาห์ที่2 | -0.5 | 0.25 |
w3 | 5.0 | 25 วินาที |
w4 | -1.2 | 1.44 |
w5 | 0.3 | 0.09 |
ห6 | -0.1 | 0.01 |
26.83 = ทั้งหมด |
โปรดสังเกตว่าน้ำหนักที่ใกล้กับ 0 จะไม่ส่งผลต่อการกำหนดกฎ L2 แต่น้ำหนักที่มากก็มีผลอย่างมาก ตัวอย่างเช่น ใน การคำนวณก่อนหน้านี้:
- น้ำหนักเดียว (w3) คิดเป็นประมาณ 93% ของ ความซับซ้อนทั้งหมด
- น้ำหนักอีก 5 รายการรวมกันคิดเป็นประมาณ 7% ของ ความซับซ้อนทั้งหมด
การกำหนดมาตรฐาน L2 จะส่งเสริมให้น้ำหนักมุ่งสู่ 0 แต่ไม่เคยพุช น้ำหนักไปถึง 0
แบบฝึกหัด: ตรวจสอบความเข้าใจ
อัตราการทำให้เป็นมาตรฐาน (lambda)
ดังที่ได้กล่าวไปแล้ว การฝึกจะพยายามลดความสูญเสียและความซับซ้อนบางอย่าง ดังนี้
นักพัฒนาโมเดลจะปรับผลกระทบโดยรวมของความซับซ้อนที่มีต่อการฝึกโมเดล โดยการคูณค่าด้วยสเกลาร์ที่เรียกว่า อัตราปกติ ตัวอักษรกรีก lambda มักเป็นสัญลักษณ์ของอัตราการเรียงมาตรฐาน
กล่าวคือ นักพัฒนาซอฟต์แวร์โมเดลมีเป้าหมายที่จะดำเนินการต่อไปนี้
อัตราการทำให้เป็นมาตรฐานสูง:
- เสริมสร้างอิทธิพลของการทำความเสมอภาค ทำให้สามารถลดโอกาสในการ มากเกินไป
- มีแนวโน้มที่จะสร้างฮิสโตแกรมของน้ำหนักโมเดลที่มีสิ่งต่อไปนี้
ลักษณะเฉพาะ:
- การกระจายปกติ
- น้ำหนักเฉลี่ยเป็น 0
อัตราการทำให้เป็นมาตรฐานต่ำ:
- ลดอิทธิพลของการกำหนดมาตรฐาน ซึ่งช่วยเพิ่มโอกาสในการ มากเกินไป
- มีแนวโน้มที่จะสร้างฮิสโตแกรมของน้ำหนักโมเดลที่มีการแจกแจงแบบราบ
เช่น ฮิสโตแกรมของน้ำหนักโมเดลสำหรับอัตราการทำให้เป็นมาตรฐานสูง อาจมีหน้าตาดังแสดงในรูปที่ 18
ในทางตรงกันข้าม อัตราการกำหนดมาตรฐานที่ต่ำมีแนวโน้มที่จะให้ฮิสโตแกรมแบบแบนราบ ดังเช่น แสดงในรูปที่ 19
เลือกอัตราการกำหนดเป็นมาตรฐาน
อัตราการกำหนดมาตรฐานที่เหมาะสมจะสร้างรูปแบบที่เป็นภาพรวม ข้อมูลใหม่ๆ ที่ไม่เคยเห็นก่อนหน้านี้ แต่ค่าในอุดมคติจะขึ้นอยู่กับข้อมูล คุณจึงต้องดำเนินการบางอย่าง การปรับแต่ง
การหยุดก่อนกำหนด: ทางเลือกที่ใช้แทนการกำหนดมาตรฐานตามความซับซ้อน
การหยุดก่อนกำหนดเป็น วิธีการจัดระเบียบที่ไม่ต้องคำนวณความซับซ้อน แต่การหยุดก่อนกำหนดหมายความถึงการสิ้นสุดการฝึกก่อนโมเดล ผสานรวมอย่างสมบูรณ์ ตัวอย่างเช่น คุณจะสิ้นสุดการฝึกเมื่อเส้นโค้งการสูญเสีย สำหรับชุดการตรวจสอบเริ่มเพิ่มขึ้น (ความชันเปลี่ยนเป็นบวก)
แม้ว่าการหยุดก่อนกำหนดมักจะเพิ่มการสูญเสียการฝึกฝน แต่ก็อาจลด การสูญเสียการทดสอบ
การหยุดก่อนกำหนดคือรูปแบบของการปรับมาตรฐานอย่างรวดเร็วแต่ไม่ค่อยมีประสิทธิภาพ โมเดลที่ได้ไม่น่าจะดีเท่ากับโมเดลที่ฝึก ให้ละเอียดถี่ถ้วนในเรื่องอัตราการทำให้เป็นมาตรฐานที่ต้องการ
การหาสมดุลระหว่างอัตราการเรียนรู้กับอัตราการทำให้เป็นมาตรฐาน
อัตราการเรียนรู้และ อัตราการแปลงมาตรฐานมักจะดึงน้ำหนักไปในทางตรงกันข้าม เส้นทาง อัตราการเรียนรู้ที่สูงมักทำให้น้ำหนักหายไปจาก 0 อัตรามาตรฐานที่สูงจะดึงน้ำหนักไปยัง 0
หากอัตราการทำให้เป็นมาตรฐานสูงเมื่อเทียบกับอัตราการเรียนรู้ น้ำหนักที่มีประสิทธิภาพต่ำมีแนวโน้มที่จะสร้างโมเดลที่สามารถคาดการณ์ได้ไม่ดี ในทางกลับกัน หากอัตราการเรียนรู้สูงเมื่อเทียบกับการปรับให้เป็นมาตรฐาน น้ำหนักมากมีแนวโน้มที่จะสร้างรูปแบบที่โอเวอร์ฟิตได้
เป้าหมายของคุณคือการหาสมดุลระหว่างอัตราการเรียนรู้กับ มาตรฐาน นี่อาจเป็นเรื่องที่ท้าทาย ที่แย่ที่สุดก็คือ เมื่อพบ ความสมดุลที่เข้าใจยาก คุณอาจต้องเปลี่ยนอัตราการเรียนรู้ในท้ายที่สุด และเมื่อเปลี่ยนอัตราการเรียนรู้ ก็ต้องหาโอกาสที่เหมาะสมอีกครั้ง มาตรฐาน