Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Overfitting: การปรับมาตรฐาน L2

การทำ Regularization แบบ _L2 เป็นเมตริกการทำ Regularization ที่ได้รับความนิยม ซึ่งใช้สูตรต่อไปนี้

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

ตัวอย่างเช่น ตารางต่อไปนี้แสดงการคำนวณ Regularization L₂ สำหรับโมเดลที่มีน้ำหนัก 6 รายการ

	ค่า	ค่าที่ยกกำลัง 2
w₁	0.2	0.04
w₂	-0.5	0.25
w₃	5.0	25.0
w₄	-1.2	1.44
w₅	0.3	0.09
w₆	-0.1	0.01
		26.83 = ทั้งหมด

โปรดทราบว่าค่าถ่วงน้ำหนักที่ใกล้ 0 จะไม่ส่งผลต่อ Regularization L₂ มากนัก แต่ค่าถ่วงน้ำหนักที่มากอาจส่งผลกระทบอย่างมาก ตัวอย่างเช่น ใน การคำนวณก่อนหน้านี้

น้ำหนักเดียว (w₃) มีส่วนทำให้เกิดความซับซ้อนทั้งหมดประมาณ 93%
ส่วนอีก 5 น้ำหนักรวมกันมีส่วนทำให้เกิดความซับซ้อนทั้งหมดเพียงประมาณ 7%

การทำให้เป็นค่าปกติ L₂ จะกระตุ้นให้ค่าถ่วงน้ำหนักเข้าใกล้ 0 แต่จะไม่ทำให้ค่าถ่วงน้ำหนักเป็น 0 ทั้งหมด

แบบฝึกหัด: ตรวจสอบความเข้าใจ

หากคุณใช้การทำให้เป็นปกติ L₂ ขณะฝึกโมเดล โดยปกติแล้วความซับซ้อนโดยรวมของโมเดลจะเป็นอย่างไร

ความซับซ้อนโดยรวมของระบบอาจลดลง

เนื่องจากการควบคุม L₂ จะกระตุ้นให้ค่าถ่วงน้ำหนักเข้าใกล้ 0 ความซับซ้อนโดยรวมจึงน่าจะลดลง

ความซับซ้อนโดยรวมของโมเดลอาจจะยังคง เท่าเดิม

ซึ่งมีโอกาสน้อยมากที่จะเกิดขึ้น

ความซับซ้อนโดยรวมของโมเดลอาจเพิ่มขึ้น

ซึ่งเป็นไปได้ยาก โปรดทราบว่าการทำให้เป็นค่าปกติ L₂ จะกระตุ้นให้ค่าถ่วงน้ำหนักเข้าใกล้ 0

หากคุณใช้การทำให้เป็นปกติ L₂ ขณะฝึกโมเดล ระบบจะนำฟีเจอร์บางอย่างออกจากโมเดล

จริง

แม้ว่าการปรับค่า L₂ อาจทำให้ค่าถ่วงน้ำหนักบางค่ามีขนาดเล็กมาก แต่จะไม่ทำให้ค่าถ่วงน้ำหนักใดๆ เป็น 0 ดังนั้น ฟีเจอร์ทั้งหมดจะยังคงมีส่วนช่วยในโมเดล

เท็จ

Regularization L₂ จะไม่ทำให้ค่าถ่วงน้ำหนักเป็น 0 ทั้งหมด

อัตรา Regularization (แลมบ์ดา)

ดังที่กล่าวไว้ การฝึกพยายามลดการสูญเสียและความซับซ้อนบางอย่างร่วมกัน

$$\text{minimize(loss} + \text{ complexity)}$$

ผู้พัฒนาโมเดลจะปรับผลกระทบโดยรวมของความซับซ้อนต่อการฝึกโมเดล โดยการคูณค่าด้วยสเกลาร์ที่เรียกว่าอัตราการทำให้เป็นปกติ โดยปกติแล้วอักขระแลมด้าของกรีกจะแสดงถึงอัตรา Regularization

กล่าวคือ นักพัฒนาโมเดลมีเป้าหมายที่จะทำสิ่งต่อไปนี้

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

อัตรา Regularization สูง

เพิ่มอิทธิพลของการปรับค่าปกติ ซึ่งจะช่วยลดโอกาสที่จะเกิด การปรับมากเกินไป
มีแนวโน้มที่จะสร้างฮิสโตแกรมของน้ำหนักโมเดลที่มีลักษณะต่อไปนี้
- การกระจายปกติ
- มีน้ำหนักเฉลี่ยเป็น 0

อัตราการทำให้เป็นปกติต่ำ

ลดอิทธิพลของการทำให้เป็นปกติ ซึ่งจะเพิ่มโอกาสในการปรับมากเกินไป
มีแนวโน้มที่จะสร้างฮิสโตแกรมของน้ำหนักโมเดลที่มีการกระจายแบบแบน

ตัวอย่างเช่น ฮิสโทแกรมของน้ำหนักโมเดลสำหรับอัตรา Regularization สูง อาจมีลักษณะดังที่แสดงในรูปที่ 18

รูปที่ 18 ฮิสโตแกรมของน้ำหนักของโมเดลที่มีค่าเฉลี่ยเป็น 0 และ
การแจกแจงแบบปกติ — **รูปที่ 18** ฮิสโตแกรมน้ำหนักสำหรับอัตรา Regularization สูง ค่าเฉลี่ยเป็น 0 การกระจายปกติ

ในทางตรงกันข้าม อัตรา Regularization ที่ต่ำมักจะทำให้ฮิสโตแกรมแบนราบมากขึ้น ดังที่แสดงในรูปที่ 19

รูปที่ 19 ฮิสโทแกรมของน้ำหนักของโมเดลที่มีค่าเฉลี่ยเป็น 0 ซึ่ง
อยู่ระหว่างการกระจายแบบแบนและการกระจายแบบปกติ — **รูปที่ 19** ฮิสโตแกรมน้ำหนักสำหรับอัตรา Regularization ต่ำ ค่าเฉลี่ยอาจเป็น 0 หรือไม่ก็ได้

จะทำให้มีความเสี่ยงที่จะเกิดการปรับมากเกินไปสูงที่สุด

การเลือกอัตรา Regularization

อัตรา Regularization ที่เหมาะสมจะสร้างโมเดลที่สรุปข้อมูลใหม่ที่ไม่เคยเห็นมาก่อนได้ดี แต่ค่าที่เหมาะสมนั้นขึ้นอยู่กับข้อมูล ดังนั้นคุณจึงต้องทำการ การปรับแต่ง

การหยุดก่อนเวลา: ทางเลือกแทน Regularization ที่อิงตามความซับซ้อน

การหยุดก่อนเวลาเป็นวิธีการ Regularization ที่ไม่เกี่ยวข้องกับการคำนวณความซับซ้อน แต่การหยุดก่อนกำหนดหมายถึงการสิ้นสุดการฝึกก่อนที่โมเดลจะ บรรจบกันอย่างสมบูรณ์ เช่น คุณจะสิ้นสุดการฝึกเมื่อเส้นโค้งการสูญเสียสำหรับชุดข้อมูลสำหรับตรวจสอบความถูกต้องเริ่มเพิ่มขึ้น (ความชันกลายเป็นบวก)

แม้ว่าการหยุดก่อนเวลาจะเพิ่มการสูญเสียการฝึก แต่ก็สามารถลดการสูญเสียการทดสอบได้

การหยุดก่อนเวลาเป็นรูปแบบ Regularization ที่รวดเร็ว แต่ไม่ค่อยเหมาะสม โมเดลที่ได้จึงไม่น่าจะดีเท่าโมเดลที่ได้รับการฝึกอย่างละเอียดในอัตราการควบคุมที่เหมาะสม

การหาสมดุลระหว่างอัตราการเรียนรู้กับอัตราการปรับค่าปกติ

อัตราการเรียนรู้และอัตรา Regularization มักจะย้ายน้ำหนักไปในทิศทางตรงกันข้าม อัตราการเรียนรู้ที่สูงมักจะดึงน้ำหนักออกจากศูนย์ อัตราการควบคุมแบบปกติที่สูงจะดันน้ำหนักเข้าหาศูนย์

หากอัตราการทำให้เป็นปกติสูงเมื่อเทียบกับอัตราการเรียนรู้ น้ำหนักที่อ่อนแอมีแนวโน้มที่จะสร้างโมเดลที่ทําการคาดการณ์ได้ไม่ดี ในทางกลับกัน หากอัตราการเรียนรู้สูงเมื่อเทียบกับอัตราการทำให้เป็นปกติ น้ำหนักที่มากมักจะทำให้เกิดโมเดลที่ Overfit

เป้าหมายของคุณคือการหาสมดุลระหว่างอัตราการเรียนรู้กับอัตราการปรับค่าปกติ ซึ่งอาจเป็นเรื่องท้าทาย ที่แย่ที่สุดคือเมื่อคุณพบค่าสมดุลที่หายากนั้นแล้ว คุณอาจต้องเปลี่ยนอัตราการเรียนรู้ในท้ายที่สุด และเมื่อเปลี่ยนอัตราการเรียนรู้ คุณจะต้องหาอัตราการทำให้เป็นปกติที่เหมาะสมอีกครั้ง

ความซับซ้อนของโมเดล (10 นาที)

การตีความเส้นโค้งการสูญเสีย (10 นาที)