พิจารณาเส้นโค้งทั่วไปต่อไปนี้ ซึ่งจะแสดงการสูญเสียทั้งชุดการฝึกและชุดการตรวจสอบเทียบกับจํานวนการฝึกซ้ำ
รูปที่ 1 การสูญเสียชุดการฝึกและชุดการตรวจสอบ
รูปที่ 1 แสดงโมเดลที่การสูญเสียการฝึกค่อยๆ ลดลง แต่ท้ายที่สุดแล้ว การสูญเสียการตรวจสอบจะเพิ่มขึ้นในที่สุด กล่าวคือ เส้นโค้งภาพรวมนี้แสดงว่าโมเดลซ้อนทับกับข้อมูลในชุดการฝึก การสร้างช่องทางให้กับอ็อคแฮมภายในของเรา บางทีเราอาจป้องกันไม่ให้มีการใช้มากเกินไปด้วยการลงโทษโมเดลที่ซับซ้อน ซึ่งเป็นหลักการที่เรียกว่ารูปแบบการดำเนินงานทั่วไป
หรือพูดอีกอย่างก็คือ แทนที่จะมุ่งไปที่การลดความสูญเสียให้น้อยที่สุด (การลดความเสี่ยงเชิงประจักษ์)
ตอนนี้เราจะลดการสูญเสีย+ความซับซ้อนให้น้อยที่สุด ซึ่งเรียกว่าการลดความเสี่ยงเชิงโครงสร้าง
ตอนนี้อัลกอริทึมการเพิ่มประสิทธิภาพการฝึกทำงานเป็นฟังก์ชันของ 2 คำ ได้แก่ คำที่สูญเสียซึ่งใช้วัดว่าโมเดลเหมาะกับข้อมูลมากน้อยแค่ไหน และเงื่อนไขของรูปแบบการจัดการคงที่ซึ่งจะวัดความซับซ้อนของโมเดล
หลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงมุ่งเน้น 2 วิธีที่พบบ่อย (และค่อนข้างเกี่ยวข้องกัน) ในการนึกถึงความซับซ้อนของโมเดล
- ความซับซ้อนของโมเดลในฐานะฟังก์ชันของน้ำหนักของฟีเจอร์ทั้งหมดในโมเดล
- ความซับซ้อนของโมเดลในฐานะฟังก์ชันของจำนวนจุดสนใจทั้งหมดที่มีน้ำหนักไม่เท่ากับ 0 (โมดูลในภายหลัง ครอบคลุมวิธีการนี้)
หากความซับซ้อนของโมเดลเป็นฟังก์ชันของน้ำหนัก น้ำหนักของจุดสนใจที่มีค่าสัมบูรณ์สูงจะซับซ้อนกว่าน้ำหนักของจุดสนใจที่มีค่าสัมบูรณ์ต่ำ
เราสามารถหาปริมาณความซับซ้อนโดยใช้สูตร L2 เพื่อทำให้เป็นมาตรฐาน ซึ่งกำหนดคำศัพท์ของการปรับให้เป็นมาตรฐานเป็นผลรวมของกำลังสองของน้ำหนักฟีเจอร์ทั้งหมด ดังนี้
ในสูตรนี้ น้ำหนักที่ใกล้กับ 0 จะมีผลต่อความซับซ้อนของโมเดลเพียงเล็กน้อย ขณะที่น้ำหนักที่มีค่าผิดปกติอาจมีผลกระทบอย่างมาก
ตัวอย่างเช่น รูปแบบเชิงเส้นที่มีน้ำหนักดังต่อไปนี้
มีระยะเวลาการกำหนดกฎ L2 เป็น 26.915 ดังนี้
แต่ \(w_3\) (ตัวหนาด้านบน) ที่มีค่ายกกำลัง 2 เท่ากับ 25 มีส่วนทำให้เกิดความซับซ้อนเกือบทั้งหมด ผลรวมของกำลังสองของน้ำหนักอื่นๆ ทั้ง 5 จะบวกเพียง 1.915 ในคำศัพท์ของ L2