การปรับให้เป็นมาตรฐานเพื่อความเรียบง่าย: การดำเนินการแบบ L2

พิจารณาเส้นโค้งทั่วไปต่อไปนี้ ซึ่งจะแสดงการสูญเสียทั้งชุดการฝึกและชุดการตรวจสอบเทียบกับจํานวนการฝึกซ้ำ

ฟังก์ชันการสูญเสียชุดการฝึกจะค่อยๆ ลดลง ในทางตรงกันข้าม ฟังก์ชันการสูญหายของชุดการตรวจสอบจะลดลง แต่หลังจากนั้นจะเริ่มเพิ่มขึ้น

รูปที่ 1 การสูญเสียชุดการฝึกและชุดการตรวจสอบ

รูปที่ 1 แสดงโมเดลที่การสูญเสียการฝึกค่อยๆ ลดลง แต่ท้ายที่สุดแล้ว การสูญเสียการตรวจสอบจะเพิ่มขึ้นในที่สุด กล่าวคือ เส้นโค้งภาพรวมนี้แสดงว่าโมเดลซ้อนทับกับข้อมูลในชุดการฝึก การสร้างช่องทางให้กับอ็อคแฮมภายในของเรา บางทีเราอาจป้องกันไม่ให้มีการใช้มากเกินไปด้วยการลงโทษโมเดลที่ซับซ้อน ซึ่งเป็นหลักการที่เรียกว่ารูปแบบการดำเนินงานทั่วไป

หรือพูดอีกอย่างก็คือ แทนที่จะมุ่งไปที่การลดความสูญเสียให้น้อยที่สุด (การลดความเสี่ยงเชิงประจักษ์)

$$\text{minimize(Loss(Data|Model))}$$

ตอนนี้เราจะลดการสูญเสีย+ความซับซ้อนให้น้อยที่สุด ซึ่งเรียกว่าการลดความเสี่ยงเชิงโครงสร้าง

$$\text{minimize(Loss(Data|Model) + complexity(Model))}$$

ตอนนี้อัลกอริทึมการเพิ่มประสิทธิภาพการฝึกทำงานเป็นฟังก์ชันของ 2 คำ ได้แก่ คำที่สูญเสียซึ่งใช้วัดว่าโมเดลเหมาะกับข้อมูลมากน้อยแค่ไหน และเงื่อนไขของรูปแบบการจัดการคงที่ซึ่งจะวัดความซับซ้อนของโมเดล

หลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงมุ่งเน้น 2 วิธีที่พบบ่อย (และค่อนข้างเกี่ยวข้องกัน) ในการนึกถึงความซับซ้อนของโมเดล

  • ความซับซ้อนของโมเดลในฐานะฟังก์ชันของน้ำหนักของฟีเจอร์ทั้งหมดในโมเดล
  • ความซับซ้อนของโมเดลในฐานะฟังก์ชันของจำนวนจุดสนใจทั้งหมดที่มีน้ำหนักไม่เท่ากับ 0 (โมดูลในภายหลัง ครอบคลุมวิธีการนี้)

หากความซับซ้อนของโมเดลเป็นฟังก์ชันของน้ำหนัก น้ำหนักของจุดสนใจที่มีค่าสัมบูรณ์สูงจะซับซ้อนกว่าน้ำหนักของจุดสนใจที่มีค่าสัมบูรณ์ต่ำ

เราสามารถหาปริมาณความซับซ้อนโดยใช้สูตร L2 เพื่อทำให้เป็นมาตรฐาน ซึ่งกำหนดคำศัพท์ของการปรับให้เป็นมาตรฐานเป็นผลรวมของกำลังสองของน้ำหนักฟีเจอร์ทั้งหมด ดังนี้

$$L_2\text{ regularization term} = ||\boldsymbol w||_2^2 = {w_1^2 + w_2^2 + ... + w_n^2}$$

ในสูตรนี้ น้ำหนักที่ใกล้กับ 0 จะมีผลต่อความซับซ้อนของโมเดลเพียงเล็กน้อย ขณะที่น้ำหนักที่มีค่าผิดปกติอาจมีผลกระทบอย่างมาก

ตัวอย่างเช่น รูปแบบเชิงเส้นที่มีน้ำหนักดังต่อไปนี้

$$\{w_1 = 0.2, w_2 = 0.5, w_3 = 5, w_4 = 1, w_5 = 0.25, w_6 = 0.75\}$$

มีระยะเวลาการกำหนดกฎ L2 เป็น 26.915 ดังนี้

$$w_1^2 + w_2^2 + \boldsymbol{w_3^2} + w_4^2 + w_5^2 + w_6^2$$ $$= 0.2^2 + 0.5^2 + \boldsymbol{5^2} + 1^2 + 0.25^2 + 0.75^2$$ $$= 0.04 + 0.25 + \boldsymbol{25} + 1 + 0.0625 + 0.5625$$ $$= 26.915$$

แต่ \(w_3\) (ตัวหนาด้านบน) ที่มีค่ายกกำลัง 2 เท่ากับ 25 มีส่วนทำให้เกิดความซับซ้อนเกือบทั้งหมด ผลรวมของกำลังสองของน้ำหนักอื่นๆ ทั้ง 5 จะบวกเพียง 1.915 ในคำศัพท์ของ L2