การถดถอยเชิงเส้น: การสูญเสีย

Loss เป็นเมตริกตัวเลขที่อธิบายว่าการคาดการณ์ของโมเดลไม่ถูกต้องเพียงใด ค่าการสูญเสียจะวัดระยะห่างระหว่างการคาดการณ์ของโมเดลกับป้ายกำกับจริง เป้าหมายของการฝึกโมเดลคือการลดการสูญเสียให้เหลือน้อยที่สุด โดยลดค่าให้ต่ำที่สุด

ในภาพต่อไปนี้ คุณสามารถแสดงภาพการสูญเสียเป็นลูกศรที่วาดจากจุดข้อมูลไปยังโมเดล รูปลูกศรแสดงระยะห่างระหว่างการคาดการณ์ของโมเดลกับค่าจริง

รูปที่ 9 เส้นที่สูญเสียไปจะเชื่อมต่อจุดข้อมูลกับโมเดล

รูปที่ 9 โดยวัดการสูญเสียจากค่าจริงไปยังค่าที่คาดการณ์

ระยะทางการสูญหาย

ในสถิติและแมชชีนเลิร์นนิง ผลลัพธ์ที่เสียไปจะวัดความแตกต่างระหว่างค่าที่คาดการณ์ไว้กับค่าจริง การสูญเสียจะมุ่งเน้นที่ระยะห่างระหว่างค่า ไม่ใช่ทิศทาง เช่น หากโมเดลคาดการณ์เป็น 2 แต่ค่าจริงคือ 5 เราจะไม่สนใจว่าค่าสูญเสียเป็นลบ $ -3 $ ($ 2-5=-3 $) แต่สนใจระยะห่างระหว่างค่าคือ $ 3 $ ดังนั้นวิธีการทั้งหมดในการคํานวณการสูญเสียจึงนําเครื่องหมายลบออก

วิธีการ 2 วิธีที่นิยมใช้กันมากที่สุดในการนำป้ายออกมีดังนี้

  • นำค่าสัมบูรณ์ของผลต่างระหว่างค่าจริงกับการคาดการณ์
  • ยกกำลังสองของผลต่างระหว่างค่าจริงกับการคาดการณ์

ประเภทของการสูญเสีย

ในการถดถอยเชิงเส้นจะมีความสูญเสีย 4 ประเภทหลักๆ ซึ่งแสดงในตารางต่อไปนี้

ประเภทการสูญเสีย คำจำกัดความ สมการ
L1 loss ผลรวมของค่าสัมบูรณ์ของความแตกต่างระหว่างค่าที่คาดการณ์กับค่าจริง $ ∑ | actual\ value - predicted\ value | $
ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ (MAE) ค่าเฉลี่ยของการสูญเสีย L1 ในชุดตัวอย่าง $ \frac{1}{N} ∑ | ค่า\ จริง - ค่าที่คาดการณ์ | $
L2 loss ผลรวมของผลต่างกำลังสองระหว่างค่าที่คาดการณ์กับค่าจริง $ ∑(actual\ value - predicted\ value)^2 $
ความคลาดเคลื่อนเฉลี่ยกำลังสอง (MSE) ค่าเฉลี่ยของการสูญเสีย L2 จากตัวอย่างชุดหนึ่ง $ \frac{1}{N} ∑ (ค่าจริง\ - ค่าที่คาดการณ์ไว้\)^2 $

ความแตกต่างด้านฟังก์ชันระหว่างการสูญเสีย L1 กับการสูญเสีย L2 (หรือระหว่าง MAE กับ MSE) คือการหาร เมื่อความแตกต่างระหว่างการคาดคะเนและป้ายกำกับมีมาก การแยกกันทำให้ผลการขาดหายมากขึ้นไปอีก เมื่อความแตกต่างน้อย (น้อยกว่า 1) การยกกำลังสองจะทำให้ความสูญเสียน้อยลงไปอีก

เมื่อประมวลผลหลายตัวอย่างพร้อมกัน เราขอแนะนำให้หาค่าเฉลี่ยของการสูญเสียในตัวอย่างทั้งหมด ไม่ว่าจะใช้ MAE หรือ MSE

ตัวอย่างการคำนวณการสูญเสีย

เราจะคํานวณการสูญเสีย L2 สําหรับตัวอย่างเดียวโดยใช้เส้นค่าสัมประสิทธิ์การถดถอยที่เหมาะสมที่สุดก่อนหน้านี้ จากแผนภูมิขนาดที่เหมาะสมที่สุด เราได้ระบุค่าต่อไปนี้สำหรับน้ำหนักและการให้น้ำหนักพิเศษ

  • $ \small{Weight: -3.6} $
  • $ \small{Bias: 30} $

หากโมเดลคาดการณ์ว่ารถที่มีน้ำหนัก 2,370 ปอนด์จะวิ่งได้ 21.5 ไมล์ต่อแกลลอน แต่วิ่งได้ 24 ไมล์ต่อแกลลอน เราจะคำนวณ Loss L2 ดังนี้

ค่า สมการ ผลลัพธ์
การคาดการณ์

$\small{bias + (weight * feature\ value)}$

$\small{30 + (-3.6*2.37)}$

$\small{21.5}$
มูลค่าที่แท้จริง $ \small{ label } $ $ \small{ 24 } $
อัตราสูญเสีย L2

$ \small{ (prediction - actual\ value)^2} $

$\small{ (21.5 - 24)^2 }$

$\small{6.25}$

ในตัวอย่างนี้ อัตราสูญเสีย L2 สำหรับจุดข้อมูลเดียวนั้นคือ 6.25

การเลือกการสูญเสีย

การตัดสินใจว่าจะใช้ MAE หรือ MSE ขึ้นอยู่กับชุดข้อมูลและวิธีที่คุณต้องการจัดการการคาดการณ์บางอย่าง โดยปกติแล้วค่าฟีเจอร์ส่วนใหญ่ในชุดข้อมูลจะอยู่ในช่วงที่ต่างกัน ตัวอย่างเช่น รถยนต์มักจะมีน้ำหนักระหว่าง 2,000 ถึง 5,000 ปอนด์ และวิ่งได้ 8-50 ไมล์ต่อแกลลอน รถที่มีน้ำหนัก 8,000 ปอนด์หรือรถที่วิ่งได้ 100 ไมล์ต่อแกลลอนอยู่นอกช่วงที่พบได้ทั่วไปและจะถือว่าเป็นค่าผิดปกติ

ค่าผิดปกติยังสามารถหมายถึงระยะห่างจากการคาดการณ์ของโมเดลจากค่าจริงได้อีกด้วย ตัวอย่างเช่น รถยนต์หนัก 3,000 ปอนด์หรือรถที่มีความเร็ว 40 ไมล์ต่อแกลลอนอยู่ในช่วงทั่วไป อย่างไรก็ตาม รถ 3,000 ปอนด์ที่วิ่งได้ 40 ไมล์ต่อแกลลอนจะถือเป็นค่าผิดปกติในแง่ของการคาดการณ์ของโมเดล เนื่องจากโมเดลจะคาดการณ์ว่ารถ 3,000 ปอนด์จะวิ่งได้ 18-20 ไมล์ต่อแกลลอน

เมื่อเลือกฟังก์ชันการสูญเสียโปรไฟล์ที่ดีที่สุด ให้พิจารณาว่าต้องการให้โมเดลจัดการกับค่าผิดปกติอย่างไร เช่น MSE จะทําให้โมเดลเข้าใกล้ค่าที่ผิดปกติมากขึ้น ขณะที่ MAE ไม่ทําเช่นนั้น การสูญเสีย L2 จะมีบทลงโทษสูงกว่ามากสําหรับค่าที่ผิดปกติเมื่อเทียบกับการสูญเสีย L1 เช่น รูปภาพต่อไปนี้แสดงโมเดลที่ฝึกโดยใช้ MAE และโมเดลที่ฝึกโดยใช้ MSE เส้นสีแดงแสดงโมเดลที่ผ่านการฝึกอบรมอย่างสมบูรณ์ซึ่งจะใช้ทําการคาดการณ์ ค่าผิดปกติมีความใกล้เคียงกับโมเดลที่ฝึกด้วย MSE มากกว่าโมเดลที่ฝึกด้วย MAE

รูปที่ 10 โมเดลมีการเอียงไปทางค่าผิดปกติมากกว่า

รูปที่ 10 โมเดลที่ฝึกด้วย MSE จะย้ายโมเดลเข้าใกล้ค่าที่ผิดปกติมากขึ้น

รูปที่ 11 โมเดลจะเอียงออกไปจากค่าที่ผิดปกติมากขึ้น

รูปที่ 11 โมเดลที่ฝึกด้วย MAE อยู่ไกลกว่าค่าผิดปกติ

โปรดสังเกตความสัมพันธ์ระหว่างรูปแบบกับข้อมูล

  • MSE โมเดลอยู่ใกล้กับค่าที่ผิดปกติ แต่อยู่ห่างจากจุดข้อมูลอื่นๆ ส่วนใหญ่

  • MAE โมเดลอยู่ห่างจากค่าที่ผิดปกติ แต่อยู่ใกล้กับจุดข้อมูลอื่นๆ ส่วนใหญ่

ทดสอบความเข้าใจ

ลองพิจารณาผัง 2 รายการต่อไปนี้

ผัง 10 จุด
      เส้นผ่านจุด 6 จุด 2 จุดอยู่เหนือเส้น 1 หน่วย ส่วนอีก 2 จุดอยู่ใต้เส้น 1 หน่วย ผัง 10 จุด เส้นผ่านจุด 8 จุด 1 จุดคือ 2 หน่วยเหนือเส้น ส่วนอีก 1 จุดคือ 2 หน่วยใต้เส้น
ชุดข้อมูล 2 ชุดที่แสดงในพล็อตก่อนหน้ามีค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (MSE) สูงกว่า
ชุดข้อมูลทางด้านซ้าย
ตัวอย่าง 6 รายการในบรรทัดนี้มีผลขาดทุนรวม 0 ตัวอย่าง 4 รายการที่ไม่ได้อยู่ในบรรทัดก็ไม่ได้อยู่ไกลจากเส้นแบ่งนี้ ดังนั้นแม้แต่การยกกำลังสองอัตราค่าชดเชยก็ยังคงให้ค่าต่ำ: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 = {0^2} + {0^2}
ชุดข้อมูลทางด้านขวา
ตัวอย่าง 8 รายการในบรรทัดนี้ขาดทุนรวม 0 อย่างไรก็ตาม แม้ว่าจะมีเพียง 2 จุดที่อยู่นอกเส้น แต่ทั้ง 2 จุดนั้นอยู่นอกเส้นเป็น 2 เท่าของจุดที่ผิดปกติในรูปภาพด้านซ้าย การสูญเสียในสี่เหลี่ยมเป็นการขยายความความแตกต่างเหล่านั้น ดังนั้น ออฟเซ็ตของ 2 จะทำให้เกิดการสูญเสียเป็น 4 เท่าเมื่อเทียบกับออฟเซ็ตของ 1: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2} + {0^2}