การถดถอยเชิงเส้น: ค่าการสูญเสีย

Loss คือเมตริกเชิงตัวเลขที่อธิบายว่าการคาดการณ์ของโมเดลผิดพลาดมากน้อยเพียงใด การสูญเสียจะวัดระยะห่างระหว่างการคาดการณ์ของโมเดลกับป้ายกำกับจริง เป้าหมายของการฝึกโมเดลคือการลด Loss ให้น้อยที่สุด ซึ่งก็คือการลด Loss ให้เหลือค่าที่ต่ำที่สุดเท่าที่จะเป็นไปได้

ในรูปภาพต่อไปนี้ คุณจะเห็นภาพการสูญเสียเป็นลูกศรที่วาดจากจุดข้อมูลไปยังโมเดล ลูกศรแสดงให้เห็นว่าการคาดการณ์ของโมเดลอยู่ห่างจากค่าจริงมากน้อยเพียงใด

รูปที่ 8 เส้นการสูญเสียจะเชื่อมต่อจุดข้อมูลกับ
โมเดล

รูปที่ 8 การสูญเสียจะวัดจากค่าจริงไปยังค่าที่คาดการณ์

ระยะทางที่สัญญาณขาดหาย

ในสถิติและแมชชีนเลิร์นนิง การสูญเสียจะวัดความแตกต่างระหว่างค่าที่คาดการณ์และค่าจริง Loss จะเน้นที่ระยะห่างระหว่างค่า ไม่ใช่ทิศทาง เช่น หากโมเดลคาดการณ์เป็น 2 แต่ค่าจริงคือ 5 เราไม่สนใจว่าค่า Loss จะเป็นลบ (2 – 5 = -3) แต่เราสนใจว่าระยะห่างระหว่างค่าต่างๆ คือ 3 ดังนั้น วิธีการคำนวณการสูญเสียทั้งหมด จึงนำเครื่องหมายออก

2 วิธีที่พบบ่อยที่สุดในการนำลายเซ็นออกมีดังนี้

ใช้ค่าสัมบูรณ์ของความแตกต่างระหว่างค่าจริงกับค่าที่คาดการณ์
ยกกำลังสองความแตกต่างระหว่างค่าจริงกับการคาดการณ์

ประเภทของการสูญเสีย

ในการถดถอยเชิงเส้น การสูญเสียมี 5 ประเภทหลัก ซึ่งสรุปไว้ในตารางต่อไปนี้

ประเภทการสูญเสีย	คำจำกัดความ	สมการ
การสูญเสีย _L1	ผลรวมของค่าสัมบูรณ์ของความแตกต่าง ระหว่างค่าที่คาดการณ์กับค่าจริง	$ ∑ \| ค่าจริง - ค่าที่คาดการณ์ \| $
ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ (MAE)	ค่าเฉลี่ยของการสูญเสีย L₁ ในชุดตัวอย่าง N	$ \frac{1}{N} ∑ \| ค่าจริง - ค่าที่คาดการณ์ \| $
L₂ loss	ผลรวมของผลต่างกำลังสอง ระหว่างค่าที่คาดการณ์และค่าจริง	$ ∑(ค่าจริง - ค่าที่คาดการณ์)^2 $
ความคลาดเคลื่อนเฉลี่ยกำลังสอง (MSE)	ค่าเฉลี่ยของความสูญเสีย L₂ ในชุดตัวอย่าง N	$ \frac{1}{N} ∑ (actual\ value - predicted\ value)^2 $
ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)	สแควรูทของความคลาดเคลื่อนเฉลี่ยกำลังสอง (MSE)	$ \sqrt{\frac{1}{N} ∑ (actual\ value - predicted\ value)^2} $

ความแตกต่างด้านฟังก์ชันระหว่างการสูญเสีย L₁ กับการสูญเสีย L₂ (หรือระหว่าง MAE/RMSE กับ MSE) คือการยกกำลังสอง เมื่อความแตกต่างระหว่างการคาดการณ์กับป้ายกำกับมีค่ามาก การยกกำลังสองจะทำให้ค่า Loss มากยิ่งขึ้น เมื่อความแตกต่างมีน้อย (น้อยกว่า 1) การยกกำลังสองจะทำให้การสูญเสียยิ่งน้อยลง

เมตริกการสูญเสีย เช่น MAE และ RMSE อาจดีกว่าการสูญเสีย L₂ หรือ MSE ในกรณีการใช้งานบางอย่าง เนื่องจากมักจะตีความได้ง่ายกว่า เพราะเมตริกเหล่านี้วัดข้อผิดพลาดโดยใช้มาตราส่วนเดียวกับค่าที่โมเดลคาดการณ์

เมื่อประมวลผลตัวอย่างหลายรายการพร้อมกัน เราขอแนะนำให้หาค่าเฉลี่ยของค่าสูญเสีย ในตัวอย่างทั้งหมด ไม่ว่าจะใช้ MAE, MSE หรือ RMSE

ตัวอย่างการคำนวณการสูญเสีย

ในส่วนก่อนหน้า เราได้สร้างโมเดลต่อไปนี้เพื่อคาดการณ์ประสิทธิภาพการใช้เชื้อเพลิงตาม ความหนักของรถยนต์

โมเดล: $ y' = 34 + (-4.6)(x_1) $
- น้ำหนัก: $ –4.6 $
- ค่าอคติ: $ 34 $

หากโมเดลคาดการณ์ว่ารถยนต์ที่มีน้ำหนัก 2,370 ปอนด์จะวิ่งได้ 23.1 ไมล์ต่อแกลลอน แต่ในความเป็นจริงวิ่งได้ 24 ไมล์ต่อแกลลอน เราจะคำนวณการสูญเสีย L₂ ดังนี้

ค่า	สมการ	ผลลัพธ์
การคาดการณ์	$\small{bias + (weight * feature\ value)}$ $\small{34 + (-4.6*2.37)}$	$\small{23.1}$
มูลค่าที่แท้จริง	$ \small{ label } $	$ \small{ 24 } $
การสูญเสีย L₂	$ \small{ (ค่าจริง - ค่าที่คาดการณ์)^2 } $ $\small{ (24 - 23.1)^2 }$	$\small{0.81}$

ค่า

สมการ

ผลลัพธ์

การคาดการณ์

$\small{bias + (weight * feature\ value)}$

$\small{34 + (-4.6*2.37)}$

$\small{23.1}$

มูลค่าที่แท้จริง

$ \small{ label } $

$ \small{ 24 } $

การสูญเสีย L₂

$ \small{ (ค่าจริง - ค่าที่คาดการณ์)^2 } $

$\small{ (24 - 23.1)^2 }$

$\small{0.81}$

ในตัวอย่างนี้ การสูญเสีย L₂ สำหรับจุดข้อมูลเดียวคือ 0.81

การเลือกการสูญเสีย

การตัดสินใจว่าจะใช้ MAE หรือ MSE อาจขึ้นอยู่กับชุดข้อมูลและวิธีที่คุณ ต้องการจัดการการคาดการณ์บางอย่าง โดยปกติแล้วค่าฟีเจอร์ส่วนใหญ่ในชุดข้อมูลจะ อยู่ในช่วงที่แตกต่างกัน เช่น โดยปกติแล้ว รถยนต์จะมีน้ำหนักระหว่าง 2,000 ถึง 5,000 ปอนด์ และวิ่งได้ระหว่าง 8 ถึง 50 ไมล์ต่อแกลลอน รถยนต์ที่มีน้ำหนัก 8,000 ปอนด์ หรือรถยนต์ที่วิ่งได้ 100 ไมล์ต่อแกลลอนอยู่นอกช่วงปกติและถือเป็นค่าผิดปกติ

ค่าผิดปกติยังหมายถึงความคลาดเคลื่อนของการคาดการณ์ของโมเดลจากค่าจริงได้ด้วย เช่น 3,000 ปอนด์อยู่ในช่วงน้ำหนักรถยนต์ทั่วไป และ 40 ไมล์ต่อแกลลอนอยู่ในช่วงประสิทธิภาพการใช้เชื้อเพลิงทั่วไป อย่างไรก็ตาม รถยนต์หนัก 3,000 ปอนด์ที่วิ่งได้ 40 ไมล์ต่อแกลลอนจะเป็นค่าผิดปกติในแง่ของการคาดการณ์ของโมเดล เนื่องจากโมเดลจะคาดการณ์ว่ารถยนต์หนัก 3,000 ปอนด์จะวิ่งได้ประมาณ 20 ไมล์ต่อแกลลอน

เมื่อเลือกฟังก์ชันการสูญเสียที่ดีที่สุด ให้พิจารณาว่าคุณต้องการให้โมเดลจัดการกับค่าผิดปกติอย่างไร เช่น MSE จะย้ายโมเดลไปทางค่าที่ผิดปกติมากขึ้น ในขณะที่ MAE จะไม่ทำ การสูญเสีย L₂ จะทำให้เกิดค่าปรับที่สูงกว่ามากสำหรับค่าผิดปกติเมื่อเทียบกับ การสูญเสีย L₁ ตัวอย่างเช่น รูปภาพต่อไปนี้แสดงโมเดลที่ฝึก โดยใช้ MAE และโมเดลที่ฝึกโดยใช้ MSE เส้นสีแดงแสดงถึงโมเดลที่ได้รับการฝึกอย่างเต็มที่ ซึ่งจะใช้ในการคาดการณ์ ค่าที่ผิดปกติจะใกล้เคียงกับ โมเดลที่ฝึกด้วย MSE มากกว่าโมเดลที่ฝึกด้วย MAE

รูปที่ 9 โมเดลจะเอนเอียงไปทางค่าที่ผิดปกติมากกว่า

รูปที่ 9 การสูญเสีย MSE จะทำให้โมเดลเข้าใกล้ค่าผิดปกติมากขึ้น

รูปที่ 10 โมเดลจะเอียงออกจากค่าผิดปกติมากขึ้น

รูปที่ 10 การสูญเสีย MAE จะทำให้โมเดลอยู่ห่างจากค่าที่ผิดปกติมากขึ้น

โปรดทราบความสัมพันธ์ระหว่างโมเดลกับข้อมูล

MSE โมเดลอยู่ใกล้ค่าที่ผิดปกติมากกว่า แต่ไกลจากจุดข้อมูลอื่นๆ ส่วนใหญ่
MAE โมเดลอยู่ห่างจากค่าที่ผิดปกติมากขึ้น แต่ใกล้กับจุดข้อมูลอื่นๆ ส่วนใหญ่มากขึ้น

คลิกไอคอนเพื่อดูหลักเกณฑ์เพิ่มเติมเกี่ยวกับการเลือกเมตริกการสูญเสีย

เลือก MSE:

หากต้องการลงโทษข้อผิดพลาดขนาดใหญ่อย่างหนัก
หากคุณเชื่อว่าค่าผิดปกติมีความสําคัญและบ่งบอกถึงความแปรปรวนของข้อมูลจริง ที่โมเดลควรพิจารณา

เลือก MAE:

หากชุดข้อมูลมีค่าผิดปกติที่สำคัญซึ่งคุณไม่ต้องการให้มีอิทธิพลต่อโมเดลมากเกินไป MAE มีความแข็งแกร่งมากขึ้น
หากต้องการฟังก์ชัน Loss ที่ตีความได้โดยตรงมากขึ้นเป็น ขนาดข้อผิดพลาดเฉลี่ย

ในทางปฏิบัติ การเลือกเมตริกยังขึ้นอยู่กับปัญหาทางธุรกิจที่เฉพาะเจาะจงและข้อผิดพลาดประเภทใดที่ทำให้เสียค่าใช้จ่ายมากกว่า

ทดสอบความเข้าใจ

พิจารณากราฟ 2 กราฟต่อไปนี้ของโมเดลเชิงเส้นที่ปรับให้เข้ากับชุดข้อมูล

แปลงจุด 10 จุด
เส้นตรงผ่านจุด 6 จุด 2 จุดอยู่เหนือเส้น 1 หน่วย
และอีก 2 จุดอยู่ใต้เส้น 1 หน่วย

แปลงจุด 10 จุด เส้นตรงที่ลากผ่านจุด 8 จุด
1 จุดอยู่เหนือเส้น 2 หน่วย
อีก 1 จุดอยู่ใต้เส้น 2 หน่วย

โมเดลเชิงเส้น 2 โมเดลที่แสดงในพล็อตก่อนหน้า โมเดลใดมีค่าความคลาดเคลื่อนกำลังสองเฉลี่ย (MSE) สูงกว่าเมื่อประเมิน ในจุดข้อมูลที่พล็อต

โมเดลทางด้านซ้าย

ตัวอย่างทั้ง 6 รายการในบรรทัดนี้ทำให้เกิดการขาดทุนรวมเป็น 0 ตัวอย่าง 4 รายการที่ไม่อยู่บนเส้นตรงนั้นอยู่ไม่ไกลจากเส้นตรงมากนัก ดังนั้นแม้จะยกกำลังสองออฟเซ็ต ค่าที่ได้ก็ยังคงต่ำอยู่ $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$

โมเดลทางด้านขวา

ตัวอย่างทั้ง 8 รายการในบรรทัดนี้ทำให้ขาดทุนรวม 0 อย่างไรก็ตาม แม้จะมีเพียง 2 จุดที่อยู่นอกเส้น แต่ทั้ง 2 จุดนั้น อยู่ไกลจากเส้นเป็น 2 เท่าของจุดที่อยู่นอกค่าผิดปกติ ในรูปทางซ้าย การสูญเสียกำลังสองจะขยายความแตกต่างเหล่านั้น ดังนั้นออฟเซ็ต 2 จะทำให้เกิดการสูญเสียมากกว่าออฟเซ็ต 1 ถึง 4 เท่า: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$

การถดถอยเชิงเส้น (10 นาที)

แบบฝึกหัดแบบอินเทอร์แอกทีฟ: พารามิเตอร์ (5 นาที)