การถดถอยเชิงเส้น: การสูญเสีย

Loss เป็นเมตริกตัวเลขที่อธิบาย การคาดการณ์ของโมเดลไม่ถูกต้องเพียงใด Loss จะวัดระยะทางระหว่างการคาดการณ์ของโมเดลและระยะทางจริง ป้ายกำกับ เป้าหมายของการฝึกโมเดลคือ เพื่อลดการสูญเสีย และทำให้โมเดลน้อยลง ค่าต่ำสุดเท่าที่เป็นไปได้

ในภาพต่อไปนี้ คุณสามารถแสดงภาพการสูญเสียในรูปแบบลูกศรที่ดึงจากข้อมูล ชี้ไปที่โมเดล ลูกศรจะแสดงระยะห่างของการคาดการณ์ของโมเดล มูลค่าตามจริง

รูปที่ 9 เส้นที่สูญเสียไปจะเชื่อมต่อจุดข้อมูลกับ
โมเดล

รูปที่ 9 การสูญเสียจะวัดจากค่าจริงไปจนถึงค่าที่คาดการณ์ไว้

ระยะทางการสูญหาย

ในสถิติและแมชชีนเลิร์นนิง การสูญเสียจะเป็นตัววัดความแตกต่างระหว่าง ค่าที่คาดการณ์ไว้และค่าจริง การสูญเสียจะเน้นไปที่ระยะทางระหว่างค่า ไม่ใช่ทิศทาง ตัวอย่างเช่น หากโมเดลคาดการณ์เลข 2 แต่ค่าจริงคือ 5 เราไม่สนใจว่าการสูญเสียเป็นลบ $ -3 $ ($ 2-5=-3 $) แต่เราอยากให้ระยะทางระหว่างค่าต่างๆ เท่ากับ $ 3 $ ดังนั้น ในการคำนวณการสูญหาย ให้ลบเครื่องหมายออก

วิธีลบป้ายที่นิยมใช้กันมากที่สุด 2 วิธี ได้แก่

  • หาค่าสัมบูรณ์ของผลต่างระหว่างค่าจริงกับ การคาดคะเน
  • เปรียบเทียบผลต่างระหว่างค่าจริงกับการคาดการณ์เป็น 2 เท่า

ประเภทของความสูญเสีย

ในการถดถอยเชิงเส้นจะมีความสูญเสีย 4 ประเภทหลักๆ ตามที่ระบุไว้ใน ตารางต่อไปนี้

ประเภทการสูญเสีย คำจำกัดความ สมการ
ขาดทุน 1 ระดับ ผลรวมของค่าสัมบูรณ์ของผลต่าง ระหว่างค่าที่คาดการณ์และค่าจริง $ ∑ | ค่าจริง\ - ค่า\ ที่คาดการณ์ไว้ | ฿
ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ (MAE) ค่าเฉลี่ยของการสูญเสีย L1 จากตัวอย่างชุดหนึ่ง $ \frac{1}{N} ∑ | ค่าจริง\ - ค่า\ ที่คาดการณ์ไว้ | ฿
แพ้ L2 ผลรวมของผลต่างยกกำลัง 2 ระหว่างค่าที่คาดการณ์และค่าจริง $ ∑(ค่าจริง\ - ค่าที่คาดการณ์ไว้\)^2 $
ความคลาดเคลื่อนเฉลี่ยกำลังสอง (MSE) ค่าเฉลี่ยของการสูญเสีย L2 จากตัวอย่างชุดหนึ่ง $ \frac{1}{N} ∑ (ค่าจริง\ - ค่าที่คาดการณ์ไว้\)^2 $

ความแตกต่างด้านฟังก์ชันระหว่างการสูญเสีย L1 และการสูญเสีย L2 (หรือระหว่าง MAE กับ MSE) กําลังแยกส่วน เมื่อความแตกต่างระหว่าง การคาดการณ์และป้ายกำกับมีขนาดใหญ่ การแกว่งทำให้การสูญเสียเพิ่มมากขึ้น เมื่อ ความแตกต่างมีน้อย (น้อยกว่า 1) การยกกำลังสองจะทำให้ความสูญเสียน้อยลงไปอีก

เมื่อประมวลผลหลายตัวอย่างพร้อมกัน ขอแนะนำให้หาค่าเฉลี่ยที่สูญเสียไป ในตัวอย่างทั้งหมด ไม่ว่าจะใช้ MAE หรือ MSE

ตัวอย่างการคำนวณการสูญเสีย

โดยใช้บรรทัดที่เหมาะสมที่สุดก่อนหน้า เราจะคำนวณการสูญเสีย L2 สำหรับตัวอย่างเดียว จาก รูปแบบที่เหมาะสมที่สุด เรามีค่าต่อไปนี้สำหรับน้ำหนักและความเอนเอียง

  • $ \small{น้ำหนัก: -3.6} $
  • $ \small{อคติ: 30} $

ถ้าโมเดลคาดการณ์ว่ารถ 2,370 ปอนด์จะได้รับ 21.5 ไมล์ต่อแกลลอน ที่ได้คือ 24 ไมล์ต่อแกลลอน เราจะคำนวณความสูญเสีย L2 ในรูปแบบ ดังต่อไปนี้:

ค่า สมการ ผลลัพธ์
การคาดการณ์

$\small{bias + (น้ำหนัก * คุณลักษณะ\ ค่า)}$

$\small{30 + (-3.6*2.37)}$

$\ขนาดเล็ก{21.5}$
มูลค่าที่แท้จริง $ \small{ ป้ายกำกับ } $ $ \small{ 24 } $
L2 แพ้

$ \small{ (การคาดคะเน - ค่าจริง\)^2} $

$\small{ (21.5 - 24)^2 }$

$\small{6.25}$

ในตัวอย่างนี้ การสูญเสีย L2 สำหรับจุดข้อมูลเดียวคือ 6.25

การเลือกการสูญหาย

การตัดสินใจว่าจะใช้ MAE หรือ MSE หรือไม่นั้นขึ้นอยู่กับชุดข้อมูลและวิธีที่คุณ ต้องการจัดการการคาดคะเนบางอย่าง โดยทั่วไปค่าฟีเจอร์ส่วนใหญ่ในชุดข้อมูล อยู่ภายในช่วงที่ชัดเจน ตัวอย่างเช่น ปกติแล้วรถยนต์อยู่ระหว่างปี 2000 ถึง 5,000 ปอนด์ วิ่งได้ระหว่าง 8-50 ไมล์ต่อแกลลอน รถยนต์น้ำหนัก 8,000 ปอนด์ หรือรถที่มีความเร็ว 100 ไมล์ต่อแกลลอน อยู่นอกช่วงระยะทางปกติและ ถือเป็นค่าผิดปกติ

ค่าผิดปกติยังสามารถหมายถึงระยะห่างจากการคาดการณ์ของโมเดลจากค่าจริงได้อีกด้วย ตัวอย่างเช่น รถยนต์หนัก 3,000 ปอนด์ หรือรถที่มีความเร็ว 40 ไมล์ต่อแกลลอน อยู่ภายในช่วงทั่วไป อย่างไรก็ตาม รถยนต์ขนาด 3,000 ปอนด์ที่ได้รับ 40 ไมล์ต่อแกลลอนจะเป็นค่าที่ผิดปกติในแง่ของการคาดการณ์ของโมเดล เพราะโมเดลจะคาดการณ์ว่ารถ 3,000 ปอนด์จะมีน้ำหนักระหว่าง 18 ถึง 20 ไมล์ต่อแกลลอน

เมื่อเลือกฟังก์ชันการสูญเสียข้อมูลที่ดีที่สุด ให้พิจารณาวิธีที่คุณต้องการให้โมเดลพิจารณา ค่าผิดปกติ ตัวอย่างเช่น MSE ย้ายโมเดลไปทางค่าผิดปกติมากขึ้น ขณะที่ MAE ใช้ไม่ได้ การสูญเสียพื้นที่ 2 จะทำให้ค่าผิดปกติสูงกว่าค่าผิดปกติ L1 แพ้ ตัวอย่างเช่น รูปภาพต่อไปนี้แสดงโมเดลที่ได้รับการฝึก โดยใช้ MAE และโมเดลที่ฝึกด้วย MSE เส้นสีแดงแสดงถึง โมเดลที่ได้รับการฝึก ซึ่งจะใช้ในการคาดการณ์ ค่าผิดปกติจะใกล้เคียงกับ โมเดลที่ฝึกด้วย MSE เมื่อเทียบกับโมเดลที่ฝึกด้วย MAE

รูปที่ 10 โมเดลมีการเอียงไปทางค่าผิดปกติมากกว่า

รูปที่ 10 โมเดลที่ฝึกด้วย MSE จะย้ายโมเดลให้ใกล้กับค่าผิดปกติมากขึ้น

รูปที่ 11 โมเดลนี้จะเอียงให้ห่างจากค่าผิดปกติ

รูปที่ 11 โมเดลที่ฝึกด้วย MAE อยู่ไกลกว่าค่าผิดปกติ

โปรดสังเกตความสัมพันธ์ระหว่างโมเดลและข้อมูล

  • MSE โมเดลนี้มีค่าใกล้เคียงกับค่าผิดปกติมากกว่า แต่อยู่ห่างไกลจาก จุดข้อมูลอื่นๆ

  • MAE โมเดลอยู่ไกลจากค่าผิดปกติแต่ใกล้เคียงกับ จุดข้อมูลอื่นๆ

ตรวจสอบความเข้าใจ

ลองพิจารณา 2 กราฟต่อไปนี้

แผนภูมิ 10 คะแนน
      เส้นตัดผ่านจุด 6 จุด 2 คะแนนเท่ากับ 1 หน่วย
      เหนือบรรทัด จุดอื่นอีก 2 จุดคือ 1 หน่วยใต้เส้น แผนภูมิ 10 คะแนน มีเส้นวิ่ง
      ถึง 8 ของคะแนน 1 คะแนนเท่ากับ 2 หน่วย
      เหนือบรรทัด อีก 1 จุดคือ 2 หน่วยที่อยู่ใต้เส้น
ชุดข้อมูลใดจาก 2 ชุดที่แสดงในพล็อตก่อนหน้า มีข้อผิดพลาดค่าเฉลี่ยกำลังสอง (MSE) สูงกว่าหรือไม่
ชุดข้อมูลทางด้านซ้าย
ตัวอย่าง 6 รายการในบรรทัดนี้มีการขาดทุนรวม 0 องค์ประกอบ 4 ตัวอย่างที่ไม่ได้อยู่ในบรรทัด ก็ไม่ได้อยู่ไกลจากบรรทัดนี้มากนัก ดังนั้นแม้แต่ การยกกำลังสองของการชดเชยยังคงให้ค่าต่ำ: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$
ชุดข้อมูลทางด้านขวา
ตัวอย่าง 8 รายการในบรรทัดนี้ขาดทุนรวม 0 อย่างไรก็ตาม แม้ว่าจะมีแค่ 2 คะแนนที่หลุดกรอบ ทั้ง 2 อย่าง จุดต่างจากจุดผิดปกติ 2 เท่า ในรูปด้านซ้าย การเสียยกกำลังสองจะช่วยขยายความแตกต่าง ดังนั้น ค่าชดเชยของ 2 จะทำให้สูญเสียประสิทธิภาพมากกว่าออฟเซ็ต 4 เท่า จาก 1: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$