الانحدار الخطّي

تقدم هذه الوحدة مفاهيم الانحدار الخطي.

الانحدار الخطي هو أسلوب إحصائي يُستخدم لإيجاد العلاقة بين المتغيرات. في تعلُّم الآلة السياق، فإن الانحدار الخطي يتوصل إلى العلاقة بين الميزات تصنيف.

على سبيل المثال، لنفترض أننا نريد التنبؤ بكفاءة استهلاك الوقود في السيارة بالأميال لكل غالون بناءً على مدى وزن السيارة ولدينا مجموعة البيانات التالية:

الرطل في 1000 (الميزة) ميل لكل غالون (تصنيف)
3.5 18
3.69 15
3.44 18
3.43 16
4.34 15
4.42 14
2.37 24

إذا رسمنا هذه النقاط، فسنحصل على الرسم البياني التالي:

الشكل 1. نقاط البيانات التي تُظهر اتجاهًا انحدارًا لأسفل من اليسار إلى اليمين.

الشكل 1. تصنيف وزن السيارة (بالرطل) مقابل الأميال لكل غالون نتيجة لذلك، أُنشئت مكتبة مات بلوت ليب في تزيد وزن السيارة، ويقل معدّل الأميال لكل غالون بشكل عام.

يمكننا إنشاء نموذجنا الخاص عن طريق رسم خط مناسب من خلال النقاط:

الشكل 2.  يشير ذلك المصطلح إلى نقاط البيانات بأفضل خط مرسوم مرسوم من خلالها يمثل النموذج.

الشكل 2. أفضل خط مناسب مرسوم من خلال البيانات من الشكل السابق.

معادلة الانحدار الخطي

في المصطلحات الجبرية، سيتم تعريف النموذج على النحو التالي $ y = mx + b $، حيث

  • $ y $ هو ميل لكل غالون - القيمة التي نريد التنبؤ بها.
  • $ m $ هو انحدار الخط.
  • $ x $ تساوي رطل — قيمة المدخلات لدينا.
  • $ b $ هو نقطة التقاطع y.

وفي تعلُّم الآلة، نكتب معادلة نموذج الانحدار الخطّي على النحو التالي:

$$ y' = b + w_1x_1 $$

حيث:

  • $ y' $ هو التصنيف المتنبأ به - المخرج.
  • $ b $ هو التحيز من النموذج. والتحيز هو نفس مفهوم التقاطع ص في الجبر لمعادلة خطية. في التعلم الآلي، يشار إلى التحيز أحيانًا باسم $ w_0 $. الانحياز هي معلمة للنموذج الحساب أثناء التدريب.
  • يمثل $ w_1 $ وزن الجديدة. الوزن هو نفس مفهوم الميل $ m $ في العمليات الجبرية لمعادلة خطية. الوزن المعلَمة للنموذج الحساب أثناء التدريب.
  • $ x_1 $ هي ميزة — إدخال.

أثناء التدريب، يحسب النموذج الوزن والتحيز اللذان ينتجان أفضل الأمثل.

الشكل 3. المعادلة y' = b + w1x1، مع التعليق التوضيحي لكل مكون مع الغرض منه.

الشكل 3. تمثيل رياضي لنموذج خطي.

في مثالنا، سنحسب الوزن والانحراف من الخط الذي رسمناه. تشير رسالة الأشكال البيانية التحيز هو 30 (حيث يتقاطع الخط مع المحور y) والوزن -3.6 ( والانحدار بالخط). سيتم تعريف النموذج على أنه $ y' = 30 + (-3.6)(x_1) $، و يمكننا استخدامها لعمل التنبؤات. فعلى سبيل المثال، سيؤدي استخدام هذا النموذج سيكون للسيارة التي يبلغ وزنها 4000 رطل كفاءة وقود متوقعة تبلغ 15.6 ميلاً لكل غالون.

الشكل 4.  نفس الرسم البياني للشكل 2، مع تمييز النقطة (4، 15.6).

الشكل 4. وباستخدام هذا النموذج، هناك توقعات لسيارة تزن 4000 رطل لكفاءة استهلاك الوقود، تبلغ 15.6 ميلاً لكل غالون.

النماذج ذات الميزات المتعددة

على الرغم من أن المثال في هذا القسم يستخدم ميزة واحدة فقط، ألا وهي الثقل في السيارة - قد يعتمد نموذج أكثر تطورًا على ميزات متعددة، لكل منها وزن منفصل ($ w_1 $، $ w_2 $، إلخ.). على سبيل المثال، نموذج التي تعتمد على خمس ميزات ستتم كتابتها على النحو التالي:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

فعلى سبيل المثال، النموذج الذي يتنبأ بالمسافة المقطوعة بالغاز يمكن أن يستخدم ميزات إضافية مثل ما يلي:

  • إزاحة المحرّك
  • التسارع
  • عدد الأسطوانات
  • القدرة الحصانية

ستتم كتابة هذا النموذج على النحو التالي:

الشكل 5.  معادلة الانحدار الخطي التي تتضمن خمس خصائص.

الشكل 5. نموذج يحتوي على خمس ميزات للتنبؤ بالميل في كل غالون للسيارة التقييم.

من خلال وضع رسم بياني لبعض هذه الميزات الإضافية، يمكننا أن نرى أن لها أيضًا العلاقة الخطية مع التصنيف، ميل في الغالون:

الشكل 6. الإزاحة بالسنتيمتر المكعّب تم رسمها بيانيًا مقابل الأميال لكل غالون، وهي توضح علاقة خطية سالبة.

الشكل 6. إزاحة السيارة بالسنتيمتر المكعب والأميال لكل غالون التقييم. مع ازدياد حجم محرك السيارة، يتزايد معدّل الأميال في الغالون عادةً تنخفض.

الشكل 7. التسارع من صفر إلى ستين ثانية بالرسم البياني مقابل الأميال لكل غالون، ما يشير إلى علاقة خطية إيجابية.

الشكل 7. تسريع السيارة وتقييمها بالميل لكل غالون. كوظيفة في وتستغرق التسارع وقتًا أطول، ويزداد معدّل الأميال في الغالون بشكلٍ عام.

الشكل 8. القوة الحصانية مرسومة مقابل الأميال في الغالون لتوضيح علاقة خطية سلبية.

الشكل 8. القدرة الحصانية للسيارة وتقييم الميل لكل غالون. كوظيفة في تزداد القدرة الحصانية، وانخفض تصنيف الأميال لكل غالون بشكل عام.

تمرين: التحقق من فهمك

ما هي أجزاء معادلة الانحدار الخطي التي يتم تحديثها أثناء التطبيق؟
التحيز والأوزان
أثناء التدريب، يقوم النموذج بتحديث التحيز الأوزان بناءً على الخسارة.
التوقّع
لا يتم تحديث التوقعات أثناء التدريب.
قيم الميزة
تعتبر قيم الميزات جزءًا من مجموعة البيانات، لذا لا يتم تحديثها أثناء التدريب.