إنّ مهام التعلّم الخاضع للإشراف محدّدة جيدًا ويمكن تطبيقها على العديد من السيناريوهات، مثل تحديد المحتوى غير المرغوب فيه أو توقّع هطول الأمطار.
المفاهيم الأساسية للتعلُّم المراقَب
يستند تعلُّم الآلة الخاضع للإشراف إلى المفاهيم الأساسية التالية:
- البيانات
- الطراز
- التدريب
- جارٍ التقييم
- الاستنتاج
البيانات
البيانات هي القوة الدافعة لعملية تعلُّم الآلة. تأتي البيانات في شكل كلمات وأرقام مخزّنة في الجداول، أو كقيم للبكسل والموجات الصوتية التي تم التقاطها في الصور والملفات الصوتية. نخزّن البيانات ذات الصلة في مجموعات البيانات. على سبيل المثال، قد يكون لدينا مجموعة بيانات تتضمّن ما يلي:
- صور قطط
- أسعار المساكن
- معلومات عن الطقس
تتألف مجموعات البيانات من أمثلة فردية تحتوي على ميزات و تصنيف. يمكنك اعتبار المثال مشابهًا لصف واحد في جدول بيانات. الميزات هي القيم التي يستخدمها النموذج المُراقَب لتوقع التصنيف. التصنيف هو "الإجابة" أو القيمة التي نريد من النموذج التنبؤ بها. في نموذج الطقس الذي يتوقّع تساقط الأمطار، قد تكون الميزات هي خط العرض وخط الطول ودرجة الحرارة الرطوبة وتغطية السحب واتجاه الرياح والضغط الجوي. سيكون التصنيف كمية الأمطار.
تُعرف الأمثلة التي تحتوي على ميزات وتصنيف باسم الأمثلة المصنّفة.
مثالان مصنّفان
في المقابل، تحتوي الأمثلة غير المصنّفة على ميزات، ولكن بدون تصنيف. بعد إنشاء نموذج، يتوقّع النموذج التصنيف من الميزات.
مثالان غير مصنّفين
خصائص مجموعة البيانات
تتميز مجموعة البيانات بحجمها وتنوعها. يشير الحجم إلى عدد الأمثلة. يشير التنوع إلى النطاق الذي تغطّيه هذه الأمثلة. تكون مجموعات البيانات الجيدة كبيرة ومتنوّعة للغاية.
تكون بعض مجموعات البيانات كبيرة ومتنوّعة في الوقت نفسه. ومع ذلك، تكون بعض مجموعات البيانات كبيرة ولكنها تتسم بتنوع منخفض، وتكون بعض مجموعات البيانات صغيرة ولكنها متنوعة للغاية. بعبارة أخرى، لا تضمن مجموعة البيانات الكبيرة تنوعًا كافيًا، ولا تضمن مجموعة البيانات التي تتسم بالتنوع الشديد أمثلة كافية.
على سبيل المثال، قد تحتوي مجموعة بيانات على بيانات تبلغ مدتها 100 عام، ولكن فقط لشهر تموز (يوليو). سيؤدي استخدام مجموعة البيانات هذه للتنبؤ بهطول الأمطار في شهر كانون الثاني (يناير) إلى تقديم توقّعات سيئة. في المقابل، قد تشمل مجموعة البيانات بضع سنوات فقط، ولكنها تحتوي على كل شهر. قد تؤدي مجموعة البيانات هذه إلى توقّعات سيئة لأنّها لا تحتوي على سنوات كافية لمراعاة التباين.
التحقّق من الفهم
يمكن أيضًا أن تتميز مجموعة البيانات بعدد ميزاتها. على سبيل المثال، قد تحتوي بعض مجموعات بيانات الطقس على مئات العناصر، بدءًا من صور الأقمار الاصطناعي ووصولاً إلى قيم تغطية السحب. قد تحتوي مجموعات البيانات الأخرى على ثلاث أو أربع ميزات فقط، مثل الرطوبة والضغط الجوي ودرجة الحرارة. يمكن أن تساعد مجموعات البيانات التي تحتوي على المزيد من الميزات النموذج في اكتشاف أنماط إضافية وتقديم توقّعات أفضل. ومع ذلك، لا تؤدي مجموعات البيانات التي تحتوي على المزيد من الميزات دائمًا إلى إنشاء نماذج تُقدّم توقّعات أفضل لأنّ بعض الميزات قد لا ترتبط سببيًا بالتصنيف.
الطراز
في التعلّم الإشرافي، النموذج هو مجموعة معقدة من الأرقام التي تحدِّد العلاقة الرياضية من أنماط محددة لسمات الإدخال إلى قيم محدّدة لتصنيفات النتائج. يكتشف النموذج هذه الأنماط من خلال التدريب.
التدريب
قبل أن يتمكّن النموذج الخاضع للإشراف من إجراء توقّعات، يجب تدريبه. لتدريب أحد النماذج، نزوّده بمجموعة بيانات تتضمّن أمثلة مصنّفة. هدف النموذج هو وضع أفضل حلّ لتوقّع التصنيفات من السمات. يعثر ال نموذج على أفضل حلّ من خلال مقارنة قيمته المتوقّعة بالقيمة الحالية للتصنيف. استنادًا إلى الفرق بين القيم المتوقّعة والفعلية، والذي يُعرَف باسم الخسارة، يعدّل النموذج حلّه تدريجيًا. بعبارة أخرى، يتعلّم النموذج العلاقة الحسابية بين السمات والعلامة لكي يتمكّن من تقديم أفضل توقّعات للبيانات غير المرئية.
على سبيل المثال، إذا توقّع النموذج 1.15 inches
من الأمطار، ولكن القيمة الفعلية
كانت .75 inches
، يعدّل النموذج حلّه لكي يكون توقعه أقرب إلى
.75 inches
. بعد أن يفحص النموذج كل مثال في مجموعة البيانات، في
بعض الحالات عدة مرات، يصل إلى حلّ يقدّم أفضل
توقّعات، في المتوسّط، لكل مثال.
يوضّح ما يلي كيفية تدريب نموذج:
يأخذ النموذج مثالاً واحدًا مصنّفًا ويقدّم توقّعًا.
الشكل 1: نموذج تعلُّم آلي يقدّم توقّعًا استنادًا إلى مثال مصنّف
يقارن النموذج القيمة المتوقّعة بالقيمة الفعلية ويُعدّل الحلّ.
الشكل 2: نموذج تعلُّم آلي يعدّل قيمته المتوقّعة
ويكرّر النموذج هذه العملية لكل مثال مصنّف في مجموعة البيانات.
الشكل 3 نموذج تعلُّم آلة يعدّل توقّعاته لكل مثال مصنّف في مجموعة بيانات التدريب
بهذه الطريقة، يتعرّف النموذج تدريجيًا على العلاقة الصحيحة بين السمات والتصنيف. ويعود سبب إنشاء نماذج أفضل أيضًا إلى هذا الفهم التدريجي، وذلك لأنّ مجموعات البيانات الكبيرة والمتنوّعة تؤدي إلى ذلك. لقد شاهد النموذج المزيد من البيانات التي تتضمّن نطاقًا أوسع من القيم، كما حسّن فهمه للعلاقة بين السمات والعلامة.
أثناء التدريب، يمكن لممارسي تعلُّم الآلة إجراء تعديلات دقيقة على
الإعدادات والميزات التي يستخدمها النموذج لإجراء التوقّعات. على سبيل المثال، تتمتع
بعض الميزات بقدرة أكبر على التنبؤ من غيرها. وبالتالي، يمكن لممارسي الذكاء الاصطناعي (ML) اختيار الميزات التي يستخدمها النموذج أثناء التدريب. على سبيل المثال، لنفترض أنّ مجموعة بيانات الطقس تحتوي علىtime_of_day
كميزة. في هذه الحالة، يمكن لأحد خبراء تعلُّم الآلة إضافة time_of_day
أو إزالته أثناء التدريب لمعرفة ما إذا كان النموذج يقدّم توقّعات أفضل باستخدامه أو بدونه.
جارٍ التقييم
نُقيّم نموذجًا مدرَّبًا لتحديد مدى جودة تعلّمه. عند تقييم نموذج، نستخدم مجموعة بيانات مصنّفة، ولكننا نمنح النموذج سمات مجموعة البيانات فقط. ونقارِن بعد ذلك توقّعات النموذج بالقيم الفعلية للسمة.
الشكل 4 تقييم نموذج تعلُّم الآلة من خلال مقارنة توقّعاته بالقيم الحالية
استنادًا إلى توقّعات النموذج، قد نُجري المزيد من التدريب والتقييم قبل نشر النموذج في تطبيق واقعي.
التحقّق من الفهم
الاستنتاج
بعد أن نكون راضين عن نتائج تقييم النموذج، يمكننا استخدام النموذج لإجراء توقّعات، تُعرف باسم استنتاجات، بشأن الأمثلة غير المصنّفة. في مثال تطبيق الطقس، سنزوّد النموذج بحالة الطقس الحالية، مثل درجة الحرارة والضغط الجوي و الرطوبة النسبية، وسيتنبأ بكمية الأمطار.