التعلّم الخاضع للإشراف

تكون مهام التعلُّم المراقَب محددة جيدًا ويمكن تطبيقها على العديد من السيناريوهات، مثل تحديد المحتوى غير المرغوب فيه أو توقُّع هطول الأمطار.

مفاهيم التعلُّم الأساسي المُوجّه

يستند تعلُّم الآلة المراقَب إلى المفاهيم الأساسية التالية:

  • البيانات
  • الطراز
  • التدريب
  • التقييم
  • الاستنتاج

البيانات

البيانات هي القوة الدافعة لتعلُّم الآلة. تأتي البيانات على شكل كلمات وأرقام مخزنة في الجداول، أو كقيم وحدات البكسل والأشكال الموجية التي تم التقاطها في الصور والملفات الصوتية. نخزن البيانات ذات الصلة في مجموعات البيانات. على سبيل المثال، قد يكون لدينا مجموعة بيانات لما يلي:

  • صور قطط
  • أسعار المساكن
  • معلومات عن حالة الطقس

تتكون مجموعات البيانات من أمثلة فردية تحتوي على ميزات وتصنيف. يمكنك التفكير في مثال على أنه مشابه لصف واحد في جدول بيانات. الميزات هي القيم التي يستخدمها النموذج الخاضع للإشراف للتنبؤ بالتسمية. التسمية هي "الإجابة"، أو القيمة التي نريد أن يتنبأ بها النموذج. وفي نموذج الطقس الذي يتنبأ بهطول الأمطار، قد تكون السمات خط العرض وخط الطول ودرجة الحرارة والرطوبة وتغطية السُحب واتجاه الرياح والضغط الجوي. سيكون التصنيف مقدار هطول الأمطار.

يُطلق على الأمثلة التي تحتوي على كل من الميزات والتصنيف أمثلة مصنَّفة.

مثالان مصنّفان

هذه الصورة هي عنصر نائب.

في المقابل، تحتوي الأمثلة غير المصنَّفة على ميزات، ولكن لا تحتوي على تسمية. بعد إنشاء نموذج، يتنبأ النموذج بالتسمية من الميزات.

مثالان غير مصنّفين

هذه الصورة هي عنصر نائب.

خصائص مجموعة البيانات

تتميز مجموعة البيانات بحجمها وتنوعها. يشير الحجم إلى عدد الأمثلة. يشير التنوع إلى النطاق الذي تغطيه هذه الأمثلة. تعد مجموعات البيانات الجيدة كبيرة ومتنوعة للغاية.

بعض مجموعات البيانات كبيرة ومتنوعة. ومع ذلك، فإن بعض مجموعات البيانات كبيرة ولكنها ذات تنوع منخفض، وبعضها صغير ولكنه متنوع للغاية. بعبارة أخرى، لا تضمن مجموعة البيانات الكبيرة تنوعًا كافيًا، كما أن مجموعة البيانات المتنوعة للغاية لا تضمن أمثلة كافية.

على سبيل المثال، قد تحتوي مجموعة بيانات على 100 عام من البيانات، ولكن فقط لشهر يوليو. سيؤدي استخدام مجموعة البيانات هذه للتنبؤ بهطول الأمطار في يناير إلى إنتاج تنبؤات سيئة. وعلى العكس من ذلك، قد تغطي مجموعة البيانات بضع سنوات فقط ولكنها تحتوي على كل شهر. قد ينتج عن مجموعة البيانات هذه تنبؤات سيئة لأنها لا تحتوي على سنوات كافية لتفسير التباين.

التحقّق من فهمك

ما هي سمات مجموعة البيانات المثالية لاستخدامها في تعلُّم الآلة؟
حجم كبير / تنوّع مرتفع
ومن الضروري توفّر عدد كبير من الأمثلة التي تتناول مجموعة متنوعة من حالات الاستخدام لكي يتمكن نظام تعلُّم الآلة من فهم الأنماط الأساسية في البيانات. ومن المرجّح أن يقدّم النموذج المدرَّب على هذا النوع من مجموعات البيانات توقّعات جيدة بشأن البيانات الجديدة.
حجم كبير / منخفض التنوع
لا تقل جودة نماذج تعلُّم الآلة عن الأمثلة المستخدَمة لتدريبها. وسينتج عن النموذج توقعات سيئة حول بيانات جديدة لم يتدرب عليها مطلقًا.
حجم صغير / تنوع مرتفع
لا يمكن لمعظم النماذج العثور على أنماط موثوقة في مجموعة بيانات صغيرة. لن تكون التوقّعات ثقة لدى مجموعة البيانات الأكبر.
حجم صغير / منخفض التنوع
إذا كانت مجموعة البيانات صغيرة وبدون اختلافات كثيرة، قد لا تستفيد من تعلُّم الآلة.

يمكن أيضًا تمييز مجموعة البيانات بعدد ميزاتها. على سبيل المثال، قد تحتوي بعض مجموعات بيانات الطقس على مئات الميزات، بدءًا من صور الأقمار الصناعية إلى قيم تغطية السحابة الإلكترونية. قد تحتوي مجموعات البيانات الأخرى على ثلاث أو أربع ميزات فقط، مثل الرطوبة والضغط الجوي ودرجة الحرارة. يمكن أن تساعد مجموعات البيانات التي تضم المزيد من الميزات النموذج في اكتشاف أنماط إضافية وتقديم تنبؤات أفضل. ومع ذلك، فإنّ مجموعات البيانات التي تحتوي على ميزات أكثر لا تنتج دائمًا نماذج تقدّم توقعات أفضل لأنّ بعض الميزات قد لا يكون لها علاقة سببية بالتصنيف.

الطراز

في التعلّم المُوجّه، يكون النموذج عبارة عن مجموعة معقدة من الأرقام التي تحدد العلاقة الرياضية من أنماط ميزات الإدخال المحددة إلى قيم تصنيفات محددة للناتج. ويكتشف النموذج هذه الأنماط من خلال التطبيق.

التدريب

يجب تدريب أي نموذج خاضع للإشراف قبل أن يتمكّن من تقديم التوقّعات. لتدريب نموذج، نعطي النموذج مجموعة بيانات بأمثلة مسماة. إن هدف النموذج هو العمل على أفضل حل للتنبؤ بالتسميات من الميزات. يجد النموذج أفضل حل من خلال مقارنة قيمته المتوقعة بالقيمة الفعلية للتسمية. استنادًا إلى الفرق بين القيم المتوقَّعة والفعلية المعروفة باسم الخسارة، يتم تعديل الحلّ تدريجيًا في النموذج. بمعنى آخر، يتعلم النموذج العلاقة الرياضية بين الميزات والتسمية حتى يتمكن من تقديم أفضل التنبؤات على البيانات غير المرئية.

على سبيل المثال، إذا توقّع النموذج تساقط الأمطار بـ 1.15 inches، لكنّ القيمة الفعلية كانت .75 inches، سيعدّل النموذج الحلّ ليصبح التوقّع أقرب إلى .75 inches. بعد أن ينظر النموذج في كل مثال في مجموعة البيانات — في بعض الحالات، عدة مرات — يصل إلى حل يقدم أفضل التنبؤات، في المتوسط، لكل مثال من الأمثلة.

يوضح ما يلي تدريب نموذج:

  1. يستخدم النموذج مثالاً واحدًا مصنفًا ويقدم توقعًا.

    يشير ذلك المصطلح إلى صورة نموذج يقدِّم عملية توقُّع.

    الشكل 1. يشير ذلك المصطلح إلى نموذج لتعلُّم الآلة يقدّم توقُّعًا باستخدام مثال مُصنَّف.

     

  2. يقارن النموذج قيمته المتنبأ بها بالقيمة الفعلية ويعدّل الحلّ.

    صورة نموذج يقارن التنبؤ بقيمته الفعلية.

    الشكل 2. نموذج تعلُّم الآلة يعدّل قيمته المتنبأ بها

     

  3. يكرر النموذج هذه العملية لكل مثال مصنف في مجموعة البيانات.

    صورة نموذج يكرر عملية التنبؤ مقابل القيمة الفعلية.

    الشكل 3. يشير ذلك المصطلح إلى نموذج تعلُّم الآلة الذي يعدِّل توقّعاته لكل مثال مصنَّف في مجموعة بيانات التدريب.

     

وبهذه الطريقة، يتعلم النموذج تدريجيًا العلاقة الصحيحة بين الميزات والتسمية. هذا الفهم التدريجي هو أيضًا سبب أن مجموعات البيانات الكبيرة والمتنوعة تنتج نموذجًا أفضل. رأى النموذج المزيد من البيانات بمجموعة واسعة من القيم، وقد حسّن فهمه للعلاقة بين الميزات والتسمية.

أثناء التدريب، يمكن لممارسي تعلُّم الآلة إجراء تعديلات دقيقة على الإعدادات والميزات التي يستخدمها النموذج لإجراء التوقّعات. على سبيل المثال، تمتلك بعض الميزات قوة تنبؤية أكثر من غيرها. وبالتالي، يمكن لممارسي تعلُّم الآلة اختيار الميزات التي يستخدمها النموذج أثناء التدريب. على سبيل المثال، لنفترض أنّ مجموعة بيانات الطقس تحتوي علىtime_of_day كميزة. في هذه الحالة، يمكن لممارس تعلُّم الآلة إضافة قيمة time_of_day أو إزالتها أثناء التدريب لمعرفة ما إذا كان النموذج يقدّم توقّعات أفضل سواء باستخدامها أو بدونها.

التقييم

نقيّم نموذجًا مدرَّبًا لتحديد مدى نجاحه في التعلُّم. وعندما نُقيّم نموذجًا، نستخدم مجموعة بيانات مصنفة، لكننا لا نمنح النموذج سوى ميزات مجموعة البيانات. ثم نقارن تنبؤات النموذج بالقيم الحقيقية للتصنيف.

صورة تعرض نموذجًا مدرَّبًا له تنبؤاته مقارنةً بالقيم الفعلية.

الشكل 4. تقييم نموذج تعلُّم الآلة من خلال مقارنة تنبؤاته بالقيم الفعلية.

 

استنادًا إلى توقّعات النموذج، قد نُجري المزيد من التدريب والتقييم قبل نشر النموذج في تطبيق واقعي.

التحقّق من فهمك

لماذا يحتاج النموذج إلى التدريب قبل أن يتمكن من إجراء التنبؤات؟
هناك نموذج يحتاج إلى تدريب لمعرفة العلاقة الرياضية بين الخصائص والتسمية في مجموعة البيانات.
لا يحتاج النموذج إلى التدريب. تتوفر الطُرز على معظم أجهزة الكمبيوتر.
يحتاج النموذج إلى التدريب حتى لا يتطلب بيانات لإجراء التنبؤ.

الاستنتاج

بمجرد أن نرضى عن نتائج تقييم النموذج، يمكننا استخدام النموذج لعمل تنبؤات، تسمى الاستنتاجات، على الأمثلة غير المصنفة. في مثال تطبيق الطقس، سنعطي النموذج ظروف الطقس الحالية - مثل درجة الحرارة والضغط الجوي والرطوبة النسبية - وسيتنبأ بكمية هطول الأمطار.