تركّز هذه الدرس على الأسئلة التي يجب طرحها حول بياناتك
وموديلك في أنظمة الإنتاج.
هل كل ميزة مفيدة؟
يجب مراقبة النموذج باستمرار لإزالة الميزات التي تساهم
بقدر قليل أو لا تساهم مطلقًا في قدرة النموذج على التوقّع. إذا تغيّرت بيانات الإدخال الخاصة
بهذه الميزة بشكل مفاجئ، قد يتغيّر سلوك النموذج أيضًا
بشكل مفاجئ بطرق غير مرغوب فيها.
ننصحك أيضًا بالاطّلاع على السؤال ذي الصلة التالي:
- هل تُبرّر فائدة الميزة تكلفة تضمينها؟
من المغري دائمًا إضافة المزيد من الميزات إلى النموذج. على سبيل المثال،
لنفترض أنّك عثرت على ميزة جديدة تؤدي إضافتها إلى تحسين توقّعات النموذج
بدرجة طفيفة. تبدو التوقّعات الأفضل قليلاً أفضل بالتأكيد من التوقّعات الأسوأ قليلاً، ولكنّ الميزة الإضافية تزيد من عبء الصيانة.
هل مصدر البيانات موثوق؟
إليك بعض الأسئلة التي يمكنك طرحها حول موثوقية بيانات الإدخال:
- هل ستكون الإشارة متاحة دائمًا أم أنها تأتي من مصدر
غير موثوق به؟ على سبيل المثال:
- هل تأتي الإشارة من خادم يتعطل تحت ضغط كبير؟
- هل تأتي الإشارة من أشخاص يذهبون في إجازة كل شهر آب (أغسطس)؟
- هل يتغيّر النظام الذي يحسب بيانات إدخال النموذج؟ في هذه الحالة:
- كم مرة؟
- كيف ستعرف متى يتغيّر هذا النظام؟
ننصحك بإنشاء نسخة خاصة بك من البيانات التي تتلقّاها من عملية
التحميل. بعد ذلك، لا تنتقل إلى الإصدار التالي من data
المصدر إلا عندما تكون متأكدًا من أنّه آمن.
هل نموذجك جزء من حلقة ملاحظات؟
في بعض الأحيان، يمكن أن يؤثر النموذج في بيانات التدريب الخاصة به. على سبيل المثال، تصبح
النتائج من بعض النماذج (بشكل مباشر أو غير مباشر) ميزات
إدخال لهذا النموذج نفسه.
في بعض الأحيان، يمكن أن يؤثر نموذج في نموذج آخر. على سبيل المثال، نأخذ سمتَين
لتوقع أسعار الأسهم:
- النموذج "أ"، وهو نموذج تنبؤي سيئ
- النموذج (ب):
وبما أنّ النموذج "أ" يتضمّن أخطاء، قرّر عن طريق الخطأ شراء أسهم في الأسهم "س".
تؤدي هذه عمليات الشراء إلى ارتفاع سعر الأسهم X. يستخدم النموذج "ب" سعر "الأسهم س" كسمة إدخال، لذا يمكن أن يتوصّل النموذج "ب" إلى بعض النتيجة
الخاطئة حول قيمة "الأسهم س". وبالتالي، يمكن للنموذج "ب"
شراء أسهم "س" أو بيعها استنادًا إلى السلوك الذي يتضمّن أخطاء في النموذج "أ".
يمكن أن يؤثّر سلوك النموذج "ب" بدوره في النموذج "أ"، ما قد يؤدي إلى هوس بالزنبق أو انخفاض في سعر سهم شركة "س".
تمرين: التحقّق من فهمك
أي ثلاثة من النماذج التالية معرّضة
لحلقة التغذية الراجعة؟
نموذج توقّعات حركة المرور الذي يتوقّع الازدحام عند مخارج الطرق السريعة
بالقرب من الشاطئ، باستخدام حجم حشد الشاطئ كإحدى ميزاته
من المرجّح أن يستند بعض روّاد الشاطئ إلى توقّعات ازدحام المركبات عند وضع خططهم. إذا كان هناك عدد كبير من الأشخاص على الشاطئ وكان من المتوقّع أن تكون حركة المرور
مزدحمة، قد يضع العديد من الأشخاص خططًا بديلة. وقد يؤدي ذلك إلى خفض عدد الأشخاص الذين يذهبون
إلى الشاطئ، ما يؤدّي إلى توقّع حركة مرور أقل، ما قد يؤدي بدوره إلى
زيادة عدد الأشخاص الذين يذهبون إلى الشاطئ، وتتكرّر الدورة.
نموذج لاقتراح الكتب يعرض روايات قد تعجب المستخدمين
استنادًا إلى مدى رواجها (أي عدد المرات التي تم فيها
شراء الكتب).
من المرجّح أن تؤدي اقتراحات الكتب إلى زيادة عمليات الشراء، وسيتم إدخال هذه المبيعات الإضافية في النموذج كمدخلات، ما يزيد من احتمالية اقتراح هذه الكتب نفسها في المستقبل.
نموذج ترتيب الجامعات الذي يصنّف المؤسسات التعليمية جزئيًا استنادًا إلى
انتقائيتها، أي النسبة المئوية للطلاب الذين تم قبولهم
بعد تقديم طلب الالتحاق
قد تجذب ترتيبات النموذج اهتمامًا إضافيًا بالمدارس التي حصلت على أعلى التقييمات، ما يؤدي إلى زيادة عدد الطلبات التي تتلقّاها. إذا استمرت هذه
المدارس في قبول العدد نفسه من الطلاب، ستزداد انتقائية القبول (ستنخفض النسبة المئوية للطلاب المقبولين). سيؤدي ذلك إلى
تعزيز ترتيب هذه المدارس، ما سيزيد بدوره من
اهتمام الطلاب المحتملين، وما إلى ذلك.
نموذج نتائج الانتخابات الذي يتوقّع الفائز في سباق رئاسة بلدية
من خلال استطلاع% 2 من الناخبين بعد إغلاق صناديق الاقتراع
إذا لم ينشر النموذج توقّعاته إلا بعد إغلاق صناديق الاقتراع، لن يكون من الممكن أن تؤثّر توقّعاته في سلوك الناخبين.
نموذج لقيمة المساكن يتنبّأ بأسعار المنازل باستخدام
المساحة (بالمتر المربّع) وعدد غرف النوم والموقع الجغرافي
بصفتها سمات
لا يمكن تغيير الموقع الجغرافي للبيت أو
حجمه أو عدد غرف النوم بسرعة استجابةً لتوقّعات الأسعار،
ما يجعل حلقة الملاحظات والآراء غير محتملة. ومع ذلك، من المحتمل أن يكون هناك
ارتباط بين الحجم وعدد غرف النوم (من المرجّح أن تحتوي المنازل الكبيرة
على المزيد من الغرف) وقد تحتاج إلى التمييز بينهما.
نموذج لسمات الوجه يرصد ما إذا كان الشخص يبتسم
في الصورة، ويتم تدريبه بانتظام على قاعدة بيانات للصور المخزّنة
والتي يتم تحديثها تلقائيًا شهريًا.
لا تتوفّر حلقة ملاحظات هنا، لأنّ توقّعات النماذج لا تُحدث
أي تأثير في قاعدة بيانات الصور. ومع ذلك، يُعدّ تحديد الإصدارات لبيانات الإدخال
موضع قلق هنا، لأنّ هذه التحديثات الشهرية قد تؤدي
ربما إلى تأثيرات غير متوقّعة في النموذج.