يركز هذا الدرس على الأسئلة التي يجب أن تطرحها حول بياناتك
والنموذج في أنظمة الإنتاج.
هل كل ميزة مفيدة؟
يجب مراقبة نموذجك باستمرار لإزالة الميزات التي تساهم
بقدر قليل أو لا شيء على الإطلاق لقدرة النموذج على التنبؤ. إذا كانت بيانات الإدخال
التي تُظهر تغيرات مفاجئة، فإن سلوك نموذجك قد يظهر أيضًا بشكل مفاجئ
التغيير بطرق غير مرغوب فيها.
ضع في اعتبارك أيضًا السؤال ذي الصلة التالي:
- هل فائدة الميزة تبرر تكلفة تضمينها؟
قد تميل دائمًا إضافة المزيد من الميزات إلى النموذج. على سبيل المثال:
لنفترض أنك عثرت على ميزة جديدة تؤدي إضافتها إلى تنبؤات نموذجك
أفضل قليلاً. من المؤكد أن التوقعات الأفضل إلى حد ما تبدو أفضل من
تنبؤات أسوأ قليلاً؛ إلا أن الميزة الإضافية تضيف إلى
عبء الصيانة.
هل مصدر بياناتك موثوق؟
بعض الأسئلة التي يجب طرحها حول موثوقية بيانات الإدخال:
- هل الإشارة ستظل متاحة دائمًا أم أنها صادرة من
أو مصدرًا غير موثوق به؟ مثل:
- هل تصدر الإشارة من خادم يتعطّل أثناء حمل كثيف؟
- هل الإشارة صادرة من أشخاص يذهبون في إجازة كل آب (أغسطس)؟
- هل يتغير النظام الذي يحسب بيانات إدخال النموذج؟ في هذه الحالة:
- كم مرة؟
- كيف ستعرف متى يتغير هذا النظام؟
ضع في اعتبارك إنشاء نسختك الخاصة من البيانات التي تتلقاها من
قبل اكتمال عملية النقل. بعد ذلك، انتقِل إلى الإصدار التالي من عملية المراحل الرئيسيّة فقط.
البيانات عندما تكون متأكدًا من أن القيام بذلك آمن.
هل النموذج جزء من حلقة التعقيبات؟
في بعض الأحيان، يمكن أن يؤثر النموذج في بيانات التدريب الخاصة به. على سبيل المثال،
النتائج من بعض النماذج، بدورها، تصبح مدخلات (مباشرة أو غير مباشرة)
الميزات إلى نفس النموذج.
ففي بعض الأحيان، يمكن أن يؤثر أي نموذج في نموذج آخر. على سبيل المثال، ضع في اعتبارك اثنين
نماذج للتنبؤ بأسعار الأسهم:
- النموذج أ، وهو نموذج تنبؤي سيئ.
- النموذج (ب).
نظرًا لأن النموذج (أ) به عربات، فقد قرر عن طريق الخطأ شراء مخزون من المخزون X.
وتؤدي هذه عمليات الشراء إلى ارتفاع سعر سهم X. يستخدم الطراز (ب) السعر
المخزون X كعنصر إدخال، لذا يمكن أن يتوصل النموذج ب إلى قيمة خاطئة
الاستنتاجات حول قيمة الأسهم س. وبالتالي، يمكن للنموذج (ب)
شراء أو بيع أسهم شركة X على أساس سلوك العربات في الطراز (أ).
وبالتالي، يمكن لسلوك النموذج "ب" أن يؤثر على النموذج "أ"، مما قد يؤدي إلى
هوس التوليب أو الانزلاق
سهم الشركة X.
تمرين: التحقق من فهمك
أي ثلاثة من النماذج التالية هي عرضة
حلقة الملاحظات؟
نموذج لتوقع حركة المرور يتوقع الازدحام عند مخارج الطرق السريعة
بالقرب من الشاطئ، واستخدام حجم حشود الشاطئ كإحدى خصائصه.
من المرجح أن يعتمد بعض مرتادي الشاطئ خططهم على حركة المرور
التوقعات. وفي حال وجود ازدحام كبير على الشاطئ ومن المتوقع أن تكون حركة المرور مفعّلة.
جدًا، فقد يضع العديد من الأشخاص خططًا بديلة. قد يؤدي هذا إلى انخفاض مستوى الشاطئ
ارتفاع في حركة المرور، مما ينتج عنه توقع حركة مرور أقل، والتي قد
وتزيد من الحضور، وتكرر الدورة.
نموذج لتوصية الكتب يقترح روايات قد تعجب مستخدميه
بناءً على شعبيتها (أي عدد المرات التي تم فيها نشر الكتب
تم شراؤها).
من المرجّح أن تساهم اقتراحات الكتب في زيادة عمليات الشراء،
بيع المزيد من المبيعات في النموذج كمدخلات
مما يزيد من احتمال التوصية بهذه الكتب نفسها في
المستقبلية.
نموذج لتصنيف الجامعات يقيّم المدارس جزئيًا حسب
الانتقائية - النسبة المئوية للطلاب الذين طبقوا
المسموح لهم بالانضمام.
قد يؤدي ترتيبات النموذج إلى جذب مزيد من الاهتمام إلى الأعلى تقييمًا
المؤسسات التعليمية، مما يزيد من عدد الطلبات التي تتلقاها. إذا كانت هذه
المؤسسات التعليمية التي تستمر في قبول نفس العدد من الطلاب، فستتغير الانتقائية
زيادة (ستنخفض النسبة المئوية للطلاب المقبولين). هذا النمط
سيعزز عمليات الترتيب، ما سيزيد من
الاهتمامات المحتملة للطلاب، وما إلى ذلك...
يشير هذا المصطلح إلى نموذج لنتائج الانتخابات يتنبأ بالفائز في مسابقة
السباق الانتخابي على رئاسة البلدية من خلال استطلاع آراء 2% من الناخبين بعد إغلاق باب الاقتراع.
إذا لم ينشر النموذج توقعاته إلا بعد انتهاء الاستطلاعات
مغلق، فلن يكون من الممكن أن تؤثر توقعاته على الناخب
السلوك.
نموذج قيمة الإسكان يتنبأ بأسعار المساكن، باستخدام
الحجم (المنطقة بالمتر المربّع) وعدد غرف النوم والموقع الجغرافي
كميزات.
ليس من الممكن تغيير موقع المنزل بسرعة،
أو حجم أو عدد غرف النوم استجابةً لتوقعات الأسعار،
مما يجعل حلقة الملاحظات غير مرجحة. ومع ذلك، من المحتمل
هناك علاقة بين حجم وعدد غرف النوم (المنازل الأكبر حجمًا
على الأرجح أكثر من غيرها من الغرف) التي قد يلزم فصلها عن بعضها.
نموذج لسمات الوجه الذي يرصد ما إذا كان هناك شخص يبتسم
في صورة، والتي يتم تدريبها بانتظام على قاعدة بيانات لصور المخزون
يتم تحديثها تلقائيًا شهريًا
ولا توجد حلقة ملاحظات هنا، حيث لا تتضمن توقعات النماذج
أي تأثير على قاعدة بيانات الصور. ومع ذلك، فإن تحديد نُسخ الإدخال
البيانات مصدر قلق هنا، حيث قد تتضمن هذه التحديثات الشهرية
لها تأثيرات غير متوقعة في النموذج.