سیستم های ML تولید: سوالاتی که باید بپرسید

این درس بر روی سوالاتی که باید در مورد داده ها و مدل خود در سیستم های تولید بپرسید تمرکز دارد.

آیا هر ویژگی مفید است؟

شما باید به طور مداوم مدل خود را کنترل کنید تا ویژگی هایی را حذف کنید که به توانایی پیش بینی مدل کمک چندانی می کنند یا هیچ کمکی نمی کنند. اگر داده های ورودی برای آن ویژگی به طور ناگهانی تغییر کند، رفتار مدل شما نیز ممکن است به طور ناگهانی به روش های نامطلوبی تغییر کند.

به سوال مرتبط زیر نیز توجه کنید:

  • آیا مفید بودن ویژگی هزینه گنجاندن آن را توجیه می کند؟

افزودن ویژگی های بیشتر به مدل همیشه وسوسه انگیز است. به عنوان مثال، فرض کنید ویژگی جدیدی پیدا کرده اید که اضافه شدن آن باعث می شود پیش بینی های مدل شما کمی بهتر شود. پیش‌بینی‌های کمی بهتر مطمئناً بهتر از پیش‌بینی‌های کمی بدتر به نظر می‌رسند. با این حال، ویژگی اضافی به بار تعمیر و نگهداری شما می افزاید.

آیا منبع داده شما قابل اعتماد است؟

چند سوال در مورد قابلیت اطمینان داده های ورودی شما:

  • آیا سیگنال همیشه در دسترس خواهد بود یا از یک منبع غیرقابل اطمینان می آید؟ به عنوان مثال:
    • آیا سیگنال از سروری می آید که تحت بار سنگین از کار می افتد؟
    • آیا سیگنال از انسان هایی می آید که هر ماه اوت به تعطیلات می روند؟
  • آیا سیستمی که داده های ورودی مدل شما را محاسبه می کند هرگز تغییر می کند؟ اگر چنین است:
    • چند وقت یکبار؟
    • چگونه متوجه خواهید شد که آن سیستم چه زمانی تغییر می کند؟

در نظر بگیرید کپی خود را از داده هایی که از فرآیند بالادستی دریافت می کنید ایجاد کنید. سپس، تنها زمانی به نسخه بعدی داده های بالادستی بروید که مطمئن باشید انجام این کار ایمن است.

آیا مدل شما بخشی از یک حلقه بازخورد است؟

گاهی اوقات یک مدل می تواند بر داده های آموزشی خود تأثیر بگذارد. برای مثال، نتایج برخی از مدل‌ها به نوبه خود به ویژگی‌های ورودی (مستقیم یا غیر مستقیم) همان مدل تبدیل می‌شوند.

گاهی اوقات یک مدل می تواند مدل دیگری را تحت تاثیر قرار دهد. برای مثال، دو مدل را برای پیش‌بینی قیمت سهام در نظر بگیرید:

  • مدل A که یک مدل پیش بینی بد است.
  • مدل B.

از آنجایی که مدل A باگ است، به اشتباه تصمیم به خرید سهام در سهام X می‌کند. این خریدها قیمت سهام X را بالا می‌برد. مدل B از قیمت سهام X به عنوان یک ویژگی ورودی استفاده می‌کند، بنابراین مدل B می‌تواند به نتایج نادرستی در مورد آن برسد. ارزش سهام X. بنابراین، مدل B می‌تواند سهام سهام X را بر اساس رفتار باگ مدل A بخرد یا بفروشد. رفتار مدل B به نوبه خود می‌تواند بر مدل A تأثیر بگذارد و احتمالاً باعث ایجاد شیدایی لاله یا لغزشی در شرکت X شود. سهام

تمرین: درک خود را بررسی کنید

کدام سه مدل از مدل های زیر مستعد یک حلقه بازخورد هستند؟
یک مدل پیش‌بینی ترافیک که ازدحام در خروجی‌های بزرگراه نزدیک ساحل را پیش‌بینی می‌کند و از اندازه جمعیت ساحل به عنوان یکی از ویژگی‌های آن استفاده می‌کند.
برخی از مسافران ساحل احتمالاً برنامه های خود را بر اساس پیش بینی ترافیک قرار می دهند. اگر ازدحام جمعیت زیادی در ساحل وجود داشته باشد و ترافیک سنگین پیش بینی شود، بسیاری از افراد ممکن است برنامه های جایگزینی را انجام دهند. این ممکن است میزان مشارکت در ساحل را کاهش دهد و منجر به پیش‌بینی ترافیک سبک‌تر شود، که ممکن است حضور را افزایش دهد و چرخه تکرار شود.
یک مدل توصیه کتاب که بر اساس محبوبیت آنها (یعنی تعداد دفعاتی که کتاب‌ها خریداری شده‌اند) رمان‌هایی را پیشنهاد می‌کند که ممکن است کاربرانش دوست داشته باشند.
توصیه‌های کتاب احتمالاً باعث خرید می‌شوند، و این فروش‌های اضافی به عنوان ورودی به مدل بازگردانده می‌شوند، و احتمال توصیه این کتاب‌ها را در آینده بیشتر می‌کند.
یک مدل رتبه‌بندی دانشگاهی که مدارس را تا حدی بر اساس گزینش آن‌ها رتبه‌بندی می‌کند - درصد دانش‌آموزانی که درخواست کردند که پذیرفته شدند.
رتبه بندی این مدل ممکن است علاقه بیشتری را به مدارس دارای رتبه برتر جلب کند و تعداد برنامه های دریافتی آنها را افزایش دهد. اگر این مدارس به همان تعداد دانش آموز پذیرش کنند، گزینش پذیری افزایش می یابد (درصد پذیرش دانش آموزان کاهش می یابد). این باعث افزایش رتبه بندی این مدارس می شود که علاقه دانش آموزان آینده را بیشتر افزایش می دهد و غیره…
یک مدل نتایج انتخابات که برنده رقابت شهرداری را با نظرسنجی از 2 درصد از رای دهندگان پس از بسته شدن صندوق ها پیش بینی می کند.
اگر مدل پیش بینی خود را تا پس از بسته شدن نظرسنجی منتشر نکند، امکان ندارد پیش بینی های آن بر رفتار رأی دهندگان تأثیر بگذارد.
یک مدل ارزش مسکن که قیمت خانه را با استفاده از اندازه (مساحت به متر مربع)، تعداد اتاق خواب و موقعیت جغرافیایی به عنوان ویژگی پیش بینی می کند.
تغییر سریع مکان، اندازه یا تعداد اتاق‌های خواب خانه در پاسخ به پیش‌بینی‌های قیمت، امکان‌پذیر نیست، و حلقه بازخورد را بعید می‌سازد. با این حال، به طور بالقوه بین اندازه و تعداد اتاق خواب ها همبستگی وجود دارد (خانه های بزرگتر احتمالاً اتاق های بیشتری دارند) که ممکن است نیاز به جداسازی داشته باشند.
مدلی با ویژگی‌های چهره که تشخیص می‌دهد آیا فردی در عکسی لبخند می‌زند یا خیر، که به طور منظم در پایگاه داده عکاسی استوک آموزش داده می‌شود که به‌طور خودکار ماهانه به‌روزرسانی می‌شود.
در اینجا هیچ حلقه بازخوردی وجود ندارد، زیرا پیش بینی های مدل هیچ تاثیری بر پایگاه داده عکس ندارند. با این حال، نسخه‌سازی داده‌های ورودی در اینجا یک نگرانی است، زیرا این به‌روزرسانی‌های ماهانه به طور بالقوه می‌تواند اثرات پیش‌بینی‌نشده‌ای روی مدل داشته باشد.