سیستم های ML تولید: سوالاتی که باید بپرسید

این درس بر روی سوالاتی که باید در مورد داده ها و مدل خود در سیستم های تولید بپرسید تمرکز دارد.

آیا هر ویژگی مفید است؟

شما باید به طور مداوم مدل خود را کنترل کنید تا ویژگی هایی را حذف کنید که به توانایی پیش بینی مدل کمک چندانی می کنند یا هیچ کمکی نمی کنند. اگر داده های ورودی برای آن ویژگی به طور ناگهانی تغییر کند، رفتار مدل شما نیز ممکن است به طور ناگهانی به روش های نامطلوبی تغییر کند.

به سوال مرتبط زیر نیز توجه کنید:

  • آیا مفید بودن ویژگی هزینه گنجاندن آن را توجیه می کند؟

افزودن ویژگی های بیشتر به مدل همیشه وسوسه انگیز است. به عنوان مثال، فرض کنید ویژگی جدیدی پیدا کرده اید که اضافه شدن آن باعث می شود پیش بینی های مدل شما کمی بهتر شود. پیش‌بینی‌های کمی بهتر مطمئناً بهتر از پیش‌بینی‌های کمی بدتر به نظر می‌رسند. با این حال، ویژگی اضافی به بار تعمیر و نگهداری شما می افزاید.

آیا منبع داده شما قابل اعتماد است؟

چند سوال در مورد قابلیت اطمینان داده های ورودی شما:

  • آیا سیگنال همیشه در دسترس خواهد بود یا از یک منبع غیرقابل اطمینان می آید؟ به عنوان مثال:
    • آیا سیگنال از سروری می آید که تحت بار سنگین از کار می افتد؟
    • آیا سیگنال از انسان هایی می آید که هر ماه اوت به تعطیلات می روند؟
  • آیا سیستمی که داده های ورودی مدل شما را محاسبه می کند هرگز تغییر می کند؟ اگر چنین است:
    • چند وقت یکبار؟
    • چگونه متوجه خواهید شد که آن سیستم چه زمانی تغییر می کند؟

در نظر بگیرید کپی خود را از داده هایی که از فرآیند بالادستی دریافت می کنید ایجاد کنید. سپس، تنها زمانی به نسخه بعدی داده های بالادستی بروید که مطمئن باشید انجام این کار ایمن است.

آیا مدل شما بخشی از یک حلقه بازخورد است؟

گاهی اوقات یک مدل می تواند بر داده های آموزشی خود تأثیر بگذارد. برای مثال، نتایج برخی از مدل‌ها به نوبه خود به ویژگی‌های ورودی (مستقیم یا غیر مستقیم) همان مدل تبدیل می‌شوند.

گاهی اوقات یک مدل می تواند مدل دیگری را تحت تاثیر قرار دهد. برای مثال، دو مدل را برای پیش‌بینی قیمت سهام در نظر بگیرید:

  • مدل A که یک مدل پیش بینی بد است.
  • مدل B.

از آنجایی که مدل A باگ است، به اشتباه تصمیم به خرید سهام در سهام X می‌کند. این خریدها قیمت سهام X را بالا می‌برد. مدل B از قیمت سهام X به عنوان یک ویژگی ورودی استفاده می‌کند، بنابراین مدل B می‌تواند به نتایج نادرستی در مورد آن برسد. ارزش سهام X. بنابراین، مدل B می‌تواند سهام سهام X را بر اساس رفتار باگ مدل A بخرد یا بفروشد. رفتار مدل B به نوبه خود می‌تواند بر مدل A تأثیر بگذارد و احتمالاً باعث ایجاد شیدایی لاله یا لغزشی در شرکت X شود. سهام

تمرین: درک خود را بررسی کنید

کدام سه مدل از مدل های زیر مستعد یک حلقه بازخورد هستند؟
یک مدل ارزش مسکن که قیمت خانه را با استفاده از اندازه (مساحت به متر مربع)، تعداد اتاق خواب و موقعیت جغرافیایی به عنوان ویژگی پیش بینی می کند.
یک مدل نتایج انتخابات که برنده رقابت شهرداری را با نظرسنجی از 2 درصد از رای دهندگان پس از بسته شدن صندوق ها پیش بینی می کند.
مدلی با ویژگی‌های چهره که تشخیص می‌دهد آیا فردی در عکسی لبخند می‌زند یا خیر، که به طور منظم در پایگاه داده عکاسی استوک آموزش داده می‌شود که به‌طور خودکار ماهانه به‌روزرسانی می‌شود.
یک مدل رتبه‌بندی دانشگاهی که مدارس را تا حدی بر اساس گزینش آن‌ها رتبه‌بندی می‌کند - درصد دانش‌آموزانی که درخواست کردند که پذیرفته شدند.
یک مدل پیش‌بینی ترافیک که ازدحام در خروجی‌های بزرگراه نزدیک ساحل را پیش‌بینی می‌کند و از اندازه جمعیت ساحل به عنوان یکی از ویژگی‌های آن استفاده می‌کند.
یک مدل توصیه کتاب که بر اساس محبوبیت آنها (یعنی تعداد دفعاتی که کتاب‌ها خریداری شده‌اند) رمان‌هایی را پیشنهاد می‌کند که ممکن است کاربرانش دوست داشته باشند.