این درس بر روی سوالاتی که باید در مورد داده ها و مدل خود در سیستم های تولید بپرسید تمرکز دارد.
آیا هر ویژگی مفید است؟
شما باید به طور مداوم مدل خود را کنترل کنید تا ویژگی هایی را حذف کنید که به توانایی پیش بینی مدل کمک چندانی می کنند یا هیچ کمکی نمی کنند. اگر داده های ورودی برای آن ویژگی به طور ناگهانی تغییر کند، رفتار مدل شما نیز ممکن است به طور ناگهانی به روش های نامطلوبی تغییر کند.
به سوال مرتبط زیر نیز توجه کنید:
- آیا مفید بودن ویژگی هزینه گنجاندن آن را توجیه می کند؟
افزودن ویژگی های بیشتر به مدل همیشه وسوسه انگیز است. به عنوان مثال، فرض کنید ویژگی جدیدی پیدا کرده اید که اضافه شدن آن باعث می شود پیش بینی های مدل شما کمی بهتر شود. پیشبینیهای کمی بهتر مطمئناً بهتر از پیشبینیهای کمی بدتر به نظر میرسند. با این حال، ویژگی اضافی به بار تعمیر و نگهداری شما می افزاید.
آیا منبع داده شما قابل اعتماد است؟
چند سوال در مورد قابلیت اطمینان داده های ورودی شما:
- آیا سیگنال همیشه در دسترس خواهد بود یا از یک منبع غیرقابل اطمینان می آید؟ به عنوان مثال:
- آیا سیگنال از سروری می آید که تحت بار سنگین از کار می افتد؟
- آیا سیگنال از انسان هایی می آید که هر ماه اوت به تعطیلات می روند؟
- آیا سیستمی که داده های ورودی مدل شما را محاسبه می کند هرگز تغییر می کند؟ اگر چنین است:
- چند وقت یکبار؟
- چگونه متوجه خواهید شد که آن سیستم چه زمانی تغییر می کند؟
در نظر بگیرید کپی خود را از داده هایی که از فرآیند بالادستی دریافت می کنید ایجاد کنید. سپس، تنها زمانی به نسخه بعدی داده های بالادستی بروید که مطمئن باشید انجام این کار ایمن است.
آیا مدل شما بخشی از یک حلقه بازخورد است؟
گاهی اوقات یک مدل می تواند بر داده های آموزشی خود تأثیر بگذارد. برای مثال، نتایج برخی از مدلها به نوبه خود به ویژگیهای ورودی (مستقیم یا غیر مستقیم) همان مدل تبدیل میشوند.
گاهی اوقات یک مدل می تواند مدل دیگری را تحت تاثیر قرار دهد. برای مثال، دو مدل را برای پیشبینی قیمت سهام در نظر بگیرید:
- مدل A که یک مدل پیش بینی بد است.
- مدل B.
از آنجایی که مدل A باگ است، به اشتباه تصمیم به خرید سهام در سهام X میکند. این خریدها قیمت سهام X را بالا میبرد. مدل B از قیمت سهام X به عنوان یک ویژگی ورودی استفاده میکند، بنابراین مدل B میتواند به نتایج نادرستی در مورد آن برسد. ارزش سهام X. بنابراین، مدل B میتواند سهام سهام X را بر اساس رفتار باگ مدل A بخرد یا بفروشد. رفتار مدل B به نوبه خود میتواند بر مدل A تأثیر بگذارد و احتمالاً باعث ایجاد شیدایی لاله یا لغزشی در شرکت X شود. سهام
تمرین: درک خود را بررسی کنید
کدام سه مدل از مدل های زیر مستعد یک حلقه بازخورد هستند؟
یک مدل پیشبینی ترافیک که ازدحام در خروجیهای بزرگراه نزدیک ساحل را پیشبینی میکند و از اندازه جمعیت ساحل به عنوان یکی از ویژگیهای آن استفاده میکند.
برخی از مسافران ساحل احتمالاً برنامه های خود را بر اساس پیش بینی ترافیک قرار می دهند. اگر ازدحام جمعیت زیادی در ساحل وجود داشته باشد و ترافیک سنگین پیش بینی شود، بسیاری از افراد ممکن است برنامه های جایگزینی را انجام دهند. این ممکن است میزان مشارکت در ساحل را کاهش دهد و منجر به پیشبینی ترافیک سبکتر شود، که ممکن است حضور را افزایش دهد و چرخه تکرار شود.
یک مدل توصیه کتاب که بر اساس محبوبیت آنها (یعنی تعداد دفعاتی که کتابها خریداری شدهاند) رمانهایی را پیشنهاد میکند که ممکن است کاربرانش دوست داشته باشند.
توصیههای کتاب احتمالاً باعث خرید میشوند، و این فروشهای اضافی به عنوان ورودی به مدل بازگردانده میشوند، و احتمال توصیه این کتابها را در آینده بیشتر میکند.
یک مدل رتبهبندی دانشگاهی که مدارس را تا حدی بر اساس گزینش آنها رتبهبندی میکند - درصد دانشآموزانی که درخواست کردند که پذیرفته شدند.
رتبه بندی این مدل ممکن است علاقه بیشتری را به مدارس دارای رتبه برتر جلب کند و تعداد برنامه های دریافتی آنها را افزایش دهد. اگر این مدارس به همان تعداد دانش آموز پذیرش کنند، گزینش پذیری افزایش می یابد (درصد پذیرش دانش آموزان کاهش می یابد). این باعث افزایش رتبه بندی این مدارس می شود که علاقه دانش آموزان آینده را بیشتر افزایش می دهد و غیره…
یک مدل نتایج انتخابات که برنده رقابت شهرداری را با نظرسنجی از 2 درصد از رای دهندگان پس از بسته شدن صندوق ها پیش بینی می کند.
اگر مدل پیش بینی خود را تا پس از بسته شدن نظرسنجی منتشر نکند، امکان ندارد پیش بینی های آن بر رفتار رأی دهندگان تأثیر بگذارد.
یک مدل ارزش مسکن که قیمت خانه را با استفاده از اندازه (مساحت به متر مربع)، تعداد اتاق خواب و موقعیت جغرافیایی به عنوان ویژگی پیش بینی می کند.
تغییر سریع مکان، اندازه یا تعداد اتاقهای خواب خانه در پاسخ به پیشبینیهای قیمت، امکانپذیر نیست، و حلقه بازخورد را بعید میسازد. با این حال، به طور بالقوه بین اندازه و تعداد اتاق خواب ها همبستگی وجود دارد (خانه های بزرگتر احتمالاً اتاق های بیشتری دارند) که ممکن است نیاز به جداسازی داشته باشند.
مدلی با ویژگیهای چهره که تشخیص میدهد آیا فردی در عکسی لبخند میزند یا خیر، که به طور منظم در پایگاه داده عکاسی استوک آموزش داده میشود که بهطور خودکار ماهانه بهروزرسانی میشود.
در اینجا هیچ حلقه بازخوردی وجود ندارد، زیرا پیش بینی های مدل هیچ تاثیری بر پایگاه داده عکس ندارند. با این حال، نسخهسازی دادههای ورودی در اینجا یک نگرانی است، زیرا این بهروزرسانیهای ماهانه به طور بالقوه میتواند اثرات پیشبینینشدهای روی مدل داشته باشد.