چگونه متوجه خواهید شد که آیا پیاده سازی ML شما ارزش کار را داشته است؟ چه زمانی باید جشن را شروع کنید: درست پس از اینکه مدل به تولید رسید و اولین پیش بینی خود را ارائه کرد، یا تنها پس از اینکه یک معیار تجاری کمی شروع به حرکت در جهت درست کرد؟
قبل از شروع یک پروژه، بسیار مهم است که معیارهای موفقیت خود را تعریف کنید و در مورد موارد قابل تحویل توافق کنید. شما باید دو نوع معیار زیر را تعریف و پیگیری کنید:
معیارهای کسب و کار معیارهایی برای کمی کردن عملکرد کسب و کار، به عنوان مثال، درآمد، نرخ کلیک یا تعداد کاربران.
معیارهای مدل معیارهایی برای کمی کردن کیفیت مدل، به عنوان مثال، ریشه میانگین مربعات خطا ، دقت ، یا یادآوری .
معیارهای کسب و کار
معیارهای کسب و کار مهم ترین هستند. آنها دلیل استفاده از ML هستند: شما می خواهید کسب و کار خود را بهبود ببخشید.
با معیارهای محصول یا کسب و کار قابل سنجش شروع کنید. متریک باید تا حد امکان دانه بندی و متمرکز باشد. موارد زیر نمونه هایی از معیارهای تجاری متمرکز و قابل سنجش هستند:
- هزینه برق ماهانه دیتاسنتر را تا 30 درصد کاهش دهید.
- درآمد حاصل از توصیه های محصول را 12 درصد افزایش دهید.
- نرخ کلیک را 9 درصد افزایش دهید.
- 20 درصد احساسات مشتری را از نظرسنجیهای شرکتکننده افزایش دهید.
- زمان صفحه را 4 درصد افزایش دهید.
ردیابی معیارهای کسب و کار
اگر معیارهای تجاری را که میخواهید بهبود دهید، دنبال نمیکنید، با پیادهسازی زیرساختهای انجام این کار شروع کنید. اگر در حال حاضر نرخ کلیک را اندازه گیری نمی کنید، تعیین هدف برای افزایش نرخ کلیک 15 درصد منطقی نیست.
مهمتر از آن، مطمئن شوید که معیار مناسبی را برای مشکل خود اندازه گیری می کنید. برای مثال، زمانی را صرف نوشتن ابزار دقیق برای ردیابی نرخ کلیک نکنید، اگر معیار مهمتر ممکن است درآمد حاصل از توصیهها باشد.
همانطور که پروژه شما پیشرفت می کند، متوجه خواهید شد که آیا معیار موفقیت هدف واقعاً یک هدف واقعی است یا خیر. در برخی موارد، ممکن است تشخیص دهید که پروژه با توجه به معیارهای موفقیت تعریف شده قابل دوام نیست.
معیارهای مدل
چه زمانی باید مدل را وارد تولید کنید؟ وقتی AUC در یک مقدار مشخص است؟ وقتی مدل به امتیاز F1 خاصی می رسد؟ پاسخ به این سوال به نوع مشکلی که حل میکنید و کیفیت پیشبینی که فکر میکنید برای بهبود معیار کسبوکار به آن نیاز دارید بستگی دارد.
هنگام تعیین معیارهای ارزیابی مدل خود، موارد زیر را در نظر بگیرید:
یک متریک واحد برای بهینه سازی تعیین کنید . برای مثال، مدلهای طبقهبندی را میتوان بر اساس معیارهای مختلفی ارزیابی کرد ( AUC ، AUC-PR ، و غیره). زمانی که معیارهای مختلف به نفع مدل های مختلف باشد، انتخاب بهترین مدل می تواند چالش برانگیز باشد. بنابراین، روی یک معیار واحد برای ارزیابی مدلها توافق کنید.
تعیین اهداف مقبولیت برای رسیدن به . اهداف مقبولیت با معیارهای ارزیابی مدل متفاوت است. آنها به اهدافی اشاره می کنند که یک مدل باید به آنها برسد تا برای یک مورد استفاده مورد نظر قابل قبول تلقی شود. برای مثال، یک هدف مقبولیت ممکن است "خروجی نادرست کمتر از 0.1٪ است" یا "یادآوری برای پنج دسته برتر بیشتر از 97٪ است."
به عنوان مثال، فرض کنید یک مدل طبقه بندی باینری تراکنش های جعلی را شناسایی می کند. متریک بهینه سازی آن ممکن است یادآوری باشد در حالی که هدف مقبولیت آن ممکن است دقت باشد. به عبارت دیگر، ما یادآوری (تشخیص صحیح کلاهبرداری در بیشتر مواقع) را در اولویت قرار می دهیم در حالی که می خواهیم دقت در یک مقدار خاص یا بالاتر از آن باقی بماند (شناسایی تراکنش های تقلبی واقعی).
ارتباط بین معیارهای مدل و معیارهای تجاری
اساساً، شما در حال تلاش برای ایجاد مدلی هستید که کیفیت پیشبینی آن به طور علّی با معیارهای کسب و کار شما مرتبط باشد. معیارهای مدل عالی لزوماً به معنی معیارهای بهبود یافته تجاری نیست. تیم شما ممکن است مدلی با معیارهای چشمگیر ایجاد کند، اما پیشبینیهای این مدل ممکن است در بهبود معیار تجاری شکست بخورد.
وقتی از کیفیت پیشبینی مدل خود راضی هستید، سعی کنید تعیین کنید که معیارهای مدل چگونه بر معیارهای تجاری تأثیر میگذارند. معمولاً تیمها مدل را برای 1٪ از کاربران مستقر میکنند و سپس معیارهای تجاری را نظارت میکنند.
به عنوان مثال، فرض کنید تیم شما مدلی برای افزایش درآمد با پیشبینی ریزش مشتری ایجاد کرده است. در تئوری، اگر بتوانید پیشبینی کنید که آیا مشتری احتمالاً پلتفرم را ترک میکند یا خیر، میتوانید او را تشویق کنید که بماند.
تیم شما مدلی با کیفیت پیشبینی 95 درصد ایجاد میکند و آن را روی نمونه کوچکی از کاربران آزمایش میکند. با این حال، درآمد افزایش نمی یابد. ریزش مشتری در واقع افزایش می یابد. در اینجا برخی از توضیحات احتمالی وجود دارد:
پیشبینیها آنقدر زود اتفاق نمیافتند که قابل عمل باشند . این مدل تنها میتواند ریزش مشتریان را در بازه زمانی هفت روزه پیشبینی کند، که برای ارائه مشوقهایی برای حفظ آنها در پلتفرم کافی نیست.
ویژگی های ناقص شاید عوامل دیگری در ریزش مشتری نقش داشته باشند که در مجموعه داده آموزشی وجود نداشت.
آستانه به اندازه کافی بالا نیست . این مدل ممکن است نیاز به کیفیت پیشبینی 97 درصد یا بالاتر داشته باشد تا مفید باشد.
این مثال ساده دو نکته را برجسته می کند:
- انجام آزمایش اولیه کاربر برای اثبات (و درک) ارتباط بین معیارهای مدل و معیارهای تجاری بسیار مهم است.
- معیارهای مدل عالی معیارهای بهبود کسب و کار را تضمین نمی کنند.
هوش مصنوعی مولد
ارزیابی خروجی AI مولد چالش های منحصر به فردی را ارائه می دهد. در بسیاری از موارد، مانند خروجی باز یا خلاقانه، دشوارتر از ارزیابی خروجی های سنتی ML است.
LLM ها را می توان با معیارهای مختلفی اندازه گیری و ارزیابی کرد. تعیین معیارهایی که باید مدل خود را بر اساس آن ارزیابی کنید، به مورد استفاده شما بستگی دارد. برای اطلاعات بیشتر، به مقدمه ارزیابی LLM مراجعه کنید.
یادت باشه
موفقیت مدل را با موفقیت تجاری اشتباه نگیرید. به عبارت دیگر، یک مدل با معیارهای برجسته موفقیت تجاری را تضمین نمی کند.
بسیاری از مهندسان ماهر می توانند مدل هایی با معیارهای چشمگیر ایجاد کنند. آموزش یک مدل به اندازه کافی خوب معمولاً مشکلی نیست. بلکه به این دلیل است که این مدل معیار کسب و کار را بهبود نمی بخشد. یک پروژه ML می تواند به دلیل عدم همسویی بین معیارهای کسب و کار و معیارهای مدل با شکست مواجه شود.