این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

سنجش موفقیت

چگونه متوجه خواهید شد که آیا پیاده سازی ML شما ارزش کار را داشته است؟ چه زمانی باید جشن را شروع کنید: درست پس از اینکه مدل به تولید رسید و اولین پیش بینی خود را ارائه کرد، یا تنها پس از اینکه یک معیار تجاری کمی شروع به حرکت در جهت درست کرد؟

قبل از شروع یک پروژه، بسیار مهم است که معیارهای موفقیت خود را تعریف کنید و در مورد موارد قابل تحویل توافق کنید. شما باید دو نوع معیار زیر را تعریف و پیگیری کنید:

معیارهای کسب و کار معیارهایی برای کمی کردن عملکرد کسب و کار، به عنوان مثال، درآمد، نرخ کلیک یا تعداد کاربران.
معیارهای مدل معیارهایی برای کمی کردن کیفیت مدل، به عنوان مثال، ریشه میانگین مربعات خطا ، دقت ، یا یادآوری .

معیارهای کسب و کار

معیارهای کسب و کار مهم ترین هستند. آنها دلیل استفاده از ML هستند: شما می خواهید کسب و کار خود را بهبود ببخشید.

با معیارهای محصول یا کسب و کار قابل سنجش شروع کنید. متریک باید تا حد امکان دانه بندی و متمرکز باشد. موارد زیر نمونه هایی از معیارهای تجاری متمرکز و قابل سنجش هستند:

هزینه برق ماهانه دیتاسنتر را تا 30 درصد کاهش دهید.
درآمد حاصل از توصیه های محصول را 12 درصد افزایش دهید.
نرخ کلیک را 9 درصد افزایش دهید.
20 درصد احساسات مشتری را از نظرسنجی‌های شرکت‌کننده افزایش دهید.
زمان صفحه را 4 درصد افزایش دهید.

ردیابی معیارهای کسب و کار

اگر معیارهای تجاری را که می‌خواهید بهبود دهید، دنبال نمی‌کنید، با پیاده‌سازی زیرساخت‌های انجام این کار شروع کنید. اگر در حال حاضر نرخ کلیک را اندازه گیری نمی کنید، تعیین هدف برای افزایش نرخ کلیک 15 درصد منطقی نیست.

مهمتر از آن، مطمئن شوید که معیار مناسبی را برای مشکل خود اندازه گیری می کنید. برای مثال، زمانی را صرف نوشتن ابزار دقیق برای ردیابی نرخ کلیک نکنید، اگر معیار مهم‌تر ممکن است درآمد حاصل از توصیه‌ها باشد.

همانطور که پروژه شما پیشرفت می کند، متوجه خواهید شد که آیا معیار موفقیت هدف واقعاً یک هدف واقعی است یا خیر. در برخی موارد، ممکن است تشخیص دهید که پروژه با توجه به معیارهای موفقیت تعریف شده قابل دوام نیست.

معیارهای مدل

چه زمانی باید مدل را وارد تولید کنید؟ وقتی AUC در یک مقدار مشخص است؟ وقتی مدل به امتیاز F1 خاصی می رسد؟ پاسخ به این سوال به نوع مشکلی که حل می‌کنید و کیفیت پیش‌بینی که فکر می‌کنید برای بهبود معیار کسب‌وکار به آن نیاز دارید بستگی دارد.

هنگام تعیین معیارهای ارزیابی مدل خود، موارد زیر را در نظر بگیرید:

یک متریک واحد برای بهینه سازی تعیین کنید . برای مثال، مدل‌های طبقه‌بندی را می‌توان بر اساس معیارهای مختلفی ارزیابی کرد ( AUC ، AUC-PR ، و غیره). زمانی که معیارهای مختلف به نفع مدل های مختلف باشد، انتخاب بهترین مدل می تواند چالش برانگیز باشد. بنابراین، روی یک معیار واحد برای ارزیابی مدل‌ها توافق کنید.
تعیین اهداف مقبولیت برای رسیدن به . اهداف مقبولیت با معیارهای ارزیابی مدل متفاوت است. آنها به اهدافی اشاره می کنند که یک مدل باید به آنها برسد تا برای یک مورد استفاده مورد نظر قابل قبول تلقی شود. برای مثال، یک هدف مقبولیت ممکن است "خروجی نادرست کمتر از 0.1٪ است" یا "یادآوری برای پنج دسته برتر بیشتر از 97٪ است."

به عنوان مثال، فرض کنید یک مدل طبقه بندی باینری تراکنش های جعلی را شناسایی می کند. متریک بهینه سازی آن ممکن است یادآوری باشد در حالی که هدف مقبولیت آن ممکن است دقت باشد. به عبارت دیگر، ما یادآوری (تشخیص صحیح کلاهبرداری در بیشتر مواقع) را در اولویت قرار می دهیم در حالی که می خواهیم دقت در یک مقدار خاص یا بالاتر از آن باقی بماند (شناسایی تراکنش های تقلبی واقعی).

ارتباط بین معیارهای مدل و معیارهای تجاری

اساساً، شما در حال تلاش برای ایجاد مدلی هستید که کیفیت پیش‌بینی آن به طور علّی با معیارهای کسب و کار شما مرتبط باشد. معیارهای مدل عالی لزوماً به معنی معیارهای بهبود یافته تجاری نیست. تیم شما ممکن است مدلی با معیارهای چشمگیر ایجاد کند، اما پیش‌بینی‌های این مدل ممکن است در بهبود معیار تجاری شکست بخورد.

وقتی از کیفیت پیش‌بینی مدل خود راضی هستید، سعی کنید تعیین کنید که معیارهای مدل چگونه بر معیارهای تجاری تأثیر می‌گذارند. معمولاً تیم‌ها مدل را برای 1٪ از کاربران مستقر می‌کنند و سپس معیارهای تجاری را نظارت می‌کنند.

به عنوان مثال، فرض کنید تیم شما مدلی برای افزایش درآمد با پیش‌بینی ریزش مشتری ایجاد کرده است. در تئوری، اگر بتوانید پیش‌بینی کنید که آیا مشتری احتمالاً پلتفرم را ترک می‌کند یا خیر، می‌توانید او را تشویق کنید که بماند.

تیم شما مدلی با کیفیت پیش‌بینی 95 درصد ایجاد می‌کند و آن را روی نمونه کوچکی از کاربران آزمایش می‌کند. با این حال، درآمد افزایش نمی یابد. ریزش مشتری در واقع افزایش می یابد. در اینجا برخی از توضیحات احتمالی وجود دارد:

پیش‌بینی‌ها آنقدر زود اتفاق نمی‌افتند که قابل عمل باشند . این مدل تنها می‌تواند ریزش مشتریان را در بازه زمانی هفت روزه پیش‌بینی کند، که برای ارائه مشوق‌هایی برای حفظ آنها در پلتفرم کافی نیست.
ویژگی های ناقص شاید عوامل دیگری در ریزش مشتری نقش داشته باشند که در مجموعه داده آموزشی وجود نداشت.
آستانه به اندازه کافی بالا نیست . این مدل ممکن است نیاز به کیفیت پیش‌بینی 97 درصد یا بالاتر داشته باشد تا مفید باشد.

این مثال ساده دو نکته را برجسته می کند:

انجام آزمایش اولیه کاربر برای اثبات (و درک) ارتباط بین معیارهای مدل و معیارهای تجاری بسیار مهم است.
معیارهای مدل عالی معیارهای بهبود کسب و کار را تضمین نمی کنند.

هوش مصنوعی مولد

ارزیابی خروجی AI مولد چالش های منحصر به فردی را ارائه می دهد. در بسیاری از موارد، مانند خروجی باز یا خلاقانه، دشوارتر از ارزیابی خروجی های سنتی ML است.

LLM ها را می توان با معیارهای مختلفی اندازه گیری و ارزیابی کرد. تعیین معیارهایی که باید مدل خود را بر اساس آن ارزیابی کنید، به مورد استفاده شما بستگی دارد.

در نظر داشته باشید

موفقیت مدل را با موفقیت تجاری اشتباه نگیرید. به عبارت دیگر، یک مدل با معیارهای برجسته موفقیت تجاری را تضمین نمی کند.

بسیاری از مهندسان ماهر می توانند مدل هایی با معیارهای چشمگیر ایجاد کنند. آموزش یک مدل به اندازه کافی خوب معمولاً مشکلی نیست. بلکه به این دلیل است که این مدل معیار کسب و کار را بهبود نمی بخشد. یک پروژه ML می تواند به دلیل عدم همسویی بین معیارهای کسب و کار و معیارهای مدل با شکست مواجه شود.

درک خود را بررسی کنید

شما یک مشکل تجاری واضح و یک راه حل کاملاً تعریف شده برای استفاده از LLM به عنوان نماینده پشتیبانی مشتری دارید. چگونه باید در مورد سنجش موفقیت آمیز بودن راه حل فکر کنید؟

تعداد موارد پشتیبانی حل شده که نیاز به مشارکت انسانی دارند از 72٪ به 50٪ کاهش می یابد.

درست است. این یک معیار اندازه گیری تجاری است که می توانید آن را پیگیری کنید.

معیارهای ارزیابی LLM به طور مداوم بالا هستند.

معیارهای مدل خوب تضمین نمی کند که معیارهای تجاری بهبود یافته ای داشته باشید.

بازخورد از آزمایش اولیه کاربر بسیار مطلوب است.

بازخورد اولیه کاربر معمولاً بیشتر کیفی است تا کمی. برای اندازه‌گیری موفقیت، باید یک معیار تجاری قابل اندازه‌گیری تعیین کنید.

AUC	AUC-PR
طبقه بندی باینری	امتیاز F1
متریک	دقت
به یاد بیاور	ریشه میانگین مربعات خطا

سنجش موفقیت با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.