امکان پذیری

در مرحله ایده پردازی و برنامه ریزی، عناصر یک راه حل ML را بررسی می کنید. در طول کار چارچوب بندی مسئله، شما یک مسئله را بر اساس راه حل ML قاب بندی می کنید. دوره مقدماتی بر چارچوب‌بندی مشکلات یادگیری ماشینی این مراحل را به طور مفصل پوشش می‌دهد. در طول کار برنامه ریزی، امکان سنجی راه حل، رویکردهای برنامه ریزی، و معیارهای موفقیت را تعیین می کنید.

در حالی که ML ممکن است از نظر تئوری راه حل خوبی باشد، شما هنوز باید امکان سنجی آن را در دنیای واقعی تخمین بزنید. به عنوان مثال، یک راه حل ممکن است از نظر فنی کارساز باشد، اما اجرای آن غیرعملی یا غیرممکن باشد. عوامل زیر بر امکان سنجی پروژه تأثیر می گذارد:

  • در دسترس بودن داده ها
  • مشکل مشکل
  • کیفیت پیش بینی
  • الزامات فنی
  • هزینه

در دسترس بودن داده ها

مدل‌های ML فقط به اندازه داده‌هایی هستند که روی آنها آموزش دیده‌اند. آنها برای انجام پیش بینی های با کیفیت به داده های باکیفیت زیادی نیاز دارند. پرداختن به سوالات زیر می تواند به شما کمک کند که آیا داده های لازم برای آموزش یک مدل را دارید یا خیر:

  • تعداد. آیا می توانید داده های باکیفیت کافی برای آموزش یک مدل به دست آورید؟ آیا نمونه های برچسب گذاری شده کمیاب، سخت به دست می آیند، یا خیلی گران هستند؟ به عنوان مثال، دریافت تصاویر پزشکی برچسب دار یا ترجمه زبان های نادر بسیار سخت است. برای پیش‌بینی خوب، مدل‌های طبقه‌بندی به مثال‌های متعددی برای هر برچسب نیاز دارند. اگر مجموعه داده آموزشی شامل نمونه های محدودی برای برخی از برچسب ها باشد، مدل نمی تواند پیش بینی خوبی انجام دهد.

  • در دسترس بودن ویژگی در زمان خدمت. آیا تمام ویژگی های مورد استفاده در آموزش در زمان ارائه خدمات در دسترس خواهد بود؟ تیم‌ها زمان زیادی را صرف آموزش مدل‌ها کرده‌اند تا متوجه شوند که برخی از ویژگی‌ها تا چند روز پس از نیاز مدل در دسترس نبودند.

    برای مثال، فرض کنید یک مدل پیش‌بینی می‌کند که آیا مشتری روی یک URL کلیک می‌کند یا خیر، و یکی از ویژگی‌های مورد استفاده در آموزش عبارت است از user_age . با این حال، وقتی مدل یک پیش‌بینی ارائه می‌کند، user_age در دسترس نیست، شاید به این دلیل که کاربر هنوز یک حساب ایجاد نکرده است.

  • آئین نامه. مقررات و الزامات قانونی برای کسب و استفاده از داده ها چیست؟ به عنوان مثال، برخی الزامات محدودیت هایی را برای ذخیره و استفاده از انواع خاصی از داده ها تعیین می کنند.

هوش مصنوعی مولد

مدل‌های هوش مصنوعی مولد از پیش آموزش‌دیده اغلب به مجموعه داده‌های انتخاب‌شده برای برتری در وظایف خاص دامنه نیاز دارند. به طور بالقوه برای موارد استفاده زیر به مجموعه های داده نیاز دارید:

  • مهندسی سریع ، تنظیم کارآمد پارامتر ، و تنظیم دقیق . بسته به مورد استفاده، ممکن است بین 10 تا 10000 نمونه با کیفیت بالا برای اصلاح بیشتر خروجی یک مدل نیاز داشته باشید. به عنوان مثال، اگر یک مدل برای برتری در یک کار خاص، مانند پاسخ دادن به سؤالات پزشکی، نیاز به تنظیم دقیق داشته باشد، به مجموعه داده ای با کیفیت بالا نیاز دارید که نماینده انواع سؤالاتی باشد که از آن پرسیده می شود و انواع پاسخ ها. باید با آن پاسخ دهد.

    جدول زیر تخمین‌هایی را برای تعداد نمونه‌های مورد نیاز برای اصلاح خروجی یک مدل هوش مصنوعی مولد برای یک تکنیک مشخص ارائه می‌کند:

  • تکنیک تعداد نمونه های مورد نیاز
    درخواست ضربه صفر 0
    چند شات تحریک ~ 10s-100s
    تنظیم کارآمد پارامتر 1 100 تا 10000 ثانیه
    تنظیم دقیق ~ 1000-10000 ثانیه (یا بیشتر)
    1 سازگاری با رتبه پایین (LoRA) و تنظیم سریع.
  • اطلاعات به روز. پس از آموزش از قبل، مدل‌های هوش مصنوعی مولد دارای یک پایگاه دانش ثابت هستند. اگر محتوای دامنه مدل اغلب تغییر می کند، به یک استراتژی برای به روز نگه داشتن مدل نیاز دارید، مانند:

مشکل مشکل

تخمین دشواری یک مشکل می تواند سخت باشد. آنچه در ابتدا به نظر می رسد یک رویکرد قابل قبول است، ممکن است در واقع یک سوال تحقیقاتی باز باشد. آنچه عملی و قابل انجام به نظر می رسد ممکن است غیرواقعی یا غیرقابل اجرا باشد. پاسخ به سوالات زیر می تواند به اندازه گیری دشواری یک مشکل کمک کند:

  • آیا مشکل مشابه قبلا حل شده است؟ برای مثال، آیا تیم‌هایی در سازمان شما از داده‌های مشابه (یا یکسان) برای ساخت مدل‌ها استفاده کرده‌اند؟ آیا افراد یا تیم های خارج از سازمان شما مشکلات مشابهی را حل کرده اند، به عنوان مثال، در Kaggle یا TensorFlow Hub ؟ اگر چنین است، احتمالاً می‌توانید از بخش‌هایی از مدل آن‌ها برای ساخت مدل خود استفاده کنید.

  • آیا ماهیت مشکل دشوار است؟ دانستن معیارهای انسانی برای کار می تواند سطح دشواری مشکل را مشخص کند. مثلا:

    • انسان ها می توانند نوع حیوان را در یک تصویر با دقت 95 درصد طبقه بندی کنند.
    • انسان ها می توانند ارقام دست نویس را با دقت 99 درصد طبقه بندی کنند.

    داده های قبلی نشان می دهد که ایجاد مدلی برای طبقه بندی حیوانات دشوارتر از ایجاد مدلی برای طبقه بندی ارقام دست نویس است.

  • آیا بازیگران بالقوه بدی وجود دارند؟ آیا مردم فعالانه در تلاش برای بهره برداری از مدل شما خواهند بود؟ اگر چنین است، شما در یک مسابقه دائمی برای به روز رسانی مدل قبل از سوء استفاده از آن خواهید بود. به عنوان مثال، فیلترهای هرزنامه نمی توانند انواع جدیدی از هرزنامه ها را دریافت کنند، زمانی که شخصی از مدل برای ایجاد ایمیل هایی که به نظر قانونی می رسند سوء استفاده می کند.

هوش مصنوعی مولد

مدل‌های هوش مصنوعی مولد دارای آسیب‌پذیری‌های بالقوه‌ای هستند که می‌تواند دشواری یک مشکل را افزایش دهد:

  • منبع ورودی ورودی از کجا خواهد آمد؟ آیا رقیب می تواند اطلاعات آموزشی، مطالب مقدمه، محتوای پایگاه داده یا اطلاعات ابزار را افشا کند؟
  • استفاده از خروجی خروجی ها چگونه استفاده خواهند شد؟ آیا مدل محتوای خام تولید می کند یا مراحل میانی وجود دارد که مناسب بودن آن را آزمایش و تأیید می کند؟ به عنوان مثال، ارائه خروجی خام به پلاگین ها می تواند باعث ایجاد تعدادی از مشکلات امنیتی شود.
  • تنظیم دقیق. تنظیم دقیق با مجموعه داده خراب می تواند بر وزن مدل تأثیر منفی بگذارد. این خرابی باعث می شود مدل محتوای نادرست، سمی یا مغرضانه تولید کند. همانطور که قبلاً ذکر شد، تنظیم دقیق به مجموعه داده ای نیاز دارد که تأیید شده باشد تا حاوی نمونه های با کیفیت بالا باشد.

کیفیت پیش بینی

شما باید به دقت تاثیر پیش‌بینی‌های یک مدل را بر کاربران خود در نظر بگیرید و کیفیت پیش‌بینی لازم برای مدل را تعیین کنید.

کیفیت پیش‌بینی مورد نیاز به نوع پیش‌بینی بستگی دارد. به عنوان مثال، کیفیت پیش‌بینی مورد نیاز برای یک سیستم توصیه برای مدلی که نقض خط‌مشی را پرچم‌گذاری می‌کند، یکسان نخواهد بود. توصیه ویدیوی اشتباه ممکن است تجربه کاربری بدی ایجاد کند. با این حال، پرچم‌گذاری اشتباه یک ویدیو به‌عنوان ناقض خط‌مشی‌های یک پلتفرم ممکن است هزینه‌های پشتیبانی یا بدتر از آن هزینه‌های قانونی ایجاد کند.

آیا مدل شما نیاز به کیفیت پیش‌بینی بسیار بالایی دارد زیرا پیش‌بینی‌های اشتباه بسیار پرهزینه هستند؟ به طور کلی، هر چه کیفیت پیش‌بینی مورد نیاز بالاتر باشد، مشکل سخت‌تر می‌شود. متأسفانه، با تلاش شما برای بهبود کیفیت، پروژه ها اغلب بازدهی کمتری دارند. به عنوان مثال، افزایش دقت مدل از 99.9 درصد به 99.99 درصد می تواند به معنای افزایش 10 برابری هزینه پروژه (اگر نه بیشتر) باشد.

با افزایش کیفیت پیش بینی، هزینه های پروژه نیز افزایش می یابد.

شکل 2 . یک پروژه ML معمولاً با افزایش کیفیت پیش‌بینی مورد نیاز، به منابع بیشتر و بیشتری نیاز دارد.

هوش مصنوعی مولد

هنگام تجزیه و تحلیل خروجی هوش مصنوعی مولد، موارد زیر را در نظر بگیرید:

  • دقت واقعی اگرچه مدل‌های هوش مصنوعی تولیدی می‌توانند محتوای روان و منسجمی تولید کنند، اما تضمینی برای واقعی بودن آن وجود ندارد. گزاره های نادرست از مدل های هوش مصنوعی مولد، confabulations نامیده می شوند. به عنوان مثال، مدل‌های هوش مصنوعی مولد می‌توانند خلاصه‌سازی نادرستی از متن، پاسخ‌های اشتباه به سؤالات ریاضی یا جملات نادرست درباره جهان را ایجاد کنند. بسیاری از موارد استفاده هنوز قبل از استفاده در یک محیط تولید، به عنوان مثال، کد تولید شده توسط LLM، به تأیید انسانی خروجی هوش مصنوعی مولد نیاز دارند.

    مانند ML سنتی، هر چه نیاز به دقت واقعی بیشتر باشد، هزینه توسعه و نگهداری بالاتر است.

  • کیفیت خروجی پیامدهای قانونی و مالی (یا پیامدهای اخلاقی) خروجی های بد، مانند محتوای مغرضانه، سرقت ادبی، یا سمی چیست؟

الزامات فنی

مدل ها دارای تعدادی الزامات فنی هستند که بر امکان سنجی آنها تأثیر می گذارد. موارد زیر الزامات فنی اصلی هستند که باید برای تعیین امکان سنجی پروژه خود رعایت کنید:

  • تاخیر. الزامات تاخیر چیست؟ چقدر سریع باید پیش بینی ها ارائه شوند؟
  • پرس و جو در ثانیه (QPS). الزامات QPS چیست؟
  • استفاده از رم. رم مورد نیاز برای آموزش و سرویس چیست؟
  • سکو. مدل در کجا اجرا می شود: آنلاین (پرس و جوهای ارسال شده به سرور RPC)، WebML (داخل مرورگر وب)، ODML (روی تلفن یا رایانه لوحی)، یا آفلاین (پیش بینی های ذخیره شده در جدول)؟
  • تفسیر پذیری آیا پیش بینی ها باید قابل تفسیر باشند؟ به عنوان مثال، آیا محصول شما نیاز به پاسخ به سوالاتی مانند "چرا یک قطعه خاص از محتوا به عنوان هرزنامه علامت گذاری شده است؟" یا "چرا مشخص شد که ویدیویی خط‌مشی پلتفرم را نقض می‌کند؟"

  • فرکانس بازآموزی هنگامی که داده های اساسی مدل شما به سرعت تغییر می کند، ممکن است نیاز به آموزش مجدد مکرر یا مداوم باشد. با این حال، بازآموزی مکرر می تواند منجر به هزینه های قابل توجهی شود که ممکن است بیشتر از مزایای به روز رسانی پیش بینی های مدل باشد.

در بیشتر موارد، احتمالاً برای رعایت مشخصات فنی مدل، باید کیفیت آن را به خطر بیندازید. در این موارد، باید تعیین کنید که آیا هنوز هم می‌توانید مدلی تولید کنید که به اندازه کافی خوب باشد تا به تولید برسد.

هوش مصنوعی مولد

هنگام کار با هوش مصنوعی مولد، الزامات فنی زیر را در نظر بگیرید:

  • سکو. بسیاری از مدل‌های از پیش آموزش‌دیده‌شده در اندازه‌های مختلفی تولید می‌شوند که به آنها امکان می‌دهد روی پلتفرم‌های مختلف با منابع محاسباتی متفاوت کار کنند. برای مثال، مدل‌های از پیش آموزش‌دیده شده می‌توانند از مقیاس مرکز داده تا نصب بر روی تلفن متغیر باشند. هنگام انتخاب اندازه مدل، باید تاخیر، حریم خصوصی و محدودیت های کیفیت محصول یا خدمات خود را در نظر بگیرید. این محدودیت ها اغلب می توانند در تضاد باشند. برای مثال، محدودیت‌های حریم خصوصی ممکن است مستلزم اجرای استنباط‌ها در دستگاه کاربر باشد. با این حال، کیفیت خروجی ممکن است ضعیف باشد زیرا دستگاه فاقد منابع محاسباتی برای تولید نتایج خوب است.
  • تاخیر. اندازه ورودی و خروجی مدل بر تأخیر تأثیر می گذارد. به طور خاص، اندازه خروجی بیشتر از اندازه ورودی بر تأخیر تأثیر می گذارد. در حالی که مدل ها می توانند ورودی های خود را موازی کنند، آنها فقط می توانند خروجی ها را به صورت متوالی تولید کنند. به عبارت دیگر، تأخیر ممکن است برای دریافت یک ورودی 500 کلمه ای یا 10 کلمه ای یکسان باشد، در حالی که تولید یک خلاصه 500 کلمه ای به طور قابل ملاحظه ای بیشتر از تولید یک خلاصه 10 کلمه ای طول می کشد.
  • استفاده از ابزار و API آیا مدل نیاز به استفاده از ابزارها و APIها، مانند جستجوی اینترنت، استفاده از ماشین حساب، یا دسترسی به سرویس گیرنده ایمیل برای تکمیل یک کار دارد؟ به طور معمول، هر چه ابزارهای بیشتری برای تکمیل یک کار مورد نیاز باشد، شانس بیشتری برای انتشار اشتباهات و افزایش آسیب پذیری های مدل وجود دارد.

هزینه

آیا پیاده سازی ML ارزش هزینه های خود را دارد؟ اگر راه حل ML برای اجرا و نگهداری گران تر از پولی باشد که تولید می کند (یا پس انداز می کند) اکثر پروژه های ML تایید نمی شوند. پروژه های ML هزینه های انسانی و ماشینی را متحمل می شوند.

  • هزینه های انسانی چند نفر طول می کشد تا پروژه از اثبات مفهوم به تولید برسد؟ همانطور که پروژه های ML تکامل می یابند، هزینه ها معمولا افزایش می یابد. برای مثال، پروژه‌های ML به افراد بیشتری برای استقرار و حفظ یک سیستم آماده تولید نیاز دارند تا اینکه یک نمونه اولیه ایجاد کنند. سعی کنید تعداد و انواع نقش هایی که پروژه در هر مرحله به آن نیاز دارد را تخمین بزنید.

  • هزینه های ماشین. آموزش، استقرار و نگهداری مدل ها به محاسبات و حافظه زیادی نیاز دارد. برای مثال، ممکن است به سهمیه TPU برای مدل‌های آموزشی و پیش‌بینی‌های سرویس، همراه با زیرساخت‌های لازم برای خط لوله داده‌تان نیاز داشته باشید. ممکن است مجبور شوید برای برچسب گذاری داده ها یا پرداخت هزینه های مجوز داده هزینه کنید. قبل از آموزش یک مدل، تخمین هزینه های ماشین برای ساخت و نگهداری ویژگی های ML برای دراز مدت را در نظر بگیرید.

  • هزینه استنتاج آیا مدل نیاز به صدها یا هزاران استنباط دارد که هزینه ای بیشتر از درآمد ایجاد شده داشته باشد؟

یادت باشه

مواجهه با مسائل مربوط به هر یک از موضوعات قبلی می تواند اجرای یک راه حل ML را به یک چالش تبدیل کند، اما ضرب الاجل های فشرده می تواند چالش ها را تشدید کند. سعی کنید زمان کافی را بر اساس مشکل درک شده برنامه ریزی و بودجه بندی کنید، و سپس سعی کنید حتی بیشتر از زمانی که ممکن است برای یک پروژه غیرML زمان سربار اختصاص دهید.