AutoML: شروع به کار

اگر به استفاده از AutoML فکر می کنید، ممکن است در مورد نحوه عملکرد آن و اقداماتی که باید برای شروع انجام دهید سؤالاتی داشته باشید. این بخش بیشتر به الگوهای رایج AutoML می پردازد، نحوه عملکرد AutoML را بررسی می کند، و بررسی می کند که چه مراحلی را ممکن است قبل از شروع استفاده از AutoML برای پروژه خود انجام دهید.

ابزارهای AutoML

ابزارهای AutoML به دو دسته اصلی تقسیم می شوند:

  • ابزارهایی که نیازی به کدنویسی ندارند معمولاً به شکل برنامه های کاربردی وب هستند که به شما امکان می دهند آزمایش ها را از طریق یک رابط کاربری پیکربندی و اجرا کنید تا بهترین مدل را برای داده های خود بدون نوشتن کد پیدا کنید.
  • ابزارهای API و CLI ویژگی‌های اتوماسیون پیشرفته را ارائه می‌کنند، اما به تخصص برنامه‌نویسی و ML بیشتر (گاهی اوقات بسیار بیشتر) نیاز دارند.

ابزارهای AutoML که نیاز به کدنویسی دارند می‌توانند قدرتمندتر و انعطاف‌پذیرتر از ابزارهای بدون کد باشند، اما استفاده از آنها نیز دشوارتر است. این ماژول روی گزینه‌های بدون کد برای توسعه مدل تمرکز می‌کند، اما توجه داشته باشید که در صورت نیاز به اتوماسیون سفارشی، گزینه‌های API و CLI می‌توانند به شما کمک کنند.

گردش کار AutoML

بیایید یک گردش کار معمولی ML را مرور کنیم و ببینیم وقتی از AutoML استفاده می‌کنید، کارها چگونه کار می‌کنند. مراحل سطح بالا در گردش کار همان مراحلی است که برای آموزش سفارشی استفاده می کنید. تفاوت اصلی این است که AutoML برخی از وظایف را برای شما انجام می دهد.

تعریف مشکل

اولین قدم در هر گردش کار ML این است که مشکل خود را تعریف کنید. هنگامی که از AutoML استفاده می کنید، مطمئن شوید که ابزاری که انتخاب می کنید می تواند از اهداف پروژه ML شما پشتیبانی کند. اکثر ابزارهای AutoML از انواع الگوریتم های یادگیری ماشینی نظارت شده و انواع داده های ورودی پشتیبانی می کنند.

برای کسب اطلاعات بیشتر در مورد قاب بندی مشکل، نگاهی به ماژول مربوط به مقدمه ای بر چارچوب بندی مشکلات یادگیری ماشین بیندازید.

جمع آوری داده ها

قبل از شروع کار با ابزار AutoML، باید داده های خود را در یک منبع داده جمع آوری کنید. اسناد محصول را بررسی کنید تا مطمئن شوید که ابزار شما پشتیبانی می کند: منبع داده شما، انواع داده در مجموعه داده شما، اندازه مجموعه داده شما.

آماده سازی داده ها

آماده‌سازی داده‌ها منطقه‌ای است که ابزارهای AutoML می‌توانند به شما کمک کنند، اما هیچ ابزاری نمی‌تواند همه چیز را به‌طور خودکار انجام دهد، بنابراین انتظار داشته باشید قبل از وارد کردن داده‌های خود به ابزار، کمی کار انجام دهید. آماده سازی داده ها برای AutoML مشابه کاری است که برای آموزش یک مدل به صورت دستی باید انجام دهید. اگر نیاز به دانستن بیشتر در مورد نحوه آماده سازی داده های خود برای آموزش دارید، به بخش آماده سازی داده ها نگاهی بیندازید.

برای اطلاعات بیشتر در مورد آماده سازی داده های خود، به کار با داده های عددی و کار با ماژول های داده های دسته بندی مراجعه کنید.

قبل از وارد کردن داده های خود برای آموزش AutoML، باید این مراحل را انجام دهید:

  • داده های خود را برچسب گذاری کنید

    هر نمونه در مجموعه داده شما نیاز به یک برچسب دارد.

  • داده ها را تمیز و قالب بندی کنید

    داده های دنیای واقعی معمولاً نامرتب هستند، بنابراین انتظار داشته باشید قبل از استفاده از داده های خود پاک کنید. حتی با AutoML شما باید بهترین درمان ها را برای مجموعه داده ها و مشکل خاص خود تعیین کنید. این ممکن است نیاز به کاوش و اجرای چندگانه AutoML داشته باشد تا بتوانید بهترین نتایج را دریافت کنید.

  • تبدیل ویژگی ها را انجام دهید

    برخی از ابزارهای AutoML تغییرات خاصی را برای شما انجام می دهند. اما، اگر ابزاری که استفاده می‌کنید از تبدیل ویژگی مورد نیاز شما پشتیبانی نمی‌کند یا به خوبی از آن پشتیبانی نمی‌کند، ممکن است لازم باشد این تبدیل‌ها را زودتر از موعد انجام دهید.

توسعه مدل (با AutoML بدون کد)

AutoML در طول آموزش کار را برای شما انجام می دهد. با این حال، قبل از شروع آموزش، باید آزمایش خود را پیکربندی کنید. برای تنظیم یک اجرای آموزشی AutoML، معمولاً باید این مراحل سطح بالا را مشخص کنید:

  1. داده های خود را وارد کنید

    برای وارد کردن داده های خود، منبع داده خود را مشخص کنید. در طول فرآیند واردات، ابزار AutoML یک نوع داده معنایی را به هر مقدار داده اختصاص می دهد.

  2. داده های خود را تجزیه و تحلیل کنید

    محصولات AutoML معمولاً ابزارهایی برای تجزیه و تحلیل مجموعه داده شما قبل و بعد از آموزش ارائه می دهند. به عنوان بهترین روش، ممکن است بخواهید از این ابزارهای تجزیه و تحلیل برای درک و تأیید داده های خود قبل از شروع اجرای AutoML استفاده کنید.

  3. داده های خود را اصلاح کنید

    ابزارهای AutoML اغلب مکانیسم هایی را ارائه می دهند که به شما کمک می کند داده های خود را پس از وارد کردن و قبل از آموزش اصلاح کنید. در اینجا چند کار وجود دارد که ممکن است بخواهید برای اصلاح داده‌های خود تکمیل کنید:

    • بررسی معنایی: در هنگام وارد کردن، ابزارهای AutoML سعی می‌کنند نوع معنایی صحیح را برای هر ویژگی تعیین کنند، اما اینها فقط حدس و گمان هستند. باید انواع تعیین شده برای همه ویژگی ها را بررسی کنید و اگر به اشتباه اختصاص داده شده اند، آنها را تغییر دهید.

      به عنوان مثال، ممکن است کدهای پستی را به صورت اعداد در یک ستون در پایگاه داده خود ذخیره کنید. اکثر سیستم های AutoML داده ها را به عنوان داده های عددی پیوسته تشخیص می دهند. این برای یک کد پستی نادرست است و کاربر احتمالاً می‌خواهد نوع معنایی را برای این ستون ویژگی به مقوله‌ای تغییر دهد تا پیوسته.

    • تبدیل ها: برخی از ابزارها به کاربران اجازه می دهند تا تبدیل داده ها را به عنوان بخشی از فرآیند پالایش سفارشی کنند. گاهی اوقات این مورد نیاز است که یک مجموعه داده دارای ویژگی‌های بالقوه پیش‌بینی است که نیاز به تبدیل یا ترکیب به روشی دارد که تشخیص ابزار AutoML بدون کمک دشوار است.

      به عنوان مثال، یک مجموعه داده مسکن را در نظر بگیرید که از آن برای پیش بینی قیمت فروش یک خانه استفاده می کنید. فرض کنید ویژگی وجود دارد که شرح فهرست خانه ای به نام description را نشان می دهد و شما می خواهید از این داده ها برای ایجاد یک ویژگی جدید به نام description_length استفاده کنید. برخی از سیستم های AutoML راه هایی برای استفاده از تبدیل های سفارشی ارائه می دهند. برای این مثال، ممکن است یک تابع LENGTH برای ایجاد یک ویژگی طول توضیحات جدید مانند این وجود داشته باشد: LENGTH(description) .

  4. پارامترهای اجرای AutoML را پیکربندی کنید

    آخرین مرحله قبل از اجرای آزمایش آموزشی خود این است که چند تنظیمات پیکربندی را انتخاب کنید تا به ابزار بگویید چگونه می خواهید مدل شما را آموزش دهد. اگرچه هر ابزار AutoML مجموعه ای از گزینه های پیکربندی منحصر به فرد خود را دارد، در اینجا چند مورد از وظایف پیکربندی مهمی که ممکن است نیاز به تکمیل داشته باشید آورده شده است:

    • نوع مشکل ML را که قصد حل آن را دارید انتخاب کنید. به عنوان مثال، آیا مشکل طبقه بندی یا رگرسیون را حل می کنید؟
    • انتخاب کنید که کدام ستون در مجموعه داده شما برچسب باشد.
    • مجموعه ای از ویژگی ها را برای استفاده برای آموزش مدل انتخاب کنید.
    • مجموعه ای از الگوریتم های ML را که AutoML در جستجوی مدل در نظر می گیرد، انتخاب کنید.
    • معیار ارزیابی را که AutoML برای انتخاب بهترین مدل استفاده می کند، انتخاب کنید.

پس از پیکربندی آزمایش AutoML خود، آماده شروع اجرای آموزشی هستید. ممکن است تکمیل آموزش مدتی طول بکشد (به ترتیب ساعت).

مدل را ارزیابی کنید

پس از آموزش، می توانید با استفاده از ابزارهایی که محصول AutoML شما برای کمک به شما ارائه می دهد، نتایج را بررسی کنید:

  • ویژگی های خود را با بررسی معیارهای اهمیت ویژگی ارزیابی کنید.
  • مدل خود را با بررسی معماری و فراپارامترهای مورد استفاده برای ساخت آن درک کنید.
  • عملکرد مدل سطح بالا را با نمودارها و معیارهای جمع آوری شده در طول آموزش برای مدل خروجی ارزیابی کنید.

تولید

اگرچه خارج از محدوده این ماژول است، برخی از سیستم‌های AutoML می‌توانند به شما در آزمایش و استقرار مدل خود کمک کنند.

مدل بازآموزی

ممکن است لازم باشد مدل را با داده های جدید دوباره آموزش دهید. این ممکن است پس از ارزیابی اجرای آموزش AutoML یا پس از اینکه مدل شما برای مدتی در حال تولید است، رخ دهد. در هر صورت، سیستم‌های AutoML می‌توانند به بازآموزی نیز کمک کنند. غیرمعمول نیست که بعد از اجرای AutoML دوباره نگاهی به داده های خود بیندازید و با یک مجموعه داده بهبودیافته دوباره آموزش دهید.

بعدش چی

بابت اتمام این ماژول تبریک می گویم!

ما شما را تشویق می کنیم که ماژول های مختلف MLCC را با سرعت و علاقه خود کاوش کنید. اگر می‌خواهید یک سفارش توصیه شده را دنبال کنید، پیشنهاد می‌کنیم که در ادامه به ماژول زیر بروید: ML Fairness .