مرحله 1: جمع آوری داده ها

جمع آوری داده ها مهم ترین گام در حل هر مشکل یادگیری ماشینی تحت نظارت است. طبقه بندی کننده متن شما فقط می تواند به اندازه مجموعه داده ای باشد که از آن ساخته شده است.

اگر مشکل خاصی ندارید که می خواهید حل کنید و فقط به کاوش در طبقه بندی متن به طور کلی علاقه دارید، مجموعه داده های منبع باز زیادی در دسترس هستند. می توانید پیوندهای برخی از آنها را در مخزن GitHub ما بیابید. از سوی دیگر، اگر با مشکل خاصی مقابله می کنید، باید داده های لازم را جمع آوری کنید. بسیاری از سازمان‌ها APIهای عمومی را برای دسترسی به داده‌های خود ارائه می‌کنند - برای مثال، Twitter API یا NY Times API . ممکن است بتوانید از اینها برای مشکلی که سعی در حل آن دارید استفاده کنید.

در اینجا موارد مهمی وجود دارد که باید هنگام جمع آوری داده ها به خاطر بسپارید:

  • اگر از یک API عمومی استفاده می‌کنید، قبل از استفاده از آن‌ها، محدودیت‌های API را درک کنید. به عنوان مثال، برخی از API ها محدودیتی را برای سرعتی که می توانید پرس و جو کنید تعیین می کنند.
  • هرچه نمونه های آموزشی بیشتری داشته باشید (که در ادامه این راهنما به آن ها اشاره می شود) بهتر است. این به تعمیم بهتر مدل شما کمک می کند.
  • مطمئن شوید که تعداد نمونه ها برای هر کلاس یا موضوع بیش از حد نامتعادل نباشد. یعنی باید تعداد نمونه های قابل مقایسه در هر کلاس داشته باشید.
  • اطمینان حاصل کنید که نمونه های شما به اندازه کافی فضای ورودی های ممکن را پوشش می دهند، نه تنها موارد رایج.

در سراسر این راهنما، ما از مجموعه داده‌های مرور فیلم پایگاه داده اینترنتی فیلم (IMDb) برای نشان دادن گردش کار استفاده خواهیم کرد. این مجموعه داده شامل نقدهای فیلم ارسال شده توسط افراد در وب‌سایت IMDb و همچنین برچسب‌های مربوطه ("مثبت" یا "منفی") است که نشان می‌دهد منتقد فیلم را دوست داشته یا نه. این یک مثال کلاسیک از یک مشکل تحلیل احساسات است.