جمع آوری داده ها مهم ترین گام در حل هر مشکل یادگیری ماشینی تحت نظارت است. طبقه بندی کننده متن شما فقط می تواند به اندازه مجموعه داده ای باشد که از آن ساخته شده است.
اگر مشکل خاصی ندارید که می خواهید حل کنید و فقط به کاوش در طبقه بندی متن به طور کلی علاقه دارید، مجموعه داده های منبع باز زیادی در دسترس هستند. می توانید پیوندهای برخی از آنها را در مخزن GitHub ما بیابید. از سوی دیگر، اگر با مشکل خاصی مقابله می کنید، باید داده های لازم را جمع آوری کنید. بسیاری از سازمانها APIهای عمومی را برای دسترسی به دادههای خود ارائه میکنند - به عنوان مثال، X API یا NY Times API . ممکن است بتوانید از این APIها برای مشکلی که میخواهید حل کنید استفاده کنید.
در اینجا موارد مهمی وجود دارد که باید هنگام جمع آوری داده ها به خاطر بسپارید:
- اگر از یک API عمومی استفاده میکنید، قبل از استفاده از آنها، محدودیتهای API را درک کنید. به عنوان مثال، برخی از API ها محدودیتی را برای سرعتی که می توانید پرس و جو کنید تعیین می کنند.
- هرچه نمونه های آموزشی بیشتری داشته باشید (که در ادامه این راهنما به آن ها اشاره می شود) بهتر است. این به تعمیم بهتر مدل شما کمک می کند.
- مطمئن شوید که تعداد نمونه ها برای هر کلاس یا موضوع بیش از حد نامتعادل نباشد. یعنی باید تعداد نمونه های قابل مقایسه در هر کلاس داشته باشید.
- اطمینان حاصل کنید که نمونه های شما به اندازه کافی فضای ورودی های ممکن را پوشش می دهند، نه تنها موارد رایج.
در سراسر این راهنما، ما از مجموعه دادههای مرور فیلم پایگاه داده اینترنتی فیلم (IMDb) برای نشان دادن گردش کار استفاده خواهیم کرد. این مجموعه داده شامل نقدهای فیلم ارسال شده توسط افراد در وبسایت IMDb و همچنین برچسبهای مربوطه ("مثبت" یا "منفی") است که نشان میدهد منتقد فیلم را دوست داشته یا نه. این یک مثال کلاسیک از یک مشکل تحلیل احساسات است.