الگوریتم های طبقه بندی متن در قلب انواع سیستم های نرم افزاری قرار دارند که داده های متنی را در مقیاس پردازش می کنند. نرم افزار ایمیل از طبقه بندی متن برای تعیین اینکه آیا نامه های دریافتی به صندوق ورودی ارسال می شود یا در پوشه هرزنامه فیلتر می شود، استفاده می کند. انجمن های گفتگو از طبقه بندی متن برای تعیین اینکه آیا نظرات باید به عنوان نامناسب پرچم گذاری شوند یا خیر استفاده می کنند.
اینها دو نمونه از طبقهبندی موضوع هستند که یک سند متنی را به یکی از مجموعههای از پیش تعریفشده موضوعات دستهبندی میکنند. در بسیاری از مسائل طبقه بندی موضوع، این دسته بندی عمدتاً بر اساس کلمات کلیدی در متن است.
شکل 1: طبقه بندی موضوع برای پرچم گذاری ایمیل های هرزنامه دریافتی استفاده می شود که در یک پوشه اسپم فیلتر می شوند.
یکی دیگر از انواع رایج طبقهبندی متن، تحلیل احساسات است که هدف آن شناسایی قطبیت محتوای متن است: نوع نظری که بیان میکند. این میتواند به شکل یک رتبهبندی باینری پسندیدن/نپسندیدن، یا مجموعهای از گزینههای دقیقتر، مانند رتبهبندی ستارهای از ۱ تا ۵ باشد. نمونههایی از تجزیه و تحلیل احساسات شامل تجزیه و تحلیل پستهای توییتر برای تعیین اینکه آیا مردم فیلم پلنگ سیاه را دوست داشتهاند، یا خیر. برون یابی نظر عموم مردم در مورد برند جدیدی از کفش های نایک از بررسی های Walmart.
این راهنما چند روش کلیدی یادگیری ماشینی را برای حل مشکلات طبقه بندی متن به شما آموزش می دهد. در اینجا چیزی است که یاد خواهید گرفت:
- گردش کار سطح بالا و سرتاسر برای حل مشکلات طبقه بندی متن با استفاده از یادگیری ماشین
- نحوه انتخاب مدل مناسب برای مشکل طبقه بندی متن
- چگونه با استفاده از TensorFlow مدل مورد نظر خود را پیاده سازی کنید
گردش کار طبقه بندی متن
در اینجا یک نمای کلی در سطح بالا از گردش کار مورد استفاده برای حل مشکلات یادگیری ماشین آمده است:
- مرحله 1: جمع آوری داده ها
- مرحله 2: داده های خود را کاوش کنید
- مرحله 2.5: انتخاب مدل*
- مرحله 3: داده های خود را آماده کنید
- مرحله 4: مدل خود را بسازید، آموزش دهید و ارزیابی کنید
- مرحله 5: Hyperparameters را تنظیم کنید
- مرحله 6: مدل خود را مستقر کنید
شکل 2: گردش کار برای حل مشکلات یادگیری ماشین
بخشهای زیر هر مرحله را با جزئیات توضیح میدهند و نحوه پیادهسازی آنها را برای دادههای متنی توضیح میدهند.