مقدمه

الگوریتم های طبقه بندی متن در قلب انواع سیستم های نرم افزاری قرار دارند که داده های متنی را در مقیاس پردازش می کنند. نرم افزار ایمیل از طبقه بندی متن برای تعیین اینکه آیا نامه های دریافتی به صندوق ورودی ارسال می شود یا در پوشه هرزنامه فیلتر می شود، استفاده می کند. انجمن های گفتگو از طبقه بندی متن برای تعیین اینکه آیا نظرات باید به عنوان نامناسب پرچم گذاری شوند یا خیر استفاده می کنند.

اینها دو نمونه از طبقه‌بندی موضوع هستند که یک سند متنی را به یکی از مجموعه‌های از پیش تعریف‌شده موضوعات دسته‌بندی می‌کنند. در بسیاری از مسائل طبقه بندی موضوع، این دسته بندی عمدتاً بر اساس کلمات کلیدی در متن است.

طبقه بندی موضوع

شکل 1: طبقه بندی موضوع برای پرچم گذاری ایمیل های هرزنامه دریافتی استفاده می شود که در یک پوشه اسپم فیلتر می شوند.

یکی دیگر از انواع رایج طبقه بندی متن، تحلیل احساسات است که هدف آن شناسایی قطبیت محتوای متن است: نوع عقیده ای که بیان می کند. این می‌تواند به شکل رتبه‌بندی باینری پسندیدن/نپسندیدن، یا مجموعه‌ای از گزینه‌های جزئی‌تر، مانند رتبه‌بندی ستاره از ۱ تا ۵ باشد. نمونه‌هایی از تحلیل احساسات شامل تجزیه و تحلیل پست‌های توییتر برای تعیین اینکه آیا مردم فیلم پلنگ سیاه را دوست داشته‌اند یا خیر، باشد. برون یابی نظر عموم مردم در مورد برند جدیدی از کفش های نایک از بررسی های Walmart.

این راهنما چند روش کلیدی یادگیری ماشینی را برای حل مشکلات طبقه بندی متن به شما آموزش می دهد. در اینجا چیزی است که یاد خواهید گرفت:

  • گردش کار سطح بالا و سرتاسر برای حل مشکلات طبقه بندی متن با استفاده از یادگیری ماشین
  • نحوه انتخاب مدل مناسب برای مشکل طبقه بندی متن
  • چگونه با استفاده از TensorFlow مدل مورد نظر خود را پیاده سازی کنید

گردش کار طبقه بندی متن

در اینجا یک نمای کلی در سطح بالا از گردش کار مورد استفاده برای حل مشکلات یادگیری ماشین آمده است:

طبقه بندی موضوع

شکل 2: گردش کار برای حل مشکلات یادگیری ماشین

بخش‌های زیر هر مرحله را با جزئیات توضیح می‌دهند و نحوه پیاده‌سازی آن‌ها را برای داده‌های متنی توضیح می‌دهند.