מבוא

האלגוריתמים לסיווג טקסט נמצאים בלב מגוון מערכות תוכנה שמעבדות נתוני טקסט בקנה מידה נרחב. תוכנות אימייל משתמשות בסיווג טקסט כדי לקבוע אם הודעות נכנסות נשלחות לתיבת הדואר הנכנס או כשהן מסוננות בתיקיית הספאם. פורומים לדיונים משתמשים בסיווג טקסט כדי לקבוע אם צריך לסמן תגובות כלא הולמות.

אלה שתי דוגמאות לסיווג נושאים, שמסווגות מסמך טקסט בסדרה אחת של נושאים מוגדרים מראש. בבעיות רבות הקשורות לסיווג נושאים, הסיווג הזה מבוסס בעיקר על מילות מפתח בטקסט.

סיווג לפי נושא

איור 1: סיווג לפי נושא משמש לסימון אימיילים זדוניים כספאם, שמסוננים לתיקיית הספאם.

סוג נפוץ נוסף של סיווג טקסט הוא ניתוח סנטימנט, שהמטרה שלו היא לזהות את הקוטביות של תוכן הטקסט: סוג הדעה שהוא מבטא. זה יכול להיות דירוג בינארי של 'לייק' או 'דיסלייק', או קבוצת אפשרויות מפורטת יותר, כמו דירוג של 1 עד 5. דוגמאות לניתוח סנטימנט כוללות ניתוח פוסטים ב-Twitter כדי לקבוע אם אנשים אהבו את הסרט השחור השחור, או כדי לגבש את דעתו של הציבור הרחב על מותג חדש של נעלי Nike מביקורות של Walmart.

במדריך הזה נפרט כמה שיטות מומלצות ללמידה חישובית לפתרון בעיות שקשורות לסיווג טקסט. מה נלמד אתכם:

  • תהליך העבודה מקצה לקצה לפתרון בעיות בסיווג טקסט באמצעות למידה חישובית
  • איך לבחור את המודל המתאים לבעיה של סיווג טקסט
  • איך להטמיע את המודל הרצוי באמצעות TensorFlow

תהליך העבודה של סיווג הטקסט

לפניכם סקירה כללית של תהליך העבודה המשמש לפתרון בעיות בלמידת מכונה:

סיווג לפי נושא

איור 2: תהליך העבודה לפתרון בעיות בלמידת מכונה

הקטעים הבאים מסבירים בפירוט כל שלב ומוסבר איך ליישם אותם עבור נתוני טקסט.