บทนำ

อัลกอริทึมการจัดประเภทข้อความเป็นหัวใจสําคัญของระบบซอฟต์แวร์ต่างๆ ที่ประมวลผลข้อมูลข้อความจํานวนมาก ซอฟต์แวร์อีเมลจะใช้การแยกประเภทข้อความเพื่อพิจารณาว่าอีเมลขาเข้าจะส่งไปยังกล่องจดหมายหรือกรองไปไว้ในโฟลเดอร์จดหมายขยะหรือไม่ ฟอรัมการสนทนาจะใช้การแยกประเภทข้อความเพื่อพิจารณาว่าควรแจ้งความคิดเห็นว่าไม่เหมาะสมหรือไม่

ต่อไปนี้เป็นตัวอย่างการจัดประเภทหัวข้อ 2 หัวข้อซึ่งจัดหมวดหมู่เอกสารข้อความให้เป็นชุดหัวข้อที่กําหนดไว้ล่วงหน้าชุดหนึ่ง ในปัญหาด้านการแยกหัวข้อหลายรายการ การจัดหมวดหมู่นี้ขึ้นอยู่กับคีย์เวิร์ดในข้อความเป็นหลัก

การจัดประเภทหัวข้อ

รูปที่ 1: การแยกประเภทหัวข้อใช้เพื่อทําเครื่องหมายอีเมลสแปมที่เข้ามาใหม่ และถูกกรองออกจากโฟลเดอร์จดหมายขยะ

การแยกประเภทข้อความที่พบบ่อยอีกประเภทหนึ่งคือการวิเคราะห์ความเห็น ซึ่งมีเป้าหมายที่จะเปลี่ยนขั้วของเนื้อหาข้อความ ซึ่งก็คือประเภทของความคิดเห็นที่แสดงออก โดยอาจอยู่ในรูปแบบไบนารีชอบ/ไม่ชอบ หรือชุดตัวเลือกเพิ่มเติม เช่น การให้ดาวตั้งแต่ 1 ถึง 5 ตัวอย่างของการวิเคราะห์ความเห็นรวมถึงการวิเคราะห์โพสต์ Twitter เพื่อพิจารณาว่าผู้คนชอบภาพยนตร์ของ Black Panther หรือไม่ หรือคาดคะเนความคิดเห็นของสาธารณชนทั่วไปเกี่ยวกับรองเท้า Nike แบรนด์ใหม่จากรีวิวใน Walmart

คู่มือนี้จะสอนแนวทางปฏิบัติแนะนําสําหรับแมชชีนเลิร์นนิงที่สําคัญสําหรับการแก้ปัญหาการจัดประเภทข้อความ สิ่งที่คุณจะได้เรียนรู้มีดังนี้

  • เวิร์กโฟลว์ระดับสูงตั้งแต่ต้นจนจบสําหรับการแก้ปัญหาการจัดประเภทข้อความ โดยใช้แมชชีนเลิร์นนิง
  • วิธีเลือกรูปแบบที่เหมาะสมกับปัญหาการจัดประเภทข้อความ
  • วิธีใช้รูปแบบที่คุณเลือกโดยใช้ TensorFlow

เวิร์กโฟลว์การแยกประเภทข้อความ

ต่อไปนี้เป็นภาพรวมระดับสูงของเวิร์กโฟลว์ที่ใช้ในการแก้ปัญหาแมชชีนเลิร์นนิง

การจัดประเภทหัวข้อ

รูปที่ 2: เวิร์กโฟลว์สําหรับการแก้ปัญหาแมชชีนเลิร์นนิง

ส่วนต่อไปนี้จะอธิบายแต่ละขั้นตอนโดยละเอียด และวิธีใช้งานขั้นตอนเหล่านี้สําหรับข้อความ