ขั้นตอนที่ 1: รวบรวมข้อมูล

การรวบรวมข้อมูลเป็นขั้นตอนที่สำคัญที่สุดในการแก้ปัญหาแมชชีนเลิร์นนิงที่มีการควบคุมดูแล ตัวแยกประเภทข้อความจะใช้ได้เฉพาะชุดข้อมูลที่สร้างมาเท่านั้น

หากคุณไม่พบปัญหาเฉพาะที่ต้องการแก้ไขและเพียงแค่สนใจที่จะสำรวจการจัดประเภทข้อความโดยทั่วไป ชุดข้อมูลโอเพนซอร์สก็มีมากมายให้เลือกใช้ คุณสามารถดูลิงก์ไปยังข้อมูลบางส่วนได้ในที่เก็บของ GitHub ในทางกลับกัน หากคุณกำลังจัดการกับปัญหาเฉพาะ คุณจะต้องรวบรวมข้อมูลที่จำเป็น องค์กรหลายแห่งมี API สาธารณะสำหรับเข้าถึงข้อมูล เช่น X API หรือ NY Times API คุณอาจใช้ประโยชน์จาก API เหล่านี้เพื่อแก้ปัญหาที่คุณพยายามแก้ไขได้

ต่อไปนี้คือสิ่งสำคัญบางอย่างที่ควรจดจำเมื่อรวบรวมข้อมูล:

  • หากคุณใช้ API สาธารณะ โปรดทำความเข้าใจข้อจำกัดของ API ก่อนใช้งาน เช่น API บางรายการกำหนดขีดจำกัดอัตราที่ใช้ในการค้นหาได้
  • ยิ่งคุณมีตัวอย่างการฝึกมาก (หรือเรียกว่าตัวอย่างในส่วนที่เหลือของคู่มือนี้) ก็ยิ่งดี วิธีนี้จะช่วยให้โมเดลของคุณ เผยแพร่ข้อมูลทั่วไปได้ดียิ่งขึ้น
  • ตรวจสอบว่าจำนวนตัวอย่างสำหรับชั้นเรียนหรือหัวข้อแต่ละรายการไม่ได้ไม่สมดุลกันมากเกินไป กล่าวคือ คุณควรมีจำนวนตัวอย่างที่คล้ายกันในแต่ละคลาส
  • ตรวจสอบว่าตัวอย่างของคุณครอบคลุมพื้นที่ที่อาจอินพุตอย่างเพียงพอ ไม่ใช่แค่กรณีทั่วไป

ในคู่มือนี้ เราจะใช้ชุดข้อมูลรีวิวภาพยนตร์ของฐานข้อมูลภาพยนตร์อินเทอร์เน็ต (IMDb) เพื่ออธิบายขั้นตอนการทำงาน ชุดข้อมูลนี้มีรีวิวภาพยนตร์ที่โพสต์โดยผู้คนบนเว็บไซต์ IMDb รวมถึงป้ายกำกับที่เกี่ยวข้อง ("เชิงบวก" หรือ "เชิงลบ") ซึ่งบ่งบอกว่าผู้รีวิวชอบภาพยนตร์ดังกล่าวหรือไม่ นี่คือตัวอย่างที่คลาสสิก ของโจทย์การวิเคราะห์ความเห็น