คำถามต่อไปนี้จะช่วยให้คุณเข้าใจแนวคิดหลักของ ML มากขึ้น
ความสามารถในการคาดการณ์
โมเดลแมชชีนเลิร์นนิงที่มีการควบคุมดูแลได้รับการฝึกโดยใช้ชุดข้อมูลที่มีตัวอย่างที่ติดป้ายกำกับ โมเดลจะเรียนรู้วิธีคาดการณ์ป้ายกำกับจากฟีเจอร์ อย่างไรก็ตาม ฟีเจอร์บางรายการในชุดข้อมูลอาจไม่มีความสามารถในการคาดการณ์ ในบางกรณี มีเพียงไม่กี่ฟีเจอร์ที่ทำหน้าที่เป็นตัวทำนายป้ายกำกับ ในชุดข้อมูลด้านล่าง ให้ใช้ราคาเป็นป้ายกำกับและคอลัมน์ที่เหลือเป็นฟีเจอร์
คุณคิดว่าฟีเจอร์ 3 รายการใดมีแนวโน้มจะเป็นตัวทำนายราคารถยนต์ได้ดีที่สุด
Make_model, year, miles
ข้อมูลผู้ผลิต/รุ่น ปี และระยะทางของรถยนต์มีแนวโน้มที่จะเป็นหนึ่งในตัวคาดการณ์ราคาที่แม่นยำที่สุด
Color, height, make_model
ความสูงและสีของรถไม่ใช่ตัวบ่งชี้ที่ชัดเจนสำหรับราคาของรถ
Miles, gearbox, make_model
กระปุกเกียร์ไม่ใช่ตัวทำนายราคาหลัก
Tire_size, wheel_base, year
ขนาดยางและฐานล้อไม่ใช่ตัวบ่งชี้ราคารถที่ชัดเจน
การเรียนรู้ที่มีการควบคุมดูแลและไม่มีการควบคุมดูแล
คุณจะใช้แนวทางที่มีการควบคุมดูแลหรือไม่มีการควบคุมดูแล ทั้งนี้ขึ้นอยู่กับปัญหา
เช่น หากทราบค่าหรือหมวดหมู่ที่ต้องการคาดการณ์ล่วงหน้า คุณจะใช้การเรียนรู้แบบควบคุม อย่างไรก็ตาม หากต้องการทราบว่าชุดข้อมูลของคุณมีการแบ่งกลุ่มหรือการจัดกลุ่มตัวอย่างที่เกี่ยวข้องหรือไม่ คุณจะใช้การเรียนรู้แบบไม่ควบคุม
สมมติว่าคุณมีชุดข้อมูลผู้ใช้สําหรับเว็บไซต์ช็อปปิ้งออนไลน์ และมีคอลัมน์ต่อไปนี้
หากต้องการทําความเข้าใจประเภทของผู้ใช้ที่เข้าชมเว็บไซต์ คุณจะใช้การเรียนรู้แบบควบคุมหรือไม่ควบคุม
การเรียนรู้ที่ไม่มีการควบคุมดูแล
เนื่องจากเราต้องการให้โมเดลจัดกลุ่มลูกค้าที่เกี่ยวข้อง เราจึงใช้การเรียนรู้แบบไม่ควบคุม หลังจากโมเดลจัดกลุ่มผู้ใช้แล้ว เราสร้างชื่อของเราเองสําหรับแต่ละกลุ่ม เช่น "ผู้มองหาดีล" "ผู้มองหาส่วนลด" "ผู้เลือกดู" "ผู้ภักดี" และ "ผู้เลือกดูแบบสุ่ม"
การเรียนรู้แบบควบคุมเนื่องจากเราพยายามคาดคะเนว่าผู้ใช้จัดอยู่ในคลาสใด
ในการเรียนรู้แบบควบคุมดูแล ชุดข้อมูลต้องมีป้ายกำกับที่คุณพยายามคาดการณ์ ชุดข้อมูลไม่มีป้ายกำกับที่อ้างอิงถึงหมวดหมู่ผู้ใช้
สมมติว่าคุณมีชุดข้อมูลการใช้พลังงานสําหรับบ้านที่มีคอลัมน์ต่อไปนี้
คุณจะใช้ ML ประเภทใดในการคาดการณ์กิโลวัตต์ชั่วโมงที่ใช้ต่อปีสำหรับบ้านหลังใหม่ที่สร้างขึ้น
การเรียนรู้ที่มีการควบคุมดูแล
การเรียนรู้แบบควบคุมดูแลจะฝึกจากตัวอย่างที่ติดป้ายกำกับ ในชุดข้อมูลนี้ "กิโลวัตต์ชั่วโมงที่ใช้ต่อปี" จะเป็นป้ายกํากับเนื่องจากเป็นค่าที่คุณต้องการให้โมเดลคาดการณ์ ฟีเจอร์ดังกล่าว ได้แก่ "พื้นที่ใช้สอย" "สถานที่ตั้ง" และ "ปีที่สร้าง"
การเรียนรู้ที่ไม่มีการควบคุมดูแล
การเรียนรู้ที่ไม่มีการควบคุมดูแลใช้ตัวอย่างที่ไม่มีป้ายกำกับ ในตัวอย่างนี้ "กิโลวัตต์ชั่วโมงที่ใช้ต่อปี" จะเป็นป้ายกํากับเนื่องจากเป็นค่าที่คุณต้องการให้โมเดลคาดการณ์
สมมติว่าคุณมีชุดข้อมูลเที่ยวบินที่มีคอลัมน์ต่อไปนี้
หากต้องการคาดการณ์ค่าตั๋วรถประจำทาง คุณจะใช้การถดถอยหรือการแยกประเภทไหม
การถดถอย
เอาต์พุตของโมเดลการถดถอยคือค่าตัวเลข
การจัดประเภท
เอาต์พุตของโมเดลการจัดประเภทคือค่าแบบไม่ต่อเนื่อง ซึ่งปกติจะเป็นคํา ในกรณีนี้ ค่าตั๋วรถประจำทางจะเป็นค่าตัวเลข
คุณฝึกโมเดลการจัดประเภทเพื่อจัดประเภทค่าตั๋วรถประจำทางเป็น "สูง" "ปานกลาง" หรือ "ต่ำ" จากชุดข้อมูลได้ไหม
ได้ แต่ก่อนอื่นเราต้องแปลงค่าตัวเลขในคอลัมน์ coach_ticket_cost
เป็นค่าเชิงหมวดหมู่
คุณสร้างโมเดลการจัดประเภทจากชุดข้อมูลได้
คุณอาจทำสิ่งต่อไปนี้
- ดูค่าเฉลี่ยราคาตั๋วจากสนามบินต้นทางไปยังสนามบินปลายทาง
- กําหนดเกณฑ์ที่จะเป็น "สูง" "ปานกลาง" และ "ต่ำ"
- เปรียบเทียบต้นทุนที่คาดการณ์กับเกณฑ์และแสดงผลหมวดหมู่ที่ค่านั้นอยู่
ไม่ได้ คุณไม่สามารถสร้างโมเดลการจัดประเภทได้ ค่า coach_ticket_cost
เป็นตัวเลข ไม่ใช่ค่าเชิงหมวดหมู่
คุณสามารถสร้างโมเดลการจัดประเภทได้ง่ายๆ
ไม่ได้ โมเดลการจัดประเภทจะคาดการณ์เพียง 2 หมวดหมู่ เช่น spam
หรือ not_spam
โมเดลนี้จะต้องคาดการณ์ 3 หมวดหมู่
โมเดลการจัดประเภทสามารถคาดการณ์หมวดหมู่ได้หลายหมวดหมู่ โมเดลเหล่านี้เรียกว่าโมเดลการจัดประเภทแบบหลายคลาส
การฝึกอบรมและการประเมิน
หลังจากฝึกโมเดลแล้ว เราจะประเมินโมเดลโดยใช้ชุดข้อมูลที่มีตัวอย่างที่ติดป้ายกำกับ และเปรียบเทียบค่าที่คาดการณ์ของโมเดลกับค่าจริงของป้ายกำกับ
เลือก 2 คำตอบที่ดีที่สุดสำหรับคำถาม
หากการคาดการณ์ของโมเดลไม่ตรงกับความเป็นจริง คุณอาจทําอย่างไรได้บ้างเพื่อปรับปรุงการคาดการณ์ให้ดีขึ้น
ฝึกโมเดลอีกครั้ง แต่ใช้เฉพาะฟีเจอร์ที่คุณเชื่อว่ามีความสามารถคาดการณ์ได้ดีที่สุดสำหรับป้ายกำกับ
การฝึกโมเดลใหม่โดยใช้ฟีเจอร์ที่น้อยลงแต่มีความสามารถคาดการณ์ได้มากขึ้นจะสร้างโมเดลที่ทําการคาดการณ์ได้ดีขึ้น
คุณไม่สามารถแก้ไขโมเดลที่มีการคาดการณ์ไม่ตรงความเป็นจริง
คุณสามารถแก้ไขโมเดลที่มีการคาดการณ์ไม่ถูกต้องได้ โมเดลส่วนใหญ่ต้องได้รับการฝึกหลายรอบจึงจะทำการคาดการณ์ที่มีประโยชน์ได้
ฝึกโมเดลอีกครั้งโดยใช้ชุดข้อมูลขนาดใหญ่และหลากหลายมากขึ้น
โมเดลที่ฝึกจากชุดข้อมูลซึ่งมีตัวอย่างมากกว่าและมีค่าที่หลากหลายกว่าจะให้การคาดการณ์ที่ดีขึ้น เนื่องจากโมเดลมีวิธีแก้ปัญหาทั่วไปที่ดีกว่าสำหรับความสัมพันธ์ระหว่างฟีเจอร์กับป้ายกำกับ
ลองใช้วิธีการฝึกอบรมแบบอื่น เช่น หากใช้วิธีการที่มีการควบคุมดูแล ให้ลองใช้วิธีการที่ไม่มีการควบคุมดูแล
วิธีการฝึกอบรมแบบอื่นจะไม่ทําให้การคาดการณ์ดีขึ้น
ตอนนี้คุณก็พร้อมที่จะดำเนินการขั้นถัดไปในเส้นทาง ML แล้ว
คู่มือ People + AI หากคุณกำลังมองหาชุดวิธีการ แนวทางปฏิบัติแนะนำ และตัวอย่างที่นำเสนอโดย Googler, ผู้เชี่ยวชาญในอุตสาหกรรม และการวิจัยทางวิชาการสําหรับการใช้ ML
การกำหนดปัญหา หากคุณกําลังมองหาแนวทางที่ผ่านการทดสอบภาคสนามสําหรับการสร้างโมเดล ML และหลีกเลี่ยงข้อผิดพลาดที่พบบ่อย
หลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง หากคุณพร้อมที่จะเรียนรู้เพิ่มเติมเกี่ยวกับ ML อย่างละเอียดและลงมือปฏิบัติ