คำถามต่อไปนี้จะช่วยเสริมสร้างความเข้าใจเกี่ยวกับแนวคิดหลักของ ML
ประสิทธิภาพในการคาดการณ์
โมเดล ML ที่มีการควบคุมดูแลจะได้รับการฝึกโดยใช้ชุดข้อมูลที่มีตัวอย่างที่ติดป้ายกำกับ โมเดลจะเรียนรู้วิธีคาดการณ์ป้ายกำกับจากฟีเจอร์ต่างๆ แต่ไม่ใช่ว่าทุกฟีเจอร์ในชุดข้อมูล
มีประสิทธิภาพในการคาดการณ์ได้ ในบางกรณี จะมีฟีเจอร์เพียงไม่กี่รายการที่ทำหน้าที่เป็นตัวคาดการณ์ป้ายกำกับ ในชุดข้อมูลด้านล่าง ให้ใช้ราคาเป็นป้ายกำกับและคอลัมน์ที่เหลือเป็นฟีเจอร์
คุณคิดว่าฟีเจอร์ 3 ข้อใดมีแนวโน้มที่จะเป็นตัวคาดการณ์ราคาของรถยนต์ได้ดีที่สุด
Make_model, ปี, ไมล์
ยี่ห้อ/รุ่น ปี และไมล์ของรถยนต์มีแนวโน้มที่จะเป็นหนึ่งในการคาดการณ์ราคาที่ดีที่สุด
สี ความสูง ยี่ห้อ
ความสูงและสีของรถยนต์ไม่ใช่ตัวคาดการณ์ราคาที่ชัดเจน
ไมล์ กล่องเกียร์ ยี่ห้อ ยี่ห้อ
กระปุกเฟืองไม่ใช่ตัวคาดการณ์ราคาหลัก
Tire_size, Wheel_base, ปี
ขนาดยางและฐานล้อไม่ใช่ตัวคาดเดาราคาที่ชัดเจนของรถยนต์
การเรียนรู้ที่มีการควบคุมดูแลและไม่มีการควบคุมดูแล
คุณจะใช้วิธีการที่มีการควบคุมดูแลหรือไม่ควบคุมดูแลก็ได้ ทั้งนี้ขึ้นอยู่กับปัญหา
ตัวอย่างเช่น หากคุณทราบค่าหรือหมวดหมู่ที่ต้องการคาดการณ์ไว้ล่วงหน้า คุณควรใช้การเรียนรู้ภายใต้การควบคุมดูแล อย่างไรก็ตาม หากคุณต้องการทราบว่าชุดข้อมูลมีการแบ่งกลุ่มหรือการจัดกลุ่มตัวอย่างที่เกี่ยวข้องหรือไม่ คุณควรใช้การเรียนรู้ที่ไม่มีการควบคุมดูแล
สมมติว่าคุณมีชุดข้อมูลของผู้ใช้สำหรับเว็บไซต์ช็อปปิ้งออนไลน์ และมีคอลัมน์ต่อไปนี้
หากคุณต้องการทำความเข้าใจประเภทผู้ใช้ที่เข้าชมเว็บไซต์ คุณจะใช้การเรียนรู้ภายใต้การควบคุมดูแลหรือการเรียนรู้ที่ไม่มีการควบคุมดูแล
การเรียนรู้แบบไม่มีการควบคุมดูแล
เนื่องจากเราต้องการให้โมเดลจัดกลุ่มลูกค้าที่เกี่ยวข้องไว้ด้วยกัน เราจึงใช้การเรียนรู้ที่ไม่มีการควบคุมดูแล หลังจากที่โมเดลจัดกลุ่มผู้ใช้แล้ว เราจะสร้างชื่อของเราเองสําหรับแต่ละคลัสเตอร์ เช่น "ผู้มองหาส่วนลด" "ผู้ตามหาดีล" "นักโต้คลื่น" "ความภักดี" และ "นักเดินทาง"
การเรียนรู้ที่มีการควบคุมดูแลเนื่องจากฉันพยายามคาดการณ์ว่าผู้ใช้อยู่ในชั้นเรียนใด
ในการเรียนรู้ภายใต้การควบคุมดูแล ชุดข้อมูลต้องมีป้ายกำกับที่คุณพยายามคาดการณ์ ในชุดข้อมูล ไม่มีป้ายกำกับที่อ้างอิงหมวดหมู่ของผู้ใช้
สมมติว่าคุณมีชุดข้อมูลการใช้พลังงานสำหรับบ้านที่มีคอลัมน์ต่อไปนี้
ML ประเภทใดที่คุณจะใช้เพื่อคาดการณ์จำนวนกิโลวัตต์ชั่วโมงที่ใช้ต่อปีสำหรับบ้านที่สร้างขึ้นใหม่
การเรียนรู้ภายใต้การควบคุมดูแล
ฝึกการเรียนรู้ที่มีการควบคุมดูแลตามตัวอย่างที่มีป้ายกำกับ ในชุดข้อมูลนี้ "กิโลวัตต์ชั่วโมงที่ใช้ต่อปี" จะเป็นป้ายกำกับเนื่องจากเป็นค่าที่คุณต้องการให้โมเดลคาดการณ์ สถานที่ที่ดูจะเป็น "สี่เหลี่ยมจัตุรัส" "สถานที่" และ "ปีที่สร้าง"
การเรียนรู้แบบไม่มีการควบคุมดูแล
การเรียนรู้ที่ไม่มีการควบคุมดูแลจะใช้ตัวอย่างที่ไม่มีป้ายกำกับ ในตัวอย่างนี้ "กิโลวัตต์ที่ใช้ต่อปี" จะเป็นป้ายกำกับเนื่องจากเป็นค่าที่คุณต้องการให้โมเดลคาดการณ์
สมมติว่าคุณมีชุดข้อมูลเที่ยวบินที่มีคอลัมน์ต่อไปนี้
หากคุณต้องการคาดการณ์ราคาตั๋วโค้ช คุณจะใช้การถดถอยหรือการแยกประเภท
การถดถอย
เอาต์พุตของโมเดลการถดถอยเป็นค่าตัวเลข
การจำแนกประเภท
เอาต์พุตของโมเดลการจัดประเภทจะเป็นค่าที่ไม่ต่อเนื่อง ซึ่งปกติจะเป็นคำ ในกรณีนี้ ราคาตั๋วโดยสารจะเป็นค่าตัวเลข
จากชุดข้อมูล คุณฝึกโมเดลการจัดประเภทเพื่อจำแนกราคาตั๋วโค้ชเป็น "สูง" "เฉลี่ย" หรือ "ต่ำ" ได้ไหม
ได้ แต่เราต้องแปลงค่าตัวเลขในคอลัมน์ coach_ticket_cost
เป็นค่าตามหมวดหมู่ก่อน
คุณจะสร้างโมเดลการจัดประเภทจากชุดข้อมูลได้
คุณควรดำเนินการดังต่อไปนี้
- ค้นหาราคาตั๋วเฉลี่ยจากสนามบินต้นทางไปยังสนามบินปลายทาง
- กำหนดเกณฑ์ที่จะประกอบขึ้นเป็น "สูง" "เฉลี่ย" และ "ต่ำ"
- เปรียบเทียบค่าใช้จ่ายที่คาดการณ์ไว้กับเกณฑ์และแสดงหมวดหมู่ที่มีค่าดังกล่าว
ไม่ได้ คุณสร้างโมเดลการจัดประเภทไม่ได้ ค่า coach_ticket_cost
เป็นตัวเลข ไม่ใช่หมวดหมู่
ง่ายๆ คุณก็อาจสร้างโมเดลการจัดประเภทขึ้นมาได้
ไม่ได้ โมเดลการจัดประเภทคาดการณ์เพียง 2 หมวดหมู่เท่านั้น เช่น spam
หรือ not_spam
โมเดลนี้จะต้องคาดการณ์ 3 หมวดหมู่
โมเดลการจัดประเภทคาดการณ์ได้หลายหมวดหมู่ ทั้งหมดนี้เรียกว่าโมเดลการจัดประเภทแบบหลายคลาส
การฝึกอบรมและการประเมิน
หลังจากที่เราฝึกโมเดลแล้ว เราจะประเมินโมเดลโดยใช้ชุดข้อมูลที่มีตัวอย่างที่ติดป้ายกำกับ และเปรียบเทียบค่าที่คาดการณ์ไว้ของโมเดลกับค่าจริงของป้ายกำกับ
เลือกคำตอบที่ดีที่สุด 2 ข้อสำหรับคำถาม
หากการคาดการณ์ของโมเดลไม่ไกล คุณอาจทำอย่างไรเพื่อให้โมเดลดีขึ้น
ฝึกโมเดลอีกครั้ง แต่ใช้เฉพาะฟีเจอร์ที่คุณเชื่อว่ามีความสามารถในการคาดการณ์ที่รัดกุมที่สุดสำหรับป้ายกำกับ
การฝึกโมเดลอีกครั้งโดยให้มีฟีเจอร์น้อยกว่า แต่มีประสิทธิภาพในการคาดการณ์มากกว่า สามารถสร้างโมเดลที่ทำให้คาดการณ์ได้ดีขึ้น
คุณแก้ไขโมเดลที่มีการคาดการณ์อยู่ไกลไม่ได้
คุณสามารถแก้ไขโมเดลที่การคาดการณ์ปิดอยู่ได้ โมเดลส่วนใหญ่ต้องฝึกหลายครั้งจนกว่าจะคาดการณ์ได้ที่เป็นประโยชน์
ฝึกโมเดลอีกครั้งโดยใช้ชุดข้อมูลที่ใหญ่ขึ้นและหลากหลายมากขึ้น
โมเดลที่ฝึกด้วยชุดข้อมูลโดยมีตัวอย่างมากขึ้นและช่วงของค่าที่กว้างขึ้นจะให้การคาดการณ์ที่ดีขึ้นได้ เนื่องจากโมเดลมีโซลูชันทั่วไปที่ดีกว่าสำหรับความสัมพันธ์ระหว่างฟีเจอร์และป้ายกำกับ
ลองใช้วิธีการฝึกอื่น เช่น หากคุณใช้วิธีที่มีการควบคุมดูแล ให้ลองใช้วิธีที่ไม่มีการควบคุมดูแล
แนวทางการฝึกอื่นไม่น่าจะช่วยให้คาดการณ์ได้แม่นยำขึ้น
ตอนนี้คุณพร้อมที่จะดำเนินการขั้นต่อไปบนเส้นทางแมชชีนเลิร์นนิงแล้ว
ผู้คน + คู่มือ AI หากคุณกำลังมองหาชุดวิธีการ แนวทางปฏิบัติแนะนำ และตัวอย่างที่นำเสนอโดย Googler, ผู้เชี่ยวชาญในอุตสาหกรรม และการวิจัยทางวิชาการสำหรับการใช้แมชชีนเลิร์นนิง
ปัญหาการจัดเฟรม หากกำลังมองหาแนวทางที่ผ่านการทดสอบภาคสนามในการสร้างโมเดล ML และหลีกเลี่ยงข้อผิดพลาดที่พบบ่อยไปพร้อมกัน
หลักสูตรสั้นๆ เกี่ยวกับแมชชีนเลิร์นนิง หากคุณพร้อมที่จะดูข้อมูลเพิ่มเติมเกี่ยวกับ ML แบบเจาะลึกและลงมือจริง