งานของการเรียนรู้ภายใต้การควบคุมดูแลมีการระบุไว้เป็นอย่างดีและนำไปใช้กับสถานการณ์ต่างๆ ได้มากมาย เช่น การระบุสแปมหรือการคาดการณ์โอกาสเกิดฝน
แนวคิดพื้นฐานเกี่ยวกับการเรียนรู้ภายใต้การควบคุมดูแล
แมชชีนเลิร์นนิงที่มีการควบคุมดูแลจะอิงตามแนวคิดหลักต่อไปนี้
- ข้อมูล
- รุ่น
- การฝึกอบรม
- กำลังประเมินผล
- การอนุมาน
ข้อมูล
ข้อมูลคือพลังขับเคลื่อนของ ML ข้อมูลมาในรูปแบบของคำและตัวเลขที่จัดเก็บไว้ในตาราง หรือเป็นค่าของพิกเซลและรูปแบบคลื่นที่บันทึกไว้ในรูปภาพและไฟล์เสียง เราจัดเก็บข้อมูลที่เกี่ยวข้องไว้ในชุดข้อมูล ตัวอย่างเช่น เราอาจมี ชุดข้อมูลของรายการต่อไปนี้
- ภาพของแมว
- ราคาที่อยู่อาศัย
- ข้อมูลสภาพอากาศ
ชุดข้อมูลประกอบด้วยตัวอย่างแต่ละรายการที่มีฟีเจอร์และป้ายกำกับ คุณอาจลองยกตัวอย่างเปรียบเทียบ กับแถวเดียวในสเปรดชีต ฟีเจอร์คือค่าที่โมเดลที่มีการควบคุมดูแลใช้คาดการณ์ป้ายกำกับ ป้ายกำกับคือ "คำตอบ" หรือค่า ที่เราต้องการให้โมเดลคาดการณ์ ในโมเดลสภาพอากาศที่คาดการณ์ว่าฝนจะตก องค์ประกอบอาจเป็นละติจูด ลองจิจูด อุณหภูมิ ความชื้น ความครอบคลุมของเมฆ ทิศทางลม และความดันบรรยากาศ ป้ายกำกับจะเป็นปริมาณฝน
ตัวอย่างที่มีทั้งฟีเจอร์และป้ายกำกับจะเรียกว่าตัวอย่างที่ติดป้ายกำกับ
ตัวอย่างที่ติดป้ายกำกับ 2 รายการ
ในทางตรงกันข้าม ตัวอย่างที่ไม่มีป้ายกำกับจะมีฟีเจอร์ แต่ไม่มีป้ายกำกับ หลังจากสร้างโมเดลแล้ว โมเดลจะคาดการณ์ป้ายกำกับจากฟีเจอร์ต่างๆ
ตัวอย่าง 2 รายการที่ไม่มีป้ายกำกับ
ลักษณะของชุดข้อมูล
ชุดข้อมูลมีลักษณะที่มีขนาดและความหลากหลาย ขนาดจะระบุจำนวนตัวอย่าง ความหลากหลายบ่งบอกถึงช่วงที่ครอบคลุมตัวอย่างเหล่านั้น ชุดข้อมูลที่ดีจะมีทั้งขนาดใหญ่และหลากหลาย
ชุดข้อมูลบางชุดมีทั้งขนาดใหญ่และหลากหลาย อย่างไรก็ตาม บางชุดข้อมูลมีขนาดใหญ่แต่มีความหลากหลาย ต่ำ และบางส่วนก็มีขนาดเล็กแต่มีความหลากหลายสูง กล่าวคือ ชุดข้อมูลขนาดใหญ่ไม่ได้รับประกันความหลากหลายที่เพียงพอ และชุดข้อมูลที่มีความหลากหลายสูงไม่ได้เป็นการรับประกันว่าจะมีตัวอย่างเพียงพอ
ตัวอย่างเช่น ชุดข้อมูลอาจมีข้อมูลในช่วง 100 ปี แต่สำหรับเดือนกรกฎาคมเท่านั้น การใช้ชุดข้อมูลนี้เพื่อคาดการณ์ปริมาณฝนในเดือนมกราคมจะทำให้การคาดการณ์ได้ไม่ดี ในทางกลับกัน ชุดข้อมูลอาจครอบคลุมเพียงไม่กี่ปี แต่มีทุกเดือน ชุดข้อมูลนี้อาจทำให้การคาดการณ์ไม่ดีเนื่องจากมีจำนวนปีไม่เพียงพอที่จะรองรับความแปรปรวน
ทดสอบความเข้าใจ
ชุดข้อมูลยังระบุได้ด้วยจำนวนของฟีเจอร์ ตัวอย่างเช่น ชุดข้อมูลสภาพอากาศบางชุดอาจมีฟีเจอร์หลายร้อยรายการ ตั้งแต่ภาพถ่ายจากดาวเทียมไปจนถึงค่าการครอบคลุมของเมฆ ชุดข้อมูลอื่นๆ อาจมีองค์ประกอบเพียง 3 หรือ 4 อย่าง เช่น ความชื้น ความดันบรรยากาศ และอุณหภูมิ ชุดข้อมูลที่มีฟีเจอร์มากขึ้นจะช่วยให้โมเดลค้นพบรูปแบบเพิ่มเติมและคาดการณ์ได้ดียิ่งขึ้น อย่างไรก็ตาม ชุดข้อมูลที่มีฟีเจอร์มากกว่าไม่ได้สร้างโมเดลที่ให้การคาดการณ์ได้ดีกว่าเสมอไป เนื่องจากบางฟีเจอร์อาจไม่มีความสัมพันธ์ทั่วไปกับป้ายกำกับ
รุ่น
ในการเรียนรู้ภายใต้การควบคุมดูแล โมเดลคือชุดตัวเลขเชิงซ้อนที่ระบุความสัมพันธ์ทางคณิตศาสตร์จากรูปแบบฟีเจอร์อินพุตที่เจาะจงไปจนถึงค่าป้ายกำกับเอาต์พุตที่เฉพาะเจาะจง โมเดลนี้จะค้นพบรูปแบบเหล่านี้ผ่านการฝึก
การฝึกอบรม
โมเดลภายใต้การควบคุมดูแลจะต้องฝึกโมเดลก่อน จึงจะคาดการณ์ได้ ในการฝึกโมเดล เราจะให้ชุดข้อมูลที่มีตัวอย่างที่ติดป้ายกำกับให้กับโมเดล เป้าหมายของโมเดลคือการหาวิธีแก้ปัญหาที่ดีที่สุดสำหรับการคาดการณ์ป้ายกำกับจากฟีเจอร์ต่างๆ โมเดลจะค้นหาทางออกที่ดีที่สุดโดยเปรียบเทียบค่าที่คาดการณ์ไว้กับค่าจริงของป้ายกำกับ โมเดลจะค่อยๆ อัปเดตโซลูชันโดยอิงตามความแตกต่างระหว่างค่าที่คาดการณ์ไว้และค่าจริงที่กำหนดเป็นการสูญเสีย กล่าวคือ โมเดลจะเรียนรู้ความสัมพันธ์ทางคณิตศาสตร์ระหว่างฟีเจอร์และป้ายกำกับเพื่อให้สามารถคาดการณ์ข้อมูลที่ไม่เคยเห็นได้ดีที่สุด
ตัวอย่างเช่น หากโมเดลคาดการณ์ 1.15 inches
ของฝน แต่ค่าจริงคือ .75 inches
โมเดลจะแก้ไขโซลูชันเพื่อให้การคาดการณ์ใกล้เคียงกับ .75 inches
หลังจากที่โมเดลได้ดูแต่ละตัวอย่างในชุดข้อมูล ในบางกรณีหรือหลายครั้ง โมเดลก็จะได้มาถึงโซลูชันที่ทำให้แต่ละตัวอย่างคาดการณ์ได้ดีที่สุดโดยเฉลี่ย
ต่อไปนี้เป็นการสาธิตการฝึกโมเดล
โมเดลนี้จะใช้ตัวอย่างที่ติดป้ายกำกับรายการเดียวและมีการคาดการณ์
รูปที่ 1 โมเดล ML ที่สร้างการคาดการณ์จากตัวอย่างที่ติดป้ายกำกับ
โมเดลจะเปรียบเทียบค่าที่คาดการณ์ไว้กับค่าจริงและอัปเดตโซลูชัน
รูปที่ 2 โมเดล ML ที่อัปเดตค่าที่คาดการณ์ไว้
โมเดลจะทำขั้นตอนนี้ซ้ำสำหรับตัวอย่างที่ติดป้ายกำกับแต่ละรายการในชุดข้อมูล
รูปที่ 3 โมเดล ML ที่อัปเดตการคาดการณ์สำหรับตัวอย่างที่ติดป้ายกำกับแต่ละรายการในชุดข้อมูลการฝึก
วิธีนี้จะช่วยให้โมเดลค่อยๆ เรียนรู้ความสัมพันธ์ที่ถูกต้องระหว่างฟีเจอร์และป้ายกำกับ ความเข้าใจแบบค่อยเป็นค่อยไปนี้จึงเป็นเหตุผลที่ชุดข้อมูลที่มีขนาดใหญ่และหลากหลาย ทำให้เกิดโมเดลที่ดีขึ้น โมเดลนี้จะเห็นข้อมูลมากขึ้นซึ่งมีช่วงค่าที่กว้างขึ้น และได้ปรับปรุงความเข้าใจเกี่ยวกับความสัมพันธ์ระหว่างฟีเจอร์และป้ายกำกับ
ในระหว่างการฝึก ผู้ปฏิบัติงาน ML สามารถปรับแต่งการกำหนดค่าและฟีเจอร์ที่โมเดลใช้ในการคาดการณ์ได้อย่างละเอียด ตัวอย่างเช่น บางฟีเจอร์
มีอำนาจในการคาดการณ์มากกว่าฟีเจอร์อื่นๆ ดังนั้น ผู้ปฏิบัติงาน ML สามารถเลือกฟีเจอร์ที่โมเดลจะใช้ในระหว่างการฝึกได้ ตัวอย่างเช่น สมมติว่าชุดข้อมูลสภาพอากาศมี time_of_day
เป็นฟีเจอร์ ในกรณีนี้ ผู้ปฏิบัติงาน ML สามารถเพิ่มหรือนำ time_of_day
ออกระหว่างการฝึกเพื่อดูว่าโมเดลให้การคาดการณ์ที่ดีขึ้นโดยมีหรือไม่มีโมเดลนั้น
กำลังประเมินผล
เราจะประเมินโมเดลที่ฝึกแล้วเพื่อพิจารณาว่าการเรียนรู้นั้นดีเพียงใด เมื่อเราประเมินโมเดล เราจะใช้ชุดข้อมูลที่ติดป้ายกำกับ แต่จะให้เฉพาะฟีเจอร์ของชุดข้อมูลแก่โมเดล จากนั้นเราจะเปรียบเทียบการคาดการณ์ของโมเดลกับค่าจริงของป้ายกำกับ
รูปที่ 4 การประเมินโมเดล ML โดยเปรียบเทียบการคาดการณ์กับค่าจริง
เราอาจฝึกและประเมินเพิ่มเติมก่อนจะนำโมเดลไปใช้จริงในแอปพลิเคชันจริง ทั้งนี้ขึ้นอยู่กับการคาดการณ์ของโมเดล
ทดสอบความเข้าใจ
การอนุมาน
เมื่อพอใจกับผลลัพธ์จากการประเมินโมเดลแล้ว เราจะใช้โมเดลเพื่อทำการคาดการณ์ที่เรียกว่าการอนุมานในตัวอย่างที่ไม่มีป้ายกำกับได้ ในตัวอย่างแอปสภาพอากาศ เราจะให้โมเดลแสดงสภาพอากาศปัจจุบัน เช่น อุณหภูมิ ความดันบรรยากาศ และความชื้นสัมพัทธ์ และคาดการณ์ปริมาณน้ำฝน