หน้านี้ได้รับการแปลโดย Cloud Translation API

อภิธานศัพท์ของแมชชีนเลิร์นนิง: พื้นฐาน ML

หน้านี้มีคำศัพท์ในคำศัพท์พื้นฐานของ ML ดูคำศัพท์ทั้งหมดได้โดยคลิกที่นี่

A

ความแม่นยำ

#fundamentals

#Metric

จำนวนการคาดการณ์การจัดประเภทที่ถูกต้องหารด้วยจำนวนการคาดการณ์ทั้งหมด โดยการ

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

เช่น โมเดลที่คาดการณ์ถูกต้อง 40 รายการและคาดการณ์ไม่ถูกต้อง 10 รายการ จะมีความแม่นยำดังนี้

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

การจัดประเภทแบบไบนารีจะระบุชื่อที่เฉพาะเจาะจง สำหรับหมวดหมู่ต่างๆ ของการคาดการณ์ที่ถูกต้องและ การคาดการณ์ที่ไม่ถูกต้อง ดังนั้น สูตรความแม่นยำสำหรับการจัดประเภทแบบไบนารี จึงเป็นดังนี้

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

ที่ไหน

TP คือจำนวนผลบวกจริง (การคาดการณ์ที่ถูกต้อง)
TN คือจำนวนผลลบจริง (การคาดการณ์ที่ถูกต้อง)
FP คือจำนวนผลบวกลวง (การคาดการณ์ที่ไม่ถูกต้อง)
FN คือจำนวนผลลบลวง (การคาดการณ์ที่ไม่ถูกต้อง)

เปรียบเทียบความแม่นยำกับความเที่ยงตรงและความอ่อนไหว

คลิกไอคอนเพื่อดูรายละเอียดเกี่ยวกับความแม่นยำและชุดข้อมูลที่มีความไม่สมดุลของคลาส

แม้ว่าความถูกต้องจะเป็นเมตริกที่มีประโยชน์ในบางสถานการณ์ แต่ก็อาจทำให้เข้าใจผิดอย่างมากในสถานการณ์อื่นๆ โดยปกติแล้ว ความแม่นยำมักจะเป็นเมตริกที่ไม่ดี สำหรับการประเมินโมเดลการแยกประเภทที่ประมวลผล ชุดข้อมูลที่มีความไม่สมดุลของคลาส

ตัวอย่างเช่น สมมติว่าในเมืองกึ่งเขตร้อนแห่งหนึ่งมีหิมะตกเพียง 25 วันต่อศตวรรษ เนื่องจากวันที่ไม่มีหิมะตก (คลาสเชิงลบ) มีจำนวนมากกว่าวันที่หิมะตก (คลาสเชิงบวก) อย่างมาก ชุดข้อมูลหิมะสำหรับเมืองนี้จึงเป็นคลาสที่ไม่สมดุล ลองนึกถึงการจัดประเภทแบบไบนารี โมเดลที่ควรจะคาดการณ์ว่าจะมีหิมะหรือไม่ในแต่ละวัน แต่ กลับคาดการณ์ว่า "ไม่มีหิมะ" ทุกวัน โมเดลนี้มีความแม่นยำสูงแต่ไม่มีความสามารถในการคาดการณ์ ตารางต่อไปนี้สรุปผลลัพธ์ของการคาดการณ์ในศตวรรษที่ผ่านมา

หมวดหมู่	ตัวเลข
TP	0
TN	36499
FP	0
FN	25

ดังนั้นความแม่นยำของโมเดลนี้จึงเป็นดังนี้

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

แม้ว่าความแม่นยำ 99.93% จะดูเหมือนเป็นเปอร์เซ็นต์ที่น่าประทับใจมาก แต่จริงๆ แล้วโมเดล ไม่มีความสามารถในการคาดการณ์

ความแม่นยำและ ความสามารถในการเรียกคืนมักจะเป็นเมตริกที่มีประโยชน์มากกว่าความถูกต้องในการประเมินโมเดลที่ฝึกในชุดข้อมูลที่มีความไม่สมดุลของคลาส

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ความแม่นยำ การเรียกคืน ความเที่ยงตรง และเมตริกที่เกี่ยวข้อง ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

ฟังก์ชันการเปิดใช้งาน

#fundamentals

ฟังก์ชันที่ช่วยให้โครงข่ายประสาทเทียมเรียนรู้ความสัมพันธ์ที่ไม่ใช่เชิงเส้น (ซับซ้อน) ระหว่างฟีเจอร์ กับป้ายกำกับ

ฟังก์ชันการเปิดใช้งานที่ได้รับความนิยมมีดังนี้

ReLU
Sigmoid

กราฟของฟังก์ชันการเปิดใช้งานจะไม่ใช่เส้นตรงเส้นเดียว ตัวอย่างเช่น พล็อตของฟังก์ชันกระตุ้น ReLU ประกอบด้วยเส้นตรง 2 เส้น ดังนี้

พล็อตคาร์ทีเซียนของ 2 เส้น เส้นแรกมีค่า y คงที่
เป็น 0 โดยวิ่งไปตามแกน x จาก -infinity,0 ถึง 0,-0
บรรทัดที่ 2 เริ่มต้นที่ 0,0 เส้นนี้มีความชัน +1 ดังนั้น
จึงวิ่งจาก 0,0 ไปยัง +อินฟินิตี้,+อินฟินิตี้

กราฟของฟังก์ชันการกระตุ้นแบบซิคมอยด์มีลักษณะดังนี้

พล็อตเส้นโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมน
-อินฟินิตี้ถึง +บวก ขณะที่ค่า y ครอบคลุมช่วงเกือบ 0 ถึง
เกือบ 1 เมื่อ x เป็น 0, y จะเป็น 0.5 ความชันของเส้นโค้งจะเป็นค่าบวกเสมอ โดยมีความชันสูงสุดที่ 0,0.5 และความชันจะค่อยๆ ลดลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

คลิกไอคอนเพื่อดูตัวอย่าง

ในโครงข่ายประสาทเทียม ฟังก์ชันการเปิดใช้งานจะจัดการผลรวมแบบถ่วงน้ำหนักของอินพุตทั้งหมดไปยังนิวรอน หากต้องการคำนวณผลรวมแบบถ่วงน้ำหนัก นิวรอนจะบวก ผลคูณของค่าและการถ่วงน้ำหนักที่เกี่ยวข้อง ตัวอย่างเช่น สมมติว่า อินพุตที่เกี่ยวข้องกับนิวรอนประกอบด้วยสิ่งต่อไปนี้

ค่าอินพุต	น้ำหนักอินพุต
2	-1.3
-1	0.6
3	0.4

ดังนั้น ผลรวมแบบถ่วงน้ำหนักจึงเป็นดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

สมมติว่าผู้ออกแบบโครงข่ายประสาทเทียมนี้เลือก ฟังก์ชันซิกมอยด์เป็น ฟังก์ชันการเปิดใช้งาน ในกรณีนี้ นิวรอนจะคำนวณ ฟังก์ชันซิกมอยด์ของ -2.0 ซึ่งมีค่าประมาณ 0.12 ดังนั้น นิวรอนจึงส่ง 0.12 (แทนที่จะเป็น -2.0) ไปยังเลเยอร์ถัดไปในโครงข่ายประสาท รูปภาพต่อไปนี้แสดงส่วนที่เกี่ยวข้องของกระบวนการ

ดูข้อมูลเพิ่มเติมได้ที่โครงข่ายประสาทเทียม: ฟังก์ชันการเปิดใช้งาน ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

ปัญญาประดิษฐ์ (AI)

#fundamentals

โปรแกรมหรือโมเดลที่ไม่ใช่มนุษย์ซึ่งสามารถแก้โจทย์ที่ซับซ้อนได้ ตัวอย่างเช่น โปรแกรมหรือโมเดลที่แปลข้อความ หรือโปรแกรมหรือโมเดลที่ระบุโรคจากภาพรังสีวิทยาล้วนแสดงให้เห็นถึงปัญญาประดิษฐ์

ในทางเทคนิคแล้ว แมชชีนเลิร์นนิงเป็นสาขาย่อยของปัญญาประดิษฐ์ (AI) อย่างไรก็ตาม ในช่วงไม่กี่ปีที่ผ่านมา องค์กรบางแห่งเริ่มใช้คำว่าปัญญาประดิษฐ์และแมชชีนเลิร์นนิงสลับกัน

AUC (พื้นที่ใต้กราฟ ROC)

#fundamentals

#Metric

ตัวเลขระหว่าง 0.0 ถึง 1.0 ซึ่งแสดงถึงความสามารถของโมเดลการจัดประเภทแบบไบนารี ในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ ยิ่ง AUC ใกล้ 1.0 มากเท่าใด ความสามารถของโมเดลในการแยก คลาสออกจากกันก็จะยิ่งดีขึ้นเท่านั้น

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโมเดลการจัดประเภทที่แยกคลาสเชิงบวก (วงรีสีเขียว) ออกจากคลาสเชิงลบ (สี่เหลี่ยมผืนผ้าสีม่วง) ได้อย่างสมบูรณ์ โมเดลที่สมบูรณ์แบบอย่างไม่สมจริงนี้มี AUC เท่ากับ 1.0

เส้นจำนวนที่มีตัวอย่างที่เป็นบวก 8 รายการด้านหนึ่งและ
ตัวอย่างที่เป็นลบ 9 รายการอีกด้านหนึ่ง

ในทางกลับกัน ภาพต่อไปนี้แสดงผลลัพธ์ของโมเดลการจัดประเภทที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มี AUC เท่ากับ 0.5

เส้นจำนวนที่มีตัวอย่างที่เป็นบวก 6 ตัวอย่างและตัวอย่างที่เป็นลบ 6 ตัวอย่าง
ลำดับของตัวอย่างคือ เชิงบวก เชิงลบ
เชิงบวก เชิงลบ เชิงบวก เชิงลบ เชิงบวก เชิงลบ เชิงบวก
เชิงลบ เชิงบวก เชิงลบ

ใช่ โมเดลก่อนหน้ามี AUC เท่ากับ 0.5 ไม่ใช่ 0.0

โมเดลส่วนใหญ่อยู่ระหว่าง 2 สุดขั้วนี้ ตัวอย่างเช่น โมเดลต่อไปนี้จะแยกผลลัพธ์เชิงบวกออกจากเชิงลบได้ในระดับหนึ่ง ดังนั้นจึงมี AUC อยู่ระหว่าง 0.5 ถึง 1.0

เส้นจำนวนที่มีตัวอย่างที่เป็นบวก 6 ตัวอย่างและตัวอย่างที่เป็นลบ 6 ตัวอย่าง
ลำดับของตัวอย่างคือ ลบ ลบ ลบ ลบ บวก ลบ บวก บวก ลบ บวก บวก บวก

AUC จะไม่สนใจค่าที่คุณตั้งไว้สำหรับเกณฑ์การจัดประเภท แต่ AUC จะพิจารณาเกณฑ์การแยกประเภทที่เป็นไปได้ทั้งหมด

คลิกไอคอนเพื่อดูข้อมูลเกี่ยวกับความสัมพันธ์ระหว่าง AUC กับเส้นโค้ง ROC

AUC แสดงถึงพื้นที่ใต้ กราฟ ROC ตัวอย่างเช่น กราฟ ROC สำหรับโมเดลที่แยกผลบวกออกจากผลลบได้อย่างสมบูรณ์มีลักษณะดังนี้

AUC คือพื้นที่ของบริเวณสีเทาในภาพประกอบก่อนหน้า ในกรณีที่ผิดปกติเช่นนี้ พื้นที่ก็คือความยาวของพื้นที่สีเทา (1.0) คูณด้วยความกว้างของพื้นที่สีเทา (1.0) ดังนั้น ผลคูณของ 1.0 และ 1.0 จึงให้ค่า AUC เท่ากับ 1.0 ซึ่งเป็นคะแนน AUC ที่สูงที่สุด ที่เป็นไปได้

ในทางกลับกัน เส้นโค้ง ROC สำหรับโมเดลการแยกประเภทที่ไม่สามารถ แยกคลาสได้เลยจะเป็นดังนี้ พื้นที่ของบริเวณสีเทานี้คือ 0.5

กราฟ ROC ที่พบได้ทั่วไปจะมีลักษณะดังต่อไปนี้โดยประมาณ

การคำนวณพื้นที่ใต้กราฟนี้ด้วยตนเองเป็นเรื่องที่ยากมาก ด้วยเหตุนี้โปรแกรมจึงมักคำนวณค่า AUC ส่วนใหญ่

คลิกไอคอนเพื่อดูคำจำกัดความของ AUC ที่เป็นทางการมากขึ้น

AUC คือความน่าจะเป็นที่โมเดลการจัดประเภทจะมีความมั่นใจมากขึ้นว่าตัวอย่างเชิงบวกที่เลือกแบบสุ่มเป็นบวกจริง มากกว่าตัวอย่างเชิงลบที่เลือกแบบสุ่มเป็นบวก

ดูข้อมูลเพิ่มเติมได้ที่การแยกประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

B

การแพร่ย้อนกลับ

#fundamentals

อัลกอริทึมที่ใช้ การไล่ระดับความชันใน โครงข่ายประสาทเทียม

การฝึกโครงข่ายประสาทเทียมต้องทำการทำซ้ำหลายครั้ง ในวงจร 2 รอบต่อไปนี้

ในระหว่างการส่งต่อ ระบบจะประมวลผลกลุ่มของ ตัวอย่างเพื่อให้ได้การคาดการณ์ ระบบจะเปรียบเทียบค่าการคาดการณ์แต่ละค่ากับค่าป้ายกำกับแต่ละค่า ความแตกต่างระหว่างค่าการคาดการณ์และค่าป้ายกำกับคือการสูญเสียสำหรับตัวอย่างนั้น ระบบจะรวมการสูญเสียสำหรับตัวอย่างทั้งหมดเพื่อคำนวณการสูญเสียทั้งหมดสำหรับกลุ่มปัจจุบัน
ในการส่งผ่านย้อนกลับ (การแพร่ย้อนกลับ) ระบบจะลดการสูญเสียโดยการ ปรับน้ำหนักของนิวรอนทั้งหมดในเลเยอร์ที่ซ่อนอยู่ทั้งหมด

โดยมักจะมีนิวรอนจำนวนมากในเลเยอร์ที่ซ่อนอยู่หลายเลเยอร์ นิวรอนแต่ละตัวมีส่วนทำให้เกิดการสูญเสียโดยรวมในรูปแบบต่างๆ การแพร่ย้อนกลับจะพิจารณาว่าจะเพิ่มหรือลดน้ำหนัก ที่ใช้กับนิวรอนเฉพาะหรือไม่

อัตราการเรียนรู้คือตัวคูณที่ควบคุม ระดับที่แต่ละการส่งผ่านย้อนกลับจะเพิ่มหรือลดน้ำหนักแต่ละรายการ อัตราการเรียนรู้ที่สูงจะเพิ่มหรือลดน้ำหนักแต่ละรายการมากกว่าอัตราการเรียนรู้ที่ต่ำ

ในแง่ของแคลคูลัส การแพร่ย้อนกลับจะใช้กฎลูกโซ่ จากแคลคูลัส กล่าวคือ การแพร่ย้อนกลับจะคำนวณอนุพันธ์ย่อยของข้อผิดพลาดที่ เกี่ยวข้องกับแต่ละพารามิเตอร์

เมื่อหลายปีก่อน ผู้ปฏิบัติงานด้าน ML ต้องเขียนโค้ดเพื่อใช้การแพร่ย้อนกลับ API ของ ML รุ่นใหม่ เช่น Keras จะใช้การแพร่ย้อนกลับให้คุณ ในที่สุด

ดูข้อมูลเพิ่มเติมได้ที่โครงข่ายประสาทเทียม ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

กลุ่ม

#fundamentals

ชุดตัวอย่างที่ใช้ในการฝึกซ้ำ 1 ครั้ง ขนาดกลุ่มจะกำหนดจำนวนตัวอย่างในกลุ่ม

ดูคำอธิบายว่ากลุ่มข้อมูลเกี่ยวข้องกับ Epoch อย่างไรได้ที่Epoch

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: ไฮเปอร์พารามิเตอร์ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ขนาดกลุ่ม

#fundamentals

จำนวนตัวอย่างในกลุ่ม เช่น หากขนาดกลุ่มคือ 100 โมเดลจะประมวลผลตัวอย่าง 100 รายการต่อการทำซ้ำ

กลยุทธ์ขนาดกลุ่มยอดนิยมมีดังนี้

การไล่ระดับสีแบบสุ่ม (SGD) ซึ่งมีขนาดกลุ่มเท่ากับ 1
การประมวลผลแบบกลุ่มเต็ม ซึ่งขนาดกลุ่มคือจํานวนตัวอย่างในชุดการฝึกทั้งหมด เช่น หากชุดการฝึกมีตัวอย่าง 1 ล้านรายการ ขนาดกลุ่มจะเท่ากับตัวอย่าง 1 ล้านรายการ โดยปกติแล้ว การประมวลผลแบบกลุ่มทั้งหมดมักเป็นกลยุทธ์ที่ไม่มีประสิทธิภาพ
มินิแบตช์ ซึ่งโดยปกติแล้วขนาดแบตช์จะอยู่ระหว่าง 10 ถึง 1,000 โดยปกติแล้ว มินิแบทช์เป็นกลยุทธ์ที่มีประสิทธิภาพมากที่สุด

โปรดดูข้อมูลเพิ่มเติมที่ด้านล่าง

อคติ (จริยธรรม/ความเป็นธรรม)

#responsible

#fundamentals

1. การเหมารวม อคติ หรือการเข้าข้างสิ่งต่างๆ บุคคล หรือกลุ่มบางกลุ่มมากกว่ากลุ่มอื่นๆ อคติเหล่านี้อาจส่งผลต่อการเก็บรวบรวมและการตีความข้อมูล การออกแบบระบบ และวิธีที่ผู้ใช้โต้ตอบกับระบบ รูปแบบของอคติประเภทนี้ ได้แก่

2. ข้อผิดพลาดของระบบที่เกิดจากขั้นตอนการสุ่มตัวอย่างหรือการรายงาน รูปแบบของอคติประเภทนี้ ได้แก่

อย่าสับสนกับคำอคติในโมเดลแมชชีนเลิร์นนิง หรืออคติในการคาดการณ์

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ประเภทของอคติใน หลักสูตรเร่งรัดแมชชีนเลิร์นนิง

อคติ (คณิตศาสตร์) หรือเทอมอคติ

#fundamentals

จุดตัดหรือออฟเซ็ตจากต้นทาง อคติเป็นพารามิเตอร์ในโมเดลแมชชีนเลิร์นนิง ซึ่งแสดงด้วยสัญลักษณ์ต่อไปนี้

b
w₀

ตัวอย่างเช่น อคติคือ b ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในเส้น 2 มิติแบบง่ายๆ อคติหมายถึง "จุดตัดแกน y" ตัวอย่างเช่น อคติของเส้นในภาพต่อไปนี้คือ 2

พล็อตของเส้นที่มีความชัน 0.5 และค่าอคติ (จุดตัดแกน y) 2

ความเอนเอียงเกิดขึ้นเนื่องจากไม่ใช่ทุกโมเดลที่เริ่มต้นจากจุดกำเนิด (0,0) ตัวอย่างเช่น สมมติว่าค่าเข้าสวนสนุกคือ 20 บาท และมีค่าใช้จ่ายเพิ่มเติม 5 บาทต่อชั่วโมงที่ลูกค้าอยู่ในสวนสนุก ดังนั้น โมเดลที่แมปต้นทุนทั้งหมดจึงมีอคติเป็น 2 เนื่องจากต้นทุนต่ำสุดคือ 2 ยูโร

อย่าสับสนระหว่างอคติกับอคติในด้านจริยธรรมและความเป็นธรรม หรืออคติในการคาดการณ์

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การจัดประเภทแบบไบนารี

#fundamentals

งานการจัดประเภทประเภทหนึ่งที่ คาดการณ์คลาสใดคลาสหนึ่งใน 2 คลาสที่แยกกันโดยสิ้นเชิง

คลาสที่เป็นบวก
คลาสที่เป็นลบ

ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิง 2 โมเดลต่อไปนี้แต่ละโมเดลทําการ การจัดประเภทแบบไบนารี

โมเดลที่พิจารณาว่าข้อความอีเมลเป็นจดหมายขยะ (คลาสเชิงบวก) หรือไม่ใช่จดหมายขยะ (คลาสเชิงลบ)
โมเดลที่ประเมินอาการทางการแพทย์เพื่อพิจารณาว่าบุคคล เป็นโรคใดโรคหนึ่ง (คลาสบวก) หรือไม่เป็นโรคดังกล่าว (คลาสลบ)

เปรียบเทียบกับการจัดประเภทแบบหลายคลาส

ดูเพิ่มเติมที่การถดถอยโลจิสติกและ เกณฑ์การจัดประเภท

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การจัดกลุ่ม

#fundamentals

การแปลงฟีเจอร์เดียวเป็นฟีเจอร์ไบนารีหลายรายการ ที่เรียกว่ากลุ่มหรือถัง โดยปกติจะอิงตามช่วงค่า โดยปกติแล้วฟีเจอร์ที่ถูกตัดออกจะเป็นฟีเจอร์ต่อเนื่อง

เช่น แทนที่จะแสดงอุณหภูมิเป็นฟีเจอร์ทศนิยมต่อเนื่องเดียว คุณสามารถแบ่งช่วงอุณหภูมิออกเป็นกลุ่มที่ไม่ต่อเนื่อง เช่น

<= 10 องศาเซลเซียสจะเป็นกลุ่ม "เย็น"
11-24 องศาเซลเซียสจะอยู่ในกลุ่ม "อบอุ่น"
>= 25 องศาเซลเซียสจะเป็นกลุ่ม "อุ่น"

โมเดลจะถือว่าค่าทุกค่าในกลุ่มเดียวกันเหมือนกัน ตัวอย่างเช่น ค่า 13 และ 22 อยู่ในกลุ่มอุณหภูมิปานกลางทั้งคู่ โมเดลจึงถือว่าค่าทั้ง 2 ค่าเหมือนกัน

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

หากคุณแสดงอุณหภูมิเป็นฟีเจอร์ต่อเนื่อง โมเดลจะถือว่าอุณหภูมิเป็นฟีเจอร์เดียว หากคุณแสดงอุณหภูมิ เป็น 3 บัคเก็ต โมเดลจะถือว่าแต่ละบัคเก็ตเป็นฟีเจอร์แยกกัน กล่าวคือ โมเดลสามารถเรียนรู้ความสัมพันธ์แยกกันของแต่ละกลุ่มกับป้ายกำกับ เช่น โมเดลการถดถอยเชิงเส้นสามารถเรียนรู้น้ำหนักแยกกันสำหรับแต่ละกลุ่มได้

การเพิ่มจำนวนกลุ่มจะทำให้โมเดลซับซ้อนมากขึ้นโดย การเพิ่มจำนวนความสัมพันธ์ที่โมเดลต้องเรียนรู้ ตัวอย่างเช่น บัคเก็ตเย็น ปานกลาง และอุ่นเป็นฟีเจอร์ที่แยกกัน 3 รายการสำหรับโมเดลของคุณในการฝึก หากตัดสินใจเพิ่มบักเก็ตอีก 2 รายการ เช่น "เย็นจัด" และ "ร้อน" โมเดลจะต้องฝึกกับฟีเจอร์แยกกัน 5 รายการ

คุณจะทราบได้อย่างไรว่าควรสร้างกลุ่มกี่กลุ่ม หรือช่วงของแต่ละกลุ่มควรเป็นเท่าใด โดยปกติแล้ว คำตอบมักต้องผ่านการทดลอง พอสมควร

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงตัวเลข: การจัดกลุ่ม ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

C

ข้อมูลเชิงหมวดหมู่

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ที่เฉพาะเจาะจง ตัวอย่างเช่น พิจารณาฟีเจอร์เชิงหมวดหมู่ชื่อ traffic-light-state ซึ่งมีค่าได้เพียงค่าใดค่าหนึ่งจาก 3 ค่าต่อไปนี้

red
yellow
green

การแสดง traffic-light-state เป็นฟีเจอร์เชิงหมวดหมู่ จะช่วยให้โมเดลเรียนรู้ ผลกระทบที่แตกต่างกันของ red, green และ yellow ต่อพฤติกรรมของผู้ขับขี่ได้

บางครั้งฟีเจอร์เชิงหมวดหมู่เรียกว่าฟีเจอร์ที่ไม่ต่อเนื่อง

แตกต่างจากข้อมูลเชิงตัวเลข

ดูข้อมูลเพิ่มเติมได้ที่การทำงานกับข้อมูลเชิงหมวดหมู่ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

คลาส

#fundamentals

หมวดหมู่ที่ป้ายกำกับสามารถเป็นของได้ เช่น

ในโมเดลการจัดประเภทแบบไบนารีที่ตรวจหาสแปม คลาสทั้ง 2 อาจเป็นสแปมและไม่ใช่สแปม
ในโมเดลการจัดประเภทแบบหลายคลาส ที่ระบุสายพันธุ์สุนัข คลาสอาจเป็นพุดเดิล บีเกิล ปั๊ก และอื่นๆ

โมเดลการจัดประเภทจะคาดการณ์คลาส ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์ตัวเลข แทนที่จะเป็นคลาส

โมเดลการแยกประเภท

#fundamentals

โมเดลที่มีการคาดการณ์เป็นคลาส ตัวอย่างเช่น โมเดลต่อไปนี้เป็นโมเดลการแยกประเภททั้งหมด

โมเดลที่คาดการณ์ภาษาของประโยคอินพุต (ฝรั่งเศสใช่ไหม สเปน อิตาลี)
โมเดลที่คาดการณ์สายพันธุ์ของต้นไม้ (เมเปิล Oak บาวบับ)
โมเดลที่คาดการณ์คลาสที่เป็นบวกหรือลบสำหรับ ภาวะทางการแพทย์ที่เฉพาะเจาะจง

ในทางตรงกันข้าม โมเดลการเกิดปัญหาซ้ำจะคาดการณ์ตัวเลข แทนที่จะเป็นคลาส

โมเดลการจัดประเภทที่ใช้กันทั่วไปมี 2 ประเภท ได้แก่

การจัดประเภทแบบไบนารี
การจัดประเภทแบบหลายคลาส

เกณฑ์การจัดประเภท

#fundamentals

ในการจัดประเภทแบบไบนารี ค่า ระหว่าง 0 ถึง 1 ที่แปลงเอาต์พุตดิบของโมเดลการถดถอยโลจิสติก เป็นการคาดการณ์คลาสที่เป็นบวก หรือคลาสที่เป็นลบ โปรดทราบว่าเกณฑ์การแยกประเภทคือค่าที่มนุษย์เลือก ไม่ใช่ค่าที่ได้จากการฝึกโมเดล

โมเดลการถดถอยโลจิสติกจะแสดงผลค่าดิบระหว่าง 0 ถึง 1 จากนั้นให้ทำดังนี้

หากค่าดิบนี้มากกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์ คลาสที่เป็นบวก
หากค่าดิบนี้น้อยกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสเชิงลบ

เช่น สมมติว่าเกณฑ์การแยกประเภทคือ 0.8 หากค่าดิบ เป็น 0.9 โมเดลจะคาดการณ์คลาสเชิงบวก หากค่าดิบเป็น 0.7 โมเดลจะคาดการณ์คลาสเชิงลบ

การเลือกเกณฑ์การแยกประเภทส่งผลอย่างมากต่อจำนวนผลบวกลวงและผลลบลวง

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เมื่อโมเดลหรือชุดข้อมูลมีการเปลี่ยนแปลง บางครั้งวิศวกรก็เปลี่ยนเกณฑ์การจัดประเภทด้วย เมื่อเกณฑ์การจัดประเภทเปลี่ยนแปลง การคาดการณ์คลาสที่เป็นบวกอาจกลายเป็นคลาสที่เป็นลบ และในทางกลับกัน

เช่น ลองพิจารณาโมเดลการคาดการณ์โรคแบบการจัดประเภทแบบไบนารี สมมติว่าเมื่อระบบทำงานในปีแรก

ค่าดิบสำหรับผู้ป่วยรายหนึ่งคือ 0.95
เกณฑ์การจัดประเภทคือ 0.94

ดังนั้นระบบจึงวินิจฉัยคลาสที่เป็นบวก (ผู้ป่วยหอบ "ไม่นะ ฉันไม่สบาย")

1 ปีต่อมา มูลค่าอาจเป็นดังนี้

ค่าดิบสำหรับผู้ป่วยรายเดียวกันจะยังคงอยู่ที่ 0.95
เกณฑ์การจัดประเภทจะเปลี่ยนเป็น 0.97

ดังนั้น ตอนนี้ระบบจึงจัดประเภทผู้ป่วยรายนั้นใหม่เป็นคลาสเชิงลบ ("สุขสันต์วันเกิด ฉันไม่ได้ป่วย") ผู้ป่วยคนเดียวกัน การวินิจฉัยที่แตกต่างกัน

ดูข้อมูลเพิ่มเติมได้ที่เกณฑ์และเมทริกซ์ความสับสน ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ตัวแยกประเภท

#fundamentals

คำที่ใช้กันทั่วไปสำหรับโมเดลการจัดประเภท

ชุดข้อมูลที่มีความไม่สมดุลของคลาส

#fundamentals

ชุดข้อมูลสำหรับการแยกประเภท ซึ่งมีจำนวนป้ายกำกับทั้งหมดของคลาสแต่ละคลาส แตกต่างกันอย่างมาก ตัวอย่างเช่น พิจารณาชุดข้อมูลการจัดประเภทแบบไบนารีที่มีป้ายกำกับ 2 รายการ ซึ่งแบ่งออกเป็นดังนี้

ป้ายกำกับเชิงลบ 1,000,000 รายการ
ป้ายกำกับเชิงบวก 10 รายการ

อัตราส่วนของป้ายกำกับเชิงลบต่อป้ายกำกับเชิงบวกคือ 100,000 ต่อ 1 ดังนั้นชุดข้อมูลนี้จึงเป็นชุดข้อมูลที่มีความไม่สมดุลของคลาส

ในทางตรงกันข้าม ชุดข้อมูลต่อไปนี้เป็นคลาสที่สมดุลเนื่องจากอัตราส่วนของป้ายกำกับเชิงลบต่อป้ายกำกับเชิงบวกค่อนข้างใกล้เคียงกับ 1

ป้ายกำกับเชิงลบ 517 รายการ
ป้ายกำกับค่าบวก 483 รายการ

ชุดข้อมูลแบบหลายคลาสอาจเป็นแบบคลาสไม่สมดุลได้เช่นกัน ตัวอย่างเช่น ชุดข้อมูลการจัดประเภทแบบหลายคลาสต่อไปนี้ยังเป็นชุดข้อมูลที่มีความไม่สมดุลของคลาสด้วย เนื่องจากป้ายกำกับหนึ่งมีตัวอย่างมากกว่าอีก 2 ป้ายกำกับมาก

ป้ายกำกับ 1,000,000 รายการที่มีคลาส "สีเขียว"
ป้ายกำกับ 200 รายการที่มีคลาส "สีม่วง"
ป้ายกำกับ 350 รายการที่มีคลาส "ส้ม"

การฝึกโมเดลด้วยชุดข้อมูลที่มีความไม่สมดุลของคลาสอาจเป็นเรื่องท้าทาย ดูรายละเอียดได้ที่ ชุดข้อมูลที่ไม่สมดุล ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ดูเอนโทรปี คลาสส่วนใหญ่ และคลาสส่วนน้อยด้วย

การตัด

#fundamentals

เทคนิคในการจัดการค่าผิดปกติโดยทำอย่างใดอย่างหนึ่งหรือทั้ง 2 อย่างต่อไปนี้

การลดค่าฟีเจอร์ที่มากกว่าเกณฑ์สูงสุด ลงมาที่เกณฑ์สูงสุดนั้น
การเพิ่มค่าฟีเจอร์ที่ต่ำกว่าเกณฑ์ขั้นต่ำให้เป็นเกณฑ์ขั้นต่ำ

ตัวอย่างเช่น สมมติว่าค่าสำหรับฟีเจอร์หนึ่งๆ น้อยกว่า 0.5% อยู่ นอกช่วง 40–60 ในกรณีนี้ คุณสามารถทำสิ่งต่อไปนี้

ตัดค่าทั้งหมดที่มากกว่า 60 (เกณฑ์สูงสุด) ให้เป็น 60
คลิปค่าทั้งหมดที่ต่ำกว่า 40 (เกณฑ์ขั้นต่ำ) ให้เป็น 40

ค่าผิดปกติอาจทำให้โมเดลเสียหาย และในบางครั้งอาจทำให้น้ำหนัก ล้นระหว่างการฝึก ค่าผิดปกติบางค่าอาจทำให้เมตริกต่างๆ เช่น ความแม่นยำ เสียหายอย่างมาก การตัดเสียงเป็นเทคนิคที่ใช้กันทั่วไปเพื่อจำกัด ความเสียหาย

การจำกัดค่าความชันจะบังคับให้ค่าความชันอยู่ในช่วงที่กำหนดระหว่างการฝึก

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การปรับค่า ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

เมตริกความสับสน

#fundamentals

ตาราง NxN ที่สรุปจำนวนการคาดการณ์ที่ถูกต้องและไม่ถูกต้อง ที่โมเดลการจัดประเภทสร้างขึ้น ตัวอย่างเช่น ลองดูเมทริกซ์ความสับสนต่อไปนี้สําหรับโมเดลการจัดประเภทแบบไบนารี

	เนื้องอก (คาดการณ์)	ไม่ใช่เนื้องอก (คาดการณ์)
เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง)	18 (TP)	1 (FN)
ไม่ใช่เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง)	6 (FP)	452 (TN)

เมตริกความสับสนก่อนหน้าแสดงข้อมูลต่อไปนี้

จากการคาดการณ์ 19 รายการที่ข้อมูลที่ระบุว่าถูกต้องโดยเจ้าหน้าที่เป็นเนื้องอก โมเดลจัดประเภทได้อย่างถูกต้อง 18 รายการและจัดประเภทไม่ถูกต้อง 1 รายการ
จากการคาดการณ์ 458 รายการซึ่งมีข้อมูลที่ระบุว่าถูกต้องโดยเจ้าหน้าที่เป็น "ไม่ใช่เนื้องอก" โมเดล จัดประเภทได้อย่างถูกต้อง 452 รายการและจัดประเภทไม่ถูกต้อง 6 รายการ

เมทริกซ์ความสับสนสำหรับปัญหาการจัดประเภทแบบหลายคลาส ช่วยให้คุณระบุรูปแบบของข้อผิดพลาดได้ ตัวอย่างเช่น ลองพิจารณาเมทริกซ์ความสับสนต่อไปนี้สําหรับโมเดลการจัดประเภทแบบหลายคลาส 3 คลาส ที่จัดหมวดหมู่ไอริส 3 ประเภทที่แตกต่างกัน (เวอร์จินิกา เวอร์ซิคอลอร์ และเซโตซา) เมื่อข้อมูลที่ระบุว่าถูกต้องโดยเจ้าหน้าที่คือ Virginica เมทริกซ์ความสับสนจะแสดงให้เห็นว่าโมเดลมีแนวโน้มที่จะคาดการณ์ Versicolor มากกว่า Setosa อย่างมาก

	Setosa (คาดการณ์)	Versicolor (คาดการณ์)	เวอร์จิเนีย (คาดการณ์)
Setosa (ข้อมูลจากการสังเกตการณ์โดยตรง)	88	12	0
Versicolor (ข้อมูลจากการสังเกตการณ์โดยตรง)	6	141	7
เวอร์จินิกา (ข้อมูลจากการสังเกตการณ์โดยตรง)	2	27	109

อีกตัวอย่างหนึ่งคือเมทริกซ์ความสับสนอาจเผยให้เห็นว่าโมเดลที่ฝึกมา เพื่อจดจำตัวเลขที่เขียนด้วยลายมือมักจะทำนายผิดเป็น 9 แทนที่จะเป็น 4 หรือทำนายผิดเป็น 1 แทนที่จะเป็น 7

เมทริกซ์ความสับสนมีข้อมูลเพียงพอที่จะคํานวณเมตริกประสิทธิภาพที่หลากหลาย รวมถึงความแม่นยำ และการเรียกคืน

ฟีเจอร์ต่อเนื่อง

#fundamentals

ฟีเจอร์ทศนิยมที่มีค่าที่เป็นไปได้ไม่สิ้นสุด เช่น อุณหภูมิหรือน้ำหนัก

เปรียบเทียบกับฟีเจอร์ที่ไม่ต่อเนื่อง

การบรรจบกัน

#fundamentals

สถานะที่เกิดขึ้นเมื่อค่าloss เปลี่ยนแปลงน้อยมากหรือ ไม่เปลี่ยนแปลงเลยในแต่ละการวนซ้ำ ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้แสดงให้เห็นว่าการบรรจบกันเกิดขึ้นที่การวนซ้ำประมาณ 700 ครั้ง

พล็อตคาร์ทีเซียน แกน X สูญหาย แกน Y คือจำนวนการทำซ้ำการฝึก
การสูญเสียจะสูงมากในช่วง 2-3 การทำซ้ำแรก แต่จะลดลงอย่างรวดเร็ว
หลังจากทำซ้ำประมาณ 100 ครั้ง การสูญเสียยังคง
ลดลง แต่ลดลงอย่างค่อยเป็นค่อยไปมากขึ้น หลังจากทำซ้ำประมาณ 700 ครั้ง
การสูญเสียจะคงที่

โมเดลจะบรรจบกันเมื่อการฝึกเพิ่มเติมไม่ ปรับปรุงโมเดล

ในดีปเลิร์นนิง บางครั้งค่าการสูญเสียจะคงที่หรือ เกือบคงที่สำหรับการวนซ้ำหลายครั้งก่อนที่จะลดลงในที่สุด ในช่วงระยะเวลานาน ที่ค่าการสูญเสียคงที่ คุณอาจรู้สึกว่ามีการบรรจบกันอย่างไม่ถูกต้องชั่วคราว

ดูการหยุดก่อนกำหนดด้วย

ดูข้อมูลเพิ่มเติมได้ที่เส้นโค้งการบรรจบกันของโมเดลและการสูญเสีย ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

D

DataFrame

#fundamentals

ประเภทข้อมูล pandas ยอดนิยมสำหรับแสดงชุดข้อมูลในหน่วยความจำ

DataFrame มีลักษณะคล้ายกับตารางหรือสเปรดชีต แต่ละคอลัมน์ของ DataFrame มีชื่อ (ส่วนหัว) และแต่ละแถวจะระบุด้วยหมายเลขที่ไม่ซ้ำกัน

แต่ละคอลัมน์ใน DataFrame มีโครงสร้างเหมือนอาร์เรย์ 2 มิติ ยกเว้นว่า แต่ละคอลัมน์สามารถกำหนดประเภทข้อมูลของตัวเองได้

นอกจากนี้ โปรดดูหน้าข้อมูลอ้างอิง pandas.DataFrameอย่างเป็นทางการด้วย

ชุดข้อมูล

#fundamentals

ชุดข้อมูลดิบที่มักจะ (แต่ไม่เสมอไป) จัดระเบียบในรูปแบบใดรูปแบบหนึ่งต่อไปนี้

สเปรดชีต
ไฟล์ในรูปแบบ CSV (ค่าที่คั่นด้วยคอมมา)

โมเดลเชิงลึก

#fundamentals

โครงข่ายประสาทเทียมที่มีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 เลเยอร์

โมเดลแบบลึกเรียกอีกอย่างว่าโครงข่ายประสาทแบบลึก

เปรียบเทียบกับโมเดลแบบกว้าง

ฟีเจอร์หนาแน่น

#fundamentals

ฟีเจอร์ที่ค่าส่วนใหญ่หรือทั้งหมดไม่ใช่ศูนย์ โดยปกติจะเป็นเทนเซอร์ของค่าทศนิยม ตัวอย่างเช่น เทนเซอร์ 10 องค์ประกอบต่อไปนี้เป็นแบบหนาแน่นเนื่องจากค่า 9 ค่าเป็นค่าที่ไม่ใช่ 0

แตกต่างจากฟีเจอร์แบบกระจัดกระจาย

ความลึก

#fundamentals

ผลรวมของรายการต่อไปนี้ในโครงข่ายประสาทเทียม

จำนวนเลเยอร์ที่ซ่อนอยู่
จำนวนเลเยอร์เอาต์พุต ซึ่งโดยปกติคือ 1
จำนวนเลเยอร์การฝัง

เช่น โครงข่ายประสาทที่มีเลเยอร์ที่ซ่อนอยู่ 5 เลเยอร์และเลเยอร์เอาต์พุต 1 เลเยอร์ มีความลึกเท่ากับ 6

โปรดสังเกตว่าเลเยอร์อินพุตไม่มีผลต่อความลึก

ฟีเจอร์ที่ไม่ต่อเนื่อง

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้แบบจำกัด ตัวอย่างเช่น ฟีเจอร์ที่มีค่าเป็นได้เพียง animal, vegetable หรือ mineral คือฟีเจอร์ ไม่ต่อเนื่อง (หรือเชิงหมวดหมู่)

เปรียบเทียบกับฟีเจอร์ต่อเนื่อง

ไดนามิก

#fundamentals

สิ่งที่ทำบ่อยๆ หรืออย่างต่อเนื่อง คำว่าไดนามิกและออนไลน์มีความหมายเหมือนกันในแมชชีนเลิร์นนิง การใช้งาน dynamic และ online ที่พบบ่อยในแมชชีนเลิร์นนิงมีดังนี้

โมเดลแบบไดนามิก (หรือโมเดลออนไลน์) คือโมเดล ที่ได้รับการฝึกซ้ำบ่อยครั้งหรืออย่างต่อเนื่อง
การฝึกแบบไดนามิก (หรือการฝึกออนไลน์) คือกระบวนการฝึก อย่างต่อเนื่องหรือสม่ำเสมอ
การอนุมานแบบไดนามิก (หรือการอนุมานออนไลน์) คือกระบวนการ สร้างการคาดการณ์ตามต้องการ

โมเดลแบบไดนามิก

#fundamentals

โมเดลที่ได้รับการฝึกใหม่บ่อยครั้ง (อาจจะอย่างต่อเนื่องด้วย) โมเดลแบบไดนามิกคือ "ผู้เรียนรู้ตลอดชีวิต" ที่ ปรับตัวให้เข้ากับข้อมูลที่เปลี่ยนแปลงอยู่เสมอ โมเดลแบบไดนามิกเรียกอีกอย่างว่าโมเดลออนไลน์

แตกต่างจากโมเดลคงที่

E

การหยุดก่อนกำหนด

#fundamentals

วิธีการสำหรับการทำให้เป็นปกติที่เกี่ยวข้องกับการสิ้นสุดการฝึก ก่อนที่การลดลงของการฝึกจะสิ้นสุด การหยุดก่อนเวลาคือการหยุดฝึกโมเดลโดยตั้งใจ เมื่อการสูญเสียในชุดข้อมูลการตรวจสอบเริ่ม เพิ่มขึ้น นั่นคือเมื่อ การสรุปทั่วไปมีประสิทธิภาพแย่ลง

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

การหยุดก่อนกำหนดอาจดูขัดกับสัญชาตญาณ เพราะการบอกให้โมเดลหยุด การฝึกในขณะที่การสูญเสียยังคงลดลงอาจดูเหมือนการบอกให้เชฟ หยุดทำอาหารก่อนที่ของหวานจะอบเสร็จ อย่างไรก็ตาม การฝึกโมเดลนานเกินไปอาจทำให้เกิดการปรับมากเกินไป กล่าวคือ หากคุณฝึกโมเดลนานเกินไป โมเดลอาจปรับให้เข้ากับข้อมูลการฝึกมากเกินไปจนทำให้โมเดลคาดการณ์ตัวอย่างใหม่ได้ไม่ดี

แตกต่างจากการออกก่อนเวลา

เลเยอร์การฝัง

#fundamentals

เลเยอร์ที่ซ่อนอยู่พิเศษที่ฝึกในฟีเจอร์เชิงหมวดหมู่ที่มีมิติสูงเพื่อค่อยๆ เรียนรู้เวกเตอร์การฝังที่มีมิติต่ำกว่า เลเยอร์การฝังช่วยให้โครงข่ายประสาทเทียมฝึกได้อย่างมีประสิทธิภาพมากกว่าการฝึกเฉพาะฟีเจอร์เชิงหมวดหมู่ที่มีมิติสูง

ตัวอย่างเช่น ปัจจุบัน Earth รองรับต้นไม้ประมาณ 73,000 สายพันธุ์ สมมติว่า สายพันธุ์ต้นไม้เป็นฟีเจอร์ในโมเดลของคุณ ดังนั้นเลเยอร์ อินพุตของโมเดลจึงมีเวกเตอร์แบบ One-Hot ที่มีความยาว 73,000 องค์ประกอบ ตัวอย่างเช่น baobab อาจแสดงเป็น

อาร์เรย์ขององค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 รายการแรกมีค่า
0 องค์ประกอบถัดไปมีค่าเป็น 1 องค์ประกอบสุดท้าย 66,767 รายการมีค่าเป็น 0

อาร์เรย์ที่มีองค์ประกอบ 73,000 รายการถือว่ายาวมาก หากคุณไม่เพิ่มเลเยอร์การฝัง ลงในโมเดล การฝึกจะใช้เวลานานมากเนื่องจาก การคูณด้วย 0 จำนวน 72,999 ตัว คุณอาจเลือกเลเยอร์การฝังให้ประกอบด้วยมิติข้อมูล 12 มิติ ดังนั้น เลเยอร์การฝังจะค่อยๆ เรียนรู้ เวกเตอร์การฝังใหม่สำหรับต้นไม้แต่ละสายพันธุ์

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผล แทนเลเยอร์การฝัง

ดูข้อมูลเพิ่มเติมได้ที่การฝัง ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Epoch

#fundamentals

การส่งผ่านการฝึกแบบเต็มทั้งชุดการฝึก เพื่อให้ระบบประมวลผลตัวอย่างแต่ละรายการ 1 ครั้ง

Epoch แสดงถึงN/ขนาดกลุ่ม การวนซ้ำในการฝึก โดย N คือ จํานวนตัวอย่างทั้งหมด

เช่น สมมติว่ามีข้อมูลต่อไปนี้

ชุดข้อมูลประกอบด้วยตัวอย่าง 1,000 รายการ
ขนาดกลุ่มคือ 50 ตัวอย่าง

ดังนั้น 1 Epoch จึงต้องมีการวนซ้ำ 20 ครั้ง

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

ตัวอย่าง

#fundamentals

ค่าของแถวหนึ่งของ features และอาจมี label ตัวอย่างในการเรียนรู้แบบมีผู้ดูแลแบ่งออกเป็น 2 หมวดหมู่ ทั่วไป ดังนี้

ตัวอย่างที่มีป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ และป้ายกำกับ ระบบจะใช้ตัวอย่างที่มีป้ายกำกับในระหว่างการฝึก
ตัวอย่างที่ไม่มีป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการแต่ไม่มีป้ายกำกับ ระบบจะใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการอนุมาน

เช่น สมมติว่าคุณกำลังฝึกโมเดลเพื่อพิจารณาอิทธิพล ของสภาพอากาศต่อคะแนนสอบของนักเรียน ตัวอย่างที่มีป้ายกำกับ 3 รายการมีดังนี้

ฟีเจอร์			ป้ายกำกับ
อุณหภูมิ	ความชื้น	ความกดอากาศ	คะแนนสอบ
15	47	998	ดี
19	34	1020	ดีมาก
18	92	1012	แย่

ตัวอย่างที่ไม่มีป้ายกำกับ 3 รายการมีดังนี้

อุณหภูมิ	ความชื้น	ความกดอากาศ
12	62	1014
21	47	1017
19	41	1021

โดยปกติแล้ว แถวของชุดข้อมูลจะเป็นแหล่งที่มาดิบสำหรับตัวอย่าง กล่าวคือ โดยปกติแล้ว ตัวอย่างจะประกอบด้วยชุดย่อยของคอลัมน์ในชุดข้อมูล นอกจากนี้ ฟีเจอร์ในตัวอย่างยังอาจรวมถึงฟีเจอร์สังเคราะห์ เช่น การรวมฟีเจอร์

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบมีผู้ดูแลใน หลักสูตรข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

F

ผลลบลวง (FN)

#fundamentals

#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบผิดพลาด เช่น โมเดล คาดการณ์ว่าข้อความอีเมลหนึ่งไม่ใช่จดหมายขยะ (คลาสเชิงลบ) แต่ข้อความอีเมลนั้นเป็นจดหมายขยะจริง

ผลบวกลวง (FP)

#fundamentals

#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงบวกอย่างไม่ถูกต้อง เช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ (คลาสบวก) แต่ข้อความอีเมลนั้นไม่ใช่จดหมายขยะ

อัตราผลบวกลวง (FPR)

#fundamentals

#Metric

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลคาดการณ์คลาสเชิงบวกผิดพลาด สูตรต่อไปนี้ใช้ในการคำนวณอัตราผลบวกลวง

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

อัตราผลบวกลวงคือแกน x ในกราฟ ROC

ฟีเจอร์

#fundamentals

ตัวแปรอินพุตของโมเดลแมชชีนเลิร์นนิง ตัวอย่าง ประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ ตัวอย่างเช่น สมมติว่าคุณกำลังฝึกโมเดลเพื่อพิจารณาอิทธิพลของสภาพอากาศต่อคะแนนสอบของนักเรียน ตารางต่อไปนี้แสดงตัวอย่าง 3 รายการ ซึ่งแต่ละรายการมีฟีเจอร์ 3 รายการและป้ายกำกับ 1 รายการ

ฟีเจอร์			ป้ายกำกับ
อุณหภูมิ	ความชื้น	ความกดอากาศ	คะแนนสอบ
15	47	998	92
19	34	1020	84
18	92	1012	87

คอนทราสต์กับป้ายกำกับ

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบมีผู้สอน ในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

ฟีเจอร์ข้าม

#fundamentals

ฟีเจอร์สังเคราะห์ที่เกิดจากการ "ครอส" ฟีเจอร์เชิงหมวดหมู่หรือแบบจัดกลุ่ม

ตัวอย่างเช่น ลองพิจารณารูปแบบ "การพยากรณ์อารมณ์" ที่แสดง อุณหภูมิในกลุ่มใดกลุ่มหนึ่งต่อไปนี้

freezing
chilly
temperate
warm

และแสดงความเร็วลมในกลุ่มใดกลุ่มหนึ่งต่อไปนี้

still
light
windy

หากไม่มีฟีเจอร์ครอส โมเดลเชิงเส้นจะฝึกแยกกันในแต่ละกลุ่มต่างๆ 7 กลุ่มก่อนหน้า ดังนั้น โมเดลจะฝึกใน เช่น freezing โดยไม่ขึ้นอยู่กับการฝึกใน เช่น windy

หรือจะสร้างฟีเจอร์ครอสของอุณหภูมิและ ความเร็วลมก็ได้ ฟีเจอร์สังเคราะห์นี้จะมีค่าที่เป็นไปได้ 12 ค่าดังนี้

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

การรวมฟีเจอร์ช่วยให้โมเดลเรียนรู้ความแตกต่างของอารมณ์ ระหว่างfreezing-windyวันที่มีฝนตกfreezing-stillกับวันที่ไม่มีฝนตกได้

หากคุณสร้างฟีเจอร์สังเคราะห์จาก 2 ฟีเจอร์ที่มีกลุ่มต่างๆ จำนวนมาก การครอสฟีเจอร์ที่ได้จะมีชุดค่าผสมที่เป็นไปได้จำนวนมาก เช่น หากฟีเจอร์หนึ่งมี 1,000 กลุ่ม และอีกฟีเจอร์หนึ่งมี 2,000 กลุ่ม ฟีเจอร์ครอสที่ได้จะมี 2,000,000 กลุ่ม

ในทางคณิตศาสตร์ ครอสคือผลคูณคาร์ทีเซียน

โดยส่วนใหญ่แล้ว Feature Cross จะใช้กับโมเดลเชิงเส้นและไม่ค่อยได้ใช้กับ โครงข่ายประสาทเทียม

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงหมวดหมู่: การรวมฟีเจอร์ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Feature Engineering

#fundamentals

#TensorFlow

กระบวนการที่มีขั้นตอนต่อไปนี้

การพิจารณาว่าฟีเจอร์ใดบ้างที่อาจมีประโยชน์ ในการฝึกโมเดล
การแปลงข้อมูลดิบจากชุดข้อมูลเป็นฟีเจอร์เวอร์ชันที่มีประสิทธิภาพ

เช่น คุณอาจพิจารณาว่า temperature อาจเป็นฟีเจอร์ที่มีประโยชน์ จากนั้นคุณอาจทดลองใช้การจัดกลุ่ม เพื่อเพิ่มประสิทธิภาพสิ่งที่โมเดลสามารถเรียนรู้จากtemperatureช่วงต่างๆ ได้

บางครั้งเราเรียกการปรับแต่งฟีเจอร์ว่า การดึงฟีเจอร์หรือ การสร้างฟีเจอร์

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติมเกี่ยวกับ TensorFlow

ใน TensorFlow การปรับแต่งฟีเจอร์มักหมายถึงการแปลงรายการไฟล์บันทึกดิบ เป็นบัฟเฟอร์โปรโตคอล tf.Example ดูเพิ่มเติมที่ tf.Transform

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงตัวเลข: วิธีที่โมเดลรับข้อมูลโดยใช้เวกเตอร์ฟีเจอร์ ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

ชุดฟีเจอร์

#fundamentals

กลุ่มฟีเจอร์ที่โมเดลแมชชีนเลิร์นนิงของคุณใช้ฝึก ตัวอย่างเช่น ชุดฟีเจอร์ที่เรียบง่ายสำหรับโมเดลที่คาดการณ์ราคาที่อยู่อาศัย อาจประกอบด้วยรหัสไปรษณีย์ ขนาดของที่พัก และสภาพของที่พัก

เวกเตอร์ฟีเจอร์

#fundamentals

อาร์เรย์ของค่า feature ที่ประกอบกันเป็น example เวกเตอร์ฟีเจอร์เป็นอินพุตระหว่างการฝึกและระหว่างการอนุมาน เช่น เวกเตอร์ฟีเจอร์สําหรับโมเดลที่มีฟีเจอร์แยกกัน 2 รายการ อาจเป็นดังนี้

[0.92, 0.56]

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์
เลเยอร์อินพุตมี 2 โหนด โดยโหนดหนึ่งมีค่า 0.92 และอีกโหนดหนึ่งมีค่า 0.56

ตัวอย่างแต่ละรายการจะให้ค่าที่แตกต่างกันสำหรับเวกเตอร์ฟีเจอร์ ดังนั้น เวกเตอร์ฟีเจอร์สำหรับตัวอย่างถัดไปอาจมีลักษณะดังนี้

[0.73, 0.49]

การออกแบบฟีเจอร์จะกำหนดวิธีแสดงฟีเจอร์ในเวกเตอร์ฟีเจอร์ เช่น ฟีเจอร์เชิงหมวดหมู่แบบไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าอาจแสดงด้วยการเข้ารหัสแบบ One-Hot ในกรณีนี้ ส่วนของเวกเตอร์ฟีเจอร์สำหรับตัวอย่างหนึ่งๆ จะประกอบด้วยเลข 0 จำนวน 4 ตัวและเลข 1.0 ตัวเดียวในตำแหน่งที่ 3 ดังนี้

[0.0, 0.0, 1.0, 0.0, 0.0]

อีกตัวอย่างหนึ่ง สมมติว่าโมเดลของคุณประกอบด้วยฟีเจอร์ 3 อย่าง

ฟีเจอร์เชิงหมวดหมู่แบบไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าซึ่งแสดงด้วย การเข้ารหัสแบบ One-Hot เช่น [0.0, 1.0, 0.0, 0.0, 0.0]
ฟีเจอร์เชิงหมวดหมู่แบบไบนารีอีกรายการที่มีค่าที่เป็นไปได้3 ค่า ซึ่งแสดงด้วยการเข้ารหัสแบบ One-hot เช่น [0.0, 0.0, 1.0]
ฟีเจอร์จุดลอยตัว เช่น 8.3

ในกรณีนี้ เวกเตอร์ฟีเจอร์สำหรับแต่ละตัวอย่างจะแสดงด้วยค่า9 ค่า จากค่าตัวอย่างในรายการก่อนหน้า เวกเตอร์ฟีเจอร์จะเป็นดังนี้

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

วงจรความคิดเห็น

#fundamentals

ในแมชชีนเลิร์นนิง สถานการณ์ที่การคาดการณ์ของโมเดลมีอิทธิพลต่อ ข้อมูลการฝึกของโมเดลเดียวกันหรือโมเดลอื่น ตัวอย่างเช่น โมเดลที่ แนะนำภาพยนตร์จะส่งผลต่อภาพยนตร์ที่ผู้คนเห็น ซึ่งจะ ส่งผลต่อโมเดลการแนะนำภาพยนตร์ในภายหลัง

ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML ในเวอร์ชันที่ใช้งานจริง: คำถามที่ต้องถาม ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

G

การสรุป

#fundamentals

ความสามารถของโมเดลในการคาดการณ์ข้อมูลใหม่ที่ไม่เคยเห็นมาก่อนได้อย่างถูกต้อง โมเดลที่สามารถสรุปได้จะตรงกันข้ามกับโมเดลที่โอเวอร์ฟิต

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

คุณฝึกโมเดลจากตัวอย่างในชุดการฝึก ด้วยเหตุนี้ โมเดลจึงเรียนรู้ลักษณะเฉพาะของข้อมูลในชุดการฝึก การสรุป โดยพื้นฐานแล้วจะถามว่าโมเดลของคุณสามารถคาดการณ์ตัวอย่างได้ดีหรือไม่ ซึ่งไม่ได้อยู่ในชุดการฝึก

การปรับค่าปกติช่วยให้โมเดลฝึกได้ไม่ตรงกับลักษณะเฉพาะของข้อมูลในชุดการฝึกมากนัก เพื่อส่งเสริมการสรุปทั่วไป

ดูข้อมูลเพิ่มเติมได้ที่การสรุปทั่วไป ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เส้นโค้งการสรุป

#fundamentals

พล็อตของทั้งการสูญเสียการฝึกและ การสูญเสียการตรวจสอบเป็นฟังก์ชันของจำนวนการทำซ้ำ

เส้นโค้งการสรุปทั่วไปช่วยให้คุณตรวจพบการปรับมากเกินไปที่อาจเกิดขึ้นได้ ตัวอย่างเช่น เส้นโค้งการสรุปทั่วไปต่อไปนี้ แสดงให้เห็นว่าเกิดการปรับมากเกินไปเนื่องจากความสูญเสียในการตรวจสอบ ในท้ายที่สุดจะสูงกว่าความสูญเสียในการฝึกอย่างมาก

กราฟคาร์ทีเซียนซึ่งแกน Y มีป้ายกำกับว่าการสูญเสีย และแกน X
มีป้ายกำกับว่าการทำซ้ำ โดยจะปรากฏพล็อต 2 รายการ โดยกราฟหนึ่งแสดง
การสูญเสียการฝึก และอีกกราฟแสดงการสูญเสียการตรวจสอบ
พล็อตทั้ง 2 เริ่มต้นคล้ายกัน แต่ในที่สุด Loss ของการฝึกก็จะ
ลดลงต่ำกว่า Loss ของการตรวจสอบอย่างมาก

การไล่ระดับความชัน

#fundamentals

เทคนิคทางคณิตศาสตร์เพื่อลดการสูญเสีย การไล่ระดับความชันจะปรับน้ำหนักและอคติซ้ำๆ เพื่อค่อยๆ ค้นหาการผสมผสานที่ดีที่สุดเพื่อลดการสูญเสีย

การไล่ระดับความชันมีมานานกว่าแมชชีนเลิร์นนิงมาก

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: การไล่ระดับสี ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

ข้อมูลจากการสังเกตการณ์โดยตรง

#fundamentals

เรียลลิตี้

สิ่งที่เกิดขึ้นจริง

ตัวอย่างเช่น ลองพิจารณาการแยกประเภทแบบไบนารี ที่คาดการณ์ว่านักศึกษาปี 1 จะสำเร็จการศึกษาภายใน 6 ปีหรือไม่ ข้อมูลจากการสังเกตการณ์โดยตรงสำหรับโมเดลนี้คือการที่นักเรียน คนนั้นจบการศึกษาภายใน 6 ปีหรือไม่

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เราประเมินคุณภาพโมเดลเทียบกับข้อมูลจากการสังเกตการณ์โดยตรง อย่างไรก็ตาม ความจริงภาคพื้น อาจไม่เป็นความจริงเสมอไป ตัวอย่างเช่น ลองพิจารณา ตัวอย่างต่อไปนี้ของข้อบกพร่องที่อาจเกิดขึ้นในความจริงพื้นฐาน

ในตัวอย่างการสำเร็จการศึกษา เราแน่ใจไหมว่าบันทึกการสำเร็จการศึกษา ของนักเรียนแต่ละคนถูกต้องเสมอ มหาวิทยาลัยมี การเก็บบันทึกที่สมบูรณ์แบบไหม
สมมติว่าป้ายกำกับเป็นค่าทศนิยมที่วัดโดยเครื่องมือ (เช่น บารอมิเตอร์) เราจะมั่นใจได้อย่างไรว่าเครื่องมือแต่ละชิ้น ได้รับการปรับเทียบเหมือนกัน หรือการอ่านค่าแต่ละครั้งเกิดขึ้นภายใต้สถานการณ์เดียวกัน
หากป้ายกำกับเป็นเรื่องของความคิดเห็นของมนุษย์ เราจะมั่นใจได้อย่างไรว่าผู้ให้คะแนนแต่ละคนจะประเมินเหตุการณ์ในลักษณะเดียวกัน ผู้เชี่ยวชาญที่เป็นเจ้าหน้าที่อาจเข้ามาแทรกแซงในบางครั้งเพื่อปรับปรุงความสอดคล้อง

H

เลเยอร์ที่ซ่อนอยู่

#fundamentals

เลเยอร์ในโครงข่ายประสาทเทียมระหว่างเลเยอร์อินพุต (ฟีเจอร์) กับเลเยอร์เอาต์พุต (การคาดการณ์) เลเยอร์ที่ซ่อนแต่ละเลเยอร์ประกอบด้วยนิวรอนอย่างน้อย 1 ตัว ตัวอย่างเช่น เครือข่ายประสาทต่อไปนี้มีเลเยอร์ที่ซ่อนไว้ 2 เลเยอร์ เลเยอร์แรกมี 3 นิวรอน และเลเยอร์ที่ 2 มี 2 นิวรอน

โครงข่ายประสาทแบบลึกมีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 เลเยอร์ ตัวอย่างเช่น ภาพประกอบก่อนหน้าเป็นเครือข่ายประสาทเทียมแบบลึกเนื่องจากโมเดลมีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์

ดูข้อมูลเพิ่มเติมได้ที่โครงข่ายประสาท: โหนดและเลเยอร์ที่ซ่อนอยู่ ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

ไฮเปอร์พารามิเตอร์

#fundamentals

ตัวแปรที่คุณหรือบริการปรับไฮเปอร์พารามิเตอร์ ปรับในระหว่างการเรียกใช้การฝึกโมเดลที่ต่อเนื่อง ตัวอย่างเช่น อัตราการเรียนรู้เป็นไฮเปอร์พารามิเตอร์ คุณอาจ ตั้งค่าอัตราการเรียนรู้เป็น 0.01 ก่อนเซสชันการฝึก 1 ครั้ง หากพิจารณาแล้วว่า 0.01 สูงเกินไป คุณอาจตั้งค่าอัตราการเรียนรู้เป็น 0.003 สำหรับเซสชันการฝึกครั้งถัดไป

ในทางตรงกันข้าม พารามิเตอร์คือน้ำหนักและอคติต่างๆ ที่โมเดลเรียนรู้ระหว่างการฝึก

I

มีการแจกแจงแบบอิสระและเหมือนกัน (i.i.d)

#fundamentals

ข้อมูลที่ดึงมาจากการกระจายที่ไม่เปลี่ยนแปลง และค่าแต่ละค่า ที่ดึงมาจะไม่ขึ้นอยู่กับค่าที่ดึงมาก่อนหน้านี้ ข้อมูล i.i.d. คือก๊าซในอุดมคติ ของแมชชีนเลิร์นนิง ซึ่งเป็นโครงสร้างทางคณิตศาสตร์ที่มีประโยชน์ แต่แทบจะไม่พบในโลกแห่งความเป็นจริง ตัวอย่างเช่น การกระจายของผู้เข้าชมหน้าเว็บ อาจเป็นแบบ i.i.d. ในช่วงเวลาสั้นๆ นั่นคือ การกระจายจะไม่ เปลี่ยนแปลงในช่วงเวลาสั้นๆ นั้น และโดยทั่วไปแล้วการเข้าชมของบุคคลหนึ่งจะ ไม่ขึ้นอยู่กับการเข้าชมของอีกบุคคลหนึ่ง อย่างไรก็ตาม หากคุณขยายกรอบเวลาดังกล่าว ความแตกต่างตามฤดูกาลของผู้เข้าชมหน้าเว็บอาจปรากฏขึ้น

ดูความไม่คงที่ด้วย

การอนุมาน

#fundamentals

#generativeAI

ในแมชชีนเลิร์นนิงแบบเดิม กระบวนการคาดการณ์จะทำโดย การใช้โมเดลที่ฝึกแล้วกับตัวอย่างที่ไม่ได้ติดป้ายกำกับ ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบมีผู้ดูแลในหลักสูตร Intro to ML

ในโมเดลภาษาขนาดใหญ่ การอนุมานคือ กระบวนการใช้โมเดลที่ฝึกแล้วเพื่อสร้างคำตอบ สำหรับพรอมต์ที่ป้อน

การอนุมานมีความหมายที่แตกต่างออกไปเล็กน้อยในสถิติ ดูรายละเอียดได้ใน บทความเกี่ยวกับอนุมานทางสถิติใน Wikipedia

เลเยอร์อินพุต

#fundamentals

เลเยอร์ของโครงข่ายระบบประสาทเทียมที่ เก็บเวกเตอร์ฟีเจอร์ กล่าวคือ เลเยอร์อินพุต มีตัวอย่างสำหรับการฝึกหรือ การอนุมาน ตัวอย่างเช่น เลเยอร์อินพุตใน โครงข่ายประสาทเทียมต่อไปนี้ประกอบด้วยฟีเจอร์ 2 รายการ

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต

ความสามารถในการตีความ

#fundamentals

ความสามารถในการอธิบายหรือนำเสนอการให้เหตุผลของโมเดล ML ใน รูปแบบที่มนุษย์เข้าใจได้

เช่น โมเดลการถดถอยเชิงเส้นส่วนใหญ่สามารถตีความได้สูง (คุณเพียงแค่ต้องดูน้ำหนักที่ฝึกแล้วสำหรับแต่ละฟีเจอร์) นอกจากนี้ ฟอเรสต์การตัดสินใจยังตีความได้สูงอีกด้วย อย่างไรก็ตาม โมเดลบางอย่าง ต้องใช้การแสดงภาพที่ซับซ้อนจึงจะตีความได้

คุณสามารถใช้ เครื่องมือการตีความการเรียนรู้ (LIT) เพื่อตีความโมเดล ML

การทำซ้ำ

#fundamentals

การอัปเดตพารามิเตอร์ของโมเดลเพียงครั้งเดียว ซึ่งก็คือน้ำหนักและอคติของโมเดลระหว่างการฝึก ขนาดกลุ่มจะกำหนด จำนวนตัวอย่างที่โมเดลประมวลผลในการทำซ้ำครั้งเดียว เช่น หากขนาดกลุ่มคือ 20 โมเดลจะประมวลผลตัวอย่าง 20 รายการก่อน ปรับพารามิเตอร์

เมื่อฝึกโครงข่ายระบบประสาทเทียม การทำซ้ำครั้งเดียว จะเกี่ยวข้องกับการส่งผ่าน 2 ครั้งต่อไปนี้

การส่งต่อเพื่อประเมินการสูญเสียในกลุ่มเดียว
การส่งผ่านย้อนกลับ (การแพร่กระจายย้อนกลับ) เพื่อปรับ พารามิเตอร์ของโมเดลตามการสูญเสียและอัตราการเรียนรู้

ดูข้อมูลเพิ่มเติมได้ที่การไล่ระดับสี ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

L

Regularization แบบ L₀

#fundamentals

การทำให้เป็นปกติประเภทหนึ่งที่ ลงโทษจำนวนทั้งหมดของน้ำหนักที่ไม่ใช่ศูนย์ ในโมเดล เช่น โมเดลที่มีน้ำหนักที่ไม่ใช่ 0 จำนวน 11 รายการ จะถูกลงโทษมากกว่าโมเดลที่คล้ายกันซึ่งมีน้ำหนักที่ไม่ใช่ 0 จำนวน 10 รายการ

บางครั้งเราเรียก Regularization แบบ L₀ ว่า Regularization แบบ L0-norm

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

โดยทั่วไปแล้ว การปรับ L₀ ให้เป็นปกติในโมเดลขนาดใหญ่นั้นไม่สามารถทำได้เนื่องจาก การปรับ L₀ ให้เป็นปกติจะเปลี่ยนการฝึกให้เป็นปัญหาการเพิ่มประสิทธิภาพแบบนูน

แพ้ ₁ นัด

#fundamentals

#Metric

ฟังก์ชันการสูญเสียที่คำนวณค่าสัมบูรณ์ของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น ต่อไปนี้คือการคำนวณการสูญเสีย L₁ สำหรับกลุ่มของตัวอย่าง 5 รายการ

มูลค่าที่แท้จริงของตัวอย่าง	ค่าที่โมเดลคาดการณ์	ค่าสัมบูรณ์ของเดลต้า
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = การสูญเสีย L₁

การสูญเสีย L₁ มีความไวต่อค่าผิดปกติน้อยกว่าการสูญเสีย L₂

ค่าเฉลี่ยความผิดพลาดสัมบูรณ์คือการสูญเสีย _L1 โดยเฉลี่ยต่อตัวอย่าง

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

where:

$n$ คือจำนวนตัวอย่าง
$y$ คือค่าจริงของป้ายกำกับ
$\hat{y}$ คือค่าที่โมเดลคาดการณ์สำหรับ $y$

ดูข้อมูลเพิ่มเติมได้ที่ การถดถอยเชิงเส้น: การสูญเสีย ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

Regularization แบบ L₁

#fundamentals

การทำให้เป็นปกติประเภทหนึ่งที่ลงโทษน้ำหนักตามสัดส่วนของผลรวมค่าสัมบูรณ์ของน้ำหนัก การปรับค่า L₁ ช่วยให้ค่าถ่วงน้ำหนักของฟีเจอร์ที่ไม่เกี่ยวข้อง หรือแทบไม่เกี่ยวข้องกลายเป็น 0 อย่างแน่นอน ฟีเจอร์ที่มีน้ำหนักเป็น 0 จะถูกนำออกจากโมเดล

เปรียบเทียบกับ L₂ Regularization

การสูญเสีย L₂

#fundamentals

#Metric

ฟังก์ชันการสูญเสียที่คำนวณกำลังสอง ของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น ต่อไปนี้คือการคำนวณการสูญเสีย L₂ สำหรับกลุ่มของตัวอย่าง 5 รายการ

มูลค่าที่แท้จริงของตัวอย่าง	ค่าที่โมเดลคาดการณ์	สี่เหลี่ยมของเดลต้า
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ loss

เนื่องจากการยกกำลังสอง การสูญเสีย L₂ จึงขยายอิทธิพลของค่าผิดปกติ กล่าวคือ การสูญเสีย L₂ จะตอบสนองต่อการคาดการณ์ที่ไม่ดีมากกว่าการสูญเสีย L₁ เช่น การสูญเสีย L₁ สำหรับกลุ่มก่อนหน้าจะเป็น 8 แทนที่จะเป็น 16 โปรดสังเกตว่าบัญชีที่ผิดปกติเพียงบัญชีเดียวคิดเป็น 9 จาก 16 รายการ

โมเดลการถดถอยมักใช้ Loss L₂ เป็น Loss Function

ความคลาดเคลื่อนเฉลี่ยกำลังสองคือค่าเฉลี่ยของ การสูญเสีย L₂ ต่อตัวอย่าง ความสูญเสียกำลังสองเป็นอีกชื่อหนึ่งของความสูญเสีย L₂

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

where:

$n$ คือจำนวนตัวอย่าง
$y$ คือค่าจริงของป้ายกำกับ
$\hat{y}$ คือค่าที่โมเดลคาดการณ์สำหรับ $y$

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยโลจิสติก: การสูญเสียและ การทำให้เป็นปกติ ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

การทำ Regularization แบบ L₂

#fundamentals

การทำให้เป็นมาตรฐานประเภทหนึ่งที่ลงโทษน้ำหนักตามสัดส่วนของผลรวมของกำลังสองของน้ำหนัก การปรับค่า L₂ ช่วยให้ค่าน้ำหนักค่าผิดปกติ (ค่าที่มีค่าบวกสูงหรือค่าลบต่ำ) เข้าใกล้ 0 มากขึ้น แต่ไม่ถึง 0 ฟีเจอร์ที่มีค่าใกล้ 0 มากจะยังคงอยู่ในโมเดล แต่จะไม่ส่งผลต่อการคาดการณ์ของโมเดลมากนัก

การทำให้เป็นมาตรฐาน L₂ จะปรับปรุงการสรุปในโมเดลเชิงเส้นเสมอ

เปรียบเทียบกับ L₁ Regularization

ดูข้อมูลเพิ่มเติมได้ที่การปรับมากเกินไป: การปรับ L2 ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ป้ายกำกับ

#fundamentals

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล ส่วน "คำตอบ" หรือ "ผลลัพธ์" ของตัวอย่าง

ตัวอย่างที่ติดป้ายกำกับแต่ละรายการประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างเช่น ในชุดข้อมูลการตรวจหาสแปม ป้ายกำกับน่าจะเป็น "สแปม" หรือ "ไม่ใช่สแปม" ในชุดข้อมูลปริมาณน้ำฝน ป้ายกำกับอาจเป็นปริมาณ น้ำฝนที่ตกลงมาในช่วงระยะเวลาหนึ่ง

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบมีผู้ดูแล ในข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

ตัวอย่างที่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่างที่ติดป้ายกำกับ 3 รายการจากโมเดลการประเมินบ้าน โดยแต่ละรายการมีฟีเจอร์ 3 รายการและป้ายกำกับ 1 รายการ

จำนวนห้องนอน	จำนวนห้องน้ำ	อายุบ้าน	ราคาบ้าน (ป้ายกำกับ)
3	2	15	$345,000
2	1	72	$179,000
4	2	34	$392,000

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกกับตัวอย่างที่ติดป้ายกำกับและทำการคาดการณ์กับ ตัวอย่างที่ไม่มีป้ายกำกับ

เปรียบเทียบตัวอย่างที่มีป้ายกำกับกับตัวอย่างที่ไม่มีป้ายกำกับ

lambda

#fundamentals

คำพ้องความหมายของอัตราการปรับ

Lambda เป็นคำที่มีการใช้งานมากเกินไป ในที่นี้เราจะมุ่งเน้นที่คำจำกัดความของคำว่า การทำให้เป็นปกติ

เลเยอร์

#fundamentals

ชุดนิวรอนในโครงข่ายระบบประสาทเทียม เลเยอร์ 3 ประเภทที่ใช้กันทั่วไป มีดังนี้

เลเยอร์อินพุต ซึ่งให้ค่าสำหรับฟีเจอร์ทั้งหมด
เลเยอร์ที่ซ่อนอย่างน้อย 1 เลเยอร์ ซึ่งจะค้นหา ความสัมพันธ์แบบไม่เชิงเส้นระหว่างฟีเจอร์กับป้ายกำกับ
เลเยอร์เอาต์พุตซึ่งให้การคาดการณ์

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโครงข่ายประสาทเทียมที่มีเลเยอร์อินพุต 1 เลเยอร์ เลเยอร์ที่ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์

โครงข่ายประสาทที่มีเลเยอร์อินพุต 1 เลเยอร์ เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์ เลเยอร์อินพุตประกอบด้วยฟีเจอร์ 2 รายการ เลเยอร์ที่ซ่อนเลเยอร์แรกประกอบด้วยนิวรอน 3 ตัว และเลเยอร์ที่ซ่อนเลเยอร์ที่ 2 ประกอบด้วยนิวรอน 2 ตัว เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

ใน TensorFlow เลเยอร์ยังเป็นฟังก์ชัน Python ที่รับTensor และตัวเลือกการกำหนดค่าเป็นอินพุต และสร้าง Tensor อื่นๆ เป็นเอาต์พุต

อัตราการเรียนรู้

#fundamentals

จำนวนลอยตัวที่บอกอัลกอริทึมการไล่ระดับสี ว่าควรปรับน้ำหนักและอคติในแต่ละการทำซ้ำมากน้อยเพียงใด ตัวอย่างเช่น อัตราการเรียนรู้ที่ 0.3 จะปรับน้ำหนักและอคติได้แรงกว่าอัตราการเรียนรู้ที่ 0.1 ถึง 3 เท่า

อัตราการเรียนรู้เป็นไฮเปอร์พารามิเตอร์ที่สำคัญ หากตั้งค่า อัตราการเรียนรู้ต่ำเกินไป การฝึกจะใช้เวลานานเกินไป หาก คุณตั้งค่าอัตราการเรียนรู้สูงเกินไป การไล่ระดับการไล่ระดับมักมีปัญหาในการ เข้าถึงการบรรจบกัน

คลิกไอคอนเพื่อดูคำอธิบายทางคณิตศาสตร์เพิ่มเติม

ในแต่ละการทำซ้ำ อัลกอริทึม การไล่ระดับการไล่ระดับ จะคูณ อัตราการเรียนรู้ด้วยการไล่ระดับ ผลิตภัณฑ์ที่ได้จะเรียกว่าขั้นการไล่ระดับสี

เชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปซึ่งแสดงได้โดยการบวกและการคูณเท่านั้น

พล็อตของความสัมพันธ์เชิงเส้นคือเส้นตรง

แตกต่างจากไม่ปรากฏร่วมกับเนื้อหา

รูปแบบเชิงเส้น

#fundamentals

โมเดลที่กำหนดน้ำหนัก 1 รายการต่อฟีเจอร์เพื่อทำการคาดการณ์ (รูปแบบเชิงเส้นยังรวมอคติด้วย) ในทางตรงกันข้าม ความสัมพันธ์ของฟีเจอร์กับการคาดการณ์ในโมเดลแบบลึก โดยทั่วไปแล้วจะเป็นแบบไม่เชิงเส้น

โดยปกติแล้ว โมเดลเชิงเส้นจะฝึกได้ง่ายกว่าและตีความได้มากกว่าโมเดลเชิงลึก อย่างไรก็ตาม โมเดลเชิงลึกสามารถเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างฟีเจอร์ต่างๆ ได้

การถดถอยเชิงเส้นและ การถดถอยโลจิสติกเป็นโมเดลเชิงเส้น 2 ประเภท

คลิกไอคอนเพื่อดูคณิตศาสตร์

รูปแบบเชิงเส้นมีสูตรดังนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

where:

y' คือการคาดการณ์ดิบ (ในโมเดลเชิงเส้นบางประเภท ระบบจะแก้ไขการคาดการณ์ดิบนี้เพิ่มเติม เช่น ดู การถดถอยแบบโลจิสติก)
b คือค่าอคติ
w คือน้ำหนัก ดังนั้น w₁ คือ น้ำหนักของฟีเจอร์แรก, w₂ คือน้ำหนักของ ฟีเจอร์ที่ 2 และอื่นๆ
x คือฟีเจอร์ ดังนั้น x₁ คือ ค่าของฟีเจอร์แรก, x₂ คือค่าของฟีเจอร์ที่ 2 และอื่นๆ

ตัวอย่างเช่น สมมติว่ารูปแบบเชิงเส้นสำหรับฟีเจอร์ 3 รายการเรียนรู้ค่าต่อไปนี้ อคติและน้ำหนัก

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

ดังนั้น เมื่อพิจารณาฟีเจอร์ 3 อย่าง (x₁, x₂ และ x₃) โมเดลเชิงเส้นจะใช้สมการต่อไปนี้ เพื่อสร้างการคาดการณ์แต่ละรายการ

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

สมมติว่าตัวอย่างหนึ่งมีค่าต่อไปนี้

x₁ = 4
x₂ = -10
x₃ = 5

การป้อนค่าเหล่านั้นลงในสูตรจะให้ค่าการคาดการณ์สำหรับตัวอย่างนี้

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

แบบจำลองเชิงเส้นไม่เพียงรวมถึงแบบจำลองที่ใช้สมการเชิงเส้นเท่านั้นในการคาดการณ์ แต่ยังรวมถึงชุดแบบจำลองที่กว้างขึ้นซึ่งใช้สมการเชิงเส้นเป็นเพียงองค์ประกอบหนึ่งของสูตรที่ทำการคาดการณ์ ตัวอย่างเช่น การถดถอยโลจิสติกจะประมวลผลภายหลังการคาดการณ์ดิบ (y') เพื่อสร้างค่าการคาดการณ์สุดท้ายระหว่าง 0 ถึง 1 โดยเฉพาะ

การถดถอยเชิงเส้น

#fundamentals

โมเดลแมชชีนเลิร์นนิงประเภทหนึ่งซึ่งมีลักษณะดังต่อไปนี้

โมเดลนี้เป็นโมเดลเชิงเส้น
การคาดการณ์เป็นค่าทศนิยม (นี่คือส่วนการถดถอยของการถดถอยเชิงเส้น)

เปรียบเทียบการถดถอยเชิงเส้นกับการถดถอยแบบโลจิสติก นอกจากนี้ ให้เปรียบเทียบการถดถอยกับการจัดประเภทด้วย

การถดถอยแบบโลจิสติก

#fundamentals

โมเดลการถดถอยประเภทหนึ่งที่คาดการณ์ความน่าจะเป็น โมเดลการถดถอยลอจิสติกมีลักษณะดังนี้

ป้ายกำกับเป็นเชิงหมวดหมู่ โดยปกติแล้วคำว่าการถดถอยโลจิสติกจะหมายถึงการถดถอยโลจิสติกแบบไบนารี ซึ่งก็คือ โมเดลที่คำนวณความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้ 2 ค่า การถดถอยโลจิสติกแบบมัลติโนเมียล ซึ่งเป็นรูปแบบที่พบได้น้อยกว่า จะคำนวณ ความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า
ฟังก์ชันการสูญเสียระหว่างการฝึกคือLog Loss (วางหน่วย Log Loss หลายหน่วยแบบขนานกันสําหรับป้ายกํากับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่าได้)
โมเดลนี้มีสถาปัตยกรรมเชิงเส้น ไม่ใช่โครงข่ายประสาทเทียมแบบลึก อย่างไรก็ตาม คําจํากัดความที่เหลือนี้ยังใช้กับโมเดลเชิงลึกที่คาดการณ์ความน่าจะเป็น สําหรับป้ายกํากับเชิงหมวดหมู่ด้วย

ตัวอย่างเช่น พิจารณาโมเดลการถดถอยโลจิสติกส์ที่คำนวณ ความน่าจะเป็นของอีเมลขาเข้าที่อาจเป็นสแปมหรือไม่ใช่สแปม สมมติว่าในระหว่างการอนุมาน โมเดลคาดการณ์ได้ 0.72 ดังนั้น โมเดลจึงประมาณค่าต่อไปนี้

มีโอกาส 72% ที่อีเมลจะเป็นจดหมายขยะ
มีโอกาส 28% ที่อีเมลจะไม่ใช่จดหมายขยะ

โมเดลการถดถอยโลจิสติกใช้สถาปัตยกรรม 2 ขั้นตอนต่อไปนี้

โมเดลสร้างการคาดการณ์ดิบ (y') โดยใช้ฟังก์ชันเชิงเส้น ของฟีเจอร์อินพุต
โมเดลใช้การคาดการณ์ดิบดังกล่าวเป็นอินพุตสำหรับฟังก์ชันซิกมอยด์ ซึ่งจะแปลงการคาดการณ์ดิบเป็นค่าระหว่าง 0 ถึง 1 โดยไม่รวม 0 และ 1

โมเดลการถดถอยแบบโลจิสติกคาดการณ์ตัวเลขเช่นเดียวกับโมเดลการถดถอยอื่นๆ อย่างไรก็ตาม โดยปกติแล้วตัวเลขนี้จะกลายเป็นส่วนหนึ่งของโมเดลการจัดประเภทแบบไบนารี ดังนี้

หากตัวเลขที่คาดการณ์มากกว่า เกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสที่เป็นบวก
หากตัวเลขที่คาดการณ์น้อยกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสเชิงลบ

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยโลจิสติก ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การสูญเสียของบันทึก

#fundamentals

Loss Function ที่ใช้ในการถดถอยโลจิสติกแบบไบนารี

คลิกไอคอนเพื่อดูคณิตศาสตร์

สูตรต่อไปนี้ใช้ในการคำนวณ Log Loss

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

where:

$(x,y)\in D$ คือชุดข้อมูลที่มีตัวอย่างที่ติดป้ายกำกับไว้จำนวนมาก ซึ่งเป็น $(x,y)$ คู่
$y$ คือป้ายกำกับในตัวอย่างที่มีป้ายกำกับ เนื่องจากเป็นการถดถอยโลจิสติก ค่าของ $y$ ทุกค่าต้องเป็น 0 หรือ 1
$y'$ คือค่าที่คาดการณ์ (อยู่ระหว่าง 0 ถึง 1 แต่ไม่รวม 0 และ 1) เมื่อพิจารณาชุดฟีเจอร์ใน $x$

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยโลจิสติก: การสูญเสียและการทำให้เป็นปกติ ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

ล็อกออดส์

#fundamentals

ลอการิทึมของอัตราต่อรองของเหตุการณ์

คลิกไอคอนเพื่อดูคณิตศาสตร์

หากเหตุการณ์เป็นความน่าจะเป็นแบบไบนารี odds จะหมายถึง อัตราส่วนของความน่าจะเป็นที่จะสำเร็จ (p) ต่อความน่าจะเป็นที่จะ ล้มเหลว (1-p) ตัวอย่างเช่น สมมติว่าเหตุการณ์หนึ่งมีความน่าจะเป็นที่จะสําเร็จ 90% และความน่าจะเป็นที่จะล้มเหลว 10% ในกรณีนี้ ระบบจะคำนวณ อัตราต่อรองดังนี้

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Log-odds คือลอการิทึมของ Odds ตามธรรมเนียมแล้ว "ลอการิทึม" หมายถึงลอการิทึมธรรมชาติ แต่ในความเป็นจริงแล้วลอการิทึมอาจมีฐานใดก็ได้ที่มากกว่า 1 ดังนั้น ตามธรรมเนียมแล้ว ล็อกออดส์ของตัวอย่างจึงเป็นดังนี้

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

ฟังก์ชันลอการิทึมของอัตราส่วนของความน่าจะเป็นคือส่วนกลับของฟังก์ชันซิกมอยด์

แพ้

#fundamentals

#Metric

ในระหว่างการฝึกโมเดลภายใต้การควบคุม จะมีการวัดว่าการคาดการณ์ของโมเดลอยู่ห่างจากป้ายกำกับมากน้อยเพียงใด

ฟังก์ชันการสูญเสียจะคำนวณการสูญเสีย

ดูข้อมูลเพิ่มเติมได้ที่ Linear regression: Loss ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

เส้นโค้งการสูญเสีย

#fundamentals

พล็อตของการสูญเสียเป็นฟังก์ชันของจำนวนการทำซ้ำในการฝึก พล็อตต่อไปนี้แสดงเส้นโค้งการสูญเสียทั่วไป

กราฟคาร์ทีเซียนของความสูญเสียเทียบกับการวนซ้ำในการฝึก โดยแสดง
ความสูญเสียที่ลดลงอย่างรวดเร็วสำหรับการวนซ้ำครั้งแรก ตามด้วยการ
ลดลงอย่างค่อยเป็นค่อยไป และจากนั้นเป็นเส้นตรงในช่วงการวนซ้ำสุดท้าย

เส้นโค้งการสูญเสียช่วยให้คุณพิจารณาได้ว่าโมเดลบรรจบกันหรือฟิตมากเกินไปเมื่อใด

เส้นโค้งการสูญเสียสามารถพล็อตการสูญเสียประเภทต่อไปนี้ทั้งหมด

การสูญเสียการฝึก
การสูญเสียการตรวจสอบ
การสูญเสียการทดสอบ

ดูเส้นโค้งการสรุปด้วย

ดูข้อมูลเพิ่มเติมได้ที่การปรับมากเกินไป: การตีความเส้นโค้งการสูญเสีย ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

ฟังก์ชันการสูญเสีย

#fundamentals

#Metric

ในระหว่างการฝึกหรือการทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่คำนวณ การสูญเสียในกลุ่มตัวอย่าง ฟังก์ชันการสูญเสียจะส่งคืนการสูญเสียที่ต่ำกว่า สำหรับโมเดลที่ทำการคาดการณ์ได้ดีกว่าโมเดลที่ทำการคาดการณ์ ได้ไม่ดี

โดยปกติแล้วเป้าหมายของการฝึกคือการลดการสูญเสียที่ฟังก์ชันการสูญเสีย ส่งคืน

ฟังก์ชันการสูญเสียมีอยู่หลายประเภท เลือกฟังก์ชันการสูญเสียที่เหมาะสม สำหรับโมเดลประเภทที่คุณกำลังสร้าง เช่น

การสูญเสีย _L2 (หรือข้อผิดพลาดกำลังสองเฉลี่ย) คือฟังก์ชันการสูญเสียสำหรับการถดถอยเชิงเส้น
Log Loss คือฟังก์ชันการสูญเสียสำหรับ การถดถอยโลจิสติก

M

แมชชีนเลิร์นนิง

#fundamentals

โปรแกรมหรือระบบที่ฝึก โมเดลจากข้อมูลที่ป้อน โมเดลที่ฝึกแล้วจะ ทําการคาดการณ์ที่เป็นประโยชน์จากข้อมูลใหม่ (ไม่เคยเห็นมาก่อน) ซึ่งดึงมาจาก การกระจายเดียวกันกับที่ใช้ฝึกโมเดล

แมชชีนเลิร์นนิงยังหมายถึงสาขาวิชาที่เกี่ยวข้องกับโปรแกรมหรือระบบเหล่านี้ด้วย

ดูข้อมูลเพิ่มเติมได้ในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

คลาสส่วนใหญ่

#fundamentals

ป้ายกำกับที่พบบ่อยกว่าในชุดข้อมูลที่มีความไม่สมดุลของคลาส ตัวอย่างเช่น หากชุดข้อมูลมีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงลบจะเป็นคลาสส่วนใหญ่

เปรียบเทียบกับคลาสส่วนน้อย

ดูข้อมูลเพิ่มเติมได้ที่ชุดข้อมูล: ชุดข้อมูลที่ไม่สมดุล ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

มินิแบทช์

#fundamentals

กลุ่มเล็กๆ ที่สุ่มเลือกมาซึ่งประมวลผลในการทำซ้ำครั้งเดียว โดยปกติแล้ว ขนาดกลุ่มของมินิแบตช์จะอยู่ ระหว่าง 10 ถึง 1,000 ตัวอย่าง

ตัวอย่างเช่น สมมติว่าชุดการฝึกทั้งหมด (กลุ่มทั้งหมด) ประกอบด้วยตัวอย่าง 1,000 รายการ สมมติว่าคุณตั้งค่าขนาดกลุ่มของมินิแบตช์แต่ละรายการเป็น 20 ดังนั้น การวนซ้ำแต่ละครั้งจะกำหนดการสูญเสียในตัวอย่างแบบสุ่ม 20 รายการจาก 1,000 รายการ แล้วปรับน้ำหนักและอคติตามนั้น

การคำนวณการสูญเสียในมินิแบตช์มีประสิทธิภาพมากกว่าการคำนวณการสูญเสียในตัวอย่างทั้งหมดในฟูลแบตช์มาก

คลาสกลุ่มน้อย

#fundamentals

ป้ายกำกับที่พบน้อยกว่าในชุดข้อมูลที่มีความไม่สมดุลของคลาส เช่น หากชุดข้อมูลมีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงบวกจะเป็นคลาสส่วนน้อย

เปรียบเทียบกับชั้นเรียนส่วนใหญ่

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

ชุดการฝึกที่มีตัวอย่างนับล้านดูน่าประทับใจ อย่างไรก็ตาม หากคลาสส่วนน้อยมีการแสดงที่ไม่ดี แม้แต่ชุดการฝึกขนาดใหญ่มากก็อาจไม่เพียงพอ ให้ความสำคัญกับจำนวนตัวอย่างทั้งหมดในชุดข้อมูลน้อยลง และให้ความสำคัญกับจำนวน ตัวอย่างในคลาสส่วนน้อยมากขึ้น

หากชุดข้อมูลมีตัวอย่างคลาสรองไม่เพียงพอ ให้ลอง ใช้การสุ่มตัวอย่างลง (คำจำกัดความ ในหัวข้อย่อยที่ 2) เพื่อเสริมคลาสรอง

รุ่น

#fundamentals

โดยทั่วไปแล้ว โครงสร้างทางคณิตศาสตร์ใดๆ ที่ประมวลผลข้อมูลอินพุตและส่งคืน เอาต์พุต กล่าวอีกนัยหนึ่งคือ โมเดลคือชุดพารามิเตอร์และโครงสร้าง ที่ระบบต้องใช้ในการคาดการณ์ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะใช้ตัวอย่างเป็นข้อมูลป้อนเข้าและอนุมานการคาดการณ์เป็นข้อมูลผลลัพธ์ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะแตกต่างกันเล็กน้อย เช่น

โมเดลการถดถอยเชิงเส้นประกอบด้วยชุดน้ำหนัก และอคติ
โมเดลโครงข่ายประสาทเทียมประกอบด้วยองค์ประกอบต่อไปนี้
- ชุดเลเยอร์ที่ซ่อน ซึ่งแต่ละเลเยอร์มีนิวรอนอย่างน้อย 1 ตัว
- น้ำหนักและความเอนเอียงที่เชื่อมโยงกับแต่ละนิวรอน
โมเดลแผนผังการตัดสินใจประกอบด้วยองค์ประกอบต่อไปนี้
- รูปร่างของต้นไม้ ซึ่งก็คือรูปแบบที่เชื่อมต่อเงื่อนไข และใบไม้
- เงื่อนไขและใบไม้

คุณสามารถบันทึก กู้คืน หรือทำสำเนารูปแบบได้

แมชชีนเลิร์นนิงแบบไม่มีการกำกับดูแลยังสร้างโมเดลด้วย โดยปกติจะเป็นฟังก์ชันที่สามารถเชื่อมโยงตัวอย่างอินพุตกับคลัสเตอร์ที่เหมาะสมที่สุด

คลิกไอคอนเพื่อเปรียบเทียบฟังก์ชันพีชคณิตและการเขียนโปรแกรมกับโมเดล ML

ฟังก์ชันพีชคณิต เช่น ฟังก์ชันต่อไปนี้ คือโมเดล

  f(x, y) = 3x -5xy + y² + 17

ฟังก์ชันก่อนหน้าจะแมปค่าอินพุต (x และ y) กับ เอาต์พุต

ในทำนองเดียวกัน ฟังก์ชันการเขียนโปรแกรม เช่น ฟังก์ชันต่อไปนี้ ก็เป็นโมเดลเช่นกัน

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

ผู้โทรจะส่งอาร์กิวเมนต์ไปยังฟังก์ชัน Python ก่อนหน้า และฟังก์ชัน Python จะสร้างเอาต์พุต (ผ่านคำสั่ง return)

แม้ว่าโครงข่ายประสาทแบบลึก จะมีโครงสร้างทางคณิตศาสตร์ที่แตกต่างจากฟังก์ชันทางพีชคณิตหรือฟังก์ชันการเขียนโปรแกรม อย่างมาก แต่โครงข่ายประสาทแบบลึกก็ยังคงรับอินพุต (ตัวอย่าง) และแสดงผล เอาต์พุต (การคาดการณ์)

โปรแกรมเมอร์ที่เป็นมนุษย์จะเขียนโค้ดฟังก์ชันการเขียนโปรแกรมด้วยตนเอง ในทางตรงกันข้าม โมเดลแมชชีนเลิร์นนิงจะค่อยๆ เรียนรู้พารามิเตอร์ที่เหมาะสม ระหว่างการฝึกอัตโนมัติ

การจัดประเภทแบบหลายคลาส

#fundamentals

ใน Supervised Learning ปัญหาการจัดประเภท ซึ่งชุดข้อมูลมีป้ายกำกับมากกว่า 2 คลาส ตัวอย่างเช่น ป้ายกำกับในชุดข้อมูล Iris ต้องเป็นหนึ่งใน 3 คลาสต่อไปนี้

Iris setosa
Iris virginica
Iris versicolor

โมเดลที่ฝึกในชุดข้อมูล Iris ซึ่งคาดการณ์ประเภท Iris ในตัวอย่างใหม่ จะทำการจัดประเภทแบบหลายคลาส

ในทางตรงกันข้าม ปัญหาการจัดประเภทที่แยกความแตกต่างระหว่าง 2 คลาสอย่างชัดเจนคือโมเดลการจัดประเภทแบบไบนารี เช่น โมเดลอีเมลที่คาดการณ์ว่าจะเป็นสแปมหรือไม่ใช่สแปม คือโมเดลการจัดประเภทแบบไบนารี

ในปัญหาการจัดกลุ่ม การจัดประเภทแบบหลายคลาสหมายถึงคลัสเตอร์มากกว่า 2 คลัสเตอร์

ดูข้อมูลเพิ่มเติมได้ที่โครงข่ายประสาทเทียม: การจัดประเภทแบบหลายคลาส ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

N

คลาสที่เป็นลบ

#fundamentals

#Metric

ในการจัดประเภทแบบไบนารี คลาสหนึ่งเรียกว่าบวกและอีกคลาสหนึ่งเรียกว่าลบ คลาสที่เป็นบวกคือ สิ่งหรือเหตุการณ์ที่โมเดลกำลังทดสอบ และคลาสที่เป็นลบคือ ความเป็นไปได้อื่นๆ เช่น

คลาสเชิงลบในการตรวจทางการแพทย์อาจเป็น "ไม่ใช่มะเร็ง"
คลาสเชิงลบในโมเดลการจัดประเภทอีเมลอาจเป็น "ไม่ใช่จดหมายขยะ"

เปรียบเทียบกับคลาสที่เป็นบวก

โครงข่ายระบบประสาทเทียม

#fundamentals

โมเดลที่มีเลเยอร์ที่ซ่อนอยู่อย่างน้อย 1 รายการ โครงข่ายประสาทแบบลึกเป็นโครงข่ายประสาทประเภทหนึ่ง ที่มีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 เลเยอร์ ตัวอย่างเช่น ไดอะแกรมต่อไปนี้ แสดงโครงข่ายประสาทเทียมแบบลึกที่มีเลเยอร์ซ่อน 2 เลเยอร์

โครงข่ายประสาทเทียมที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

นิวรอนแต่ละตัวในโครงข่ายประสาทจะเชื่อมต่อกับโหนดทั้งหมดในเลเยอร์ถัดไป ตัวอย่างเช่น ในแผนภาพก่อนหน้า คุณจะเห็นว่านิวรอนทั้ง 3 ตัว ในเลเยอร์ที่ซ่อนอยู่แรกเชื่อมต่อกับนิวรอนทั้ง 2 ตัวใน เลเยอร์ที่ซ่อนอยู่ชั้นที่ 2 แยกกัน

บางครั้งเราเรียกโครงข่ายประสาทเทียมที่ใช้ในคอมพิวเตอร์ว่าโครงข่ายประสาทเทียมเพื่อแยกความแตกต่างจากโครงข่ายประสาทที่พบในสมองและระบบประสาทอื่นๆ

โครงข่ายประสาทเทียมบางอย่างสามารถเลียนแบบความสัมพันธ์แบบไม่เชิงเส้นที่ซับซ้อนอย่างยิ่ง ระหว่างฟีเจอร์ต่างๆ กับป้ายกำกับ

ดูโครงข่ายประสาทเทียมแบบคอนโวลูชันและ โครงข่ายประสาทเทียมแบบเกิดซ้ำด้วย

เซลล์ประสาท

#fundamentals

ในแมชชีนเลิร์นนิง หน่วยที่แตกต่างกันภายในเลเยอร์ที่ซ่อนอยู่ ของโครงข่ายประสาทเทียม นิวรอนแต่ละตัวจะดำเนินการ 2 ขั้นตอนต่อไปนี้

คำนวณผลรวมแบบถ่วงน้ำหนักของค่าอินพุตที่คูณ ด้วยน้ำหนักที่เกี่ยวข้อง
ส่งผลรวมแบบถ่วงน้ำหนักเป็นอินพุตไปยังฟังก์ชันการเปิดใช้งาน

นิวรอนในเลเยอร์ซ่อนชั้นแรกจะรับอินพุตจากค่าฟีเจอร์ ในเลเยอร์อินพุต นิวรอนในเลเยอร์ที่ซ่อนใดๆ ที่อยู่นอกเหนือจากเลเยอร์แรกจะรับอินพุตจากนิวรอนในเลเยอร์ที่ซ่อนก่อนหน้า ตัวอย่างเช่น นิวรอนในเลเยอร์ที่ซ่อนที่ 2 จะยอมรับอินพุตจากนิวรอนในเลเยอร์ที่ซ่อนที่ 1

ภาพต่อไปนี้ไฮไลต์นิวรอน 2 ตัวและอินพุตของนิวรอนเหล่านั้น

โครงข่ายประสาทเทียมที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต มีการไฮไลต์นิวรอน 2 ตัว ได้แก่ ตัวหนึ่งในเลเยอร์ซ่อนชั้นแรก
และอีกตัวหนึ่งในเลเยอร์ซ่อนชั้นที่ 2 นิวรอนที่ไฮไลต์
ในเลเยอร์แรกที่ซ่อนไว้จะรับอินพุตจากทั้ง 2 ฟีเจอร์
ในเลเยอร์อินพุต นิวรอนที่ไฮไลต์ในเลเยอร์ที่ซ่อนที่ 2
รับอินพุตจากนิวรอนทั้ง 3 ตัวในเลเยอร์ที่ซ่อนที่ 1

นิวรอนในโครงข่ายประสาทเทียมจะเลียนแบบพฤติกรรมของนิวรอนในสมองและ ส่วนอื่นๆ ของระบบประสาท

โหนด (โครงข่ายประสาทเทียม)

#fundamentals

นิวรอนในเลเยอร์ที่ซ่อนอยู่

ไม่ใช่แบบดั้งเดิม

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปซึ่งไม่สามารถแสดงได้ด้วยการบวกและการคูณเพียงอย่างเดียว ความสัมพันธ์เชิงเส้นแสดงเป็นเส้นได้ แต่ความสัมพันธ์ที่ไม่ใช่เชิงเส้นแสดงเป็นเส้นไม่ได้ ตัวอย่างเช่น ลองพิจารณารูปแบบ 2 รูปแบบที่แต่ละรูปแบบเชื่อมโยง ฟีเจอร์เดียวกับป้ายกำกับเดียว โมเดลทางด้านซ้ายเป็นแบบเชิงเส้น และโมเดลทางด้านขวาเป็นแบบไม่เชิงเส้น

2 แปลง พล็อต 1 เส้นคือเส้นตรง ดังนั้นนี่คือความสัมพันธ์เชิงเส้น
ส่วนอีกพล็อตเป็นเส้นโค้ง ดังนั้นความสัมพันธ์นี้จึงเป็นความสัมพันธ์แบบไม่เชิงเส้น

ดูโครงข่ายประสาทเทียม: โหนดและเลเยอร์ที่ซ่อนอยู่ ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิงเพื่อทดลองใช้ฟังก์ชัน ที่ไม่ใช่เชิงเส้นประเภทต่างๆ

ความไม่คงที่

#fundamentals

ฟีเจอร์ที่มีค่าเปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักจะเป็นเวลา ตัวอย่างเช่น ลองพิจารณาตัวอย่างต่อไปนี้ของความไม่คงที่

จำนวนชุดว่ายน้ำที่ขายในร้านค้าหนึ่งๆ จะแตกต่างกันไปตามฤดูกาล
ปริมาณผลไม้ชนิดหนึ่งที่เก็บเกี่ยวในภูมิภาคหนึ่งๆ เป็น 0 ในช่วงเวลาส่วนใหญ่ของปี แต่มีปริมาณมากในช่วงเวลาสั้นๆ
การเปลี่ยนแปลงสภาพภูมิอากาศทำให้อุณหภูมิเฉลี่ยรายปีเปลี่ยนแปลงไป

คอนทราสต์กับความคงที่

การแปลงเป็นรูปแบบมาตรฐาน

#fundamentals

โดยทั่วไป กระบวนการแปลงช่วงค่าจริงของตัวแปร เป็นช่วงค่ามาตรฐาน เช่น

-1 ถึง +1
0 ถึง 1
คะแนนมาตรฐาน (Z-Score) (ประมาณ -3 ถึง +3)

ตัวอย่างเช่น สมมติว่าช่วงค่าจริงของฟีเจอร์หนึ่งคือ 800 ถึง 2,400 ในส่วนของการออกแบบฟีเจอร์ คุณสามารถปรับค่าจริงให้เป็นช่วงมาตรฐาน เช่น -1 ถึง +1

การปรับให้เป็นมาตรฐานเป็นงานที่พบบ่อยในการออกแบบฟีเจอร์ โดยปกติแล้ว โมเดลจะฝึกได้เร็วขึ้น (และให้การคาดการณ์ได้ดีขึ้น) เมื่อฟีเจอร์ที่เป็นตัวเลขทุกรายการในเวกเตอร์ฟีเจอร์มีช่วงที่ใกล้เคียงกัน

ดูการปรับค่าให้เป็นมาตรฐานแบบ Z-score ด้วย

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การปรับให้เป็นมาตรฐาน ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

ข้อมูลเชิงตัวเลข

#fundamentals

ฟีเจอร์แสดงเป็นจำนวนเต็มหรือจำนวนจริง เช่น โมเดลการประเมินบ้านอาจแสดงขนาด ของบ้าน (เป็นตารางฟุตหรือตารางเมตร) เป็นข้อมูลตัวเลข การแสดงฟีเจอร์เป็นข้อมูลตัวเลขบ่งชี้ว่าค่าของฟีเจอร์มีความสัมพันธ์ทางคณิตศาสตร์กับป้ายกำกับ กล่าวคือ จำนวนตารางเมตรในบ้านอาจมีความสัมพันธ์ทางคณิตศาสตร์กับมูลค่าของบ้าน

ข้อมูลจำนวนเต็มบางรายการไม่ควรแสดงเป็นข้อมูลตัวเลข ตัวอย่างเช่น รหัสไปรษณีย์ในบางส่วนของโลกเป็นจำนวนเต็ม แต่ไม่ควรแสดงรหัสไปรษณีย์ที่เป็นจำนวนเต็ม เป็นข้อมูลตัวเลขในโมเดล เนื่องจากรหัสไปรษณีย์ 20000 ไม่ได้มีประสิทธิภาพเป็น 2 เท่า (หรือครึ่งหนึ่ง) ของรหัสไปรษณีย์ 10000 นอกจากนี้ แม้ว่ารหัสไปรษณีย์ที่แตกต่างกันจะสัมพันธ์กับมูลค่าอสังหาริมทรัพย์ที่แตกต่างกัน แต่เราก็ไม่สามารถสรุปได้ว่ามูลค่าอสังหาริมทรัพย์ที่รหัสไปรษณีย์ 20000 มีมูลค่าเป็น 2 เท่าของมูลค่าอสังหาริมทรัพย์ที่รหัสไปรษณีย์ 10000 ควรแสดงรหัสไปรษณีย์เป็นข้อมูลเชิงหมวดหมู่แทน

บางครั้งฟีเจอร์ที่เป็นตัวเลขจะเรียกว่า ฟีเจอร์ต่อเนื่อง

ดูข้อมูลเพิ่มเติมได้ที่การทำงานกับข้อมูลตัวเลข ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

O

ออฟไลน์

#fundamentals

คำพ้องความหมายของ static

การอนุมานแบบออฟไลน์

#fundamentals

กระบวนการที่โมเดลสร้างการคาดการณ์ เป็นชุด แล้วแคช (บันทึก) การคาดการณ์เหล่านั้น จากนั้นแอปจะเข้าถึงการคาดคะเนที่อนุมานได้จากแคชแทนที่จะเรียกใช้โมเดลอีกครั้ง

ตัวอย่างเช่น ลองพิจารณาโมเดลที่สร้างพยากรณ์อากาศในพื้นที่ (การคาดการณ์) ทุกๆ 4 ชั่วโมง หลังจากเรียกใช้โมเดลแต่ละครั้ง ระบบจะ แคชพยากรณ์อากาศในพื้นที่ทั้งหมด แอปสภาพอากาศจะดึงข้อมูลพยากรณ์อากาศ จากแคช

การอนุมานแบบออฟไลน์เรียกอีกอย่างว่าการอนุมานแบบคงที่

เปรียบเทียบกับการอนุมานออนไลน์ ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML ที่ใช้งานจริง: การอนุมานแบบคงที่เทียบกับการอนุมานแบบไดนามิก ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเข้ารหัสแบบ One-hot

#fundamentals

การแสดงข้อมูลเชิงหมวดหมู่เป็นเวกเตอร์ซึ่งมีลักษณะดังนี้

องค์ประกอบหนึ่งตั้งค่าเป็น 1
และตั้งค่าองค์ประกอบอื่นๆ ทั้งหมดเป็น 0

โดยทั่วไปแล้ว การเข้ารหัสแบบ One-Hot จะใช้เพื่อแสดงสตริงหรือตัวระบุที่มีชุดค่าที่เป็นไปได้แบบจำกัด ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่หนึ่งชื่อ Scandinavia มีค่าที่เป็นไปได้ 5 ค่าดังนี้

"เดนมาร์ก"
"สวีเดน"
"นอร์เวย์"
"ฟินแลนด์"
"ไอซ์แลนด์"

การเข้ารหัสแบบ One-Hot สามารถแสดงค่าทั้ง 5 ค่าได้ดังนี้

ประเทศ	เวกเตอร์
"เดนมาร์ก"	1	0	0	0	0
"สวีเดน"	0	1	0	0	0
"นอร์เวย์"	0	0	1	0	0
"ฟินแลนด์"	0	0	0	1	0
"ไอซ์แลนด์"	0	0	0	0	1

การเข้ารหัสแบบ One-Hot ช่วยให้โมเดลเรียนรู้การเชื่อมต่อต่างๆ ตามประเทศทั้ง 5 ประเทศได้

การแสดงฟีเจอร์เป็นข้อมูลตัวเลขเป็นอีกทางเลือกหนึ่งแทนการเข้ารหัสแบบ One-hot ขออภัย การแสดงประเทศในแถบสแกนดิเนเวียเป็นตัวเลขไม่ใช่ตัวเลือกที่ดี ตัวอย่างเช่น ลองพิจารณาการแสดงตัวเลขต่อไปนี้

"เดนมาร์ก" คือ 0
"สวีเดน" คือ 1
"นอร์เวย์" คือ 2
"ฟินแลนด์" คือ 3
"ไอซ์แลนด์" คือ 4

เมื่อใช้การเข้ารหัสตัวเลข โมเดลจะตีความตัวเลขดิบในเชิงคณิตศาสตร์และจะพยายามฝึกกับตัวเลขเหล่านั้น อย่างไรก็ตาม ในความเป็นจริงแล้ว ไอซ์แลนด์ไม่ได้มีประชากรมากกว่า (หรือน้อยกว่า) นอร์เวย์ 2 เท่า โมเดลจึงอาจสรุปผลที่แปลกประหลาดได้

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงหมวดหมู่: คำศัพท์และการเข้ารหัสแบบ One-Hot ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

หนึ่งเทียบกับทั้งหมด

#fundamentals

เมื่อพิจารณาปัญหาการจัดประเภทที่มี N คลาส โซลูชันที่ประกอบด้วยโมเดลการจัดประเภทแบบไบนารีแยกกัน N โมเดล ซึ่งเป็นโมเดลการจัดประเภทแบบไบนารี 1 โมเดลสำหรับผลลัพธ์ที่เป็นไปได้แต่ละรายการ ตัวอย่างเช่น เมื่อพิจารณาโมเดล ที่จัดประเภทตัวอย่างเป็นสัตว์ พืช หรือแร่ธาตุ โซลูชันแบบหนึ่งเทียบกับทั้งหมด จะให้โมเดลการจัดประเภทแบบไบนารี 3 โมเดลแยกกันดังนี้

สัตว์กับไม่ใช่สัตว์
ผักกับไม่ใช่ผัก
แร่ธาตุเทียบกับไม่ใช่แร่ธาตุ

ออนไลน์

#fundamentals

คำพ้องความหมายของไดนามิก

การอนุมานออนไลน์

#fundamentals

สร้างการคาดการณ์ตามต้องการ ตัวอย่างเช่น สมมติว่าแอปส่งอินพุตไปยังโมเดลและส่งคำขอสำหรับ การคาดการณ์ ระบบที่ใช้การอนุมานออนไลน์จะตอบสนองต่อคำขอโดยการเรียกใช้โมเดล (และส่งคืนการคาดการณ์ไปยังแอป)

เทียบกับการอนุมานแบบออฟไลน์

ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML ที่ใช้งานจริง: การอนุมานแบบคงที่เทียบกับการอนุมานแบบไดนามิก ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เลเยอร์เอาต์พุต

#fundamentals

เลเยอร์ "สุดท้าย" ของโครงข่ายประสาทเทียม เลเยอร์เอาต์พุตมีการคาดการณ์

ภาพต่อไปนี้แสดงโครงข่ายประสาทแบบลึกขนาดเล็กที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต

Overfitting

#fundamentals

การสร้างโมเดลที่ตรงกับข้อมูลการฝึกอย่างใกล้ชิดมากจนโมเดลไม่สามารถคาดการณ์ข้อมูลใหม่ได้อย่างถูกต้อง

การทำให้เป็นปกติจะช่วยลดการเกิด Overfitting ได้ การฝึกในชุดการฝึกขนาดใหญ่และหลากหลายยังช่วยลดการเกิด Overfitting ได้ด้วย

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

การฟิตเกินพอเปรียบเสมือนการทำตามคำแนะนำจากครูคนโปรดของคุณเท่านั้น คุณอาจประสบความสำเร็จในชั้นเรียนของครูคนนั้น แต่ก็อาจ "ปรับมากเกินไป" กับแนวคิดของครูคนนั้นและไม่ประสบความสำเร็จในชั้นเรียนอื่นๆ การปฏิบัติตามคำแนะนำจากครูหลายๆ คนจะช่วยให้คุณ ปรับตัวเข้ากับสถานการณ์ใหม่ๆ ได้ดียิ่งขึ้น

ดูข้อมูลเพิ่มเติมได้ที่การเกิด Overfitting ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

P

แพนด้า

#fundamentals

API การวิเคราะห์ข้อมูลแบบคอลัมน์ที่สร้างขึ้นบน numpy เฟรมเวิร์กแมชชีนเลิร์นนิงหลายรายการ รวมถึง TensorFlow รองรับโครงสร้างข้อมูล pandas เป็นอินพุต ดูรายละเอียดได้ที่ เอกสารประกอบของ Pandas

พารามิเตอร์

#fundamentals

น้ำหนักและอคติที่โมเดลเรียนรู้ระหว่างการฝึก ตัวอย่างเช่น ในโมเดลการถดถอยเชิงเส้น พารามิเตอร์ประกอบด้วย อคติ (b) และน้ำหนักทั้งหมด (w₁, w₂, และอื่นๆ) ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในทางตรงกันข้าม ไฮเปอร์พารามิเตอร์คือค่าที่คุณ (หรือบริการปรับไฮเปอร์พารามิเตอร์) จัดหาให้แก่โมเดล เช่น อัตราการเรียนรู้เป็นไฮเปอร์พารามิเตอร์

คลาสที่เป็นบวก

#fundamentals

#Metric

ชั้นเรียนที่คุณกำลังทดสอบ

เช่น คลาสที่เป็นบวกในโมเดลมะเร็งอาจเป็น "เนื้องอก" คลาสที่เป็นบวกในโมเดลการจัดประเภทอีเมล อาจเป็น "จดหมายขยะ"

เปรียบเทียบกับคลาสที่เป็นลบ

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

คำว่าคลาสที่เป็นบวกอาจทำให้เกิดความสับสนเนื่องจากผลลัพธ์ "เชิงบวก" ของการทดสอบหลายอย่างมักเป็นผลลัพธ์ที่ไม่พึงประสงค์ เช่น คลาสที่เป็นบวกในการตรวจทางการแพทย์หลายอย่างสอดคล้องกับเนื้องอกหรือโรค โดยทั่วไป คุณคงอยากให้ แพทย์บอกว่า "ขอแสดงความยินดีด้วย ผลการตรวจหาเชื้อเป็นลบ" ไม่ว่าในกรณีใด คลาสที่เป็นบวกคือเหตุการณ์ที่การทดสอบต้องการค้นหา

แน่นอนว่าคุณกำลังทดสอบทั้งคลาสเชิงบวกและเชิงลบพร้อมกัน

หลังการประมวลผล

#responsible

#fundamentals

การปรับเอาต์พุตของโมเดลหลังจากเรียกใช้โมเดลแล้ว การประมวลผลภายหลังสามารถใช้เพื่อบังคับใช้ข้อจํากัดด้านความเป็นธรรมโดยไม่ต้อง แก้ไขโมเดลด้วยตนเอง

ตัวอย่างเช่น อาจใช้การประมวลผลภายหลังกับโมเดลการจัดประเภทแบบไบนารีโดยการตั้งค่าเกณฑ์การจัดประเภทเพื่อให้ความเท่าเทียมกันของโอกาสยังคงอยู่ สําหรับแอตทริบิวต์บางอย่างโดยตรวจสอบว่าอัตราผลบวกจริง มีค่าเท่ากันสําหรับค่าทั้งหมดของแอตทริบิวต์นั้น

ความแม่นยำ

#fundamentals

#Metric

เมตริกสําหรับโมเดลการจัดประเภทที่ตอบคําถามต่อไปนี้

เมื่อโมเดลคาดการณ์คลาสเชิงบวก การคาดการณ์กี่เปอร์เซ็นต์ที่ถูกต้อง

สูตรมีดังนี้

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

ที่ไหน

ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้อย่างถูกต้อง
ผลบวกลวงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกอย่างไม่ถูกต้อง

เช่น สมมติว่าโมเดลทำการคาดการณ์เชิงบวก 200 รายการ จากการคาดการณ์ที่เป็นบวก 200 รายการ

150 รายการเป็นผลบวกจริง
50 รายการเป็นการตรวจจับที่ผิดพลาด

ในกรณีนี้

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

เปรียบเทียบกับความแม่นยำและความอ่อนไหว

การคาดการณ์

#fundamentals

เอาต์พุตของโมเดล เช่น

การคาดการณ์ของโมเดลการจัดประเภทแบบไบนารีคือคลาสที่เป็นบวกหรือคลาสที่เป็นลบ
การคาดการณ์ของโมเดลการจัดประเภทแบบหลายคลาสคือ 1 คลาส
การคาดการณ์ของโมเดลการถดถอยเชิงเส้นคือตัวเลข

ป้ายกำกับพร็อกซี

#fundamentals

ข้อมูลที่ใช้ในการประมาณป้ายกำกับซึ่งไม่มีในชุดข้อมูลโดยตรง

ตัวอย่างเช่น สมมติว่าคุณต้องฝึกโมเดลเพื่อคาดการณ์ระดับความเครียดของพนักงาน ชุดข้อมูลของคุณมีฟีเจอร์การคาดการณ์จำนวนมาก แต่ไม่มีป้ายกำกับที่ชื่อระดับความเครียด คุณจึงเลือก "อุบัติเหตุในที่ทำงาน" เป็นป้ายกำกับพร็อกซีสำหรับ ระดับความเครียด เพราะพนักงานที่อยู่ภายใต้ความเครียดสูงมีแนวโน้มที่จะเกิดอุบัติเหตุมากกว่าพนักงานที่ใจเย็น หรือว่าไม่ อุบัติเหตุในที่ทำงานอาจเพิ่มขึ้นและลดลงด้วยเหตุผลหลายประการ

ตัวอย่างที่ 2 สมมติว่าคุณต้องการให้ is it raining? เป็นป้ายกํากับบูลีน สําหรับชุดข้อมูล แต่ชุดข้อมูลไม่มีข้อมูลฝน หากมีรูปภาพ คุณอาจสร้างรูปภาพของผู้คน ที่ถือร่มเป็นป้ายกำกับพร็อกซีสำหรับฝนตกไหม ป้ายกำกับพร็อกซีที่ดี คืออะไร อาจเป็นไปได้ แต่ผู้คนในบางวัฒนธรรมอาจมีแนวโน้มที่จะพกร่มเพื่อป้องกันแสงแดดมากกว่าฝน

ป้ายกำกับพร็อกซีมักจะไม่สมบูรณ์ หากเป็นไปได้ ให้เลือกป้ายกำกับจริงแทน ป้ายกำกับพร็อกซี อย่างไรก็ตาม หากไม่มีป้ายกำกับจริง ให้เลือกป้ายกำกับพร็อกซีอย่างระมัดระวัง โดยเลือกป้ายกำกับพร็อกซีที่มีความเหมาะสมน้อยที่สุด

ดูข้อมูลเพิ่มเติมได้ที่ชุดข้อมูล: ป้ายกำกับ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

R

RAG

#fundamentals

คำย่อของ การสร้างที่เพิ่มการดึงข้อมูล

ผู้ให้คะแนน

#fundamentals

บุคคลที่ให้ป้ายกำกับสำหรับตัวอย่าง "ผู้ใส่คำอธิบายประกอบ" เป็นอีกชื่อหนึ่งของผู้จัดประเภท

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงหมวดหมู่: ปัญหาที่พบบ่อย ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

การเรียกคืน

#fundamentals

#Metric

เมตริกสําหรับโมเดลการจัดประเภทที่ตอบคําถามต่อไปนี้

เมื่อความจริงพื้นฐานคือคลาสที่เป็นบวก โมเดลระบุการคาดการณ์เป็นคลาสที่เป็นบวกได้อย่างถูกต้องกี่เปอร์เซ็นต์

สูตรมีดังนี้

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

ที่ไหน

ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้อย่างถูกต้อง
ผลลบลวงหมายความว่าโมเดลคาดการณ์ผิดพลาดว่า คลาสเชิงลบ

เช่น สมมติว่าโมเดลของคุณทำการคาดการณ์ 200 รายการในตัวอย่างที่ความจริงพื้นฐานเป็นคลาสเชิงบวก โดยในการคาดการณ์ 200 รายการนี้

180 รายการเป็นผลบวกจริง
20 รายการเป็นผลลบลวง

ในกรณีนี้

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

คลิกไอคอนเพื่อดูหมายเหตุเกี่ยวกับชุดข้อมูลที่มีความไม่สมดุลของคลาส

Recall มีประโยชน์อย่างยิ่งในการพิจารณาความสามารถในการคาดการณ์ของ โมเดลการจัดประเภทที่คลาสที่เป็นบวกเกิดขึ้นได้ยาก เช่น พิจารณาชุดข้อมูลที่มีความไม่สมดุลของคลาส ซึ่งคลาสที่เป็นบวกสำหรับโรคหนึ่งๆ เกิดขึ้นในผู้ป่วยเพียง 10 ราย จากผู้ป่วย 1 ล้านราย สมมติว่าโมเดลของคุณทำการคาดการณ์ 5 ล้านครั้งซึ่งให้ผลลัพธ์ต่อไปนี้

ผลบวกจริง 30 รายการ
20 ผลลบลวง
ผลลบจริง 4,999,000 รายการ
950 ผลบวกลวง

ดังนั้นการเรียกคืนของโมเดลนี้จึงเป็นดังนี้

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

ในทางตรงกันข้าม ความแม่นยำของโมเดลนี้คือ

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

ความแม่นยำที่สูงนั้นดูน่าประทับใจ แต่จริงๆ แล้วไม่มีความหมาย ความอ่อนไหวเป็นเมตริกที่มีประโยชน์มากกว่าความแม่นยำสำหรับชุดข้อมูลที่ไม่สมดุลของคลาส

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้อง

หน่วยเชิงเส้นที่มีการแก้ไข (ReLU)

#fundamentals

ฟังก์ชันการเปิดใช้งานที่มีลักษณะการทำงานดังนี้

หากอินพุตเป็นค่าลบหรือ 0 เอาต์พุตจะเป็น 0
หากอินพุตเป็นค่าบวก เอาต์พุตจะเท่ากับอินพุต

เช่น

หากอินพุตคือ -3 เอาต์พุตจะเป็น 0
หากอินพุตคือ +3 เอาต์พุตจะเป็น 3.0

กราฟของ ReLU มีดังนี้

ReLU เป็นฟังก์ชันการเปิดใช้งานที่ได้รับความนิยมอย่างมาก แม้จะมีลักษณะการทำงานที่เรียบง่าย แต่ ReLU ก็ยังช่วยให้โครงข่ายประสาทเทียมเรียนรู้ความสัมพันธ์แบบไม่เชิงเส้นระหว่างฟีเจอร์กับป้ายกำกับได้

โมเดลการเกิดปัญหาซ้ำ

#fundamentals

โดยทั่วไปแล้ว โมเดลที่สร้างการคาดการณ์เชิงตัวเลข (ในทางตรงกันข้าม โมเดลการแยกประเภทจะสร้างการคาดการณ์คลาส) ตัวอย่างเช่น โมเดลต่อไปนี้เป็นโมเดลการถดถอยทั้งหมด

โมเดลที่คาดการณ์มูลค่าของบ้านหลังหนึ่งในสกุลเงินยูโร เช่น 423,000
โมเดลที่คาดการณ์อายุคาดเฉลี่ยของต้นไม้หนึ่งๆ เป็นปี เช่น 23.2
โมเดลที่คาดการณ์ปริมาณฝนเป็นนิ้วที่จะตกในเมืองหนึ่งๆ ในอีก 6 ชั่วโมงข้างหน้า เช่น 0.18

โมเดลการถดถอยที่ใช้กันทั่วไปมี 2 ประเภท ได้แก่

การถดถอยเชิงเส้น ซึ่งจะค้นหาเส้นที่เหมาะสมที่สุด กับค่าป้ายกำกับสำหรับฟีเจอร์
การถดถอยแบบโลจิสติก ซึ่งสร้างความน่าจะเป็นระหว่าง 0.0 ถึง 1.0 ที่โดยปกติแล้วระบบจะแมปกับการคาดการณ์คลาส

ไม่ใช่ทุกโมเดลที่แสดงผลการคาดการณ์เชิงตัวเลขจะเป็นโมเดลการถดถอย ในบางกรณี การคาดการณ์ที่เป็นตัวเลขก็เป็นเพียงโมเดลการจัดประเภท ที่มีชื่อคลาสเป็นตัวเลข ตัวอย่างเช่น โมเดลที่คาดการณ์รหัสไปรษณีย์ที่เป็นตัวเลขคือโมเดลการจัดประเภท ไม่ใช่โมเดลการถดถอย

Regularization

#fundamentals

กลไกที่ช่วยลดการปรับมากเกินไป การทำให้เป็นปกติประเภทที่ได้รับความนิยมมีดังนี้

การทำให้เป็นค่าปกติ _L1
การทำให้เป็นค่าปกติ _L2
การทำให้เป็นค่าปกติของ Dropout
การหยุดก่อนเวลา (นี่ไม่ใช่ วิธีการปรับค่าปกติอย่างเป็นทางการ แต่สามารถจำกัดการปรับมากเกินไปได้อย่างมีประสิทธิภาพ)

นอกจากนี้ การปรับค่าปกติยังอาจกำหนดเป็นค่าปรับสำหรับความซับซ้อนของโมเดลได้ด้วย

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

การทำให้เป็นปกติเป็นสิ่งที่ขัดกับสัญชาตญาณ การเพิ่มการทำให้เป็นปกติมักจะเพิ่มการสูญเสียการฝึก ซึ่งสร้างความสับสนเนื่องจากเป้าหมายคือการลดการสูญเสียการฝึกไม่ใช่หรือ

ไม่จริง เป้าหมายไม่ใช่การลดการสูญเสียจากการฝึก เป้าหมายคือการคาดการณ์ตัวอย่างในโลกแห่งความเป็นจริงได้อย่างยอดเยี่ยม แม้ว่าการเพิ่มการทำให้เป็นปกติจะเพิ่มการสูญเสียการฝึก แต่โดยปกติแล้วจะช่วยให้โมเดลคาดการณ์ตัวอย่างในโลกแห่งความเป็นจริงได้ดีขึ้น

ดูข้อมูลเพิ่มเติมได้ที่การปรับมากเกินไป: ความซับซ้อนของโมเดล ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อัตราการปรับค่าปกติ

#fundamentals

ตัวเลขที่ระบุความสําคัญสัมพัทธ์ของการทําให้เป็นปกติระหว่างการฝึก การเพิ่ม อัตราการทำให้เป็นปกติจะช่วยลดการปรับมากเกินไป แต่ก็อาจ ลดความสามารถในการคาดการณ์ของโมเดล ในทางกลับกัน การลดหรือละเว้น อัตราการทำให้เป็นปกติจะเพิ่มการปรับมากเกินไป

คลิกไอคอนเพื่อดูคณิตศาสตร์

โดยปกติแล้วอัตราการทำให้เป็นปกติจะแสดงเป็นอักษรแลมดากรีก สมการloss แบบย่อต่อไปนี้แสดงอิทธิพลของ แลมบ์ดา

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

โดยที่ Regularization คือกลไกการปรับค่าปกติใดๆ ซึ่งรวมถึง

การทำให้เป็นค่าปกติ _L1
การทำให้เป็นค่าปกติ _L2

ReLU

#fundamentals

ตัวย่อของ Rectified Linear Unit

การสร้างเสริมด้วยการดึงข้อมูล (RAG)

#fundamentals

เทคนิคในการปรับปรุงคุณภาพของเอาต์พุตโมเดลภาษาขนาดใหญ่ (LLM) โดยการอิงตามแหล่งความรู้ที่ดึงมาหลังจากฝึกโมเดลแล้ว RAG ช่วยปรับปรุงความแม่นยําของคําตอบของ LLM โดยให้ LLM ที่ผ่านการฝึกเข้าถึงข้อมูลที่ดึงมาจากฐานความรู้หรือเอกสารที่เชื่อถือได้

แรงจูงใจที่พบบ่อยในการใช้การสร้างที่เพิ่มการดึงข้อมูล ได้แก่

เพิ่มความแม่นยำของข้อเท็จจริงในคำตอบที่โมเดลสร้างขึ้น
การให้สิทธิ์โมเดลเข้าถึงความรู้ที่ไม่ได้ฝึก
การเปลี่ยนความรู้ที่โมเดลใช้
การเปิดใช้โมเดลเพื่ออ้างอิงแหล่งที่มา

ตัวอย่างเช่น สมมติว่าแอปเคมีใช้ PaLM API เพื่อสร้างข้อมูลสรุป ที่เกี่ยวข้องกับคำค้นหาของผู้ใช้ เมื่อแบ็กเอนด์ของแอปได้รับการค้นหา แบ็กเอนด์จะดำเนินการต่อไปนี้

ค้นหา ("ดึง") ข้อมูลที่เกี่ยวข้องกับคําค้นหาของผู้ใช้
ผนวก ("เพิ่ม") ข้อมูลเคมีที่เกี่ยวข้องกับคำค้นหาของผู้ใช้
สั่งให้ LLM สร้างข้อมูลสรุปตามข้อมูลที่ต่อท้าย

เส้นโค้ง ROC (Receiver Operating Characteristic)

#fundamentals

#Metric

กราฟของอัตราผลบวกจริงเทียบกับ อัตราผลบวกลวงสำหรับเกณฑ์การจัดประเภทต่างๆ ในการจัดประเภทแบบไบนารี

รูปร่างของเส้นโค้ง ROC แสดงให้เห็นความสามารถของโมเดลการจัดประเภทแบบไบนารี ในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ สมมติว่าโมเดลการจัดประเภทแบบไบนารีแยกคลาสเชิงลบทั้งหมดออกจากคลาสเชิงบวกทั้งหมดได้อย่างสมบูรณ์ ดังนี้

เส้นจำนวนที่มีตัวอย่างบวก 8 รายการทางด้านขวาและ
ตัวอย่างลบ 7 รายการทางด้านซ้าย

เส้นโค้ง ROC สำหรับโมเดลก่อนหน้ามีลักษณะดังนี้

เส้นโค้ง ROC แกน X คืออัตราผลบวกลวง และแกน Y คืออัตราผลบวกจริง เส้นโค้งมีรูปร่างเป็นตัว L กลับด้าน เส้นโค้ง
เริ่มต้นที่ (0.0,0.0) และขึ้นไปที่ (0.0,1.0) โดยตรง จากนั้นเส้นโค้ง
จะเปลี่ยนจาก (0.0,1.0) เป็น (1.0,1.0)

ในทางตรงกันข้าม ภาพประกอบต่อไปนี้แสดงกราฟค่าการถดถอยลอจิสติกแบบดิบ สำหรับโมเดลที่แย่ซึ่งแยกคลาสเชิงลบออกจาก คลาสเชิงบวกไม่ได้เลย

เส้นจำนวนที่มีตัวอย่างที่เป็นบวกและคลาสที่เป็นลบ
ปะปนกันโดยสมบูรณ์

เส้นโค้ง ROC สำหรับโมเดลนี้มีลักษณะดังนี้

เส้นโค้ง ROC ซึ่งจริงๆ แล้วเป็นเส้นตรงจาก (0.0,0.0)
ถึง (1.0,1.0)

ในขณะเดียวกัน ในโลกแห่งความเป็นจริง โมเดลการจัดประเภทแบบไบนารีส่วนใหญ่จะแยก คลาสที่เป็นบวกและลบในระดับหนึ่ง แต่โดยปกติแล้วจะไม่สมบูรณ์แบบ ดังนั้น กราฟ ROC ทั่วไปจะอยู่ระหว่าง 2 สุดขั้วนี้

เส้นโค้ง ROC แกน X คืออัตราผลบวกลวง และแกน Y คืออัตราผลบวกจริง เส้นโค้ง ROC ประมาณค่าส่วนโค้งที่ไม่แน่นอน
ซึ่งตัดผ่านจุดเข็มทิศจากตะวันตกไปเหนือ

จุดบนเส้นโค้ง ROC ที่ใกล้กับ (0.0,1.0) มากที่สุดจะระบุเกณฑ์การแยกประเภทที่เหมาะสมในทางทฤษฎี อย่างไรก็ตาม ปัญหาอื่นๆ ในโลกแห่งความเป็นจริง มีผลต่อการเลือกเกณฑ์การแยกประเภทที่เหมาะสม ตัวอย่างเช่น ผลลบเท็จอาจสร้างความเจ็บปวดมากกว่าผลบวกเท็จ

เมตริกเชิงตัวเลขที่เรียกว่า AUC จะสรุปเส้นโค้ง ROC เป็นค่าทศนิยมค่าเดียว

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)

#fundamentals

#Metric

รากที่ 2 ของความคลาดเคลื่อนเฉลี่ยกำลังสอง

S

ฟังก์ชันซิกมอยด์

#fundamentals

ฟังก์ชันทางคณิตศาสตร์ที่ "บีบ" ค่าอินพุตให้อยู่ในช่วงที่จำกัด โดยปกติคือ 0 ถึง 1 หรือ -1 ถึง +1 กล่าวคือ คุณสามารถส่งตัวเลขใดก็ได้ (2, 1 ล้าน, -1 พันล้าน หรืออะไรก็ตาม) ไปยังฟังก์ชัน Sigmoid และเอาต์พุตจะยังคงอยู่ในช่วงที่จำกัด กราฟของฟังก์ชันการกระตุ้นแบบซิคมอยด์มีลักษณะดังนี้

ฟังก์ชันซิกมอยด์มีการใช้งานหลายอย่างในแมชชีนเลิร์นนิง ซึ่งรวมถึง

การแปลงเอาต์พุตดิบของโมเดลการถดถอยแบบโลจิสติก หรือโมเดลการถดถอยแบบมัลติโนเมียลเป็นความน่าจะเป็น
ทำหน้าที่เป็นฟังก์ชันการเปิดใช้งานใน โครงข่ายประสาทเทียมบางส่วน

คลิกไอคอนเพื่อดูคณิตศาสตร์

ฟังก์ชันซิกมอยด์สำหรับตัวเลขอินพุต x มีสูตรดังนี้

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

ในแมชชีนเลิร์นนิง โดยทั่วไป x คือผลรวมแบบถ่วงน้ำหนัก

softmax

#fundamentals

ฟังก์ชันที่กำหนดความน่าจะเป็นสำหรับแต่ละคลาสที่เป็นไปได้ในโมเดลการจัดประเภทแบบหลายคลาส ความน่าจะเป็นรวมกัน เป็น 1.0 พอดี ตัวอย่างเช่น ตารางต่อไปนี้แสดงวิธีที่ Softmax กระจาย ความน่าจะเป็นต่างๆ

รูปภาพเป็น...	Probability
สุนัข	.85
แมว	.13
ม้า	.02

Softmax เรียกอีกอย่างว่า full softmax

แตกต่างจากการสุ่มตัวอย่างผู้สมัคร

คลิกไอคอนเพื่อดูคณิตศาสตร์

สมการ Softmax มีดังนี้

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

where:

$\sigma_i$ คือเวกเตอร์เอาต์พุต องค์ประกอบแต่ละรายการของเวกเตอร์เอาต์พุต จะระบุความน่าจะเป็นขององค์ประกอบนี้ ผลรวมขององค์ประกอบทั้งหมด ในเวกเตอร์เอาต์พุตคือ 1.0 เวกเตอร์เอาต์พุตมีจำนวนองค์ประกอบเท่ากับเวกเตอร์อินพุต $z$
$z$ คือเวกเตอร์อินพุต องค์ประกอบแต่ละรายการของเวกเตอร์อินพุตมีค่าทศนิยม
$K$ คือจำนวนองค์ประกอบในเวกเตอร์อินพุต (และเวกเตอร์เอาต์พุต)

เช่น สมมติว่าเวกเตอร์อินพุตคือ

[1.2, 2.5, 1.8]

ดังนั้น Softmax จึงคำนวณตัวส่วนดังนี้

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

ดังนั้น ความน่าจะเป็นของ Softmax ของแต่ละองค์ประกอบจึงเป็นดังนี้

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

ดังนั้น เวกเตอร์เอาต์พุตจึงเป็น

$$\sigma = [0.154, 0.565, 0.281]$$

ผลรวมขององค์ประกอบทั้ง 3 ใน $\sigma$ คือ 1.0 ในที่สุด

ฟีเจอร์ Sparse

#fundamentals

ฟีเจอร์ที่มีค่าเป็น 0 หรือว่างเปล่าเป็นส่วนใหญ่ เช่น ฟีเจอร์ที่มีค่า 1 เพียงค่าเดียวและค่า 0 จำนวน 1 ล้านค่าถือเป็นฟีเจอร์ แบบกระจัดกระจาย ในทางตรงกันข้าม ฟีเจอร์แบบหนาแน่นจะมีค่าที่ส่วนใหญ่ไม่ใช่ 0 หรือว่าง

ในแมชชีนเลิร์นนิง คุณลักษณะจำนวนมากอย่างน่าประหลาดใจคือคุณลักษณะแบบเบาบาง ฟีเจอร์เชิงหมวดหมู่มักเป็นฟีเจอร์แบบกระจัดกระจาย ตัวอย่างเช่น จากต้นไม้ 300 สายพันธุ์ที่เป็นไปได้ในป่า ตัวอย่างเดียวอาจระบุได้แค่ต้นเมเปิล หรือจากวิดีโอหลายล้านรายการในคลังวิดีโอ ตัวอย่างเดียวอาจระบุได้เพียง "คาซาบลังกา"

ในโมเดล โดยปกติแล้วคุณจะแสดงฟีเจอร์แบบกระจัดกระจายด้วยการเข้ารหัสแบบ One-hot หากการเข้ารหัสแบบ One-hot มีขนาดใหญ่ คุณอาจวางเลเยอร์การฝังไว้เหนือ การเข้ารหัสแบบ One-hot เพื่อเพิ่มประสิทธิภาพ

การแสดงแบบกระจัดกระจาย

#fundamentals

จัดเก็บเฉพาะตำแหน่งขององค์ประกอบที่ไม่ใช่ศูนย์ในฟีเจอร์แบบกระจัดกระจาย

ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ species ระบุพันธุ์ไม้ 36 ชนิดในป่าแห่งหนึ่ง สมมติว่าตัวอย่างแต่ละรายการระบุเพียงชนิดเดียว

คุณสามารถใช้เวกเตอร์แบบ One-Hot เพื่อแสดงสายพันธุ์ของต้นไม้ในแต่ละตัวอย่าง เวกเตอร์แบบ One-Hot จะมี 1 เดียว (เพื่อแสดงถึง สายพันธุ์ต้นไม้ที่เฉพาะเจาะจงในตัวอย่างนั้น) และ 0 35 รายการ (เพื่อแสดงถึง สายพันธุ์ต้นไม้ 35 สายพันธุ์ที่ไม่ได้อยู่ในตัวอย่างนั้น) ดังนั้น การแสดงแบบ One-Hot ของ maple อาจมีลักษณะดังนี้

เวกเตอร์ที่ตำแหน่ง 0 ถึง 23 มีค่าเป็น 0, ตำแหน่ง 24 มีค่าเป็น 1 และตำแหน่ง 25 ถึง 35 มีค่าเป็น 0

หรือการแสดงแบบกระจัดกระจายจะระบุตำแหน่งของ สายพันธุ์ที่เฉพาะเจาะจง หาก maple อยู่ที่ตำแหน่ง 24 การแสดงแบบกระจัดกระจาย ของ maple จะเป็นดังนี้

โปรดสังเกตว่าการแสดงแบบกระจัดกระจายนั้นกะทัดรัดกว่าการแสดงแบบ One-Hot มาก

คลิกไอคอนเพื่อดูตัวอย่างที่ซับซ้อนขึ้นเล็กน้อย

สมมติว่าตัวอย่างแต่ละรายการในโมเดลต้องแสดงคำต่างๆ ในประโยคภาษาอังกฤษ แต่ไม่ต้องแสดงลำดับของคำเหล่านั้น ภาษาอังกฤษมีคำศัพท์ประมาณ 170,000 คำ ดังนั้นภาษาอังกฤษจึงเป็นฟีเจอร์เชิงหมวดหมู่ที่มีองค์ประกอบประมาณ 170,000 รายการ ประโยคภาษาอังกฤษส่วนใหญ่ใช้คำเพียงเล็กน้อยจากคำ 170,000 คำ ดังนั้นชุดคำในตัวอย่างเดียวจึงแทบจะเป็นข้อมูลเบาบางอย่างแน่นอน

ลองพิจารณาประโยคต่อไปนี้

My dog is a great dog

คุณอาจใช้เวกเตอร์แบบ One-Hot ที่ดัดแปลงเพื่อแสดงคำในประโยคนี้ ในตัวแปรนี้ เซลล์หลายเซลล์ในเวกเตอร์อาจมีค่าที่ไม่ใช่ 0 นอกจากนี้ ในรูปแบบนี้ เซลล์จะมีจำนวนเต็ม ที่ไม่ใช่ 1 ได้ แม้ว่าคำว่า "my", "is", "a" และ "great" จะปรากฏเพียงครั้งเดียวในประโยค แต่คำว่า "dog" ปรากฏ 2 ครั้ง การใช้เวกเตอร์แบบ One-Hot รูปแบบนี้เพื่อแสดงคำในประโยคนี้จะให้เวกเตอร์ที่มีองค์ประกอบ 170,000 รายการดังนี้

การแสดงประโยคเดียวกันแบบกระจัดกระจายจะเป็นดังนี้

คลิกไอคอนหากคุณสับสน

คำว่า "Sparse Representation" ทำให้หลายคนสับสนเนื่องจาก Sparse Representation ไม่ใช่เวกเตอร์แบบ Sparse แต่การแสดงแบบกระจัดกระจาย คือการแสดงแบบหนาแน่นของเวกเตอร์แบบกระจัดกระจาย การแสดงดัชนีคำพ้องความหมายจะชัดเจนกว่า "การแสดงแบบกระจัดกระจาย" เล็กน้อย

ดูข้อมูลเพิ่มเติมได้ที่การทำงานกับข้อมูลเชิงหมวดหมู่ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เวกเตอร์แบบกระจัดกระจาย

#fundamentals

เวกเตอร์ที่มีค่าเป็น 0 เป็นส่วนใหญ่ ดูฟีเจอร์แบบกระจัดกระจาย และความกระจัดกระจายด้วย

การสูญเสียกำลังสอง

#fundamentals

#Metric

คำพ้องความหมายของL₂ loss

คงที่

#fundamentals

สิ่งที่ทำครั้งเดียวแทนที่จะทำอย่างต่อเนื่อง คำว่าคงที่และออฟไลน์มีความหมายเหมือนกัน ต่อไปนี้คือการใช้งาน static และ offline ทั่วไปในแมชชีนเลิร์นนิง

โมเดลแบบคงที่ (หรือโมเดลออฟไลน์) คือโมเดลที่ได้รับการฝึกเพียงครั้งเดียวและ นำไปใช้เป็นระยะเวลาหนึ่ง
การฝึกแบบคงที่ (หรือการฝึกแบบออฟไลน์) คือกระบวนการฝึก โมเดลแบบคงที่
การอนุมานแบบคงที่ (หรือการอนุมานแบบออฟไลน์) คือกระบวนการที่โมเดลสร้างการคาดการณ์แบบกลุ่มครั้งละ 1 กลุ่ม

คอนทราสต์กับไดนามิก

การอนุมานแบบคงที่

#fundamentals

คำพ้องความหมายของการอนุมานแบบออฟไลน์

ความคงที่

#fundamentals

ฟีเจอร์ที่มีค่าไม่เปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักจะเป็นเวลา ตัวอย่างเช่น ฟีเจอร์ที่มีค่าที่ดูเหมือนกันในปี 2021 และ 2023 จะแสดงความคงที่

ในโลกแห่งความเป็นจริง มีฟีเจอร์เพียงไม่กี่อย่างที่แสดงความคงที่ แม้แต่ฟีเจอร์ที่ มีความหมายเหมือนกันกับความเสถียร (เช่น ระดับน้ำทะเล) ก็เปลี่ยนแปลงไปตามกาลเวลา

แตกต่างจากความไม่คงที่

การไล่ระดับสีแบบสุ่ม (SGD)

#fundamentals

อัลกอริทึมการไล่ระดับสีซึ่งมีขนาดกลุ่มเป็น 1 กล่าวอีกนัยหนึ่งคือ SGD ฝึกกับ ตัวอย่างเดียวที่เลือกแบบสุ่ม อย่างสม่ำเสมอจากชุดการฝึก

แมชชีนเลิร์นนิงที่มีการควบคุมดูแล

#fundamentals

การฝึกโมเดลจากฟีเจอร์และป้ายกำกับที่เกี่ยวข้อง แมชชีนเลิร์นนิงที่มีการควบคุมดูแลเปรียบเสมือน การเรียนรู้เรื่องหนึ่งๆ โดยการศึกษาชุดคำถามและคำตอบที่ เกี่ยวข้อง หลังจากเข้าใจความสัมพันธ์ระหว่างคำถามและคำตอบแล้ว นักเรียนจะสามารถตอบคำถามใหม่ (ที่ไม่เคยเห็นมาก่อน) ในหัวข้อเดียวกันได้

เปรียบเทียบกับแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบมีผู้ดูแล ในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับ ML

ฟีเจอร์สังเคราะห์

#fundamentals

ฟีเจอร์ที่ไม่มีในฟีเจอร์อินพุต แต่ ประกอบขึ้นจากฟีเจอร์อินพุตอย่างน้อย 1 รายการ วิธีการสร้างฟีเจอร์สังเคราะห์ มีดังนี้

การจัดกลุ่มฟีเจอร์ต่อเนื่องเป็นกลุ่มช่วง
การสร้างครอสฟีเจอร์
การคูณ (หรือหาร) ค่าฟีเจอร์หนึ่งด้วยค่าฟีเจอร์อื่นๆ หรือด้วยค่าของฟีเจอร์นั้นเอง เช่น หาก a และ b เป็นฟีเจอร์อินพุต ตัวอย่างฟีเจอร์สังเคราะห์มีดังนี้
- ab
- a²
การใช้ฟังก์ชันอดิศัยกับค่าฟีเจอร์ ตัวอย่างเช่น หาก c เป็นฟีเจอร์อินพุต ตัวอย่างฟีเจอร์สังเคราะห์มีดังนี้
- sin(c)
- ln(c)

ฟีเจอร์ที่สร้างขึ้นโดยการปรับให้เป็นมาตรฐานหรือปรับขนาด เพียงอย่างเดียวไม่ถือเป็นฟีเจอร์สังเคราะห์

T

การสูญเสียการทดสอบ

#fundamentals

#Metric

เมตริกที่แสดงถึงการสูญเสียของโมเดลเทียบกับ ชุดทดสอบ เมื่อสร้างโมเดล คุณ มักจะพยายามลดการสูญเสียในการทดสอบ เนื่องจากค่าการสูญเสียในการทดสอบที่ต่ำเป็นสัญญาณคุณภาพที่แข็งแกร่งกว่าการสูญเสียในการฝึกหรือการสูญเสียในการตรวจสอบที่ต่ำ

ช่องว่างขนาดใหญ่ระหว่างการสูญเสียในการทดสอบกับการสูญเสียในการฝึกหรือการสูญเสียในการตรวจสอบบางครั้ง บ่งชี้ว่าคุณต้องเพิ่มอัตราการทำให้เป็นปกติ

การฝึกอบรม

#fundamentals

กระบวนการในการกำหนดพารามิเตอร์ (น้ำหนักและความเอนเอียง) ที่เหมาะสม ซึ่งประกอบกันเป็นโมเดล ในระหว่างการฝึก ระบบจะอ่านตัวอย่างและค่อยๆ ปรับพารามิเตอร์ การฝึกจะใช้ตัวอย่างแต่ละรายการตั้งแต่ไม่กี่ครั้งไปจนถึงหลายพันล้านครั้ง

การลดลงของการฝึก

#fundamentals

#Metric

เมตริกที่แสดงการสูญเสียของโมเดลระหว่างการฝึก ในรอบการฝึกที่เฉพาะเจาะจง เช่น สมมติว่าฟังก์ชันการสูญเสีย คือความคลาดเคลื่อนกำลังสองเฉลี่ย เช่น การสูญเสียการฝึก (ข้อผิดพลาดกำลังสองเฉลี่ย) สำหรับการทำซ้ำครั้งที่ 10 คือ 2.2 และการสูญเสียการฝึกสำหรับการทำซ้ำครั้งที่ 100 คือ 1.9

เส้นโค้งการสูญเสียจะพล็อตการสูญเสียการฝึกเทียบกับจำนวน การทำซ้ำ เส้นโค้งการสูญเสียจะให้คำแนะนำต่อไปนี้เกี่ยวกับการฝึก

เส้นโค้งที่ลาดลงหมายความว่าโมเดลกำลังปรับปรุง
ความชันที่เพิ่มขึ้นหมายความว่าโมเดลแย่ลง
ความชันที่แบนราบแสดงให้เห็นว่าโมเดลถึงการบรรจบกันแล้ว

ตัวอย่างเช่น เส้นโค้งการสูญเสีย ต่อไปนี้แสดงให้เห็นว่า

ความชันที่ลดลงอย่างรวดเร็วในระหว่างการทำซ้ำครั้งแรก ซึ่งหมายถึงการปรับปรุงโมเดลอย่างรวดเร็ว
ความชันที่ค่อยๆ แบนราบ (แต่ยังคงลดลง) จนกระทั่งใกล้สิ้นสุด การฝึก ซึ่งหมายถึงการปรับปรุงโมเดลอย่างต่อเนื่องในอัตราที่ช้าลงเล็กน้อย กว่าในช่วงการทำซ้ำครั้งแรก
ความชันที่ราบเรียบในช่วงท้ายของการฝึก ซึ่งบ่งบอกถึงการบรรจบกัน

พล็อตของการลดลงของการฝึกเทียบกับการทำซ้ำ เส้นโค้งการสูญเสียนี้เริ่มต้น
ด้วยความชันที่ลดลงอย่างรวดเร็ว ความชันจะค่อยๆ แบนราบจนกว่า
ความชันจะเป็น 0

แม้ว่าการสูญเสียจากการฝึกจะมีความสําคัญ แต่โปรดดูการวางนัยทั่วไปด้วย

ความคลาดเคลื่อนระหว่างการฝึกและการให้บริการ

#fundamentals

ความแตกต่างระหว่างประสิทธิภาพของโมเดลในระหว่างการฝึกกับประสิทธิภาพของโมเดลเดียวกันในระหว่างการแสดง

ชุดฝึก

#fundamentals

ชุดย่อยของชุดข้อมูลที่ใช้ฝึกโมเดล

โดยปกติแล้ว ตัวอย่างในชุดข้อมูลจะแบ่งออกเป็น 3 กลุ่มย่อยที่แตกต่างกันดังนี้

ชุดฝึก
ชุดข้อมูลสำหรับตรวจสอบความถูกต้อง
ชุดทดสอบ

ในอุดมคติ ตัวอย่างแต่ละรายการในชุดข้อมูลควรอยู่ในชุดย่อยที่กล่าวถึงก่อนหน้าเพียงชุดเดียว เช่น ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดข้อมูลการฝึกและชุดข้อมูลการตรวจสอบ

ดูข้อมูลเพิ่มเติมได้ที่ชุดข้อมูล: การแบ่งชุดข้อมูลเดิม ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ผลลบจริง (TN)

#fundamentals

#Metric

ตัวอย่างที่โมเดลคาดการณ์อย่างถูกต้อง คลาสเชิงลบ ตัวอย่างเช่น โมเดลอนุมานว่า ข้อความอีเมลหนึ่งไม่ใช่จดหมายขยะ และข้อความอีเมลนั้นไม่ใช่จดหมายขยะจริงๆ

ผลบวกจริง (TP)

#fundamentals

#Metric

ตัวอย่างที่โมเดลคาดการณ์อย่างถูกต้องว่า คลาสที่เป็นบวก เช่น โมเดลอนุมานว่า ข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ และข้อความอีเมลนั้นเป็นจดหมายขยะจริงๆ

อัตราผลบวกจริง (TPR)

#fundamentals

#Metric

คำพ้องความหมายของการเรียกคืน โดยการ

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

อัตราผลบวกจริงคือแกน y ในกราฟ ROC

U

Underfitting

#fundamentals

การสร้างโมเดลที่มีความสามารถในการคาดการณ์ต่ำเนื่องจากโมเดล ยังไม่ได้รับความซับซ้อนของข้อมูลการฝึกอย่างเต็มที่ ปัญหาหลายอย่าง อาจทำให้เกิดการปรับแบบน้อยเกินไป ได้แก่

การฝึกกับชุดฟีเจอร์ที่ไม่ถูกต้อง
การฝึกEpoch น้อยเกินไปหรือมีอัตราการเรียนรู้ต่ำเกินไป
การฝึกที่มีอัตราการทำให้เป็นปกติสูงเกินไป
การระบุเลเยอร์ที่ซ่อนน้อยเกินไปใน โครงข่ายประสาทเทียมแบบลึก

ตัวอย่างที่ไม่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์แต่ไม่มีป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่างที่ไม่ได้ติดป้ายกำกับ 3 รายการจากโมเดลการประเมินบ้าน โดยแต่ละรายการมีฟีเจอร์ 3 รายการแต่ไม่มีมูลค่าบ้าน

จำนวนห้องนอน	จำนวนห้องน้ำ	อายุบ้าน
3	2	15
2	1	72
4	2	34

ในการเรียนรู้แบบกึ่งควบคุมดูแลและ ไม่มีการควบคุมดูแล จะใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการฝึก

เปรียบเทียบตัวอย่างที่ไม่มีป้ายกำกับกับตัวอย่างที่มีป้ายกำกับ

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

#clustering

#fundamentals

การฝึกโมเดลเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งโดยปกติจะเป็นชุดข้อมูลที่ไม่มีป้ายกำกับ

การใช้งานแมชชีนเลิร์นนิงแบบไม่มีการกำกับดูแลที่พบบ่อยที่สุดคือการจัดกลุ่มข้อมูล เป็นกลุ่มของตัวอย่างที่คล้ายกัน ตัวอย่างเช่น อัลกอริทึมแมชชีนเลิร์นนิงแบบไม่มีการกำกับดูแล สามารถจัดกลุ่มเพลงตามคุณสมบัติต่างๆ ของเพลงได้ คลัสเตอร์ที่ได้สามารถกลายเป็นอินพุตสำหรับอัลกอริทึมแมชชีนเลิร์นนิงอื่นๆ (เช่น สำหรับบริการแนะนำเพลง) การจัดกลุ่มช่วยได้ในกรณีที่ป้ายกำกับที่มีประโยชน์หายากหรือไม่มีเลย ตัวอย่างเช่น ในโดเมนต่างๆ เช่น การต่อต้านการละเมิดและการฉ้อโกง คลัสเตอร์จะช่วยให้ มนุษย์เข้าใจข้อมูลได้ดีขึ้น

เปรียบเทียบกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

อีกตัวอย่างหนึ่งของแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลคือการวิเคราะห์องค์ประกอบหลัก (PCA) ตัวอย่างเช่น การใช้ PCA กับชุดข้อมูลที่มีเนื้อหาของรถเข็นช็อปปิ้งนับล้านอาจเผยให้เห็นว่ารถเข็นช็อปปิ้งที่มีมะนาวมักจะมีผลิตภัณฑ์ยาลดกรดด้วย

ดูข้อมูลเพิ่มเติมได้ที่แมชชีนเลิร์นนิงคืออะไร ในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับ ML

V

การตรวจสอบความถูกต้อง

#fundamentals

การประเมินคุณภาพของโมเดลในขั้นต้น การตรวจสอบจะตรวจสอบคุณภาพของการคาดการณ์ของโมเดลเทียบกับชุดข้อมูลการตรวจสอบ

เนื่องจากชุดข้อมูลการตรวจสอบแตกต่างจากชุดข้อมูลการฝึก การตรวจสอบจึงช่วยป้องกันการปรับมากเกินไป

คุณอาจคิดว่าการประเมินโมเดลกับชุดการตรวจสอบเป็นการทดสอบรอบแรก และการประเมินโมเดลกับชุดการทดสอบเป็นการทดสอบรอบที่ 2

การสูญเสียการตรวจสอบ

#fundamentals

#Metric

เมตริกที่แสดงการสูญเสียของโมเดลในชุดข้อมูลการตรวจสอบระหว่างการวนซ้ำของการฝึก

ดูเส้นโค้งการสรุปด้วย

ชุดข้อมูลสำหรับตรวจสอบความถูกต้อง

#fundamentals

ชุดย่อยของชุดข้อมูลที่ทำการประเมินเบื้องต้นกับโมเดลที่ฝึกแล้ว โดยปกติแล้ว คุณจะประเมิน โมเดลที่ฝึกแล้วกับชุดข้อมูลการตรวจสอบหลายครั้ง ก่อนที่จะประเมินโมเดลกับชุดข้อมูลทดสอบ

โดยปกติแล้ว คุณจะแบ่งตัวอย่างในชุดข้อมูลออกเป็น 3 ชุดย่อยที่แตกต่างกันดังนี้

ชุดฝึก
ชุดข้อมูลสำหรับตรวจสอบความถูกต้อง
ชุดทดสอบ

W

น้ำหนัก

#fundamentals

ค่าที่โมเดลคูณด้วยค่าอื่น การฝึกคือกระบวนการกำหนดน้ำหนักที่เหมาะสมของโมเดล การอนุมานคือกระบวนการใช้น้ำหนักที่เรียนรู้เหล่านั้นเพื่อ ทำการคาดการณ์

คลิกไอคอนเพื่อดูตัวอย่างน้ำหนักในโมเดลเชิงเส้น

ลองนึกถึงโมเดลเชิงเส้นที่มีฟีเจอร์ 2 รายการ สมมติว่าการฝึกกำหนดน้ำหนัก (และอคติ) ดังต่อไปนี้

ค่าของอคติ b คือ 2.2
น้ำหนัก w₁ ที่เชื่อมโยงกับฟีเจอร์หนึ่งคือ 1.5
น้ำหนัก w₂ ที่เชื่อมโยงกับฟีเจอร์อื่นคือ 0.4

ตอนนี้ลองนึกถึงตัวอย่างที่มีค่าฟีเจอร์ต่อไปนี้

ค่าของฟีเจอร์หนึ่ง x₁ คือ 6
ค่าของฟีเจอร์อื่นๆ x₂ คือ 10

รูปแบบเชิงเส้นนี้ใช้สูตรต่อไปนี้เพื่อสร้างการคาดการณ์ y':

$$y' = b + w_1x_1 + w_2x_2$$

ดังนั้น การคาดการณ์จึงเป็นดังนี้

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

หากน้ำหนักเป็น 0 แสดงว่าฟีเจอร์ที่เกี่ยวข้องไม่ได้มีส่วนช่วยในโมเดล เช่น หาก w₁ เป็น 0 ค่าของ x₁ ก็ไม่เกี่ยวข้อง

ผลรวมแบบถ่วงน้ำหนัก

#fundamentals

ผลรวมของค่าอินพุตที่เกี่ยวข้องทั้งหมดคูณด้วย ค่าถ่วงน้ำหนักที่สอดคล้องกัน ตัวอย่างเช่น สมมติว่าอินพุตที่เกี่ยวข้องประกอบด้วยข้อมูลต่อไปนี้

ค่าอินพุต	น้ำหนักอินพุต
2	-1.3
-1	0.6
3	0.4

ดังนั้น ผลรวมแบบถ่วงน้ำหนักจึงเป็นดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

ผลรวมแบบถ่วงน้ำหนักคืออาร์กิวเมนต์อินพุตของฟังก์ชันกระตุ้น

Z

การแปลงข้อมูลเป็นรูปแบบมาตรฐาน Z-Score

#fundamentals

เทคนิคการปรับขนาดที่แทนที่ค่าฟีเจอร์ดิบด้วยค่าทศนิยมที่แสดงถึงจำนวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของฟีเจอร์นั้น ตัวอย่างเช่น ลองพิจารณาฟีเจอร์ที่มีค่าเฉลี่ย 800 และค่าเบี่ยงเบนมาตรฐาน 100 ตารางต่อไปนี้แสดงวิธีที่การปรับค่าให้เป็นมาตรฐาน Z-score จะจับคู่ค่าดิบกับ Z-score

ค่าดิบ	คะแนนมาตรฐาน (Z-Score)
800	0
950	+1.5
575	-2.25

จากนั้นโมเดลแมชชีนเลิร์นนิงจะฝึกกับคะแนน Z สำหรับฟีเจอร์นั้นแทนที่จะฝึกกับค่าดิบ

A

ความแม่นยำ

คลิกไอคอนเพื่อดูรายละเอียดเกี่ยวกับความแม่นยำและชุดข้อมูลที่มีความไม่สมดุลของคลาส

ฟังก์ชันการเปิดใช้งาน

คลิกไอคอนเพื่อดูตัวอย่าง

ปัญญาประดิษฐ์ (AI)

AUC (พื้นที่ใต้กราฟ ROC)

คลิกไอคอนเพื่อดูข้อมูลเกี่ยวกับความสัมพันธ์ระหว่าง AUC กับเส้นโค้ง ROC

คลิกไอคอนเพื่อดูคำจำกัดความของ AUC ที่เป็นทางการมากขึ้น

B

การแพร่ย้อนกลับ

กลุ่ม

ขนาดกลุ่ม

อคติ (จริยธรรม/ความเป็นธรรม)

อคติ (คณิตศาสตร์) หรือเทอมอคติ

การจัดประเภทแบบไบนารี

การจัดกลุ่ม

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

C

ข้อมูลเชิงหมวดหมู่

คลาส

โมเดลการแยกประเภท

เกณฑ์การจัดประเภท

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

ตัวแยกประเภท

ชุดข้อมูลที่มีความไม่สมดุลของคลาส

การตัด

เมตริกความสับสน

ฟีเจอร์ต่อเนื่อง

การบรรจบกัน

D

DataFrame

ชุดข้อมูล

โมเดลเชิงลึก

ฟีเจอร์หนาแน่น

ความลึก

ฟีเจอร์ที่ไม่ต่อเนื่อง

ไดนามิก

โมเดลแบบไดนามิก

E

การหยุดก่อนกำหนด

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เลเยอร์การฝัง

Epoch

ตัวอย่าง

F

ผลลบลวง (FN)

ผลบวกลวง (FP)

อัตราผลบวกลวง (FPR)

ฟีเจอร์

ฟีเจอร์ข้าม

Feature Engineering

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติมเกี่ยวกับ TensorFlow

ชุดฟีเจอร์

เวกเตอร์ฟีเจอร์

วงจรความคิดเห็น

G

การสรุป

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เส้นโค้งการสรุป

การไล่ระดับความชัน

ข้อมูลจากการสังเกตการณ์โดยตรง

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

H

เลเยอร์ที่ซ่อนอยู่

ไฮเปอร์พารามิเตอร์

I

มีการแจกแจงแบบอิสระและเหมือนกัน (i.i.d)

การอนุมาน

เลเยอร์อินพุต

ความสามารถในการตีความ

การทำซ้ำ

L

Regularization แบบ L0

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

แพ้ 1 นัด

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

Regularization แบบ L1

การสูญเสีย L2

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

Regularization แบบ L₀

แพ้ ₁ นัด

Regularization แบบ L₁

การสูญเสีย L₂

การทำ Regularization แบบ L₂