หน้านี้ได้รับการแปลโดย Cloud Translation API

อภิธานศัพท์ของแมชชีนเลิร์นนิง: พื้นฐาน ML

หน้านี้มีคำศัพท์ในอภิธานศัพท์ของ ML Fundamentals หากต้องการดูคำศัพท์ในอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

ความแม่นยำ

#fundamentals

จำนวนการคาดการณ์การจัดประเภทที่ถูกต้องหารด้วยจำนวนการคาดการณ์ทั้งหมด โดยการ

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

เช่น โมเดลที่ทำการคาดการณ์ถูกต้อง 40 รายการและการคาดการณ์ที่ไม่ถูกต้อง 10 รายการจะมีความแม่นยำดังนี้

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

การจัดประเภทแบบไบนารีจะระบุชื่อเฉพาะสำหรับหมวดหมู่ต่างๆ ของการคาดการณ์ที่ถูกต้องและการคาดการณ์ที่ไม่ถูกต้อง ดังนั้นสูตรความแม่นยำสำหรับการจัดประเภทแบบไบนารี มีดังนี้

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

ที่ไหน:

TP คือจำนวนผลบวกจริง (การคาดการณ์ที่ถูกต้อง)
TN คือจำนวนผลลบจริง (การคาดคะเนที่ถูกต้อง)
FP คือจํานวนผลบวกลวง (การคาดการณ์ไม่ถูกต้อง)
FN คือจำนวนผลลบลวง (การคาดการณ์ไม่ถูกต้อง)

เปรียบเทียบระหว่างความแม่นยำกับความแม่นยำและความอ่อนไหว

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

แม้ว่าเมตริกที่เป็นประโยชน์ในบางสถานการณ์ ความแม่นยำก็ทำให้ผู้อื่นเข้าใจผิดอย่างมาก สิ่งที่ควรทราบคือ ความแม่นยํามักจะเป็นเมตริกที่ไม่ดีในการประเมินโมเดลการจัดประเภทที่ประมวลผลชุดข้อมูลที่ไม่สมดุลระดับ

ตัวอย่างเช่น สมมติว่าหิมะตกเพียง 25 วันต่อศตวรรษในเมืองกึ่งเขตร้อนบางเมือง เนื่องจากวันที่ไม่มีหิมะ (คลาสเชิงลบ) มีจำนวนมากกว่าวันที่หิมะตก (คลาสเชิงบวก) ชุดข้อมูลหิมะของเมืองนี้จึงไม่สมดุล ลองจินตนาการถึงโมเดลการจัดประเภทแบบไบนารีที่ควรคาดเดาว่าจะมีหิมะหรือไม่ในแต่ละวัน แต่เพียงแค่คาดการณ์ว่า "หิมะไม่ตก" ทุกวัน โมเดลนี้มีความแม่นยำสูงแต่ไม่มีความสามารถในการคาดการณ์ ตารางต่อไปนี้สรุปผลลัพธ์ของการคาดการณ์สำหรับศตวรรษ

หมวดหมู่	ตัวเลข
TP	0
TN	36500
FP	25
FN	0

ดังนั้น ความแม่นยำของโมเดลนี้จึง:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

แม้ว่าความแม่นยำ 99.93% จะดูเหมือนเป็นเปอร์เซ็นต์ที่น่าประทับใจมาก แต่จริงๆ แล้วโมเดลนี้ไม่มีประสิทธิภาพในการคาดการณ์เลย

ความแม่นยำและการจดจำมักจะเป็นเมตริกที่มีประโยชน์มากกว่าความแม่นยำสำหรับการประเมินโมเดลที่ฝึกกับชุดข้อมูลที่ไม่สมดุลระดับ

ฟังก์ชันการเปิดใช้งาน

#fundamentals

ฟังก์ชันที่ช่วยให้โครงข่ายระบบประสาทเทียมเรียนรู้ความสัมพันธ์แบบไม่ใช่เชิงเส้น (ที่ซับซ้อน) ระหว่างฟีเจอร์ต่างๆ และป้ายกำกับ

ฟังก์ชันการเปิดใช้งานยอดนิยม ได้แก่

ReLU
Sigmoid

พล็อตของฟังก์ชันการเปิดใช้งานไม่ได้เป็นเส้นตรงเดี่ยว เช่น พล็อตของฟังก์ชันการเปิดใช้งาน ReLU ประกอบด้วยเส้นตรง 2 เส้น ดังนี้

พล็อตแบบคาร์เตเซียที่มีเส้น 2 เส้น บรรทัดแรกมีค่า y คงที่เป็น 0 วิ่งตามแกน x ตั้งแต่ -infinity, 0 ถึง 0,-0
บรรทัดที่ 2 เริ่มต้นที่ 0,0 เส้นนี้มีความชันของ +1 ดังนั้น
จึงเริ่มต้นจาก 0,0 ถึง +อนันต์, +อนันต์

พล็อตของฟังก์ชันการเปิดใช้งานซิกมอยด์มีลักษณะดังต่อไปนี้

พล็อตแบบโค้ง 2 มิติที่มีค่า x ซึ่งครอบคลุมโดเมนตั้งแต่ -อนันต์ไปจนถึง +บวก ขณะที่ค่า y อยู่ในช่วงเกือบ 0 ถึงเกือบ 1 เมื่อ x เท่ากับ 0 ค่า y จะเท่ากับ 0.5 ความชันของเส้นโค้งจะเป็นบวกเสมอ โดยมีความชันสูงสุดที่ 0,0.5 และค่อยๆ ลดความชันลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

คลิกไอคอนเพื่อดูตัวอย่าง

ในเครือข่ายประสาทเทียม ฟังก์ชันการเปิดใช้งานจะปรับเปลี่ยนผลรวมถ่วงน้ำหนักของอินพุตทั้งหมดไปยังเซลล์ประสาท ในการคำนวณผลรวมถ่วงน้ำหนัก เซลล์ประสาทจะบวกผลคูณของค่าและน้ำหนักที่เกี่ยวข้อง ตัวอย่างเช่น สมมติว่าอินพุตที่เกี่ยวข้อง สำหรับเซลล์ประสาทประกอบด้วยข้อมูลต่อไปนี้

ค่าอินพุต	น้ำหนักอินพุต
2	-1.3
-1	0.6
3	0.4

ดังนั้นผลรวมถ่วงน้ำหนักจะเป็นดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

สมมติว่าผู้ออกแบบโครงข่ายระบบประสาทนี้เลือก ฟังก์ชันซิกมอยด์เป็น ฟังก์ชันเปิดใช้งาน ในกรณีดังกล่าว เซลล์ประสาทจะคำนวณซิกมอยด์ของ -2.0 ซึ่งเท่ากับประมาณ 0.12 ดังนั้น เซลล์ประสาทจะส่งผ่าน 0.12 (แทน -2.0) ไปยังชั้นถัดไปในโครงข่ายประสาท รูปภาพต่อไปนี้แสดงส่วนที่เกี่ยวข้องของกระบวนการ

ปัญญาประดิษฐ์ (AI)

#fundamentals

โปรแกรมหรือmodelที่ไม่ใช่มนุษย์ซึ่งแก้ปัญหาที่ซับซ้อนได้ ตัวอย่างเช่น โปรแกรมหรือโมเดลที่แปลข้อความหรือโปรแกรมหรือโมเดลที่ระบุโรคต่างๆ จากภาพรังสีวิทยาแสดงปัญญาประดิษฐ์ (AI)

อย่างเป็นทางการ แมชชีนเลิร์นนิงเป็นสาขาย่อยของปัญญาประดิษฐ์ (AI) อย่างไรก็ตาม ในช่วงไม่กี่ปีที่ผ่านมา องค์กรบางแห่งได้เริ่มใช้คำว่าปัญญาประดิษฐ์ (AI) และแมชชีนเลิร์นนิงแทนกัน

AUC (พื้นที่ใต้กราฟ ROC)

#fundamentals

จำนวนระหว่าง 0.0 ถึง 1.0 ที่แสดงถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสบวกออกจากคลาสเชิงลบ ยิ่ง AUC ใกล้เคียงกับ 1.0 มากเท่าใด โมเดลจะสามารถแยกคลาสออกจากกันได้ดีขึ้น

ตัวอย่างเช่น ภาพประกอบต่อไปนี้แสดงโมเดลตัวแยกประเภทที่แยกคลาสบวก (วงรีสีเขียว) ออกจากคลาสลบ (สี่เหลี่ยมผืนผ้าสีม่วง) ได้อย่างสมบูรณ์แบบ โมเดลที่ไม่สมบูรณ์แบบนี้มี AUC 1.0:

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 8 ด้านในด้านหนึ่งและตัวอย่างเชิงลบ 9 รายการที่อีกด้านหนึ่ง

ในทางกลับกัน ภาพประกอบต่อไปนี้จะแสดงผลลัพธ์ของโมเดลตัวแยกประเภทที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มี AUC 0.5:

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
ลำดับของตัวอย่างคือบวก ด้านลบ ผลบวก ผลบวก บวก แง่ลบ แง่ลบ แง่ลบ แง่ลบ บวก ลบ

ใช่ โมเดลก่อนหน้ามี AUC เป็น 0.5 ไม่ใช่ 0.0

โมเดลส่วนใหญ่จะอยู่ระหว่างปลายทั้ง 2 ด้าน ตัวอย่างเช่น โมเดลต่อไปนี้จะแยกรายการเชิงบวกออกจากรายการเชิงลบ ดังนั้นจึงมี AUC อยู่ระหว่าง 0.5 ถึง 1.0

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
ลำดับของตัวอย่างคือ ลบ ลบ ลบ ลบ บวก ลบ บวก ลบ แง่ลบ บวก บวก

AUC จะไม่สนใจค่าที่คุณตั้งไว้สำหรับเกณฑ์การจัดประเภท แต่ AUC จะพิจารณาเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมด

คลิกไอคอนเพื่อดูข้อมูลเกี่ยวกับความสัมพันธ์ระหว่างเส้นโค้ง AUC และ ROC

AUC แสดงพื้นที่ภายใต้เส้นโค้ง ROC ตัวอย่างเช่น เส้นโค้ง ROC สำหรับโมเดลที่แยกผลบวกออกจากผลลบอย่างสมบูรณ์แบบมีลักษณะดังต่อไปนี้

AUC คือพื้นที่ของบริเวณที่เป็นสีเทาในภาพประกอบก่อนหน้านี้ ในกรณีที่ผิดปกตินี้ พื้นที่จะมีความยาวของพื้นที่สีเทา (1.0) คูณด้วยความกว้างของพื้นที่สีเทา (1.0) ดังนั้นผลคูณของ 1.0 และ 1.0 จะให้ AUC ที่ 1.0 พอดีซึ่งเป็นคะแนน AUC ที่สูงที่สุด

ในทางกลับกัน เส้นโค้ง ROC สำหรับตัวแยกประเภทที่ไม่สามารถแยกคลาสได้ทั้งหมดจะมีลักษณะดังนี้ พื้นที่สีเทานี้คือ 0.5

เส้นโค้ง ROC ตามปกติจะมีลักษณะประมาณต่อไปนี้

การคำนวณพื้นที่ใต้เส้นโค้งนี้ด้วยตนเองเป็นเรื่องยาก ซึ่งเป็นเหตุผลที่โปรแกรมจะคำนวณค่า AUC ส่วนใหญ่

คลิกไอคอนเพื่อดูคำจำกัดความ AUC ที่เป็นทางการมากขึ้น

AUC คือความน่าจะเป็นที่ตัวแยกประเภทจะมั่นใจมากขึ้นว่าตัวอย่างเชิงบวกที่ได้รับการสุ่มเลือกนั้นเป็นเชิงบวกจริงๆ มากกว่าตัวอย่างเชิงลบที่ได้รับการสุ่มเลือกให้เป็นเชิงบวก

B

การแพร่พันธุ์ย้อนกลับ

#fundamentals

อัลกอริทึมที่ใช้การลดระดับการไล่ระดับสีในโครงข่ายระบบประสาทเทียม

การฝึกโครงข่ายระบบประสาทเทียมมีการทำซ้ำหลายครั้งของวงจร 2 ทางต่อไปนี้

ในระหว่างการส่งต่อ ระบบจะประมวลผลกลุ่มของตัวอย่างเพื่อสร้างการคาดการณ์ ระบบจะเปรียบเทียบการคาดการณ์แต่ละรายการกับค่า label แต่ละค่า ความแตกต่างระหว่างการคาดการณ์กับค่าของป้ายกํากับคือ loss สําหรับตัวอย่างนั้น ระบบจะรวมผลเสียของตัวอย่างทั้งหมดเพื่อคำนวณการสูญเสียรวมของแบทช์ปัจจุบัน
ระหว่างการย้อนกลับทางเก่า (backproagation) ระบบจะลดการสูญเสียโดยการปรับน้ำหนักของเซลล์ประสาททั้งหมดในเลเยอร์ที่ซ่อนอยู่ทั้งหมด

โครงข่ายประสาทมักมีเซลล์ประสาทจำนวนมากตามชั้นที่ซ่อนอยู่ เซลล์ประสาทแต่ละเซลล์มีส่วนทำให้เกิดการสูญเสียโดยรวมในรูปแบบที่ไม่เหมือนกัน การแพร่พันธุ์กลับเป็นตัวกำหนดว่าจะเพิ่มหรือลดน้ำหนักที่ใช้กับเซลล์ประสาทหนึ่งๆ

อัตราการเรียนรู้คือตัวคูณที่ควบคุมระดับของการเพิ่มหรือลดน้ำหนักของแต่ละส่วนในการย้อนกลับ อัตราการเรียนรู้สูงจะเพิ่มหรือลดน้ำหนักของแต่ละระดับมากกว่าอัตราการเรียนรู้เพียงเล็กน้อย

ในทางแคลคูลัส การแพร่ย้อนกลับจะนำกฎเชนมาใช้จากแคลคูลัส ซึ่งก็คือการนำไปใช้ย้อนกลับจะคำนวณอนุพันธ์บางส่วนของข้อผิดพลาดโดยยึดตามพารามิเตอร์แต่ละรายการ

หลายปีที่ผ่านมา ผู้ปฏิบัติงาน ML ต้องเขียนโค้ดเพื่อปรับใช้การนำไปใช้ในภายหลัง ตอนนี้ ML API สมัยใหม่ เช่น TensorFlow นำการนำไปใช้ย้อนกลับให้คุณแล้ว ในที่สุด

กลุ่ม

#fundamentals

ชุดตัวอย่างที่ใช้ในทำซ้ำการฝึกรายการเดียว ขนาดกลุ่มจะเป็นตัวกำหนดจำนวนตัวอย่างในกลุ่ม

ดูคำอธิบายว่ากลุ่มเกี่ยวข้องกับ Epoch ได้อย่างไรใน Epoch

ขนาดกลุ่ม

#fundamentals

จำนวนตัวอย่างในกลุ่ม เช่น หากขนาดกลุ่มคือ 100 โมเดลจะประมวลผล 100 ตัวอย่างต่อการทำซ้ำ

กลยุทธ์ขนาดกลุ่มยอดนิยมมีดังนี้

Stochastic Gradient Descent (SGD) ซึ่งมีขนาดกลุ่มคือ 1
ทั้งกลุ่ม โดยขนาดกลุ่มคือจำนวนตัวอย่างในชุดการฝึกทั้งชุด เช่น ถ้าชุดการฝึกมีตัวอย่าง 1 ล้านตัวอย่าง ขนาดกลุ่มจะเป็นล้านตัวอย่าง วิดีโอทั้งกลุ่มมักเป็นกลยุทธ์ที่ไม่มีประสิทธิภาพ
มินิแบตช์ ซึ่งขนาดกลุ่มมักจะอยู่ระหว่าง 10 ถึง 1,000 โดยทั่วไปแล้วเป็นกลยุทธ์ที่มีประสิทธิภาพสูงสุด

อคติ (จริยธรรม/ความเป็นธรรม)

#fairness

#fundamentals

1. การเหมารวม อคติ หรือรายการโปรดกับบางสิ่ง บุคคล หรือกลุ่มบุคคลมากกว่าผู้อื่น อคติเหล่านี้อาจส่งผลต่อการรวบรวมและการตีความข้อมูล การออกแบบระบบ และวิธีที่ผู้ใช้โต้ตอบกับระบบ รูปแบบของการให้น้ำหนักพิเศษประเภทนี้ได้แก่

2. ข้อผิดพลาดอย่างเป็นระบบซึ่งเกิดขึ้นจากขั้นตอนการสุ่มตัวอย่างหรือการรายงาน รูปแบบของการให้น้ำหนักพิเศษประเภทนี้ได้แก่

อย่าสับสนกับคำศัพท์ที่มีอคติในโมเดลแมชชีนเลิร์นนิงหรืออคติของการคาดการณ์

การให้น้ำหนักพิเศษ (ทางคณิตศาสตร์) หรือการให้น้ำหนักพิเศษ

#fundamentals

จุดตัดหรือออฟเซ็ตจากต้นทาง การให้น้ำหนักพิเศษคือพารามิเตอร์ในโมเดลแมชชีนเลิร์นนิง ซึ่งระบุด้วยสัญลักษณ์อย่างใดอย่างหนึ่งต่อไปนี้

ตัวอย่างเช่น การให้น้ำหนักพิเศษคือ b ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

สำหรับเส้นสองมิติแบบง่ายๆ การให้น้ำหนักพิเศษหมายถึง "จุดตัดแกน Y" ตัวอย่างเช่น การให้น้ำหนักพิเศษของเส้นในภาพประกอบต่อไปนี้คือ 2

พล็อตของเส้นที่มีความชัน 0.5 และการให้น้ำหนักพิเศษ (จุดตัด Y) ของ 2

การให้น้ำหนักพิเศษมีเพราะบางโมเดลไม่ได้เริ่มต้นจากต้นทาง (0,0) ตัวอย่างเช่น สมมติว่าสวนสนุกต้องจ่ายเงิน 2 ยูโรสำหรับการเข้าสวนสนุก และอีก 0.5 ยูโรสำหรับทุกๆ ชั่วโมงที่ลูกค้าเข้าพัก ดังนั้น โมเดลการแมปต้นทุนทั้งหมดจึงมีอคติเป็น 2 เพราะต้นทุนต่ำสุดคือ 2 ยูโร

อย่าสับสนกับอคติทางจริยธรรมและความยุติธรรมหรืออคติในการคาดการณ์

การจำแนกประเภทไบนารี

#fundamentals

งานประเภทการแยกประเภทที่คาดการณ์ว่า 1 ใน 2 คลาสที่ใช้พร้อมกันไม่ได้มีดังนี้

คลาสเชิงบวก
คลาสเชิงลบ

ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิง 2 โมเดลต่อไปนี้แต่ละโมเดลทำการแยกประเภทแบบไบนารี

รูปแบบที่กำหนดว่าข้อความอีเมลเป็นสแปม (คลาสเชิงบวก) หรือไม่ใช่สแปม (คลาสเชิงลบ)
โมเดลที่ประเมินอาการทางการแพทย์เพื่อตัดสินว่าบุคคลหนึ่งมีอาการอย่างใดอย่างหนึ่ง (คลาสที่เป็นบวก) หรือไม่เป็นโรคนั้น (คลาสที่เป็นลบ)

คอนทราสต์กับการจัดประเภทแบบหลายคลาส

รวมถึงดูการถดถอยแบบโลจิสติกและเกณฑ์การจัดประเภท

การฝากข้อมูล

#fundamentals

การแปลงฟีเจอร์เดียวเป็นฟีเจอร์ไบนารีหลายรายการ ซึ่งเรียกว่าที่เก็บข้อมูลหรือถัง โดยทั่วไปแล้วจะอิงตามช่วงค่า ฟีเจอร์ที่ถูกตัดเป็นฟีเจอร์ต่อเนื่อง

เช่น แทนที่จะแสดงอุณหภูมิเป็นฟีเจอร์จุดลอยตัวต่อเนื่องจุดเดียว คุณอาจตัดช่วงของอุณหภูมิลงในที่เก็บข้อมูลแยกต่างหาก เช่น

<= 10 องศาเซลเซียสคือถังเก็บ "เย็น"
อุณหภูมิ 11-24 องศาเซลเซียสคืออุณหภูมิ "อากาศอบอุ่น"
>= 25 องศาเซลเซียส คือถัง "อุ่น"

โมเดลนี้จะถือว่าทุกค่าในที่เก็บข้อมูลเดียวกันเหมือนกัน ตัวอย่างเช่น ค่า 13 และ 22 อยู่ในที่เก็บข้อมูลชั่วคราว โมเดลจึงถือว่าทั้ง 2 ค่าเหมือนกัน

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

ถ้าคุณแสดงอุณหภูมิเป็นลักษณะต่อเนื่อง โมเดลจะถือว่าอุณหภูมิเป็นจุดสนใจเดียว หากแสดงอุณหภูมิเป็น 3 ที่เก็บข้อมูล โมเดลจะถือว่าที่เก็บข้อมูลแต่ละชุดเป็นฟีเจอร์แยกต่างหาก กล่าวคือ โมเดลจะเรียนรู้ความสัมพันธ์ที่แยกจากกันของที่เก็บข้อมูลแต่ละชุดกับป้ายกำกับ เช่น โมเดลการถดถอยเชิงเส้นจะดูน้ำหนักแยกกันสำหรับที่เก็บข้อมูลแต่ละชุดได้

การเพิ่มจำนวนที่เก็บข้อมูลจะทำให้โมเดลซับซ้อนยิ่งขึ้นด้วยการเพิ่มจำนวนความสัมพันธ์ที่โมเดลต้องเรียนรู้ เช่น ถังอากาศเย็น อบอุ่นค่อนข้างเย็น และอบอุ่นเป็นองค์ประกอบ 3 อย่างที่แยกจากกันสำหรับโมเดลของคุณเพื่อฝึก หากคุณตัดสินใจเพิ่มที่เก็บข้อมูลอีก 2 ชุด เช่น การตรึงกับร้อน โมเดลของคุณจะต้องฝึกกับฟีเจอร์ 5 อย่างแยกกัน

คุณจะทราบจำนวนที่เก็บข้อมูลที่จะสร้าง หรือช่วงสำหรับแต่ละที่เก็บข้อมูลควรเป็นเท่าใด คำตอบมักต้องได้รับการทดลอง พอสมควร

C

ข้อมูลเชิงหมวดหมู่

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ที่เฉพาะเจาะจง ตัวอย่างเช่น ลองพิจารณาฟีเจอร์เชิงหมวดหมู่ชื่อ traffic-light-state ซึ่งมีค่าที่เป็นไปได้ได้เพียง 1 ค่าจาก 3 ค่าต่อไปนี้

red
yellow
green

การแสดง traffic-light-state เป็นฟีเจอร์เชิงหมวดหมู่จะช่วยให้โมเดลเรียนรู้ผลกระทบที่แตกต่างกันของ red, green และ yellow ต่อพฤติกรรมของผู้ขับขี่ได้

บางครั้งฟีเจอร์เชิงหมวดหมู่จะเรียกว่าฟีเจอร์ที่ไม่ต่อเนื่อง

คอนทราสต์กับข้อมูลตัวเลข

คลาส

#fundamentals

หมวดหมู่ที่มีป้ายกำกับอยู่ เช่น

ในโมเดลการจัดประเภทแบบไบนารีที่ตรวจหาสแปม คลาสทั้ง 2 อาจเป็นสแปมและไม่ใช่สแปม
ในโมเดลการจัดประเภทแบบหลายคลาสที่ระบุสายพันธุ์สุนัข คลาสอาจเป็นพุดเดิ้ล บีเกิล ปั๊ก และอื่นๆ

โมเดลการจัดประเภทจะคาดการณ์คลาส ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์จำนวน ไม่ใช่คลาส

โมเดลการจัดประเภท

#fundamentals

model ที่มีการคาดการณ์เป็นคลาส ตัวอย่างต่อไปนี้คือโมเดลการจัดประเภททั้งหมด

โมเดลที่คาดคะเนภาษาของประโยคอินพุต (ภาษาฝรั่งเศส ภาษาสเปน ภาษาอิตาลี)
โมเดลที่คาดการณ์สปีชีส์ของต้นไม้ (Maple? Oak? ต้นบาวบับหรือไม่)
โมเดลที่คาดคะเนคลาสเชิงบวกหรือเชิงลบสำหรับภาวะทางการแพทย์หนึ่งๆ

ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์จำนวน ไม่ใช่คลาส

รูปแบบการจัดประเภทที่พบบ่อย 2 ประเภทมีดังนี้

การแยกประเภทไบนารี
การจัดประเภทแบบหลายคลาส

เกณฑ์การจัดประเภท

#fundamentals

ในการจัดประเภทไบนารี จำนวนระหว่าง 0 ถึง 1 ที่แปลงผลลัพธ์ดิบของโมเดลการถดถอยแบบโลจิสติกเป็นการคาดการณ์คลาสบวกหรือคลาสเชิงลบ โปรดทราบว่าเกณฑ์การจัดประเภทเป็นค่าที่มนุษย์เลือก ไม่ใช่ค่าที่การฝึกโมเดลเลือก

โมเดลการถดถอยแบบโลจิสติกจะแสดงค่าดิบระหว่าง 0 ถึง 1 จากนั้นให้ทำดังนี้

หากค่าดิบนี้มากกว่าเกณฑ์การจัดประเภท ระบบจะคาดคะเนคลาสที่เป็นบวก
หากค่าดิบนี้น้อยกว่าเกณฑ์การจัดประเภท ระบบจะคาดคะเนคลาสเชิงลบ

เช่น สมมติว่าเกณฑ์การจัดประเภทคือ 0.8 หากค่าดิบคือ 0.9 โมเดลจะคาดการณ์คลาสบวก หากค่าดิบคือ 0.7 โมเดลจะคาดการณ์คลาสเชิงลบ

ตัวเลือกเกณฑ์การจัดประเภทจะส่งผลต่อจำนวนผลบวกลวงและผลลบลวงเป็นอย่างมาก

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เมื่อโมเดลหรือชุดข้อมูลพัฒนาขึ้น บางครั้งวิศวกรก็เปลี่ยนเกณฑ์การจัดประเภทด้วย เมื่อเกณฑ์การจัดประเภทเปลี่ยนแปลง การคาดการณ์คลาสเชิงบวกจะกลายเป็นคลาสเชิงลบทันทีและในทางกลับกัน

เช่น ลองพิจารณาโมเดลการทำนายโรคจากการจัดประเภทแบบไบนารี สมมติว่าเมื่อระบบทำงานในปีแรก

ค่าดิบสำหรับผู้ป่วยบางรายคือ 0.95
เกณฑ์การจัดประเภทคือ 0.94

ดังนั้นระบบจะวินิจฉัยคลาสเชิงบวก (ผู้ป่วยหอบ "ไม่นะ! ป่วยนะ")

1 ปีต่อมา ค่าอาจมีลักษณะดังต่อไปนี้

ค่าดิบของผู้ป่วยคนเดิมยังคงอยู่ที่ 0.95
เกณฑ์การจัดประเภทจะเปลี่ยนเป็น 0.97

ดังนั้น ระบบจึงจัดประเภทผู้ป่วยรายนั้นใหม่เป็นคลาสเชิงลบ ("สุขสันต์วัน! ฉันไม่ได้ป่วยนะ") ผู้ป่วยคนเดิม การวินิจฉัยที่แตกต่างกัน

ชุดข้อมูลที่ไม่สมดุลระดับ

#fundamentals

ชุดข้อมูลของปัญหาการจัดประเภทที่จำนวนป้ายกำกับทั้งหมดของแต่ละคลาสแตกต่างกันอย่างมีนัยสำคัญ เช่น ลองพิจารณาชุดข้อมูลการจัดประเภทแบบไบนารีที่มีป้ายกำกับ 2 ป้ายแบ่งดังนี้

ป้ายกำกับเชิงลบ 1,000,000 รายการ
ป้ายกำกับเชิงบวก 10 รายการ

อัตราส่วนของป้ายกำกับเชิงลบต่อบวกคือ 100,000 ต่อ 1 ดังนั้นชุดข้อมูลนี้จึงไม่สมดุล

ในทางตรงกันข้าม ชุดข้อมูลต่อไปนี้ไม่ไม่สมดุลระดับเนื่องจากอัตราส่วนของป้ายกำกับเชิงลบต่อป้ายกำกับเชิงบวกค่อนข้างใกล้เคียงกับ 1

ป้ายกำกับเชิงลบ 517 รายการ
ป้ายกำกับเชิงบวก 483 รายการ

ชุดข้อมูลแบบหลายคลาสก็อาจมีความไม่สมดุลเช่นกัน เช่น ชุดข้อมูลการจัดประเภทแบบหลายคลาสต่อไปนี้ไม่สมดุลกันด้วย เนื่องจากป้ายกำกับหนึ่งมีตัวอย่างมากกว่าอีก 2 ป้าย

ป้ายกำกับ 1,000,000 ป้ายที่มีคลาส "สีเขียว"
ป้ายกำกับ 200 รายการที่มีคลาส "สีม่วง"
ป้ายกำกับ 350 รายการที่มีคลาส "สีส้ม"

โปรดดูเอนโทรปี คลาสส่วนใหญ่ และชนชั้นสูง

การตัดคลิป

#fundamentals

เทคนิคในการจัดการกับค่าผิดปกติโดยดำเนินการอย่างใดอย่างหนึ่งหรือทั้ง 2 อย่างต่อไปนี้

ลดค่า feature ที่มากกว่าเกณฑ์สูงสุดให้เหลือเท่ากับเกณฑ์สูงสุดนั้น
การเพิ่มค่าฟีเจอร์ที่น้อยกว่าเกณฑ์ขั้นต่ำจนถึงเกณฑ์ขั้นต่ำดังกล่าว

ตัวอย่างเช่น สมมติว่าค่าบางฟีเจอร์น้อยกว่า 0.5% อยู่นอกช่วง 40–60 ในกรณีนี้ คุณสามารถดำเนินการดังต่อไปนี้

ตัดค่าทั้งหมดที่เกิน 60 (เกณฑ์ขั้นต่ำ) ให้เป็น 60 พอดี
ตัดค่าทั้งหมดที่ต่ำกว่า 40 (เกณฑ์ขั้นต่ำ) ให้เท่ากับ 40

ค่าผิดปกติอาจทำให้โมเดลเสียหาย ซึ่งบางครั้งก็ทำให้มีน้ำหนักล้นในระหว่างการฝึก ค่าผิดปกติบางอย่างอาจทําให้เมตริกแย่ลงอย่างมาก เช่น ความแม่นยำ การตัดคลิปเป็นเทคนิคทั่วไปในการจำกัดความเสียหาย

การไล่ระดับสีจะบังคับค่าการไล่ระดับสีภายในช่วงที่กำหนดระหว่างการฝึก

เมทริกซ์ความสับสน

#fundamentals

ตาราง NxN ที่สรุปจำนวนการคาดการณ์ที่ถูกต้องและไม่ถูกต้องของโมเดลการจัดประเภท เช่น พิจารณาเมทริกซ์ความสับสนต่อไปนี้สำหรับโมเดลการจัดประเภทแบบไบนารี

	เนื้องอก (คาดการณ์)	ไม่ใช่เนื้องอก (คาดการณ์)
เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง)	18 (TP)	1 (FN)
ไม่ใช่เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง)	6 (FP)	452 (เทนเนสซี)

เมทริกซ์ความสับสนก่อนหน้าจะแสดงข้อมูลต่อไปนี้

จากการคาดการณ์ 19 รายการที่ข้อมูลจากการสังเกตการณ์โดยตรงคือ Tumor โมเดลได้รับการจัดประเภทอย่างถูกต้อง 18 รายการและจัดประเภทเป็น 1 อย่างไม่ถูกต้อง
จากการคาดการณ์ 458 รายการ ที่เป็นความจริงบนพื้นดินไม่ใช่ทูมอร์ โมเดลได้รับการจัดประเภทอย่างถูกต้อง 452 รายการ และจัดประเภทไม่ถูกต้อง 6 รายการ

เมทริกซ์ความสับสนของปัญหาการจัดประเภทแบบหลายคลาสจะช่วยคุณระบุรูปแบบของข้อผิดพลาดได้ เช่น ลองพิจารณาเมทริกซ์ความสับสนต่อไปนี้สำหรับโมเดลการจัดประเภทแบบหลายคลาส 3 คลาสที่จัดหมวดหมู่ไอริส 3 ประเภท (Virginica, Versicolor และ Setosa) เมื่อข้อมูลจริงคือ Virginica เมทริกซ์ความสับสนแสดงให้เห็นว่าโมเดลมีแนวโน้มที่จะคาดการณ์ Versicolor ผิดมากกว่า Setosa:

	Setosa (คาดการณ์)	Versicolor (คาดการณ์)	Virginica (คาดการณ์)
เซโตซา (ข้อมูลจากการสังเกตการณ์โดยตรง)	88	12	0
Versicolor (ข้อมูลจากการสังเกตการณ์โดยตรง)	6	141	7
Virginica (ข้อมูลจากการสังเกตการณ์โดยตรง)	2	27	109

อีกตัวอย่างหนึ่งคือ เมทริกซ์ความสับสนอาจเผยให้เห็นว่าโมเดลที่ฝึกให้จดจำตัวเลขที่เขียนด้วยลายมือมีแนวโน้มที่จะคาดคะเน 9 แทนที่จะเป็น 4 ผิดพลาด หรืออาจคาดการณ์เป็น 1 แทนที่จะเป็น 7 ผิดพลาด

เมทริกซ์ความสับสนมีข้อมูลที่เพียงพอสำหรับการคำนวณเมตริกประสิทธิภาพที่หลากหลาย ซึ่งรวมถึงความแม่นยำและการจดจำ

ฟีเจอร์ต่อเนื่อง

#fundamentals

ฟีเจอร์จุดลอยตัวที่มีช่วงของค่าที่เป็นไปได้อย่างไม่จำกัด เช่น อุณหภูมิหรือน้ำหนัก

คอนทราสต์กับฟีเจอร์ที่ไม่ต่อเนื่อง

ลู่เข้า

#fundamentals

สถานะที่มาถึงเมื่อค่า loss เปลี่ยนแปลงน้อยมากหรือไม่เปลี่ยนแปลงเลยในแต่ละรูปแบบ ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้แสดงถึงการลู่เข้าที่ประมาณ 700 ครั้ง

พล็อตคาร์ทีเซียน แกน X หายไป แกน Y คือจำนวนการฝึกซ้ำ การสูญเสียสูงมากในช่วง 2-3 ครั้งแรก แต่ลดลงอย่างมาก หลังจากทำซ้ำประมาณ 100 ครั้ง การสูญเสียก็ยังคงเกิดขึ้นแต่ค่อยๆ เพิ่มขึ้น หลังจากทำซ้ำประมาณ 700 ครั้ง การสูญเสียจะคงที่

โมเดลจะส่งเมื่อการฝึกเพิ่มเติมไม่ช่วยพัฒนาโมเดล

ในการเรียนรู้เชิงลึก บางครั้งค่าการสูญเสียอาจคงที่หรือเกือบมากสำหรับการทำซ้ำหลายครั้งก่อนที่จะลดลงไปมากในท้ายที่สุด ในช่วงเวลาที่มีค่าสูญเสียคงที่เป็นเวลานาน คุณอาจได้รับความรู้สึกของการลู่เข้าที่ผิดพลาดชั่วคราว

โปรดดูหัวข้อการหยุดแสดงโฆษณาก่อนกำหนด

D

DataFrame

#fundamentals

ประเภทข้อมูลของ pandas ยอดนิยมสำหรับการแสดงชุดข้อมูลในหน่วยความจำ

DataFrame คล้ายกับตารางหรือสเปรดชีต แต่ละคอลัมน์ของ DataFrame จะมีชื่อ (ส่วนหัว) และแต่ละแถวจะระบุด้วยหมายเลขที่ไม่ซ้ำกัน

แต่ละคอลัมน์ใน DataFrame มีโครงสร้างเหมือนอาร์เรย์ 2 มิติ เว้นแต่ว่าแต่ละคอลัมน์จะกำหนดประเภทข้อมูลของตนเองได้

ดูหน้าอ้างอิงสำหรับ pandas.DataFrame อย่างเป็นทางการด้วย

ชุดข้อมูลหรือชุดข้อมูล

#fundamentals

การรวบรวมข้อมูลดิบซึ่งโดยปกติ (แต่ไม่เกิดขึ้นเพียงอย่างเดียว) จะจัดระเบียบในรูปแบบใดรูปแบบหนึ่งต่อไปนี้

สเปรดชีต
ไฟล์ในรูปแบบ CSV (ค่าที่คั่นด้วยคอมมา)

โมเดลเชิงลึก

#fundamentals

โครงข่ายประสาทที่มีเลเยอร์ที่ซ่อนไว้มากกว่า 1 ชั้น

โมเดลเชิงลึกเรียกอีกอย่างว่าโครงข่ายประสาทแบบลึก

คอนทราสต์กับโมเดลแบบกว้าง

องค์ประกอบที่หนาแน่น

#fundamentals

ฟีเจอร์ที่ค่าส่วนใหญ่หรือทั้งหมดไม่ใช่ 0 ซึ่งมักจะเป็น Tensor ของค่าจุดลอยตัว ตัวอย่างเช่น Tensor องค์ประกอบ 10 รายการต่อไปนี้มีความหนาแน่นเนื่องจากค่า 9 ค่าไม่ใช่ 0

คอนทราสต์กับฟีเจอร์แบบเบาบาง

ความลึก

#fundamentals

ผลรวมของสิ่งต่อไปนี้ในโครงข่ายระบบประสาท:

จำนวนเลเยอร์ที่ซ่อนไว้
จำนวนเลเยอร์เอาต์พุต ซึ่งปกติคือ 1
จำนวนเลเยอร์การฝัง

ตัวอย่างเช่น โครงข่ายประสาทที่มี 5 เลเยอร์ที่ซ่อนอยู่ และเลเยอร์เอาต์พุตหนึ่งมีความลึก 6

โปรดสังเกตว่าเลเยอร์อินพุตไม่มีอิทธิพลต่อความลึก

ฟีเจอร์แยกต่างหาก

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้แบบจํากัด เช่น ฟีเจอร์ที่มีค่าอาจเป็นสัตว์ ผัก หรือแร่ธาตุเท่านั้น คือฟีเจอร์ที่ไม่ต่อเนื่อง (หรือตามหมวดหมู่)

คอนทราสต์กับฟีเจอร์ต่อเนื่อง

ไดนามิก

#fundamentals

สิ่งที่ทำบ่อยหรือต่อเนื่อง คำว่าไดนามิกและออนไลน์เป็นคำที่มีความหมายเหมือนกันในแมชชีนเลิร์นนิง การใช้งานแบบไดนามิกและออนไลน์ในแมชชีนเลิร์นนิงโดยทั่วไปมีดังนี้

รูปแบบแบบไดนามิก (หรือรูปแบบออนไลน์) คือรูปแบบที่มีการฝึกซ้ำบ่อยครั้งหรือต่อเนื่อง
การฝึกอบรมแบบไดนามิก (หรือการฝึกอบรมออนไลน์) เป็นกระบวนการฝึกบ่อยๆ หรือต่อเนื่อง
การอนุมานแบบไดนามิก (หรือการอนุมานออนไลน์) เป็นกระบวนการสร้างการคาดการณ์แบบออนดีมานด์

รูปแบบแบบไดนามิก

#fundamentals

modelที่มีการฝึกซ้ำบ่อยๆ (อาจจะต่อเนื่องกัน) โมเดลแบบไดนามิกคือ "ผู้เรียนรู้ตลอดชีวิต" ที่ต้องปรับตัวเข้ากับข้อมูลที่มีการเปลี่ยนแปลงอยู่ตลอดเวลา โมเดลแบบไดนามิกเรียกอีกอย่างหนึ่งว่าโมเดลออนไลน์

คอนทราสต์กับโมเดลภาพนิ่ง

จ.

การหยุดก่อนกำหนด

#fundamentals

เมธอดสำหรับการกำหนดค่าที่เกี่ยวข้องกับการสิ้นสุดการฝึก ก่อนที่การสูญเสียการฝึกจะเสร็จสิ้น ในการหยุดตั้งแต่เนิ่นๆ จะเป็นการหยุดฝึกโมเดลเมื่อการสูญเสียชุดข้อมูลการตรวจสอบเริ่มเพิ่มขึ้น กล่าวคือเมื่อประสิทธิภาพของการทําให้เป็นทั่วไปแย่ลง

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

การหยุดก่อนกำหนดอาจฟังดูขัดกับสัญชาตญาณ เพราะจริงๆ แล้ว การบอกให้โมเดลหยุดการฝึกขณะที่การสูญเสียยังคงลดลง อาจดูเหมือนเป็นการบอกให้เชฟหยุดทำอาหารก่อนที่ของหวานจะอบเสร็จแล้ว อย่างไรก็ตาม การฝึกโมเดลให้ยาวเกินไปอาจทำให้เกิดการปรับโมเดลให้พอดี กล่าวคือ หากคุณฝึกโมเดลนานเกินไป โมเดลอาจพอดีกับข้อมูลการฝึกมากจนทำให้โมเดลไม่สามารถคาดการณ์ตัวอย่างใหม่ๆ ได้

เลเยอร์ที่ฝัง

#language

#fundamentals

เลเยอร์ที่ซ่อนอยู่พิเศษที่ฝึกบนฟีเจอร์เชิงหมวดหมู่ที่มีมิติสูง เพื่อค่อยๆ เรียนรู้เวกเตอร์การฝังที่มีมิติข้อมูลต่ำกว่า เลเยอร์การฝังช่วยให้โครงข่ายประสาทฝึกได้อย่างมีประสิทธิภาพมากกว่าการฝึกเฉพาะฟีเจอร์เชิงหมวดหมู่ขั้นสูง

ตัวอย่างเช่น ปัจจุบัน Earth สนับสนุนต้นไม้ประมาณ 73,000 ชนิด สมมติว่าสปีชีส์ของต้นไม้เป็นฟีเจอร์ในโมเดลของคุณ ดังนั้นเลเยอร์อินพุตของโมเดลจึงมีเวกเตอร์หนึ่งร้อน องค์ประกอบยาว 73,000 รายการ ตัวอย่างเช่น หน้าของ baobab อาจมีลักษณะดังนี้

อาร์เรย์ขององค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 รายการแรกมีค่า 0 องค์ประกอบถัดไปมีค่า 1 องค์ประกอบ 66,767 สุดท้ายจะมีค่าเป็น 0

อาร์เรย์ 73,000 องค์ประกอบยาวมาก หากคุณไม่เพิ่มเลเยอร์ที่ฝังไปยังโมเดล การฝึกจะใช้เวลานานมากเนื่องจากมีการคูณ 0 ถึง 72,999 ตัว คุณอาจเลือกเลเยอร์การฝัง ให้ประกอบด้วยมิติข้อมูล 12 แบบ เลเยอร์การฝังจะค่อยๆ เรียนรู้ เวกเตอร์การฝังใหม่สำหรับต้นไม้แต่ละชนิด

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลแทนการใช้เลเยอร์ที่ฝัง

Epoch

#fundamentals

การผ่านการฝึกอบรมเต็มรูปแบบสำหรับชุดการฝึกทั้งหมด เพื่อให้มีการประมวลผลตัวอย่างแต่ละรายการ 1 ครั้ง

Epoch แสดงN/ขนาดกลุ่ม การฝึกการทำซ้ำ โดยที่ N คือจำนวนตัวอย่างทั้งหมด

ตัวอย่างเช่น สมมติว่า

ชุดข้อมูลประกอบด้วยตัวอย่าง 1,000 รายการ
ขนาดกลุ่มคือ 50 ตัวอย่าง

ดังนั้น Epoch 1 ครั้งจึงต้องมีการทำซ้ำ 20 ครั้ง ดังนี้

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

ตัวอย่าง

#fundamentals

ค่าของฟีเจอร์ 1 แถวและอาจจะเป็นป้ายกำกับ ตัวอย่างในการเรียนรู้ที่มีการควบคุมดูแลจะจัดเป็นหมวดหมู่ทั่วไป 2 หมวดหมู่ ดังนี้

ตัวอย่างที่ติดป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างที่ติดป้ายกำกับจะใช้ระหว่างการฝึก
ตัวอย่างที่ไม่มีป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ แต่ไม่มีป้ายกำกับ ระบบจะใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการอนุมาน

ตัวอย่างเช่น สมมติว่าคุณกำลังฝึกโมเดลเพื่อกำหนดอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ต่อไปนี้เป็นตัวอย่างที่มีป้ายกำกับ 3 ตัวอย่าง

ฟีเจอร์			ค่ายเพลง
อุณหภูมิ	ความชื้น	ความกดอากาศ	คะแนนสอบ
15	47	998	เร็ว
19	34	1020	ดีมาก
18	92	1012	แย่

ต่อไปนี้คือตัวอย่างที่ไม่มีป้ายกำกับ 3 ตัวอย่าง

อุณหภูมิ	ความชื้น	ความกดอากาศ
12	62	1014
21	47	1017
19	41	1021

โดยปกติแล้วแถวของชุดข้อมูลจะเป็นแหล่งที่มาดิบของตัวอย่าง ซึ่งหมายความว่าตัวอย่างมักจะประกอบด้วยชุดย่อยของคอลัมน์ในชุดข้อมูล นอกจากนี้ ฟีเจอร์ในตัวอย่างยังอาจมีฟีเจอร์สังเคราะห์ เช่น ฟีเจอร์เครื่องหมายกากบาท

F

ผลลบลวง (FN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบผิดพลาด ตัวอย่างเช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ ไม่ใช่สแปม (คลาสเชิงลบ) แต่อีเมลดังกล่าวแท้จริงแล้วเป็นสแปม

ผลบวกลวง (FP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงบวกผิดพลาด เช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ เป็นสแปม (คลาสเชิงบวก) แต่ข้อความอีเมลนั้นไม่ใช่สแปม

อัตราผลบวกลวง (FPR)

#fundamentals

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลคาดการณ์คลาสบวกโดยไม่ตั้งใจ สูตรต่อไปนี้จะคำนวณอัตราผลบวกลวง

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

อัตราผลบวกลวงคือแกน x ในเส้นโค้ง ROC

ฟีเจอร์

#fundamentals

ตัวแปรอินพุตไปยังโมเดลแมชชีนเลิร์นนิง ตัวอย่าง ประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ ตัวอย่างเช่น สมมติว่าคุณกำลังฝึกโมเดลเพื่อกำหนดอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตารางต่อไปนี้แสดงตัวอย่าง 3 ตัวอย่าง แต่ละรายการมีฟีเจอร์ 3 รายการและป้ายกำกับ 1 รายการ

ฟีเจอร์			ค่ายเพลง
อุณหภูมิ	ความชื้น	ความกดอากาศ	คะแนนสอบ
15	47	998	92
19	34	1020	84
18	92	1012	87

คอนทราสต์กับป้ายกํากับ

กากบาทในฟีเจอร์

#fundamentals

ฟีเจอร์สังเคราะห์ที่เกิดจากฟีเจอร์ "ข้าม" หมวดหมู่หรือที่เก็บข้อมูล

เช่น ลองพิจารณาโมเดล "การคาดการณ์อารมณ์" ที่แสดงอุณหภูมิใน 1 ใน 4 กลุ่มนี้

freezing
chilly
temperate
warm

และแสดงถึงความเร็วลมใน 1 ใน 3 ที่เก็บข้อมูลต่อไปนี้

still
light
windy

หากไม่มีการข้ามฟีเจอร์ โมเดลเชิงเส้นจะฝึกอย่างอิสระจากที่เก็บข้อมูลต่างๆ ทั้ง 7 แบบที่อยู่ก่อนหน้า ตัวอย่างเช่น โมเดลจะฝึกใน freezing โดยไม่ขึ้นอยู่กับการฝึก เช่น windy

หรือจะสร้างความแตกต่างระหว่างอุณหภูมิและความเร็วลม ฟีเจอร์สังเคราะห์นี้จะมีค่าที่เป็นไปได้ 12 ค่าดังนี้

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

การใช้ฟีเจอร์ข้ามฟีเจอร์ทำให้โมเดลเรียนรู้ความแตกต่างของอารมณ์ได้ระหว่าง freezing-windy วันถึง freezing-still วัน

หากคุณสร้างฟีเจอร์สังเคราะห์จาก 2 ฟีเจอร์โดยที่แต่ละฟีเจอร์มีที่เก็บข้อมูลที่แตกต่างกันจำนวนมาก ฟีเจอร์แบบข้ามได้ของฟีเจอร์ที่ได้จะมีชุดค่าผสมที่เป็นไปได้จำนวนมาก ตัวอย่างเช่น หากฟีเจอร์หนึ่งมีที่เก็บข้อมูล 1,000 รายการ และอีกฟีเจอร์หนึ่งมีที่เก็บข้อมูล 2,000 รายการ และฟีเจอร์ที่ได้จะมีที่เก็บข้อมูล 2,000,000 รายการ

อย่างเป็นทางการ ไม้กางเขนคือ ผลคูณคาร์ทีเซียน

กากบาทฟีเจอร์ส่วนใหญ่ใช้กับโมเดลเชิงเส้นและไม่ค่อยใช้กับโครงข่ายประสาท

Feature Engineering

#fundamentals

#TensorFlow

กระบวนการที่เกี่ยวข้องกับขั้นตอนต่อไปนี้

ระบุฟีเจอร์ที่อาจเป็นประโยชน์ในการฝึกโมเดล
การแปลงข้อมูลดิบจากชุดข้อมูลให้เป็นเวอร์ชันที่มีประสิทธิภาพของฟีเจอร์เหล่านั้น

ตัวอย่างเช่น คุณอาจระบุว่า temperature อาจเป็นฟีเจอร์ที่มีประโยชน์ จากนั้นคุณอาจทดสอบด้วยการเก็บข้อมูลเพื่อเพิ่มประสิทธิภาพสิ่งที่โมเดลเรียนรู้ได้จากช่วง temperature ต่างๆ

บางครั้งเราเรียกวิศวกรรมฟีเจอร์ว่าการแยกฟีเจอร์หรือการทำให้ฟีเจอร์เหล่านั้น

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติมเกี่ยวกับ TensorFlow

ใน TensorFlow วิศวกรรมฟีเจอร์มักจะหมายถึงการแปลงรายการไฟล์บันทึกดิบเป็นบัฟเฟอร์โปรโตคอล tf.Example ดูเพิ่มเติมที่ tf.Transform

ชุดฟีเจอร์

#fundamentals

กลุ่มฟีเจอร์แมชชีนเลิร์นนิงที่โมเดลฝึกใช้งาน ตัวอย่างเช่น รหัสไปรษณีย์ ขนาดที่พัก และสภาพทรัพย์สินอาจประกอบด้วยชุดฟีเจอร์อย่างง่ายสำหรับโมเดลที่คาดการณ์ราคาที่พักอาศัย

เวกเตอร์จุดสนใจ

#fundamentals

อาร์เรย์ของค่า feature ที่ประกอบด้วยตัวอย่าง เวกเตอร์ของฟีเจอร์จะเป็นอินพุตระหว่างการฝึกและระหว่างการอนุมาน ตัวอย่างเช่น เวกเตอร์ฟีเจอร์ของโมเดลที่มีฟีเจอร์แยกกัน 2 รายการอาจเป็นดังนี้

[0.92, 0.56]

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต 1 เลเยอร์ที่ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์
เลเยอร์อินพุตมี 2 โหนด โดยโหนดหนึ่งมีค่า 0.92 และอีกโหนดมีค่า 0.56

แต่ละตัวอย่างจะให้ค่าที่แตกต่างกันสำหรับเวกเตอร์ของฟีเจอร์ ดังนั้นเวกเตอร์ของฟีเจอร์สำหรับตัวอย่างถัดไปอาจมีลักษณะดังนี้

[0.73, 0.49]

วิศวกรรมองค์ประกอบกำหนดวิธีแสดงจุดสนใจในเวกเตอร์ของฟีเจอร์ เช่น ฟีเจอร์เชิงหมวดหมู่ไบนารีที่มี 5 ค่าที่เป็นไปได้อาจแสดงด้วยการเข้ารหัสแบบ One-Hot ในกรณีนี้ ส่วนของเวกเตอร์ฟีเจอร์สำหรับตัวอย่างหนึ่งๆ จะประกอบด้วย 0 4 ตัว และ 1.0 1 ตัวอยู่ในตำแหน่งที่ 3 ดังนี้

[0.0, 0.0, 1.0, 0.0, 0.0]

อีกตัวอย่างหนึ่ง สมมติว่าโมเดลของคุณประกอบด้วยคุณลักษณะ 3 อย่างต่อไปนี้

ฟีเจอร์เชิงหมวดหมู่ไบนารีที่มีค่าที่เป็นไปได้ 5 ค่า ซึ่งแทนด้วยการเข้ารหัสแบบ 1 ฮอต เช่น [0.0, 1.0, 0.0, 0.0, 0.0]
อีกฟีเจอร์หมวดหมู่ไบนารีที่มีค่าที่เป็นไปได้ 3 ค่าซึ่งแสดงด้วยการเข้ารหัสแบบ 1- Hot เช่น [0.0, 0.0, 1.0]
ฟีเจอร์ที่เป็นจุดลอยตัว เช่น 8.3

ในกรณีนี้ เวกเตอร์ของฟีเจอร์สำหรับแต่ละตัวอย่างจะแสดงด้วยค่า 9 ค่า จากค่าตัวอย่างในรายการก่อนหน้า เวกเตอร์ของฟีเจอร์จะเป็นดังนี้

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

การเก็บฟีดแบ็กมาแก้ไข

#fundamentals

ในแมชชีนเลิร์นนิง สถานการณ์ที่การคาดการณ์ของโมเดลมีอิทธิพลต่อข้อมูลการฝึกสำหรับโมเดลเดียวกันหรือโมเดลอื่น เช่น โมเดลที่แนะนำภาพยนตร์จะมีอิทธิพลต่อภาพยนตร์ที่ผู้คนเห็น ซึ่งจะส่งผลกระทบกับรูปแบบการแนะนำภาพยนตร์ที่ตามมาด้วย

G

ข้อมูลทั่วไป

#fundamentals

ความสามารถของโมเดลในการคาดการณ์ที่ถูกต้องในข้อมูลใหม่ซึ่งก่อนหน้านี้ไม่เคยเห็นมาก่อน โมเดลที่สร้างข้อมูลทั่วไปได้จะตรงกันข้ามกับโมเดลที่จัดวางมากเกินไป

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

คุณฝึกโมเดลกับตัวอย่างในชุดการฝึก โมเดลจะเรียนรู้ลักษณะเฉพาะของข้อมูลในชุดการฝึก โดยพื้นฐานแล้ว การทั่วไปจะถามว่าโมเดลของคุณคาดการณ์ได้ดีจากตัวอย่างที่ไม่อยู่ในชุดการฝึกหรือไม่

เพื่อให้เกิดการสรุปทั่วไป การจัดการรูปแบบจะช่วยให้โมเดลฝึกกับความพิเศษของข้อมูลในชุดการฝึกได้น้อยลง

กราฟข้อมูลทั่วไป

#fundamentals

พล็อตของทั้ง การเสียการฝึกทำงานและการสูญเสียการตรวจสอบในฐานะฟังก์ชันของจำนวนการทำซ้ำ

เส้นโค้งข้อมูลทั่วไปช่วยให้คุณตรวจจับการปรับให้พอดีที่เป็นไปได้ ตัวอย่างเช่น เส้นโค้งการสร้างทั่วไปต่อไปนี้ชี้ว่าควรมากเกินไป เนื่องจากการสูญเสียการตรวจสอบจะสูงกว่าการสูญเสียการฝึกอย่างมากในท้ายที่สุด

กราฟคาร์ทีเซียนที่แกน Y มีป้ายกำกับเป็น "สูญเสีย" และแกน X มีป้ายกำกับการทำซ้ำ ภาพ 2 แบบจะปรากฏขึ้น พล็อตหนึ่งแสดงการสูญเสียการฝึก และอีกรายการแสดงการสูญเสียการตรวจสอบ
ทั้ง 2 แผนเริ่มต้นในทำนองเดียวกัน แต่ท้ายที่สุดแล้วความสูญเสียในการฝึกจะลดลงต่ำกว่าการสูญเสียการตรวจสอบมาก

ลาดลงแบบไล่ระดับ

#fundamentals

เทคนิคทางคณิตศาสตร์ที่ช่วยลดการสูญหายให้เหลือน้อยที่สุด การไล่ระดับสีลงมาทีละขั้นจะปรับน้ำหนักและอคติอย่างค่อยเป็นค่อยไป แล้วหาชุดค่าผสมที่ดีที่สุดเพื่อลดการสูญเสีย

การไล่ระดับสีสืบทอดนั้นเก่ากว่าหรือเก่ากว่าแมชชีนเลิร์นนิงมาก

ข้อมูลที่เป็นความจริง

#fundamentals

เรียลลิตี้

สิ่งที่เกิดขึ้นจริง

เช่น ลองพิจารณาโมเดลการจัดประเภทไบนารีที่คาดการณ์ว่านักศึกษาปีแรกจะสำเร็จการศึกษาภายใน 6 ปีหรือไม่ ข้อมูลจากการสังเกตการณ์โดยตรงสำหรับโมเดลนี้คือการที่นักศึกษาคนนั้นจบการศึกษาภายใน 6 ปีจริงหรือไม่

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เราประเมินคุณภาพของโมเดลเทียบกับข้อมูลจากการสังเกตการณ์โดยตรง อย่างไรก็ตาม ข้อมูลเท็จ ก็ไม่ได้สมบูรณ์แบบเสมอไป ลองดูตัวอย่างต่อไปนี้ของข้อบกพร่องที่อาจเกิดขึ้นในข้อมูลจากการสังเกตการณ์โดยตรง

ในตัวอย่างการสำเร็จการศึกษา เราแน่ใจว่าบันทึกการสำเร็จการศึกษาของนักเรียนแต่ละคนถูกต้องทุกครั้งหรือไม่ การเก็บบันทึกของมหาวิทยาลัย ไร้ที่ติไหม
สมมติว่าป้ายกำกับเป็นค่าจุดลอยตัวที่วัดโดยเครื่องมือ (เช่น บารอมิเตอร์) เราจะมั่นใจได้อย่างไรว่าเครื่องมือแต่ละชิ้นได้รับการปรับเทียบมาเหมือนกันหรืออ่านค่าแต่ละค่าได้ภายใต้สถานการณ์เดียวกัน
หากป้ายกำกับเป็นเรื่องของความคิดเห็นของมนุษย์ เราจะแน่ใจได้อย่างไรว่า ผู้จัดประเภทที่เป็นมนุษย์ประเมินเหตุการณ์ในลักษณะเดียวกัน บางครั้งเจ้าหน้าที่ตรวจสอบที่เป็นผู้เชี่ยวชาญจะเข้ามามีส่วนร่วมเพื่อปรับปรุงความสอดคล้อง

ฮิต

เลเยอร์ที่ซ่อนอยู่

#fundamentals

เลเยอร์ในเครือข่ายระบบประสาทระหว่างเลเยอร์อินพุต (ฟีเจอร์) และเลเยอร์เอาต์พุต (การคาดการณ์) เลเยอร์ที่ซ่อนอยู่แต่ละเลเยอร์ประกอบด้วยเซลล์ประสาทอย่างน้อย 1 เซลล์ ตัวอย่างเช่น โครงข่ายประสาทต่อไปนี้มีชั้นที่ซ่อนอยู่ 2 ชั้น ชั้นแรกมีเซลล์ประสาท 3 ชั้น และชั้นที่สองมีเซลล์ประสาท 2 ชั้น

โครงข่ายประสาทแบบลึกมีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 ชั้น ตัวอย่างเช่น ภาพก่อนหน้าคือโครงข่ายประสาทแบบลึกเนื่องจากโมเดลมีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์

ไฮเปอร์พารามิเตอร์

#fundamentals

ตัวแปรที่คุณหรือบริการปรับแต่งไฮเปอร์พารามิเตอร์ จะปรับระหว่างการฝึกโมเดลต่อเนื่องกัน เช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์ คุณอาจตั้งอัตราการเรียนรู้เป็น 0.01 ก่อนเริ่มเซสชันการฝึกอบรมได้ หากคุณกำหนดค่า 0.01 สูงเกินไป คุณอาจกำหนดอัตราการเรียนรู้เป็น 0.003 สำหรับเซสชันการฝึกอบรมครั้งถัดไป

ในทางตรงกันข้าม พารามิเตอร์คือน้ำหนักและอคติต่างๆ ที่โมเดลเรียนรู้ระหว่างการฝึก

I

กระจายอย่างอิสระและเหมือนกัน (i.d)

#fundamentals

ข้อมูลที่มาจากการแจกแจงที่ไม่มีการเปลี่ยนแปลง และแต่ละค่าที่ดึงมาไม่ได้ขึ้นอยู่กับค่าที่มีการวาดไว้ก่อนหน้านี้ i.i.d. เป็นก๊าซในอุดมคติของแมชชีนเลิร์นนิง เป็นโครงสร้างทางคณิตศาสตร์ที่มีประโยชน์ แต่แทบไม่มีกรณีใดพบได้ในชีวิตจริง ตัวอย่างเช่น การกระจายผู้เข้าชมหน้าเว็บอาจเป็น i.i.d. ในช่วงเวลาสั้นๆ กล่าวคือ การกระจายจะไม่เปลี่ยนแปลงในระหว่างช่วงเวลาสั้นๆ นั้น และโดยทั่วไปการเข้าชมของคนหนึ่งจะขึ้นอยู่กับการเข้าชมของอีกคนหนึ่ง อย่างไรก็ตาม หากคุณขยายช่วงเวลานั้น ความแตกต่างตามฤดูกาลในผู้เข้าชมหน้าเว็บอาจปรากฏขึ้น

ดูความไม่คงที่เพิ่มเติม

การอนุมาน

#fundamentals

ในแมชชีนเลิร์นนิง กระบวนการคาดการณ์โดยใช้โมเดลที่ฝึกแล้วกับตัวอย่างที่ไม่มีป้ายกำกับ

การอนุมานมีความหมายแตกต่างกันในสถิติ ดูรายละเอียดได้ที่ บทความ Wikipedia เกี่ยวกับการอนุมานทางสถิติ

เลเยอร์อินพุต

#fundamentals

เลเยอร์ ของโครงข่ายประสาทที่มีเวกเตอร์ฟีเจอร์ กล่าวคือ เลเยอร์อินพุตจะแสดงตัวอย่างสำหรับการฝึกหรือการอนุมาน ตัวอย่างเช่น เลเยอร์อินพุตในเครือข่ายประสาทต่อไปนี้ ประกอบด้วยฟีเจอร์ 2 อย่าง

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

ความสามารถในการตีความ

#fundamentals

ความสามารถในการอธิบายหรือนำเสนอโมเดลของ ML ให้เหตุผลเป็นคำที่เข้าใจได้

ตัวอย่างเช่น รูปแบบการถดถอยเชิงเส้นส่วนใหญ่นั้นตีความได้สูง (คุณแค่ต้องดูน้ำหนักที่ฝึกสำหรับแต่ละฟีเจอร์เท่านั้น) ป่าการตัดสินใจก็มีการตีความสูงเช่นกัน อย่างไรก็ตาม บางโมเดลต้องใช้การแสดงภาพที่ซับซ้อนเพื่อให้ตีความได้

คุณสามารถใช้เครื่องมือตีความการเรียนรู้ (Learning & Mediationability Tool หรือ LIT) เพื่อตีความโมเดล ML

การทำซ้ำ

#fundamentals

อัปเดตพารามิเตอร์ของโมเดลเพียงครั้งเดียว ซึ่งก็คือน้ำหนักและอคติของโมเดล ระหว่างการฝึก ขนาดกลุ่มจะกำหนดจำนวนตัวอย่างที่โมเดลประมวลผลในการทำซ้ำครั้งเดียว เช่น หากขนาดกลุ่มคือ 20 โมเดลจะประมวลผลตัวอย่าง 20 รายการก่อนปรับเปลี่ยนพารามิเตอร์

เมื่อฝึกโครงข่ายระบบประสาทเทียม การทำซ้ำ 1 ครั้งจะเกี่ยวข้องกับการส่ง 2 ผ่านต่อไปนี้

การส่งต่อเพื่อประเมินการสูญเสียเป็นกลุ่มเดียว
การส่งแบบย้อนกลับ (backprofagation) เพื่อปรับพารามิเตอร์ของโมเดลตามการสูญเสียและอัตราการเรียนรู้

L

การกำหนดกฎ L₀

#fundamentals

ประเภทของการกำหนดรูปแบบที่จะกำหนดจำนวนน้ำหนักที่ไม่ใช่ 0 ในโมเดล เช่น โมเดลที่มีน้ำหนักที่ไม่ใช่ 0 11 ตัว จะได้รับบทลงโทษมากกว่าโมเดลที่คล้ายกันที่มีน้ำหนักไม่เป็น 0 10

การกำหนดกฎ L₀ บางครั้งจะเรียกว่าการกำหนดกฎ L0-norm

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

โดยทั่วไปแล้ว การกำหนดกฎ L₀ มักไม่เกิดขึ้นจริงในโมเดลขนาดใหญ่ เนื่องจากการจัดปกติ L₀ จะเปลี่ยนการฝึกให้เป็นปัญหาในการเพิ่มประสิทธิภาพ

แพ้ L₁

#fundamentals

ฟังก์ชันการสูญเสียที่คำนวณค่าสัมบูรณ์ของความแตกต่างระหว่างค่าจริงของป้ายกำกับกับค่าที่โมเดลคาดการณ์ เช่น การคำนวณการสูญเสีย L₁ สำหรับกลุ่มของตัวอย่าง 5 รายการมีดังนี้

มูลค่าจริงของตัวอย่าง	ค่าที่คาดการณ์ไว้ของโมเดล	ค่าสัมบูรณ์ของเดลต้า
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = แพ้ L₁

การสูญเสีย L₁ มีความไวต่อค่าผิดปกติน้อยกว่าการสูญเสีย L₂

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์คือการสูญเสีย L₁ โดยเฉลี่ยต่อตัวอย่าง

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

ที่ไหน

$n$ คือจำนวนตัวอย่าง
$y$ คือค่าจริงของป้ายกำกับ
$\hat{y}$ คือค่าที่โมเดลคาดการณ์ไว้สำหรับ $y$

การกำหนดกฎ L₁

#fundamentals

ประเภทของการควบคุมแบบปกติที่หักค่าน้ำหนักเป็นสัดส่วนกับผลรวมของค่าสัมบูรณ์ของน้ำหนัก การกำหนดกฎ L₁ ช่วยให้น้ำหนักของฟีเจอร์ที่ไม่เกี่ยวข้องหรือแทบไม่เกี่ยวข้องกับฟีเจอร์เป็น 0 เลย ระบบนำฟีเจอร์ที่มีน้ำหนักเป็น 0 ออกจากโมเดลเรียบร้อยแล้ว

คอนทราสต์กับการกำหนดกฎ L₂

แพ้ L₂

#fundamentals

ฟังก์ชันการสูญเสียที่คำนวณกำลังสองของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ เช่น การคำนวณการสูญหายของ L₂ สำหรับกลุ่มของตัวอย่าง 5 รายการมีดังนี้

มูลค่าจริงของตัวอย่าง	ค่าที่คาดการณ์ไว้ของโมเดล	กำลังสองของเดลต้า
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = แพ้ L₂

เนื่องจากการยกกำลังสอง ทำให้การสูญเสีย L₂ ขยายอิทธิพลของค่าผิดปกติ กล่าวคือ การสูญเสีย L₂ ตอบสนองกับการคาดการณ์ที่ไม่ดีมากกว่าการสูญเสีย L₁ เช่น การสูญเสีย L₁ สำหรับกลุ่มก่อนหน้าจะเป็น 8 ไม่ใช่ 16 โปรดสังเกตว่าค่าผิดปกติรายการเดียวครอบคลุม 9 ใน 16

โมเดลการถดถอยมักจะใช้การสูญเสีย L₂ เป็นฟังก์ชันการสูญเสีย

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสองคือการสูญเสีย L₂ โดยเฉลี่ยต่อตัวอย่าง การสูญเสียทีละไตรมาสคืออีกชื่อหนึ่งของการสูญเสีย L₂

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

ที่ไหน

$n$ คือจำนวนตัวอย่าง
$y$ คือค่าจริงของป้ายกำกับ
$\hat{y}$ คือค่าที่โมเดลคาดการณ์ไว้สำหรับ $y$

การกำหนดกฎ L₂

#fundamentals

ประเภทของการกำหนดรูปแบบที่หักลบน้ำหนักตามสัดส่วนของผลรวมของสี่เหลี่ยมจัตุรัสของน้ำหนัก การปรับ L₂ จะช่วยผลักดันน้ำหนักค่าผิดปกติ (ที่มีค่าบวกสูงหรือค่าลบต่ำ) ให้ใกล้กับ 0 แต่ไม่ใช่ 0 ฟีเจอร์ที่มีค่าใกล้เคียง 0 มากจะยังคงอยู่ในโมเดล แต่จะไม่มีผลต่อการคาดการณ์ของโมเดลมากนัก

การกำหนดกฎ L₂ จะช่วยปรับปรุงการสรุปข้อมูลทั่วไปในโมเดลเชิงเส้นเสมอ

คอนทราสต์กับการกำหนดกฎ L₁

ป้ายกำกับ

#fundamentals

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล ส่วน "คำตอบ" หรือ "ผลลัพธ์" ของตัวอย่าง

ตัวอย่างที่ติดป้ายกำกับแต่ละรายการประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างเช่น ในชุดข้อมูลการตรวจจับสแปม ป้ายกำกับอาจเป็น "สแปม" หรือ "ไม่ใช่สแปม" ในชุดข้อมูลปริมาณฝน ป้ายกำกับอาจหมายถึงปริมาณน้ำฝนที่ตกในช่วงระยะเวลาหนึ่ง

ตัวอย่างที่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่าง 3 แบบที่ติดป้ายกำกับจากรูปแบบการประเมินมูลค่าบ้าน โดยแต่ละแบบจะมี 3 ฟีเจอร์และ 1 ป้ายกำกับ

จำนวนห้องนอน	จำนวนห้องน้ำ	อายุบ้าน	ราคาบ้าน (ป้ายกำกับ)
3	2	15	10,250,000 บาท
2	1	72	179,000 ดอลลาร์
4	2	34	392,000 ดอลลาร์สหรัฐ

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกตามตัวอย่างที่มีป้ายกำกับและทำการคาดการณ์ในตัวอย่างที่ไม่มีป้ายกำกับ

เปรียบเทียบตัวอย่างที่มีป้ายกำกับกับตัวอย่างที่ไม่มีป้ายกำกับ

แลมบ์ดา

#fundamentals

คำพ้องความหมายของอัตราการปรับให้เป็นมาตรฐาน

Lambda เป็นคำศัพท์ที่ใช้มากเกินไป ในที่นี้เราจะเน้นไปที่คำจำกัดความของคำในรูปแบบมาตรฐาน

ชั้น

#fundamentals

ชุดของเซลล์ประสาทในโครงข่ายระบบประสาท เลเยอร์ทั่วไปมี 3 ประเภทดังนี้

เลเยอร์อินพุต ซึ่งระบุค่าสำหรับฟีเจอร์ทั้งหมด
เลเยอร์ที่ซ่อนไว้อย่างน้อย 1 เลเยอร์ซึ่งค้นหาความสัมพันธ์ที่ไม่ใช่เชิงเส้นระหว่างฟีเจอร์และป้ายกำกับ
เลเยอร์เอาต์พุต ซึ่งระบุการคาดการณ์

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโครงข่ายประสาทที่มีเลเยอร์อินพุต 1 เลเยอร์ เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์

โครงข่ายประสาทที่มี 1 เลเยอร์อินพุต เลเยอร์ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์ เลเยอร์อินพุตประกอบด้วยฟีเจอร์ 2 อย่าง เลเยอร์แรกที่ซ่อนอยู่ประกอบด้วยเซลล์ประสาท 3 เซลล์ และเลเยอร์ที่ซ่อนอยู่ลำดับที่ 2 ประกอบด้วยเซลล์ประสาท 2 เซลล์ เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

ใน TensorFlow เลเยอร์ยังเป็นฟังก์ชัน Python ที่นำ Tensor และตัวเลือกการกำหนดค่าเป็นอินพุต และสร้าง Tensor อื่นๆ เป็นเอาต์พุต

อัตราการเรียนรู้

#fundamentals

จำนวนจุดลอยตัวที่บอกอัลกอริทึมการไล่ระดับสี ว่าจะปรับน้ำหนักและความให้น้ำหนักพิเศษในข้อมูลซ้ำแต่ละรายการได้ดีเพียงใด เช่น อัตราการเรียนรู้ที่ 0.3 จะปรับน้ำหนักและความอคติที่มีประสิทธิภาพมากกว่าอัตราการเรียนรู้ที่ 0.1 ถึง 3 เท่า

อัตราการเรียนรู้เป็นพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่สำคัญ หากคุณตั้งอัตราการเรียนรู้ต่ำเกินไป การฝึกจะใช้เวลานานเกินไป หากคุณกำหนดอัตราการเรียนรู้สูงเกินไป การไล่ระดับสีลงมักจะมีปัญหาในการเข้าถึงการสนทนา

คลิกไอคอนสำหรับคำอธิบายทางคณิตศาสตร์เพิ่มเติม

ในระหว่างการทำซ้ำแต่ละครั้ง อัลกอริทึมการไล่ระดับสีจะคูณอัตราการเรียนรู้ด้วยการไล่ระดับสี ผลที่ได้เรียกว่าขั้นตอนการไล่ระดับสี

เชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปซึ่งแสดงผ่านการบวกและการคูณเพียงอย่างเดียวได้

พล็อตของความสัมพันธ์เชิงเส้นจะเป็นเส้น

คอนทราสต์แบบไม่ใช่เชิงเส้น

รูปแบบเชิงเส้น

#fundamentals

modelที่กำหนดmodel 1 รายการต่อmodelเพื่อสร้างmodel (รูปแบบเชิงเส้นยังมีอคติรวมอยู่ด้วย) ในทางตรงกันข้าม ความสัมพันธ์ของฟีเจอร์กับการคาดการณ์ในโมเดลเชิงลึกมักเป็นไม่ใช่เชิงเส้น

โมเดลเชิงเส้นมักฝึกได้ง่ายกว่าและตีความได้มากกว่าโมเดลเชิงลึก อย่างไรก็ตาม โมเดลเชิงลึกอาจเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างฟีเจอร์ต่างๆ

การถดถอยเชิงเส้นและการถดถอยแบบโลจิสติกเป็นรูปแบบเชิงเส้น 2 ประเภท

คลิกไอคอนเพื่อดูการคำนวณ

รูปแบบเชิงเส้นเป็นไปตามสูตรนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ที่:

y' คือการคาดการณ์ดิบ (ในโมเดลเชิงเส้นบางประเภท ระบบจะแก้ไขการคาดการณ์ ดิบนี้เพิ่มเติม เช่น ดูการถดถอยแบบโลจิสติก)
b คืออคติ
w คือน้ำหนัก ดังนั้น w₁ คือน้ำหนักของจุดสนใจแรก w₂ คือน้ำหนักของจุดสนใจที่ 2 และต่อไปเรื่อยๆ
x เป็นจุดสนใจ ดังนั้น x₁ คือค่าของจุดสนใจแรก x₂ คือค่าของจุดสนใจที่ 2 เป็นต้น

ตัวอย่างเช่น สมมติว่าโมเดลเชิงเส้นของฟีเจอร์ 3 รายการเรียนรู้อคติและน้ำหนักต่อไปนี้

b = 7
กว้าง ₁ = -2.5
กว้าง₂ = -1.2
กว้าง₃ = 1.4

ดังนั้น ด้วยฟีเจอร์ 3 อย่าง (x₁, x₂ และ x₃) โมเดลเชิงเส้นจะใช้สมการต่อไปนี้เพื่อสร้างการคาดการณ์แต่ละรายการ

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

สมมติว่าตัวอย่างหนึ่งมีค่าต่อไปนี้:

x₁ = 4
x₂ = -10
x₃ = 5

การเสียบค่าเหล่านั้นลงในสูตรจะทำให้เกิดการคาดการณ์สำหรับตัวอย่างนี้

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

โมเดลเชิงเส้นไม่ได้มีเพียงแค่โมเดลที่ใช้เพียงสมการเชิงเส้นในการคาดการณ์เท่านั้น แต่ยังรวมถึงชุดโมเดลที่กว้างขึ้นซึ่งใช้สมการเชิงเส้นเป็นเพียงองค์ประกอบหนึ่งของสูตรในการคาดคะเนด้วย เช่น กระบวนการถดถอยแบบโลจิสติกหลังการประมวลผลการคาดคะเนดิบ (y") เพื่อสร้างค่าการคาดการณ์สุดท้ายระหว่าง 0 ถึง 1 โดยเฉพาะ

การถดถอยเชิงเส้น

#fundamentals

โมเดลแมชชีนเลิร์นนิงประเภทหนึ่งที่เป็นไปตามเงื่อนไขทั้ง 2 ข้อต่อไปนี้

โมเดลนี้เป็นรูปแบบเชิงเส้น
การคาดคะเนจะเป็นค่าทศนิยม (นี่คือส่วนการถดถอยของการถดถอยเชิงเส้น)

เปรียบเทียบการถดถอยเชิงเส้นกับการถดถอยแบบโลจิสติก รวมถึงเปรียบเทียบการถดถอยกับการแยกประเภท

การถดถอยแบบโลจิสติก

#fundamentals

ประเภทของโมเดลการถดถอยที่คาดการณ์ความน่าจะเป็น โมเดลการถดถอยแบบโลจิสติกมีลักษณะดังต่อไปนี้

ป้ายกำกับเป็นหมวดหมู่ คำว่า "การถดถอยแบบโลจิสติกส์" มักจะหมายถึงการถดถอยแบบโลจิสติกแบบไบนารี ซึ่งก็คือโมเดลที่คำนวณความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้ 2 ค่า ตัวแปรที่พบบ่อยน้อยกว่า การถดถอยแบบลอจิสติกส์พหุนามจะคำนวณความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า
ฟังก์ชันการสูญเสียในระหว่างการฝึกคือบันทึกการสูญหาย (คุณวางหน่วยการสูญหายของบันทึกหลายรายการพร้อมกันสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่าได้)
โมเดลมีสถาปัตยกรรมแบบเชิงเส้น ไม่ใช่โครงข่ายประสาทแบบลึก อย่างไรก็ตาม ส่วนที่เหลือของคําจํากัดความนี้จะใช้กับโมเดลเชิงลึกที่คาดการณ์ความน่าจะเป็นสำหรับป้ายกำกับเชิงหมวดหมู่ด้วย

เช่น ลองพิจารณาโมเดลการถดถอยแบบโลจิสติก ซึ่งคํานวณความเป็นไปได้ที่อีเมลอินพุตจะเป็นสแปมหรือไม่เป็นจดหมายขยะ ในระหว่างการอนุมาน สมมติว่าโมเดลคาดการณ์ 0.72 ดังนั้นโมเดลจึงกำลังประมาณ

โอกาส 72% ที่อีเมลจะเป็นสแปม
มีโอกาส 28% ที่อีเมลจะไม่เป็นจดหมายขยะ

โมเดลการถดถอยแบบโลจิสติกใช้สถาปัตยกรรม 2 ขั้นตอนต่อไปนี้

โมเดลจะสร้างการคาดการณ์ดิบ (y") โดยใช้ฟังก์ชันเชิงเส้นของฟีเจอร์อินพุต
โมเดลนี้ใช้การคาดการณ์ดิบดังกล่าวเป็นอินพุตไปยังฟังก์ชันซิกมอย ซึ่งแปลงการคาดการณ์ดิบเป็นค่าระหว่าง 0 ถึง 1 (ไม่รวม 0 ถึง 1)

โมเดลการถดถอยแบบโลจิสติกจะคาดการณ์จำนวนเช่นเดียวกับโมเดลการถดถอยทั่วไป แต่โดยปกติแล้ว จำนวนนี้จะกลายเป็นส่วนหนึ่งของโมเดลการจัดประเภทแบบไบนารี

หากจำนวนที่คาดการณ์มากกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสที่เป็นบวก
หากจำนวนที่คาดการณ์น้อยกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสเชิงลบ

การสูญหายของบันทึก

#fundamentals

ฟังก์ชันการสูญหายที่ใช้ในการถดถอยแบบโลจิสติกแบบไบนารี

คลิกไอคอนเพื่อดูการคำนวณ

สูตรต่อไปนี้จะคำนวณการสูญหายของบันทึก

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

ที่ไหน

$(x,y)\in D$ คือชุดข้อมูลที่มีตัวอย่างที่มีป้ายกำกับหลายรายการ ซึ่งเป็น $(x,y)$ คู่
$y$ คือป้ายกำกับในตัวอย่างที่มีป้ายกำกับ เนื่องจากนี่เป็นการถดถอยแบบโลจิสติก ทุกค่าของ $y$ ต้องเป็น 0 หรือ 1 อย่างใดอย่างหนึ่ง
$y'$ คือค่าที่คาดการณ์ไว้ (อยู่ระหว่าง 0 ถึง 1 เป็นค่าเฉพาะตัว) ตามชุดของฟีเจอร์ใน $x$

โอกาสในการบันทึก

#fundamentals

ลอการิทึมของความน่าจะเป็นของเหตุการณ์บางอย่าง

คลิกไอคอนเพื่อดูการคำนวณ

หากเหตุการณ์เป็นความน่าจะเป็นแบบไบนารี ความน่าจะเป็นจะหมายถึงอัตราส่วนของความน่าจะเป็นของความสำเร็จ (p) ต่อความน่าจะเป็นของความล้มเหลว (1-p) ตัวอย่างเช่น สมมติว่าเหตุการณ์หนึ่งๆ มีโอกาสประสบความสำเร็จ 90% และมีโอกาสล้มเหลว 10% ในกรณีนี้ ความน่าจะเป็น จะคำนวณดังนี้

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

ความน่าจะเป็นของบันทึกก็คือลอการิทึมของความน่าจะเป็น ตามรูปแบบ "ลอการิทึม" หมายถึงลอการิทึมธรรมชาติ แต่จริงๆ แล้วลอการิทึมอาจเป็นฐานใดๆ ที่มากกว่า 1 ดังนั้น การยึดถือตามธรรมเนียม โอกาสที่บันทึกในตัวอย่างของเราจะเป็นดังนี้

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

ฟังก์ชันบันทึกความน่าจะเป็นจะผกผันของฟังก์ชัน sigmoid

แพ้

#fundamentals

ในระหว่างการฝึกของโมเดลที่มีการควบคุมดูแล ระบบจะวัดว่าการคาดคะเนของโมเดลอยู่ไกลจากป้ายกำกับของโมเดลแค่ไหน

ฟังก์ชันการสูญเสียจะคำนวณการสูญหาย

Loss Curve

#fundamentals

พล็อตการสูญหายเป็นฟังก์ชันของจำนวนการทำซ้ำการฝึก กราฟต่อไปนี้แสดงเส้นโค้งการสูญเสียโดยทั่วไป

กราฟคาร์ทีเซียนของการสูญเสียเทียบกับการฝึกซ้ำ แสดงการสูญเสียการลดลงอย่างรวดเร็วสำหรับการทำซ้ำครั้งแรก ตามด้วยการลดลงทีละน้อย จากนั้นมีความชันคงที่ระหว่างการทำซ้ำครั้งสุดท้าย

เส้นโค้ง Loss ช่วยให้คุณทราบเวลาที่โมเดลกำลังสนทนาหรือการปรับค่าเกิน

เส้นโค้งการสูญเสียสามารถพล็อตการสูญเสียได้ทุกประเภทต่อไปนี้

การสูญเสียการฝึก
การสูญเสียการตรวจสอบ
การเสียการทดสอบ

ดูเส้นโค้งการปรับทั่วไปด้วย

ฟังก์ชันการสูญหาย

#fundamentals

ในระหว่างการฝึกหรือการทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่คำนวณการขาดทุนในกลุ่มของตัวอย่าง ฟังก์ชันการสูญหายจะส่งกลับค่าความสูญเสียต่ำกว่าสำหรับโมเดลที่ให้การคาดการณ์ที่ดีมากกว่าโมเดลที่ทำการคาดการณ์ที่ไม่ดี

โดยทั่วไป เป้าหมายของการฝึกคือเพื่อลดการสูญเสียฟังก์ชันการสูญเสีย

มีฟังก์ชันการสูญเสียรูปแบบต่างๆ มากมาย เลือกฟังก์ชันการสูญหายที่เหมาะสมกับ ประเภทโมเดลที่คุณกำลังสร้าง เช่น

การถดถอยเชิงเส้น₂ ครั้ง (หรือค่าความคลาดเคลื่อนกำลังสองเฉลี่ย) เป็นฟังก์ชันการสูญเสียสำหรับการถดถอยเชิงเส้น
Log Loss คือฟังก์ชันการสูญเสียสำหรับการถดถอยแบบโลจิสติก

M

แมชชีนเลิร์นนิง

#fundamentals

โปรแกรมหรือระบบที่ฝึกโมเดลจากข้อมูลอินพุต โมเดลที่ผ่านการฝึกอบรมจะคาดการณ์ที่เป็นประโยชน์จากข้อมูลใหม่ (ที่ไม่เคยเห็นมาก่อน) ที่มาจากการกระจายแบบเดียวกันกับที่ใช้ในการฝึกโมเดล

แมชชีนเลิร์นนิงยังหมายถึงสาขาการศึกษาที่เกี่ยวข้องกับโปรแกรมหรือระบบเหล่านี้ด้วย

เสียงส่วนใหญ่

#fundamentals

ป้ายกำกับที่พบได้บ่อยในชุดข้อมูลที่ไม่สมดุลระดับ เช่น หากชุดข้อมูลมีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงลบจะเป็นคลาสส่วนใหญ่

คอนทราสต์กับชนกลุ่มน้อย

มินิแบตช์

#fundamentals

ชุดย่อยขนาดเล็กที่เลือกไว้แบบสุ่มของกลุ่มซึ่งประมวลผลในทำซ้ำ 1 รายการ ขนาดกลุ่มของมินิแบตช์มักจะอยู่ระหว่าง 10 ถึง 1,000 ตัวอย่าง

ตัวอย่างเช่น สมมติว่าชุดการฝึกทั้งหมด (ชุดเต็ม) มีตัวอย่าง 1,000 รายการ นอกจากนี้ สมมติว่าคุณตั้งค่าขนาดกลุ่มของแต่ละกลุ่มขนาดเล็กเป็น 20 ดังนั้น การทำซ้ำแต่ละรายการจึงตัดสินความสูญเสียในการสุ่ม 20 จาก 1,000 ตัวอย่าง จากนั้นจึงปรับน้ำหนักและอคติตามนั้น

การคํานวณการสูญเสียในมินิกลุ่มจะมีประสิทธิภาพมากกว่าการขาดทุนในตัวอย่างทั้งหมดในกลุ่มแบบเต็ม

ชนชั้นน้อย

#fundamentals

ป้ายกำกับที่พบน้อยกว่าในชุดข้อมูลที่ไม่สมดุลระหว่างคลาส เช่น หากชุดข้อมูลมีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงบวกจะเป็นกลุ่มชนกลุ่มน้อย

คอนทราสต์กับชั้นส่วนใหญ่

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

ชุดการฝึกที่มีตัวอย่าง 1 ล้านรายการฟังดูเป็นเรื่องที่น่าประทับใจ อย่างไรก็ตาม หากมีการนำเสนอชนกลุ่มน้อย แม้กระทั่งชุดการฝึกอบรมที่ใหญ่มากๆ ก็อาจไม่เพียงพอ เน้นที่จำนวนตัวอย่างทั้งหมดในชุดข้อมูลให้น้อยลง และเน้นไปที่จำนวนตัวอย่างในกลุ่มชนกลุ่มน้อย

หากชุดข้อมูลมีตัวอย่างชนกลุ่มน้อยไม่เพียงพอ ให้พิจารณาใช้การดาวน์แซมเปิล (คำจำกัดความในหัวข้อย่อยที่ 2) เพื่อเสริมคลาสของชนกลุ่มน้อย

model

#fundamentals

โดยทั่วไป โครงสร้างทางคณิตศาสตร์ใดๆ ที่ประมวลผลข้อมูลอินพุตและผลตอบแทน หรืออาจกล่าวต่างกันไป โมเดลคือชุดของพารามิเตอร์และโครงสร้างที่จำเป็นสำหรับระบบในการคาดการณ์ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะใช้ตัวอย่างเป็นอินพุตและอนุมานการคาดคะเนเป็นเอาต์พุต ภายในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะแตกต่างกันอยู่บ้าง เช่น

รูปแบบการถดถอยเชิงเส้นประกอบด้วยชุดน้ำหนักและอคติ
โมเดลโครงข่ายระบบประสาทเทียมประกอบด้วย
- ชุดเลเยอร์ที่ซ่อนอยู่ โดยแต่ละชุดมีเซลล์ประสาทอย่างน้อย 1 ชั้น
- น้ำหนักและการให้น้ำหนักที่เกี่ยวข้องกับเซลล์ประสาทแต่ละเซลล์
โมเดลแผนผังการตัดสินใจประกอบด้วยข้อมูลต่อไปนี้
- รูปร่างของต้นไม้ กล่าวคือ รูปแบบที่สภาวะและใบไม้เชื่อมโยงกัน
- สภาพและใบไม้

คุณบันทึก กู้คืน หรือทำสำเนาโมเดลได้

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลยังสร้างโมเดล ซึ่งโดยทั่วไปจะเป็นฟังก์ชันที่แมปตัวอย่างอินพุตกับคลัสเตอร์ที่เหมาะสมที่สุดได้

คลิกไอคอนเพื่อเปรียบเทียบฟังก์ชันพีชคณิตและฟังก์ชันการเขียนโปรแกรมกับโมเดล ML

ฟังก์ชันพีชคณิตดังตัวอย่างต่อไปนี้

  f(x, y) = 3x -5xy + y² + 17

ฟังก์ชันก่อนหน้าจะแมปค่าอินพุต (x และ y) กับเอาต์พุต

ในทํานองเดียวกัน ฟังก์ชันการเขียนโปรแกรมดังต่อไปนี้ก็เป็นโมเดลเช่นกัน

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

ตัวเรียกใช้จะส่งอาร์กิวเมนต์ไปยังฟังก์ชัน Python ก่อนหน้า และฟังก์ชัน Python จะสร้างเอาต์พุต (ผ่านคำสั่ง return)

แม้ว่าโครงข่ายประสาทแบบลึกจะมีโครงสร้างทางคณิตศาสตร์ที่แตกต่างจากฟังก์ชันพีชคณิตหรือฟังก์ชันการเขียนโปรแกรมอย่างมาก แต่โครงข่ายประสาทแบบลึกก็ยังรับอินพุต (ตัวอย่าง) และแสดงผล (การคาดคะเน) ได้

โปรแกรมเมอร์ที่เป็นมนุษย์เขียนโค้ดฟังก์ชันการเขียนโปรแกรมด้วยตนเอง ในทางตรงกันข้าม โมเดลแมชชีนเลิร์นนิงจะค่อยๆ เรียนรู้พารามิเตอร์ที่เหมาะสมที่สุดในระหว่างการฝึกอัตโนมัติ

การจัดประเภทแบบหลายคลาส

#fundamentals

ในการเรียนรู้ภายใต้การควบคุมดูแล ปัญหาการแยกประเภทที่ชุดข้อมูลมีป้ายกำกับมากกว่า 2 คลาส เช่น ป้ายกำกับในชุดข้อมูล Iris ต้องเป็น 1 ใน 3 คลาสต่อไปนี้

ไอริสเซโตซา
ไอริสเวอร์จิกา
สีแบบไอริส

โมเดลที่ได้รับการฝึกจากชุดข้อมูล Iris ที่คาดการณ์ประเภท Iris ในตัวอย่างใหม่กำลังทำการจัดประเภทแบบหลายคลาส

ในทางตรงกันข้าม ปัญหาการจัดประเภทที่แยกความแตกต่างระหว่าง 2 คลาสได้คือโมเดลการจัดประเภทแบบไบนารี เช่น โมเดลอีเมลที่คาดคะเนสแปมหรือไม่ใช่สแปมคือโมเดลการจัดประเภทแบบไบนารี

ในปัญหาการจัดกลุ่ม การจัดประเภทแบบหลายคลาสหมายถึงคลัสเตอร์มากกว่า 2 รายการ

N

คลาสเชิงลบ

#fundamentals

ในการจัดประเภทไบนารี คลาสหนึ่งเรียกว่าเชิงบวก และอีกคลาสหนึ่งเรียกว่าเชิงลบ คลาสเชิงบวกคือสิ่งที่หรือเหตุการณ์ที่โมเดลกำลังทดสอบ ส่วนคลาสเชิงลบก็เป็นความเป็นไปได้อีกอย่างหนึ่ง เช่น

คลาสเชิงลบในการทดสอบทางการแพทย์อาจ "ไม่ใช่เนื้องอก"
คลาสเชิงลบในตัวแยกประเภทอีเมลอาจเป็น "ไม่ใช่สแปม"

คอนทราสต์กับคลาสเชิงบวก

โครงข่ายระบบประสาทเทียม

#fundamentals

modelที่มีmodelอย่างน้อย 1 ชั้น โครงข่ายประสาทแบบลึกเป็นโครงข่ายประสาทประเภทหนึ่งที่มีเลเยอร์ซ่อนอยู่มากกว่า 1 ชั้น ตัวอย่างเช่น แผนภาพต่อไปนี้ แสดงโครงข่ายประสาทแบบลึกที่มีเลเยอร์ซ่อนอยู่ 2 เลเยอร์

โครงข่ายประสาทที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

เซลล์ประสาทแต่ละเซลล์ในโครงข่ายประสาทจะเชื่อมต่อกับโหนดทั้งหมดในเลเยอร์ถัดไป เช่น ในแผนภาพก่อนหน้านี้ จะเห็นว่าเซลล์ 3 เซลล์แต่ละเซลล์ในเลเยอร์แรกที่ซ่อนอยู่เชื่อมต่อกับเซลล์ประสาททั้ง 2 เซลล์แยกกันในเลเยอร์ที่ซ่อนอยู่ลำดับที่ 2

บางครั้งเรียกว่าโครงข่ายประสาทเทียมเพื่อแยกความแตกต่างจากโครงข่ายประสาทที่พบในสมองและระบบประสาทอื่นๆ

โครงข่ายประสาทบางเครือข่ายอาจเลียนแบบความสัมพันธ์ที่ไม่ใช่เชิงเส้นที่ซับซ้อนมากระหว่างฟีเจอร์ต่างๆ กับป้ายกำกับ

โปรดดูข้อมูลเพิ่มเติมที่หัวข้อโครงข่ายระบบประสาทเทียมและโครงข่ายระบบประสาทเทียม

เซลล์ประสาท

#fundamentals

ในแมชชีนเลิร์นนิง หน่วยหนึ่งภายในเลเยอร์ที่ซ่อนอยู่ของโครงข่ายระบบประสาท เซลล์ประสาทแต่ละเซลล์ จะทำงานสองขั้นตอนดังต่อไปนี้

จะคำนวณผลรวมถ่วงน้ำหนักของค่าอินพุตคูณด้วยน้ำหนักที่เกี่ยวข้อง
ส่งต่อผลรวมถ่วงน้ำหนักเป็นอินพุตไปยังฟังก์ชันการเปิดใช้งาน

เซลล์ประสาทในเลเยอร์แรกที่ซ่อนอยู่จะยอมรับอินพุตจากค่าฟีเจอร์ในเลเยอร์อินพุต เซลล์ประสาทในชั้นที่ซ่อนอยู่หลังชั้นแรกจะรับอินพุตจากเซลล์ประสาทในชั้นที่ซ่อนอยู่ก่อนหน้า เช่น เซลล์ประสาทในชั้นที่ 2 ที่ซ่อนอยู่จะยอมรับอินพุตจากเซลล์ประสาทในชั้นแรกที่ซ่อนอยู่

ภาพต่อไปนี้จะไฮไลต์เซลล์ประสาท 2 เซลล์และอินพุตของเซลล์เหล่านั้น

โครงข่ายประสาทที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต มีการไฮไลต์เซลล์ประสาท 2 เซลล์ โดยเซลล์หนึ่งใน
เลเยอร์แรกที่ซ่อนอยู่และหนึ่งในเลเยอร์ที่ซ่อนอยู่ลำดับที่ 2 เซลล์ประสาท
ที่ไฮไลต์ในเลเยอร์แรกที่ซ่อนอยู่จะได้รับอินพุตจากฟีเจอร์ทั้งสอง
ในเลเยอร์อินพุต เซลล์ประสาทที่ไฮไลต์ในเลเยอร์ที่สองที่ซ่อนอยู่จะได้รับอินพุตจากเซลล์ประสาททั้ง 3 เซลล์ในเลเยอร์แรกที่ซ่อนอยู่

เซลล์ประสาทในโครงข่ายประสาทจะเลียนแบบพฤติกรรมของเซลล์ประสาทในสมองและส่วนอื่นๆ ของระบบประสาท

โหนด (โครงข่ายระบบประสาทเทียม)

#fundamentals

เซลล์ประสาทในชั้นเซลล์ที่ซ่อนอยู่

ไม่เป็นเชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่ไม่สามารถแสดงด้วยการบวกและการคูณเพียงอย่างเดียวได้ ความสัมพันธ์แบบเชิงเส้นอาจแสดงเป็นเส้น ความสัมพันธ์แบบไม่ใช่เชิงเส้นจะแสดงเป็นเส้นไม่ได้ ตัวอย่างเช่น ลองพิจารณารูปแบบ 2 รูปแบบที่แต่ละรูปแบบ เชื่อมโยงคุณลักษณะเดียวกับป้ายกำกับเดียว รูปแบบทางซ้ายเป็นเชิงเส้น โมเดลทางขวาไม่เป็นเชิงเส้น

2 แปลง พล็อตหนึ่งคือเส้น ดังนั้นนี่คือความสัมพันธ์เชิงเส้น
อีกพล็อตหนึ่งเป็นเส้นโค้ง ดังนั้นเรื่องนี้จึงเป็นความสัมพันธ์ที่ไม่ใช่เชิงเส้น

ความไม่คงที่

#fundamentals

ฟีเจอร์ที่มีค่าการเปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งโดยปกติจะเป็นเวลา ตัวอย่างเช่น ลองพิจารณาตัวอย่างของความไม่คงที่ต่อไปนี้

จำนวนชุดว่ายน้ำที่จำหน่ายในร้านค้าหนึ่งๆ จะแตกต่างกันไปในแต่ละฤดูกาล
ปริมาณผลไม้ชนิดหนึ่งที่เก็บในภูมิภาคหนึ่งๆ มีค่าเป็น 0 สำหรับระยะเวลาเกือบทั้งปี แต่มากเป็นระยะเวลาสั้นๆ
เนื่องจากการเปลี่ยนแปลงสภาพภูมิอากาศ อุณหภูมิเฉลี่ยรายปีจึงมีการเปลี่ยนแปลง

คอนทราสต์กับความคงที่

การแปลงเป็นรูปแบบมาตรฐาน

#fundamentals

หรือพูดกว้างๆ ก็คือ กระบวนการแปลงช่วงค่าจริงของตัวแปรให้อยู่ในช่วงค่ามาตรฐาน เช่น

-1 ถึง +1
0 ถึง 1
การกระจายปกติ

ตัวอย่างเช่น สมมติว่าช่วงค่าจริงของฟีเจอร์บางอย่างคือ 800 ถึง 2,400 ในฐานะส่วนหนึ่งของวิศวกรรมฟีเจอร์ คุณสามารถปรับค่าจริงให้อยู่ในช่วงมาตรฐาน เช่น -1 ถึง +1

การปรับให้เป็นมาตรฐานเป็นงานที่พบได้ทั่วไปในวิศวกรรมฟีเจอร์ โมเดลมักจะฝึกได้เร็วขึ้น (และสร้างการคาดการณ์ที่ดีขึ้น) เมื่อฟีเจอร์ตัวเลขทุกฟีเจอร์ในเวกเตอร์ฟีเจอร์มีช่วงค่อนข้างเท่ากัน

ข้อมูลตัวเลข

#fundamentals

ฟีเจอร์ซึ่งแสดงเป็นจำนวนเต็มหรือจำนวนจริง ตัวอย่างเช่น รูปแบบการประเมินราคาบ้านอาจแสดงขนาดบ้าน (เป็นตารางฟุตหรือตารางเมตร) เป็นข้อมูลตัวเลข การแสดงฟีเจอร์เป็นข้อมูลตัวเลขหมายความว่าค่าของฟีเจอร์มีความสัมพันธ์ทางคณิตศาสตร์กับป้ายกำกับ กล่าวคือ จำนวนตารางเมตรในบ้านอาจมีความสัมพันธ์ทางคณิตศาสตร์กับมูลค่าของบ้าน

ข้อมูลที่เป็นจำนวนเต็มบางรายการไม่ควรแสดงเป็นข้อมูลตัวเลข ตัวอย่างเช่น รหัสไปรษณีย์ในบางพื้นที่ของโลกเป็นจำนวนเต็ม อย่างไรก็ตาม รหัสไปรษณีย์ที่เป็นจำนวนเต็มไม่ควรแสดงเป็นข้อมูลตัวเลขในโมเดล ซึ่งเป็นเพราะรหัสไปรษณีย์ของ 20000 ไม่ใช่ 2 (หรือครึ่งหนึ่ง) ที่มีประสิทธิภาพเท่ากับรหัสไปรษณีย์ 10,000 นอกจากนี้ แม้ว่ารหัสไปรษณีย์ที่ต่างกันจะเกี่ยวข้องกับมูลค่าอสังหาริมทรัพย์ที่ต่างกัน แต่ก็ไม่อาจสรุปได้ว่ามูลค่าอสังหาริมทรัพย์ตามรหัสไปรษณีย์ 20, 000 มีมูลค่าเป็นสองเท่าของมูลค่าอสังหาริมทรัพย์ที่รหัสไปรษณีย์ 10, 000 รหัสไปรษณีย์ควรแสดงเป็นข้อมูลตามหมวดหมู่แทน

บางครั้งเราเรียกฟีเจอร์ที่เป็นตัวเลขว่าฟีเจอร์ต่อเนื่อง

O

ออฟไลน์

#fundamentals

คำพ้องความหมายของ static

การอนุมานแบบออฟไลน์

#fundamentals

กระบวนการของโมเดลที่สร้างการคาดการณ์จำนวนหนึ่ง แล้วแคช (บันทึก) การคาดการณ์เหล่านั้น จากนั้นแอปจะเข้าถึงการคาดการณ์ที่สรุปได้จากแคชแทนการเรียกใช้โมเดลอีกครั้ง

เช่น ลองโมเดลที่สร้างการพยากรณ์อากาศท้องถิ่น (การพยากรณ์อากาศ) 1 ครั้งทุก 4 ชั่วโมง หลังจากแต่ละโมเดลทำงาน ระบบจะแคชการพยากรณ์อากาศในท้องถิ่นทั้งหมด แอปสภาพอากาศจะดึงข้อมูลการพยากรณ์อากาศ จากแคช

การอนุมานแบบออฟไลน์เรียกอีกอย่างว่าการอนุมานแบบคงที่

ตรงข้ามกับการอนุมานทางออนไลน์

การเข้ารหัสแบบครั้งเดียว

#fundamentals

นำเสนอข้อมูลเชิงกลุ่มเป็นเวกเตอร์ที่

มีการตั้งค่าองค์ประกอบหนึ่งเป็น 1
องค์ประกอบอื่นๆ ทั้งหมดตั้งค่าเป็น 0

โดยทั่วไป การเข้ารหัสแบบ One-Hot ใช้เพื่อแสดงสตริงหรือตัวระบุที่มีชุดค่าที่เป็นไปได้อย่างจำกัด ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ Scandinavia มีค่าที่เป็นไปได้ 5 ค่า ดังนี้

"เดนมาร์ก"
"สวีเดน"
"นอร์เวย์"
"ฟินแลนด์"
"ไอซ์แลนด์"

การเข้ารหัสแบบ 1-Hot สามารถแสดงค่าแต่ละค่าใน 5 ค่าดังนี้

country	เวกเตอร์
"เดนมาร์ก"	1	0	0	0	0
"สวีเดน"	0	1	0	0	0
"นอร์เวย์"	0	0	1	0	0
"ฟินแลนด์"	0	0	0	1	0
"ไอซ์แลนด์"	0	0	0	0	1

การเข้ารหัสแบบ 1 ครั้งช่วยให้โมเดลเรียนรู้การเชื่อมต่อที่แตกต่างกัน ตามแต่ละประเทศทั้ง 5 ประเทศได้

การนำเสนอฟีเจอร์เป็นข้อมูลตัวเลขเป็นอีกทางเลือกหนึ่งของการเข้ารหัสแบบ 1 ฮอต น่าเสียดายที่การแสดงประเทศสแกนดิเนเวียเป็นตัวเลขไม่ใช่ตัวเลือกที่ดี ตัวอย่างเช่น ลองพิจารณาการนำเสนอด้วยตัวเลขต่อไปนี้

"เดนมาร์ก" เท่ากับ 0
"สวีเดน" คือ 1
"นอร์เวย์" เป็น 2
"ฟินแลนด์" คือ 3
"ไอซ์แลนด์" คือ 4

การเข้ารหัสตัวเลขจะทำให้โมเดลตีความตัวเลขดิบทางคณิตศาสตร์ และจะพยายามฝึกกับจำนวนเหล่านั้น แต่จริงๆ แล้ว ไอซ์แลนด์ไม่ได้มากเป็น 2 เท่า (หรือครึ่งหนึ่ง) ของบางอย่าง เมื่อเทียบกับนอร์เวย์ แบบจำลองนี้จึงได้ข้อสรุปที่แปลกประหลาด

หนึ่งต่อทั้งหมด

#fundamentals

เนื่องจากปัญหาการจัดประเภทของคลาส N ได้ คำตอบจะประกอบด้วยตัวแยกประเภทไบนารีแยกกัน N รายการ ซึ่งเป็นตัวแยกประเภทไบนารีสำหรับผลลัพธ์ที่เป็นไปได้แต่ละรายการ ตัวอย่างเช่น สำหรับโมเดลที่จำแนกตัวอย่างเป็นสัตว์ ผัก หรือแร่ธาตุ โซลูชันแบบหนึ่งเทียบกับทั้งหมดจะให้ตัวแยกประเภทไบนารีแยกกัน 3 ตัวดังต่อไปนี้

สัตว์กับไม่ใช่สัตว์
ผักกับผัก
แร่ธาตุและไม่ใช่แร่

online

#fundamentals

คำพ้องความหมายของ dynamic

การอนุมานทางออนไลน์

#fundamentals

สร้างการคาดการณ์ตามความต้องการ เช่น สมมติว่าแอปส่งอินพุตไปยังโมเดลและออกคำขอสำหรับการคาดการณ์ ระบบที่ใช้การอนุมานออนไลน์จะตอบสนองต่อคำขอโดยการเรียกใช้โมเดล (และส่งคืนการคาดการณ์ไปยังแอป)

ตรงข้ามกับการอนุมานแบบออฟไลน์

เลเยอร์เอาต์พุต

#fundamentals

ชั้น "สุดท้าย" ของโครงข่ายประสาท เลเยอร์เอาต์พุตมีการคาดการณ์

ภาพต่อไปนี้แสดงโครงข่ายประสาทแบบลึกขนาดเล็กที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

Overfitting

#fundamentals

การสร้างmodelที่ตรงกับmodelอย่างใกล้เคียงมากจนโมเดลไม่สามารถคาดการณ์ข้อมูลใหม่ได้อย่างถูกต้อง

การปรับให้เป็นปกติสามารถลดการปรับมากเกินไป การฝึกอบรมในชุดการฝึกอบรมที่มีขนาดใหญ่และหลากหลายจะช่วยลดการออกกำลังกายมากเกินไปได้

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เหมือนเป็นการทำตามคำแนะนำอย่างเคร่งครัดจากครูคนโปรดของคุณเท่านั้น คุณอาจประสบความสำเร็จในชั้นเรียนของครูคนนั้น แต่คุณอาจ "คลุมเครือ" กับไอเดียของครูคนนั้น และอาจไม่ประสบความสำเร็จในวิชาอื่นๆ การปฏิบัติตามคำแนะนำของครูจำนวนมากจะช่วยให้คุณปรับตัวเข้ากับสถานการณ์ใหม่ๆ ได้ดีขึ้น

คะแนน

แพนด้า

#fundamentals

API การวิเคราะห์ข้อมูลแบบคอลัมน์ซึ่งสร้างขึ้นจาก numpy เฟรมเวิร์กแมชชีนเลิร์นนิงจำนวนมาก รวมถึง TensorFlow รองรับโครงสร้างข้อมูลแพนด้าเป็นอินพุต ดูรายละเอียดในเอกสารประกอบของ Pandas

พารามิเตอร์

#fundamentals

น้ำหนักและอคติที่โมเดลเรียนรู้ระหว่างการฝึก ตัวอย่างเช่น ในรูปแบบการถดถอยเชิงเส้น พารามิเตอร์ประกอบด้วยการให้น้ำหนักพิเศษ (b) และน้ำหนักทั้งหมด (w₁, w₂ และอื่นๆ) ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในทางตรงกันข้าม hyperparameter คือค่าที่คุณ (หรือบริการเปลี่ยนไฮเปอร์พารามิเตอร์) ให้กับโมเดล เช่น อัตราการเรียนรู้ คือไฮเปอร์พารามิเตอร์

คลาสเชิงบวก

#fundamentals

ชั้นเรียนที่คุณจะทดสอบ

ตัวอย่างเช่น คลาสเชิงบวกในโมเดลมะเร็งอาจเป็น "เนื้องอก" คลาสเชิงบวกในตัวแยกประเภทอีเมลอาจเป็น "สแปม"

คอนทราสต์กับคลาสเชิงลบ

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

คำว่าคลาสเชิงบวกอาจทำให้สับสนได้เนื่องจากผลลัพธ์ "เชิงบวก" ของการทดสอบหลายรายการมักเป็นผลลัพธ์ที่ไม่พึงประสงค์ เช่น คลาสที่เป็นบวกในการทดสอบทางการแพทย์หลายรายการ เกี่ยวข้องกับเนื้องอกหรือโรคต่างๆ โดยทั่วไป คุณอยากให้แพทย์ มาบอกว่า "ยินดีด้วย ผลการทดสอบของคุณเป็นลบ" แต่ทั้งนี้ คลาสเชิงบวกจะเป็นเหตุการณ์ที่การทดสอบพยายามค้นหา

แน่นอนว่าคุณกำลังทดสอบทั้งคลาสเชิงบวกและเชิงลบ

หลังการประมวลผล

#fairness

#fundamentals

การปรับเอาต์พุตของโมเดลหลังจากที่เรียกใช้โมเดลแล้ว คุณใช้หลังการประมวลผลเพื่อบังคับใช้ข้อจำกัดด้านความเป็นธรรมได้โดยไม่ต้องแก้ไขโมเดลด้วยตนเอง

เช่น อาจมีการใช้หลังการประมวลผลกับตัวแยกประเภทแบบไบนารีโดยกำหนดเกณฑ์การจัดประเภทให้คงความเท่าเทียมกันของโอกาสสำหรับบางแอตทริบิวต์โดยการตรวจสอบว่าอัตราผลบวกจริงมีค่าเหมือนกันสำหรับค่าทั้งหมดของแอตทริบิวต์นั้น

การคาดการณ์

#fundamentals

เอาต์พุตของโมเดล เช่น

การคาดการณ์ของโมเดลการจัดประเภทแบบไบนารีเป็นคลาสบวกหรือคลาสเชิงลบ
การคาดการณ์ของโมเดลการจัดประเภทแบบหลายคลาสคือ 1 คลาส
การคาดคะเนของโมเดลการถดถอยเชิงเส้นเป็นตัวเลข

ป้ายกำกับพร็อกซี

#fundamentals

ข้อมูลที่ใช้เพื่อประมาณป้ายกำกับที่ไม่มีในชุดข้อมูลโดยตรง

ตัวอย่างเช่น สมมติว่าคุณต้องฝึกโมเดลให้คาดการณ์ระดับความเครียดของพนักงาน ชุดข้อมูลมีฟีเจอร์การคาดการณ์จำนวนมาก แต่ไม่มีป้ายกำกับชื่อระดับความเครียด ไม่เป็นไร คุณเลือก "อุบัติเหตุในที่ทำงาน" เป็นป้ายกำกับพร็อกซีสำหรับระดับความเครียด เพราะสุดท้ายแล้ว พนักงานที่อยู่ภายใต้ความเครียดสูงประสบอุบัติเหตุ มากกว่าพนักงานที่สงบสติอารมณ์ หรือว่าเป็นเช่นนั้น อุบัติเหตุในที่ทำงานอาจ เพิ่มขึ้นและตกด้วยสาเหตุหลายประการ

ตัวอย่างเช่น สมมติว่าคุณต้องการให้ฝนตกไหมเป็นป้ายกำกับบูลีนสำหรับชุดข้อมูล แต่ชุดข้อมูลไม่มีข้อมูลฝน หากมีภาพถ่าย คุณอาจสร้างภาพ คนถือร่มเป็นป้ายกำกับพร็อกซีว่าฝนตกไหม เป็นป้ายกำกับพร็อกซีที่ดีไหม แต่คนในบางวัฒนธรรมมีแนวโน้มที่จะพกร่มป้องกันแสงแดดมากกว่าฝน

ป้ายกำกับพร็อกซีมักไม่สมบูรณ์ เมื่อเป็นไปได้ ให้เลือกป้ายกำกับจริง มากกว่าป้ายกำกับพร็อกซี กล่าวคือ เมื่อไม่มีป้ายกำกับจริง ให้เลือกป้ายกำกับพร็อกซีอย่างรอบคอบ แล้วเลือกตัวเลือกป้ายกำกับพร็อกซีที่น่ากลัวน้อยที่สุด

R

แร็กซ์

#fundamentals

ตัวย่อของ retrieval-augmented Generation

ผู้ให้คะแนน

#fundamentals

บุคคลที่จัดเตรียมป้ายกำกับสำหรับตัวอย่าง "ผู้กำกับเนื้อหา" เป็นอีกชื่อหนึ่งของผู้ประเมิน

หน่วยเชิงเส้นตรง (ReLU)

#fundamentals

ฟังก์ชันการเปิดใช้งานที่มีลักษณะการทำงานดังต่อไปนี้

หากอินพุตเป็นค่าลบหรือเป็น 0 เอาต์พุตจะเป็น 0
หากอินพุตเป็นบวก เอาต์พุตจะเท่ากับอินพุต

เช่น

หากอินพุตเป็น -3 เอาต์พุตจะเป็น 0
หากอินพุตเป็น +3 เอาต์พุตจะเป็น 3.0

ตัวอย่างโครงเรื่อง ReLU มีดังนี้

ReLU เป็นฟังก์ชันเปิดใช้งานที่ได้รับความนิยมสูง แม้จะมีลักษณะการทำงานที่เรียบง่าย แต่ ReLU ยังคงทำให้โครงข่ายประสาทเรียนรู้ความสัมพันธ์ระหว่างฟีเจอร์และป้ายกำกับที่ไม่เป็นเชิงเส้นได้

โมเดลการถดถอย

#fundamentals

โมเดลที่สร้างการคาดการณ์เชิงตัวเลขอย่างไม่เป็นทางการ (ในทางตรงกันข้าม โมเดลการจัดประเภทจะสร้างการคาดการณ์คลาส) ตัวอย่างต่อไปนี้คือรูปแบบการถดถอยทั้งหมด

โมเดลที่คาดคะเนมูลค่าของบ้านบางหลัง เช่น 423,000 ยูโร
โมเดลที่คาดคะเนอายุขัยของต้นไม้บางชนิด เช่น 23.2 ปี
โมเดลที่คาดคะเนปริมาณฝนที่จะตกในบางเมืองในช่วง 6 ชั่วโมงข้างหน้า เช่น 0.18 นิ้ว

รูปแบบการถดถอยที่พบบ่อยมี 2 ประเภทดังนี้

การถดถอยเชิงเส้น ซึ่งจะค้นหาบรรทัดที่เหมาะกับค่าของป้ายกำกับกับฟีเจอร์ต่างๆ มากที่สุด
การถดถอยแบบโลจิสติก ซึ่งสร้างความน่าจะเป็นระหว่าง 0.0 ถึง 1.0 ที่ระบบมักจะแมปกับการคาดการณ์คลาส

ไม่ใช่ว่าโมเดลทั้งหมดที่แสดงการคาดการณ์เชิงตัวเลขจะเป็นโมเดลการถดถอย ในบางกรณี การคาดการณ์ที่เป็นตัวเลขเป็นเพียงโมเดลการจัดประเภท ซึ่งเกิดขึ้นกับชื่อคลาสที่เป็นตัวเลข เช่น โมเดลที่คาดการณ์รหัสไปรษณีย์ที่เป็นตัวเลขคือโมเดลการจัดประเภท ไม่ใช่โมเดลการถดถอย

Regularization

#fundamentals

กลไกที่ลดการปรับให้พอดี ประเภทการกำหนดค่าที่นิยมใช้กัน ได้แก่

การกำหนดกฎ L₁
กฎ L₂
การกำหนดการออกนอกรูปแบบ
การหยุดก่อนกำหนด (นี่ไม่ใช่วิธีการจัดบรรทัดแบบทางการ แต่สามารถจำกัดการปรับมากเกินไปได้อย่างมีประสิทธิภาพ)

การปรับให้เป็นปกติอาจหมายถึงบทลงโทษสำหรับความซับซ้อนของโมเดล

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

การทำให้เป็นมาตรฐานเป็นสิ่งที่ขัดแย้งกับสัญชาตญาณ การปรับให้สม่ำเสมอมักจะเพิ่มการสูญเสียการฝึก ซึ่งฟังดูสับสนเพราะเป้าหมายในการลดการสูญเสียการฝึกไม่ใช่เป้าหมายใช่ไหม

ไม่จริง เป้าหมายไม่ใช่การลดการสูญเสียการฝึกให้ได้มากที่สุด เป้าหมายคือการทำนายที่ยอดเยี่ยมจากตัวอย่างในโลกแห่งความเป็นจริง แม้ว่าการเพิ่มความสม่ำเสมอจะทำให้สูญเสียการฝึกมากขึ้น แต่ก็มักช่วยให้โมเดลคาดการณ์ได้ดียิ่งขึ้นจากตัวอย่างในโลกแห่งความเป็นจริง

อัตราการปรับให้เป็นมาตรฐาน

#fundamentals

ตัวเลขที่ระบุลำดับความสำคัญสัมพัทธ์ของการจัดการรูปแบบในระหว่างการฝึก การเพิ่มอัตราการปรับให้เป็นมาตรฐานจะลดการปรับให้เกินความเหมาะสม แต่อาจลดความสามารถในการคาดการณ์ของโมเดล ในทางกลับกัน การลดหรือละเลยอัตราการกำหนดปกติจะเป็นการเพิ่มมากเกินไป

คลิกไอคอนเพื่อดูการคำนวณ

อัตราการกำหนดมาตรฐานนี้จะแสดงเป็นตัวอักษรกรีก (lambda) สมการ loss แบบง่ายๆ ต่อไปนี้แสดงอิทธิพลของแลมบ์ดา

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

โดยที่การจัดการรูปแบบคือกลไกการกำหนดเป็นมาตรฐาน ซึ่งรวมถึง

การกำหนดกฎ L₁
กฎ L₂

ReLU

#fundamentals

ตัวย่อของหน่วยเชิงเส้นตรง

รุ่น Augmented Reality (RAG)

#fundamentals

เทคนิคในการปรับปรุงคุณภาพเอาต์พุตของโมเดลภาษาขนาดใหญ่ (LLM) โดยการนำมาใช้กับแหล่งความรู้ที่ดึงมาหลังจากการฝึกโมเดล RAG ปรับปรุงความแม่นยำของคำตอบ LLM ด้วยการให้ LLM ที่ผ่านการฝึกอบรมมีสิทธิ์เข้าถึงข้อมูลที่ดึงมาจากฐานความรู้หรือเอกสารที่เชื่อถือได้

แรงจูงใจทั่วไปในการใช้รุ่นดึงข้อมูลเพิ่มเติมมีดังนี้

การเพิ่มความถูกต้องของข้อเท็จจริงของคำตอบที่สร้างขึ้นของโมเดล
การให้สิทธิ์โมเดลเข้าถึงความรู้ที่โมเดลไม่ได้รับการฝึก
การเปลี่ยนความรู้ที่โมเดลใช้
การเปิดใช้โมเดลเพื่ออ้างอิงแหล่งที่มา

เช่น สมมติว่าแอปเคมีใช้ PaLM API เพื่อสร้างข้อมูลสรุปที่เกี่ยวข้องกับคำค้นหาของผู้ใช้ เมื่อแบ็กเอนด์ของแอปได้รับคำค้นหา แบ็กเอนด์จะทำดังนี้

ค้นหาข้อมูล ("ดึงข้อมูล") ที่เกี่ยวข้องกับข้อความค้นหาของผู้ใช้
เพิ่ม ("เสริม") ข้อมูลทางเคมีที่เกี่ยวข้องในข้อความค้นหาของผู้ใช้
สั่งให้ LLM สร้างสรุปตามข้อมูลต่อท้าย

เส้นโค้ง ROC (อักขระปฏิบัติการของตัวรับ)

#fundamentals

กราฟอัตราผลบวกจริงกับอัตราผลบวกลวงสำหรับเกณฑ์การแยกประเภทที่แตกต่างกันในการแยกประเภทแบบไบนารี

รูปร่างของเส้นโค้ง ROC ชี้ให้เห็นถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสเชิงบวกออกจากคลาสเชิงลบ สมมติว่าโมเดลการจัดประเภทแบบไบนารีแยกคลาสเชิงลบทั้งหมดออกจากคลาสเชิงบวกทั้งหมดอย่างลงตัว ดังนี้

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 8 รายการทางด้านขวาและตัวอย่างเชิงลบ 7 รายการทางด้านซ้าย

เส้นโค้ง ROC สำหรับรูปแบบก่อนหน้าจะมีลักษณะดังนี้

เส้นโค้ง ROC แกน x คืออัตราผลบวกเท็จและแกน y เป็นอัตราผลบวกจริง เส้นโค้งมีรูปทรงตัว L กลับด้าน เส้นโค้งเริ่มต้นที่ (0.0,0.0) ไปจนถึง (0.0,1.0) จากนั้นเส้นโค้งจะเปลี่ยนจาก (0.0,1.0) ไปยัง (1.0,1.0)

ในทางตรงกันข้าม ภาพประกอบต่อไปนี้แสดงกราฟค่าการถดถอยโลจิสติกที่เป็นข้อมูลดิบสำหรับโมเดลที่แย่มากซึ่งไม่สามารถแยกคลาสเชิงลบออกจากคลาสบวกเลย

เส้นจำนวนที่มีตัวอย่างเชิงบวกและคลาสเชิงลบผสมกัน

เส้นโค้ง ROC สำหรับโมเดลนี้มีลักษณะดังต่อไปนี้

เส้นโค้ง ROC ซึ่งเป็นเส้นตรงตั้งแต่ (0.0,0.0) ถึง (1.0,1.0)

ในขณะเดียวกัน ในโลกแห่งความเป็นจริง โมเดลการจัดประเภทแบบไบนารีส่วนใหญ่จะแยกคลาสเชิงบวกและเชิงลบในระดับหนึ่งออก แต่มักจะไม่สมบูรณ์แบบที่สุด ดังนั้น เส้นโค้ง ROC ตามปกติจะอยู่ระหว่างปลายทั้ง 2 ด้าน

เส้นโค้ง ROC แกน x คืออัตราผลบวกเท็จและแกน y เป็นอัตราผลบวกจริง เส้นโค้ง ROC จะประมาณส่วนโค้งที่สั่นไหวไปตามจุดเข็มทิศจากตะวันตกไปยังทิศเหนือ

ทางทฤษฎี จุดบนเส้นโค้ง ROC ที่ใกล้เคียงที่สุด (0.0,1.0) จะระบุเกณฑ์การจัดประเภทที่เหมาะสม อย่างไรก็ตาม ปัญหาอื่นๆ ที่เกิดขึ้นจริงก็มีอิทธิพลต่อการเลือกเกณฑ์การจัดประเภทที่เหมาะสม เช่น ผลลบลวงอาจสร้างความเจ็บปวดมากกว่าผลบวกลวง

เมตริกตัวเลขที่ชื่อ AUC จะสรุปเส้นโค้ง ROC เป็นค่าจุดลอยตัวค่าเดียว

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)

#fundamentals

รากที่สองของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง

S

ฟังก์ชันซิกมอยด์

#fundamentals

ฟังก์ชันทางคณิตศาสตร์ที่ "บีบ" ค่าอินพุตไว้ในช่วงที่จำกัด ซึ่งมักจะเป็น 0 ถึง 1 หรือ -1 ถึง +1 กล่าวคือ คุณสามารถส่งตัวเลขใดก็ได้ (2, 1 ล้าน, ลบเป็นพันล้าน, เป็นอะไรก็ได้) ไปยังซิกมอยด์ และเอาต์พุตจะยังคงอยู่ในช่วงที่จำกัด พล็อตของฟังก์ชันการเปิดใช้งานซิกมอยด์มีลักษณะดังต่อไปนี้

ฟังก์ชันซิกมอยด์มีประโยชน์หลายอย่างในแมชชีนเลิร์นนิง ดังนี้

การแปลงผลลัพธ์ดิบของโมเดลการถดถอยแบบโลจิสติกหรือการถดถอยพหุนามเป็นความน่าจะเป็น
ทำหน้าที่เป็นฟังก์ชันเปิดใช้งานในโครงข่ายประสาทบางเครือข่าย

คลิกไอคอนเพื่อดูการคำนวณ

ฟังก์ชัน sigmoid สำหรับเลขอินพุต x มีสูตรต่อไปนี้

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

ในแมชชีนเลิร์นนิง โดยทั่วไปแล้ว x จะเป็นผลรวมถ่วงน้ำหนัก

ซอฟต์แม็กซ์

#fundamentals

ฟังก์ชันที่กำหนดความน่าจะเป็นสำหรับคลาสที่เป็นไปได้แต่ละรายการในโมเดลการจัดประเภทแบบหลายคลาส ความน่าจะเป็นรวมกันได้ 1.0 พอดี ตัวอย่างเช่น ตารางต่อไปนี้แสดงให้เห็นว่า softmax กระจายความน่าจะเป็นต่างๆ อย่างไร

รูปภาพคือ...	Probability
สุนัข	0.85
cat	0.13
ม้า	0.02

Softmax เรียกอีกอย่างว่า Full softmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

คลิกไอคอนเพื่อดูการคำนวณ

สมการซอฟต์แม็กซ์มีดังนี้

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

ที่ไหน

$\sigma_i$ เป็นเวกเตอร์เอาต์พุต แต่ละองค์ประกอบของเวกเตอร์เอาต์พุต จะระบุความน่าจะเป็นขององค์ประกอบนี้ ผลรวมขององค์ประกอบทั้งหมดในเวกเตอร์เอาต์พุตคือ 1.0 เวกเตอร์เอาต์พุตจะมีจำนวนองค์ประกอบ เท่ากับเวกเตอร์อินพุต $z$
$z$ คือเวกเตอร์อินพุต แต่ละองค์ประกอบของเวกเตอร์อินพุต จะมีค่าจุดลอยตัว
$K$ คือจำนวนองค์ประกอบในเวกเตอร์อินพุต (และเวกเตอร์เอาต์พุต)

ตัวอย่างเช่น สมมติว่าเวกเตอร์อินพุตคือ

[1.2, 2.5, 1.8]

ดังนั้น Softmax จะคำนวณตัวส่วนดังนี้

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

ดังนั้น ความน่าจะเป็นของ Softmax ของแต่ละองค์ประกอบจะเป็น:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

ดังนั้นเวกเตอร์เอาต์พุตจะเป็นดังนี้

$$\sigma = [0.154, 0.565, 0.281]$$

ผลรวมขององค์ประกอบ 3 อย่างใน $\sigma$ คือ 1.0 ในที่สุด

พื้นที่กระจัดกระจาย

#language

#fundamentals

ฟีเจอร์ที่มีค่าส่วนใหญ่เป็น 0 หรือว่างเปล่า เช่น ฟีเจอร์ที่มีค่า 1 ค่าเดียวแต่ 0 ล้านค่านั้นมีน้อย ในทางตรงกันข้าม ฟีเจอร์ที่หนาแน่นจะมีค่าที่ส่วนใหญ่ไม่ใช่ 0 หรือว่างเปล่า

ในแมชชีนเลิร์นนิง จำนวนฟีเจอร์ที่น่าประหลาดใจคือฟีเจอร์จำนวนน้อย ฟีเจอร์เชิงหมวดหมู่มักจะเป็นฟีเจอร์ที่ไม่ซับซ้อน เช่น จากต้นไม้ 300 ชนิดที่เป็นไปได้ในป่า ตัวอย่างหนึ่งอาจระบุเพียงต้นเมเปิล หรือวิดีโอที่เป็นไปได้หลายล้านรายการในคลังวิดีโอ ตัวอย่างหนึ่งอาจระบุแค่คำว่า "คาซาบลังกา"

ในโมเดลหนึ่ง โดยปกติแล้วคุณจะแสดงฟีเจอร์ที่กระจัดกระจายด้วยการเข้ารหัสแบบ One-Hot หากการเข้ารหัสแบบ 1-Hot มีขนาดใหญ่ คุณอาจวาง เลเยอร์การฝัง ไว้ด้านบนของการเข้ารหัสแบบ 1 Hot เพื่อประสิทธิภาพที่ดียิ่งขึ้น

การเป็นตัวแทนแบบย่อ

#language

#fundamentals

การจัดเก็บเฉพาะตำแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์ที่กระจัดกระจาย

ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ species ระบุพันธุ์ไม้ 36 ต้นในป่าหนึ่งๆ นอกจากนี้ สมมุติว่าตัวอย่างแต่ละรายการระบุสายพันธุ์ได้เพียง 1 สปีชีส์เท่านั้น

คุณสามารถใช้เวกเตอร์หนึ่งที่น่าสนใจเพื่อแสดงถึงสปีชีส์ของต้นไม้ในแต่ละตัวอย่าง เวกเตอร์ 1 รายการที่เร็ว ๆ จะมี 1 เดียว (เพื่อแสดงถึงสปีชีส์ของต้นไม้เฉพาะในตัวอย่าง) และ 35 0 (เพื่อแสดงถึงต้นไม้ 35 ชนิดที่ไม่ใช่ในตัวอย่างนั้น) ดังนั้น การนำเสนอ maple แบบร้อนแรง อาจมีลักษณะประมาณนี้

เวกเตอร์ที่ตำแหน่ง 0 ถึง 23 มีค่า 0 ตำแหน่ง 24 มีค่า 1 และตำแหน่งที่ 25 ถึง 35 มีค่าเป็น 0

อีกตัวอย่างหนึ่งคือ การแทนแบบกระจัดกระจายอาจแค่ระบุตำแหน่งของสปีชีส์หนึ่งๆ เท่านั้น หาก maple อยู่ที่ตำแหน่ง 24 การแสดงแบบคร่าวๆ ของ maple จะมีลักษณะดังนี้

สังเกตว่าการนำเสนอแบบกระทัดรัดนั้นกะทัดรัดมากกว่าการนำเสนอแบบเดี่ยวๆ มาก

คลิกไอคอนสำหรับตัวอย่างที่ซับซ้อนขึ้นเล็กน้อย

สมมติว่าแต่ละตัวอย่างในโมเดลต้องแสดงถึงคำในประโยคภาษาอังกฤษ ไม่ใช่ลำดับของคำเหล่านั้น ภาษาอังกฤษประกอบด้วยคำประมาณ 170,000 คำ ภาษาอังกฤษจึงเป็นฟีเจอร์เชิงหมวดหมู่โดยมีองค์ประกอบประมาณ 170,000 องค์ประกอบ ประโยคภาษาอังกฤษส่วนใหญ่ใช้สัดส่วนที่น้อยมากจาก 170,000 คำ ดังนั้นชุดคำในตัวอย่างเดียวจึงแทบจะมีข้อมูลที่กระจัดกระจายไปเลย

ลองพิจารณาประโยคต่อไปนี้

My dog is a great dog

คุณสามารถใช้รูปแบบของเวกเตอร์ 1 ร้อนแทนคำในประโยคนี้ได้ ในตัวแปรนี้ เซลล์หลายเซลล์ในเวกเตอร์อาจมีค่าที่ไม่ใช่ 0 นอกจากนี้ ในตัวแปรนี้ เซลล์อาจมีจำนวนเต็มนอกเหนือจาก 1 ได้ แม้ว่าคำว่า "ของฉัน", "เป็น", "a" และ "ดี" จะปรากฏเพียง 1 ครั้งในประโยคนี้ แต่คำว่า "สุนัข" จะปรากฏ 2 ครั้ง การใช้ตัวแปรของเวกเตอร์ที่ร้อนแรงนี้แทนคำในประโยคนี้จะให้ผลลัพธ์เวกเตอร์ 170,000 องค์ประกอบดังต่อไปนี้

สรุปสั้นๆ ของประโยคเดียวกันอาจเป็นเพียง

คลิกไอคอนหากคุณสับสน

คำว่า "การเป็นตัวแทนบางส่วน" ทำให้คนจำนวนมากสับสน เพราะการเป็นตัวแทนบางส่วนนั้นไม่ใช่เวกเตอร์ที่ขาดหาย แต่ในทางตรงกันข้าม การแทนบางส่วนจริงๆ แล้วคือการนำเสนอเวกเตอร์ที่หนาแน่น คำพ้องความหมายของการแทนค่าดัชนีจะชัดเจนกว่า "การแทนแบบน้อย" เล็กน้อย

เวกเตอร์แบบกระจัดกระจาย

#fundamentals

เวกเตอร์ที่ค่าส่วนใหญ่เป็น 0 โปรดดูฟีเจอร์บางส่วนและความสอดคล้องกันด้วย

ค่าสูญเสียยกกำลังสอง

#fundamentals

คำพ้องความหมายของ L₂ Los

คงที่

#fundamentals

เป็นการดำเนินการเพียงครั้งเดียว แทนที่จะเป็นอย่างต่อเนื่อง คำว่าคงที่และออฟไลน์เป็นคำพ้องความหมาย การใช้งานแบบคงที่และออฟไลน์ในแมชชีนเลิร์นนิงโดยทั่วไปมีดังนี้

โมเดลคงที่ (หรือโมเดลออฟไลน์) เป็นโมเดลที่ได้รับการฝึก 1 ครั้งและใช้ไประยะหนึ่ง
การฝึกแบบคงที่ (หรือการฝึกออฟไลน์) เป็นกระบวนการฝึกโมเดลแบบคงที่
การอนุมานแบบคงที่ (หรือการอนุมานแบบออฟไลน์) คือกระบวนการที่โมเดลสร้างการคาดการณ์เป็นกลุ่มครั้งละชุด

คอนทราสต์แบบไดนามิก

การอนุมานแบบคงที่

#fundamentals

คำพ้องความหมายของการอนุมานแบบออฟไลน์

สถานีเพลง

#fundamentals

ฟีเจอร์ที่มีค่าไม่เปลี่ยนแปลงตามมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักเป็นเวลา เช่น ฟีเจอร์ที่มีค่าต่างๆ ใกล้เคียงกันในปี 2021 และ 2023 จะแสดงภาพนิ่ง

ในโลกแห่งความเป็นจริง สิ่งที่แสดงการอยู่นิ่งๆ นั้นมีน้อยมาก แม้แต่คุณลักษณะที่ไม่ตรงตัวกับความเสถียร (เช่น ระดับน้ำทะเล) ก็จะเปลี่ยนแปลงเมื่อเวลาผ่านไป

คอนทราสต์กับความไม่คงที่

สโตรกแบบไล่ระดับสี (SGD)

#fundamentals

อัลกอริทึมการลดระดับของการไล่ระดับสีที่มีขนาดกลุ่มเท่ากับ กล่าวคือ SGD จะฝึกโดยใช้ตัวอย่างเดียวที่ได้รับการสุ่มเลือกอย่างเท่าเทียมกันจากชุดการฝึก

แมชชีนเลิร์นนิงที่มีการควบคุมดูแล

#fundamentals

การฝึกmodelจากmodelและmodelที่เกี่ยวข้อง แมชชีนเลิร์นนิงที่มีการควบคุมดูแลเปรียบได้กับการเรียนรู้วิชาหนึ่งโดยการศึกษาชุดคำถามและคำตอบที่เกี่ยวข้อง เมื่อจับคู่คำถามกับคำตอบอย่างเชี่ยวชาญแล้ว นักเรียนจะตอบคำถามใหม่ๆ ในหัวข้อเดียวกันได้ (ไม่เคยเห็นมาก่อน)

เปรียบเทียบกับแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

ฟีเจอร์สังเคราะห์

#fundamentals

ฟีเจอร์จะไม่ปรากฏในฟีเจอร์อินพุต แต่ประกอบขึ้นจากฟีเจอร์อย่างน้อย 1 รายการ วิธีสร้างฟีเจอร์สังเคราะห์มีดังนี้

การรวมข้อมูลฟีเจอร์แบบต่อเนื่องลงในถังขยะช่วง
การสร้างข้ามฟีเจอร์
การคูณ (หรือหาร) ค่าจุดสนใจหนึ่งด้วยค่าอื่นของจุดสนใจ หรือตามตัวมันเอง เช่น หาก a และ b เป็นฟีเจอร์อินพุต ต่อไปนี้คือตัวอย่างของฟีเจอร์สังเคราะห์
- ab
- ก²
การใช้ฟังก์ชันเชิงสืบเนื่องกับค่าฟีเจอร์ เช่น หาก c เป็นฟีเจอร์อินพุต ต่อไปนี้เป็นตัวอย่างของฟีเจอร์สังเคราะห์
- sin(c)
- ln(c)

ฟีเจอร์ที่สร้างโดยการทำให้เป็นมาตรฐานหรือการปรับขนาดเพียงอย่างเดียวไม่ถือว่าเป็นฟีเจอร์สังเคราะห์

T

ทดสอบการสูญหาย

#fundamentals

เมตริกที่แสดงถึงการสูญเสียของโมเดลเทียบกับชุดทดสอบ เมื่อสร้างmodel คุณมักพยายามลดการสูญหายของการทดสอบ นั่นเป็นเพราะการสูญเสียการทดสอบในระดับต่ำถือเป็นสัญญาณที่มีคุณภาพมากกว่าการสูญเสียการฝึกต่ำ หรือการสูญเสียการตรวจสอบต่ำ

บางครั้งความแตกต่างอย่างมากระหว่างการสูญเสียการทดสอบกับการสูญเสียการทดสอบหรือการสูญเสียการตรวจสอบบ่งชี้ว่าคุณต้องเพิ่มอัตราการทำให้เป็นมาตรฐาน

การฝึกอบรม

#fundamentals

ขั้นตอนการกำหนดพารามิเตอร์ (น้ำหนักและอคติ) ในอุดมคติซึ่งประกอบด้วยโมเดล ระหว่างการฝึก ระบบจะอ่านตัวอย่างและค่อยๆ ปรับพารามิเตอร์ การฝึกจะใช้แต่ละตัวอย่างในทุกที่ ตั้งแต่ 2-3 ครั้งไปจนถึงหลายพันล้านครั้ง

การสูญเสียการฝึก

#fundamentals

เมตริกที่แสดงถึงการสูญหายของโมเดลระหว่างการทำซ้ำการฝึกหนึ่งๆ เช่น สมมติว่าฟังก์ชันการสูญเสียคือค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง บางทีการสูญเสียการฝึก (ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง) สำหรับการทำซ้ำครั้งที่ 10 อาจเป็น 2.2 และการสูญเสียการฝึกสำหรับการทำซ้ำครั้งที่ 100 คือ 1.9

เส้นโค้งการสูญเสียแสดงการสูญเสียการฝึกเทียบกับจำนวนการทำซ้ำ เส้นโค้งการสูญเสียจะให้ข้อมูลเกี่ยวกับการฝึกต่อไปนี้

ความลาดชันลดลงบ่งบอกว่าโมเดลกำลังพัฒนา
ความชันเพิ่มขึ้นบ่งบอกว่าโมเดลกำลังแย่ลง
ความชันแบบแบนราบหมายความว่าโมเดลไปถึงการสนทนาแล้ว

ตัวอย่างเช่น เส้นโค้งการสูญเสียตามอุดมคติต่อไปนี้แสดงให้เห็นว่า

ความชันลงที่สูงชันระหว่างการทำซ้ำช่วงแรก ซึ่งแสดงถึงการปรับปรุงโมเดลอย่างรวดเร็ว
ความลาดชันที่ค่อยๆ แบนลง (แต่ยังคงต่ำลง) จนถึงช่วงท้ายของการฝึก ซึ่งบ่งบอกว่ามีการปรับปรุงโมเดลอย่างต่อเนื่องโดยมีความเร็วค่อนข้างต่ำขณะนั้นระหว่างการทำซ้ำช่วงแรก
ทางลาดแบบราบเรียบในช่วงท้ายของการฝึก ซึ่งแสดงถึงการลู่เข้า

พล็อตเรื่องการสูญเสียการฝึกเทียบกับการทำซ้ำ โดยเส้นโค้งการสูญเสียนี้จะเริ่มต้นด้วยความชันลงที่ลาดลง ความลาดชันจะค่อยๆ คงที่จนกว่าความชันจะกลายเป็น 0

แม้ว่าการสูญเสียการฝึกจะมีความสำคัญ โปรดดูการทำให้เป็นแบบทั่วไปด้วย

ความคลาดเคลื่อนระหว่างการฝึกและการให้บริการ

#fundamentals

ความแตกต่างระหว่างประสิทธิภาพของโมเดลในระหว่างการฝึกกับประสิทธิภาพของโมเดลเดียวกันในระหว่างการแสดงผล

ชุดการฝึก

#fundamentals

ชุดย่อยของชุดข้อมูลที่ใช้ในการฝึกโมเดล

เดิมที ตัวอย่างในชุดข้อมูลจะแบ่งออกเป็น 3 ชุดย่อยที่แตกต่างกันดังต่อไปนี้

ชุดการฝึก
ชุดการตรวจสอบ
ชุดทดสอบ

ตามหลักการแล้ว แต่ละตัวอย่างในชุดข้อมูลควรเป็นของชุดย่อยที่อยู่ก่อนหน้าเพียงชุดเดียวเท่านั้น ตัวอย่างเช่น ตัวอย่าง 1 รายการไม่ควรอยู่ในทั้งชุดการฝึกและชุดการตรวจสอบ

ลบจริง (TN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบได้อย่างถูกต้อง เช่น โมเดลจะอนุมานได้ว่าข้อความอีเมลหนึ่งๆไม่ใช่สแปม และข้อความอีเมลนั้นไม่ใช่สแปมจริงๆ

ผลบวกจริง (TP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงบวกได้อย่างถูกต้อง ตัวอย่างเช่น โมเดลนี้จะอนุมานได้ว่าข้อความอีเมลหนึ่งๆ เป็นสแปม และข้อความอีเมลนั้นเป็นสแปมจริงๆ

อัตราผลบวกจริง (TPR)

#fundamentals

คำพ้องความหมายของ recall โดยการ

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

อัตราผลบวกจริงคือแกน y ในเส้นโค้ง ROC

U

ชุดชั้นใน

#fundamentals

สร้างmodelที่มีความสามารถในการคาดการณ์ต่ำเนื่องจากโมเดลไม่ได้บันทึกความซับซ้อนของข้อมูลการฝึกอย่างสมบูรณ์ หลายๆ ปัญหา อาจทำให้ไม่ได้ปรับให้เหมาะสม เช่น

การฝึกใช้ฟีเจอร์ชุดที่ไม่ถูกต้อง
การฝึกสำหรับ Epoch น้อยเกินไปหรือมีอัตราการเรียนรู้ต่ำเกินไป
การฝึกที่มีอัตราการทำให้เป็นมาตรฐานสูงเกินไป
การมีเลเยอร์ที่ซ่อนอยู่น้อยเกินไปในโครงข่ายประสาทระดับลึก

ตัวอย่างที่ไม่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์ แต่ไม่มีป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่างที่ไม่มีป้ายกำกับ 3 ตัวอย่างจากรูปแบบการประเมินราคาบ้าน โดยแต่ละแบบมีฟีเจอร์ 3 รายการแต่ไม่มีมูลค่าบ้าน

จำนวนห้องนอน	จำนวนห้องน้ำ	อายุบ้าน
3	2	15
2	1	72
4	2	34

ในการเรียนรู้แบบมีการควบคุมดูแลบางส่วนและไม่มีการควบคุมดูแล จะมีการใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการฝึก

เปรียบเทียบตัวอย่างที่ไม่มีป้ายกำกับกับตัวอย่างที่ติดป้ายกำกับ

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

#clustering

#fundamentals

การฝึกmodelเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งมักจะเป็นชุดข้อมูลที่ไม่มีป้ายกำกับ

การใช้แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลที่พบบ่อยที่สุดคือการจัดกลุ่มข้อมูลเป็นกลุ่มตัวอย่างที่คล้ายกัน เช่น อัลกอริทึมแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลสามารถจัดกลุ่มเพลงตามคุณสมบัติต่างๆ ของเพลงได้ คลัสเตอร์ที่ได้อาจกลายเป็นอินพุตของอัลกอริทึมแมชชีนเลิร์นนิงอื่นๆ (เช่น กับบริการแนะนำเพลง) การจัดกลุ่มสามารถช่วยได้เมื่อไม่มีป้ายกำกับที่เป็นประโยชน์หรือป้ายกำกับที่มีประโยชน์ ตัวอย่างเช่น ในโดเมนต่างๆ อย่างการป้องกันการละเมิดและการประพฤติมิชอบ คลัสเตอร์จะช่วยให้มนุษย์เข้าใจข้อมูลได้ดีขึ้น

ตรงข้ามกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

อีกตัวอย่างหนึ่งของแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลคือการวิเคราะห์องค์ประกอบหลัก (PCA) ตัวอย่างเช่น การใช้ PCA ในชุดข้อมูลที่มีตะกร้าสินค้าหลายล้านชิ้นอาจแสดงให้เห็นว่ารถเข็นช็อปปิ้งที่มีมะนาวมักมียาลดกรดเช่นกัน

V

การตรวจสอบความถูกต้อง

#fundamentals

การประเมินคุณภาพของโมเดลเบื้องต้น การตรวจสอบความถูกต้องจะตรวจสอบคุณภาพการคาดการณ์ของโมเดลโดยเทียบกับชุดการตรวจสอบ

เนื่องจากชุดการตรวจสอบแตกต่างจากชุดการฝึก การตรวจสอบจึงช่วยป้องกันการใส่เกิน

คุณอาจลองประเมินโมเดลกับชุดการตรวจสอบว่าเป็นการทดสอบรอบแรก และประเมินโมเดลกับชุดทดสอบซึ่งเป็นการทดสอบรอบที่ 2

การสูญเสียการตรวจสอบ

#fundamentals

เมตริกที่แสดงถึงการสูญหายของโมเดลในชุดการตรวจสอบในระหว่างการทำซ้ำการฝึกที่เฉพาะเจาะจง

ดูเส้นโค้งการปรับทั่วไปด้วย

ชุดการตรวจสอบ

#fundamentals

ชุดย่อยของชุดข้อมูลที่ทำการประเมินเบื้องต้นกับโมเดลที่ผ่านการฝึกแล้ว โดยปกติแล้ว คุณจะประเมินโมเดลที่ฝึกแล้วเทียบกับชุดการตรวจสอบหลายครั้งก่อนที่จะประเมินโมเดลกับชุดทดสอบ

เดิมที คุณจะแบ่งตัวอย่างในชุดข้อมูลออกเป็น 3 ชุดย่อยที่แตกต่างกันดังต่อไปนี้

ชุดการฝึก
ชุดการตรวจสอบ
ชุดทดสอบ

W

น้ำหนัก

#fundamentals

ค่าที่โมเดลคูณด้วยค่าอื่น การฝึกเป็นกระบวนการในการกำหนดน้ำหนักที่เหมาะสมของโมเดล การอนุมานเป็นกระบวนการของการใช้น้ำหนักที่เรียนรู้เหล่านั้นมาในการคาดการณ์

คลิกไอคอนเพื่อดูตัวอย่างน้ำหนักในรูปแบบเชิงเส้น

สมมติว่าโมเดลเชิงเส้นที่มีฟีเจอร์ 2 รายการ สมมติว่าการฝึกเป็นตัวกำหนดน้ำหนัก (และอคติ) ต่อไปนี้

การให้น้ำหนัก b มีค่า 2.2
น้ำหนัก₁ ที่เชื่อมโยงกับจุดสนใจหนึ่งคือ 1.5
น้ำหนัก ₂ ที่เชื่อมโยงกับอีกฟีเจอร์หนึ่งคือ 0.4

คราวนี้ลองนึกภาพตัวอย่างที่มีค่าของฟีเจอร์ต่อไปนี้

ค่าของสถานที่ 1 แห่ง ซึ่งก็คือ x₁ คือ 6
ค่าของอีกฟีเจอร์หนึ่ง x₂ คือ 10

รูปแบบเชิงเส้นนี้ใช้สูตรต่อไปนี้เพื่อสร้างการคาดการณ์ ดังนี้

$$y' = b + w_1x_1 + w_2x_2$$

ดังนั้น การคาดการณ์จะเป็นดังนี้

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

หากน้ำหนักเป็น 0 หมายความว่าฟีเจอร์ที่เกี่ยวข้องจะไม่ส่งผลกับโมเดล เช่น ถ้า w₁ เป็น 0 ค่าของ x₁ จะไม่เกี่ยวข้อง

ผลรวมถ่วงน้ำหนัก

#fundamentals

ผลรวมของค่าอินพุตที่เกี่ยวข้องทั้งหมดคูณด้วยน้ำหนักที่สอดคล้องกัน ตัวอย่างเช่น สมมติว่าอินพุตที่เกี่ยวข้องประกอบด้วยข้อมูลต่อไปนี้

ค่าอินพุต	น้ำหนักอินพุต
2	-1.3
-1	0.6
3	0.4

ดังนั้น ผลรวมถ่วงน้ำหนักจะเป็นดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

ผลรวมถ่วงน้ำหนักคืออาร์กิวเมนต์อินพุตของฟังก์ชันการเปิดใช้งาน

Z

การแปลงค่ามาตรฐานเป็น Z

#fundamentals

เทคนิคการปรับขนาดที่แทนที่ค่า feature ดิบด้วยค่าจุดลอยตัวที่แสดงจำนวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของจุดสนใจนั้น ตัวอย่างเช่น ลององค์ประกอบที่มีค่าเฉลี่ยคือ 800 และมีค่าเบี่ยงเบนมาตรฐานเป็น 100 ตารางต่อไปนี้แสดงวิธีที่การปรับคะแนน Z ให้เป็นมาตรฐาน จะจับคู่ค่าดิบกับคะแนน Z

ค่าดิบ	คะแนนมาตรฐาน
800	0
950	มากกว่า 1.5
575	-2.25

จากนั้นโมเดลแมชชีนเลิร์นนิงจะฝึกตามคะแนน Z สำหรับฟีเจอร์นั้นแทนที่จะใช้ค่าดิบ

อภิธานศัพท์ของแมชชีนเลิร์นนิง: พื้นฐาน ML

A

ความแม่นยำ

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

ฟังก์ชันการเปิดใช้งาน

คลิกไอคอนเพื่อดูตัวอย่าง

ปัญญาประดิษฐ์ (AI)

AUC (พื้นที่ใต้กราฟ ROC)

คลิกไอคอนเพื่อดูข้อมูลเกี่ยวกับความสัมพันธ์ระหว่างเส้นโค้ง AUC และ ROC

คลิกไอคอนเพื่อดูคำจำกัดความ AUC ที่เป็นทางการมากขึ้น

B

การแพร่พันธุ์ย้อนกลับ

กลุ่ม

ขนาดกลุ่ม

อคติ (จริยธรรม/ความเป็นธรรม)

การให้น้ำหนักพิเศษ (ทางคณิตศาสตร์) หรือการให้น้ำหนักพิเศษ

การจำแนกประเภทไบนารี

การฝากข้อมูล

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

C

ข้อมูลเชิงหมวดหมู่

คลาส

โมเดลการจัดประเภท

เกณฑ์การจัดประเภท

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

ชุดข้อมูลที่ไม่สมดุลระดับ

การตัดคลิป

เมทริกซ์ความสับสน

ฟีเจอร์ต่อเนื่อง

ลู่เข้า

D

DataFrame

ชุดข้อมูลหรือชุดข้อมูล

โมเดลเชิงลึก

องค์ประกอบที่หนาแน่น

ความลึก

ฟีเจอร์แยกต่างหาก

ไดนามิก

รูปแบบแบบไดนามิก

จ.

การหยุดก่อนกำหนด

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เลเยอร์ที่ฝัง

Epoch

ตัวอย่าง

F

ผลลบลวง (FN)

ผลบวกลวง (FP)

อัตราผลบวกลวง (FPR)

ฟีเจอร์

กากบาทในฟีเจอร์

Feature Engineering

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติมเกี่ยวกับ TensorFlow

ชุดฟีเจอร์

เวกเตอร์จุดสนใจ

การเก็บฟีดแบ็กมาแก้ไข

G

ข้อมูลทั่วไป

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

กราฟข้อมูลทั่วไป

ลาดลงแบบไล่ระดับ

ข้อมูลที่เป็นความจริง

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

ฮิต

เลเยอร์ที่ซ่อนอยู่

ไฮเปอร์พารามิเตอร์

I

กระจายอย่างอิสระและเหมือนกัน (i.d)

การอนุมาน

เลเยอร์อินพุต

ความสามารถในการตีความ

การทำซ้ำ

L

การกำหนดกฎ L0

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

แพ้ L1

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

การกำหนดกฎ L1

แพ้ L2

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

การกำหนดกฎ L₀

แพ้ L₁

การกำหนดกฎ L₁

แพ้ L₂

การกำหนดกฎ L₂