อภิธานศัพท์ของแมชชีนเลิร์นนิง: พื้นฐาน ML

หน้านี้มีคำศัพท์ในอภิธานศัพท์ของ ML Fundamentals หากต้องการดูคำศัพท์ในอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

ความแม่นยำ

#fundamentals

จำนวนการคาดการณ์การจัดประเภทที่ถูกต้องหารด้วยจำนวนการคาดการณ์ทั้งหมด โดยการ

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

เช่น โมเดลที่ทำการคาดการณ์ถูกต้อง 40 รายการและการคาดการณ์ที่ไม่ถูกต้อง 10 รายการจะมีความแม่นยำดังนี้

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

การจัดประเภทแบบไบนารีจะระบุชื่อเฉพาะสำหรับหมวดหมู่ต่างๆ ของการคาดการณ์ที่ถูกต้องและการคาดการณ์ที่ไม่ถูกต้อง ดังนั้นสูตรความแม่นยำสำหรับการจัดประเภทแบบไบนารี มีดังนี้

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

ที่ไหน:

เปรียบเทียบระหว่างความแม่นยำกับความแม่นยำและความอ่อนไหว

ฟังก์ชันการเปิดใช้งาน

#fundamentals

ฟังก์ชันที่ช่วยให้โครงข่ายระบบประสาทเทียมเรียนรู้ความสัมพันธ์แบบไม่ใช่เชิงเส้น (ที่ซับซ้อน) ระหว่างฟีเจอร์ต่างๆ และป้ายกำกับ

ฟังก์ชันการเปิดใช้งานยอดนิยม ได้แก่

พล็อตของฟังก์ชันการเปิดใช้งานไม่ได้เป็นเส้นตรงเดี่ยว เช่น พล็อตของฟังก์ชันการเปิดใช้งาน ReLU ประกอบด้วยเส้นตรง 2 เส้น ดังนี้

พล็อตแบบคาร์เตเซียที่มีเส้น 2 เส้น บรรทัดแรกมีค่า y คงที่เป็น 0 วิ่งตามแกน x ตั้งแต่ -infinity, 0 ถึง 0,-0
          บรรทัดที่ 2 เริ่มต้นที่ 0,0 เส้นนี้มีความชันของ +1 ดังนั้น
          จึงเริ่มต้นจาก 0,0 ถึง +อนันต์, +อนันต์

พล็อตของฟังก์ชันการเปิดใช้งานซิกมอยด์มีลักษณะดังต่อไปนี้

พล็อตแบบโค้ง 2 มิติที่มีค่า x ซึ่งครอบคลุมโดเมนตั้งแต่ -อนันต์ไปจนถึง +บวก ขณะที่ค่า y อยู่ในช่วงเกือบ 0 ถึงเกือบ 1 เมื่อ x เท่ากับ 0 ค่า y จะเท่ากับ 0.5 ความชันของเส้นโค้งจะเป็นบวกเสมอ โดยมีความชันสูงสุดที่ 0,0.5 และค่อยๆ ลดความชันลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ปัญญาประดิษฐ์ (AI)

#fundamentals

โปรแกรมหรือmodelที่ไม่ใช่มนุษย์ซึ่งแก้ปัญหาที่ซับซ้อนได้ ตัวอย่างเช่น โปรแกรมหรือโมเดลที่แปลข้อความหรือโปรแกรมหรือโมเดลที่ระบุโรคต่างๆ จากภาพรังสีวิทยาแสดงปัญญาประดิษฐ์ (AI)

อย่างเป็นทางการ แมชชีนเลิร์นนิงเป็นสาขาย่อยของปัญญาประดิษฐ์ (AI) อย่างไรก็ตาม ในช่วงไม่กี่ปีที่ผ่านมา องค์กรบางแห่งได้เริ่มใช้คำว่าปัญญาประดิษฐ์ (AI) และแมชชีนเลิร์นนิงแทนกัน

AUC (พื้นที่ใต้กราฟ ROC)

#fundamentals

จำนวนระหว่าง 0.0 ถึง 1.0 ที่แสดงถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสบวกออกจากคลาสเชิงลบ ยิ่ง AUC ใกล้เคียงกับ 1.0 มากเท่าใด โมเดลจะสามารถแยกคลาสออกจากกันได้ดีขึ้น

ตัวอย่างเช่น ภาพประกอบต่อไปนี้แสดงโมเดลตัวแยกประเภทที่แยกคลาสบวก (วงรีสีเขียว) ออกจากคลาสลบ (สี่เหลี่ยมผืนผ้าสีม่วง) ได้อย่างสมบูรณ์แบบ โมเดลที่ไม่สมบูรณ์แบบนี้มี AUC 1.0:

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 8 ด้านในด้านหนึ่งและตัวอย่างเชิงลบ 9 รายการที่อีกด้านหนึ่ง

ในทางกลับกัน ภาพประกอบต่อไปนี้จะแสดงผลลัพธ์ของโมเดลตัวแยกประเภทที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มี AUC 0.5:

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลำดับของตัวอย่างคือบวก ด้านลบ ผลบวก ผลบวก บวก แง่ลบ แง่ลบ แง่ลบ แง่ลบ บวก ลบ

ใช่ โมเดลก่อนหน้ามี AUC เป็น 0.5 ไม่ใช่ 0.0

โมเดลส่วนใหญ่จะอยู่ระหว่างปลายทั้ง 2 ด้าน ตัวอย่างเช่น โมเดลต่อไปนี้จะแยกรายการเชิงบวกออกจากรายการเชิงลบ ดังนั้นจึงมี AUC อยู่ระหว่าง 0.5 ถึง 1.0

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลำดับของตัวอย่างคือ ลบ ลบ ลบ ลบ บวก ลบ บวก ลบ แง่ลบ บวก บวก

AUC จะไม่สนใจค่าที่คุณตั้งไว้สำหรับเกณฑ์การจัดประเภท แต่ AUC จะพิจารณาเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมด

B

การแพร่พันธุ์ย้อนกลับ

#fundamentals

อัลกอริทึมที่ใช้การลดระดับการไล่ระดับสีในโครงข่ายระบบประสาทเทียม

การฝึกโครงข่ายระบบประสาทเทียมมีการทำซ้ำหลายครั้งของวงจร 2 ทางต่อไปนี้

  1. ในระหว่างการส่งต่อ ระบบจะประมวลผลกลุ่มของตัวอย่างเพื่อสร้างการคาดการณ์ ระบบจะเปรียบเทียบการคาดการณ์แต่ละรายการกับค่า label แต่ละค่า ความแตกต่างระหว่างการคาดการณ์กับค่าของป้ายกํากับคือ loss สําหรับตัวอย่างนั้น ระบบจะรวมผลเสียของตัวอย่างทั้งหมดเพื่อคำนวณการสูญเสียรวมของแบทช์ปัจจุบัน
  2. ระหว่างการย้อนกลับทางเก่า (backproagation) ระบบจะลดการสูญเสียโดยการปรับน้ำหนักของเซลล์ประสาททั้งหมดในเลเยอร์ที่ซ่อนอยู่ทั้งหมด

โครงข่ายประสาทมักมีเซลล์ประสาทจำนวนมากตามชั้นที่ซ่อนอยู่ เซลล์ประสาทแต่ละเซลล์มีส่วนทำให้เกิดการสูญเสียโดยรวมในรูปแบบที่ไม่เหมือนกัน การแพร่พันธุ์กลับเป็นตัวกำหนดว่าจะเพิ่มหรือลดน้ำหนักที่ใช้กับเซลล์ประสาทหนึ่งๆ

อัตราการเรียนรู้คือตัวคูณที่ควบคุมระดับของการเพิ่มหรือลดน้ำหนักของแต่ละส่วนในการย้อนกลับ อัตราการเรียนรู้สูงจะเพิ่มหรือลดน้ำหนักของแต่ละระดับมากกว่าอัตราการเรียนรู้เพียงเล็กน้อย

ในทางแคลคูลัส การแพร่ย้อนกลับจะนำกฎเชนมาใช้จากแคลคูลัส ซึ่งก็คือการนำไปใช้ย้อนกลับจะคำนวณอนุพันธ์บางส่วนของข้อผิดพลาดโดยยึดตามพารามิเตอร์แต่ละรายการ

หลายปีที่ผ่านมา ผู้ปฏิบัติงาน ML ต้องเขียนโค้ดเพื่อปรับใช้การนำไปใช้ในภายหลัง ตอนนี้ ML API สมัยใหม่ เช่น TensorFlow นำการนำไปใช้ย้อนกลับให้คุณแล้ว ในที่สุด

กลุ่ม

#fundamentals

ชุดตัวอย่างที่ใช้ในทำซ้ำการฝึกรายการเดียว ขนาดกลุ่มจะเป็นตัวกำหนดจำนวนตัวอย่างในกลุ่ม

ดูคำอธิบายว่ากลุ่มเกี่ยวข้องกับ Epoch ได้อย่างไรใน Epoch

ขนาดกลุ่ม

#fundamentals

จำนวนตัวอย่างในกลุ่ม เช่น หากขนาดกลุ่มคือ 100 โมเดลจะประมวลผล 100 ตัวอย่างต่อการทำซ้ำ

กลยุทธ์ขนาดกลุ่มยอดนิยมมีดังนี้

  • Stochastic Gradient Descent (SGD) ซึ่งมีขนาดกลุ่มคือ 1
  • ทั้งกลุ่ม โดยขนาดกลุ่มคือจำนวนตัวอย่างในชุดการฝึกทั้งชุด เช่น ถ้าชุดการฝึกมีตัวอย่าง 1 ล้านตัวอย่าง ขนาดกลุ่มจะเป็นล้านตัวอย่าง วิดีโอทั้งกลุ่มมักเป็นกลยุทธ์ที่ไม่มีประสิทธิภาพ
  • มินิแบตช์ ซึ่งขนาดกลุ่มมักจะอยู่ระหว่าง 10 ถึง 1,000 โดยทั่วไปแล้วเป็นกลยุทธ์ที่มีประสิทธิภาพสูงสุด

อคติ (จริยธรรม/ความเป็นธรรม)

#fairness
#fundamentals

1. การเหมารวม อคติ หรือรายการโปรดกับบางสิ่ง บุคคล หรือกลุ่มบุคคลมากกว่าผู้อื่น อคติเหล่านี้อาจส่งผลต่อการรวบรวมและการตีความข้อมูล การออกแบบระบบ และวิธีที่ผู้ใช้โต้ตอบกับระบบ รูปแบบของการให้น้ำหนักพิเศษประเภทนี้ได้แก่

2. ข้อผิดพลาดอย่างเป็นระบบซึ่งเกิดขึ้นจากขั้นตอนการสุ่มตัวอย่างหรือการรายงาน รูปแบบของการให้น้ำหนักพิเศษประเภทนี้ได้แก่

อย่าสับสนกับคำศัพท์ที่มีอคติในโมเดลแมชชีนเลิร์นนิงหรืออคติของการคาดการณ์

การให้น้ำหนักพิเศษ (ทางคณิตศาสตร์) หรือการให้น้ำหนักพิเศษ

#fundamentals

จุดตัดหรือออฟเซ็ตจากต้นทาง การให้น้ำหนักพิเศษคือพารามิเตอร์ในโมเดลแมชชีนเลิร์นนิง ซึ่งระบุด้วยสัญลักษณ์อย่างใดอย่างหนึ่งต่อไปนี้

  • b
  • 0

ตัวอย่างเช่น การให้น้ำหนักพิเศษคือ b ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

สำหรับเส้นสองมิติแบบง่ายๆ การให้น้ำหนักพิเศษหมายถึง "จุดตัดแกน Y" ตัวอย่างเช่น การให้น้ำหนักพิเศษของเส้นในภาพประกอบต่อไปนี้คือ 2

พล็อตของเส้นที่มีความชัน 0.5 และการให้น้ำหนักพิเศษ (จุดตัด Y) ของ 2

การให้น้ำหนักพิเศษมีเพราะบางโมเดลไม่ได้เริ่มต้นจากต้นทาง (0,0) ตัวอย่างเช่น สมมติว่าสวนสนุกต้องจ่ายเงิน 2 ยูโรสำหรับการเข้าสวนสนุก และอีก 0.5 ยูโรสำหรับทุกๆ ชั่วโมงที่ลูกค้าเข้าพัก ดังนั้น โมเดลการแมปต้นทุนทั้งหมดจึงมีอคติเป็น 2 เพราะต้นทุนต่ำสุดคือ 2 ยูโร

อย่าสับสนกับอคติทางจริยธรรมและความยุติธรรมหรืออคติในการคาดการณ์

การจำแนกประเภทไบนารี

#fundamentals

งานประเภทการแยกประเภทที่คาดการณ์ว่า 1 ใน 2 คลาสที่ใช้พร้อมกันไม่ได้มีดังนี้

ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิง 2 โมเดลต่อไปนี้แต่ละโมเดลทำการแยกประเภทแบบไบนารี

  • รูปแบบที่กำหนดว่าข้อความอีเมลเป็นสแปม (คลาสเชิงบวก) หรือไม่ใช่สแปม (คลาสเชิงลบ)
  • โมเดลที่ประเมินอาการทางการแพทย์เพื่อตัดสินว่าบุคคลหนึ่งมีอาการอย่างใดอย่างหนึ่ง (คลาสที่เป็นบวก) หรือไม่เป็นโรคนั้น (คลาสที่เป็นลบ)

คอนทราสต์กับการจัดประเภทแบบหลายคลาส

รวมถึงดูการถดถอยแบบโลจิสติกและเกณฑ์การจัดประเภท

การฝากข้อมูล

#fundamentals

การแปลงฟีเจอร์เดียวเป็นฟีเจอร์ไบนารีหลายรายการ ซึ่งเรียกว่าที่เก็บข้อมูลหรือถัง โดยทั่วไปแล้วจะอิงตามช่วงค่า ฟีเจอร์ที่ถูกตัดเป็นฟีเจอร์ต่อเนื่อง

เช่น แทนที่จะแสดงอุณหภูมิเป็นฟีเจอร์จุดลอยตัวต่อเนื่องจุดเดียว คุณอาจตัดช่วงของอุณหภูมิลงในที่เก็บข้อมูลแยกต่างหาก เช่น

  • <= 10 องศาเซลเซียสคือถังเก็บ "เย็น"
  • อุณหภูมิ 11-24 องศาเซลเซียสคืออุณหภูมิ "อากาศอบอุ่น"
  • >= 25 องศาเซลเซียส คือถัง "อุ่น"

โมเดลนี้จะถือว่าทุกค่าในที่เก็บข้อมูลเดียวกันเหมือนกัน ตัวอย่างเช่น ค่า 13 และ 22 อยู่ในที่เก็บข้อมูลชั่วคราว โมเดลจึงถือว่าทั้ง 2 ค่าเหมือนกัน

C

ข้อมูลเชิงหมวดหมู่

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ที่เฉพาะเจาะจง ตัวอย่างเช่น ลองพิจารณาฟีเจอร์เชิงหมวดหมู่ชื่อ traffic-light-state ซึ่งมีค่าที่เป็นไปได้ได้เพียง 1 ค่าจาก 3 ค่าต่อไปนี้

  • red
  • yellow
  • green

การแสดง traffic-light-state เป็นฟีเจอร์เชิงหมวดหมู่จะช่วยให้โมเดลเรียนรู้ผลกระทบที่แตกต่างกันของ red, green และ yellow ต่อพฤติกรรมของผู้ขับขี่ได้

บางครั้งฟีเจอร์เชิงหมวดหมู่จะเรียกว่าฟีเจอร์ที่ไม่ต่อเนื่อง

คอนทราสต์กับข้อมูลตัวเลข

คลาส

#fundamentals

หมวดหมู่ที่มีป้ายกำกับอยู่ เช่น

โมเดลการจัดประเภทจะคาดการณ์คลาส ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์จำนวน ไม่ใช่คลาส

โมเดลการจัดประเภท

#fundamentals

model ที่มีการคาดการณ์เป็นคลาส ตัวอย่างต่อไปนี้คือโมเดลการจัดประเภททั้งหมด

  • โมเดลที่คาดคะเนภาษาของประโยคอินพุต (ภาษาฝรั่งเศส ภาษาสเปน ภาษาอิตาลี)
  • โมเดลที่คาดการณ์สปีชีส์ของต้นไม้ (Maple? Oak? ต้นบาวบับหรือไม่)
  • โมเดลที่คาดคะเนคลาสเชิงบวกหรือเชิงลบสำหรับภาวะทางการแพทย์หนึ่งๆ

ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์จำนวน ไม่ใช่คลาส

รูปแบบการจัดประเภทที่พบบ่อย 2 ประเภทมีดังนี้

เกณฑ์การจัดประเภท

#fundamentals

ในการจัดประเภทไบนารี จำนวนระหว่าง 0 ถึง 1 ที่แปลงผลลัพธ์ดิบของโมเดลการถดถอยแบบโลจิสติกเป็นการคาดการณ์คลาสบวกหรือคลาสเชิงลบ โปรดทราบว่าเกณฑ์การจัดประเภทเป็นค่าที่มนุษย์เลือก ไม่ใช่ค่าที่การฝึกโมเดลเลือก

โมเดลการถดถอยแบบโลจิสติกจะแสดงค่าดิบระหว่าง 0 ถึง 1 จากนั้นให้ทำดังนี้

  • หากค่าดิบนี้มากกว่าเกณฑ์การจัดประเภท ระบบจะคาดคะเนคลาสที่เป็นบวก
  • หากค่าดิบนี้น้อยกว่าเกณฑ์การจัดประเภท ระบบจะคาดคะเนคลาสเชิงลบ

เช่น สมมติว่าเกณฑ์การจัดประเภทคือ 0.8 หากค่าดิบคือ 0.9 โมเดลจะคาดการณ์คลาสบวก หากค่าดิบคือ 0.7 โมเดลจะคาดการณ์คลาสเชิงลบ

ตัวเลือกเกณฑ์การจัดประเภทจะส่งผลต่อจำนวนผลบวกลวงและผลลบลวงเป็นอย่างมาก

ชุดข้อมูลที่ไม่สมดุลระดับ

#fundamentals

ชุดข้อมูลของปัญหาการจัดประเภทที่จำนวนป้ายกำกับทั้งหมดของแต่ละคลาสแตกต่างกันอย่างมีนัยสำคัญ เช่น ลองพิจารณาชุดข้อมูลการจัดประเภทแบบไบนารีที่มีป้ายกำกับ 2 ป้ายแบ่งดังนี้

  • ป้ายกำกับเชิงลบ 1,000,000 รายการ
  • ป้ายกำกับเชิงบวก 10 รายการ

อัตราส่วนของป้ายกำกับเชิงลบต่อบวกคือ 100,000 ต่อ 1 ดังนั้นชุดข้อมูลนี้จึงไม่สมดุล

ในทางตรงกันข้าม ชุดข้อมูลต่อไปนี้ไม่ไม่สมดุลระดับเนื่องจากอัตราส่วนของป้ายกำกับเชิงลบต่อป้ายกำกับเชิงบวกค่อนข้างใกล้เคียงกับ 1

  • ป้ายกำกับเชิงลบ 517 รายการ
  • ป้ายกำกับเชิงบวก 483 รายการ

ชุดข้อมูลแบบหลายคลาสก็อาจมีความไม่สมดุลเช่นกัน เช่น ชุดข้อมูลการจัดประเภทแบบหลายคลาสต่อไปนี้ไม่สมดุลกันด้วย เนื่องจากป้ายกำกับหนึ่งมีตัวอย่างมากกว่าอีก 2 ป้าย

  • ป้ายกำกับ 1,000,000 ป้ายที่มีคลาส "สีเขียว"
  • ป้ายกำกับ 200 รายการที่มีคลาส "สีม่วง"
  • ป้ายกำกับ 350 รายการที่มีคลาส "สีส้ม"

โปรดดูเอนโทรปี คลาสส่วนใหญ่ และชนชั้นสูง

การตัดคลิป

#fundamentals

เทคนิคในการจัดการกับค่าผิดปกติโดยดำเนินการอย่างใดอย่างหนึ่งหรือทั้ง 2 อย่างต่อไปนี้

  • ลดค่า feature ที่มากกว่าเกณฑ์สูงสุดให้เหลือเท่ากับเกณฑ์สูงสุดนั้น
  • การเพิ่มค่าฟีเจอร์ที่น้อยกว่าเกณฑ์ขั้นต่ำจนถึงเกณฑ์ขั้นต่ำดังกล่าว

ตัวอย่างเช่น สมมติว่าค่าบางฟีเจอร์น้อยกว่า 0.5% อยู่นอกช่วง 40–60 ในกรณีนี้ คุณสามารถดำเนินการดังต่อไปนี้

  • ตัดค่าทั้งหมดที่เกิน 60 (เกณฑ์ขั้นต่ำ) ให้เป็น 60 พอดี
  • ตัดค่าทั้งหมดที่ต่ำกว่า 40 (เกณฑ์ขั้นต่ำ) ให้เท่ากับ 40

ค่าผิดปกติอาจทำให้โมเดลเสียหาย ซึ่งบางครั้งก็ทำให้มีน้ำหนักล้นในระหว่างการฝึก ค่าผิดปกติบางอย่างอาจทําให้เมตริกแย่ลงอย่างมาก เช่น ความแม่นยำ การตัดคลิปเป็นเทคนิคทั่วไปในการจำกัดความเสียหาย

การไล่ระดับสีจะบังคับค่าการไล่ระดับสีภายในช่วงที่กำหนดระหว่างการฝึก

เมทริกซ์ความสับสน

#fundamentals

ตาราง NxN ที่สรุปจำนวนการคาดการณ์ที่ถูกต้องและไม่ถูกต้องของโมเดลการจัดประเภท เช่น พิจารณาเมทริกซ์ความสับสนต่อไปนี้สำหรับโมเดลการจัดประเภทแบบไบนารี

เนื้องอก (คาดการณ์) ไม่ใช่เนื้องอก (คาดการณ์)
เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 18 (TP) 1 (FN)
ไม่ใช่เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 6 (FP) 452 (เทนเนสซี)

เมทริกซ์ความสับสนก่อนหน้าจะแสดงข้อมูลต่อไปนี้

  • จากการคาดการณ์ 19 รายการที่ข้อมูลจากการสังเกตการณ์โดยตรงคือ Tumor โมเดลได้รับการจัดประเภทอย่างถูกต้อง 18 รายการและจัดประเภทเป็น 1 อย่างไม่ถูกต้อง
  • จากการคาดการณ์ 458 รายการ ที่เป็นความจริงบนพื้นดินไม่ใช่ทูมอร์ โมเดลได้รับการจัดประเภทอย่างถูกต้อง 452 รายการ และจัดประเภทไม่ถูกต้อง 6 รายการ

เมทริกซ์ความสับสนของปัญหาการจัดประเภทแบบหลายคลาสจะช่วยคุณระบุรูปแบบของข้อผิดพลาดได้ เช่น ลองพิจารณาเมทริกซ์ความสับสนต่อไปนี้สำหรับโมเดลการจัดประเภทแบบหลายคลาส 3 คลาสที่จัดหมวดหมู่ไอริส 3 ประเภท (Virginica, Versicolor และ Setosa) เมื่อข้อมูลจริงคือ Virginica เมทริกซ์ความสับสนแสดงให้เห็นว่าโมเดลมีแนวโน้มที่จะคาดการณ์ Versicolor ผิดมากกว่า Setosa:

  Setosa (คาดการณ์) Versicolor (คาดการณ์) Virginica (คาดการณ์)
เซโตซา (ข้อมูลจากการสังเกตการณ์โดยตรง) 88 12 0
Versicolor (ข้อมูลจากการสังเกตการณ์โดยตรง) 6 141 7
Virginica (ข้อมูลจากการสังเกตการณ์โดยตรง) 2 27 109

อีกตัวอย่างหนึ่งคือ เมทริกซ์ความสับสนอาจเผยให้เห็นว่าโมเดลที่ฝึกให้จดจำตัวเลขที่เขียนด้วยลายมือมีแนวโน้มที่จะคาดคะเน 9 แทนที่จะเป็น 4 ผิดพลาด หรืออาจคาดการณ์เป็น 1 แทนที่จะเป็น 7 ผิดพลาด

เมทริกซ์ความสับสนมีข้อมูลที่เพียงพอสำหรับการคำนวณเมตริกประสิทธิภาพที่หลากหลาย ซึ่งรวมถึงความแม่นยำและการจดจำ

ฟีเจอร์ต่อเนื่อง

#fundamentals

ฟีเจอร์จุดลอยตัวที่มีช่วงของค่าที่เป็นไปได้อย่างไม่จำกัด เช่น อุณหภูมิหรือน้ำหนัก

คอนทราสต์กับฟีเจอร์ที่ไม่ต่อเนื่อง

ลู่เข้า

#fundamentals

สถานะที่มาถึงเมื่อค่า loss เปลี่ยนแปลงน้อยมากหรือไม่เปลี่ยนแปลงเลยในแต่ละรูปแบบ ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้แสดงถึงการลู่เข้าที่ประมาณ 700 ครั้ง

พล็อตคาร์ทีเซียน แกน X หายไป แกน Y คือจำนวนการฝึกซ้ำ การสูญเสียสูงมากในช่วง 2-3 ครั้งแรก แต่ลดลงอย่างมาก หลังจากทำซ้ำประมาณ 100 ครั้ง การสูญเสียก็ยังคงเกิดขึ้นแต่ค่อยๆ เพิ่มขึ้น หลังจากทำซ้ำประมาณ 700 ครั้ง การสูญเสียจะคงที่

โมเดลจะส่งเมื่อการฝึกเพิ่มเติมไม่ช่วยพัฒนาโมเดล

ในการเรียนรู้เชิงลึก บางครั้งค่าการสูญเสียอาจคงที่หรือเกือบมากสำหรับการทำซ้ำหลายครั้งก่อนที่จะลดลงไปมากในท้ายที่สุด ในช่วงเวลาที่มีค่าสูญเสียคงที่เป็นเวลานาน คุณอาจได้รับความรู้สึกของการลู่เข้าที่ผิดพลาดชั่วคราว

โปรดดูหัวข้อการหยุดแสดงโฆษณาก่อนกำหนด

D

DataFrame

#fundamentals

ประเภทข้อมูลของ pandas ยอดนิยมสำหรับการแสดงชุดข้อมูลในหน่วยความจำ

DataFrame คล้ายกับตารางหรือสเปรดชีต แต่ละคอลัมน์ของ DataFrame จะมีชื่อ (ส่วนหัว) และแต่ละแถวจะระบุด้วยหมายเลขที่ไม่ซ้ำกัน

แต่ละคอลัมน์ใน DataFrame มีโครงสร้างเหมือนอาร์เรย์ 2 มิติ เว้นแต่ว่าแต่ละคอลัมน์จะกำหนดประเภทข้อมูลของตนเองได้

ดูหน้าอ้างอิงสำหรับ pandas.DataFrame อย่างเป็นทางการด้วย

ชุดข้อมูลหรือชุดข้อมูล

#fundamentals

การรวบรวมข้อมูลดิบซึ่งโดยปกติ (แต่ไม่เกิดขึ้นเพียงอย่างเดียว) จะจัดระเบียบในรูปแบบใดรูปแบบหนึ่งต่อไปนี้

  • สเปรดชีต
  • ไฟล์ในรูปแบบ CSV (ค่าที่คั่นด้วยคอมมา)

โมเดลเชิงลึก

#fundamentals

โครงข่ายประสาทที่มีเลเยอร์ที่ซ่อนไว้มากกว่า 1 ชั้น

โมเดลเชิงลึกเรียกอีกอย่างว่าโครงข่ายประสาทแบบลึก

คอนทราสต์กับโมเดลแบบกว้าง

องค์ประกอบที่หนาแน่น

#fundamentals

ฟีเจอร์ที่ค่าส่วนใหญ่หรือทั้งหมดไม่ใช่ 0 ซึ่งมักจะเป็น Tensor ของค่าจุดลอยตัว ตัวอย่างเช่น Tensor องค์ประกอบ 10 รายการต่อไปนี้มีความหนาแน่นเนื่องจากค่า 9 ค่าไม่ใช่ 0

8 3 7 5 2 4 0 4 9 6

คอนทราสต์กับฟีเจอร์แบบเบาบาง

ความลึก

#fundamentals

ผลรวมของสิ่งต่อไปนี้ในโครงข่ายระบบประสาท:

ตัวอย่างเช่น โครงข่ายประสาทที่มี 5 เลเยอร์ที่ซ่อนอยู่ และเลเยอร์เอาต์พุตหนึ่งมีความลึก 6

โปรดสังเกตว่าเลเยอร์อินพุตไม่มีอิทธิพลต่อความลึก

ฟีเจอร์แยกต่างหาก

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้แบบจํากัด เช่น ฟีเจอร์ที่มีค่าอาจเป็นสัตว์ ผัก หรือแร่ธาตุเท่านั้น คือฟีเจอร์ที่ไม่ต่อเนื่อง (หรือตามหมวดหมู่)

คอนทราสต์กับฟีเจอร์ต่อเนื่อง

ไดนามิก

#fundamentals

สิ่งที่ทำบ่อยหรือต่อเนื่อง คำว่าไดนามิกและออนไลน์เป็นคำที่มีความหมายเหมือนกันในแมชชีนเลิร์นนิง การใช้งานแบบไดนามิกและออนไลน์ในแมชชีนเลิร์นนิงโดยทั่วไปมีดังนี้

  • รูปแบบแบบไดนามิก (หรือรูปแบบออนไลน์) คือรูปแบบที่มีการฝึกซ้ำบ่อยครั้งหรือต่อเนื่อง
  • การฝึกอบรมแบบไดนามิก (หรือการฝึกอบรมออนไลน์) เป็นกระบวนการฝึกบ่อยๆ หรือต่อเนื่อง
  • การอนุมานแบบไดนามิก (หรือการอนุมานออนไลน์) เป็นกระบวนการสร้างการคาดการณ์แบบออนดีมานด์

รูปแบบแบบไดนามิก

#fundamentals

modelที่มีการฝึกซ้ำบ่อยๆ (อาจจะต่อเนื่องกัน) โมเดลแบบไดนามิกคือ "ผู้เรียนรู้ตลอดชีวิต" ที่ต้องปรับตัวเข้ากับข้อมูลที่มีการเปลี่ยนแปลงอยู่ตลอดเวลา โมเดลแบบไดนามิกเรียกอีกอย่างหนึ่งว่าโมเดลออนไลน์

คอนทราสต์กับโมเดลภาพนิ่ง

จ.

การหยุดก่อนกำหนด

#fundamentals

เมธอดสำหรับการกำหนดค่าที่เกี่ยวข้องกับการสิ้นสุดการฝึก ก่อนที่การสูญเสียการฝึกจะเสร็จสิ้น ในการหยุดตั้งแต่เนิ่นๆ จะเป็นการหยุดฝึกโมเดลเมื่อการสูญเสียชุดข้อมูลการตรวจสอบเริ่มเพิ่มขึ้น กล่าวคือเมื่อประสิทธิภาพของการทําให้เป็นทั่วไปแย่ลง

เลเยอร์ที่ฝัง

#language
#fundamentals

เลเยอร์ที่ซ่อนอยู่พิเศษที่ฝึกบนฟีเจอร์เชิงหมวดหมู่ที่มีมิติสูง เพื่อค่อยๆ เรียนรู้เวกเตอร์การฝังที่มีมิติข้อมูลต่ำกว่า เลเยอร์การฝังช่วยให้โครงข่ายประสาทฝึกได้อย่างมีประสิทธิภาพมากกว่าการฝึกเฉพาะฟีเจอร์เชิงหมวดหมู่ขั้นสูง

ตัวอย่างเช่น ปัจจุบัน Earth สนับสนุนต้นไม้ประมาณ 73,000 ชนิด สมมติว่าสปีชีส์ของต้นไม้เป็นฟีเจอร์ในโมเดลของคุณ ดังนั้นเลเยอร์อินพุตของโมเดลจึงมีเวกเตอร์หนึ่งร้อน องค์ประกอบยาว 73,000 รายการ ตัวอย่างเช่น หน้าของ baobab อาจมีลักษณะดังนี้

อาร์เรย์ขององค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 รายการแรกมีค่า 0 องค์ประกอบถัดไปมีค่า 1 องค์ประกอบ 66,767 สุดท้ายจะมีค่าเป็น 0

อาร์เรย์ 73,000 องค์ประกอบยาวมาก หากคุณไม่เพิ่มเลเยอร์ที่ฝังไปยังโมเดล การฝึกจะใช้เวลานานมากเนื่องจากมีการคูณ 0 ถึง 72,999 ตัว คุณอาจเลือกเลเยอร์การฝัง ให้ประกอบด้วยมิติข้อมูล 12 แบบ เลเยอร์การฝังจะค่อยๆ เรียนรู้ เวกเตอร์การฝังใหม่สำหรับต้นไม้แต่ละชนิด

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลแทนการใช้เลเยอร์ที่ฝัง

Epoch

#fundamentals

การผ่านการฝึกอบรมเต็มรูปแบบสำหรับชุดการฝึกทั้งหมด เพื่อให้มีการประมวลผลตัวอย่างแต่ละรายการ 1 ครั้ง

Epoch แสดงN/ขนาดกลุ่ม การฝึกการทำซ้ำ โดยที่ N คือจำนวนตัวอย่างทั้งหมด

ตัวอย่างเช่น สมมติว่า

  • ชุดข้อมูลประกอบด้วยตัวอย่าง 1,000 รายการ
  • ขนาดกลุ่มคือ 50 ตัวอย่าง

ดังนั้น Epoch 1 ครั้งจึงต้องมีการทำซ้ำ 20 ครั้ง ดังนี้

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

ตัวอย่าง

#fundamentals

ค่าของฟีเจอร์ 1 แถวและอาจจะเป็นป้ายกำกับ ตัวอย่างในการเรียนรู้ที่มีการควบคุมดูแลจะจัดเป็นหมวดหมู่ทั่วไป 2 หมวดหมู่ ดังนี้

ตัวอย่างเช่น สมมติว่าคุณกำลังฝึกโมเดลเพื่อกำหนดอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ต่อไปนี้เป็นตัวอย่างที่มีป้ายกำกับ 3 ตัวอย่าง

ฟีเจอร์ ค่ายเพลง
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 เร็ว
19 34 1020 ดีมาก
18 92 1012 แย่

ต่อไปนี้คือตัวอย่างที่ไม่มีป้ายกำกับ 3 ตัวอย่าง

อุณหภูมิ ความชื้น ความกดอากาศ  
12 62 1014  
21 47 1017  
19 41 1021  

โดยปกติแล้วแถวของชุดข้อมูลจะเป็นแหล่งที่มาดิบของตัวอย่าง ซึ่งหมายความว่าตัวอย่างมักจะประกอบด้วยชุดย่อยของคอลัมน์ในชุดข้อมูล นอกจากนี้ ฟีเจอร์ในตัวอย่างยังอาจมีฟีเจอร์สังเคราะห์ เช่น ฟีเจอร์เครื่องหมายกากบาท

F

ผลลบลวง (FN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบผิดพลาด ตัวอย่างเช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ ไม่ใช่สแปม (คลาสเชิงลบ) แต่อีเมลดังกล่าวแท้จริงแล้วเป็นสแปม

ผลบวกลวง (FP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงบวกผิดพลาด เช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ เป็นสแปม (คลาสเชิงบวก) แต่ข้อความอีเมลนั้นไม่ใช่สแปม

อัตราผลบวกลวง (FPR)

#fundamentals

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลคาดการณ์คลาสบวกโดยไม่ตั้งใจ สูตรต่อไปนี้จะคำนวณอัตราผลบวกลวง

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

อัตราผลบวกลวงคือแกน x ในเส้นโค้ง ROC

ฟีเจอร์

#fundamentals

ตัวแปรอินพุตไปยังโมเดลแมชชีนเลิร์นนิง ตัวอย่าง ประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ ตัวอย่างเช่น สมมติว่าคุณกำลังฝึกโมเดลเพื่อกำหนดอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตารางต่อไปนี้แสดงตัวอย่าง 3 ตัวอย่าง แต่ละรายการมีฟีเจอร์ 3 รายการและป้ายกำกับ 1 รายการ

ฟีเจอร์ ค่ายเพลง
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 92
19 34 1020 84
18 92 1012 87

คอนทราสต์กับป้ายกํากับ

กากบาทในฟีเจอร์

#fundamentals

ฟีเจอร์สังเคราะห์ที่เกิดจากฟีเจอร์ "ข้าม" หมวดหมู่หรือที่เก็บข้อมูล

เช่น ลองพิจารณาโมเดล "การคาดการณ์อารมณ์" ที่แสดงอุณหภูมิใน 1 ใน 4 กลุ่มนี้

  • freezing
  • chilly
  • temperate
  • warm

และแสดงถึงความเร็วลมใน 1 ใน 3 ที่เก็บข้อมูลต่อไปนี้

  • still
  • light
  • windy

หากไม่มีการข้ามฟีเจอร์ โมเดลเชิงเส้นจะฝึกอย่างอิสระจากที่เก็บข้อมูลต่างๆ ทั้ง 7 แบบที่อยู่ก่อนหน้า ตัวอย่างเช่น โมเดลจะฝึกใน freezing โดยไม่ขึ้นอยู่กับการฝึก เช่น windy

หรือจะสร้างความแตกต่างระหว่างอุณหภูมิและความเร็วลม ฟีเจอร์สังเคราะห์นี้จะมีค่าที่เป็นไปได้ 12 ค่าดังนี้

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

การใช้ฟีเจอร์ข้ามฟีเจอร์ทำให้โมเดลเรียนรู้ความแตกต่างของอารมณ์ได้ระหว่าง freezing-windy วันถึง freezing-still วัน

หากคุณสร้างฟีเจอร์สังเคราะห์จาก 2 ฟีเจอร์โดยที่แต่ละฟีเจอร์มีที่เก็บข้อมูลที่แตกต่างกันจำนวนมาก ฟีเจอร์แบบข้ามได้ของฟีเจอร์ที่ได้จะมีชุดค่าผสมที่เป็นไปได้จำนวนมาก ตัวอย่างเช่น หากฟีเจอร์หนึ่งมีที่เก็บข้อมูล 1,000 รายการ และอีกฟีเจอร์หนึ่งมีที่เก็บข้อมูล 2,000 รายการ และฟีเจอร์ที่ได้จะมีที่เก็บข้อมูล 2,000,000 รายการ

อย่างเป็นทางการ ไม้กางเขนคือ ผลคูณคาร์ทีเซียน

กากบาทฟีเจอร์ส่วนใหญ่ใช้กับโมเดลเชิงเส้นและไม่ค่อยใช้กับโครงข่ายประสาท

Feature Engineering

#fundamentals
#TensorFlow

กระบวนการที่เกี่ยวข้องกับขั้นตอนต่อไปนี้

  1. ระบุฟีเจอร์ที่อาจเป็นประโยชน์ในการฝึกโมเดล
  2. การแปลงข้อมูลดิบจากชุดข้อมูลให้เป็นเวอร์ชันที่มีประสิทธิภาพของฟีเจอร์เหล่านั้น

ตัวอย่างเช่น คุณอาจระบุว่า temperature อาจเป็นฟีเจอร์ที่มีประโยชน์ จากนั้นคุณอาจทดสอบด้วยการเก็บข้อมูลเพื่อเพิ่มประสิทธิภาพสิ่งที่โมเดลเรียนรู้ได้จากช่วง temperature ต่างๆ

บางครั้งเราเรียกวิศวกรรมฟีเจอร์ว่าการแยกฟีเจอร์หรือการทำให้ฟีเจอร์เหล่านั้น

ชุดฟีเจอร์

#fundamentals

กลุ่มฟีเจอร์แมชชีนเลิร์นนิงที่โมเดลฝึกใช้งาน ตัวอย่างเช่น รหัสไปรษณีย์ ขนาดที่พัก และสภาพทรัพย์สินอาจประกอบด้วยชุดฟีเจอร์อย่างง่ายสำหรับโมเดลที่คาดการณ์ราคาที่พักอาศัย

เวกเตอร์จุดสนใจ

#fundamentals

อาร์เรย์ของค่า feature ที่ประกอบด้วยตัวอย่าง เวกเตอร์ของฟีเจอร์จะเป็นอินพุตระหว่างการฝึกและระหว่างการอนุมาน ตัวอย่างเช่น เวกเตอร์ฟีเจอร์ของโมเดลที่มีฟีเจอร์แยกกัน 2 รายการอาจเป็นดังนี้

[0.92, 0.56]

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต 1 เลเยอร์ที่ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์
          เลเยอร์อินพุตมี 2 โหนด โดยโหนดหนึ่งมีค่า 0.92 และอีกโหนดมีค่า 0.56

แต่ละตัวอย่างจะให้ค่าที่แตกต่างกันสำหรับเวกเตอร์ของฟีเจอร์ ดังนั้นเวกเตอร์ของฟีเจอร์สำหรับตัวอย่างถัดไปอาจมีลักษณะดังนี้

[0.73, 0.49]

วิศวกรรมองค์ประกอบกำหนดวิธีแสดงจุดสนใจในเวกเตอร์ของฟีเจอร์ เช่น ฟีเจอร์เชิงหมวดหมู่ไบนารีที่มี 5 ค่าที่เป็นไปได้อาจแสดงด้วยการเข้ารหัสแบบ One-Hot ในกรณีนี้ ส่วนของเวกเตอร์ฟีเจอร์สำหรับตัวอย่างหนึ่งๆ จะประกอบด้วย 0 4 ตัว และ 1.0 1 ตัวอยู่ในตำแหน่งที่ 3 ดังนี้

[0.0, 0.0, 1.0, 0.0, 0.0]

อีกตัวอย่างหนึ่ง สมมติว่าโมเดลของคุณประกอบด้วยคุณลักษณะ 3 อย่างต่อไปนี้

  • ฟีเจอร์เชิงหมวดหมู่ไบนารีที่มีค่าที่เป็นไปได้ 5 ค่า ซึ่งแทนด้วยการเข้ารหัสแบบ 1 ฮอต เช่น [0.0, 1.0, 0.0, 0.0, 0.0]
  • อีกฟีเจอร์หมวดหมู่ไบนารีที่มีค่าที่เป็นไปได้ 3 ค่าซึ่งแสดงด้วยการเข้ารหัสแบบ 1- Hot เช่น [0.0, 0.0, 1.0]
  • ฟีเจอร์ที่เป็นจุดลอยตัว เช่น 8.3

ในกรณีนี้ เวกเตอร์ของฟีเจอร์สำหรับแต่ละตัวอย่างจะแสดงด้วยค่า 9 ค่า จากค่าตัวอย่างในรายการก่อนหน้า เวกเตอร์ของฟีเจอร์จะเป็นดังนี้

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

การเก็บฟีดแบ็กมาแก้ไข

#fundamentals

ในแมชชีนเลิร์นนิง สถานการณ์ที่การคาดการณ์ของโมเดลมีอิทธิพลต่อข้อมูลการฝึกสำหรับโมเดลเดียวกันหรือโมเดลอื่น เช่น โมเดลที่แนะนำภาพยนตร์จะมีอิทธิพลต่อภาพยนตร์ที่ผู้คนเห็น ซึ่งจะส่งผลกระทบกับรูปแบบการแนะนำภาพยนตร์ที่ตามมาด้วย

G

ข้อมูลทั่วไป

#fundamentals

ความสามารถของโมเดลในการคาดการณ์ที่ถูกต้องในข้อมูลใหม่ซึ่งก่อนหน้านี้ไม่เคยเห็นมาก่อน โมเดลที่สร้างข้อมูลทั่วไปได้จะตรงกันข้ามกับโมเดลที่จัดวางมากเกินไป

กราฟข้อมูลทั่วไป

#fundamentals

พล็อตของทั้ง การเสียการฝึกทำงานและการสูญเสียการตรวจสอบในฐานะฟังก์ชันของจำนวนการทำซ้ำ

เส้นโค้งข้อมูลทั่วไปช่วยให้คุณตรวจจับการปรับให้พอดีที่เป็นไปได้ ตัวอย่างเช่น เส้นโค้งการสร้างทั่วไปต่อไปนี้ชี้ว่าควรมากเกินไป เนื่องจากการสูญเสียการตรวจสอบจะสูงกว่าการสูญเสียการฝึกอย่างมากในท้ายที่สุด

กราฟคาร์ทีเซียนที่แกน Y มีป้ายกำกับเป็น &quot;สูญเสีย&quot; และแกน X มีป้ายกำกับการทำซ้ำ ภาพ 2 แบบจะปรากฏขึ้น พล็อตหนึ่งแสดงการสูญเสียการฝึก และอีกรายการแสดงการสูญเสียการตรวจสอบ
          ทั้ง 2 แผนเริ่มต้นในทำนองเดียวกัน แต่ท้ายที่สุดแล้วความสูญเสียในการฝึกจะลดลงต่ำกว่าการสูญเสียการตรวจสอบมาก

ลาดลงแบบไล่ระดับ

#fundamentals

เทคนิคทางคณิตศาสตร์ที่ช่วยลดการสูญหายให้เหลือน้อยที่สุด การไล่ระดับสีลงมาทีละขั้นจะปรับน้ำหนักและอคติอย่างค่อยเป็นค่อยไป แล้วหาชุดค่าผสมที่ดีที่สุดเพื่อลดการสูญเสีย

การไล่ระดับสีสืบทอดนั้นเก่ากว่าหรือเก่ากว่าแมชชีนเลิร์นนิงมาก

ข้อมูลที่เป็นความจริง

#fundamentals

เรียลลิตี้

สิ่งที่เกิดขึ้นจริง

เช่น ลองพิจารณาโมเดลการจัดประเภทไบนารีที่คาดการณ์ว่านักศึกษาปีแรกจะสำเร็จการศึกษาภายใน 6 ปีหรือไม่ ข้อมูลจากการสังเกตการณ์โดยตรงสำหรับโมเดลนี้คือการที่นักศึกษาคนนั้นจบการศึกษาภายใน 6 ปีจริงหรือไม่

ฮิต

เลเยอร์ที่ซ่อนอยู่

#fundamentals

เลเยอร์ในเครือข่ายระบบประสาทระหว่างเลเยอร์อินพุต (ฟีเจอร์) และเลเยอร์เอาต์พุต (การคาดการณ์) เลเยอร์ที่ซ่อนอยู่แต่ละเลเยอร์ประกอบด้วยเซลล์ประสาทอย่างน้อย 1 เซลล์ ตัวอย่างเช่น โครงข่ายประสาทต่อไปนี้มีชั้นที่ซ่อนอยู่ 2 ชั้น ชั้นแรกมีเซลล์ประสาท 3 ชั้น และชั้นที่สองมีเซลล์ประสาท 2 ชั้น

4 เลเยอร์ เลเยอร์แรกคือเลเยอร์อินพุตที่มีฟีเจอร์ 2 รายการ เลเยอร์ที่ 2 คือเลเยอร์ที่ซ่อนอยู่ซึ่งมีเซลล์ประสาท 3 เซลล์ เลเยอร์ที่ 3 เป็นเลเยอร์ที่ซ่อนอยู่ซึ่งมีเซลล์ประสาท 2 เซลล์ เลเยอร์ที่ 4 คือเลเยอร์เอาต์พุต แต่ละฟีเจอร์มีขอบ 3 ด้าน โดยแต่ละด้านจะชี้ไปยังเซลล์ประสาทที่แตกต่างกันในเลเยอร์ที่ 2 เซลล์ประสาทแต่ละเซลล์ในเลเยอร์ที่ 2 มีขอบ 2 ด้าน โดยแต่ละเซลล์ชี้ไปยังเซลล์ประสาทที่แตกต่างกันในเลเยอร์ที่ 3 เซลล์ประสาทแต่ละเซลล์ในเลเยอร์ที่ 3 มีขอบ 1 ด้าน โดยแต่ละเซลล์ชี้ไปยังเลเยอร์เอาต์พุต

โครงข่ายประสาทแบบลึกมีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 ชั้น ตัวอย่างเช่น ภาพก่อนหน้าคือโครงข่ายประสาทแบบลึกเนื่องจากโมเดลมีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์

ไฮเปอร์พารามิเตอร์

#fundamentals

ตัวแปรที่คุณหรือบริการปรับแต่งไฮเปอร์พารามิเตอร์ จะปรับระหว่างการฝึกโมเดลต่อเนื่องกัน เช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์ คุณอาจตั้งอัตราการเรียนรู้เป็น 0.01 ก่อนเริ่มเซสชันการฝึกอบรมได้ หากคุณกำหนดค่า 0.01 สูงเกินไป คุณอาจกำหนดอัตราการเรียนรู้เป็น 0.003 สำหรับเซสชันการฝึกอบรมครั้งถัดไป

ในทางตรงกันข้าม พารามิเตอร์คือน้ำหนักและอคติต่างๆ ที่โมเดลเรียนรู้ระหว่างการฝึก

I

กระจายอย่างอิสระและเหมือนกัน (i.d)

#fundamentals

ข้อมูลที่มาจากการแจกแจงที่ไม่มีการเปลี่ยนแปลง และแต่ละค่าที่ดึงมาไม่ได้ขึ้นอยู่กับค่าที่มีการวาดไว้ก่อนหน้านี้ i.i.d. เป็นก๊าซในอุดมคติของแมชชีนเลิร์นนิง เป็นโครงสร้างทางคณิตศาสตร์ที่มีประโยชน์ แต่แทบไม่มีกรณีใดพบได้ในชีวิตจริง ตัวอย่างเช่น การกระจายผู้เข้าชมหน้าเว็บอาจเป็น i.i.d. ในช่วงเวลาสั้นๆ กล่าวคือ การกระจายจะไม่เปลี่ยนแปลงในระหว่างช่วงเวลาสั้นๆ นั้น และโดยทั่วไปการเข้าชมของคนหนึ่งจะขึ้นอยู่กับการเข้าชมของอีกคนหนึ่ง อย่างไรก็ตาม หากคุณขยายช่วงเวลานั้น ความแตกต่างตามฤดูกาลในผู้เข้าชมหน้าเว็บอาจปรากฏขึ้น

ดูความไม่คงที่เพิ่มเติม

การอนุมาน

#fundamentals

ในแมชชีนเลิร์นนิง กระบวนการคาดการณ์โดยใช้โมเดลที่ฝึกแล้วกับตัวอย่างที่ไม่มีป้ายกำกับ

การอนุมานมีความหมายแตกต่างกันในสถิติ ดูรายละเอียดได้ที่ บทความ Wikipedia เกี่ยวกับการอนุมานทางสถิติ

เลเยอร์อินพุต

#fundamentals

เลเยอร์ ของโครงข่ายประสาทที่มีเวกเตอร์ฟีเจอร์ กล่าวคือ เลเยอร์อินพุตจะแสดงตัวอย่างสำหรับการฝึกหรือการอนุมาน ตัวอย่างเช่น เลเยอร์อินพุตในเครือข่ายประสาทต่อไปนี้ ประกอบด้วยฟีเจอร์ 2 อย่าง

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

ความสามารถในการตีความ

#fundamentals

ความสามารถในการอธิบายหรือนำเสนอโมเดลของ ML ให้เหตุผลเป็นคำที่เข้าใจได้

ตัวอย่างเช่น รูปแบบการถดถอยเชิงเส้นส่วนใหญ่นั้นตีความได้สูง (คุณแค่ต้องดูน้ำหนักที่ฝึกสำหรับแต่ละฟีเจอร์เท่านั้น) ป่าการตัดสินใจก็มีการตีความสูงเช่นกัน อย่างไรก็ตาม บางโมเดลต้องใช้การแสดงภาพที่ซับซ้อนเพื่อให้ตีความได้

คุณสามารถใช้เครื่องมือตีความการเรียนรู้ (Learning & Mediationability Tool หรือ LIT) เพื่อตีความโมเดล ML

การทำซ้ำ

#fundamentals

อัปเดตพารามิเตอร์ของโมเดลเพียงครั้งเดียว ซึ่งก็คือน้ำหนักและอคติของโมเดล ระหว่างการฝึก ขนาดกลุ่มจะกำหนดจำนวนตัวอย่างที่โมเดลประมวลผลในการทำซ้ำครั้งเดียว เช่น หากขนาดกลุ่มคือ 20 โมเดลจะประมวลผลตัวอย่าง 20 รายการก่อนปรับเปลี่ยนพารามิเตอร์

เมื่อฝึกโครงข่ายระบบประสาทเทียม การทำซ้ำ 1 ครั้งจะเกี่ยวข้องกับการส่ง 2 ผ่านต่อไปนี้

  1. การส่งต่อเพื่อประเมินการสูญเสียเป็นกลุ่มเดียว
  2. การส่งแบบย้อนกลับ (backprofagation) เพื่อปรับพารามิเตอร์ของโมเดลตามการสูญเสียและอัตราการเรียนรู้

L

การกำหนดกฎ L0

#fundamentals

ประเภทของการกำหนดรูปแบบที่จะกำหนดจำนวนน้ำหนักที่ไม่ใช่ 0 ในโมเดล เช่น โมเดลที่มีน้ำหนักที่ไม่ใช่ 0 11 ตัว จะได้รับบทลงโทษมากกว่าโมเดลที่คล้ายกันที่มีน้ำหนักไม่เป็น 0 10

การกำหนดกฎ L0 บางครั้งจะเรียกว่าการกำหนดกฎ L0-norm

แพ้ L1

#fundamentals

ฟังก์ชันการสูญเสียที่คำนวณค่าสัมบูรณ์ของความแตกต่างระหว่างค่าจริงของป้ายกำกับกับค่าที่โมเดลคาดการณ์ เช่น การคำนวณการสูญเสีย L1 สำหรับกลุ่มของตัวอย่าง 5 รายการมีดังนี้

มูลค่าจริงของตัวอย่าง ค่าที่คาดการณ์ไว้ของโมเดล ค่าสัมบูรณ์ของเดลต้า
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = แพ้ L1

การสูญเสีย L1 มีความไวต่อค่าผิดปกติน้อยกว่าการสูญเสีย L2

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์คือการสูญเสีย L1 โดยเฉลี่ยต่อตัวอย่าง

การกำหนดกฎ L1

#fundamentals

ประเภทของการควบคุมแบบปกติที่หักค่าน้ำหนักเป็นสัดส่วนกับผลรวมของค่าสัมบูรณ์ของน้ำหนัก การกำหนดกฎ L1 ช่วยให้น้ำหนักของฟีเจอร์ที่ไม่เกี่ยวข้องหรือแทบไม่เกี่ยวข้องกับฟีเจอร์เป็น 0 เลย ระบบนำฟีเจอร์ที่มีน้ำหนักเป็น 0 ออกจากโมเดลเรียบร้อยแล้ว

คอนทราสต์กับการกำหนดกฎ L2

แพ้ L2

#fundamentals

ฟังก์ชันการสูญเสียที่คำนวณกำลังสองของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ เช่น การคำนวณการสูญหายของ L2 สำหรับกลุ่มของตัวอย่าง 5 รายการมีดังนี้

มูลค่าจริงของตัวอย่าง ค่าที่คาดการณ์ไว้ของโมเดล กำลังสองของเดลต้า
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = แพ้ L2

เนื่องจากการยกกำลังสอง ทำให้การสูญเสีย L2 ขยายอิทธิพลของค่าผิดปกติ กล่าวคือ การสูญเสีย L2 ตอบสนองกับการคาดการณ์ที่ไม่ดีมากกว่าการสูญเสีย L1 เช่น การสูญเสีย L1 สำหรับกลุ่มก่อนหน้าจะเป็น 8 ไม่ใช่ 16 โปรดสังเกตว่าค่าผิดปกติรายการเดียวครอบคลุม 9 ใน 16

โมเดลการถดถอยมักจะใช้การสูญเสีย L2 เป็นฟังก์ชันการสูญเสีย

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสองคือการสูญเสีย L2 โดยเฉลี่ยต่อตัวอย่าง การสูญเสียทีละไตรมาสคืออีกชื่อหนึ่งของการสูญเสีย L2

การกำหนดกฎ L2

#fundamentals

ประเภทของการกำหนดรูปแบบที่หักลบน้ำหนักตามสัดส่วนของผลรวมของสี่เหลี่ยมจัตุรัสของน้ำหนัก การปรับ L2 จะช่วยผลักดันน้ำหนักค่าผิดปกติ (ที่มีค่าบวกสูงหรือค่าลบต่ำ) ให้ใกล้กับ 0 แต่ไม่ใช่ 0 ฟีเจอร์ที่มีค่าใกล้เคียง 0 มากจะยังคงอยู่ในโมเดล แต่จะไม่มีผลต่อการคาดการณ์ของโมเดลมากนัก

การกำหนดกฎ L2 จะช่วยปรับปรุงการสรุปข้อมูลทั่วไปในโมเดลเชิงเส้นเสมอ

คอนทราสต์กับการกำหนดกฎ L1

ป้ายกำกับ

#fundamentals

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล ส่วน "คำตอบ" หรือ "ผลลัพธ์" ของตัวอย่าง

ตัวอย่างที่ติดป้ายกำกับแต่ละรายการประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างเช่น ในชุดข้อมูลการตรวจจับสแปม ป้ายกำกับอาจเป็น "สแปม" หรือ "ไม่ใช่สแปม" ในชุดข้อมูลปริมาณฝน ป้ายกำกับอาจหมายถึงปริมาณน้ำฝนที่ตกในช่วงระยะเวลาหนึ่ง

ตัวอย่างที่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่าง 3 แบบที่ติดป้ายกำกับจากรูปแบบการประเมินมูลค่าบ้าน โดยแต่ละแบบจะมี 3 ฟีเจอร์และ 1 ป้ายกำกับ

จำนวนห้องนอน จำนวนห้องน้ำ อายุบ้าน ราคาบ้าน (ป้ายกำกับ)
3 2 15 10,250,000 บาท
2 1 72 179,000 ดอลลาร์
4 2 34 392,000 ดอลลาร์สหรัฐ

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกตามตัวอย่างที่มีป้ายกำกับและทำการคาดการณ์ในตัวอย่างที่ไม่มีป้ายกำกับ

เปรียบเทียบตัวอย่างที่มีป้ายกำกับกับตัวอย่างที่ไม่มีป้ายกำกับ

แลมบ์ดา

#fundamentals

คำพ้องความหมายของอัตราการปรับให้เป็นมาตรฐาน

Lambda เป็นคำศัพท์ที่ใช้มากเกินไป ในที่นี้เราจะเน้นไปที่คำจำกัดความของคำในรูปแบบมาตรฐาน

ชั้น

#fundamentals

ชุดของเซลล์ประสาทในโครงข่ายระบบประสาท เลเยอร์ทั่วไปมี 3 ประเภทดังนี้

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโครงข่ายประสาทที่มีเลเยอร์อินพุต 1 เลเยอร์ เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์

โครงข่ายประสาทที่มี 1 เลเยอร์อินพุต เลเยอร์ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์ เลเยอร์อินพุตประกอบด้วยฟีเจอร์ 2 อย่าง เลเยอร์แรกที่ซ่อนอยู่ประกอบด้วยเซลล์ประสาท 3 เซลล์ และเลเยอร์ที่ซ่อนอยู่ลำดับที่ 2 ประกอบด้วยเซลล์ประสาท 2 เซลล์ เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

ใน TensorFlow เลเยอร์ยังเป็นฟังก์ชัน Python ที่นำ Tensor และตัวเลือกการกำหนดค่าเป็นอินพุต และสร้าง Tensor อื่นๆ เป็นเอาต์พุต

อัตราการเรียนรู้

#fundamentals

จำนวนจุดลอยตัวที่บอกอัลกอริทึมการไล่ระดับสี ว่าจะปรับน้ำหนักและความให้น้ำหนักพิเศษในข้อมูลซ้ำแต่ละรายการได้ดีเพียงใด เช่น อัตราการเรียนรู้ที่ 0.3 จะปรับน้ำหนักและความอคติที่มีประสิทธิภาพมากกว่าอัตราการเรียนรู้ที่ 0.1 ถึง 3 เท่า

อัตราการเรียนรู้เป็นพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่สำคัญ หากคุณตั้งอัตราการเรียนรู้ต่ำเกินไป การฝึกจะใช้เวลานานเกินไป หากคุณกำหนดอัตราการเรียนรู้สูงเกินไป การไล่ระดับสีลงมักจะมีปัญหาในการเข้าถึงการสนทนา

เชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปซึ่งแสดงผ่านการบวกและการคูณเพียงอย่างเดียวได้

พล็อตของความสัมพันธ์เชิงเส้นจะเป็นเส้น

คอนทราสต์แบบไม่ใช่เชิงเส้น

รูปแบบเชิงเส้น

#fundamentals

modelที่กำหนดmodel 1 รายการต่อmodelเพื่อสร้างmodel (รูปแบบเชิงเส้นยังมีอคติรวมอยู่ด้วย) ในทางตรงกันข้าม ความสัมพันธ์ของฟีเจอร์กับการคาดการณ์ในโมเดลเชิงลึกมักเป็นไม่ใช่เชิงเส้น

โมเดลเชิงเส้นมักฝึกได้ง่ายกว่าและตีความได้มากกว่าโมเดลเชิงลึก อย่างไรก็ตาม โมเดลเชิงลึกอาจเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างฟีเจอร์ต่างๆ

การถดถอยเชิงเส้นและการถดถอยแบบโลจิสติกเป็นรูปแบบเชิงเส้น 2 ประเภท

การถดถอยเชิงเส้น

#fundamentals

โมเดลแมชชีนเลิร์นนิงประเภทหนึ่งที่เป็นไปตามเงื่อนไขทั้ง 2 ข้อต่อไปนี้

เปรียบเทียบการถดถอยเชิงเส้นกับการถดถอยแบบโลจิสติก รวมถึงเปรียบเทียบการถดถอยกับการแยกประเภท

การถดถอยแบบโลจิสติก

#fundamentals

ประเภทของโมเดลการถดถอยที่คาดการณ์ความน่าจะเป็น โมเดลการถดถอยแบบโลจิสติกมีลักษณะดังต่อไปนี้

  • ป้ายกำกับเป็นหมวดหมู่ คำว่า "การถดถอยแบบโลจิสติกส์" มักจะหมายถึงการถดถอยแบบโลจิสติกแบบไบนารี ซึ่งก็คือโมเดลที่คำนวณความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้ 2 ค่า ตัวแปรที่พบบ่อยน้อยกว่า การถดถอยแบบลอจิสติกส์พหุนามจะคำนวณความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า
  • ฟังก์ชันการสูญเสียในระหว่างการฝึกคือบันทึกการสูญหาย (คุณวางหน่วยการสูญหายของบันทึกหลายรายการพร้อมกันสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่าได้)
  • โมเดลมีสถาปัตยกรรมแบบเชิงเส้น ไม่ใช่โครงข่ายประสาทแบบลึก อย่างไรก็ตาม ส่วนที่เหลือของคําจํากัดความนี้จะใช้กับโมเดลเชิงลึกที่คาดการณ์ความน่าจะเป็นสำหรับป้ายกำกับเชิงหมวดหมู่ด้วย

เช่น ลองพิจารณาโมเดลการถดถอยแบบโลจิสติก ซึ่งคํานวณความเป็นไปได้ที่อีเมลอินพุตจะเป็นสแปมหรือไม่เป็นจดหมายขยะ ในระหว่างการอนุมาน สมมติว่าโมเดลคาดการณ์ 0.72 ดังนั้นโมเดลจึงกำลังประมาณ

  • โอกาส 72% ที่อีเมลจะเป็นสแปม
  • มีโอกาส 28% ที่อีเมลจะไม่เป็นจดหมายขยะ

โมเดลการถดถอยแบบโลจิสติกใช้สถาปัตยกรรม 2 ขั้นตอนต่อไปนี้

  1. โมเดลจะสร้างการคาดการณ์ดิบ (y") โดยใช้ฟังก์ชันเชิงเส้นของฟีเจอร์อินพุต
  2. โมเดลนี้ใช้การคาดการณ์ดิบดังกล่าวเป็นอินพุตไปยังฟังก์ชันซิกมอย ซึ่งแปลงการคาดการณ์ดิบเป็นค่าระหว่าง 0 ถึง 1 (ไม่รวม 0 ถึง 1)

โมเดลการถดถอยแบบโลจิสติกจะคาดการณ์จำนวนเช่นเดียวกับโมเดลการถดถอยทั่วไป แต่โดยปกติแล้ว จำนวนนี้จะกลายเป็นส่วนหนึ่งของโมเดลการจัดประเภทแบบไบนารี

  • หากจำนวนที่คาดการณ์มากกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสที่เป็นบวก
  • หากจำนวนที่คาดการณ์น้อยกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสเชิงลบ

การสูญหายของบันทึก

#fundamentals

ฟังก์ชันการสูญหายที่ใช้ในการถดถอยแบบโลจิสติกแบบไบนารี

โอกาสในการบันทึก

#fundamentals

ลอการิทึมของความน่าจะเป็นของเหตุการณ์บางอย่าง

แพ้

#fundamentals

ในระหว่างการฝึกของโมเดลที่มีการควบคุมดูแล ระบบจะวัดว่าการคาดคะเนของโมเดลอยู่ไกลจากป้ายกำกับของโมเดลแค่ไหน

ฟังก์ชันการสูญเสียจะคำนวณการสูญหาย

Loss Curve

#fundamentals

พล็อตการสูญหายเป็นฟังก์ชันของจำนวนการทำซ้ำการฝึก กราฟต่อไปนี้แสดงเส้นโค้งการสูญเสียโดยทั่วไป

กราฟคาร์ทีเซียนของการสูญเสียเทียบกับการฝึกซ้ำ แสดงการสูญเสียการลดลงอย่างรวดเร็วสำหรับการทำซ้ำครั้งแรก ตามด้วยการลดลงทีละน้อย จากนั้นมีความชันคงที่ระหว่างการทำซ้ำครั้งสุดท้าย

เส้นโค้ง Loss ช่วยให้คุณทราบเวลาที่โมเดลกำลังสนทนาหรือการปรับค่าเกิน

เส้นโค้งการสูญเสียสามารถพล็อตการสูญเสียได้ทุกประเภทต่อไปนี้

ดูเส้นโค้งการปรับทั่วไปด้วย

ฟังก์ชันการสูญหาย

#fundamentals

ในระหว่างการฝึกหรือการทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่คำนวณการขาดทุนในกลุ่มของตัวอย่าง ฟังก์ชันการสูญหายจะส่งกลับค่าความสูญเสียต่ำกว่าสำหรับโมเดลที่ให้การคาดการณ์ที่ดีมากกว่าโมเดลที่ทำการคาดการณ์ที่ไม่ดี

โดยทั่วไป เป้าหมายของการฝึกคือเพื่อลดการสูญเสียฟังก์ชันการสูญเสีย

มีฟังก์ชันการสูญเสียรูปแบบต่างๆ มากมาย เลือกฟังก์ชันการสูญหายที่เหมาะสมกับ ประเภทโมเดลที่คุณกำลังสร้าง เช่น

M

แมชชีนเลิร์นนิง

#fundamentals

โปรแกรมหรือระบบที่ฝึกโมเดลจากข้อมูลอินพุต โมเดลที่ผ่านการฝึกอบรมจะคาดการณ์ที่เป็นประโยชน์จากข้อมูลใหม่ (ที่ไม่เคยเห็นมาก่อน) ที่มาจากการกระจายแบบเดียวกันกับที่ใช้ในการฝึกโมเดล

แมชชีนเลิร์นนิงยังหมายถึงสาขาการศึกษาที่เกี่ยวข้องกับโปรแกรมหรือระบบเหล่านี้ด้วย

เสียงส่วนใหญ่

#fundamentals

ป้ายกำกับที่พบได้บ่อยในชุดข้อมูลที่ไม่สมดุลระดับ เช่น หากชุดข้อมูลมีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงลบจะเป็นคลาสส่วนใหญ่

คอนทราสต์กับชนกลุ่มน้อย

มินิแบตช์

#fundamentals

ชุดย่อยขนาดเล็กที่เลือกไว้แบบสุ่มของกลุ่มซึ่งประมวลผลในทำซ้ำ 1 รายการ ขนาดกลุ่มของมินิแบตช์มักจะอยู่ระหว่าง 10 ถึง 1,000 ตัวอย่าง

ตัวอย่างเช่น สมมติว่าชุดการฝึกทั้งหมด (ชุดเต็ม) มีตัวอย่าง 1,000 รายการ นอกจากนี้ สมมติว่าคุณตั้งค่าขนาดกลุ่มของแต่ละกลุ่มขนาดเล็กเป็น 20 ดังนั้น การทำซ้ำแต่ละรายการจึงตัดสินความสูญเสียในการสุ่ม 20 จาก 1,000 ตัวอย่าง จากนั้นจึงปรับน้ำหนักและอคติตามนั้น

การคํานวณการสูญเสียในมินิกลุ่มจะมีประสิทธิภาพมากกว่าการขาดทุนในตัวอย่างทั้งหมดในกลุ่มแบบเต็ม

ชนชั้นน้อย

#fundamentals

ป้ายกำกับที่พบน้อยกว่าในชุดข้อมูลที่ไม่สมดุลระหว่างคลาส เช่น หากชุดข้อมูลมีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงบวกจะเป็นกลุ่มชนกลุ่มน้อย

คอนทราสต์กับชั้นส่วนใหญ่

model

#fundamentals

โดยทั่วไป โครงสร้างทางคณิตศาสตร์ใดๆ ที่ประมวลผลข้อมูลอินพุตและผลตอบแทน หรืออาจกล่าวต่างกันไป โมเดลคือชุดของพารามิเตอร์และโครงสร้างที่จำเป็นสำหรับระบบในการคาดการณ์ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะใช้ตัวอย่างเป็นอินพุตและอนุมานการคาดคะเนเป็นเอาต์พุต ภายในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะแตกต่างกันอยู่บ้าง เช่น

คุณบันทึก กู้คืน หรือทำสำเนาโมเดลได้

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลยังสร้างโมเดล ซึ่งโดยทั่วไปจะเป็นฟังก์ชันที่แมปตัวอย่างอินพุตกับคลัสเตอร์ที่เหมาะสมที่สุดได้

การจัดประเภทแบบหลายคลาส

#fundamentals

ในการเรียนรู้ภายใต้การควบคุมดูแล ปัญหาการแยกประเภทที่ชุดข้อมูลมีป้ายกำกับมากกว่า 2 คลาส เช่น ป้ายกำกับในชุดข้อมูล Iris ต้องเป็น 1 ใน 3 คลาสต่อไปนี้

  • ไอริสเซโตซา
  • ไอริสเวอร์จิกา
  • สีแบบไอริส

โมเดลที่ได้รับการฝึกจากชุดข้อมูล Iris ที่คาดการณ์ประเภท Iris ในตัวอย่างใหม่กำลังทำการจัดประเภทแบบหลายคลาส

ในทางตรงกันข้าม ปัญหาการจัดประเภทที่แยกความแตกต่างระหว่าง 2 คลาสได้คือโมเดลการจัดประเภทแบบไบนารี เช่น โมเดลอีเมลที่คาดคะเนสแปมหรือไม่ใช่สแปมคือโมเดลการจัดประเภทแบบไบนารี

ในปัญหาการจัดกลุ่ม การจัดประเภทแบบหลายคลาสหมายถึงคลัสเตอร์มากกว่า 2 รายการ

N

คลาสเชิงลบ

#fundamentals

ในการจัดประเภทไบนารี คลาสหนึ่งเรียกว่าเชิงบวก และอีกคลาสหนึ่งเรียกว่าเชิงลบ คลาสเชิงบวกคือสิ่งที่หรือเหตุการณ์ที่โมเดลกำลังทดสอบ ส่วนคลาสเชิงลบก็เป็นความเป็นไปได้อีกอย่างหนึ่ง เช่น

  • คลาสเชิงลบในการทดสอบทางการแพทย์อาจ "ไม่ใช่เนื้องอก"
  • คลาสเชิงลบในตัวแยกประเภทอีเมลอาจเป็น "ไม่ใช่สแปม"

คอนทราสต์กับคลาสเชิงบวก

โครงข่ายระบบประสาทเทียม

#fundamentals

modelที่มีmodelอย่างน้อย 1 ชั้น โครงข่ายประสาทแบบลึกเป็นโครงข่ายประสาทประเภทหนึ่งที่มีเลเยอร์ซ่อนอยู่มากกว่า 1 ชั้น ตัวอย่างเช่น แผนภาพต่อไปนี้ แสดงโครงข่ายประสาทแบบลึกที่มีเลเยอร์ซ่อนอยู่ 2 เลเยอร์

โครงข่ายประสาทที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

เซลล์ประสาทแต่ละเซลล์ในโครงข่ายประสาทจะเชื่อมต่อกับโหนดทั้งหมดในเลเยอร์ถัดไป เช่น ในแผนภาพก่อนหน้านี้ จะเห็นว่าเซลล์ 3 เซลล์แต่ละเซลล์ในเลเยอร์แรกที่ซ่อนอยู่เชื่อมต่อกับเซลล์ประสาททั้ง 2 เซลล์แยกกันในเลเยอร์ที่ซ่อนอยู่ลำดับที่ 2

บางครั้งเรียกว่าโครงข่ายประสาทเทียมเพื่อแยกความแตกต่างจากโครงข่ายประสาทที่พบในสมองและระบบประสาทอื่นๆ

โครงข่ายประสาทบางเครือข่ายอาจเลียนแบบความสัมพันธ์ที่ไม่ใช่เชิงเส้นที่ซับซ้อนมากระหว่างฟีเจอร์ต่างๆ กับป้ายกำกับ

โปรดดูข้อมูลเพิ่มเติมที่หัวข้อโครงข่ายระบบประสาทเทียมและโครงข่ายระบบประสาทเทียม

เซลล์ประสาท

#fundamentals

ในแมชชีนเลิร์นนิง หน่วยหนึ่งภายในเลเยอร์ที่ซ่อนอยู่ของโครงข่ายระบบประสาท เซลล์ประสาทแต่ละเซลล์ จะทำงานสองขั้นตอนดังต่อไปนี้

  1. จะคำนวณผลรวมถ่วงน้ำหนักของค่าอินพุตคูณด้วยน้ำหนักที่เกี่ยวข้อง
  2. ส่งต่อผลรวมถ่วงน้ำหนักเป็นอินพุตไปยังฟังก์ชันการเปิดใช้งาน

เซลล์ประสาทในเลเยอร์แรกที่ซ่อนอยู่จะยอมรับอินพุตจากค่าฟีเจอร์ในเลเยอร์อินพุต เซลล์ประสาทในชั้นที่ซ่อนอยู่หลังชั้นแรกจะรับอินพุตจากเซลล์ประสาทในชั้นที่ซ่อนอยู่ก่อนหน้า เช่น เซลล์ประสาทในชั้นที่ 2 ที่ซ่อนอยู่จะยอมรับอินพุตจากเซลล์ประสาทในชั้นแรกที่ซ่อนอยู่

ภาพต่อไปนี้จะไฮไลต์เซลล์ประสาท 2 เซลล์และอินพุตของเซลล์เหล่านั้น

โครงข่ายประสาทที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต มีการไฮไลต์เซลล์ประสาท 2 เซลล์ โดยเซลล์หนึ่งใน
          เลเยอร์แรกที่ซ่อนอยู่และหนึ่งในเลเยอร์ที่ซ่อนอยู่ลำดับที่ 2 เซลล์ประสาท
          ที่ไฮไลต์ในเลเยอร์แรกที่ซ่อนอยู่จะได้รับอินพุตจากฟีเจอร์ทั้งสอง
          ในเลเยอร์อินพุต เซลล์ประสาทที่ไฮไลต์ในเลเยอร์ที่สองที่ซ่อนอยู่จะได้รับอินพุตจากเซลล์ประสาททั้ง 3 เซลล์ในเลเยอร์แรกที่ซ่อนอยู่

เซลล์ประสาทในโครงข่ายประสาทจะเลียนแบบพฤติกรรมของเซลล์ประสาทในสมองและส่วนอื่นๆ ของระบบประสาท

โหนด (โครงข่ายระบบประสาทเทียม)

#fundamentals

เซลล์ประสาทในชั้นเซลล์ที่ซ่อนอยู่

ไม่เป็นเชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่ไม่สามารถแสดงด้วยการบวกและการคูณเพียงอย่างเดียวได้ ความสัมพันธ์แบบเชิงเส้นอาจแสดงเป็นเส้น ความสัมพันธ์แบบไม่ใช่เชิงเส้นจะแสดงเป็นเส้นไม่ได้ ตัวอย่างเช่น ลองพิจารณารูปแบบ 2 รูปแบบที่แต่ละรูปแบบ เชื่อมโยงคุณลักษณะเดียวกับป้ายกำกับเดียว รูปแบบทางซ้ายเป็นเชิงเส้น โมเดลทางขวาไม่เป็นเชิงเส้น

2 แปลง พล็อตหนึ่งคือเส้น ดังนั้นนี่คือความสัมพันธ์เชิงเส้น
          อีกพล็อตหนึ่งเป็นเส้นโค้ง ดังนั้นเรื่องนี้จึงเป็นความสัมพันธ์ที่ไม่ใช่เชิงเส้น

ความไม่คงที่

#fundamentals

ฟีเจอร์ที่มีค่าการเปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งโดยปกติจะเป็นเวลา ตัวอย่างเช่น ลองพิจารณาตัวอย่างของความไม่คงที่ต่อไปนี้

  • จำนวนชุดว่ายน้ำที่จำหน่ายในร้านค้าหนึ่งๆ จะแตกต่างกันไปในแต่ละฤดูกาล
  • ปริมาณผลไม้ชนิดหนึ่งที่เก็บในภูมิภาคหนึ่งๆ มีค่าเป็น 0 สำหรับระยะเวลาเกือบทั้งปี แต่มากเป็นระยะเวลาสั้นๆ
  • เนื่องจากการเปลี่ยนแปลงสภาพภูมิอากาศ อุณหภูมิเฉลี่ยรายปีจึงมีการเปลี่ยนแปลง

คอนทราสต์กับความคงที่

การแปลงเป็นรูปแบบมาตรฐาน

#fundamentals

หรือพูดกว้างๆ ก็คือ กระบวนการแปลงช่วงค่าจริงของตัวแปรให้อยู่ในช่วงค่ามาตรฐาน เช่น

  • -1 ถึง +1
  • 0 ถึง 1
  • การกระจายปกติ

ตัวอย่างเช่น สมมติว่าช่วงค่าจริงของฟีเจอร์บางอย่างคือ 800 ถึง 2,400 ในฐานะส่วนหนึ่งของวิศวกรรมฟีเจอร์ คุณสามารถปรับค่าจริงให้อยู่ในช่วงมาตรฐาน เช่น -1 ถึง +1

การปรับให้เป็นมาตรฐานเป็นงานที่พบได้ทั่วไปในวิศวกรรมฟีเจอร์ โมเดลมักจะฝึกได้เร็วขึ้น (และสร้างการคาดการณ์ที่ดีขึ้น) เมื่อฟีเจอร์ตัวเลขทุกฟีเจอร์ในเวกเตอร์ฟีเจอร์มีช่วงค่อนข้างเท่ากัน

ข้อมูลตัวเลข

#fundamentals

ฟีเจอร์ซึ่งแสดงเป็นจำนวนเต็มหรือจำนวนจริง ตัวอย่างเช่น รูปแบบการประเมินราคาบ้านอาจแสดงขนาดบ้าน (เป็นตารางฟุตหรือตารางเมตร) เป็นข้อมูลตัวเลข การแสดงฟีเจอร์เป็นข้อมูลตัวเลขหมายความว่าค่าของฟีเจอร์มีความสัมพันธ์ทางคณิตศาสตร์กับป้ายกำกับ กล่าวคือ จำนวนตารางเมตรในบ้านอาจมีความสัมพันธ์ทางคณิตศาสตร์กับมูลค่าของบ้าน

ข้อมูลที่เป็นจำนวนเต็มบางรายการไม่ควรแสดงเป็นข้อมูลตัวเลข ตัวอย่างเช่น รหัสไปรษณีย์ในบางพื้นที่ของโลกเป็นจำนวนเต็ม อย่างไรก็ตาม รหัสไปรษณีย์ที่เป็นจำนวนเต็มไม่ควรแสดงเป็นข้อมูลตัวเลขในโมเดล ซึ่งเป็นเพราะรหัสไปรษณีย์ของ 20000 ไม่ใช่ 2 (หรือครึ่งหนึ่ง) ที่มีประสิทธิภาพเท่ากับรหัสไปรษณีย์ 10,000 นอกจากนี้ แม้ว่ารหัสไปรษณีย์ที่ต่างกันจะเกี่ยวข้องกับมูลค่าอสังหาริมทรัพย์ที่ต่างกัน แต่ก็ไม่อาจสรุปได้ว่ามูลค่าอสังหาริมทรัพย์ตามรหัสไปรษณีย์ 20, 000 มีมูลค่าเป็นสองเท่าของมูลค่าอสังหาริมทรัพย์ที่รหัสไปรษณีย์ 10, 000 รหัสไปรษณีย์ควรแสดงเป็นข้อมูลตามหมวดหมู่แทน

บางครั้งเราเรียกฟีเจอร์ที่เป็นตัวเลขว่าฟีเจอร์ต่อเนื่อง

O

ออฟไลน์

#fundamentals

คำพ้องความหมายของ static

การอนุมานแบบออฟไลน์

#fundamentals

กระบวนการของโมเดลที่สร้างการคาดการณ์จำนวนหนึ่ง แล้วแคช (บันทึก) การคาดการณ์เหล่านั้น จากนั้นแอปจะเข้าถึงการคาดการณ์ที่สรุปได้จากแคชแทนการเรียกใช้โมเดลอีกครั้ง

เช่น ลองโมเดลที่สร้างการพยากรณ์อากาศท้องถิ่น (การพยากรณ์อากาศ) 1 ครั้งทุก 4 ชั่วโมง หลังจากแต่ละโมเดลทำงาน ระบบจะแคชการพยากรณ์อากาศในท้องถิ่นทั้งหมด แอปสภาพอากาศจะดึงข้อมูลการพยากรณ์อากาศ จากแคช

การอนุมานแบบออฟไลน์เรียกอีกอย่างว่าการอนุมานแบบคงที่

ตรงข้ามกับการอนุมานทางออนไลน์

การเข้ารหัสแบบครั้งเดียว

#fundamentals

นำเสนอข้อมูลเชิงกลุ่มเป็นเวกเตอร์ที่

  • มีการตั้งค่าองค์ประกอบหนึ่งเป็น 1
  • องค์ประกอบอื่นๆ ทั้งหมดตั้งค่าเป็น 0

โดยทั่วไป การเข้ารหัสแบบ One-Hot ใช้เพื่อแสดงสตริงหรือตัวระบุที่มีชุดค่าที่เป็นไปได้อย่างจำกัด ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ Scandinavia มีค่าที่เป็นไปได้ 5 ค่า ดังนี้

  • "เดนมาร์ก"
  • "สวีเดน"
  • "นอร์เวย์"
  • "ฟินแลนด์"
  • "ไอซ์แลนด์"

การเข้ารหัสแบบ 1-Hot สามารถแสดงค่าแต่ละค่าใน 5 ค่าดังนี้

country เวกเตอร์
"เดนมาร์ก" 1 0 0 0 0
"สวีเดน" 0 1 0 0 0
"นอร์เวย์" 0 0 1 0 0
"ฟินแลนด์" 0 0 0 1 0
"ไอซ์แลนด์" 0 0 0 0 1

การเข้ารหัสแบบ 1 ครั้งช่วยให้โมเดลเรียนรู้การเชื่อมต่อที่แตกต่างกัน ตามแต่ละประเทศทั้ง 5 ประเทศได้

การนำเสนอฟีเจอร์เป็นข้อมูลตัวเลขเป็นอีกทางเลือกหนึ่งของการเข้ารหัสแบบ 1 ฮอต น่าเสียดายที่การแสดงประเทศสแกนดิเนเวียเป็นตัวเลขไม่ใช่ตัวเลือกที่ดี ตัวอย่างเช่น ลองพิจารณาการนำเสนอด้วยตัวเลขต่อไปนี้

  • "เดนมาร์ก" เท่ากับ 0
  • "สวีเดน" คือ 1
  • "นอร์เวย์" เป็น 2
  • "ฟินแลนด์" คือ 3
  • "ไอซ์แลนด์" คือ 4

การเข้ารหัสตัวเลขจะทำให้โมเดลตีความตัวเลขดิบทางคณิตศาสตร์ และจะพยายามฝึกกับจำนวนเหล่านั้น แต่จริงๆ แล้ว ไอซ์แลนด์ไม่ได้มากเป็น 2 เท่า (หรือครึ่งหนึ่ง) ของบางอย่าง เมื่อเทียบกับนอร์เวย์ แบบจำลองนี้จึงได้ข้อสรุปที่แปลกประหลาด

หนึ่งต่อทั้งหมด

#fundamentals

เนื่องจากปัญหาการจัดประเภทของคลาส N ได้ คำตอบจะประกอบด้วยตัวแยกประเภทไบนารีแยกกัน N รายการ ซึ่งเป็นตัวแยกประเภทไบนารีสำหรับผลลัพธ์ที่เป็นไปได้แต่ละรายการ ตัวอย่างเช่น สำหรับโมเดลที่จำแนกตัวอย่างเป็นสัตว์ ผัก หรือแร่ธาตุ โซลูชันแบบหนึ่งเทียบกับทั้งหมดจะให้ตัวแยกประเภทไบนารีแยกกัน 3 ตัวดังต่อไปนี้

  • สัตว์กับไม่ใช่สัตว์
  • ผักกับผัก
  • แร่ธาตุและไม่ใช่แร่

online

#fundamentals

คำพ้องความหมายของ dynamic

การอนุมานทางออนไลน์

#fundamentals

สร้างการคาดการณ์ตามความต้องการ เช่น สมมติว่าแอปส่งอินพุตไปยังโมเดลและออกคำขอสำหรับการคาดการณ์ ระบบที่ใช้การอนุมานออนไลน์จะตอบสนองต่อคำขอโดยการเรียกใช้โมเดล (และส่งคืนการคาดการณ์ไปยังแอป)

ตรงข้ามกับการอนุมานแบบออฟไลน์

เลเยอร์เอาต์พุต

#fundamentals

ชั้น "สุดท้าย" ของโครงข่ายประสาท เลเยอร์เอาต์พุตมีการคาดการณ์

ภาพต่อไปนี้แสดงโครงข่ายประสาทแบบลึกขนาดเล็กที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

โครงข่ายประสาทที่มี 1 เลเยอร์อินพุต เลเยอร์ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์ เลเยอร์อินพุตประกอบด้วยฟีเจอร์ 2 อย่าง เลเยอร์แรกที่ซ่อนอยู่ประกอบด้วยเซลล์ประสาท 3 เซลล์ และเลเยอร์ที่ซ่อนอยู่ลำดับที่ 2 ประกอบด้วยเซลล์ประสาท 2 เซลล์ เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

Overfitting

#fundamentals

การสร้างmodelที่ตรงกับmodelอย่างใกล้เคียงมากจนโมเดลไม่สามารถคาดการณ์ข้อมูลใหม่ได้อย่างถูกต้อง

การปรับให้เป็นปกติสามารถลดการปรับมากเกินไป การฝึกอบรมในชุดการฝึกอบรมที่มีขนาดใหญ่และหลากหลายจะช่วยลดการออกกำลังกายมากเกินไปได้

คะแนน

แพนด้า

#fundamentals

API การวิเคราะห์ข้อมูลแบบคอลัมน์ซึ่งสร้างขึ้นจาก numpy เฟรมเวิร์กแมชชีนเลิร์นนิงจำนวนมาก รวมถึง TensorFlow รองรับโครงสร้างข้อมูลแพนด้าเป็นอินพุต ดูรายละเอียดในเอกสารประกอบของ Pandas

พารามิเตอร์

#fundamentals

น้ำหนักและอคติที่โมเดลเรียนรู้ระหว่างการฝึก ตัวอย่างเช่น ในรูปแบบการถดถอยเชิงเส้น พารามิเตอร์ประกอบด้วยการให้น้ำหนักพิเศษ (b) และน้ำหนักทั้งหมด (w1, w2 และอื่นๆ) ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในทางตรงกันข้าม hyperparameter คือค่าที่คุณ (หรือบริการเปลี่ยนไฮเปอร์พารามิเตอร์) ให้กับโมเดล เช่น อัตราการเรียนรู้ คือไฮเปอร์พารามิเตอร์

คลาสเชิงบวก

#fundamentals

ชั้นเรียนที่คุณจะทดสอบ

ตัวอย่างเช่น คลาสเชิงบวกในโมเดลมะเร็งอาจเป็น "เนื้องอก" คลาสเชิงบวกในตัวแยกประเภทอีเมลอาจเป็น "สแปม"

คอนทราสต์กับคลาสเชิงลบ

หลังการประมวลผล

#fairness
#fundamentals

การปรับเอาต์พุตของโมเดลหลังจากที่เรียกใช้โมเดลแล้ว คุณใช้หลังการประมวลผลเพื่อบังคับใช้ข้อจำกัดด้านความเป็นธรรมได้โดยไม่ต้องแก้ไขโมเดลด้วยตนเอง

เช่น อาจมีการใช้หลังการประมวลผลกับตัวแยกประเภทแบบไบนารีโดยกำหนดเกณฑ์การจัดประเภทให้คงความเท่าเทียมกันของโอกาสสำหรับบางแอตทริบิวต์โดยการตรวจสอบว่าอัตราผลบวกจริงมีค่าเหมือนกันสำหรับค่าทั้งหมดของแอตทริบิวต์นั้น

การคาดการณ์

#fundamentals

เอาต์พุตของโมเดล เช่น

  • การคาดการณ์ของโมเดลการจัดประเภทแบบไบนารีเป็นคลาสบวกหรือคลาสเชิงลบ
  • การคาดการณ์ของโมเดลการจัดประเภทแบบหลายคลาสคือ 1 คลาส
  • การคาดคะเนของโมเดลการถดถอยเชิงเส้นเป็นตัวเลข

ป้ายกำกับพร็อกซี

#fundamentals

ข้อมูลที่ใช้เพื่อประมาณป้ายกำกับที่ไม่มีในชุดข้อมูลโดยตรง

ตัวอย่างเช่น สมมติว่าคุณต้องฝึกโมเดลให้คาดการณ์ระดับความเครียดของพนักงาน ชุดข้อมูลมีฟีเจอร์การคาดการณ์จำนวนมาก แต่ไม่มีป้ายกำกับชื่อระดับความเครียด ไม่เป็นไร คุณเลือก "อุบัติเหตุในที่ทำงาน" เป็นป้ายกำกับพร็อกซีสำหรับระดับความเครียด เพราะสุดท้ายแล้ว พนักงานที่อยู่ภายใต้ความเครียดสูงประสบอุบัติเหตุ มากกว่าพนักงานที่สงบสติอารมณ์ หรือว่าเป็นเช่นนั้น อุบัติเหตุในที่ทำงานอาจ เพิ่มขึ้นและตกด้วยสาเหตุหลายประการ

ตัวอย่างเช่น สมมติว่าคุณต้องการให้ฝนตกไหมเป็นป้ายกำกับบูลีนสำหรับชุดข้อมูล แต่ชุดข้อมูลไม่มีข้อมูลฝน หากมีภาพถ่าย คุณอาจสร้างภาพ คนถือร่มเป็นป้ายกำกับพร็อกซีว่าฝนตกไหม เป็นป้ายกำกับพร็อกซีที่ดีไหม แต่คนในบางวัฒนธรรมมีแนวโน้มที่จะพกร่มป้องกันแสงแดดมากกว่าฝน

ป้ายกำกับพร็อกซีมักไม่สมบูรณ์ เมื่อเป็นไปได้ ให้เลือกป้ายกำกับจริง มากกว่าป้ายกำกับพร็อกซี กล่าวคือ เมื่อไม่มีป้ายกำกับจริง ให้เลือกป้ายกำกับพร็อกซีอย่างรอบคอบ แล้วเลือกตัวเลือกป้ายกำกับพร็อกซีที่น่ากลัวน้อยที่สุด

R

แร็กซ์

#fundamentals

ตัวย่อของ retrieval-augmented Generation

ผู้ให้คะแนน

#fundamentals

บุคคลที่จัดเตรียมป้ายกำกับสำหรับตัวอย่าง "ผู้กำกับเนื้อหา" เป็นอีกชื่อหนึ่งของผู้ประเมิน

หน่วยเชิงเส้นตรง (ReLU)

#fundamentals

ฟังก์ชันการเปิดใช้งานที่มีลักษณะการทำงานดังต่อไปนี้

  • หากอินพุตเป็นค่าลบหรือเป็น 0 เอาต์พุตจะเป็น 0
  • หากอินพุตเป็นบวก เอาต์พุตจะเท่ากับอินพุต

เช่น

  • หากอินพุตเป็น -3 เอาต์พุตจะเป็น 0
  • หากอินพุตเป็น +3 เอาต์พุตจะเป็น 3.0

ตัวอย่างโครงเรื่อง ReLU มีดังนี้

พล็อตแบบคาร์เตเซียที่มีเส้น 2 เส้น บรรทัดแรกมีค่า y คงที่เป็น 0 วิ่งตามแกน x ตั้งแต่ -infinity, 0 ถึง 0,-0
          บรรทัดที่ 2 เริ่มต้นที่ 0,0 เส้นนี้มีความชันของ +1 ดังนั้น
          จึงเริ่มต้นจาก 0,0 ถึง +อนันต์, +อนันต์

ReLU เป็นฟังก์ชันเปิดใช้งานที่ได้รับความนิยมสูง แม้จะมีลักษณะการทำงานที่เรียบง่าย แต่ ReLU ยังคงทำให้โครงข่ายประสาทเรียนรู้ความสัมพันธ์ระหว่างฟีเจอร์และป้ายกำกับที่ไม่เป็นเชิงเส้นได้

โมเดลการถดถอย

#fundamentals

โมเดลที่สร้างการคาดการณ์เชิงตัวเลขอย่างไม่เป็นทางการ (ในทางตรงกันข้าม โมเดลการจัดประเภทจะสร้างการคาดการณ์คลาส) ตัวอย่างต่อไปนี้คือรูปแบบการถดถอยทั้งหมด

  • โมเดลที่คาดคะเนมูลค่าของบ้านบางหลัง เช่น 423,000 ยูโร
  • โมเดลที่คาดคะเนอายุขัยของต้นไม้บางชนิด เช่น 23.2 ปี
  • โมเดลที่คาดคะเนปริมาณฝนที่จะตกในบางเมืองในช่วง 6 ชั่วโมงข้างหน้า เช่น 0.18 นิ้ว

รูปแบบการถดถอยที่พบบ่อยมี 2 ประเภทดังนี้

ไม่ใช่ว่าโมเดลทั้งหมดที่แสดงการคาดการณ์เชิงตัวเลขจะเป็นโมเดลการถดถอย ในบางกรณี การคาดการณ์ที่เป็นตัวเลขเป็นเพียงโมเดลการจัดประเภท ซึ่งเกิดขึ้นกับชื่อคลาสที่เป็นตัวเลข เช่น โมเดลที่คาดการณ์รหัสไปรษณีย์ที่เป็นตัวเลขคือโมเดลการจัดประเภท ไม่ใช่โมเดลการถดถอย

Regularization

#fundamentals

กลไกที่ลดการปรับให้พอดี ประเภทการกำหนดค่าที่นิยมใช้กัน ได้แก่

การปรับให้เป็นปกติอาจหมายถึงบทลงโทษสำหรับความซับซ้อนของโมเดล

อัตราการปรับให้เป็นมาตรฐาน

#fundamentals

ตัวเลขที่ระบุลำดับความสำคัญสัมพัทธ์ของการจัดการรูปแบบในระหว่างการฝึก การเพิ่มอัตราการปรับให้เป็นมาตรฐานจะลดการปรับให้เกินความเหมาะสม แต่อาจลดความสามารถในการคาดการณ์ของโมเดล ในทางกลับกัน การลดหรือละเลยอัตราการกำหนดปกติจะเป็นการเพิ่มมากเกินไป

ReLU

#fundamentals

ตัวย่อของหน่วยเชิงเส้นตรง

รุ่น Augmented Reality (RAG)

#fundamentals

เทคนิคในการปรับปรุงคุณภาพเอาต์พุตของโมเดลภาษาขนาดใหญ่ (LLM) โดยการนำมาใช้กับแหล่งความรู้ที่ดึงมาหลังจากการฝึกโมเดล RAG ปรับปรุงความแม่นยำของคำตอบ LLM ด้วยการให้ LLM ที่ผ่านการฝึกอบรมมีสิทธิ์เข้าถึงข้อมูลที่ดึงมาจากฐานความรู้หรือเอกสารที่เชื่อถือได้

แรงจูงใจทั่วไปในการใช้รุ่นดึงข้อมูลเพิ่มเติมมีดังนี้

  • การเพิ่มความถูกต้องของข้อเท็จจริงของคำตอบที่สร้างขึ้นของโมเดล
  • การให้สิทธิ์โมเดลเข้าถึงความรู้ที่โมเดลไม่ได้รับการฝึก
  • การเปลี่ยนความรู้ที่โมเดลใช้
  • การเปิดใช้โมเดลเพื่ออ้างอิงแหล่งที่มา

เช่น สมมติว่าแอปเคมีใช้ PaLM API เพื่อสร้างข้อมูลสรุปที่เกี่ยวข้องกับคำค้นหาของผู้ใช้ เมื่อแบ็กเอนด์ของแอปได้รับคำค้นหา แบ็กเอนด์จะทำดังนี้

  1. ค้นหาข้อมูล ("ดึงข้อมูล") ที่เกี่ยวข้องกับข้อความค้นหาของผู้ใช้
  2. เพิ่ม ("เสริม") ข้อมูลทางเคมีที่เกี่ยวข้องในข้อความค้นหาของผู้ใช้
  3. สั่งให้ LLM สร้างสรุปตามข้อมูลต่อท้าย

เส้นโค้ง ROC (อักขระปฏิบัติการของตัวรับ)

#fundamentals

กราฟอัตราผลบวกจริงกับอัตราผลบวกลวงสำหรับเกณฑ์การแยกประเภทที่แตกต่างกันในการแยกประเภทแบบไบนารี

รูปร่างของเส้นโค้ง ROC ชี้ให้เห็นถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสเชิงบวกออกจากคลาสเชิงลบ สมมติว่าโมเดลการจัดประเภทแบบไบนารีแยกคลาสเชิงลบทั้งหมดออกจากคลาสเชิงบวกทั้งหมดอย่างลงตัว ดังนี้

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 8 รายการทางด้านขวาและตัวอย่างเชิงลบ 7 รายการทางด้านซ้าย

เส้นโค้ง ROC สำหรับรูปแบบก่อนหน้าจะมีลักษณะดังนี้

เส้นโค้ง ROC แกน x คืออัตราผลบวกเท็จและแกน y เป็นอัตราผลบวกจริง เส้นโค้งมีรูปทรงตัว L กลับด้าน เส้นโค้งเริ่มต้นที่ (0.0,0.0) ไปจนถึง (0.0,1.0) จากนั้นเส้นโค้งจะเปลี่ยนจาก (0.0,1.0) ไปยัง (1.0,1.0)

ในทางตรงกันข้าม ภาพประกอบต่อไปนี้แสดงกราฟค่าการถดถอยโลจิสติกที่เป็นข้อมูลดิบสำหรับโมเดลที่แย่มากซึ่งไม่สามารถแยกคลาสเชิงลบออกจากคลาสบวกเลย

เส้นจำนวนที่มีตัวอย่างเชิงบวกและคลาสเชิงลบผสมกัน

เส้นโค้ง ROC สำหรับโมเดลนี้มีลักษณะดังต่อไปนี้

เส้นโค้ง ROC ซึ่งเป็นเส้นตรงตั้งแต่ (0.0,0.0) ถึง (1.0,1.0)

ในขณะเดียวกัน ในโลกแห่งความเป็นจริง โมเดลการจัดประเภทแบบไบนารีส่วนใหญ่จะแยกคลาสเชิงบวกและเชิงลบในระดับหนึ่งออก แต่มักจะไม่สมบูรณ์แบบที่สุด ดังนั้น เส้นโค้ง ROC ตามปกติจะอยู่ระหว่างปลายทั้ง 2 ด้าน

เส้นโค้ง ROC แกน x คืออัตราผลบวกเท็จและแกน y เป็นอัตราผลบวกจริง เส้นโค้ง ROC จะประมาณส่วนโค้งที่สั่นไหวไปตามจุดเข็มทิศจากตะวันตกไปยังทิศเหนือ

ทางทฤษฎี จุดบนเส้นโค้ง ROC ที่ใกล้เคียงที่สุด (0.0,1.0) จะระบุเกณฑ์การจัดประเภทที่เหมาะสม อย่างไรก็ตาม ปัญหาอื่นๆ ที่เกิดขึ้นจริงก็มีอิทธิพลต่อการเลือกเกณฑ์การจัดประเภทที่เหมาะสม เช่น ผลลบลวงอาจสร้างความเจ็บปวดมากกว่าผลบวกลวง

เมตริกตัวเลขที่ชื่อ AUC จะสรุปเส้นโค้ง ROC เป็นค่าจุดลอยตัวค่าเดียว

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)

#fundamentals

รากที่สองของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง

S

ฟังก์ชันซิกมอยด์

#fundamentals

ฟังก์ชันทางคณิตศาสตร์ที่ "บีบ" ค่าอินพุตไว้ในช่วงที่จำกัด ซึ่งมักจะเป็น 0 ถึง 1 หรือ -1 ถึง +1 กล่าวคือ คุณสามารถส่งตัวเลขใดก็ได้ (2, 1 ล้าน, ลบเป็นพันล้าน, เป็นอะไรก็ได้) ไปยังซิกมอยด์ และเอาต์พุตจะยังคงอยู่ในช่วงที่จำกัด พล็อตของฟังก์ชันการเปิดใช้งานซิกมอยด์มีลักษณะดังต่อไปนี้

พล็อตแบบโค้ง 2 มิติที่มีค่า x ซึ่งครอบคลุมโดเมนตั้งแต่ -อนันต์ไปจนถึง +บวก ขณะที่ค่า y อยู่ในช่วงเกือบ 0 ถึงเกือบ 1 เมื่อ x เท่ากับ 0 ค่า y จะเท่ากับ 0.5 ความชันของเส้นโค้งจะเป็นบวกเสมอ โดยมีความชันสูงสุดที่ 0,0.5 และค่อยๆ ลดความชันลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ฟังก์ชันซิกมอยด์มีประโยชน์หลายอย่างในแมชชีนเลิร์นนิง ดังนี้

ซอฟต์แม็กซ์

#fundamentals

ฟังก์ชันที่กำหนดความน่าจะเป็นสำหรับคลาสที่เป็นไปได้แต่ละรายการในโมเดลการจัดประเภทแบบหลายคลาส ความน่าจะเป็นรวมกันได้ 1.0 พอดี ตัวอย่างเช่น ตารางต่อไปนี้แสดงให้เห็นว่า softmax กระจายความน่าจะเป็นต่างๆ อย่างไร

รูปภาพคือ... Probability
สุนัข 0.85
cat 0.13
ม้า 0.02

Softmax เรียกอีกอย่างว่า Full softmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

พื้นที่กระจัดกระจาย

#language
#fundamentals

ฟีเจอร์ที่มีค่าส่วนใหญ่เป็น 0 หรือว่างเปล่า เช่น ฟีเจอร์ที่มีค่า 1 ค่าเดียวแต่ 0 ล้านค่านั้นมีน้อย ในทางตรงกันข้าม ฟีเจอร์ที่หนาแน่นจะมีค่าที่ส่วนใหญ่ไม่ใช่ 0 หรือว่างเปล่า

ในแมชชีนเลิร์นนิง จำนวนฟีเจอร์ที่น่าประหลาดใจคือฟีเจอร์จำนวนน้อย ฟีเจอร์เชิงหมวดหมู่มักจะเป็นฟีเจอร์ที่ไม่ซับซ้อน เช่น จากต้นไม้ 300 ชนิดที่เป็นไปได้ในป่า ตัวอย่างหนึ่งอาจระบุเพียงต้นเมเปิล หรือวิดีโอที่เป็นไปได้หลายล้านรายการในคลังวิดีโอ ตัวอย่างหนึ่งอาจระบุแค่คำว่า "คาซาบลังกา"

ในโมเดลหนึ่ง โดยปกติแล้วคุณจะแสดงฟีเจอร์ที่กระจัดกระจายด้วยการเข้ารหัสแบบ One-Hot หากการเข้ารหัสแบบ 1-Hot มีขนาดใหญ่ คุณอาจวาง เลเยอร์การฝัง ไว้ด้านบนของการเข้ารหัสแบบ 1 Hot เพื่อประสิทธิภาพที่ดียิ่งขึ้น

การเป็นตัวแทนแบบย่อ

#language
#fundamentals

การจัดเก็บเฉพาะตำแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์ที่กระจัดกระจาย

ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ species ระบุพันธุ์ไม้ 36 ต้นในป่าหนึ่งๆ นอกจากนี้ สมมุติว่าตัวอย่างแต่ละรายการระบุสายพันธุ์ได้เพียง 1 สปีชีส์เท่านั้น

คุณสามารถใช้เวกเตอร์หนึ่งที่น่าสนใจเพื่อแสดงถึงสปีชีส์ของต้นไม้ในแต่ละตัวอย่าง เวกเตอร์ 1 รายการที่เร็ว ๆ จะมี 1 เดียว (เพื่อแสดงถึงสปีชีส์ของต้นไม้เฉพาะในตัวอย่าง) และ 35 0 (เพื่อแสดงถึงต้นไม้ 35 ชนิดที่ไม่ใช่ในตัวอย่างนั้น) ดังนั้น การนำเสนอ maple แบบร้อนแรง อาจมีลักษณะประมาณนี้

เวกเตอร์ที่ตำแหน่ง 0 ถึง 23 มีค่า 0 ตำแหน่ง 24 มีค่า 1 และตำแหน่งที่ 25 ถึง 35 มีค่าเป็น 0

อีกตัวอย่างหนึ่งคือ การแทนแบบกระจัดกระจายอาจแค่ระบุตำแหน่งของสปีชีส์หนึ่งๆ เท่านั้น หาก maple อยู่ที่ตำแหน่ง 24 การแสดงแบบคร่าวๆ ของ maple จะมีลักษณะดังนี้

24

สังเกตว่าการนำเสนอแบบกระทัดรัดนั้นกะทัดรัดมากกว่าการนำเสนอแบบเดี่ยวๆ มาก

เวกเตอร์แบบกระจัดกระจาย

#fundamentals

เวกเตอร์ที่ค่าส่วนใหญ่เป็น 0 โปรดดูฟีเจอร์บางส่วนและความสอดคล้องกันด้วย

ค่าสูญเสียยกกำลังสอง

#fundamentals

คำพ้องความหมายของ L2 Los

คงที่

#fundamentals

เป็นการดำเนินการเพียงครั้งเดียว แทนที่จะเป็นอย่างต่อเนื่อง คำว่าคงที่และออฟไลน์เป็นคำพ้องความหมาย การใช้งานแบบคงที่และออฟไลน์ในแมชชีนเลิร์นนิงโดยทั่วไปมีดังนี้

  • โมเดลคงที่ (หรือโมเดลออฟไลน์) เป็นโมเดลที่ได้รับการฝึก 1 ครั้งและใช้ไประยะหนึ่ง
  • การฝึกแบบคงที่ (หรือการฝึกออฟไลน์) เป็นกระบวนการฝึกโมเดลแบบคงที่
  • การอนุมานแบบคงที่ (หรือการอนุมานแบบออฟไลน์) คือกระบวนการที่โมเดลสร้างการคาดการณ์เป็นกลุ่มครั้งละชุด

คอนทราสต์แบบไดนามิก

การอนุมานแบบคงที่

#fundamentals

คำพ้องความหมายของการอนุมานแบบออฟไลน์

สถานีเพลง

#fundamentals

ฟีเจอร์ที่มีค่าไม่เปลี่ยนแปลงตามมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักเป็นเวลา เช่น ฟีเจอร์ที่มีค่าต่างๆ ใกล้เคียงกันในปี 2021 และ 2023 จะแสดงภาพนิ่ง

ในโลกแห่งความเป็นจริง สิ่งที่แสดงการอยู่นิ่งๆ นั้นมีน้อยมาก แม้แต่คุณลักษณะที่ไม่ตรงตัวกับความเสถียร (เช่น ระดับน้ำทะเล) ก็จะเปลี่ยนแปลงเมื่อเวลาผ่านไป

คอนทราสต์กับความไม่คงที่

สโตรกแบบไล่ระดับสี (SGD)

#fundamentals

อัลกอริทึมการลดระดับของการไล่ระดับสีที่มีขนาดกลุ่มเท่ากับ กล่าวคือ SGD จะฝึกโดยใช้ตัวอย่างเดียวที่ได้รับการสุ่มเลือกอย่างเท่าเทียมกันจากชุดการฝึก

แมชชีนเลิร์นนิงที่มีการควบคุมดูแล

#fundamentals

การฝึกmodelจากmodelและmodelที่เกี่ยวข้อง แมชชีนเลิร์นนิงที่มีการควบคุมดูแลเปรียบได้กับการเรียนรู้วิชาหนึ่งโดยการศึกษาชุดคำถามและคำตอบที่เกี่ยวข้อง เมื่อจับคู่คำถามกับคำตอบอย่างเชี่ยวชาญแล้ว นักเรียนจะตอบคำถามใหม่ๆ ในหัวข้อเดียวกันได้ (ไม่เคยเห็นมาก่อน)

เปรียบเทียบกับแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

ฟีเจอร์สังเคราะห์

#fundamentals

ฟีเจอร์จะไม่ปรากฏในฟีเจอร์อินพุต แต่ประกอบขึ้นจากฟีเจอร์อย่างน้อย 1 รายการ วิธีสร้างฟีเจอร์สังเคราะห์มีดังนี้

  • การรวมข้อมูลฟีเจอร์แบบต่อเนื่องลงในถังขยะช่วง
  • การสร้างข้ามฟีเจอร์
  • การคูณ (หรือหาร) ค่าจุดสนใจหนึ่งด้วยค่าอื่นของจุดสนใจ หรือตามตัวมันเอง เช่น หาก a และ b เป็นฟีเจอร์อินพุต ต่อไปนี้คือตัวอย่างของฟีเจอร์สังเคราะห์
    • ab
    • 2
  • การใช้ฟังก์ชันเชิงสืบเนื่องกับค่าฟีเจอร์ เช่น หาก c เป็นฟีเจอร์อินพุต ต่อไปนี้เป็นตัวอย่างของฟีเจอร์สังเคราะห์
    • sin(c)
    • ln(c)

ฟีเจอร์ที่สร้างโดยการทำให้เป็นมาตรฐานหรือการปรับขนาดเพียงอย่างเดียวไม่ถือว่าเป็นฟีเจอร์สังเคราะห์

T

ทดสอบการสูญหาย

#fundamentals

เมตริกที่แสดงถึงการสูญเสียของโมเดลเทียบกับชุดทดสอบ เมื่อสร้างmodel คุณมักพยายามลดการสูญหายของการทดสอบ นั่นเป็นเพราะการสูญเสียการทดสอบในระดับต่ำถือเป็นสัญญาณที่มีคุณภาพมากกว่าการสูญเสียการฝึกต่ำ หรือการสูญเสียการตรวจสอบต่ำ

บางครั้งความแตกต่างอย่างมากระหว่างการสูญเสียการทดสอบกับการสูญเสียการทดสอบหรือการสูญเสียการตรวจสอบบ่งชี้ว่าคุณต้องเพิ่มอัตราการทำให้เป็นมาตรฐาน

การฝึกอบรม

#fundamentals

ขั้นตอนการกำหนดพารามิเตอร์ (น้ำหนักและอคติ) ในอุดมคติซึ่งประกอบด้วยโมเดล ระหว่างการฝึก ระบบจะอ่านตัวอย่างและค่อยๆ ปรับพารามิเตอร์ การฝึกจะใช้แต่ละตัวอย่างในทุกที่ ตั้งแต่ 2-3 ครั้งไปจนถึงหลายพันล้านครั้ง

การสูญเสียการฝึก

#fundamentals

เมตริกที่แสดงถึงการสูญหายของโมเดลระหว่างการทำซ้ำการฝึกหนึ่งๆ เช่น สมมติว่าฟังก์ชันการสูญเสียคือค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง บางทีการสูญเสียการฝึก (ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง) สำหรับการทำซ้ำครั้งที่ 10 อาจเป็น 2.2 และการสูญเสียการฝึกสำหรับการทำซ้ำครั้งที่ 100 คือ 1.9

เส้นโค้งการสูญเสียแสดงการสูญเสียการฝึกเทียบกับจำนวนการทำซ้ำ เส้นโค้งการสูญเสียจะให้ข้อมูลเกี่ยวกับการฝึกต่อไปนี้

  • ความลาดชันลดลงบ่งบอกว่าโมเดลกำลังพัฒนา
  • ความชันเพิ่มขึ้นบ่งบอกว่าโมเดลกำลังแย่ลง
  • ความชันแบบแบนราบหมายความว่าโมเดลไปถึงการสนทนาแล้ว

ตัวอย่างเช่น เส้นโค้งการสูญเสียตามอุดมคติต่อไปนี้แสดงให้เห็นว่า

  • ความชันลงที่สูงชันระหว่างการทำซ้ำช่วงแรก ซึ่งแสดงถึงการปรับปรุงโมเดลอย่างรวดเร็ว
  • ความลาดชันที่ค่อยๆ แบนลง (แต่ยังคงต่ำลง) จนถึงช่วงท้ายของการฝึก ซึ่งบ่งบอกว่ามีการปรับปรุงโมเดลอย่างต่อเนื่องโดยมีความเร็วค่อนข้างต่ำขณะนั้นระหว่างการทำซ้ำช่วงแรก
  • ทางลาดแบบราบเรียบในช่วงท้ายของการฝึก ซึ่งแสดงถึงการลู่เข้า

พล็อตเรื่องการสูญเสียการฝึกเทียบกับการทำซ้ำ โดยเส้นโค้งการสูญเสียนี้จะเริ่มต้นด้วยความชันลงที่ลาดลง ความลาดชันจะค่อยๆ คงที่จนกว่าความชันจะกลายเป็น 0

แม้ว่าการสูญเสียการฝึกจะมีความสำคัญ โปรดดูการทำให้เป็นแบบทั่วไปด้วย

ความคลาดเคลื่อนระหว่างการฝึกและการให้บริการ

#fundamentals

ความแตกต่างระหว่างประสิทธิภาพของโมเดลในระหว่างการฝึกกับประสิทธิภาพของโมเดลเดียวกันในระหว่างการแสดงผล

ชุดการฝึก

#fundamentals

ชุดย่อยของชุดข้อมูลที่ใช้ในการฝึกโมเดล

เดิมที ตัวอย่างในชุดข้อมูลจะแบ่งออกเป็น 3 ชุดย่อยที่แตกต่างกันดังต่อไปนี้

ตามหลักการแล้ว แต่ละตัวอย่างในชุดข้อมูลควรเป็นของชุดย่อยที่อยู่ก่อนหน้าเพียงชุดเดียวเท่านั้น ตัวอย่างเช่น ตัวอย่าง 1 รายการไม่ควรอยู่ในทั้งชุดการฝึกและชุดการตรวจสอบ

ลบจริง (TN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบได้อย่างถูกต้อง เช่น โมเดลจะอนุมานได้ว่าข้อความอีเมลหนึ่งๆไม่ใช่สแปม และข้อความอีเมลนั้นไม่ใช่สแปมจริงๆ

ผลบวกจริง (TP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงบวกได้อย่างถูกต้อง ตัวอย่างเช่น โมเดลนี้จะอนุมานได้ว่าข้อความอีเมลหนึ่งๆ เป็นสแปม และข้อความอีเมลนั้นเป็นสแปมจริงๆ

อัตราผลบวกจริง (TPR)

#fundamentals

คำพ้องความหมายของ recall โดยการ

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

อัตราผลบวกจริงคือแกน y ในเส้นโค้ง ROC

U

ชุดชั้นใน

#fundamentals

สร้างmodelที่มีความสามารถในการคาดการณ์ต่ำเนื่องจากโมเดลไม่ได้บันทึกความซับซ้อนของข้อมูลการฝึกอย่างสมบูรณ์ หลายๆ ปัญหา อาจทำให้ไม่ได้ปรับให้เหมาะสม เช่น

ตัวอย่างที่ไม่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์ แต่ไม่มีป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่างที่ไม่มีป้ายกำกับ 3 ตัวอย่างจากรูปแบบการประเมินราคาบ้าน โดยแต่ละแบบมีฟีเจอร์ 3 รายการแต่ไม่มีมูลค่าบ้าน

จำนวนห้องนอน จำนวนห้องน้ำ อายุบ้าน
3 2 15
2 1 72
4 2 34

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกตามตัวอย่างที่มีป้ายกำกับและทำการคาดการณ์ในตัวอย่างที่ไม่มีป้ายกำกับ

ในการเรียนรู้แบบมีการควบคุมดูแลบางส่วนและไม่มีการควบคุมดูแล จะมีการใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการฝึก

เปรียบเทียบตัวอย่างที่ไม่มีป้ายกำกับกับตัวอย่างที่ติดป้ายกำกับ

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

#clustering
#fundamentals

การฝึกmodelเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งมักจะเป็นชุดข้อมูลที่ไม่มีป้ายกำกับ

การใช้แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลที่พบบ่อยที่สุดคือการจัดกลุ่มข้อมูลเป็นกลุ่มตัวอย่างที่คล้ายกัน เช่น อัลกอริทึมแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลสามารถจัดกลุ่มเพลงตามคุณสมบัติต่างๆ ของเพลงได้ คลัสเตอร์ที่ได้อาจกลายเป็นอินพุตของอัลกอริทึมแมชชีนเลิร์นนิงอื่นๆ (เช่น กับบริการแนะนำเพลง) การจัดกลุ่มสามารถช่วยได้เมื่อไม่มีป้ายกำกับที่เป็นประโยชน์หรือป้ายกำกับที่มีประโยชน์ ตัวอย่างเช่น ในโดเมนต่างๆ อย่างการป้องกันการละเมิดและการประพฤติมิชอบ คลัสเตอร์จะช่วยให้มนุษย์เข้าใจข้อมูลได้ดีขึ้น

ตรงข้ามกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล

V

การตรวจสอบความถูกต้อง

#fundamentals

การประเมินคุณภาพของโมเดลเบื้องต้น การตรวจสอบความถูกต้องจะตรวจสอบคุณภาพการคาดการณ์ของโมเดลโดยเทียบกับชุดการตรวจสอบ

เนื่องจากชุดการตรวจสอบแตกต่างจากชุดการฝึก การตรวจสอบจึงช่วยป้องกันการใส่เกิน

คุณอาจลองประเมินโมเดลกับชุดการตรวจสอบว่าเป็นการทดสอบรอบแรก และประเมินโมเดลกับชุดทดสอบซึ่งเป็นการทดสอบรอบที่ 2

การสูญเสียการตรวจสอบ

#fundamentals

เมตริกที่แสดงถึงการสูญหายของโมเดลในชุดการตรวจสอบในระหว่างการทำซ้ำการฝึกที่เฉพาะเจาะจง

ดูเส้นโค้งการปรับทั่วไปด้วย

ชุดการตรวจสอบ

#fundamentals

ชุดย่อยของชุดข้อมูลที่ทำการประเมินเบื้องต้นกับโมเดลที่ผ่านการฝึกแล้ว โดยปกติแล้ว คุณจะประเมินโมเดลที่ฝึกแล้วเทียบกับชุดการตรวจสอบหลายครั้งก่อนที่จะประเมินโมเดลกับชุดทดสอบ

เดิมที คุณจะแบ่งตัวอย่างในชุดข้อมูลออกเป็น 3 ชุดย่อยที่แตกต่างกันดังต่อไปนี้

ตามหลักการแล้ว แต่ละตัวอย่างในชุดข้อมูลควรเป็นของชุดย่อยที่อยู่ก่อนหน้าเพียงชุดเดียวเท่านั้น ตัวอย่างเช่น ตัวอย่าง 1 รายการไม่ควรอยู่ในทั้งชุดการฝึกและชุดการตรวจสอบ

W

น้ำหนัก

#fundamentals

ค่าที่โมเดลคูณด้วยค่าอื่น การฝึกเป็นกระบวนการในการกำหนดน้ำหนักที่เหมาะสมของโมเดล การอนุมานเป็นกระบวนการของการใช้น้ำหนักที่เรียนรู้เหล่านั้นมาในการคาดการณ์

ผลรวมถ่วงน้ำหนัก

#fundamentals

ผลรวมของค่าอินพุตที่เกี่ยวข้องทั้งหมดคูณด้วยน้ำหนักที่สอดคล้องกัน ตัวอย่างเช่น สมมติว่าอินพุตที่เกี่ยวข้องประกอบด้วยข้อมูลต่อไปนี้

ค่าอินพุต น้ำหนักอินพุต
2 -1.3
-1 0.6
3 0.4

ดังนั้น ผลรวมถ่วงน้ำหนักจะเป็นดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

ผลรวมถ่วงน้ำหนักคืออาร์กิวเมนต์อินพุตของฟังก์ชันการเปิดใช้งาน

Z

การแปลงค่ามาตรฐานเป็น Z

#fundamentals

เทคนิคการปรับขนาดที่แทนที่ค่า feature ดิบด้วยค่าจุดลอยตัวที่แสดงจำนวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของจุดสนใจนั้น ตัวอย่างเช่น ลององค์ประกอบที่มีค่าเฉลี่ยคือ 800 และมีค่าเบี่ยงเบนมาตรฐานเป็น 100 ตารางต่อไปนี้แสดงวิธีที่การปรับคะแนน Z ให้เป็นมาตรฐาน จะจับคู่ค่าดิบกับคะแนน Z

ค่าดิบ คะแนนมาตรฐาน
800 0
950 มากกว่า 1.5
575 -2.25

จากนั้นโมเดลแมชชีนเลิร์นนิงจะฝึกตามคะแนน Z สำหรับฟีเจอร์นั้นแทนที่จะใช้ค่าดิบ