อภิธานศัพท์ของแมชชีนเลิร์นนิง: พื้นฐาน ML

หน้านี้มีคำศัพท์ในอภิธานศัพท์พื้นฐาน ML สำหรับคำศัพท์ในอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

ความแม่นยำ

#fundamentals

จำนวนการคาดคะเนการจัดประเภทที่ถูกต้องหารด้วย ด้วยจำนวนการคาดการณ์ทั้งหมด โดยการ

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

ตัวอย่างเช่น โมเดลที่ทำการคาดการณ์ถูกต้อง 40 รายการและไม่ถูกต้อง 10 รายการ การคาดการณ์จะมีความถูกต้องดังนี้

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

การจัดประเภทแบบไบนารีระบุชื่อที่เจาะจง สำหรับการคาดคะเนที่ถูกต้องในหมวดหมู่ต่างๆ และ การคาดคะเนที่ไม่ถูกต้อง ดังนั้น สูตรความแม่นยำในการจัดประเภทเลขฐานสอง ดังนี้

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

โดยมี

  • TP คือจำนวนผลบวกจริง (การคาดคะเนที่ถูกต้อง)
  • TN คือจำนวนผลลบจริง (การคาดคะเนที่ถูกต้อง)
  • FP คือจำนวนผลบวกลวง (การคาดการณ์ที่ไม่ถูกต้อง)
  • FN คือจำนวนผลลบลวง (การคาดคะเนที่ไม่ถูกต้อง)

เปรียบเทียบความแม่นยำกับ ความแม่นยำและ การเรียกคืน

ฟังก์ชันการเปิดใช้งาน

#fundamentals

ฟังก์ชันที่ช่วยให้โครงข่ายประสาทเรียนรู้ได้ ความสัมพันธ์แบบnonlinear (ซับซ้อน) ระหว่างฟีเจอร์ต่างๆ และป้ายกำกับ

ฟังก์ชันการเปิดใช้งานยอดนิยม ได้แก่

พล็อตฟังก์ชันเปิดใช้งานจะไม่ใช่เส้นตรงเดี่ยวๆ ตัวอย่างเช่น พล็อตของฟังก์ชันการเปิดใช้งาน ReLU ประกอบด้วย เส้นตรง 2 เส้น:

พล็อตตัวการ์ตูนที่มี 2 บรรทัด บรรทัดแรกมีค่าคงที่
          ค่า y เป็น 0 วิ่งตามแกน x จาก -infinity, 0 ถึง 0,-0
          บรรทัดที่ 2 จะเริ่มที่ 0,0 เส้นนี้มีความชันของ +1 ดังนั้น
          ก็จะมีตั้งแต่ 0,0 ถึง +infinity,+infinity

พล็อตฟังก์ชันการเปิดใช้งาน Sigmoid มีลักษณะดังนี้

แผนภูมิโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมน
          -ไม่สิ้นสุด ถึง +บวก ในขณะที่ค่า y ครอบคลุมช่วงเกือบ 0 ถึง
          เกือบ 1. เมื่อ x เท่ากับ 0 แล้ว y จะเท่ากับ 0.5 ความชันของเส้นโค้งเสมอ
          เป็นบวก โดยมีความชันสูงสุดที่ 0,0.5 และค่อยๆ ลดลง
          มีความชันเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ปัญญาประดิษฐ์ (AI)

#fundamentals

โปรแกรมหรือโมเดลที่ไม่ได้เกิดจากมนุษย์ซึ่งแก้ไขงานที่ซับซ้อนได้ ตัวอย่างเช่น โปรแกรมหรือโมเดลที่แปลข้อความ หรือโปรแกรมหรือโมเดลที่ ระบุโรคจากภาพรังสีวิทยาแสดงให้เห็นปัญญาประดิษฐ์ (AI)

อย่างเป็นทางการนั้น แมชชีนเลิร์นนิงเป็นสาขาย่อยของการประดิษฐ์ ความฉลาด อย่างไรก็ตาม ในช่วงไม่กี่ปีที่ผ่านมา องค์กรบางแห่งได้เริ่มใช้ ปัญญาประดิษฐ์ (AI) และแมชชีนเลิร์นนิงแทนกันได้

AUC (พื้นที่ใต้กราฟ ROC)

#fundamentals

ตัวเลขระหว่าง 0.0 ถึง 1.0 แสดงถึง ของโมเดลการจัดประเภทแบบไบนารี ความสามารถในการแยกชั้นเรียนเชิงบวกออกจาก คลาสเชิงลบ ยิ่ง AUC ใกล้เคียงกับ 1.0 มากเท่าใด AUC ก็จะยิ่งสามารถแยกโมเดลได้ดียิ่งขึ้น ชั้นเรียนอื่นๆ ได้

เช่น ภาพประกอบต่อไปนี้แสดงโมเดลตัวแยกประเภท ที่แยกคลาสบวก (วงรีสีเขียว) ออกจากคลาสลบ (สี่เหลี่ยมผืนผ้าสีม่วง) ได้อย่างลงตัว โมเดลที่สมบูรณ์แบบอย่างไม่สมจริงนี้มี AUC ของ 1.0:

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 8 ด้านที่ด้านหนึ่งและ
          ตัวอย่างเชิงลบ 9 ตัวอย่างในอีกด้านหนึ่ง

ในทางกลับกัน ภาพประกอบต่อไปนี้แสดงผลการค้นหาสําหรับตัวแยกประเภท ที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มี AUC เท่ากับ 0.5:

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลำดับของตัวอย่างคือค่าบวก ค่าลบ
          แง่บวก, แง่ลบ, แง่บวก, แง่บวก, แง่ลบ, เชิงบวก
          เชิงลบ เชิงบวก เชิงลบ

ใช่ โมเดลก่อนหน้ามี AUC เท่ากับ 0.5 ไม่ใช่ 0.0

โมเดลส่วนใหญ่จะอยู่ระหว่างปลายทั้งสองด้าน ตัวอย่างเช่น พารามิเตอร์ รูปแบบต่อไปนี้จะแยกรายการเชิงบวกออกจากเชิงลบ ดังนั้น มี AUC อยู่ระหว่าง 0.5 ถึง 1.0:

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลำดับของตัวอย่างคือเชิงลบ ลบ ลบ ลบ
          แง่บวก, แง่บวก, แง่บวก, แง่บวก, แง่บวก, แง่บวก
          เชิงบวก

AUC จะไม่ประมวลผลค่าที่คุณกำหนดสำหรับ เกณฑ์การแยกประเภท โดย AUC แทน จะพิจารณาเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมด

B

Backpropagation

#fundamentals

อัลกอริทึมที่ใช้ การไล่ระดับสีใน โครงข่ายระบบประสาทเทียม

การฝึกโครงข่ายระบบประสาทเทียมต้องอาศัยการทำซ้ำหลายอย่าง ของวงจร 2 ช่องทางต่อไปนี้

  1. ในระหว่างการส่งต่อ ระบบจะประมวลผลกลุ่ม ตัวอย่าง เพื่อเพิ่มผลตอบแทนจากการคาดการณ์ ระบบจะเปรียบเทียบ ให้กับค่า label แต่ละค่า ความแตกต่างระหว่าง การคาดการณ์และค่าป้ายกำกับคือ loss สำหรับตัวอย่างนั้น ระบบจะรวบรวมการสูญเสียสำหรับตัวอย่างทั้งหมดเพื่อคำนวณผลรวม สำหรับแบตช์ปัจจุบัน
  2. ในระหว่างบัตรผ่านย้อนหลัง (backpropagation) ระบบจะลดการขาดทุนลง เพื่อปรับน้ำหนักของเซลล์ประสาททั้งหมดใน เลเยอร์ที่ซ่อนอยู่

โครงข่ายประสาทมักประกอบด้วยเซลล์ประสาทจำนวนมากในชั้นที่ซ่อนอยู่หลายชั้น เซลล์ประสาทแต่ละเซลล์ก่อให้เกิดการสูญเสียโดยรวมในรูปแบบที่แตกต่างกันไป Backpropagation จะกำหนดว่าจะเพิ่มหรือลดน้ำหนัก ที่ใช้กับเซลล์ประสาทเฉพาะหนึ่งๆ

อัตราการเรียนรู้คือตัวคูณที่ควบคุม องศาที่การข้ามย้อนกลับแต่ละรายการจะเพิ่มหรือลดน้ำหนักของแต่ละรายการ อัตราการเรียนรู้ที่สูงจะเพิ่มหรือลดน้ำหนักแต่ละรายการมากกว่า และมีอัตราการเรียนรู้ในน้อย

ในแคลคูลัส การใช้ Backpropagation จะประมวลผล กฎลูกโซ่ จากแคลคูลัส นั่นก็คือ Backpropagation จะคำนวณ อนุพันธ์บางส่วนของข้อผิดพลาดกับ พารามิเตอร์แต่ละรายการ

หลายปีที่ผ่านมา ผู้ปฏิบัติงานด้าน ML ต้องเขียนโค้ดเพื่อใช้ Backpropagation ตอนนี้ ML API ที่ทันสมัยอย่าง TensorFlow ติดตั้งใช้งาน Backpropagation ให้คุณแล้ว ในที่สุด

กลุ่ม

#fundamentals

ชุดตัวอย่างที่ใช้ในการฝึก 1 รายการ การปรับปรุงซ้ำ ขนาดกลุ่มจะกำหนดจำนวนตัวอย่างใน กลุ่ม

ดู epoch สำหรับคำอธิบายว่ากลุ่มเกี่ยวข้องกับ Epoch

ขนาดกลุ่ม

#fundamentals

จำนวนตัวอย่างในกลุ่ม ตัวอย่างเช่น หากขนาดกลุ่มคือ 100 โมเดลจะประมวลผล 100 ตัวอย่างต่อการปรับปรุง 1 ครั้ง

กลยุทธ์เกี่ยวกับขนาดกลุ่มยอดนิยมมีดังนี้

  • Stochastic Gradient Descent (SGD) ซึ่งขนาดกลุ่มคือ 1
  • ทั้งกลุ่ม ซึ่งขนาดกลุ่มคือจำนวนตัวอย่างทั้งหมด ชุดการฝึก ตัวอย่างเช่น หากชุดการฝึก มีตัวอย่าง 1 ล้านตัวอย่าง ขนาดกลุ่มจะเท่ากับ 1 ล้าน ตัวอย่าง การใช้ทั้งกลุ่มมักเป็นกลยุทธ์ที่ไร้ประสิทธิภาพ
  • มินิแบตช์ที่ขนาดกลุ่มมักจะอยู่ระหว่าง 10 และ 1000 มักเป็นกลยุทธ์ที่มีประสิทธิภาพมากที่สุด

อคติ (จริยธรรม/ความยุติธรรม)

#fairness
#fundamentals

1. การใช้คำสเตอริโอ อคติ หรือความชอบต่อบางสิ่งบางอย่าง ผู้คน หรือกลุ่มอื่นมากกว่าผู้อื่น การให้น้ำหนักพิเศษเหล่านี้อาจส่งผลต่อการเก็บรวบรวมและ การตีความข้อมูล การออกแบบระบบ และการโต้ตอบของผู้ใช้ ด้วยระบบ รูปแบบของอคติประเภทนี้มีดังนี้

2. ข้อผิดพลาดที่เป็นระบบซึ่งเกิดขึ้นจากการสุ่มตัวอย่างหรือขั้นตอนการรายงาน รูปแบบของอคติประเภทนี้มีดังนี้

อย่าสับสนกับคำที่ให้น้ำหนักพิเศษในโมเดลแมชชีนเลิร์นนิง หรืออคติจากการคาดคะเน

คำที่ให้น้ำหนักพิเศษ (ทางคณิตศาสตร์) หรือการให้น้ำหนักพิเศษ

#fundamentals

จุดตัดหรือออฟเซ็ตจากต้นทาง การให้น้ำหนักพิเศษคือพารามิเตอร์ใน โมเดลแมชชีนเลิร์นนิง ซึ่งมีสัญลักษณ์เป็น ดังต่อไปนี้:

  • 0

ตัวอย่างเช่น ความลำเอียงคือ b ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในบรรทัด 2 มิติอย่างง่าย การให้น้ำหนักพิเศษหมายถึง "จุดตัดแกน y" เท่านั้น ตัวอย่างเช่น ความเอนเอียงของเส้นในภาพประกอบต่อไปนี้คือ 2

พล็อตเส้นที่มีความลาดชัน 0.5 และมีความเอนเอียง (จุดตัด y) เป็น 2

มีการให้น้ำหนักพิเศษเนื่องจากมีบางโมเดลที่เริ่มต้นจากต้นทาง (0,0) ตัวอย่างเช่น สมมติว่าสวนสนุกแห่งหนึ่งมีค่าใช้จ่าย 2 ยูโรสำหรับเข้าชมและอีก 0.5 ยูโรต่อทุกชั่วโมงที่ลูกค้าเข้าพัก ดังนั้น โมเดลที่แมปฟิลด์ ต้นทุนรวมมีความลำเอียงเป็น 2 เนื่องจากต้นทุนต่ำสุดคือ 2 ยูโร

อย่าสับสนระหว่างการให้อคติกับการให้อคติในจริยธรรมและความยุติธรรม หรืออคติจากการคาดคะเน

การจัดประเภทแบบไบนารี

#fundamentals

งานประเภทการแยกประเภทที่ คาดการณ์ว่าคลาสใดคลาสหนึ่งจาก 2 คลาสที่แยกจากกันได้:

ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิง 2 โมเดลต่อไปนี้มีประสิทธิภาพ การจัดประเภทแบบไบนารี:

  • โมเดลที่กำหนดว่าข้อความอีเมล spam (คลาสเชิงบวก) หรือ ไม่ใช่จดหมายขยะ (คลาสเชิงลบ)
  • โมเดลที่ประเมินอาการทางการแพทย์เพื่อตัดสินว่าผู้ป่วย มีโรคบางอย่าง (คลาสเชิงบวก) หรือไม่มีโรคนั้น โรค (ระดับเชิงลบ)

แตกต่างจากการแยกประเภทแบบหลายคลาส

โปรดดูการถดถอยแบบโลจิสติกและ เกณฑ์การแยกประเภท

การฝากข้อมูล

#fundamentals

การแปลงฟีเจอร์เดียวเป็นฟีเจอร์ไบนารีหลายรายการ ที่เรียกว่าที่เก็บข้อมูลหรือถัง ซึ่งมักอิงตามช่วงค่า คุณลักษณะที่ถูกตัด โดยทั่วไปจะเป็น ฟีเจอร์ต่อเนื่อง

เช่น แทนที่จะแสดงอุณหภูมิเป็น 1 คุณลักษณะจุดลอยตัวอย่างต่อเนื่อง คุณตัดช่วงของอุณหภูมิได้ ลงในที่เก็บข้อมูลแยกกัน เช่น

  • <= 10 องศาเซลเซียส แปลว่า "หนาว"
  • อุณหภูมิของ 11-24 องศาเซลเซียสคือ "อากาศอบอุ่น"
  • >= 25 องศาเซลเซียสหมายถึง "อุ่น"

โมเดลจะดำเนินการกับทุกค่าในที่เก็บข้อมูลเดียวกันในลักษณะเดียวกัน สำหรับ ตัวอย่างเช่น ทั้งค่า 13 และ 22 อยู่ในที่เก็บข้อมูลแบบปานกลาง ดังนั้นค่า จะถือว่าทั้งสองค่าเหมือนกัน

C

ข้อมูลเชิงหมวดหมู่

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ที่เฉพาะเจาะจง ตัวอย่างเช่น พิจารณาฟีเจอร์เชิงหมวดหมู่ชื่อ traffic-light-state ซึ่งทำได้เพียง มีค่าที่เป็นไปได้ 1 ใน 3 ค่าต่อไปนี้

  • red
  • yellow
  • green

การแสดง traffic-light-state เป็นฟีเจอร์เชิงหมวดหมู่ โมเดลจะเรียนรู้ ผลกระทบของred, green และyellowที่แตกต่างกันต่อพฤติกรรมของผู้ขับ

บางครั้งเราเรียกฟีเจอร์เชิงหมวดหมู่ ฟีเจอร์แยกกัน

ตัดกับข้อมูลตัวเลข

คลาส

#fundamentals

หมวดหมู่ที่มีป้ายกำกับได้ เช่น

โมเดลการจัดประเภทจะคาดการณ์คลาส ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์จำนวน แทนที่จะเป็นชั้นเรียน

โมเดลการจัดประเภท

#fundamentals

โมเดลที่การคาดการณ์เป็น class ตัวอย่างรูปแบบการจัดประเภททั้งหมดมีดังนี้

  • โมเดลที่คาดการณ์ภาษาของประโยคอินพุต (ภาษาฝรั่งเศส ภาษาสเปนนะ อิตาลี)
  • โมเดลที่คาดการณ์ชนิดของต้นไม้ (Maple? โอ๊ก? เบาบับไหม)
  • โมเดลที่คาดการณ์คลาสบวกหรือลบสำหรับ ภาวะทางการแพทย์

ในทางตรงกันข้าม โมเดลการถดถอยคาดการณ์จำนวน แทนที่จะเป็นชั้นเรียน

รูปแบบการจัดหมวดหมู่ที่ใช้กันทั่วไปมี 2 ประเภท ได้แก่

เกณฑ์การจัดประเภท

#fundamentals

ในการจัดประเภทแบบไบนารี ตัวเลขระหว่าง 0 ถึง 1 ซึ่งจะแปลงเอาต์พุตดิบของ โมเดลการถดถอยแบบโลจิสติก เพื่อคาดการณ์ คลาสเชิงบวก หรือคลาสเชิงลบ โปรดทราบว่าเกณฑ์การจัดประเภทเป็นค่าที่มนุษย์เลือก ไม่ใช่ค่าที่เลือกโดยการฝึกโมเดล

โมเดลการถดถอยแบบโลจิสติกจะแสดงค่าดิบระหว่าง 0 ถึง 1 จากนั้นให้ทำดังนี้

  • หากค่าดิบนี้มากกว่าเกณฑ์การจัดประเภท ให้ทำดังนี้ ระบบจะคาดการณ์คลาสเชิงบวก
  • หากค่าดิบนี้น้อยกว่าเกณฑ์การจัดประเภทแล้ว ส่วนชั้นลบก็คาดการณ์ไว้

ตัวอย่างเช่น สมมติว่าเกณฑ์การจัดประเภทคือ 0.8 หากค่าดิบ มีค่าเป็น 0.9 โมเดลจะคาดการณ์คลาสบวก ถ้าค่าดิบคือ 0.7 โมเดลจะคาดการณ์คลาสลบ

ตัวเลือกเกณฑ์การจัดประเภทจะมีผลต่อจำนวน การตรวจสอบที่ผิดพลาด และ ผลลบลวง

ชุดข้อมูลที่ไม่สมดุล

#fundamentals

ชุดข้อมูลสำหรับปัญหาการจัดประเภทที่มีจำนวนรวมของ ของ label ของแต่ละคลาสแตกต่างกันอย่างมาก เช่น ลองพิจารณาชุดข้อมูลการจัดประเภทแบบไบนารีที่มีป้ายกำกับ 2 รายการ แบ่งออกได้ดังนี้

  • ป้ายกำกับเชิงลบ 1,000,000 ป้าย
  • ป้ายกำกับเชิงบวก 10 รายการ

อัตราส่วนของค่าลบต่อป้ายกำกับเชิงบวกคือ 100,000 ต่อ 1 ดังนั้น เป็นชุดข้อมูลที่ไม่สมดุลกัน

ในทางตรงกันข้าม ชุดข้อมูลต่อไปนี้ไม่ใช่ความสมดุลของคลาสเนื่องจาก อัตราส่วนของป้ายกำกับเชิงลบต่อป้ายกำกับเชิงบวกค่อนข้างใกล้เคียงกับ 1:

  • 517 ป้ายกำกับเชิงลบ
  • 483 ป้ายกำกับเชิงบวก

ชุดข้อมูลแบบหลายคลาสอาจมีความไม่สมดุลของคลาส ตัวอย่างเช่น URL ต่อไปนี้ ชุดข้อมูลการแยกประเภทแบบหลายคลาสจะไม่สมดุลเนื่องจากป้ายกำกับ 1 รายการ มีตัวอย่างมากกว่า 2 แบบ

  • ป้ายกำกับ 1,000,000 ป้ายที่มีคลาสเป็น "สีเขียว"
  • 200 ป้ายกำกับที่มีคลาสเป็น "สีม่วง"
  • ป้ายกำกับ 350 รายการที่มีคลาส "สีส้ม"

โปรดดูเอนโทรปี คลาสส่วนใหญ่ และชนกลุ่มน้อย

การตัดคลิป

#fundamentals

เทคนิคในการจัดการค่าที่ผิดปกติโดยการดำเนินการ ข้อใดข้อหนึ่งหรือทั้ง 2 ข้อต่อไปนี้

  • การลดค่า feature ที่มากกว่าค่าสูงสุด ลงไปเป็นเกณฑ์สูงสุดได้
  • การเพิ่มค่าฟีเจอร์ที่น้อยกว่าเกณฑ์ขั้นต่ำจนถึงระดับนั้น เกณฑ์ขั้นต่ำ

ตัวอย่างเช่น สมมติว่ามีค่า <0.5% สำหรับสถานที่ใดสถานที่หนึ่ง อยู่นอกช่วง 40–60 ในกรณีนี้ คุณสามารถดำเนินการดังต่อไปนี้

  • ตัดค่าทั้งหมดที่เกิน 60 (เกณฑ์สูงสุด) ให้เท่ากับ 60
  • ตัดค่าทั้งหมดที่ต่ำกว่า 40 (เกณฑ์ขั้นต่ำ) ให้เท่ากับ 40

ค่าผิดปกติอาจทำให้โมเดลเสียหาย ซึ่งบางครั้งก็ทำให้เกิดน้ำหนัก เพิ่มขึ้นอีกในระหว่างการฝึก ค่าผิดปกติบางอย่างอาจทำให้มีผลเสียอย่างมาก อย่างความแม่นยำ การตัดคลิปเป็นเทคนิคที่ใช้กันทั่วไปในการจํากัด ความเสียหาย

แรงการไล่ระดับสี ค่าการไล่ระดับสีภายในช่วงที่กำหนดระหว่างการฝึก

เมทริกซ์ความสับสน

#fundamentals

ตาราง NxN ที่สรุปจำนวนการคาดการณ์ที่ถูกต้องและไม่ถูกต้อง ที่โมเดลการแยกประเภทสร้างขึ้น ตัวอย่างเช่น ลองพิจารณาเมทริกซ์ความสับสนต่อไปนี้สำหรับ โมเดลการจัดประเภทแบบไบนารี:

เนื้องอก (คาดการณ์ไว้) ไม่ใช่เนื้องอก (คาดการณ์ไว้)
เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 18 (TP) 1 (FN)
ไม่ใช่เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 6 (FP) 452 (เทนเนสซี)

เมทริกซ์ความสับสนก่อนหน้าจะแสดงข้อมูลต่อไปนี้

  • จากการคาดการณ์ 19 รายการที่มีข้อมูลที่เป็นความจริงว่าเป็นเนื้องอก โมเดลมีการจัดประเภท 18 อย่างถูกต้องและจัดประเภท 1 ไม่ถูกต้อง
  • จากการคาดการณ์ 458 รายการว่าข้อมูลที่ได้จากการสังเกตการณ์นั้นไม่ใช่เนื้องอก ซึ่งเป็นโมเดลจำลอง จัดประเภท 452 อย่างถูกต้อง และจัดประเภทไม่ถูกต้อง 6

เมทริกซ์ความสับสนสำหรับการจัดประเภทแบบหลายคลาส สามารถช่วยให้คุณระบุรูปแบบของข้อผิดพลาดได้ ตัวอย่างเช่น ลองพิจารณาเมทริกซ์ความสับสนต่อไปนี้สําหรับ 3 คลาส โมเดลการจัดประเภทแบบหลายคลาสที่จัดหมวดหมู่ไอริสที่แตกต่างกัน 3 ประเภท (Virginica, Versicolor และ Setosa) เมื่อข้อมูลจากการสังเกตการณ์โดยตรงคือเวอร์จินิกา เมทริกซ์ความสับสนแสดงให้เห็นว่าโมเดลนั้นมีแนวโน้มที่จะเกิดความเข้าใจผิดมากกว่า คาดการณ์ Versicolor ก่อน Setosa

  Setosa (ที่คาดการณ์ไว้) เวอร์ชันสี (ที่คาดการณ์ไว้) เวอร์จินิกา (ที่คาดการณ์)
Setosa (ข้อมูลจากภาคพื้นดิน) 88 12 0
Versicolor (ข้อมูลที่เป็นความจริง) 6 141 7
เวอร์จิเนีย (ข้อมูลจากการสังเกตการณ์โดยตรง) 2 27 109

อีกตัวอย่างหนึ่งคือ เมทริกซ์ความสับสนอาจแสดงให้เห็นว่าโมเดลได้รับการฝึก เพื่อจดจำตัวเลขที่เขียนด้วยลายมือ มักจะหมายถึงตัวเลข 9 แทนที่จะเป็น 4 โดยไม่ได้ตั้งใจ หรือคาดการณ์ 1 แทนที่จะเป็น 7 โดยไม่ได้ตั้งใจ

เมทริกซ์ความสับสนมีข้อมูลเพียงพอที่จะคำนวณ เมตริกประสิทธิภาพที่หลากหลาย เช่น ความแม่นยํา และการเรียกคืน

ฟีเจอร์ต่อเนื่อง

#fundamentals

ฟีเจอร์ที่มีจุดลอยตัวซึ่งมีช่วงที่เป็นไปได้ไม่จำกัด ค่าต่างๆ เช่น อุณหภูมิหรือน้ำหนัก

ตัดกับฟีเจอร์ที่ไม่ต่อเนื่อง

ลู่เข้า

#fundamentals

สถานะถึงตอนที่ค่า loss เปลี่ยนแปลงน้อยมากหรือ ไม่ได้เลยในการทำซ้ำแต่ละครั้ง ตัวอย่างเช่น URL ต่อไปนี้ loss Curvey แนะนำการบรรจบกันที่ประมาณ 700 รอบ

พล็อตคาร์ทีเซียน แกน X หายไป แกน Y คือจำนวนการฝึก
          ซ้ำหลายครั้ง การสูญเสียจะสูงมากในช่วงปรับปรุงครั้งแรก แต่
          ลดลงอย่างรวดเร็ว หลังจากทำซ้ำประมาณ 100 ครั้ง การสูญเสียยังคง
          จากมากไปน้อย แต่ค่อยๆ เพิ่มขึ้น หลังจากทำซ้ำๆ ประมาณ 700 ครั้ง
          ก็จะไม่หายไป

การโอนโมเดลเมื่อการฝึกเพิ่มเติมไม่ ปรับปรุงโมเดล

ในการเรียนรู้เชิงลึก บางครั้งค่าการสูญเสียจะคงที่หรือ เกือบจะดีเลยสำหรับการทำซ้ำหลายครั้งก่อนที่จะมากไปน้อย ในช่วงระยะเวลาที่ยาวนาน ของค่าการสูญเสียคงที่ คุณอาจเข้าใจการบรรจบกันที่ผิดชั่วคราว

โปรดดูการหยุดก่อนกำหนดเพิ่มเติม

D

DataFrame

#fundamentals

ประเภทข้อมูลของ pandas ที่ได้รับความนิยมสำหรับการแสดง ชุดข้อมูลในหน่วยความจำ

DataFrame คล้ายกับตารางหรือสเปรดชีต แต่ละคอลัมน์ของ DataFrame มีชื่อ (ส่วนหัว) และแต่ละแถวจะระบุด้วย หมายเลขที่ไม่ซ้ำ

แต่ละคอลัมน์ใน DataFrame มีโครงสร้างเหมือนกับอาร์เรย์ 2 มิติ ยกเว้นว่า แต่ละคอลัมน์จะกำหนดประเภทข้อมูลของตัวเองได้

ดูอย่างเป็นทางการ การอ้างอิง pandas.DataFrame

ชุดข้อมูลหรือชุดข้อมูล

#fundamentals

คอลเล็กชันข้อมูลดิบ ซึ่งโดยทั่วไป (แต่ไม่ได้เจาะจง) จะจัดอยู่ในชุดเดียว ในรูปแบบต่อไปนี้

  • สเปรดชีต
  • ไฟล์ในรูปแบบ CSV (ค่าที่คั่นด้วยคอมมา)

โมเดลเชิงลึก

#fundamentals

โครงข่ายระบบประสาทเทียมที่มี เลเยอร์ที่ซ่อนอยู่

โมเดลที่มีความลึกเรียกอีกอย่างว่าโครงข่ายประสาทแบบลึก

คอนทราสต์กับโมเดลแบบกว้าง

องค์ประกอบที่หนาแน่น

#fundamentals

ฟีเจอร์ที่ค่าส่วนใหญ่หรือค่าทั้งหมดไม่ใช่ 0 โดยทั่วไป Tensor ของค่าจุดลอยตัว ตัวอย่างเช่น URL ต่อไปนี้ Tensor ที่มี 10 องค์ประกอบเป็นแบบหนาแน่นเนื่องจากค่า 9 ค่าไม่ใช่ 0 ดังนี้

8 3 7 5 2 4 0 4 9 6

ตัดกับฟีเจอร์บางส่วน

ความลึก

#fundamentals

ผลรวมของสิ่งต่อไปนี้ในโครงข่ายระบบประสาทเทียม

เช่น โครงข่ายระบบประสาทเทียมที่มีเลเยอร์ซ่อนอยู่ 5 ชั้น และเลเยอร์เอาต์พุต 1 ชั้น มีความลึก 6 ระดับ

โปรดสังเกตว่าเลเยอร์อินพุตไม่ มีผลต่อความลึก

องค์ประกอบที่แยกกัน

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ ตัวอย่างเช่น สถานที่ซึ่งมีคุณค่าเป็นสัตว์ ผัก หรือแร่ธาตุเท่านั้น คุณลักษณะที่แยกกันโดยสิ้นเชิง (หรือเชิงหมวดหมู่)

ตัดกับฟีเจอร์ต่อเนื่อง

ไดนามิก

#fundamentals

บางสิ่งที่ทำบ่อยหรือต่อเนื่อง คำว่าไดนามิกและออนไลน์เป็นคำพ้องความหมายในแมชชีนเลิร์นนิง รายการต่อไปนี้คือการใช้งานทั่วไปของแบบไดนามิกและออนไลน์ในเครื่อง การเรียนรู้:

  • โมเดลแบบไดนามิก (หรือโมเดลออนไลน์) คือโมเดล ที่มีการฝึกบ่อยๆ หรืออย่างต่อเนื่อง
  • การฝึกอบรมแบบไดนามิก (หรือการฝึกอบรมออนไลน์) เป็นกระบวนการฝึกอบรม บ่อยครั้งหรือต่อเนื่อง
  • การอนุมานแบบไดนามิก (หรือการอนุมานออนไลน์) เป็นกระบวนการของ สร้างการคาดการณ์ตามคำขอ

โมเดลแบบไดนามิก

#fundamentals

โมเดลที่บ่อย (อาจจะอย่างต่อเนื่องก็ได้) ฝึก โมเดลแบบไดนามิกคือ "ผู้เรียนรู้ตลอดชีวิต" นั่น ปรับตัวเข้ากับข้อมูลที่มีการเปลี่ยนแปลงอยู่ตลอดเวลา โมเดลแบบไดนามิกเรียกอีกอย่างว่า รูปแบบออนไลน์

คอนทราสต์กับโมเดลแบบคงที่

E

การหยุดก่อนกำหนด

#fundamentals

วิธีการสำหรับการทำให้เป็นมาตรฐานที่เกี่ยวข้องกับการสิ้นสุด การฝึก ก่อนสิ้นสุดการฝึก ลดลง ในการหยุดก่อนกำหนด คุณต้องหยุดฝึกโมเดลโดยเจตนา เมื่อการสูญเสียในชุดข้อมูลการตรวจสอบเริ่มต้น increase; ซึ่งก็คือเมื่อ ประสิทธิภาพการทั่วไปแย่ลง

เลเยอร์ที่ฝัง

#language
#fundamentals

เลเยอร์ที่ซ่อนอยู่พิเศษซึ่งฝึกบน ฟีเจอร์หมวดหมู่ที่มีมิติข้อมูลสูงเพื่อ ค่อยๆ เรียนรู้เกี่ยวกับเวกเตอร์ที่ฝังมิติข้อมูลที่ต่ำลง CANNOT TRANSLATE เลเยอร์การฝังช่วยให้โครงข่ายประสาทสามารถฝึกได้ไกลขึ้น มีประสิทธิภาพมากกว่าการฝึกอบรมเพียงฟีเจอร์เชิงหมวดหมู่ที่มีมิติเท่านั้น

ตัวอย่างเช่น ปัจจุบัน Earth สนับสนุนชนิดต้นไม้ประมาณ 73,000 ชนิด สมมติว่า ชนิดต้นไม้เป็นคุณลักษณะในโมเดลของคุณ ดังนั้นโมเดลของคุณ เลเยอร์อินพุตจะมีเวกเตอร์หนึ่งฮอต 73,000 ยาวหลายองค์ประกอบ ตัวอย่างเช่น baobab อาจแสดงในลักษณะนี้

อาร์เรย์ที่มีองค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 รายการแรกจะมีค่า
     0. องค์ประกอบถัดไปจะมีค่า 1 องค์ประกอบ 66,767 รายการสุดท้ายมี
     ค่า 0

อาร์เรย์ 73,000 องค์ประกอบนั้นใช้เวลานานมาก หากคุณไม่ได้เพิ่มเลเยอร์ที่ฝัง กับโมเดลนี้ การฝึกจะใช้เวลานานมากเนื่องจาก คูณ 72,999 เลือกเลเยอร์การฝังเพื่อ จากมิติข้อมูล 12 รายการ เลเยอร์ที่ฝังจะค่อยๆ เรียนรู้ เวกเตอร์ที่ฝังใหม่ สำหรับชนิดของต้นไม้แต่ละชนิด

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผล ลงในเลเยอร์ที่ฝัง

Epoch

#fundamentals

ระยะเวลาการฝึกอบรมเต็มรูปแบบสำหรับชุดการฝึกทั้งหมด เพื่อให้ระบบประมวลผลตัวอย่างแต่ละรายการเพียงครั้งเดียว

Epoch แสดง N/ขนาดกลุ่ม การปรับปรุงการฝึกอบรม โดยที่ N คือ จำนวนตัวอย่างทั้งหมด

ตัวอย่างเช่น สมมติว่า:

  • ชุดข้อมูลประกอบด้วยตัวอย่าง 1,000 รายการ
  • ขนาดกลุ่มมีตัวอย่าง 50 รายการ

ดังนั้น Epoch เดียวจะต้องมีการทำซ้ำ 20 ครั้ง

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

ตัวอย่าง

#fundamentals

ค่าของฟีเจอร์ 1 แถวและอาจ ป้ายกำกับ ตัวอย่างใน การเรียนรู้แบบมีการควบคุมดูแลแบ่งออกเป็น 2 แบบ หมวดหมู่ทั่วไป

เช่น สมมติว่าคุณกำลังฝึกโมเดลเพื่อระบุอิทธิพล ของสภาพอากาศในคะแนนสอบของนักเรียน เรามีตัวอย่างที่มีป้ายกำกับ 3 แบบ ดังนี้

ฟีเจอร์ ป้ายกำกับ
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 ดี
19 34 1020 ดีมาก
18 92 1012 แย่

ต่อไปนี้เป็นตัวอย่างที่ไม่มีป้ายกำกับ 3 รายการ

อุณหภูมิ ความชื้น ความกดอากาศ  
12 62 1014  
21 47 1017  
19 41 1021  

โดยทั่วไปแล้ว แถวของชุดข้อมูลจะเป็นแหล่งที่มาดิบของตัวอย่าง กล่าวคือ ตัวอย่างที่มักจะประกอบด้วยส่วนย่อยของคอลัมน์ใน ชุดข้อมูล ยิ่งไปกว่านั้น คุณลักษณะในตัวอย่างยังประกอบด้วย ฟีเจอร์สังเคราะห์ เช่น ข้ามฟีเจอร์

F

ผลลบลวง (FN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์อย่างไม่ถูกต้อง Negative Class ตัวอย่างเช่น โมเดล คาดว่าข้อความอีเมลหนึ่งๆ ไม่ใช่สแปม (คลาสเชิงลบ) แต่ข้อความอีเมลนั้นที่จริงแล้วเป็นสแปม

ผลบวกลวง (FP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์อย่างไม่ถูกต้อง คลาสเชิงบวก ตัวอย่างเช่น โมเดลจะคาดการณ์ ว่าข้อความอีเมลรายการหนึ่งคือสแปม (คลาสเชิงบวก) แต่ ข้อความอีเมลนี้ไม่ใช่สแปม

อัตราผลบวกลวง (FPR)

#fundamentals

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลเข้าใจผิด ก็คาดการณ์ชั้นเรียนเชิงบวกได้ สูตรต่อไปนี้จะคำนวณค่า false อัตราเชิงบวก:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

อัตราผลบวกลวงคือแกน x ในกราฟ ROC

ฟีเจอร์

#fundamentals

ตัวแปรอินพุตของโมเดลแมชชีนเลิร์นนิง ตัวอย่าง ประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ ตัวอย่างเช่น สมมติว่าคุณกำลังฝึก เพื่อระบุอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตารางต่อไปนี้แสดงตัวอย่าง 3 รายการ แต่ละตัวอย่างมี คุณลักษณะสามรายการ และป้ายกำกับ 1 รายการ:

ฟีเจอร์ ป้ายกำกับ
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 92
19 34 1020 84
18 92 1012 87

คอนทราสต์กับป้ายกำกับ

ไม้กางเขนเด่น

#fundamentals

ฟีเจอร์สังเคราะห์ที่เกิดจาก "การกากบาท" ฟีเจอร์ตามหมวดหมู่หรือฟีเจอร์แบบเก็บข้อมูล

เช่น ลองพิจารณา "การพยากรณ์อารมณ์" โมเดลที่แสดงถึง อุณหภูมิในที่เก็บข้อมูล 1 ใน 4 รายการต่อไปนี้

  • freezing
  • chilly
  • temperate
  • warm

และแสดงถึงความเร็วลมในถังใดถังหนึ่งจาก 3 ถังต่อไปนี้

  • still
  • light
  • windy

โดยไม่มีเครื่องหมายกากบาทคุณลักษณะ โมเดลเชิงเส้นจะฝึกแยกกันในแต่ละองค์ประกอบ นำหน้าที่เก็บข้อมูลต่างๆ ถึง 7 แบบ ตัวอย่างเช่น โมเดลจะฝึก freezingโดยไม่ขึ้นอยู่กับการฝึก เช่น windy

อีกทางเลือกหนึ่งคือ คุณอาจสร้างลักษณะการวัดอุณหภูมิ ความเร็วลม ฟีเจอร์สังเคราะห์นี้จะมี 12 อย่างที่เป็นไปได้ดังต่อไปนี้ มีดังนี้

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

ด้วยไม้ข้ามฟีเจอร์ โมเดลนี้จึงเรียนรู้ความแตกต่างทางอารมณ์ได้ ระหว่าง freezing-windy วันถึง freezing-still วัน

หากคุณสร้างฟีเจอร์สังเคราะห์จาก 2 ฟีเจอร์ซึ่งแต่ละฟีเจอร์มี ที่เก็บข้อมูลที่ต่างกัน ดังนั้นข้ามฟีเจอร์ที่ได้จะมีปริมาณมหาศาล ของชุดค่าผสมที่เป็นไปได้ เช่น หากฟีเจอร์หนึ่งมีที่เก็บข้อมูล 1,000 รายการ อีกจุดสนใจหนึ่งมีที่เก็บข้อมูล 2,000 ที่ และข้ามจุดสนใจที่ได้มี 2,000,000 ใหม่

อย่างเป็นทางการ ไม้กางเขนคือ ผลคูณคาร์ทีเซียน

เครื่องหมายกากบาทจุดสนใจส่วนใหญ่ใช้กับโมเดลเชิงเส้นและไม่ค่อยใช้ กับโครงข่ายประสาท

Feature Engineering

#fundamentals
#TensorFlow

กระบวนการที่มีขั้นตอนต่อไปนี้

  1. พิจารณาว่าฟีเจอร์ใดอาจเป็นประโยชน์ ในการฝึกโมเดล
  2. การแปลงข้อมูลดิบจากชุดข้อมูลเป็นเวอร์ชันที่มีประสิทธิภาพของ คุณลักษณะเหล่านั้น

ตัวอย่างเช่น คุณอาจพิจารณาว่า temperature อาจเป็นประโยชน์ คุณอาจทดสอบกับ bucketing เพื่อเพิ่มประสิทธิภาพสิ่งที่โมเดลสามารถเรียนรู้จากช่วง temperature ต่างๆ

บางครั้งเราเรียกวิศวกรรมฟีเจอร์ว่า การแยกฟีเจอร์หรือ ประสิทธิภาพการทำงาน

ชุดฟีเจอร์

#fundamentals

กลุ่มฟีเจอร์ที่แมชชีนเลิร์นนิงของคุณ การฝึกของ model ตัวอย่างเช่น รหัสไปรษณีย์ ขนาดที่พัก และสภาพของอสังหาริมทรัพย์อาจ ประกอบด้วยชุดฟีเจอร์ง่ายๆ สำหรับโมเดลที่คาดการณ์ราคาที่อยู่อาศัย

เวกเตอร์ฟีเจอร์

#fundamentals

อาร์เรย์ของค่า feature ซึ่งประกอบด้วย ตัวอย่าง เวกเตอร์ของจุดสนใจเป็นอินพุตระหว่าง การฝึกทำงานและระหว่างการอนุมาน ตัวอย่างเช่น เวกเตอร์จุดสนใจสำหรับโมเดลที่มีคุณลักษณะสองอย่างที่แยกจากกัน อาจเป็น:

[0.92, 0.56]

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์
          เลเยอร์อินพุตมี 2 โหนด โดยแต่ละโหนดมีค่า
          0.92 และอีกค่ามีค่า 0.56

แต่ละตัวอย่างจะให้ค่าที่ต่างกันสำหรับเวกเตอร์ของจุดสนใจ ดังนั้น เวกเตอร์ของฟีเจอร์สำหรับตัวอย่างถัดไปอาจมีลักษณะดังนี้

[0.73, 0.49]

วิศวกรรมฟีเจอร์เป็นตัวกำหนดวิธีนำเสนอ ในเวกเตอร์จุดสนใจ ตัวอย่างเช่น ฟีเจอร์เชิงหมวดหมู่แบบไบนารีที่มี ค่าที่เป็นไปได้ 5 ค่าอาจแสดงด้วย การเข้ารหัสแบบฮอตเดียว ในกรณีนี้ ส่วนของ เวกเตอร์ของจุดสนใจสำหรับตัวอย่างหนึ่งๆ จะประกอบด้วยเลข 0 จำนวน 4 ตัวและ 1.0 เดียวในตำแหน่งที่ 3 ดังนี้

[0.0, 0.0, 1.0, 0.0, 0.0]

อีกตัวอย่างหนึ่ง สมมติว่าโมเดลของคุณมี 3 ฟีเจอร์:

  • ฟีเจอร์เชิงหมวดหมู่ไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าซึ่งแสดงด้วย การเข้ารหัสแบบ One-hot ตัวอย่างเช่น [0.0, 1.0, 0.0, 0.0, 0.0]
  • ฟีเจอร์เชิงหมวดหมู่ไบนารีอีกอย่างหนึ่งซึ่งมีค่าที่เป็นไปได้ 3 ค่า ด้วยการเข้ารหัสแบบฮอตเดียว ตัวอย่างเช่น [0.0, 0.0, 1.0]
  • คุณลักษณะที่เป็นจุดลอยตัว ตัวอย่างเช่น 8.3

ในกรณีนี้ เวกเตอร์ฟีเจอร์สำหรับแต่ละตัวอย่างจะแสดงแทน 9 ค่า จากค่าตัวอย่างในรายการก่อนหน้า เวกเตอร์ของจุดสนใจจะเป็น

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

การเก็บฟีดแบ็กมาแก้ไข

#fundamentals

ในแมชชีนเลิร์นนิง สถานการณ์ที่การคาดการณ์ของโมเดลส่งผลต่อ สำหรับโมเดลเดียวกันหรือโมเดลอื่น ตัวอย่างเช่น โมเดลที่ แนะนำว่าภาพยนตร์จะมีผลต่อภาพยนตร์ที่คนดู ซึ่งจะเป็น ส่งผลต่อโมเดลการแนะนำภาพยนตร์ในลำดับต่อๆ ไป

G

การสรุป

#fundamentals

ความสามารถของโมเดลในการคาดการณ์ที่ถูกต้องในอุปกรณ์ใหม่ ข้อมูลที่ไม่เคยเห็นมาก่อน โมเดลที่สามารถทำให้เป็นแบบทั่วไปได้นั้นตรงข้ามกับ ของโมเดลที่ปรับมากเกินไป

เส้นโค้งทั่วไป

#fundamentals

พล็อตของทั้งการสูญเสียการฝึกหัดและ การสูญเสียการตรวจสอบเป็นฟังก์ชันของจำนวน การทำซ้ำ

กราฟทั่วไปจะช่วยให้คุณตรวจหาความเป็นไปได้ มากเกินไป ตัวอย่างเช่น URL ต่อไปนี้ เส้นโค้งทั่วไปแนะนำให้มีการปรับมากเกินไป เนื่องจากการสูญเสียการตรวจสอบ จะสูงกว่าการสูญเสียการฝึกอย่างมีนัยสำคัญ

กราฟคาร์ทีเซียนที่แกน y ระบุว่าสูญเสียและแกน x
          คือ การทำซ้ำ จะมี 2 พล็อตปรากฏขึ้น หนึ่งแผนภาพแสดง
          การสูญเสียการฝึก และอีกรายการจะแสดงการสูญเสียการตรวจสอบ
          ทั้ง 2 แผนเริ่มต้นคล้ายคลึงกัน แต่ในที่สุดก็เกิดการสูญเสียการฝึกอบรม
          ตกลงต่ำกว่าการสูญเสียการตรวจสอบเป็นอย่างมาก

การไล่ระดับสี

#fundamentals

เทคนิคทางคณิตศาสตร์เพื่อลด Loss ให้เหลือน้อยที่สุด การไล่ระดับสีแบบไล่ระดับสีจะปรับซ้ำๆ น้ำหนักและอคติ ค่อยๆ ค้นหาชุดค่าผสมที่ดีที่สุดเพื่อลดการสูญเสีย

การไล่ระดับสีเป็นค่าที่เก่ากว่าแมชชีนเลิร์นนิงมาก

ข้อมูลที่เป็นความจริง

#fundamentals

เรียลลิตี้

สิ่งที่เกิดขึ้นจริง

ตัวอย่างเช่น ลองพิจารณาการจัดประเภทแบบไบนารี โมเดลที่คาดการณ์ว่านักศึกษากำลังเข้ามหาวิทยาลัยในปีแรก จะสำเร็จการศึกษาภายใน 6 ปี ข้อมูลจากการสังเกตการณ์โดยตรงสำหรับโมเดลนี้คือ ไม่ใช่ว่านักศึกษาจบการศึกษาภายใน 6 ปีจริงๆ

H

เลเยอร์ที่ซ่อนอยู่

#fundamentals

เลเยอร์ในโครงข่ายระบบประสาทเทียมระหว่าง เลเยอร์อินพุต (ฟีเจอร์) และ เลเยอร์เอาต์พุต (การคาดการณ์) เลเยอร์ที่ซ่อนอยู่แต่ละเลเยอร์ประกอบด้วยเซลล์ประสาทอย่างน้อย 1 เซลล์ ตัวอย่างเช่น โครงข่ายระบบประสาทเทียมต่อไปนี้มีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ เซลล์แรกมีเซลล์ประสาท 3 เซลล์ และเซลล์ที่สองมีเซลล์ประสาท 2 เซลล์ ได้แก่

4 เลเยอร์ เลเยอร์แรกคือเลเยอร์อินพุตที่มี
          ใหม่ๆ เลเยอร์ที่สองคือเลเยอร์ที่ซ่อนอยู่ซึ่งมี
          เซลล์ประสาท เลเยอร์ที่สามคือเลเยอร์ที่ซ่อนอยู่ซึ่งมี
          เซลล์ประสาท เลเยอร์ที่ 4 คือเลเยอร์เอาต์พุต แต่ละฟีเจอร์
          มีขอบ 3 ด้าน แต่ละเส้นนำไปยังเซลล์ประสาทที่ต่างกัน
          ในเลเยอร์ที่สอง เซลล์ประสาทแต่ละเซลล์ในชั้นที่ 2
          มีขอบ 2 ด้าน แต่ละเส้นนำไปยังเซลล์ประสาทที่ต่างกัน
          ในเลเยอร์ที่ 3 เซลล์ประสาทแต่ละเซลล์ในชั้นที่ 3 ประกอบด้วย
          ขอบด้านหนึ่ง แต่ละด้านชี้ไปยังเลเยอร์เอาต์พุต

โครงข่ายประสาทแบบลึกมีมากกว่า 1 เครือข่าย เลเยอร์ที่ซ่อนอยู่ เช่น ภาพประกอบก่อนหน้าเป็นระบบประสาทเทียมระดับลึก เครือข่ายได้เนื่องจากโมเดลมีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์

ไฮเปอร์พารามิเตอร์

#fundamentals

ตัวแปรที่คุณหรือบริการปรับแต่งไฮเปอร์พารามิเตอร์ ปรับในระหว่างการฝึกโมเดลต่อเนื่อง ตัวอย่างเช่น อัตราการเรียนรู้เป็นไฮเปอร์พารามิเตอร์ คุณสามารถ ตั้งค่าอัตราการเรียนรู้เป็น 0.01 ก่อนเซสชันการฝึกอบรม 1 เซสชัน หากคุณ หากค่า 0.01 สูงเกินไป คุณอาจต้องตั้งค่าการเรียนรู้ ให้เป็น 0.003 สำหรับเซสชันการฝึกอบรมครั้งต่อไป

ในทางตรงกันข้าม พารามิเตอร์จะเป็น น้ำหนักและอคติที่โมเดล เรียนรู้ระหว่างการฝึกอบรม

I

กระจายอย่างอิสระและเหมือนกันทุกประการ (i.i.d)

#fundamentals

ข้อมูลมาจากการกระจายที่ไม่เปลี่ยนแปลง และที่แต่ละค่า ที่วาดไม่ได้ขึ้นอยู่กับค่าที่วาดไว้ก่อนหน้านี้ รหัส คือก๊าซอุดมคติ ของเครื่อง การเรียนรู้—โครงสร้างทางคณิตศาสตร์ที่มีประโยชน์ แต่แทบจะไม่เคยพบคำตอบที่แน่ชัด ในโลกแห่งความเป็นจริง ตัวอย่างเช่น การกระจายของผู้เข้าชมไปยังหน้าเว็บ อาจเป็นรหัส ในช่วงเวลาสั้นๆ ซึ่งก็คือการกระจายจะไม่ ในช่วงเวลาสั้นๆ นั้นและการเข้าชมของบุคคลหนึ่งมักจะ โดยไม่ขึ้นอยู่กับการเข้าชมของผู้อื่น แต่ถ้าคุณขยายกรอบเวลานั้น ความแตกต่างตามฤดูกาลในผู้เข้าชมหน้าเว็บอาจปรากฏขึ้น

ดู nonstationarity เพิ่มเติม

การอนุมาน

#fundamentals

ในแมชชีนเลิร์นนิง กระบวนการคาดการณ์โดย การใช้โมเดลที่ฝึกแล้วกับตัวอย่างที่ไม่มีป้ายกำกับ

การอนุมานมีความหมายในสถิติต่างกันเล็กน้อย โปรดดู บทความวิกิพีเดียเกี่ยวกับการอนุมานทางสถิติ

เลเยอร์อินพุต

#fundamentals

เลเยอร์ของโครงข่ายประสาทที่ จะมีเวกเตอร์ของฟีเจอร์ ซึ่งก็คือเลเยอร์อินพุต มีตัวอย่างสำหรับการฝึกอบรมหรือ การอนุมาน ตัวอย่างเช่น เลเยอร์อินพุตใน โครงข่ายระบบประสาทเทียมประกอบด้วย 2 ฟีเจอร์ ได้แก่

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

ความสามารถในการตีความ

#fundamentals

ความสามารถในการอธิบายหรือนำเสนอการให้เหตุผลของโมเดล ML ใน ที่มนุษย์เข้าใจได้

ตัวอย่างเช่น รูปแบบการถดถอยเชิงเส้นส่วนใหญ่จะมี ที่ตีความได้ (คุณต้องดูน้ำหนักที่ฝึกสำหรับ feature.) ป่าการตัดสินใจยังตีความได้เป็นอย่างดีด้วย อย่างไรก็ตาม บางโมเดล ต้องอาศัยการแสดงผลที่ซับซ้อนเพื่อให้ตีความได้

คุณสามารถใช้ เครื่องมือตีความการเรียนรู้ (LIT) เพื่อตีความโมเดล ML

การทำซ้ำ

#fundamentals

การอัปเดตพารามิเตอร์ model เพียงครั้งเดียว ซึ่งก็คือ น้ำหนักและอคติ ระหว่าง การฝึกอบรม ขนาดกลุ่มจะกำหนด จำนวนตัวอย่างที่ประมวลผลโมเดลในการทำซ้ำครั้งเดียว ตัวอย่างเช่น หากขนาดกลุ่มคือ 20 โมเดลจะประมวลผลตัวอย่าง 20 รายการก่อน การปรับพารามิเตอร์

เมื่อฝึกโครงข่ายระบบประสาทเทียม การทำซ้ำครั้งเดียว เกี่ยวข้องกับบัตร 2 ประเภทต่อไปนี้

  1. การส่งต่อสำหรับประเมินการสูญเสียในกลุ่มเดียว
  2. การส่งย้อนหลัง (backpropagation) เพื่อปรับ พารามิเตอร์ของโมเดลตามการสูญเสียและอัตราการเรียนรู้

L

การกำหนดกฎ L0

#fundamentals

การเปลี่ยนรูปแบบปกติประเภทหนึ่งที่ ลงโทษจำนวนทั้งหมดของน้ำหนักที่ไม่ใช่ 0 โมเดล ตัวอย่างเช่น โมเดลที่มีน้ำหนักที่ไม่ใช่ 0 เท่ากับ 11 จะถูกลงโทษมากกว่าโมเดลที่คล้ายกันที่มีน้ำหนัก 10 หน่วย

บางครั้งการกำหนดกฎ L0 จะเรียกว่าการกำหนดมาตรฐาน L0-norm

L1 แพ้

#fundamentals

ฟังก์ชันการขาดหายที่คำนวณค่าสัมบูรณ์ ของความแตกต่างระหว่างค่า label จริงกับ ค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น นี่คือ การคำนวณหาการขาดทุน L1 สำหรับกลุ่ม 1 จาก 5 ตัวอย่าง

มูลค่าที่แท้จริงของตัวอย่าง ค่าที่คาดการณ์ไว้ของโมเดล ค่าสัมบูรณ์ของเดลต้า
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 แพ้

การขาดทุน L1 มีความไวต่อค่าผิดปกติน้อยกว่า มากกว่า L2 ที่สูญเสียไป

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์เป็นค่าเฉลี่ย L1 การสูญเสียต่อตัวอย่าง

การกำหนดกฎ L1

#fundamentals

การจำกัดเนื้อหาประเภทหนึ่งที่ให้โทษ น้ำหนักตามสัดส่วนของผลรวมของค่าสัมบูรณ์ของ ยกน้ำหนัก การกำหนดมาตรฐาน L1 ช่วยเพิ่มน้ำหนักของ หรือฟีเจอร์แทบจะไม่เกี่ยวข้องกับค่า 0 ฟีเจอร์ที่มี น้ำหนักที่เป็น 0 จะถูกลบออกจากโมเดลอย่างถูกต้อง

คอนทราสต์กับการกำหนดมาตรฐาน L2

L2 แพ้

#fundamentals

ฟังก์ชันการขาดหาย ที่ใช้คำนวณกำลังสอง ของความแตกต่างระหว่างค่า label จริงกับ ค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น นี่คือ การคำนวณการขาดทุน L2 สำหรับกลุ่ม 1 จาก 5 ตัวอย่าง

มูลค่าที่แท้จริงของตัวอย่าง ค่าที่คาดการณ์ไว้ของโมเดล สี่เหลี่ยมจัตุรัสของเดลต้า
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 แพ้

เนื่องจากการยกกำลังสองจะทำให้การสูญเสีย L2 ขยายผลของ ค่าผิดปกติ กล่าวคือ การสูญเสีย L2 จะตอบสนองต่อการคาดการณ์ที่ไม่ดีได้มากกว่า การลดลงของ L1 เช่น การขาดทุน L1 สำหรับชุดก่อนหน้าจะเป็น 8 แทนที่จะเป็น 16 โปรดสังเกตว่า บัญชี Outlier มีค่าเป็น 9 จาก 16 รายการ

โมเดลการถดถอยมักจะใช้การสูญเสีย L2 เป็นฟังก์ชันการสูญเสีย

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง คือค่าเฉลี่ย L2 การสูญเสียต่อตัวอย่าง การสูญเสียแบบแบ่งเป็นสองส่วนเป็นอีกชื่อหนึ่งของการสูญเสียแบบ L2

การกำหนดกฎ L2

#fundamentals

การจำกัดเนื้อหาประเภทหนึ่งที่ให้โทษ น้ำหนักตามสัดส่วนของผลรวมของสี่เหลี่ยมจัตุรัสของน้ำหนัก การกำหนดกฎ L2 จะช่วยเพิ่มน้ำหนักค่าผิดปกติ (ค่าผิดปกติ ที่มีค่าลบสูงหรือต่ำ) ใกล้เคียง 0 แต่ไม่ใช่ 0 ฟีเจอร์ที่มีค่าเข้าใกล้ 0 มากจะยังคงอยู่ในโมเดล แต่จะไม่มีผลต่อการคาดการณ์ของโมเดลมากนัก

การกำหนดกฎ L2 จะปรับปรุงการสรุปแบบกว้างๆ เสมอ รูปแบบเชิงเส้น

คอนทราสต์กับการกำหนดมาตรฐาน L1

ป้ายกำกับ

#fundamentals

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล "รับสาย" หรือ "ผลลัพธ์" ของตัวอย่าง

ตัวอย่างที่ติดป้ายกำกับแต่ละรายการประกอบด้วย features และป้ายกำกับ เช่น ในสแปม ชุดข้อมูลการตรวจจับ ป้ายกำกับอาจเป็น "สแปม" หรือ "ไม่ใช่สแปม" ในชุดข้อมูลปริมาณฝน ป้ายกำกับอาจเป็นปริมาณ ที่ตกลงเป็นระยะเวลาหนึ่ง

ตัวอย่างที่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์อย่างน้อย 1 รายการและ label ตัวอย่างเช่น ตารางต่อไปนี้จะแสดง ตัวอย่างที่มีป้ายกำกับจากแบบจำลองการประเมินราคาบ้าน โดยแต่ละแบบจะมีคุณลักษณะ 3 อย่าง และป้ายกำกับ 1 รายการ:

จำนวนห้องนอน จำนวนห้องน้ำ อายุบ้าน ราคาบ้าน (ป้ายกำกับ)
3 2 15 10,350,000 บาท
2 1 72 179,000 ดอลลาร์
4 2 34 10,800,000 บาท

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกบนตัวอย่างที่ติดป้ายกำกับแล้วและทำการคาดการณ์ ตัวอย่างที่ไม่มีป้ายกำกับ

เปรียบเทียบตัวอย่างที่มีป้ายกำกับกับตัวอย่างที่ไม่มีป้ายกำกับ

แลมบ์ดา

#fundamentals

คำพ้องความหมายของอัตราการทำให้เป็นมาตรฐาน

แลมบ์ดาเป็นคำที่บรรจบกันมากเกินไป ในที่นี้เราจะเน้นที่ ภายในการกำหนดรูปแบบ

เลเยอร์

#fundamentals

ชุดเซลล์ประสาทใน โครงข่ายระบบประสาทเทียม เลเยอร์ทั่วไป 3 ประเภท ดังนี้

ตัวอย่างเช่น ภาพประกอบต่อไปนี้แสดงโครงข่ายระบบประสาทเทียมที่มี เลเยอร์อินพุต 1 เลเยอร์ เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต 1 ชั้น เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์อีก 1 ชั้น
          เลเยอร์เอาต์พุต เลเยอร์อินพุตประกอบด้วย 2 ฟีเจอร์ องค์ประกอบ
          เลเยอร์ที่ซ่อนอยู่ประกอบด้วยเซลล์ประสาท 3 เซลล์และเลเยอร์ที่ซ่อนอยู่อีกชั้นหนึ่ง
          ประกอบด้วยเซลล์ประสาท 2 เซลล์ เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

ใน TensorFlow เลเยอร์ยังเป็นฟังก์ชัน Python ที่ใช้เวลา Tensors และตัวเลือกการกำหนดค่าเป็นอินพุตและ สร้าง Tensor อื่นๆ เป็นเอาต์พุต

อัตราการเรียนรู้

#fundamentals

จำนวนจุดลอยตัวที่บอกการไล่ระดับสี อัลกอริทึมอย่างหนักในการปรับน้ำหนักและน้ำหนักของ การปรับปรุงซ้ำ เช่น อัตราการเรียนรู้ที่ 0.3 ปรับน้ำหนักและน้ำหนักพิเศษได้มากกว่าอัตราการเรียนรู้ถึง 3 เท่า 0.1

อัตราการเรียนรู้คือพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่สำคัญ หากตั้งค่าไว้ อัตราการเรียนรู้ต่ำเกินไป การฝึกจะใช้เวลานานเกินไป ถ้า คุณตั้งค่าอัตราการเรียนรู้สูงเกินไป การไล่ระดับสีมักมีปัญหา ที่จะถึงการสนทนา

เชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่สามารถแทนค่าได้เพียงอย่างเดียว ผ่านการบวกและการคูณ

พล็อตความสัมพันธ์เชิงเส้นคือเส้น

ตัดกับnonlinear

รูปแบบเชิงเส้น

#fundamentals

โมเดลที่กำหนดน้ำหนัก 1 รายการต่อ featureเพื่อสร้างการคาดการณ์ (รูปแบบเชิงเส้นมีอคติด้วย) ในทางตรงกันข้าม ความสัมพันธ์ของฟีเจอร์กับการคาดการณ์ในโมเดลเชิงลึก เป็นแบบnonlinear

โดยปกติแล้วรูปแบบเชิงเส้นจะง่ายต่อการฝึกและอื่นๆ ที่ตีความได้มากกว่าโมเดลเชิงลึก อย่างไรก็ตาม โมเดลเชิงลึกสามารถเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างฟีเจอร์ต่างๆ ได้

การถดถอยเชิงเส้นและ การถดถอยแบบโลจิสติกคือโมเดลเชิงเส้น 2 ประเภท

การถดถอยเชิงเส้น

#fundamentals

โมเดลแมชชีนเลิร์นนิงประเภทหนึ่งที่ทั้ง 2 เงื่อนไขต่อไปนี้เป็นจริง

เปรียบเทียบการถดถอยเชิงเส้นกับการถดถอยแบบโลจิสติก นอกจากนี้ยังเปรียบเทียบการถดถอยกับการแยกประเภทด้วย

การถดถอยแบบโลจิสติก

#fundamentals

ประเภทหนึ่งของโมเดลการถดถอยซึ่งคาดการณ์ความน่าจะเป็น โมเดลการถดถอยแบบโลจิสติกส์มีลักษณะดังต่อไปนี้

  • ป้ายกำกับเป็นหมวดหมู่ คำว่าโลจิสติก การถดถอยมักจะหมายถึงการถดถอยแบบลอจิสติกส์แบบไบนารี ซึ่งก็คือ เป็นโมเดลที่คำนวณความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้ 2 ค่า ระบบจะคำนวณตัวแปรที่พบน้อยกว่า การถดถอยแบบโลจิสติกแบบพหุนาม ความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า
  • ฟังก์ชันการสูญหายระหว่างการฝึกคือ บันทึกการสูญหาย (คุณสามารถวางหน่วยการสูญเสียบันทึกหลายหน่วยพร้อมกันสำหรับป้ายกำกับ ด้วยค่าที่เป็นไปได้มากกว่า 2 ค่า)
  • โมเดลนี้มีสถาปัตยกรรมเชิงเส้น ไม่ใช่โครงข่ายระบบประสาทเทียมระดับลึก อย่างไรก็ตาม ส่วนที่เหลือของคำจำกัดความนี้ยังมีผลกับ แบบจำลองเชิงลึกที่คาดการณ์ความน่าจะเป็น สำหรับป้ายกำกับเชิงหมวดหมู่

ตัวอย่างเช่น ลองพิจารณาโมเดลการถดถอยแบบโลจิสติกที่คำนวณค่า ความเป็นไปได้ที่อีเมลอินพุตจะเป็นสแปมหรือไม่ใช่สแปม ระหว่างการอนุมาน สมมติว่าโมเดลคาดการณ์ 0.72 ดังนั้น ฟิลด์ กำลังประเมินโมเดล:

  • มีโอกาส 72% ที่อีเมลจะเป็นสแปม
  • มีโอกาส 28% ที่อีเมลจะไม่เป็นสแปม

โมเดลการถดถอยแบบโลจิสติกใช้สถาปัตยกรรม 2 ขั้นตอนดังต่อไปนี้

  1. โมเดลสร้างการคาดการณ์ดิบ (y') โดยใช้ฟังก์ชันเชิงเส้น ของฟีเจอร์อินพุต
  2. โมเดลใช้การคาดการณ์ดิบนั้นเป็นอินพุตของ ฟังก์ชัน sigmoid ซึ่งแปลงข้อมูลดิบ เป็นค่าระหว่าง 0 ถึง 1 เท่านั้น

โมเดลการถดถอยแบบโลจิสติกจะคาดการณ์จำนวนเช่นเดียวกับโมเดลการถดถอยอื่นๆ อย่างไรก็ตาม ตัวเลขนี้มักจะเป็นส่วนหนึ่งของการจัดประเภทแบบไบนารี ดังนี้

  • หากจำนวนที่คาดการณ์มากกว่า เกณฑ์การแยกประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสบวก
  • หากจำนวนที่คาดการณ์น้อยกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสลบ

การสูญหายของบันทึก

#fundamentals

ฟังก์ชัน Loss ที่ใช้ในไบนารี การถดถอยแบบโลจิสติกส์

อัตราต่อรองลอการิทึม

#fundamentals

ลอการิทึมของความน่าจะเป็นของเหตุการณ์บางอย่าง

แพ้

#fundamentals

ระหว่างการฝึกของ รูปแบบที่มีการควบคุมดูแล ซึ่งเป็นการวัดระยะทาง การคาดคะเนของโมเดลมาจากป้ายกำกับของโมเดล

ฟังก์ชันการสูญเสียจะคำนวณการสูญเสีย

กราฟแบบสูญเสียบางส่วน

#fundamentals

พล็อต loss ซึ่งเป็นฟังก์ชันของจำนวนการฝึก การทำซ้ำ พล็อตต่อไปนี้แสดงการขาดทุนโดยทั่วไป เส้นโค้ง:

กราฟคาร์ทีเซียนของการสูญเสียเทียบกับการทำซ้ำการฝึก แสดง
          การลดลงอย่างรวดเร็วในการทำซ้ำในช่วงแรก ตามด้วยการค่อยๆ เปลี่ยน
          แล้วมีความลาดชันแบบแบนราบในช่วงการทำซ้ำครั้งสุดท้าย

กราฟโค้งมนจะช่วยบอกได้ว่าโมเดลของคุณกำลัง การสนทนาหรือการปรับมากเกินไป

เส้นโค้งการสูญเสียสามารถพล็อตค่าความสูญเสียทุกประเภทต่อไปนี้

โปรดดูกราฟทั่วไปด้วย

ฟังก์ชันการสูญเสียผู้ใช้

#fundamentals

ในระหว่างการฝึกอบรมหรือการทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่ใช้คำนวณ การสูญเสียไปกับตัวอย่างกลุ่ม ฟังก์ชันการสูญเสียการแสดงผลจะสูญเสียค่าที่ต่ำกว่า สำหรับโมเดลที่สามารถคาดการณ์ได้ดีกว่าโมเดลที่มี การคาดคะเนที่ไม่ดี

โดยทั่วไปเป้าหมายของการฝึกคือเพื่อลดการสูญเสียความสามารถในการทำงาน ที่เกินออกมา

มีฟังก์ชันการสูญเสียการใช้งานหลายประเภท เลือกการสูญเสียที่เหมาะสม สำหรับประเภทโมเดลที่คุณกำลังสร้าง เช่น

M

แมชชีนเลิร์นนิง

#fundamentals

โปรแกรมหรือระบบที่ฝึก model จากข้อมูลอินพุต โมเดลที่ผ่านการฝึกจะทำสิ่งต่อไปนี้ได้ ทำการคาดคะเนที่เป็นประโยชน์จากข้อมูลใหม่ (ที่ไม่เคยเห็น) ที่มาจาก การกระจายเดียวกับที่ใช้ในการฝึกโมเดล

แมชชีนเลิร์นนิงหมายถึงสาขาวิชาที่เกี่ยวข้องด้วยเช่นกัน โปรแกรมหรือระบบเหล่านี้

ชนกลุ่มใหญ่

#fundamentals

ยิ่งป้ายกำกับที่ใช้กันทั่วไปใน ชุดข้อมูลที่ไม่สมดุลกัน ตัวอย่างเช่น สำหรับชุดข้อมูลที่มีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงลบเป็นประเภทหลัก

คอนทราสต์กับชนกลุ่มน้อย

มินิแบตช์

#fundamentals

ชุดย่อยขนาดเล็กที่เลือกแบบสุ่มของกลุ่มหนึ่งๆ จะประมวลผลใน 1 การปรับปรุงซ้ำ ขนาดกลุ่มของมินิแบตช์มักจะ 10-1,000 ตัวอย่าง

ตัวอย่างเช่น สมมติว่าชุดการฝึกทั้งชุด (ทั้งชุด) ประกอบด้วยตัวอย่าง 1,000 รายการ นอกจากนี้ สมมติว่าคุณตั้งค่า ขนาดกลุ่มของมินิแบตช์แต่ละชุดถึง 20 ดังนั้น แต่ละ การทำซ้ำจะพิจารณาการสูญเสียแบบสุ่มจำนวน 20 ตัวอย่างจาก 1,000 ตัวอย่างแล้ว จะปรับน้ำหนักและอคติให้เหมาะสม

การคำนวณความสูญเสียแบบมินิแบตช์จะมีประสิทธิภาพมากกว่า การสูญเสียสำหรับตัวอย่างทั้งหมดในแบตช์ทั้งหมด

ชนกลุ่มน้อย

#fundamentals

ป้ายกำกับที่มีการใช้งานน้อยกว่าใน ชุดข้อมูลที่ไม่สมดุลกัน ตัวอย่างเช่น สำหรับชุดข้อมูลที่มีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงบวกคือชนกลุ่มน้อย

คอนทราสต์กับคลาสส่วนใหญ่

รุ่น

#fundamentals

โดยทั่วไปแล้ว โครงสร้างทางคณิตศาสตร์ใดๆ ที่ประมวลผลข้อมูลอินพุตและส่งกลับ เอาต์พุต มีการใช้วลีในรูปแบบที่แตกต่างกัน โมเดลคือชุดของพารามิเตอร์และโครงสร้าง ที่จำเป็นสำหรับระบบในการคาดการณ์ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลใช้ตัวอย่างเป็นอินพุตและอนุมาน การคาดคะเนเป็นเอาต์พุต ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล รุ่นต่างๆ จะแตกต่างกันบ้าง เช่น

คุณสามารถบันทึก คืนค่า หรือทำสำเนาโมเดลได้

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลด้วย สร้างโมเดล ซึ่งโดยทั่วไปจะเป็นฟังก์ชันที่สามารถแมปตัวอย่างอินพุตกับ คลัสเตอร์ที่เหมาะสมที่สุด

การจัดประเภทแบบหลายคลาส

#fundamentals

ในการเรียนรู้ที่มีการควบคุมดูแล ปัญหาเรื่องการแยกประเภท ที่ชุดข้อมูลมีป้ายกำกับมากกว่า 2 คลาส ตัวอย่างเช่น ป้ายกำกับในชุดข้อมูล Iris ต้องเป็นอย่างใดอย่างหนึ่งต่อไปนี้ 3 ชั้นเรียน ได้แก่

  • ไอริส เซโตซา
  • ดอกไอริสบริสุทธิ์
  • สีไอริส

โมเดลที่ได้รับการฝึกในชุดข้อมูล Iris ซึ่งคาดการณ์ประเภท Iris ในตัวอย่างใหม่ ทำการแยกประเภทแบบหลายคลาส

ในทางตรงกันข้าม ปัญหาการจัดประเภทที่จำแนกระหว่างปัญหา คลาสเป็นโมเดลการจัดประเภทแบบไบนารี เช่น โมเดลอีเมลที่คาดคะเนสแปมหรือไม่ใช่สแปม เป็นโมเดลการจัดประเภทแบบไบนารี

ในโจทย์คลัสเตอร์ การจัดประเภทแบบหลายคลาสอ้างอิงข้อมูลมากกว่า 2 คลัสเตอร์

N

คลาสเชิงลบ

#fundamentals

ในการจัดประเภทแบบไบนารี คลาสหนึ่งคือ เรียกว่าเชิงบวกและอีกข้อความเรียกว่าเชิงลบ คลาสเชิงบวกคือ สิ่งของหรือเหตุการณ์ที่โมเดลกำลังทดสอบ และคลาสเชิงลบคือ ที่เป็นไปได้อื่นๆ เช่น

  • กลุ่มระดับลบในการทดสอบทางการแพทย์อาจเป็น "ไม่ใช่เนื้องอก"
  • ระดับเชิงลบในตัวแยกประเภทอีเมลอาจ "ไม่ใช่สแปม"

คอนทราสต์กับคลาสเชิงบวก

โครงข่ายระบบประสาทเทียม

#fundamentals

โมเดลที่มีอย่างน้อย 1 รายการ เลเยอร์ที่ซ่อนอยู่ โครงข่ายประสาทแบบลึกเป็นโครงข่ายระบบประสาทเทียมประเภทหนึ่ง ที่มีเลเยอร์ที่ซ่อนไว้มากกว่า 1 เลเยอร์ เช่น แผนภาพต่อไปนี้ แสดงโครงข่ายประสาทแบบลึกที่มีเลเยอร์ที่ซ่อนอยู่ 2 ชั้น

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และ
          เลเยอร์เอาต์พุต

เซลล์ประสาทแต่ละเซลล์ในเครือข่ายประสาทเทียมจะเชื่อมต่อกับโหนดทั้งหมดในชั้นถัดไป ตัวอย่างเช่น ในแผนภาพก่อนหน้านี้ ให้สังเกตว่าเซลล์ประสาททั้ง 3 เซลล์ ในชั้นที่ซ่อนอยู่ ส่วนแรกจะเชื่อมต่อกับเซลล์ประสาททั้งสองชั้นแยกกัน เลเยอร์ที่ 2 ที่ซ่อนอยู่

บางครั้งเราเรียกโครงข่ายประสาทที่ใช้งานในคอมพิวเตอร์ โครงข่ายระบบประสาทเทียมเพื่อแยกความแตกต่าง โครงข่ายประสาทที่พบในสมองและระบบประสาทอื่นๆ

โครงข่ายระบบประสาทเทียมบางเครือข่ายอาจเลียนแบบความสัมพันธ์ที่ไม่ใช่เชิงเส้นซึ่งมีความซับซ้อนอย่างยิ่ง ระหว่างฟีเจอร์ต่างๆ กับป้ายกำกับ

โปรดดูโครงข่ายระบบประสาทเทียมแบบ Convolutional และ โครงข่ายระบบประสาทเทียมแบบเกิดซ้ำ

เซลล์ประสาท

#fundamentals

ในแมชชีนเลิร์นนิง หน่วยที่โดดเด่นภายในเลเยอร์ที่ซ่อนอยู่ ของโครงข่ายประสาท เซลล์ประสาทแต่ละเซลล์จะทำงานต่อไปนี้ การดำเนินการแบบ 2 ขั้นตอน:

  1. คำนวณผลรวมถ่วงน้ำหนักของค่าอินพุตคูณด้วย ตามน้ำหนักที่เกี่ยวข้อง
  2. ส่งผลรวมถ่วงน้ำหนักเป็นอินพุตไปยัง ฟังก์ชันการเปิดใช้งาน

เซลล์ประสาทในชั้นที่ซ่อนอยู่ชั้นแรกจะยอมรับอินพุตจากค่าฟีเจอร์ ในเลเยอร์อินพุต เซลล์ประสาทในชั้นที่ซ่อนอยู่นอกเหนือนี้ กลุ่มแรกจะยอมรับอินพุตจากเซลล์ประสาทในชั้นที่ซ่อนอยู่ก่อนหน้านี้ เช่น เซลล์ประสาทในชั้นที่ 2 ที่ซ่อนอยู่จะยอมรับอินพุตจาก เซลล์ประสาทในชั้นที่ซ่อนอยู่

ภาพประกอบต่อไปนี้ไฮไลต์เซลล์ประสาท 2 เซลล์และ อินพุต

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และ
          เลเยอร์เอาต์พุต มีการไฮไลต์เซลล์ประสาท 2 เซลล์ โดยเซลล์หนึ่งใน
          ที่ซ่อนอยู่ และอีกเลเยอร์หนึ่ง
ในเลเยอร์ที่ซ่อนอยู่อีกชั้นหนึ่ง ไฮไลต์
          เซลล์ประสาทในชั้นที่ซ่อนอยู่ชั้นแรกรับอินพุตจากทั้ง 2 ลักษณะ
          ในเลเยอร์อินพุต เซลล์ประสาทที่ไฮไลต์ในชั้นที่ 2 ที่ซ่อนอยู่
          รับอินพุตจากเซลล์ประสาท 3 เซลล์ที่ซ่อนอยู่ใน

เซลล์ประสาทในโครงข่ายประสาทจะเลียนแบบพฤติกรรมของเซลล์ประสาทในสมองและ ส่วนอื่นๆ ของระบบประสาท

โหนด (โครงข่ายระบบประสาทเทียม)

#fundamentals

เซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่

nonlinear

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปซึ่งไม่สามารถแสดงได้เพียงอย่างเดียว ผ่านการบวกและการคูณ ความสัมพันธ์เชิงเส้น แสดงเป็นเส้นได้ ความสัมพันธ์แบบ nonlinear จะใช้ไม่ได้ จะแสดงเป็นเส้น ตัวอย่างเช่น ลองพิจารณาโมเดล 2 รูปแบบที่เกี่ยวข้องกัน ฟีเจอร์เดียวไปยังป้ายกำกับเดียว รูปแบบทางด้านซ้ายเป็นเส้นตรง และรูปแบบทางด้านขวาไม่เป็นเชิงเส้น

2 พล็อต หนึ่งพล็อตคือเส้น 1 เส้น ดังนั้นจึงเป็นความสัมพันธ์เชิงเส้น
          อีกพล็อตเป็นเส้นโค้ง ดังนั้นจึงเป็นความสัมพันธ์แบบไม่เชิงเส้น

Nonstationarity

#fundamentals

คุณลักษณะที่มีค่าเปลี่ยนแปลงไปในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักเกิดขึ้นในเวลา ตัวอย่างเช่น ลองพิจารณาตัวอย่างของความไม่แน่นอนต่อไปนี้

  • จำนวนชุดว่ายน้ำที่ขายในบางร้านจะแตกต่างกันไปตามฤดูกาล
  • ปริมาณผลไม้ชนิดใดชนิดหนึ่งที่เก็บเกี่ยวในภูมิภาคหนึ่งๆ มีค่าเป็น 0 สำหรับช่วงเวลาส่วนใหญ่ของปี แต่มีค่ามากกว่าเป็นระยะเวลาสั้นๆ
  • อุณหภูมิเฉลี่ยต่อปีกำลังเปลี่ยนแปลงเนื่องจากการเปลี่ยนแปลงสภาพภูมิอากาศ

คอนทราสต์กับความเสถียร

การแปลงเป็นรูปแบบมาตรฐาน

#fundamentals

พูดกว้างๆ ก็คือกระบวนการแปลงช่วงจริงของตัวแปร ในช่วงของค่ามาตรฐาน เช่น

  • -1 ถึง +1
  • 0 ถึง 1
  • การกระจายปกติ

ตัวอย่างเช่น สมมติว่าช่วงที่แท้จริงของค่าบางสถานที่คือ 800 ถึง 2,400 ในฐานะส่วนหนึ่งของฟีเจอร์วิศวกรรม คุณสามารถปรับค่าจริงให้อยู่ในระดับมาตรฐานได้ เช่น เป็น -1 ถึง +1

การปรับให้สอดคล้องตามมาตรฐานเป็นงานทั่วไปใน Feature Engineering โมเดลมักจะฝึกได้เร็วกว่า (และสร้างการคาดการณ์ที่ดีขึ้น) เมื่อทุกคุณลักษณะตัวเลขใน เวกเตอร์ฟีเจอร์ มีช่วงเดียวกันโดยประมาณ

ข้อมูลตัวเลข

#fundamentals

ฟีเจอร์ที่แสดงเป็นจำนวนเต็มหรือจำนวนที่มีค่าจริง ตัวอย่างเช่น โมเดลการประเมินราคาบ้านอาจแสดงขนาด ของบ้าน (เป็นตารางฟุตหรือตารางเมตร) เป็นข้อมูลตัวเลข การนำเสนอ จุดสนใจแบบข้อมูลตัวเลขบ่งบอกว่าค่าของจุดสนใจนั้น ความสัมพันธ์ทางคณิตศาสตร์กับป้ายกำกับ กล่าวคือ จำนวนตารางเมตรในบ้านอาจมี ความสัมพันธ์ทางคณิตศาสตร์กับมูลค่าของบ้าน

ข้อมูลที่เป็นจำนวนเต็มเท่านั้นไม่ควรแสดงเป็นข้อมูลตัวเลข ตัวอย่างเช่น รหัสไปรษณีย์ในบางพื้นที่ของโลกเป็นจำนวนเต็ม แต่จำนวนเต็มไปรษณีย์ ไม่ควรแสดงเป็นข้อมูลตัวเลขในโมเดล นั่นเป็นเพราะ รหัสไปรษณีย์ของ 20000 ไม่ได้มีความสำคัญเป็นสองเท่า (หรือครึ่งหนึ่ง) เท่ากับรหัสไปรษณีย์ของ 10,000 นอกจากนี้ แม้ว่ารหัสไปรษณีย์ที่ต่างกัน จะมีความสัมพันธ์ มูลค่าอสังหาริมทรัพย์ เราไม่สามารถสรุปได้ว่ามูลค่าอสังหาริมทรัพย์ในรหัสไปรษณีย์ 20000 มีค่าเป็น 2 เท่าของค่าอสังหาริมทรัพย์ที่รหัสไปรษณีย์ 10000 รหัสไปรษณีย์ควรแสดงเป็นข้อมูลเชิงหมวดหมู่ แทน

บางครั้งเราเรียกฟีเจอร์ที่เป็นตัวเลข ฟีเจอร์อย่างต่อเนื่อง

O

ออฟไลน์

#fundamentals

คำพ้องความหมายของ static

การอนุมานออฟไลน์

#fundamentals

กระบวนการของโมเดลที่สร้างการคาดการณ์ชุดหนึ่ง จากนั้นแคช (บันทึก) การคาดการณ์เหล่านั้น จากนั้น แอปจะสามารถเข้าถึง การคาดการณ์จากแคชแทนการเรียกใช้โมเดลอีกครั้ง

ตัวอย่างเช่น ลองพิจารณาโมเดลที่สร้างพยากรณ์อากาศท้องถิ่น (การคาดการณ์) 1 ครั้งทุก 4 ชั่วโมง หลังจากเรียกใช้แต่ละโมเดล จะแคชการพยากรณ์อากาศในท้องถิ่นทั้งหมด แอปสภาพอากาศดึงข้อมูลพยากรณ์อากาศ ออกจากแคช

การอนุมานแบบออฟไลน์เรียกอีกอย่างว่าการอนุมานแบบคงที่

ซึ่งแตกต่างจากการอนุมานออนไลน์

การเข้ารหัสแบบ One-hot

#fundamentals

นำเสนอข้อมูลเชิงกลุ่มเป็นเวกเตอร์ที่มีสิ่งต่อไปนี้

  • องค์ประกอบ 1 รายการได้รับการตั้งค่าเป็น 1
  • ส่วนองค์ประกอบอื่นๆ ทั้งหมดจะตั้งเป็น 0

โดยทั่วไปแล้วจะใช้การเข้ารหัสแบบ One-Hot เพื่อแสดงสตริงหรือตัวระบุที่ มีชุดจำกัดของค่าที่เป็นไปได้ ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ที่ชื่อ Scandinavia มีค่าที่เป็นไปได้ 5 ค่าดังนี้

  • "เดนมาร์ก"
  • "สวีเดน"
  • "นอร์เวย์"
  • "ฟินแลนด์"
  • "ไอซ์แลนด์"

การเข้ารหัสแบบ 1 แบบ Hot สามารถแสดงแต่ละค่าทั้ง 5 แบบดังต่อไปนี้

country เวกเตอร์
"เดนมาร์ก" 1 0 0 0 0
"สวีเดน" 0 1 0 0 0
"นอร์เวย์" 0 0 1 0 0
"ฟินแลนด์" 0 0 0 1 0
"ไอซ์แลนด์" 0 0 0 0 1

การเข้ารหัสแบบ One-hot ทำให้โมเดลเรียนรู้การเชื่อมต่อได้ ตามแต่ละประเทศ 5 ประเทศ

การนำเสนอฟีเจอร์เป็นข้อมูลตัวเลขคือ แทนการเข้ารหัสแบบ Single-hot แต่เราต้องขออภัยที่การนำเสนอ ตัวเลขของประเทศสแกนดิเนเวียไม่ใช่ตัวเลือกที่ดี ตัวอย่างเช่น ให้พิจารณาใช้ตัวเลขดังต่อไปนี้

  • "เดนมาร์ก" เท่ากับ 0
  • "สวีเดน" เท่ากับ 1
  • "นอร์เวย์" เท่ากับ 2
  • "ฟินแลนด์" เท่ากับ 3
  • "ไอซ์แลนด์" เท่ากับ 4

เมื่อใช้การเข้ารหัสตัวเลข โมเดลจะแปลตัวเลขดิบ โดยใช้คณิตศาสตร์ และจะพยายามฝึกฝนตัวเลขเหล่านั้น อย่างไรก็ตาม ประเทศไอซ์แลนด์มีจำนวนมากกว่า 2 เท่า (หรือครึ่งหนึ่ง) อย่างนอร์เวย์ โมเดลจึงได้ข้อสรุปที่แปลกๆ

หนึ่งเทียบกับทั้งหมด

#fundamentals

เมื่อพิจารณาถึงปัญหาการจัดประเภทกับคลาส N แล้ว โซลูชันที่ประกอบด้วย N แยกกัน ตัวแยกประเภทแบบไบนารี - ตัวแยกประเภทแบบไบนารีหนึ่งตัวสำหรับ แต่ละผลลัพธ์ที่เป็นไปได้ เช่น สำหรับโมเดลที่แยกประเภทตัวอย่าง เป็นผลิตภัณฑ์สำหรับสัตว์ ผัก หรือแร่ธาตุ โซลูชันแบบหนึ่งต่อหนึ่งจะให้ผล ตัวแยกประเภทไบนารี 3 แบบที่แยกกันดังต่อไปนี้

  • สัตว์กับไม่ใช่สัตว์
  • ผักกับไม่มีผัก
  • แร่ธาตุกับไม่ใช่แร่ธาตุ

ออนไลน์

#fundamentals

คำพ้องความหมายของ dynamic

การอนุมานออนไลน์

#fundamentals

สร้างการคาดการณ์ตามคำขอ ตัวอย่างเช่น สมมติว่าแอปส่งผ่านอินพุตไปยังโมเดลและออกคำขอสำหรับ การคาดคะเน ระบบที่ใช้การอนุมานออนไลน์จะตอบสนองต่อคำขอโดยการเรียกใช้ โมเดล (และส่งการคาดการณ์กลับไปยังแอป)

ซึ่งแตกต่างจากการอนุมานออฟไลน์

เลเยอร์เอาต์พุต

#fundamentals

"สุดท้าย" ของโครงข่ายประสาทได้ เลเยอร์เอาต์พุตจะมีการคาดการณ์

ภาพประกอบต่อไปนี้แสดงโครงข่ายประสาทแบบลึกขนาดเล็กที่มีอินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์ ดังนี้

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต 1 ชั้น เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์อีก 1 ชั้น
          เลเยอร์เอาต์พุต เลเยอร์อินพุตประกอบด้วย 2 ฟีเจอร์ องค์ประกอบ
          เลเยอร์ที่ซ่อนอยู่ประกอบด้วยเซลล์ประสาท 3 เซลล์และเลเยอร์ที่ซ่อนอยู่อีกชั้นหนึ่ง
          ประกอบด้วยเซลล์ประสาท 2 เซลล์ เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

Overfitting

#fundamentals

การสร้างโมเดลที่ตรงกับ ข้อมูลการฝึกอย่างใกล้ชิดมากจนโมเดลล้มเหลว คาดการณ์ข้อมูลใหม่ได้อย่างถูกต้อง

การกําหนดเกณฑ์มาตรฐานอาจช่วยลดการใส่ชิ้นงานมากเกินไปได้ นอกจากนี้ การฝึกในชุดฝึกอบรมขนาดใหญ่และหลากหลายยังช่วยลดการทำงานที่มากเกินไปได้

P

แพนด้า

#fundamentals

API การวิเคราะห์ข้อมูลแบบคอลัมน์ที่สร้างขึ้นจาก numpy เฟรมเวิร์กแมชชีนเลิร์นนิงจำนวนมาก ซึ่งรวมถึง TensorFlow ซึ่งสนับสนุนโครงสร้างข้อมูลของแพนด้าเป็นอินพุต โปรดดู เอกสารประกอบของ pandas เพื่อดูรายละเอียด

พารามิเตอร์

#fundamentals

น้ำหนักและอคติที่โมเดลเรียนรู้ระหว่าง การฝึกอบรม ตัวอย่างเช่น ใน การถดถอยเชิงเส้น พารามิเตอร์จะประกอบด้วย การให้น้ำหนักพิเศษ (b) และน้ำหนักทั้งหมด (w1, w2, และต่อไปเรื่อยๆ) ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในทางตรงกันข้าม hyperparameter จะเป็นค่าที่ คุณ (หรือบริการเปลี่ยนไฮเปอร์พารามิเตอร์) ให้กับโมเดล เช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์

คลาสเชิงบวก

#fundamentals

ชั้นเรียนที่คุณกำลังทดสอบ

ตัวอย่างเช่น คลาสเชิงบวกในรูปแบบมะเร็งอาจเป็น "เนื้องอก" ประเภทเชิงบวกในตัวแยกประเภทอีเมลอาจเป็น "สแปม"

ตัดกับคลาสเชิงลบ

หลังการประมวลผล

#fairness
#fundamentals

ปรับเอาต์พุตของโมเดลหลังจากเรียกใช้โมเดลแล้ว กระบวนการหลังการประมวลผลสามารถใช้เพื่อบังคับใช้ข้อจำกัดความเป็นธรรมได้โดยไม่ต้อง การดัดแปลงโมเดลด้วยตนเอง

ตัวอย่างเช่น รายการหนึ่งอาจใช้การประมวลผลภายหลังกับตัวแยกประเภทแบบไบนารี ด้วยการตั้งค่าเกณฑ์การจัดประเภท ความเท่าเทียมของโอกาสจะคงเดิม สำหรับแอตทริบิวต์บางรายการ โดยตรวจสอบว่าอัตราผลบวกจริง เหมือนกันสำหรับค่าของแอตทริบิวต์นั้น

การคาดการณ์

#fundamentals

เอาต์พุตของโมเดล เช่น

  • การคาดการณ์ของโมเดลการจัดประเภทแบบไบนารีจะเป็นค่าบวก หรือคลาสเชิงลบ
  • การคาดการณ์ของโมเดลการจัดประเภทแบบหลายคลาสคือ 1 คลาส
  • การคาดคะเนของโมเดลการถดถอยเชิงเส้นเป็นตัวเลข

ป้ายกำกับพร็อกซี

#fundamentals

ข้อมูลที่ใช้ในการประมาณป้ายกำกับที่ไม่มีในชุดข้อมูลโดยตรง

ตัวอย่างเช่น สมมติว่าคุณต้องฝึกโมเดลเพื่อคาดการณ์พนักงาน ความเครียด ชุดข้อมูลของคุณมีฟีเจอร์การคาดการณ์มากมาย ไม่มีป้ายกำกับที่ชื่อระดับความเครียด ไม่ต้องกังวล คุณเลือก "อุบัติเหตุในที่ทำงาน" เป็นป้ายกำกับพร็อกซีสำหรับ ความเครียด เพราะพนักงานที่มีความเครียดสูง มักจะใช้เวลามากกว่า มากกว่าพนักงานที่สงบนิ่ง หรือว่า อาจเกิดอุบัติเหตุในที่ทำงาน เพิ่มขึ้นและลดลงจากหลายสาเหตุ

ตัวอย่างที่สอง สมมติว่าคุณต้องการให้ฝนตกไหมเป็นป้ายกำกับบูลีน สำหรับชุดข้อมูล แต่ชุดข้อมูลไม่มีข้อมูลฝน ถ้า มีภาพถ่ายให้ใช้งาน คุณอาจสร้างภาพคน พกร่มเป็นป้ายกำกับพร็อกซีว่าฝนตกไหม ใช่ไหม ป้ายกำกับพร็อกซีที่ดีหรือไม่ ก็จริง แต่คนในบางวัฒนธรรมอาจ มีแนวโน้มที่จะพกร่มเพื่อป้องกันแสงแดดมากกว่าฝน

ป้ายกำกับพร็อกซีมักจะไม่สมบูรณ์ หากเป็นไปได้ ให้เลือกป้ายกำกับจริงแทน ป้ายกำกับพร็อกซี ซึ่งหมายความว่าเมื่อไม่มีป้ายกำกับจริง ให้เลือกพร็อกซี ติดป้ายกำกับอย่างระมัดระวัง โดยเลือกตัวเลือก, ป้ายกำกับพร็อกซีที่ไม่แม่นยำที่สุด

R

RAG

#fundamentals

ตัวย่อสำหรับ รุ่นที่รองรับการดึงข้อมูล

ผู้ให้คะแนน

#fundamentals

บุคคลที่ให้ป้ายกำกับสำหรับตัวอย่าง "ผู้เขียนคำอธิบายประกอบ" เป็นอีกชื่อหนึ่งของผู้ตรวจสอบ

หน่วยเชิงเส้นแบบหยัก (ReLU)

#fundamentals

ฟังก์ชันเปิดใช้งานที่มีลักษณะการทำงานดังต่อไปนี้

  • หากอินพุตเป็นลบหรือ 0 เอาต์พุตจะเป็น 0
  • หากอินพุตเป็นบวก เอาต์พุตจะเท่ากับอินพุต

เช่น

  • หากอินพุตเป็น -3 เอาต์พุตจะเป็น 0
  • ถ้าอินพุตคือ +3 เอาต์พุตจะเป็น 3.0

นี่คือโครงเรื่อง ReLU

พล็อตตัวการ์ตูนที่มี 2 บรรทัด บรรทัดแรกมีค่าคงที่
          ค่า y เป็น 0 วิ่งตามแกน x จาก -infinity, 0 ถึง 0,-0
          บรรทัดที่ 2 จะเริ่มที่ 0,0 เส้นนี้มีความชันของ +1 ดังนั้น
          ก็จะมีตั้งแต่ 0,0 ถึง +infinity,+infinity

ReLU เป็นฟังก์ชันเปิดใช้งานที่ได้รับความนิยมอย่างมาก แม้จะมีลักษณะการทำงานที่เรียบง่าย ReLU ยังคงทำให้โครงข่ายประสาทเรียนรู้แบบnonlinearได้ ความสัมพันธ์ระหว่าง features กับป้ายกำกับ

โมเดลการถดถอย

#fundamentals

โมเดลที่สร้างการคาดการณ์เชิงตัวเลขแบบไม่เป็นทางการ (ในทางตรงกันข้าม โมเดลการแยกประเภทจะสร้างคลาส prediction.) ตัวอย่างเช่น ต่อไปนี้คือโมเดลการถดถอยทั้งหมด

  • โมเดลที่คาดการณ์มูลค่าของบ้านหนึ่งๆ เช่น 423,000 ยูโร
  • โมเดลที่คาดการณ์อายุคาดเฉลี่ยของต้นไม้บางต้น เช่น 23.2 ปี
  • โมเดลที่คาดการณ์ปริมาณน้ำฝนที่จะลดลงในเมืองหนึ่งๆ ในอีก 6 ชั่วโมงข้างหน้า เช่น 0.18 นิ้ว

โมเดลการถดถอยที่พบบ่อย 2 ประเภท ได้แก่

โมเดลบางส่วนที่แสดงการคาดการณ์เชิงตัวเลขจะไม่เป็นโมเดลการถดถอย ในบางกรณี การคาดคะเนตัวเลขเป็นเพียงโมเดลการจัดประเภทเท่านั้น ที่มีชื่อคลาสเป็นตัวเลข ตัวอย่างเช่น โมเดลที่คาดการณ์ว่า รหัสไปรษณีย์ที่เป็นตัวเลขคือโมเดลการจัดประเภท ไม่ใช่รูปแบบการถดถอย

Regularization

#fundamentals

กลไกที่ลดการปรับมากเกินไป ประเภทการกำหนดมาตรฐานซึ่งเป็นที่นิยม ได้แก่

การกำหนดมาตรฐานยังอาจหมายถึงบทลงโทษสำหรับความซับซ้อนของโมเดล

อัตราปกติ

#fundamentals

ตัวเลขที่ระบุความสำคัญสัมพัทธ์ของ การทำให้เป็นรูปแบบเดิมในระหว่างการฝึก ยกระดับ อัตราการแปลงมาตรฐานช่วยลดการปรับมากเกินไปแต่อาจ ลดกำลังการคาดการณ์ของโมเดลลง ในทางกลับกัน การลดหรือละเว้น อัตรามาตรฐานจะทำให้มีการปรับมากเกินไป

ReLU

#fundamentals

ตัวย่อของหน่วยเชิงเส้นที่แก้ไขแล้ว

การสร้างแบบเสริมการดึงข้อมูล (RAG)

#fundamentals

เทคนิคในการปรับปรุงคุณภาพ เอาต์พุตโมเดลภาษาขนาดใหญ่ (LLM) ด้วยแหล่งข้อมูลความรู้ที่ดึงมาหลังจากการฝึกโมเดล RAG ช่วยเพิ่มความแม่นยำในการตอบสนองของ LLM ด้วยการมอบ LLM ที่ผ่านการฝึกแล้ว เข้าถึงข้อมูลที่ดึงมาจากฐานความรู้หรือเอกสารที่เชื่อถือได้

แรงจูงใจทั่วไปในการใช้การสร้างที่เสริมด้วยการดึงข้อมูลมีดังนี้

  • เพิ่มความถูกต้องข้อเท็จจริงของคำตอบที่โมเดลสร้างขึ้น
  • ให้สิทธิ์เข้าถึงความรู้ที่โมเดลไม่ได้รับการฝึก
  • เปลี่ยนความรู้ที่โมเดลใช้
  • กำลังเปิดใช้โมเดลเพื่ออ้างอิงแหล่งที่มา

ตัวอย่างเช่น สมมติว่าแอปเคมีใช้คอลัมน์ PaLM API เพื่อสร้างข้อมูลสรุป ที่เกี่ยวข้องกับการค้นหาของผู้ใช้ เมื่อแบ็กเอนด์ของแอปได้รับคำค้นหา แบ็กเอนด์จะดำเนินการต่อไปนี้

  1. ค้นหาข้อมูล ("ดึง") ที่เกี่ยวข้องกับการค้นหาของผู้ใช้
  2. เพิ่ม ("การเสริม") ข้อมูลเคมีที่เกี่ยวข้องในข้อความค้นหาของผู้ใช้
  3. สั่งให้ LLM สร้างสรุปตามข้อมูลที่เพิ่มเข้ามา

เส้นโค้ง ROC (ลักษณะในการทำงานของตัวรับ)

#fundamentals

กราฟของอัตราผลบวกจริงเทียบกับ อัตราผลบวกลวงสำหรับค่าที่แตกต่างกัน เกณฑ์การจัดประเภทในไบนารี การจำแนกประเภท

รูปร่างของเส้นโค้ง ROC บ่งบอกถึงความสามารถของโมเดลการจัดประเภทแบบไบนารี เพื่อแยกคลาสเชิงบวกออกจากคลาสเชิงลบ ตัวอย่างเช่น โมเดลการจัดประเภทแบบไบนารีจะแยกตัวแปรเชิงลบทั้งหมด จากชั้นเรียนเชิงบวกทั้งหมด ได้แก่

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 8 ตัวอย่างอยู่ด้านขวาและ
          ตัวอย่างเชิงลบ 7 รายการทางด้านซ้าย

กราฟ ROC สำหรับโมเดลก่อนหน้ามีลักษณะดังนี้

เส้นโค้ง ROC แกน x คืออัตราผลบวกลวงและแกน y
          คืออัตราผลบวกจริง เส้นโค้งมีรูปตัว L แบบกลับสี เส้นโค้ง
          เริ่มต้นที่ (0.0,0.0) และไปจนถึง (0.0,1.0) จากนั้นเส้นโค้ง
          เปลี่ยนจาก (0.0,1.0) เป็น (1.0,1.0)

ในทางตรงกันข้าม ภาพประกอบต่อไปนี้แสดงกราฟการถดถอยแบบโลจิสติกส์แบบข้อมูลดิบ สำหรับโมเดลที่แย่ซึ่งไม่สามารถแยกคลาสเชิงลบออกจาก ชั้นเรียนเชิงบวกเลย:

เส้นจำนวนที่มีตัวอย่างบวกและคลาสลบ
          ที่มีการปะปนกันอย่างสมบูรณ์

เส้นโค้ง ROC สำหรับโมเดลนี้จะมีลักษณะดังนี้

เส้นโค้ง ROC ซึ่งที่จริงแล้วเป็นเส้นตรงจาก (0.0,0.0)
          เป็น (1.0,1.0)

ในขณะเดียวกัน เมื่อมองในโลกแห่งความเป็นจริง โมเดลการจัดประเภทแบบไบนารีส่วนใหญ่จะแยกประเภท คลาสบวกและลบในระดับหนึ่ง แต่มักจะไม่สมบูรณ์แบบ ดังนั้น กราฟ ROC ตามปกติจะอยู่ระหว่างปลายทั้งสองด้าน ได้แก่

เส้นโค้ง ROC แกน x คืออัตราผลบวกลวงและแกน y
          คืออัตราผลบวกจริง กราฟ ROC โคจรคล้ายโค้งที่สั่นไหว
          เดินทางข้ามเข็มทิศจากทิศตะวันตกไปยังทิศเหนือ

จุดบนกราฟ ROC ที่ใกล้เคียงที่สุด (0.0,1.0) ในทางทฤษฎีจะระบุค่า เกณฑ์การจัดประเภทที่เหมาะสม อย่างไรก็ตาม ปัญหาอื่นๆ ในชีวิตจริง มีผลต่อการเลือกเกณฑ์การจัดประเภทที่เหมาะสม ตัวอย่างเช่น ผลลบลวงอาจสร้างความเจ็บปวดมากกว่าผลบวกลวง

เมตริกเชิงตัวเลขที่เรียกว่า AUC จะสรุปเส้นโค้ง ROC เป็น ค่าทศนิยมค่าเดียว

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)

#fundamentals

รากที่สองของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง

S

ฟังก์ชันซิกมอยด์

#fundamentals

ฟังก์ชันทางคณิตศาสตร์ที่ "ขีดทับ" ค่าอินพุตในช่วงที่จำกัด โดยทั่วไป 0 ถึง 1 หรือ -1 ถึง +1 กล่าวคือ คุณสามารถส่งผ่านตัวเลขใดก็ได้ (2, 000, 000, ลบพันล้านก็ได้ ฯลฯ) ลงใน sigmoid และผลลัพธ์จะยังคงอยู่ใน ที่จำกัด พล็อตฟังก์ชันการเปิดใช้งาน Sigmoid มีลักษณะดังนี้

แผนภูมิโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมน
          -ไม่สิ้นสุด ถึง +บวก ในขณะที่ค่า y ครอบคลุมช่วงเกือบ 0 ถึง
          เกือบ 1. เมื่อ x เท่ากับ 0 แล้ว y จะเท่ากับ 0.5 ความชันของเส้นโค้งเสมอ
          เป็นบวก โดยมีความชันสูงสุดที่ 0,0.5 และค่อยๆ ลดลง
          มีความชันเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ฟังก์ชัน Sigmoid มีประโยชน์หลายอย่างในแมชชีนเลิร์นนิง ได้แก่

Softmax

#fundamentals

ฟังก์ชันที่กำหนดความน่าจะเป็นสำหรับคลาสที่เป็นไปได้แต่ละคลาสใน โมเดลการจัดประเภทแบบหลายคลาส ความน่าจะเป็นรวมกัน เป็น 1.0 พอดี ตัวอย่างเช่น ตารางต่อไปนี้แสดงวิธีที่ Softmax กระจาย ความน่าจะเป็นต่างๆ

รูปภาพคือ... Probability
สุนัข .85
cat .13
ม้า .02

Softmax มีชื่อเรียกอีกอย่างว่า Full softmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

ฟีเจอร์บางส่วน

#language
#fundamentals

ฟีเจอร์ที่มีค่าเป็น 0 หรือเป็นค่าว่างเป็นส่วนใหญ่ ตัวอย่างเช่น ฟีเจอร์ที่มีค่า 1 ค่าเดียวและ 0 ล้านค่าเป็น 0 ล้านค่า Sparse ในทางตรงกันข้าม ฟีเจอร์ความหนาแน่นมีค่าที่ ไม่ควรเป็น 0 หรือว่างเปล่าเป็นหลัก

ในแมชชีนเลิร์นนิง ฟีเจอร์จำนวนที่ไม่น้อยก็คือฟีเจอร์จำนวนน้อย ฟีเจอร์เชิงหมวดหมู่มักจะเป็นองค์ประกอบแบบคร่าวๆ ตัวอย่างเช่น จากจำนวนต้นไม้ที่เป็นไปได้ 300 ชนิดในป่า 1 ตัวอย่าง อาจระบุแค่ต้นเมเปิล หรือจากวิดีโอหลายล้านรายการ ของวิดีโอที่เป็นไปได้ในไลบรารีวิดีโอ ตัวอย่างหนึ่งอาจระบุ แค่ "Casablanca"

ในโมเดล คุณมักจะแสดงคุณลักษณะที่มีขนาดเล็กด้วย การเข้ารหัสแบบฮอตเดียว หากการเข้ารหัสแบบ One-hot มีขนาดใหญ่ คุณอาจวางเลเยอร์การฝังทับ เพื่อประสิทธิภาพที่ดียิ่งขึ้น

การนำเสนอแบบกระจัดกระจาย

#language
#fundamentals

จัดเก็บเฉพาะตำแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์บางส่วน

ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ species ระบุรหัส 36 ชนิดของต้นไม้ในป่าแห่งหนึ่ง สมมติว่าแต่ละ example ระบุสปีชีส์เพียงชนิดเดียว

คุณสามารถใช้เวกเตอร์ร้อนเดียวเพื่อแสดงสปีชีส์ของต้นไม้ในแต่ละตัวอย่างได้ เวกเตอร์หนึ่งฮ็อตจะมี 1 เดี่ยว (เพื่อแสดง ชนิดของต้นไม้ในตัวอย่างดังกล่าว) และ 35 0 (เพื่อแสดง ประเภทต้นไม้ 35 ชนิดที่ไม่ได้ในตัวอย่างนี้) ดังนั้น การนำเสนอที่น่าสนใจ ของ maple อาจมีลักษณะดังต่อไปนี้

เวกเตอร์ที่ตำแหน่ง 0 ถึง 23 จะคงค่า 0 ไว้
          24 จะเก็บค่า 1 ส่วนอันดับ 25 ถึง 35 จะมีค่าเป็น 0

อีกทางเลือกหนึ่งคือการนำเสนอแบบคร่าวๆ จะระบุตำแหน่งของ สายพันธุ์เฉพาะ หาก maple อยู่ที่ตำแหน่ง 24 การแสดงค่าเพียงเล็กน้อย ของ maple จะเป็นดังนี้

24

สังเกตว่าการนำเสนอแบบกระทัดรัดจะเป็นแบบร้อนแรงเพียงรอบเดียวมาก การให้คำแนะนำ

เวกเตอร์กระจัดกระจาย

#fundamentals

เวกเตอร์ที่มีค่าส่วนใหญ่เป็น 0 ดูเพิ่มเติมที่ sparse ฟีเจอร์และความเท่าเทียม

การสูญหายยกกำลังสอง

#fundamentals

คำพ้องความหมายของ L2 Los

คงที่

#fundamentals

บางอย่างทำเพียงครั้งเดียวแทนที่จะทำอย่างต่อเนื่อง คำว่าคงที่และออฟไลน์เป็นคำพ้องความหมาย ต่อไปนี้เป็นการใช้งานทั่วไปของแบบคงที่และออฟไลน์ในเครื่อง การเรียนรู้:

  • โมเดลแบบคงที่ (หรือโมเดลออฟไลน์) คือโมเดลที่ได้รับการฝึกครั้งเดียว จากนั้น ไปได้ระยะหนึ่ง
  • การฝึกอบรมแบบคงที่ (หรือการฝึกอบรมออฟไลน์) เป็นกระบวนการฝึก โมเดลแบบคงที่
  • การอนุมานแบบคงที่ (หรือการอนุมานแบบออฟไลน์) คือ ที่โมเดลสร้างกลุ่มการคาดการณ์ต่อครั้ง

ตัดกับไดนามิก

การอนุมานแบบคงที่

#fundamentals

คำพ้องความหมายของการอนุมานออฟไลน์

ความคงที่

#fundamentals

ฟีเจอร์ที่ค่าไม่เปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักเกิดขึ้นตามเวลา ตัวอย่างเช่น ฟีเจอร์ที่มีค่าพอๆ กันในปี 2021 และ ปี 2023 จัดแสดงเรื่องราวที่ตรงไปตรงมา

ในโลกแห่งความเป็นจริง มีเพียงไม่กี่รายการที่แสดงความเป็นกลาง ฟีเจอร์เท่าๆ กัน มีความหมายเดียวกับความมั่นคง (เช่น ระดับน้ำทะเล) ที่เปลี่ยนแปลงเมื่อเวลาผ่านไป

คอนทราสต์กับ nonstationarity

การไล่ระดับสีแบบสโตแคติก (SGD)

#fundamentals

อัลกอริทึมการไล่ระดับสีโดยมาก ขนาดกลุ่มเท่ากับ 1 กล่าวคือ SGD รถไฟบน ตัวอย่างเดียวที่เลือกอย่างเท่าเทียมกัน แบบสุ่มจากชุดการฝึก

แมชชีนเลิร์นนิงที่มีการควบคุมดูแล

#fundamentals

ฝึกโมเดลจากฟีเจอร์และ ป้ายกำกับที่เกี่ยวข้อง แมชชีนเลิร์นนิงที่มีการควบคุมดูแลคล้ายกัน ในการเรียนรู้แต่ละหัวข้อด้วยการศึกษาชุดคำถามและ คำตอบที่เกี่ยวข้อง หลังจากทำความเข้าใจการจับคู่ระหว่างคำถามกับ นักเรียนจะให้คำตอบใหม่ (ไม่เคยเห็นมาก่อน) ได้ คำถามในหัวข้อเดียวกัน

เปรียบเทียบกับ แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

ฟีเจอร์สังเคราะห์

#fundamentals

ฟีเจอร์ที่ไม่มีอยู่ในฟีเจอร์อินพุต แต่มี ประกอบขึ้นจากองค์ประกอบเหล่านั้นอย่างน้อย 1 อย่าง วิธีการสร้างฟีเจอร์สังเคราะห์ ได้แก่

  • การฝากข้อมูล ฟีเจอร์ต่อเนื่องลงในถังขยะตามช่วง
  • การสร้างกากบาทฟีเจอร์
  • การคูณ (หรือหาร) ค่าฟีเจอร์หนึ่งด้วยค่าฟีเจอร์อื่น หรือโดยตัวมันเอง ตัวอย่างเช่น ถ้า a และ b เป็นฟีเจอร์อินพุต ค่า ต่อไปนี้เป็นตัวอย่างของคุณลักษณะสังเคราะห์:
    • Ab
    • 2
  • การใช้ฟังก์ชันทวิภาคกับค่าจุดสนใจ ตัวอย่างเช่น หาก c เป็นฟีเจอร์อินพุต ต่อไปนี้คือตัวอย่างของฟีเจอร์สังเคราะห์
    • sin(c)
    • ln(c)

ฟีเจอร์ที่สร้างโดยการปรับให้เป็นมาตรฐานหรือการปรับขนาด ไม่ถือว่าเป็นคุณลักษณะสังเคราะห์

T

การสูญเสียการทดสอบ

#fundamentals

เมตริกที่แสดงถึงความสูญเสียของโมเดลเทียบกับ ชุดทดสอบ เมื่อสร้างโมเดล คุณ พยายามลดการสูญเสียการทดสอบให้เหลือน้อยที่สุด เพราะการสูญเสียการทดสอบที่ต่ำ สัญญาณคุณภาพสูงกว่าการสูญเสียการฝึกต่ำ หรือ การสูญเสียการตรวจสอบต่ำ

มีช่องว่างอย่างมากระหว่างการสูญเสียการทดสอบและการสูญเสียการฝึกหรือการสูญเสียการตรวจสอบในบางครั้ง บ่งชี้ว่าคุณจะต้องเพิ่ม อัตราปกติ

การฝึกอบรม

#fundamentals

กระบวนการกำหนดพารามิเตอร์ที่เหมาะสม (น้ำหนักและ อคติ) ประกอบขึ้นเป็นโมเดล ในระหว่างการฝึก ระบบจะอ่านเป็น ตัวอย่าง แล้วค่อยๆ ปรับพารามิเตอร์ การฝึกใช้แต่ละองค์ประกอบ ตั้งแต่ 2-3 ครั้งไปจนถึงหลายพันล้านครั้ง

การสูญเสียการฝึกซ้อม

#fundamentals

เมตริกที่แสดงการสูญเสียของโมเดลระหว่าง การทำซ้ำการฝึกอบรมหนึ่งๆ โดยเฉพาะ ตัวอย่างเช่น สมมติว่าฟังก์ชันการสูญเสีย คือ ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง อาจเป็นการสูญเสียจากการฝึก (ค่าเฉลี่ย ข้อผิดพลาดในสี่เหลี่ยม) สำหรับการทำซ้ำครั้งที่ 10 คือ 2.2 และการสูญเสียการฝึกสำหรับ การทำซ้ำครั้งที่ 100 คือ 1.9

กราฟ Lost แสดงการสูญเสียการฝึกเทียบกับจำนวน ซ้ำหลายครั้ง กราฟการสูญเสียสิทธิ์เข้าถึงให้คำแนะนำเกี่ยวกับการฝึกต่อไปนี้

  • กราฟที่ชันลงหมายความว่าโมเดลมีการปรับปรุง
  • กราฟที่ชันขึ้นแสดงให้เห็นว่าโมเดลกำลังแย่ลง
  • กราฟที่มีความลาดชันแบบแบนราบ หมายความว่าโมเดลถึง convergence

ตัวอย่างเช่น เส้นโค้ง Loss ในอุดมคติต่อไปนี้ แสดง:

  • กราฟที่ลาดลงสูงชันในช่วงการทำซ้ำครั้งแรก ซึ่งแสดงนัยว่า การปรับปรุงโมเดลอย่างรวดเร็ว
  • การสไลด์แบบค่อยๆ แบน (แต่ยังคงลง) ไปจนใกล้ส่วนท้าย ของการฝึกอบรม ซึ่งก็หมายความว่ามีการปรับปรุงโมเดลอย่างต่อเนื่องใน ในอัตราที่ช้าลงระหว่างการปรับปรุงครั้งแรก
  • กราฟที่มีความลาดชันแบบแบนราบไปจนถึงช่วงท้ายของการฝึก ซึ่งบ่งบอกถึงการบรรจบกัน

แผนของการสูญเสียจากการฝึกเทียบกับการทำซ้ำ กราฟการสูญเสียนี้เริ่มต้น
     โดยมีพื้นที่ลาดลงสูงชัน ความชันจะค่อยๆ แบนจน
     ความชันจะกลายเป็น 0

แม้ว่าการสูญเสียการฝึกอบรมจะเป็นสิ่งสำคัญ โปรดดู ทั่วไป

ความคลาดเคลื่อนระหว่างการฝึกและการให้บริการ

#fundamentals

ความแตกต่างระหว่างประสิทธิภาพของรูปแบบในระหว่าง การฝึกทำงานและประสิทธิภาพของโมเดลเดียวกันในระหว่าง การแสดงผล

ชุดการฝึก

#fundamentals

ชุดย่อยของชุดข้อมูลที่ใช้ในการฝึกโมเดล

เดิมที ตัวอย่างในชุดข้อมูลจะแบ่งออกเป็น 3 ประเภทต่อไปนี้ ย่อยที่แตกต่างกัน:

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นของ ชุดย่อยที่อยู่ก่อนหน้า ตัวอย่างเช่น มีตัวอย่างหนึ่งที่ไม่ควรเป็น ทั้งชุดการฝึกและชุดการตรวจสอบ

ผลลบจริง (TN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์อย่างถูกต้อง คลาสเชิงลบ เช่น โมเดลอนุมานว่า ข้อความอีเมลรายการหนึ่งไม่ใช่สแปม และข้อความอีเมลดังกล่าวนั้น ไม่ใช่สแปม

ผลบวกจริง (TP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์อย่างถูกต้อง คลาสเชิงบวก เช่น โมเดลอนุมานว่า ข้อความอีเมลรายการหนึ่งเป็นสแปม และข้อความอีเมลนั้นเป็นสแปมจริงๆ

อัตราผลบวกจริง (TPR)

#fundamentals

คำพ้องความหมายของ recall โดยการ

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

อัตราผลบวกจริงคือแกน y ในเส้นโค้ง ROC

U

ไม่เหมาะสม

#fundamentals

สร้างโมเดลที่มีความสามารถในการคาดการณ์ต่ำเนื่องจากโมเดล ระบบไม่ได้บันทึกความซับซ้อนของข้อมูลการฝึกโดยสมบูรณ์ หลายปัญหา อาจทำให้เกิดการปรับที่ไม่เหมาะสม ซึ่งรวมถึง

ตัวอย่างที่ไม่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มี features แต่ไม่มี label ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่างที่ไม่มีป้ายกำกับจากบ้าน 3 ตัวอย่าง รูปแบบการประเมินราคา แต่ละแบบจะมี 3 ฟีเจอร์แต่ไม่มีมูลค่าบ้าน

จำนวนห้องนอน จำนวนห้องน้ำ อายุบ้าน
3 2 15
2 1 72
4 2 34

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกบนตัวอย่างที่ติดป้ายกำกับแล้วและทำการคาดการณ์ ตัวอย่างที่ไม่มีป้ายกำกับ

อยู่ในการควบคุมดูแลบางส่วนและ การเรียนรู้ที่ไม่ได้อยู่ภายใต้การควบคุมดูแล รวมทั้งใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการฝึก

เปรียบเทียบตัวอย่างที่ไม่มีป้ายกำกับกับตัวอย่างที่มีป้ายกำกับ

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

#clustering
#fundamentals

การฝึก model เพื่อค้นหารูปแบบในชุดข้อมูล โดยทั่วไปจะเป็น ชุดข้อมูลที่ไม่มีป้ายกำกับ

การใช้งานที่พบบ่อยที่สุดของแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลคือ ข้อมูล cluster ออกเป็นกลุ่มตัวอย่างที่คล้ายกัน เช่น เครื่องที่ไม่มีการควบคุมดูแล อัลกอริทึมการเรียนรู้สามารถจัดกลุ่มเพลงตามคุณสมบัติต่างๆ ของเพลงนั้นๆ คลัสเตอร์ที่ได้จะกลายเป็นอินพุตของเครื่องอื่นได้ อัลกอริทึมการเรียนรู้ (เช่น บริการแนะนำเพลง) การจัดกลุ่มสามารถช่วยได้เมื่อไม่มีป้ายกำกับที่มีประโยชน์หรือไม่มีป้ายกำกับที่เป็นประโยชน์ ตัวอย่างเช่น ในโดเมนต่างๆ เช่น การป้องกันการละเมิดและการประพฤติมิชอบ คลัสเตอร์สามารถช่วยได้ มนุษย์เข้าใจข้อมูลได้ดีขึ้น

แตกต่างจากแมชชีนเลิร์นนิงที่มีการควบคุมดูแล

V

การตรวจสอบความถูกต้อง

#fundamentals

การประเมินคุณภาพของโมเดลเบื้องต้น การตรวจสอบความถูกต้องจะตรวจสอบคุณภาพการคาดการณ์ของโมเดลเทียบกับ ชุดการตรวจสอบ

เนื่องจากชุดการตรวจสอบแตกต่างจากชุดการฝึก การตรวจสอบความถูกต้องจะช่วยป้องกันการใช้งานเกินความจำเป็น

คุณอาจมองว่าการประเมินโมเดลเทียบกับชุดการตรวจสอบความถูกต้องเป็น รอบแรกและประเมินโมเดลเทียบกับ test set เป็นการทดสอบรอบที่ 2

การสูญเสียการตรวจสอบ

#fundamentals

เมตริกที่แสดงการสูญเสียของโมเดลใน ชุดการตรวจสอบในช่วงเวลา การปรับปรุงการฝึก

โปรดดูกราฟทั่วไปด้วย

ชุดการตรวจสอบ

#fundamentals

เซ็ตย่อยของชุดข้อมูลที่ดำเนินการเริ่มต้น การประเมินเทียบกับโมเดลที่ผ่านการฝึก โดยปกติแล้ว คุณจะประเมิน โมเดลที่ฝึกเทียบกับชุดการตรวจสอบหลายรายการ ก่อนที่จะประเมินโมเดลเทียบกับชุดทดสอบ

แต่เดิม คุณแบ่งตัวอย่างในชุดข้อมูลออกเป็น 3 ส่วน ย่อยที่แตกต่างกัน:

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นของ ชุดย่อยที่อยู่ก่อนหน้า ตัวอย่างเช่น มีตัวอย่างหนึ่งที่ไม่ควรเป็น ทั้งชุดการฝึกและชุดการตรวจสอบ

W

น้ำหนัก

#fundamentals

ค่าที่โมเดลคูณด้วยค่าอื่น การฝึกเป็นกระบวนการพิจารณาน้ำหนักที่เหมาะสมของโมเดล การอนุมานเป็นกระบวนการใช้น้ำหนักที่เรียนรู้เพื่อ ทำการคาดคะเน

ผลรวมถ่วงน้ำหนัก

#fundamentals

ผลรวมของค่าอินพุตที่เกี่ยวข้องทั้งหมดคูณด้วยค่าที่ตรงกัน ยกน้ำหนัก ตัวอย่างเช่น สมมติว่าข้อมูลที่เกี่ยวข้องประกอบด้วยข้อมูลต่อไปนี้

ค่าที่ป้อน น้ำหนักอินพุต
2 -1.3
-1 0.6
3 0.4

ดังนั้น ผลรวมถ่วงน้ำหนักจึงเป็นดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

ผลรวมถ่วงน้ำหนักคืออาร์กิวเมนต์อินพุตของ ฟังก์ชันการเปิดใช้งาน

Z

การปรับคะแนนมาตรฐาน Z-Score

#fundamentals

เทคนิคการปรับขนาดที่แทนที่ไฟล์ RAW ค่า feature ที่มีจุดทศนิยมแทน จำนวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของจุดสนใจนั้น ตัวอย่างเช่น ลองพิจารณาฟีเจอร์ที่มีค่าเฉลี่ย 800 และมีมาตรฐาน ค่าเบี่ยงเบนคือ 100 ตารางต่อไปนี้แสดงวิธีการปรับคะแนนมาตรฐานให้เป็นมาตรฐาน จะจับคู่ค่าดิบกับคะแนน Z:

ค่าดิบ คะแนนมาตรฐาน
800 0
950 +1.5
575 -2.25

จากนั้นโมเดลแมชชีนเลิร์นนิงจะทำการฝึกด้วยคะแนนมาตรฐาน (Z-Score) สำหรับฟีเจอร์นั้นแทนค่าดิบ