อภิธานศัพท์แมชชีนเลิร์นนิง: ML พื้นฐาน

หน้านี้มีคําศัพท์ในอภิธานศัพท์ของ ML สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

ความแม่นยำ

#fundamentals

จํานวนการคาดการณ์การจัดประเภทที่ถูกต้องหารด้วยจํานวนการคาดการณ์ทั้งหมด โดยการ

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

เช่น โมเดลที่คาดการณ์ 40 คําอย่างถูกต้องและการคาดการณ์ที่ไม่ถูกต้อง 10 คําจะมีความแม่นยํา ดังนี้

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

การแยกประเภทไบนารีจะระบุชื่อที่เฉพาะเจาะจงสําหรับการคาดคะเนที่ถูกต้องในหมวดหมู่ต่างๆ และการคาดคะเนที่ไม่ถูกต้อง สูตรความถูกต้องของการจัดประเภทไบนารี มีดังนี้

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

ที่ไหน:

เปรียบเทียบค่าคอนทราสต์ กับความแม่นยําและการเรียกคืน

ฟังก์ชันการเปิดใช้งาน

#fundamentals

ฟังก์ชันที่ช่วยให้เครือข่ายระบบประสาทเรียนรู้ความสัมพันธ์ที่ไม่ใช่แบบเชิงเส้น (ซับซ้อน) ระหว่างฟีเจอร์กับป้ายกํากับ

ฟังก์ชันการเปิดใช้งานที่ได้รับความนิยมมีดังนี้

พล็อตของฟังก์ชันการเปิดใช้งานจะไม่มีเส้นตรงเป็นเส้นเดียว เช่น พล็อตของฟังก์ชันการเปิดใช้งาน ReLU ประกอบด้วย เส้นตรง 2 เส้น

พล็อตกราฟแบบ 2 เส้น บรรทัดแรกมีค่า y คงที่ของ 0 ซึ่งทํางานตามแกน x ตั้งแต่ -infinity, 0 ถึง 0,-0
          บรรทัดที่ 2 เริ่มต้นที่ 0,0 เส้นนี้มีความลาดชัน +1 ดังนั้นจึงทํางานตั้งแต่ 0,0 ถึง +อนันต์ + อนันต์

พล็อตของฟังก์ชันการเปิดใช้งาน sigmoid มีลักษณะดังต่อไปนี้

กราฟโค้ง 2 มิติที่มีค่า x จะครอบคลุมโดเมน -อนันต์เป็น +บวก ขณะที่ค่า y จะครอบคลุมช่วงเกือบ 0 ถึง 1 เมื่อ x เป็น 0 y จะเป็น 0.5 ความชันของเส้นโค้งจะเป็นค่าบวกเสมอ โดยความชันสูงสุดอยู่ที่ 0,0.5 และค่อยๆ ลดความลาดชันเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ปัญญาประดิษฐ์ (AI)

#fundamentals

โปรแกรมที่ไม่ใช่มนุษย์หรือโมเดลที่สามารถแก้ปัญหาที่ซับซ้อนได้ ตัวอย่างเช่น โปรแกรมหรือโมเดลที่แปลข้อความหรือโปรแกรมหรือโมเดลที่ระบุตัวตนของโรคจากภาพรังสี ภาพเหล่านี้แสดงปัญญาประดิษฐ์ (AI)

อย่างเป็นทางการแล้ว แมชชีนเลิร์นนิงคือช่องย่อยของปัญญาประดิษฐ์ (AI) แต่ในช่วงไม่กี่ปีที่ผ่านมา บางองค์กรได้เริ่มใช้คําว่าปัญญาประดิษฐ์และแมชชีนเลิร์นนิงสลับกันไป

AUC (พื้นที่ใต้เส้นโค้ง ROC)

#fundamentals

จํานวนระหว่าง 0.0 และ 1.0 แสดงถึงโมเดลการจัดประเภทไบนารีและความสามารถในการแยกชั้นเรียนเชิงบวกออกจากชั้นเรียนเชิงลบ ยิ่ง AUC ใกล้เคียงกับ 1.0 มากเท่าไร โมเดลก็จะแยกชั้นจากกันและกันได้ดีขึ้นเท่านั้น

ตัวอย่างเช่น ภาพประกอบต่อไปนี้แสดงโมเดลตัวแยกประเภทที่แยกคลาสเชิงบวก (วงรีสีเขียว) ออกจากคลาสเชิงลบ (สี่เหลี่ยมผืนผ้าสีม่วง) อย่างสมบูรณ์แบบ โมเดลที่สมจริงที่สุดนี้มี AUC เป็น 1.0 ดังนี้

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 8 ตัวอย่างที่ด้านหนึ่งและตัวอย่างเชิงลบอีก 9 ตัวอย่างในอีกด้านหนึ่ง

ในทางกลับกัน ภาพประกอบต่อไปนี้จะแสดงผลลัพธ์ของโมเดลตัวแยกประเภทที่จะสร้างผลลัพธ์แบบสุ่ม โมเดลนี้มี AUC เท่ากับ 0.5:

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 6 ตัวอย่างและตัวอย่างเชิงลบ 6 ตัวอย่าง
          ลําดับของตัวอย่างคือ เชิงบวก เชิงลบ
 เชิงบวก เชิงลบ เชิงบวก เชิงลบ เชิงบวก เชิงลบ เชิงบวก เชิงลบ เชิงบวก เชิงลบ

ได้ รูปแบบก่อนหน้านี้มี AUC เป็น 0.5 ไม่ใช่ 0.0

โมเดลส่วนใหญ่จะอยู่ระหว่างปลายทั้งสองด้าน ตัวอย่างเช่น โมเดลต่อไปนี้แยกผลบวกออกจากค่าลบเพียงเล็กน้อย ดังนั้นจะมี AUC อยู่ระหว่าง 0.5 ถึง 1.0 ดังนี้

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 6 ตัวอย่างและตัวอย่างเชิงลบ 6 ตัวอย่าง
          ลําดับของตัวอย่างเป็นเชิงลบ เชิงลบ เชิงลบ เชิงลบ เชิงบวก เชิงลบ เชิงบวก เชิงลบ เชิงบวก เชิงบวก เชิงบวก

AUC จะไม่สนใจค่าที่คุณกําหนดสําหรับเกณฑ์การจัดประเภท แต่ AUC จะพิจารณาเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมดแทน

การสืบพันธุ์

#fundamentals

อัลกอริทึมที่ใช้การไล่ระดับแบบไล่ระดับสีใน โครงข่ายระบบประสาท

การฝึกโครงข่ายประสาทเกี่ยวข้องกับการปรับปรุงหลายอย่างของรอบ 2 รอบต่อไปนี้

  1. ในระหว่างการส่งต่อ ระบบจะประมวลผลกลุ่ม ตัวอย่างเพื่อให้ได้ผลตอบแทนตามการคาดการณ์ ระบบจะเปรียบเทียบการคาดการณ์แต่ละรายการกับค่าป้ายกํากับแต่ละค่า ความแตกต่างระหว่างการคาดการณ์และค่าป้ายกํากับคือการสูญเสียสําหรับตัวอย่างดังกล่าว ระบบจะรวบรวมความสูญเสียของตัวอย่างทั้งหมดในการคํานวณการสูญเสียทั้งหมดสําหรับกลุ่มปัจจุบัน
  2. ระบบจะลดน้ําหนักของเซลล์ประสาททั้งหมดในทุกเลเยอร์ที่ซ่อนอยู่ในระหว่างการย้อนกลับ (การขยายกลับ)

โครงข่ายประสาทมักมีเซลล์ประสาทหลายเลเยอร์ที่ซ่อนอยู่ เซลล์ประสาทแต่ละเซลล์ย่อมก่อให้เกิดการสูญเสียโดยรวมแตกต่างกันไป การขยายน้ําหนักต่อเนื่องเป็นตัวกําหนดว่าจะเพิ่มหรือลดน้ําหนักที่ใช้กับเซลล์ประสาทใดหรือไม่

อัตราการเรียนรู้คือตัวคูณที่ควบคุมระดับความดังของการส่งต่อย้อนกลับแต่ละรายการที่เพิ่มหรือลดน้ําหนัก อัตราการเรียนรู้สูงจะเพิ่มหรือลดน้ําหนักแต่ละระดับได้มากกว่าอัตราการเรียนรู้ขนาดเล็ก

ในข้อกําหนดของแคลคูลัส การเผยแพร่ซ้ําจะใช้แคลคูลัส'กฎเชน กล่าวคือ การดําเนินการหลังคํานวณจะคํานวณอนุพันธ์บางส่วนของของข้อผิดพลาดตามพารามิเตอร์แต่ละรายการ ดูรายละเอียดเพิ่มเติมได้ที่บทแนะนําในหลักสูตรแมชชีนเลิร์นนิง

เมื่อหลายปีก่อน ผู้ฝึกวิชาชีพใน ML ต้องเขียนโค้ดเพื่อติดตั้งใช้งาน ปัจจุบัน ML API ที่ทันสมัย เช่น TensorFlow นําการนําไปใช้งานที่อยู่เบื้องหลังกลับมาใช้งานแล้ว ในที่สุด

กลุ่ม

#fundamentals

ชุดตัวอย่างที่ใช้ในการฝึกทําซ้ํา 1 รายการ ขนาดกลุ่มจะกําหนดจํานวนตัวอย่างเป็นกลุ่ม

อ่าน epoch เพื่อดูคําอธิบายเกี่ยวกับวิธีที่กลุ่มเกี่ยวข้องกับ Epoch

ขนาดกลุ่ม

#fundamentals

จํานวนตัวอย่างในกลุ่ม ตัวอย่างเช่น หากขนาดกลุ่มคือ 100 โมเดลจะประมวลผลตัวอย่าง 100 รายการตามการปรับปรุง

กลยุทธ์ขนาดกลุ่มยอดนิยมมีดังนี้

  • Stochastic Gradient Descent (SGD) โดยมีขนาดกลุ่มเป็น 1
  • แบตช์ทั้งหมดซึ่งขนาดของตัวอย่างคือจํานวนตัวอย่างในชุดการฝึกทั้งหมด เช่น ถ้าชุดการฝึกมีตัวอย่าง 1 ล้านตัวอย่าง ขนาดของกลุ่มก็จะเป็น 1 ล้านตัวอย่าง การดําเนินการแบบกลุ่มมักจะเป็นกลยุทธ์ที่ไม่มีประสิทธิภาพ
  • กลุ่มขนาดเล็กที่ขนาดกลุ่มมักจะอยู่ระหว่าง 10 ถึง 1000 การดําเนินการแบบกลุ่มมักเป็นกลยุทธ์ที่มีประสิทธิภาพมากที่สุด

อคติ (จริยธรรม/ความเป็นธรรม)

#fairness
#fundamentals

1. การตีกรอบ อคติ หรือความชอบ บางอย่าง บุคคล หรือกลุ่มบุคคล การให้น้ําหนักเหล่านี้อาจส่งผลกระทบต่อการรวบรวมและตีความข้อมูล การออกแบบระบบ และวิธีที่ผู้ใช้โต้ตอบกับระบบ รูปแบบการให้น้ําหนักพิเศษประเภทนี้รวมถึง:

2. ข้อผิดพลาดที่เป็นระบบที่เกิดจากการสุ่มตัวอย่างหรือกระบวนการรายงาน รูปแบบการให้น้ําหนักพิเศษประเภทนี้รวมถึง:

อย่าสับสนกับการให้น้ําหนักพิเศษในโมเดลแมชชีนเลิร์นนิงหรืออคติการคาดการณ์

อคติ (คณิตศาสตร์) หรือคําศัพท์เกี่ยวกับอคติ

#fundamentals

การสกัดกั้นหรือออฟเซ็ตจากต้นทาง การให้น้ําหนักพิเศษเป็นพารามิเตอร์ในโมเดลแมชชีนเลิร์นนิง ซึ่งมีลักษณะอย่างใดอย่างหนึ่งต่อไปนี้

  • w0

เช่น การให้น้ําหนักพิเศษคือ b ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ใน 2 มิติเส้นตรง การให้น้ําหนักพิเศษคือความหมาย "y-intercept." เช่น ลําเอียงของเส้นในภาพประกอบต่อไปนี้คือ 2

โครงเรื่องของเส้นที่มีทางลาดชัน 0.5 และการให้น้ําหนักพิเศษ (จุดตัดแกน y) เป็น 2

การให้น้ําหนักพิเศษเนื่องจากบางโมเดลไม่ได้เริ่มต้นจากต้นทาง (0,0) เช่น สมมติว่าสวนสนุกราคา 2 ยูโรเข้าและ 0.5 ยูโรต่อ 1 ชั่วโมงที่ลูกค้าเข้าพัก ดังนั้น โมเดลที่แมปต้นทุนทั้งหมดจึงมีการให้น้ําหนักพิเศษ 2 เนื่องจากต้นทุนต่ําสุดคือ 2 ยูโร

การให้น้ําหนักพิเศษจะไม่สับสนกับการให้น้ําหนักพิเศษด้านจริยธรรมและความยุติธรรม หรืออคติในการคาดการณ์

การแยกประเภทไบนารี

#fundamentals

งานการจัดประเภทประเภทหนึ่งที่คาดการณ์คลาสพิเศษ 1 จาก 2 คลาสต่อไปนี้

เช่น โมเดลแมชชีนเลิร์นนิง 2 แบบต่อไปนี้แยกประเภทไบนารี

  • แบบจําลองที่กําหนดว่าข้อความอีเมลเป็นสแปม (ชั้นเรียนในเชิงบวก) หรือไม่ใช่สแปม (ชั้นเรียนเชิงลบ)
  • โมเดลที่ประเมินอาการทางการแพทย์เพื่อดูว่าบุคคลมีโรคเฉพาะ (คลาสในเชิงบวก) หรือไม่มีโรคดังกล่าว (ชั้นเรียนเชิงลบ)

ตรงข้ามกับการแยกประเภทในหลายคลาส

นอกจากนี้ โปรดดูการถดถอยแบบโลจิสติกและเกณฑ์การจัดประเภท

การฝากข้อมูล

#fundamentals

การแปลงฟีเจอร์ 1 รายการเป็นฟีเจอร์ไบนารีหลายรายการ เรียกว่าที่เก็บข้อมูลหรือถังขยะ ซึ่งโดยทั่วไปจะอิงตามช่วงค่า ฟีเจอร์สับมักเป็นฟีเจอร์ต่อเนื่อง

ตัวอย่างเช่น แทนที่จะปรับเปลี่ยนอุณหภูมิเป็นฟีเจอร์จุดลอยตัวจุดเดียวต่อเนื่อง คุณอาจสับเปลี่ยนช่วงอุณหภูมิให้เป็นที่เก็บข้อมูลที่แยกจากกัน เช่น

  • <= 10 องศาเซลเซียสจะเป็นที่เก็บข้อมูล "cold"
  • 11 - 24 องศาเซลเซียสจะเป็นที่เก็บข้อมูล "temperate"
  • >= 25 องศาเซลเซียสจะเป็นที่เก็บข้อมูล "warm"

โมเดลนี้จะทํางานกับค่าทุกค่าในที่เก็บข้อมูลเดียวกัน เช่น ค่า 13 และ 22 จะอยู่ในที่เก็บข้อมูลชั่วคราว ดังนั้นโมเดลจึงจัดการทั้ง 2 ค่าให้เหมือนกัน

ข้อมูลเชิงหมวดหมู่

#fundamentals

ฟีเจอร์ประกอบด้วยชุดค่าที่เป็นไปได้ชุดที่เจาะจง ตัวอย่างเช่น พิจารณาฟีเจอร์ตามหมวดหมู่ชื่อ traffic-light-state ซึ่งมีค่าที่เป็นไปได้เพียง 1 ค่าจาก 3 ค่าต่อไปนี้

  • red
  • yellow
  • green

การนําเสนอ traffic-light-state ในรูปแบบการจัดหมวดหมู่จะคํานึงถึงผลกระทบที่มีต่อ red, green และ yellow ที่ส่งผลต่อพฤติกรรมของผู้ขับขี่

บางครั้งเราเรียกฟีเจอร์ตามหมวดหมู่ที่เรียกว่าฟีเจอร์แยกต่างหาก

ตรงข้ามกับข้อมูลตัวเลข

คลาส

#fundamentals

หมวดหมู่ของป้ายกํากับ เช่น

โมเดลการจัดประเภทจะคาดการณ์คลาส ในทางตรงกันข้าม โมเดลการเกิดปัญหาซ้ําจะคาดคะเนตัวเลขแทนคลาส

โมเดลการจัดประเภท

#fundamentals

โมเดลที่การคาดคะเนเป็นชั้นเรียน ตัวอย่างการจัดประเภททั้งหมดมีดังต่อไปนี้

  • โมเดลที่คาดการณ์ข้อความอินพุตของภาษา (ฝรั่งเศส หากเป็นภาษาสเปน อิตาลี)
  • โมเดลที่คาดการณ์ชนิดของต้นไม้ (เมเปิล? โอ๊ก Baobab ใช่ไหม)
  • โมเดลที่คาดการณ์คลาสเชิงบวกหรือเชิงลบสําหรับภาวะทางการแพทย์หนึ่งๆ

ในทางตรงกันข้าม โมเดลการเกิดปัญหาซ้ําจะคาดคะเนตัวเลขแทนคลาส

รูปแบบการจัดประเภทมีด้วยกัน 2 ประเภทโดยทั่วไป ได้แก่

เกณฑ์การจัดประเภท

#fundamentals

ในการแยกประเภทไบนารี จํานวนระหว่าง 0 และ 1 ที่แปลงเอาต์พุตดิบของโมเดลการถดถอยแบบโลจิสติกเป็นการคาดการณ์คลาสที่เป็นบวกหรือคลาสเชิงลบ โปรดทราบว่าเกณฑ์การจัดประเภทคือค่าที่มนุษย์เลือก ไม่ใช่ค่าที่การฝึกโมเดลเลือก

รูปแบบการถดถอยแบบโลจิสติกส์จะแสดงผลค่าดิบระหว่าง 0 ถึง 1 จากนั้นให้ทำดังนี้

  • หากค่าดิบนี้มากกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสเชิงบวก
  • หากค่าดิบนี้น้อยกว่าเกณฑ์การจัดประเภท ระบบจะคาดคะเนคลาสเชิงลบ

เช่น สมมติว่าเกณฑ์การจัดประเภทคือ 0.8 หากค่าดิบเป็น 0.9 โมเดลจะคาดการณ์คลาสเชิงบวก หากค่าดิบเป็น 0.7 โมเดลจะคาดการณ์คลาสเชิงลบ

ตัวเลือกเกณฑ์การจัดประเภทมีผลต่อจํานวน การตรวจสอบที่ผิดพลาดและ การตรวจสอบที่ผิดพลาดเป็นอย่างมาก

ชุดข้อมูลที่ไม่สมดุลกัน

#fundamentals

ชุดข้อมูลของปัญหาการจัดประเภทที่จํานวนป้ายกํากับทั้งหมดของแต่ละคลาสแตกต่างกันอย่างมาก เช่น ลองพิจารณาชุดข้อมูลการแยกประเภทไบนารีที่มีป้ายกํากับ 2 ป้าย ดังนี้

  • ป้ายกํากับเชิงลบ 1,000,000 ป้าย
  • ป้ายกํากับเชิงบวก 10 รายการ

อัตราส่วนของป้ายกํากับเชิงลบต่อบวกคือ 100,000 ต่อ 1 ดังนั้น ชุดข้อมูลนี้มีความไม่สมดุลกัน

ในทางตรงกันข้าม ชุดข้อมูลต่อไปนี้ไม่สมดุลกันเนื่องจากอัตราส่วนของป้ายกํากับเชิงลบต่อป้ายกํากับเชิงบวกค่อนข้างใกล้เคียง 1

  • 517 ป้ายกํากับเชิงลบ
  • ป้ายกํากับเชิงบวก 483 รายการ

นอกจากนี้ ชุดข้อมูลหลายคลาสยังทําให้ไม่สมดุลได้ด้วย ตัวอย่างเช่น ชุดข้อมูลการจัดประเภทแบบหลายคลาสต่อไปนี้ไม่สมดุลกันเนื่องจากป้ายกํากับหนึ่งมีตัวอย่างมากกว่าอีก 2 ป้ายกํากับ

  • ป้ายกํากับ 1,000,000 รายการที่มีคลาส "สีเขียว"
  • ป้ายกํากับ 200 ป้ายที่มีคลาส "สีม่วง"
  • ป้ายกํากับ 350 รายการที่มีคลาส "orange"

นอกจากนี้ โปรดดูเอนโทรปี, ชั้นเรียนหลัก และชั้นเรียนย่อย

การตัดเก็บ

#fundamentals

เทคนิคในการจัดการค่าที่ผิดปกติโดยทําตามวิธีใดวิธีหนึ่งต่อไปนี้

  • ค่า feature ที่มากกว่าค่าเกณฑ์ขั้นสูงสุดจะลดลงเป็นเกณฑ์สูงสุด
  • การเพิ่มค่าฟีเจอร์ที่น้อยกว่าเกณฑ์ขั้นต่ําจนถึงเกณฑ์ขั้นต่ําดังกล่าว

ตัวอย่างเช่น สมมติว่าค่า 0.5% ของบางฟีเจอร์อยู่นอกช่วง 40–60 ในกรณีนี้ สิ่งที่คุณทําได้มีดังนี้

  • ตัดค่าทั้งหมดที่เกิน 60 (เกณฑ์สูงสุด) ให้เหลือ 60 พอดี
  • ตัดค่าทั้งหมดที่ต่ํากว่า 40 (เกณฑ์ขั้นต่ํา) ให้เหลือ 40 พอดี

ค่าที่ผิดปกติอาจทําให้โมเดลเสียหาย ซึ่งบางครั้งอาจทําให้ weights ทํางานล้นในระหว่างการฝึก ค่าที่ผิดปกติบางอย่างยังทําให้เมตริกเสียอย่างมาก เช่น ความแม่นยํา การสร้างคลิปเป็นเทคนิคที่ใช้กันทั่วไปในการจํากัดความเสียหาย

การตัดการไล่ระดับสีจะบังคับค่าการไล่ระดับสีภายในช่วงที่กําหนดไว้ระหว่างการฝึก

เมทริกซ์ความสับสน

#fundamentals

ตาราง NxN ที่สรุปจํานวนการคาดคะเนที่ถูกต้องและไม่ถูกต้องที่โมเดลการจัดประเภททํา ลองดูตัวอย่างเมทริกซ์ความสับสนต่อไปนี้สําหรับโมเดลการแยกประเภทไบนารี

เนื้องอก (คาดการณ์แล้ว) ไม่ใช่เนื้องอก (คาดการณ์ไว้)
เนื้องอก (ความจริง) 180 บาท (TP) 1 (FPS)
ไม่ใช่เนื้อแท้ (ความจริง) 6 (FN) 452 (รัฐเทนเนสซี)

เมทริกซ์ความสับสนก่อนหน้านี้จะแสดงข้อมูลต่อไปนี้

  • จากการคาดการณ์ 19 รายการที่ข้อมูลจากการสังเกตการณ์คือ Tumor โมเดลนี้จัดประเภทเป็น 18 อย่างถูกต้อง และจัดประเภทผิด 1
  • จากการคาดการณ์ 458 รายการที่ข้อเท็จจริงพื้นฐานไม่ใช่ Tumor โมเดลได้รับการจัดประเภท 452 อย่างถูกต้องและจัดประเภทไม่ถูกต้อง 6 รายการ

เมทริกซ์ความสับสนสําหรับปัญหาเกี่ยวกับการจัดประเภทแบบหลายคลาส จะช่วยให้คุณระบุรูปแบบข้อผิดพลาดได้ เช่น พิจารณาเมทริกซ์ความสับสนต่อไปนี้สําหรับโมเดลการจัดประเภทแบบหลายคลาส 3 คลาสที่จัดหมวดหมู่ม่านตาประเภทต่างๆ 3 ประเภท (Virginica, Versicolor และ Setosa) เมื่อความจริงของพื้นคือ Virginica เมทริกซ์การโยงก็แสดงให้เห็นว่าโมเดลนี้มีแนวโน้มที่จะคาดการณ์ Versicolor มากกว่า Setosa อย่างมาก

  Setosa (ที่คาดการณ์) Versicolor (ที่คาดการณ์ไว้) เวอร์จิเนีย (ที่คาดการณ์ไว้)
Setosa (ข้อมูลจากการสังเกตการณ์โดยตรง) 88 12 0
Versicolor (ข้อมูลจากการสังเกตการณ์โดยตรง) 6 141 7
เวอร์จิเนีย (ข้อมูลจากการสังเกตการณ์โดยตรง) 2 27 109

อีกตัวอย่างหนึ่งคือเมทริกซ์ความสับสนอาจเปิดเผยว่าโมเดลที่ได้รับการฝึกฝนให้จดจําตัวเลขที่เขียนด้วยลายมือมีแนวโน้มที่จะคาดการณ์ 9 ไม่ใช่ 4 หรือคาดการณ์ 1 แทนที่จะเป็น 7 โดยผิดพลาด

เมตริกความสับสนประกอบด้วยข้อมูลที่เพียงพอในการคํานวณเมตริกประสิทธิภาพต่างๆ เช่น ความแม่นยําและการจําได้

ฟีเจอร์ต่อเนื่อง

#fundamentals

ฟีเจอร์แบบลอยที่มีช่วงของค่าที่เป็นไปได้ไม่รู้จบ เช่น อุณหภูมิหรือน้ําหนัก

คอนทราสต์กับฟีเจอร์ที่ไม่ต่อเนื่อง

Convergence

#fundamentals

รัฐจะมีค่าเมื่อค่าแพ้มีการเปลี่ยนแปลงน้อยมากหรือไม่มีเลย เมื่อมีการทําซ้ําแต่ละรายการ ตัวอย่างเช่น เส้นโค้งการเสียต่อไปนี้แนะนําการบรรจบกันที่การทําซ้ําประมาณ 700 ครั้ง

โครงเรื่องคาร์ทีเซียน แกน X หายไป แกน Y คือจํานวนการฝึกซ้ํา การสูญเสียจะสูงมากในระหว่างการทําซ้ํา 2-3 ครั้งแรก แต่ลดลงอย่างมาก หลังจากที่ทําซ้ําอีกประมาณ 100 ครั้ง การสูญเสียก็ยังคงลดลงแต่ค่อยๆ เพิ่มขึ้น หลังจากการทําซ้ําประมาณ 700 ครั้ง การสูญเสียจะคงที่

โมเดลพิจารณาเมื่อการฝึกเพิ่มเติมไม่ช่วยปรับปรุงโมเดล

ในการเรียนรู้เชิงลึก บางครั้งค่าความสูญเสียอาจคงที่หรือเกือบจะเหมือนกันเรื่อยๆ สําหรับการทําซ้ําหลายๆ ครั้งก่อนจากมากไปน้อย ในช่วงเวลาที่ยาวนาน มูลค่าที่คงที่อาจลดลงเรื่อยๆ คุณอาจพบว่า Conversion มีความไม่สอดคล้องกันอยู่เรื่อยๆ

ดูการหยุดก่อนกําหนด

D

DataFrame

#fundamentals

ประเภทข้อมูลแพนด้ายอดนิยมสําหรับการแสดงชุดข้อมูลในหน่วยความจํา

DataFrame คล้ายกับตารางหรือสเปรดชีต แต่ละคอลัมน์ของ DataFrame มีชื่อ (ส่วนหัว) และแต่ละแถวจะระบุโดยตัวเลขที่ไม่ซ้ํากัน

แต่ละคอลัมน์ใน DataFrame มีโครงสร้างเหมือนกับอาร์เรย์ 2D ยกเว้นว่าแต่ละคอลัมน์จะได้รับการกําหนดประเภทข้อมูลของตัวเอง

รวมถึงดูหน้าการอ้างอิง pandas.DataFrame อย่างเป็นทางการด้วย

ชุดข้อมูลหรือชุดข้อมูล

#fundamentals

การรวบรวมข้อมูลดิบ ซึ่งโดยทั่วไป (แต่ไม่เฉพาะ) จัดในรูปแบบใดรูปแบบหนึ่งต่อไปนี้

  • สเปรดชีต
  • ไฟล์ในรูปแบบ CSV (ค่าที่คั่นด้วยคอมมา)

โมเดลเชิงลึก

#fundamentals

เครือข่ายระบบประสาทที่มีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 ชั้น

โมเดลที่ลึกเรียกอีกอย่างว่าเครือข่ายโครงข่ายประสาทลึก

ขัดแย้งกับโมเดลแบบกว้าง

สถานที่หนาแน่น

#fundamentals

ฟีเจอร์ที่โดยส่วนใหญ่หรือค่าทั้งหมดไม่ใช่ 0 โดยปกติจะเป็น Tensor ของค่าทศนิยม ตัวอย่างเช่น Tensor องค์ประกอบ 10 ต่อไปนี้หนาแน่นเนื่องจาก 9 ค่าไม่ใช่ 0

8 3 7 5 2 4 0 4 9 6

คอนทราสต์กับฟีเจอร์กระจายข้อมูล

ความลึก

#fundamentals

ผลรวมของสิ่งต่อไปนี้ในโครงข่ายระบบประสาท

เช่น โครงข่ายระบบประสาทเทียมที่มีเลเยอร์ซ่อนอยู่ 5 ชั้นและชั้นเอาต์พุต 1 ชั้นที่มีความลึก 6 ระดับ

สังเกตว่าเลเยอร์อินพุตไม่มีอิทธิพลต่อความลึก

ไม่ต่อเนื่อง

#fundamentals

ฟีเจอร์ซึ่งมีชุดค่าที่เป็นไปได้แบบสัมบูรณ์ เช่น ฟีเจอร์ที่มีค่าเป็นสัตว์ ผัก หรือแร่เป็นฟีเจอร์ที่ยังไม่สมบูรณ์ (หรือเชิงหมวดหมู่) ก็ได้

คอนทราสต์กับฟีเจอร์ต่อเนื่อง

ไดนามิก

#fundamentals

มีการทํางานบ่อยครั้งหรือต่อเนื่อง คําว่าไดนามิกและออนไลน์คือคําพ้องความหมายในแมชชีนเลิร์นนิง การใช้งานไดนามิกและออนไลน์ทั่วไปในแมชชีนเลิร์นนิงมีดังนี้

  • รูปแบบแบบไดนามิก (หรือรูปแบบออนไลน์) คือรูปแบบที่ได้รับการฝึกซ้ําบ่อยหรือต่อเนื่อง
  • การฝึกอบรมแบบไดนามิก (หรือการฝึกอบรมออนไลน์) เป็นกระบวนการฝึกอบรมบ่อยๆ หรือต่อเนื่อง
  • การอนุมานแบบไดนามิก (หรือการอนุมานออนไลน์) คือขั้นตอนการสร้างการคาดการณ์ตามคําขอ

โมเดลแบบไดนามิก

#fundamentals

รุ่นที่ใช้บ่อย (หรืออาจต่อเนื่องกัน) โมเดลแบบไดนามิกคือการเรียนรู้และ&อ้างอิงตลอดชีวิต ซึ่งปรับให้เข้ากับข้อมูลที่เปลี่ยนแปลงอยู่ตลอดเวลา โมเดลแบบไดนามิกเรียกอีกอย่างว่าโมเดลออนไลน์

คอนทราสต์กับรูปแบบคงที่

จ.

การหยุดก่อนกําหนด

#fundamentals

วิธีสําหรับการปรับให้สอดคล้องตามมาตรฐานที่เกี่ยวข้องกับการสิ้นสุดการฝึกก่อนที่การฝึกจะสิ้นสุดและลดลง ในช่วงต้นของการหยุด คุณจะหยุดการฝึกโมเดลโดยเจตนาเมื่อการสูญเสียชุดข้อมูลตรวจสอบเริ่มเพิ่มขึ้น กล่าวคือเมื่อประสิทธิภาพภาพรวมแย่ลง

เลเยอร์แบบฝัง

#language
#fundamentals

เลเยอร์ที่ซ่อนอยู่แบบพิเศษที่ฝึกบนฟีเจอร์ตามหมวดหมู่ในระดับสูงเพื่อค่อยๆ เรียนรู้เวกเตอร์ที่ต่ําลงในการฝังเวกเตอร์ เลเยอร์แบบฝังช่วยให้โครงข่ายระบบประสาทเทียมสามารถฝึกงานได้อย่างมีประสิทธิภาพมากกว่าการฝึกเฉพาะที่ลักษณะตามหมวดหมู่ในระดับสูง

ตัวอย่างเช่น ปัจจุบัน Earth สนับสนุนต้นไม้ประมาณ 73,000 สายพันธุ์ สมมติว่าโครงสร้างแบบต้นไม้เป็นฟีเจอร์ในโมเดลของคุณ ดังนั้นเลเยอร์อินพุตของโมเดลมีองค์ประกอบฮอตฮิตความยาว 73,000 องค์ประกอบ ตัวอย่างเช่น อาจจะ baobab แทนดังนี้

อาร์เรย์ขององค์ประกอบ 73,000 องค์ประกอบ 6,232 รายการแรกจะมีค่าเป็น 0 องค์ประกอบถัดไปมีค่า 1 องค์ประกอบ 66,767 สุดท้ายมีค่า
     0

อาร์เรย์ 73,000 องค์ประกอบยาวมาก หากไม่เพิ่มเลเยอร์แบบฝังไปยังโมเดล การฝึกจะใช้เวลาค่อนข้างมาก เนื่องจากมีการคูณเลข 72,999 บางทีคุณอาจเลือกเลเยอร์แบบฝัง ซึ่งประกอบด้วยมิติข้อมูล 12 รายการ ดังนั้น เลเยอร์ที่ฝังจะค่อยๆ เรียนรู้ เวกเตอร์การฝังใหม่สําหรับต้นไม้แต่ละสายพันธุ์

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลสําหรับเลเยอร์แบบฝัง

Epoch

#fundamentals

การฝึกที่ผ่านชุดการฝึกทั้งหมด ซึ่งทําให้ตัวอย่างแต่ละรายการได้รับการดําเนินการเพียงครั้งเดียว

ค่า Epoch ดังกล่าวแสดงถึงการฝึกขนาด N/ขนาดกลุ่ม ซ้ํา โดยที่ N คือจํานวนตัวอย่างทั้งหมด

ตัวอย่างเช่น สมมติว่า

  • โดยชุดข้อมูลจะประกอบด้วยตัวอย่าง 1,000 ตัวอย่าง
  • ขนาดกลุ่มตัวอย่างคือ 50 ตัวอย่าง

ดังนั้น 1 Epoch จะต้องมีการทําซ้ํา 20 ครั้ง ดังนี้

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

example (ตัวอย่าง)

#fundamentals

ค่าของฟีเจอร์ 1 แถวและอาจมีป้ายกํากับ ตัวอย่างในการเรียนรู้ภายใต้การควบคุมดูแลแบ่งเป็น 2 หมวดหมู่ทั่วไป ดังนี้

ตัวอย่างเช่น สมมติว่าคุณกําลังฝึกโมเดลเพื่อกําหนดอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ต่อไปนี้เป็นตัวอย่างป้ายกํากับ 3 แบบ

ฟีเจอร์ ป้ายกำกับ
อุณหภูมิ ความชื้น ความดัน คะแนนสอบ
15 47 998 ดี
19 34 1020 ดีมาก
18 92 1012 ค่อนข้างแย่

ตัวอย่าง 3 รายการที่ไม่มีป้ายกํากับมีดังต่อไปนี้

อุณหภูมิ ความชื้น ความดัน  
12 62 1014  
21 47 1017  
19 41 1021  

แถวของชุดข้อมูลมักจะเป็นแหล่งที่มาดิบสําหรับตัวอย่าง ตัวอย่างโดยทั่วไปมักจะประกอบด้วยชุดย่อยของคอลัมน์ในชุดข้อมูล นอกจากนี้ ฟีเจอร์ในตัวอย่างยังอาจรวมถึงฟีเจอร์สังเคราะห์ เช่น กากบาทในฟีเจอร์

false negative (FN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์ คลาสเชิงลบโดยไม่ได้ตั้งใจ ตัวอย่างเช่น โมเดลจะคาดการณ์ว่าข้อความอีเมลหนึ่งๆ จะไม่ใช่สแปม (ชั้นเชิงลบ) แต่ข้อความอีเมลจริงๆ แล้วเป็นจดหมายขยะ

ผลบวกลวง (FPS)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงบวกโดยไม่ได้ตั้งใจ ตัวอย่างเช่น โมเดลจะคาดการณ์ว่าข้อความอีเมลหนึ่งๆ จะเป็นสแปม (ชั้นเรียนในเชิงบวก) แต่ข้อความนั้นไม่ใช่สแปม

อัตราผลบวกลวง (FPR)

#fundamentals

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลคาดการณ์คลาสเชิงบวกโดยไม่ได้ตั้งใจ สูตรต่อไปนี้จะคํานวณอัตราผลบวกลวง

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

อัตราผลบวกลวงคือแกน x ในเส้นโค้ง ROC

ฟีเจอร์

#fundamentals

ตัวแปรอินพุตของโมเดลแมชชีนเลิร์นนิง ตัวอย่าง ประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ ตัวอย่างเช่น สมมติว่าคุณกําลังฝึกโมเดลเพื่อกําหนดอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตารางต่อไปนี้แสดงตัวอย่าง 3 ตัวอย่าง แต่ละรายการมีฟีเจอร์ 3 รายการและป้ายกํากับ 1 รายการ

ฟีเจอร์ ป้ายกำกับ
อุณหภูมิ ความชื้น ความดัน คะแนนสอบ
15 47 998 92
19 34 1020 84
18 92 1012 87

ตรงข้ามกับป้ายกํากับ

ครอสฟีเจอร์

#fundamentals

ฟีเจอร์สังเคราะห์ที่เกิดจากฟีเจอร์ "การขีดฆ่า" ตามหมวดหมู่หรือที่เก็บข้อมูล

เช่น ลองพิจารณา "อารมณ์ที่คาดการณ์" โมเดลที่แสดงถึงอุณหภูมิในที่เก็บข้อมูล 1 ใน 4 รายการต่อไปนี้

  • freezing
  • chilly
  • temperate
  • warm

และแสดงถึงความเร็วลมในที่เก็บข้อมูล 1 ใน 3 รายการต่อไปนี้

  • still
  • light
  • windy

หากไม่มีไม้กางเขนเกี่ยวกับฟีเจอร์ โมเดลเชิงเส้นจะฝึกแยกต่างหากในที่เก็บข้อมูลทั้ง 7 ส่วนก่อน ตัวอย่างเช่น โมเดลจะฝึกเกี่ยวกับ freezing แยกต่างหากจากการฝึก ตัวอย่างเช่น windy

หรือจะสร้างอีกฟีเจอร์หนึ่งที่ใช้อุณหภูมิและความเร็วลมได้ ฟีเจอร์สังเคราะห์นี้จะมีค่าที่เป็นไปได้ 12 ค่าต่อไปนี้

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

ฟีเจอร์ทําจากไม้กางเขน ทําให้โมเดลนี้สามารถเรียนรู้ความแตกต่างทางอารมณ์ระหว่าง freezing-windy วันกับอีก freezing-still วัน

หากคุณสร้างฟีเจอร์สังเคราะห์จากฟีเจอร์ 2 ฟีเจอร์ซึ่งแต่ละฟีเจอร์มีที่เก็บข้อมูลที่แตกต่างกันจํานวนมาก การข้ามของฟีเจอร์ผลลัพธ์จะมีชุดค่าผสมที่เป็นไปได้จํานวนมาก เช่น หากฟีเจอร์หนึ่งมีที่เก็บข้อมูล 1,000 รายการ และอีกหนึ่งฟีเจอร์มีที่เก็บข้อมูล 2,000 รายการ ครอสฟีเจอร์ที่ได้ก็จะมีที่เก็บข้อมูล 2,000,000 รายการ

เครื่องหมายกากบาท หรือคาร์ทีเซียนก็คือ

กากบาทในฟีเจอร์ส่วนใหญ่ใช้กับรูปแบบเชิงเส้นและไม่ค่อยใช้กับโครงข่ายระบบประสาทเทียม

Feature Engineering

#fundamentals
#TensorFlow

กระบวนการที่เกี่ยวข้องตามขั้นตอนต่อไปนี้

  1. การพิจารณาว่าฟีเจอร์ใดจะเป็นประโยชน์ในการฝึกโมเดล
  2. การแปลงข้อมูลดิบจากชุดข้อมูลให้เป็นฟีเจอร์ที่มีประสิทธิภาพเวอร์ชันเหล่านั้น

ตัวอย่างเช่น คุณอาจพิจารณาว่า temperature อาจเป็นฟีเจอร์ที่มีประโยชน์ จากนั้นอาจลองใช้ที่เก็บข้อมูลเพื่อเพิ่มประสิทธิภาพสิ่งที่โมเดลเรียนรู้ได้จาก temperature ช่วงต่างๆ

บางครั้งวิศวกรรมฟีเจอร์จะเรียกว่าการแยกฟีเจอร์

ชุดฟีเจอร์

#fundamentals

กลุ่มฟีเจอร์ที่แมชชีนเลิร์นนิงฝึกสอน ตัวอย่างเช่น รหัสไปรษณีย์ ขนาดพร็อพเพอร์ตี้ และสภาพพร็อพเพอร์ตี้ อาจประกอบขึ้นจากชุดฟีเจอร์ง่ายๆ สําหรับโมเดลที่คาดการณ์ราคาที่อยู่อาศัย

เวกเตอร์ฟีเจอร์

#fundamentals

อาร์เรย์ของค่า feature ที่ประกอบด้วยตัวอย่าง เวกเตอร์ฟีเจอร์เป็นอินพุตระหว่างการฝึกและระหว่างการอนุมาน ตัวอย่างเช่น เวกเตอร์ฟีเจอร์สําหรับโมเดลที่มี 2 องค์ประกอบต่อไปนี้

[0.92, 0.56]

เลเยอร์ 4 ชั้น: เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 ชั้น และเลเยอร์เอาต์พุตหนึ่งเลเยอร์
          เลเยอร์อินพุตมี 2 โหนด โหนดหนึ่งมีค่า 0.92 และอีกโหนดที่มีค่า 0.56

ตัวอย่างแต่ละรายการแสดงค่าที่แตกต่างกันของเวกเตอร์ฟีเจอร์ ดังนั้น เวกเตอร์ของฟีเจอร์สําหรับตัวอย่างถัดไปอาจเป็นค่าดังนี้

[0.73, 0.49]

วิศวกรรมฟีเจอร์จะเป็นตัวกําหนดวิธีนําเสนอฟีเจอร์ในเวกเตอร์ฟีเจอร์ เช่น ฟีเจอร์ตามหมวดหมู่แบบไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าอาจแสดงเป็นการเข้ารหัสแบบใช้ครั้งเดียว ในกรณีนี้ ส่วนของเวกเตอร์ฟีเจอร์สําหรับตัวอย่างจะประกอบด้วย 0 จํานวน 1 และ 1.0 รายการเดียวในตําแหน่งที่ 3 ดังนี้

[0.0, 0.0, 1.0, 0.0, 0.0]

อีกตัวอย่างหนึ่งคือ สมมติว่าโมเดลของคุณประกอบด้วย 3 ฟีเจอร์ต่อไปนี้

  • ฟีเจอร์เชิงหมวดหมู่ไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าซึ่งมาจากการเข้ารหัสแบบ 1 ค่า 5 ค่า เช่น [0.0, 1.0, 0.0, 0.0, 0.0]
  • ฟีเจอร์เชิงหมวดหมู่ไบนารีอื่นที่มี 3 ค่าที่เป็นไปได้ซึ่งแสดงด้วยการเข้ารหัสแบบ 1 ครั้ง เช่น [0.0, 0.0, 1.0]
  • ฟีเจอร์จุดลอยตัว เช่น 8.3

ในกรณีนี้ เวกเตอร์ฟีเจอร์สําหรับตัวอย่างแต่ละรายการจะแสดงด้วยค่า 9 ตามค่าตัวอย่างในรายการก่อนหน้านี้ เวกเตอร์ฟีเจอร์จะเป็น

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

รายงานความคิดเห็น

#fundamentals

ในแมชชีนเลิร์นนิง สถานการณ์ที่การคาดคะเนของโมเดลจะส่งผลต่อข้อมูลการฝึกของโมเดลเดียวกันหรือโมเดลอื่น เช่น โมเดลที่แนะนําภาพยนตร์จะส่งผลต่อภาพยนตร์ที่ผู้คนเห็น ซึ่งจะส่งผลต่อโมเดลภาพยนตร์ที่แนะนําในภายหลัง

G

ทั่วไป

#fundamentals

ความสามารถของ model's ในการคาดการณ์ข้อมูลใหม่ที่ยังไม่มีข้อมูลก่อนหน้านี้ โมเดลที่สามารถสร้างความแตกต่างได้จะตรงกันข้ามกับโมเดลที่กําลังปรับขนาด

เส้นโค้งทั่วไป

#fundamentals

พล็อตของทั้งการสูญเสียการฝึกและการสูญเสียการตรวจสอบเป็นฟังก์ชันของจํานวนการปรับปรุง

เส้นโค้งทั่วไปจะช่วยให้คุณตรวจพบการเพิ่มประสิทธิภาพที่อาจเกิดขึ้น เช่น เส้นโค้งทั่วไปต่อไปนี้แนะนําการเน้นมากเกินไปเนื่องจากสูญเสียการตรวจสอบความถูกต้องจะสูงกว่าการสูญเสียการฝึกอย่างมาก

กราฟคาร์ทีเซียนที่แกน Y มีข้อความกํากับว่า &#39;การสูญเสีย&#39; และแกน x
          มีป้ายกํากับว่า &#39;การทําซ้ํา&#39; พล็อตกราฟ 2 รายการปรากฏขึ้น พล็อตหนึ่งแสดงการสูญเสียการฝึก และอีกรายการแสดงการสูญเสียการตรวจสอบ
          พล็อตทั้ง 2 แบบเริ่มต้นคล้ายๆ กัน แต่การสูญเสียการฝึกในช่วงนี้ลดลงไปต่ํากว่าการสูญเสียการตรวจสอบ

การไล่ระดับแบบไล่ระดับสี

#fundamentals

เทคนิคทางคณิตศาสตร์เพื่อลดการสูญเสีย การไล่ระดับแบบไล่ระดับสีจะปรับน้ําหนักและการให้น้ําหนักพิเศษอย่างต่อเนื่อง โดยค่อยๆ หาชุดค่าผสมที่ดีที่สุดเพื่อลดการสูญหายให้เหลือน้อยที่สุด

ไล่ระดับสีเก่า คือ เก่ากว่ามากหรือมากกว่าแมชชีนเลิร์นนิง

ข้อมูลจากการสังเกตการณ์โดยตรง

#fundamentals

เรียลลิตี้

สิ่งที่เกิดขึ้นจริง

เช่น ลองพิจารณาใช้การจัดประเภทไบนารีที่คาดการณ์ว่านักศึกษาปี 1 มหาวิทยาลัยจะจบการศึกษาภายใน 6 ปีหรือไม่ ความจริงของรูปแบบนี้ก็คือว่านักเรียน จบการศึกษาจริงๆ ภายใน 6 ปีหรือไม่

H

เลเยอร์ที่ซ่อนอยู่

#fundamentals

เลเยอร์ในเครือข่ายระบบประสาทระหว่างเลเยอร์อินพุต (ฟีเจอร์) กับเลเยอร์เอาต์พุต (การคาดคะเน) เลเยอร์ที่ซ่อนแต่ละเลเยอร์ประกอบด้วยเซลล์ประสาทอย่างน้อย 1 ชั้น ตัวอย่างเช่น โครงข่ายระบบประสาทต่อไปนี้มีเลเยอร์ที่ซ่อนอยู่ 2 ชั้น ส่วนแรกมีเซลล์ประสาท 3 เซลล์ และอีกเซลล์มีเซลล์ประสาท 2 เซลล์ ได้แก่

4 ชั้น เลเยอร์แรกคือเลเยอร์อินพุตที่มี 2 ฟีเจอร์ ชั้นที่ 2 คือชั้นที่ซ่อนอยู่ซึ่งมีเซลล์ประสาท 3 เซลล์ เลเยอร์ที่ 3 คือเลเยอร์ที่ซ่อนอยู่ซึ่งมีเซลล์ประสาท 2 รายการ เลเยอร์ที่ 4 คือเลเยอร์เอาต์พุต แต่ละฟีเจอร์มีขอบ 3 ด้าน โดยแต่ละด้านจะชี้ไปยังเซลล์ประสาทที่แตกต่างกันในเลเยอร์ที่ 2 เซลล์ประสาทแต่ละเลเยอร์ในเลเยอร์ที่สองมีขอบ 2 ด้าน โดยแต่ละเซลล์จะชี้ไปยังเซลล์ประสาทที่แตกต่างกันในเลเยอร์ที่ 3 เซลล์ประสาทแต่ละเลเยอร์ในเลเยอร์ที่สามจะมีขอบด้านหนึ่ง โดยแต่ละด้านจะชี้ไปยังชั้นเอาต์พุต

โครงข่ายประสาทแบบลึกมีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 ชั้น เช่น ภาพประกอบก่อนหน้านี้เป็นโครงข่ายประสาทส่วนลึกเนื่องจากโมเดลมีเลเยอร์ที่ซ่อนอยู่ 2 ชั้น

ไฮเปอร์พารามิเตอร์

#fundamentals

ตัวแปรที่คุณหรือบริการปรับแต่งไฮเปอร์พารามิเตอร์ ปรับเปลี่ยนระหว่างการฝึกโมเดลติดต่อกัน เช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์ คุณสามารถตั้งอัตราการเรียนรู้เป็น 0.01 ก่อนเซสชันการฝึกอบรมหนึ่งเซสชัน หากพิจารณาแล้วว่า 0.01 สูงเกินไป อาจกําหนดอัตราการเรียนรู้เป็น 0.003 สําหรับเซสชันการฝึกอบรมถัดไป

ในทางตรงกันข้าม พารามิเตอร์คือน้ําหนักและการให้น้ําหนักต่างๆ ที่โมเดล เรียนรู้ระหว่างการฝึก

I

เผยแพร่อย่างอิสระและเหมือนกันทั้งหมด (กล่าวคือ)

#fundamentals

ข้อมูลที่นํามาได้จากการกระจายที่ไม่เปลี่ยนแปลงและที่ที่แต่ละค่า ดึงมาไม่ได้ขึ้นอยู่กับค่าที่วาดไว้ก่อนหน้านี้ หรือก็คือ ก๊าซในอุดมคติของแมชชีนเลิร์นนิง ซึ่งเป็นแนวคิดทางคณิตศาสตร์ที่มีประโยชน์และแทบจะไม่เคยพบในโลกจริง ตัวอย่างเช่น การกระจายของผู้เข้าชมในหน้าเว็บอาจในช่วงระยะเวลาหนึ่งสั้นๆ กล่าวคือ การกระจายจะไม่เปลี่ยนแปลงในระหว่างกรอบเวลาสั้นๆ นั้น และการเข้าชมหนึ่งครั้งจะไม่ขึ้นอยู่กับการเข้าชมของอีกคนหนึ่ง แต่หากคุณขยายกรอบเวลานั้น ระยะเวลาที่ต่างกัน ของหน้าเว็บอาจทําให้ผู้เข้าชมเห็นความแตกต่าง

และดูการไม่ใช่สถานีเดียวกัน

การอนุมาน

#fundamentals

ในแมชชีนเลิร์นนิง กระบวนการทําการคาดคะเนโดยใช้โมเดลที่ฝึกแล้วกับตัวอย่างที่ไม่มีป้ายกํากับ

การอนุมานมีความหมายค่อนข้างต่างกันในสถิติ ดูรายละเอียดได้ที่บทความวิกิพีเดียเกี่ยวกับการอนุมานสถิติ

เลเยอร์อินพุต

#fundamentals

เลเยอร์ของเครือข่ายระบบประสาทที่เก็บเวกเตอร์ฟีเจอร์ นั่นก็คือ เลเยอร์อินพุตจะมีตัวอย่างสําหรับการฝึกหรือการอนุมาน ตัวอย่างเช่น เลเยอร์อินพุตในเครือข่ายระบบประสาท ประกอบด้วย 2 ฟีเจอร์ต่อไปนี้

เลเยอร์ 4 ชั้น ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 ชั้น และเลเยอร์เอาต์พุต

การตีความ

#fundamentals

ความสามารถในการอธิบายหรือนําเสนอโมเดล ML ที่ให้เหตุผลได้ในคําที่เข้าใจได้ของมนุษย์

ตัวอย่างเช่น โมเดลการถดถอยเชิงเส้นส่วนใหญ่สามารถตีความได้สูง (คุณแค่ต้องดูน้ําหนักที่ผ่านการฝึกแล้วของแต่ละฟีเจอร์) ป่าแห่งการตัดสินใจก็ตีความได้เหมือนกัน แต่บางรุ่นก็ต้องใช้การแสดงภาพที่ซับซ้อนเพื่อให้ตีความได้

การทําซ้ํา

#fundamentals

การอัปเดตพารามิเตอร์ model's เพียงครั้งเดียว ได้แก่ โมเดล#weights และ bias ในระหว่างการฝึก ขนาดกลุ่ม จะกําหนดจํานวนตัวอย่างที่โมเดลประมวลผลในการทําซ้ํา 1 ครั้ง ตัวอย่างเช่น หากขนาดกลุ่มคือ 20 โมเดลจะประมวลผลตัวอย่าง 20 ตัวอย่างก่อนปรับพารามิเตอร์

เมื่อฝึกโครงข่ายระบบประสาท การดําเนินการซ้ําๆ เพียงครั้งเดียวจะเกิดขึ้นกับ 2 รายการต่อไปนี้

  1. การส่งต่อการประเมินเพื่อประเมินการสูญเสียเป็นกลุ่ม
  2. บัตรผ่านย้อนกลับ (backpropagation) ปรับพารามิเตอร์' ตามการสูญเสียและอัตราการเรียนรู้

L

การกําหนดมาตรฐาน L0

#fundamentals

ประเภทของการปรับให้เป็นมาตรฐานซึ่งจะลงโทษจํานวนทั้งหมดของน้ําหนักที่ไม่ได้อยู่ในโมเดล ตัวอย่างเช่น โมเดลที่มีน้ําหนักที่ไม่ใช่ 11 จะถูกลงโทษมากกว่าโมเดลที่คล้ายกันที่มีน้ําหนักที่ไม่ใช่ 00 จํานวน 10

ตามปกติแล้ว L0 จะไม่ค่อยมีการใช้งาน

แพ้ L1

#fundamentals

ฟังก์ชันการสูญเสียจะคํานวณค่าสัมบูรณ์ของความแตกต่างระหว่างค่าป้ายกํากับจริงกับค่าที่รูปแบบคาดการณ์ ตัวอย่างเช่น ต่อไปนี้เป็นวิธีคํานวณการคํานวณ L1 สําหรับ แบทช์ 5 จาก 5 ตัวอย่างตัวอย่าง

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ไว้ของโมเดล ค่าสัมบูรณ์ของเดลต้า
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = แพ้ 1 ครั้ง

การสูญเสีย1มีความละเอียดอ่อนต่อค่าที่ผิดปกติ น้อยกว่าการสูญเสีย

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์คือการสูญเสีย L1 โดยเฉลี่ยต่อตัวอย่าง

การกําหนดมาตรฐาน L1

#fundamentals

ประเภทของการปรับให้เป็นมาตรฐานที่จะลงโทษน้ําหนักเมื่อเทียบกับสัดส่วนของค่าสัมบูรณ์ของน้ําหนัก การปรับเปลี่ยน 1 อย่างสม่ําเสมอจะช่วยเพิ่มน้ําหนักของฟีเจอร์ที่ไม่เกี่ยวข้องหรือแทบจะไม่เกี่ยวข้องเลยเพื่อให้เท่ากับ 0 ระบบจะนําฟีเจอร์ที่มีน้ําหนักเป็น 0 ออกจากโมเดลอย่างมีประสิทธิภาพ

ขัดแย้งกับ L2 การปรับเกณฑ์การค้นหา

แพ้ L2

#fundamentals

ฟังก์ชันการสูญเสียจะคํานวณค่าส่วนต่างของ ค่า label จริงกับค่าที่ model คาดการณ์ ตัวอย่างเช่น ต่อไปนี้เป็นวิธีคํานวณการคํานวณ L2 สําหรับ แบทช์ 5 จาก 5 ตัวอย่าง

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ไว้ของโมเดล เดลต้าสี่เหลี่ยมจัตุรัส
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = แพ้ 2 ครั้ง

เนื่องจากการยกกําลังสอง การสูญเสีย 2 ช่วยขยายอิทธิพลของค่าที่ผิดปกติ กล่าวคือ การสูญเสีย L2 จะตอบสนองต่อการคาดการณ์ที่ไม่ถูกต้องมากกว่าการสูญเสีย 1 เช่น การสูญเสีย L1 สําหรับกลุ่มก่อนหน้าจะเท่ากับ 8 ไม่ใช่ 16 โปรดสังเกตว่าค่าที่ผิดปกติ 1 จํานวน คิดเป็น 9 ใน 16

โมเดลการเกิดปัญหาซ้ํามักจะใช้การสูญเสีย 2 เป็นฟังก์ชันการสูญเสีย

ข้อผิดพลาดกําลังสองเฉลี่ยคือการสูญเสีย L2 โดยเฉลี่ยต่อตัวอย่าง การสูญเสียตั้งแต่ต้นคืออีกชื่อหนึ่งของการสูญเสีย L2

การกําหนดมาตรฐาน L2

#fundamentals

ประเภทของการปรับให้เป็นมาตรฐานซึ่งจะลงโทษน้ําหนักตามสัดส่วนของผลรวมของสี่เหลี่ยมจัตุรัสของน้ําหนัก การปรับให้เป็นแบบ L2 จะช่วยถ่วงน้ําหนักค่าที่ผิดปกติ (ซึ่งมีค่าเป็นบวกสูงหรือค่าลบสูง) ที่ใกล้ 0 แต่ไม่ได้ไม่ใช่ 0 ฟีเจอร์ที่มีค่าใกล้เคียงกับ 0 มากจะยังคงอยู่ในโมเดล แต่ไม่ส่งผลกระทบต่อการคาดการณ์โมเดลอย่างมาก

การปรับกฎ L2 จะช่วยปรับปรุงการกําหนดค่าทั่วไปในรูปแบบเชิงเส้นอยู่เสมอ

ตรงข้ามกับการกําหนดมาตรฐานของ L1

ป้ายกำกับ

#fundamentals

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล "answer" หรือ "result" ส่วนหนึ่งของตัวอย่าง

ตัวอย่างที่มีป้ายกํากับแต่ละรายการประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการและป้ายกํากับ เช่น ในชุดข้อมูลการตรวจจับสแปม ป้ายกํากับอาจเป็น "spam" หรือ "ไม่ใช่สแปม" ในชุดข้อมูลฝน ป้ายกํากับอาจเป็นปริมาณฝนลดลงในช่วงหนึ่ง

ตัวอย่างที่มีป้ายกํากับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์อย่างน้อย 1 รายการและป้ายกํากับ ตารางต่อไปนี้แสดงตัวอย่าง 3 รายการที่ติดป้ายกํากับจากโมเดลการประเมินมูลค่าบ้าน โดยแต่ละฟีเจอร์มีฟีเจอร์ 3 อย่างและป้ายกํากับ 1 ป้าย

จำนวนห้องนอน จํานวนห้องน้ํา อายุของบ้าน ราคาบ้าน (ป้ายกํากับ)
3 2 15 10,250,000 บาท
2 1 72 5,380,000 บาท
4 2 34 11,280,000 บาท

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกบนตัวอย่างที่มีป้ายกํากับและคาดการณ์ในตัวอย่างที่ไม่มีป้ายกํากับ

คอนทราสต์ตามตัวอย่างกับตัวอย่างที่ไม่มีป้ายกํากับ

แลมบ์ดา

#fundamentals

คําพ้องความหมายสําหรับอัตราการปรับให้สอดคล้องตามมาตรฐาน

Lambda เป็นคําที่ล้นมือ เราเน้นคํานิยามของคําจํากัดความดังกล่าวในการทําให้เป็นมาตรฐานที่นี่

ชั้น

#fundamentals

ชุดเซลล์ประสาทในเครือข่ายระบบประสาท มีเลเยอร์ทั่วไป 3 ประเภท ดังต่อไปนี้

เช่น ภาพประกอบต่อไปนี้แสดงเครือข่ายระบบประสาทที่มีเลเยอร์อินพุต 1 ชั้น เลเยอร์ที่ซ่อนอยู่ 2 ชั้น และเลเยอร์เอาต์พุต 1 ชั้น

โครงข่ายระบบประสาทเทียมที่มีชั้นอินพุต 1 ชั้น เลเยอร์ที่ซ่อนอยู่ 2 ชั้น และ
          เลเยอร์เอาต์พุต 1 รายการ เลเยอร์อินพุตมีองค์ประกอบ 2 อย่าง ชั้นที่ซ่อนอยู่ชั้นแรกประกอบด้วยเซลล์ประสาท 3 ชั้น และเซลล์ชั้นที่ 2 ซ่อนอยู่มีเซลล์ประสาท 2 เซลล์ เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

ใน TensorFlow เลเยอร์ยังเป็นฟังก์ชัน Python ที่ใช้ Tensors และตัวเลือกการกําหนดค่าเป็นอินพุตและกระตุ้นให้เกิด Tensor อื่นๆ เป็นเอาต์พุต

อัตราการเรียนรู้

#fundamentals

ตัวเลขทศนิยมซึ่งบอกอัลกอริทึมการไล่ระดับแบบไล่ระดับสี ว่าจะปรับน้ําหนักและการให้น้ําหนักพิเศษในแต่ละการทําซ้ําได้มากน้อยเพียงใด ตัวอย่างเช่น อัตราการเรียนรู้ของ 0.3 จะปรับน้ําหนักและการให้น้ําหนักพิเศษขึ้นเป็น 3 เท่าเมื่อเทียบกับอัตราการเรียนรู้ที่ 0.1

อัตราการเรียนรู้เป็นคีย์ไฮเปอร์พารามิเตอร์ แต่หากกําหนดอัตราการเรียนรู้ต่ําเกินไป การฝึกใช้เวลานานเกินไป หากคุณกําหนดอัตราการเรียนรู้สูงเกินไป การไล่ระดับแบบไล่ระดับมักจะประสบปัญหาในการเข้าถึงความเร่งด่วน

รูปแบบเชิงเส้น

#fundamentals

รูปแบบที่กําหนดน้ําหนัก 1 ชิ้นต่อฟีเจอร์เพื่อทําการคาดการณ์ (รูปแบบเชิงเส้นยังมีการให้น้ําหนัก) ในทางตรงกันข้าม ความสัมพันธ์ของฟีเจอร์กับการคาดการณ์ในโมเดลเชิงลึกโดยทั่วไปเป็นแบบไม่ใช่เชิงเส้น

โมเดลเชิงเส้นมักฝึกได้ง่ายกว่าและตีความได้มากกว่าโมเดลเชิงลึก อย่างไรก็ตาม โมเดลเชิงลึกจะเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างฟีเจอร์ได้

การถดถอยเชิงเส้นและ การถดถอยแบบโลจิสติกเป็นโมเดลสองประเภท

เชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปร 2 ตัวขึ้นไปที่แทนได้ด้วยการเพิ่มและการคูณเท่านั้น

พล็อตของความสัมพันธ์เชิงเส้นเป็นเส้น

คอนทราสต์กับ nonLinear

การถดถอยเชิงเส้น

#fundamentals

ประเภทของโมเดลแมชชีนเลิร์นนิงที่มีเงื่อนไขทั้ง 2 ข้อต่อไปนี้เป็นจริง

คอนทราสต์การถดถอยเชิงเส้นกับ การถดถอยแบบโลจิสติก รวมทั้งดูการถดถอยคอนทราสต์กับการจัดประเภทด้วย

การถดถอยแบบโลจิสติก

#fundamentals

ประเภทของโมเดลการเกิดปัญหาซ้ําที่คาดการณ์ความน่าจะเป็น รูปแบบการถดถอยแบบโลจิสติกส์มีลักษณะดังต่อไปนี้

  • ป้ายกํากับคือตามหมวดหมู่ โดยทั่วไปคําว่า "การถดถอยแบบโลจิสติกส์" หมายถึงการถดถอยแบบโลจิสติกส์ไบนารี กล่าวคือ เป็นโมเดลที่คํานวณความน่าจะเป็นสําหรับป้ายกํากับที่มีค่าที่เป็นไปได้ 2 ค่า รูปแบบที่พบบ่อยน้อยกว่าคือการถดถอยแบบโลจิสติกส์ที่มีหลายค่า จะคํานวณความน่าจะเป็นสําหรับป้ายกํากับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า
  • ฟังก์ชันการสูญเสียในระหว่างการฝึกคือ Log Loss (ป้ายกํากับอาจหายไปได้หลายป้ายสําหรับป้ายกํากับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า)
  • โมเดลนี้มีสถาปัตยกรรมเชิงเส้น ไม่ใช่เครือข่ายโครงข่ายประสาทแบบลึก อย่างไรก็ตาม ส่วนที่เหลือของคําจํากัดความนี้ยังใช้กับโมเดลเชิงลึกที่คาดการณ์แนวโน้มของป้ายกํากับเชิงหมวดหมู่ด้วย

เช่น พิจารณารูปแบบการถดถอยแบบโลจิสติกส์ซึ่งจะคํานวณความน่าจะเป็นของอีเมลอินพุตว่าเป็นจดหมายขยะหรือไม่ใช่สแปม ระหว่างการอนุมาน สมมติว่าโมเดลคาดการณ์ 0.72 ดังนั้น โมเดลจึงกําลังประเมินดังนี้

  • โอกาส 72% สําหรับอีเมลที่เป็นจดหมายขยะ
  • โอกาส 28% ที่อีเมลจะไม่ถูกสแปม

โมเดลการถดถอยแบบโลจิสติกส์ใช้สถาปัตยกรรม 2 ขั้นตอนดังต่อไปนี้

  1. โมเดลนี้สร้างการคาดการณ์แบบ Raw (y') โดยใช้ฟังก์ชันเชิงเส้นของฟีเจอร์อินพุต
  2. โมเดลนี้ใช้การคาดคะเนแบบ Raw เป็นอินพุตของฟังก์ชัน Sigmoid ซึ่งจะแปลงการคาดการณ์ดิบเป็นค่าระหว่าง 0 ถึง 1 เท่านั้น

เช่นเดียวกับรูปแบบการเกิดปัญหาซ้ํา รูปแบบการถดถอยแบบโลจิสติกส์จะคาดการณ์ตัวเลข อย่างไรก็ตาม ตัวเลขนี้มักจะเป็นส่วนหนึ่งของโมเดลการจัดประเภทแบบไบนารีดังต่อไปนี้

  • หากจํานวนที่คาดการณ์มากกว่ากว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสเชิงบวก
  • หากจํานวนที่คาดการณ์น้อยกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสเชิงลบ

บันทึกหายไป

#fundamentals

ฟังก์ชันการสูญเสียที่ใช้ในการถดถอยแบบโลจิสติกส์แบบไบนารี

โอกาสในการบันทึก

#fundamentals

ลอการิทึมของโอกาสเกิดเหตุการณ์บางอย่าง

แพ้

#fundamentals

ในระหว่างการฝึกของโมเดลที่มีการควบคุมดูแล การวัดว่าการคาดการณ์ของโมเดลอยู่ห่างจากป้ายกํากับมากเพียงใด

ฟังก์ชันการสูญเสียจะคํานวณการสูญเสีย

เส้นโค้งที่สูญเสียข้อมูล

#fundamentals

พล็อตการสูญเสียเป็นฟังก์ชันของจํานวนการฝึก พล็อตต่อไปนี้แสดงเส้นโค้งที่สูญเสียไปโดยทั่วไป

กราฟการสูญเสียคาร์ทีเซียนเมื่อเทียบกับการฝึกทําซ้ํา ซึ่งแสดงการสูญเสียที่ลดลงอย่างรวดเร็วสําหรับการทําซ้ําครั้งแรก ตามด้วยการลดลงทีละน้อย ตามด้วยความชันที่ราบเรียบระหว่างการทําซ้ําครั้งสุดท้าย

เส้นโค้งที่สูญหายช่วยให้คุณระบุได้ว่าโมเดลของคุณกําลังกําลังพูดคุยกันหรือมากเกินไป

เส้นโค้งที่สูญเสียข้อมูลสามารถแสดงกราฟการสูญเสียทุกประเภทต่อไปนี้

นอกจากนี้ โปรดดูเส้นโค้งการปรับเปลี่ยน

ฟังก์ชันการสูญเสีย

#fundamentals

ระหว่างการฝึกหรือการทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่คํานวณการสูญเสียกลุ่มตัวอย่าง ฟังก์ชันการสูญเสียจะแสดงตัวเลขที่ต่ํากว่าสําหรับโมเดลที่คาดการณ์ได้แม่นยํากว่าโมเดลที่คาดการณ์ไม่ถูกต้อง

โดยทั่วไปเป้าหมายของการฝึกอบรมคือการลดการสูญเสียฟังก์ชันฟังก์ชันการสูญเสีย

ฟังก์ชันการสูญเสียมีอยู่หลายประเภท เลือกฟังก์ชันการสูญเสียที่เหมาะกับประเภทของโมเดลที่คุณกําลังสร้าง เช่น

M

แมชชีนเลิร์นนิง

#fundamentals

โปรแกรมหรือระบบที่ฝึกโมเดลจากข้อมูลอินพุต โมเดลที่ฝึกแล้วจะสามารถคาดการณ์ที่มีประโยชน์จากข้อมูลใหม่ (ที่ไม่เคยเห็นมาก่อน) มาจากการกระจายเดียวกันกับที่ใช้ฝึกโมเดล

แมชชีนเลิร์นนิงยังหมายถึงสาขา การเรียนรู้ที่เกี่ยวข้องกับโปรแกรมหรือระบบเหล่านี้

ชั้นเรียนส่วนใหญ่

#fundamentals

ป้ายกํากับที่ใช้กันโดยทั่วไปในชุดข้อมูลที่ไม่สมดุล ตัวอย่างเช่น หากชุดข้อมูลที่มีป้ายกํากับเชิงลบ 99% และป้ายกํากับเชิงบวก 1% ป้ายกํากับเชิงลบจะเป็นคลาสส่วนใหญ่

ขัดแย้งกับชนกลุ่มน้อย

มินิแบตช์

#fundamentals

ชุดย่อยแบบสุ่มของกลุ่มแบบสุ่มที่ประมวลผลในการทําซ้ํารายการเดียว ขนาดกลุ่มของกลุ่มขนาดเล็กมักจะอยู่ระหว่างตัวอย่าง 10 ถึง 1,000 ตัวอย่าง

ตัวอย่างเช่น สมมติว่าชุดการฝึกทั้งหมด (ทั้งชุด) ประกอบด้วยตัวอย่าง 1,000 รายการ และสมมติว่าคุณกําหนดขนาดกลุ่มของแต่ละมินิแบตช์ไว้ที่ 20 ดังนั้น การปรับปรุงแต่ละรายการจะระบุการสูญเสียจากการสุ่มตัวอย่าง 20 จาก 1,000 รายการ แล้วปรับน้ําหนักและการให้น้ําหนักพิเศษตามความเหมาะสม

การคํานวณการสูญเสียเป็นกลุ่มขนาดเล็กจะมีประสิทธิภาพมากกว่าการสูญเสียตัวอย่างทั้งหมดในกลุ่ม

ชนกลุ่มน้อย

#fundamentals

ป้ายกํากับที่พบไม่บ่อยในชุดข้อมูลที่ไม่สมดุล ตัวอย่างเช่น หากชุดข้อมูลมีป้ายกํากับเชิงลบ 99% และป้ายกํากับเชิงบวก 1% ป้ายกํากับเชิงบวกจะเป็นชนกลุ่มน้อย

คอนทราสต์กับคลาสส่วนใหญ่

รุ่น

#fundamentals

โดยทั่วไปแล้ว โครงสร้างทางคณิตศาสตร์ที่ประมวลผลข้อมูลอินพุตและแสดงผล กล่าวคือ โมเดลคือชุดพารามิเตอร์และโครงสร้างที่จําเป็นสําหรับระบบเพื่อทําการคาดการณ์ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะใช้ตัวอย่างเป็นข้อมูลอินพุต และอนุมานการคาดการณ์เป็นเอาต์พุต ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะค่อนข้างแตกต่างกัน เช่น

คุณจะบันทึก กู้คืน หรือทําสําเนาโมเดลได้

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลยังสร้างโมเดล ซึ่งโดยทั่วไปแล้วเป็นฟังก์ชันที่สามารถแมปตัวอย่างอินพุตกับคลัสเตอร์ที่เหมาะสมที่สุด

การแยกประเภทแบบหลายคลาส

#fundamentals

ในการเรียนรู้ภายใต้การควบคุมดูแล ปัญหาการแยกประเภท ที่ชุดข้อมูลมีป้ายกํากับมากกว่า 2 คลาส เช่น ป้ายกํากับในชุดข้อมูล Iris ต้องเป็น 1 ใน 3 คลาสต่อไปนี้

  • ไอริส เซโตซา
  • ไอริส เวอร์จินิกา
  • ม่านตาไอริส

โมเดลที่ฝึกบนชุดข้อมูล Iris ที่คาดการณ์ประเภท Iris ในตัวอย่างใหม่จะทําการจัดประเภทแบบหลายคลาส

ในทางตรงกันข้าม ปัญหาการแยกประเภทระหว่าง 2 ชั้นเรียนคือโมเดลการจัดประเภทแบบไบนารี เช่น รูปแบบอีเมลที่คาดคะเนสแปมหรือไม่ใช่สแปมคือรูปแบบการแยกประเภทไบนารี

ในปัญหาการจัดกลุ่ม การจัดจําแนกแบบหลายคลาสหมายถึงมากกว่า 2 คลัสเตอร์

ไม่ใช่

คลาสเชิงลบ

#fundamentals

ในการแยกประเภทไบนารี คลาสหนึ่งเรียกว่าค่าบวก และคลาสอีกรายการเรียกว่าค่าลบ คลาสเชิงบวกคือ หรือเหตุการณ์ที่โมเดลกําลังทดสอบ และคลาสเชิงลบก็มีความเป็นไปได้อื่นๆ เช่น

  • คลาสเชิงลบในการทดสอบทางการแพทย์อาจเป็น " ไม่ใช่เนื้องอก"
  • ชั้นเรียนเชิงลบในตัวแยกประเภทอีเมลอาจเป็น "ไม่ใช่จดหมายขยะ"

ตรงข้ามกับชั้นเรียนในเชิงบวก

โครงข่ายระบบประสาทเทียม

#fundamentals

โมเดลที่มีเลเยอร์ที่ซ่อนอย่างน้อย 1 เลเยอร์ โครงข่ายประสาทแบบลึกคือเครือข่ายที่เป็นโครงข่ายประสาทประเภทหนึ่งที่มีชั้นที่ซ่อนอยู่มากกว่า 1 ชั้น เช่น แผนภาพต่อไปนี้แสดงโครงข่ายประสาทแบบลึกที่มีเลเยอร์ซ่อนอยู่ 2 ชั้น

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 ชั้น และชั้นเอาต์พุต

เซลล์ประสาทแต่ละเซลล์ในโครงข่ายประสาทจะเชื่อมต่อกับโหนดทั้งหมดในเลเยอร์ถัดไป เช่น ในแผนภาพก่อนหน้า จะเห็นว่าเซลล์ประสาททั้ง 3 ชั้นในเลเยอร์แรกที่ซ่อนอยู่เชื่อมโยงอยู่กับเซลล์ประสาททั้ง 2 ชั้นในเลเยอร์ที่ซ่อนอยู่ชั้นที่ 2

บางครั้งโครงข่ายประสาทที่ใช้ในคอมพิวเตอร์อาจเรียกว่าโครงข่ายประสาทเทียม เพื่อแยกความแตกต่างจากเครือข่ายโครงข่ายประสาทที่พบในสมองและระบบประสาทอื่นๆ

โครงข่ายระบบประสาทเทียมบางแห่งอาจเลียนแบบความสัมพันธ์ที่ไม่ใช่แบบเชิงเส้นที่ซับซ้อนมากระหว่างฟีเจอร์และป้ายกํากับต่างๆ

รวมถึงดูโครงข่ายระบบประสาทเทียมเชิงรับและโครงข่ายระบบประสาทเทียมแบบเกิดซ้ํา

เซลล์ประสาท

#fundamentals

ในแมชชีนเลิร์นนิง หน่วยที่แตกต่างกันภายในเลเยอร์ที่ซ่อนอยู่ของเครือข่ายระบบประสาท เซลล์ประสาทแต่ละเซลล์จะทํางาน 2 แบบต่อไปนี้

  1. คํานวณผลรวมถ่วงน้ําหนักของค่าอินพุตคูณด้วยน้ําหนักที่เกี่ยวข้อง
  2. ผ่านผลรวมถ่วงน้ําหนักของอินพุตไปยังฟังก์ชันการเปิดใช้งาน

เซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่ชั้นแรกจะยอมรับอินพุตจากค่าของฟีเจอร์ในเลเยอร์อินพุต เซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่ซึ่งอยู่เหนือ ชั้นแรกจะรับอินพุตของเซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่ก่อนหน้านี้ เช่น เซลล์ประสาทในเลเยอร์ที่ 2 ที่ซ่อนไว้จะยอมรับอินพุตจากเซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่ชั้นแรก

ภาพประกอบต่อไปนี้ไฮไลต์เซลล์ประสาท 2 เซลล์และข้อมูลอินพุต

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 ชั้น และชั้นเอาต์พุต ระบบจะไฮไลต์เซลล์ประสาท 2 รายการ โดย 1 เซลล์ในเลเยอร์แรกที่ซ่อนอยู่และ 1 เลเยอร์ในเลเยอร์ที่ซ่อนอยู่ชั้นที่ 2 เซลล์ประสาทที่ได้รับการไฮไลต์ในเลเยอร์ที่ซ่อนอยู่ชั้นแรกจะได้รับข้อมูลจากทั้ง 2 ฟีเจอร์ในเลเยอร์อินพุต เซลล์ประสาทในเลเยอร์ที่ 2 ที่ซ่อนไว้จะรับข้อมูลจากเซลล์ประสาททั้ง 3 เลเยอร์ในเลเยอร์ที่ซ่อนอยู่ชั้นแรก

เซลล์ประสาทในโครงข่ายประสาทจะเลียนแบบการทํางานของเซลล์ประสาทในสมองและส่วนอื่นๆ ของระบบประสาท

โหนด (โครงข่ายระบบประสาทเทียม)

#fundamentals

เซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่

ไม่เป็นเชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปร 2 ตัวขึ้นไปซึ่งแสดงไม่ได้แต่ผ่านการบวกและคูณเท่านั้น ความสัมพันธ์แบบเชิงเส้นอาจแทนเส้นได้ ความสัมพันธ์ที่ไม่ใช่แบบเชิงเส้นจะแสดงเป็นเส้น ##39 ไม่ได้ เช่น ลองพิจารณา 2 โมเดลที่แต่ละโมเดลเชื่อมโยง ฟีเจอร์เดียวกับป้ายกํากับเดียว รูปแบบทางด้านซ้ายเป็นแบบเชิงเส้น และรูปแบบทางด้านขวาไม่ใช่แบบเชิงเส้น

พล็อตกราฟ 2 เรื่อง พล็อตหนึ่งเป็นเส้น ดังนั้นจึงเป็นความสัมพันธ์เชิงเส้น
          พล็อตอีกเรื่องเป็นเส้นโค้ง ความสัมพันธ์นี้จึงไม่ใช่เส้นตรง

ความไม่แบ่งแยก

#fundamentals

ฟีเจอร์ที่ค่ามีการเปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ โดยทั่วไปจะเป็นเวลา ลองดูตัวอย่างการไม่แบ่งแยกต่อไปนี้

  • จํานวนชุดว่ายน้ําที่ขายในร้านค้าบางแห่งจะแตกต่างกันไปตามฤดูกาล
  • ปริมาณการเก็บเกี่ยวผลไม้หนึ่งๆ ในภูมิภาคหนึ่งๆ เป็น 0 ตลอดทั้งปี แต่มีจํานวนมหาศาลในช่วงเวลาสั้นๆ
  • เนื่องจากการเปลี่ยนแปลงของสภาพภูมิอากาศ อุณหภูมิเฉลี่ยต่อปีกําลังเปลี่ยนแปลง

คอนทราสต์กับสถานีเพลง

การปรับให้เป็นมาตรฐาน

#fundamentals

กล่าวกว้างๆ คือ กระบวนการแปลงช่วงค่าจริงของตัวแปรให้เป็นช่วงค่ามาตรฐาน เช่น

  • -1 ถึง +1
  • 0 ถึง 1
  • การกระจายปกติ

เช่น สมมติว่าช่วงจริงของฟีเจอร์บางอย่าง คือ 800 ถึง 2,400 ในกรณีของวิศวกรรมฟีเจอร์ คุณปรับค่าจริงให้อยู่ในช่วงมาตรฐานได้ เช่น -1 ถึง +1

การปรับให้เป็นมาตรฐานคืองานทั่วไปในวิศวกรรมฟีเจอร์ โมเดลมักจะฝึกได้เร็วขึ้น (และสร้างการคาดการณ์ได้ดีกว่า) เมื่อฟีเจอร์ตัวเลขทุกแอปใน เวกเตอร์ฟีเจอร์มีช่วงเดียวกันโดยประมาณ

ข้อมูลตัวเลข

#fundamentals

ฟีเจอร์จะแสดงเป็นจํานวนเต็มหรือค่าจริง เช่น โมเดลการประเมินบ้านอาจระบุขนาดของบ้าน (เป็นตารางฟุตหรือตารางเมตร) เป็นข้อมูลตัวเลข การแสดงฟีเจอร์เป็นข้อมูลตัวเลขหมายความว่าค่าของฟีเจอร์มีความสัมพันธ์ทางคณิตศาสตร์กับป้ายกํากับ กล่าวคือ จํานวนตารางเมตรภายในบ้านอาจมีความสัมพันธ์เชิงคณิตศาสตร์กับคุณค่าของบ้าน เป็นต้น

ข้อมูลที่เป็นจํานวนเต็มทั้งหมดไม่ควรแสดงเป็นตัวเลข ตัวอย่างเช่น รหัสไปรษณีย์ในบางพื้นที่ของโลกเป็นจํานวนเต็ม แต่ไม่ควรระบุรหัสไปรษณีย์เป็นจํานวนเต็มเป็นข้อมูลตัวเลขในโมเดล นั่นเป็นเพราะรหัสไปรษณีย์ของ 20000 ไม่เท่ากับ 2 เท่า (หรือครึ่งหนึ่ง) ของรหัสไปรษณีย์ 10,000 รหัส นอกจากนี้ แม้ว่ารหัสไปรษณีย์ต่างๆ จะเชื่อมโยงกับค่าอสังหาริมทรัพย์ที่แตกต่างกัน แต่เราก็ไม่สามารถสรุปได้ว่าค่าอสังหาริมทรัพย์ในรหัสไปรษณีย์ 20000 มีมูลค่ามากกว่าค่าอสังหาริมทรัพย์ 10000 มากถึง 2 เท่า รหัสไปรษณีย์ควรแสดงเป็นข้อมูลเชิงหมวดหมู่ แทน

บางครั้งฟีเจอร์ตัวเลขเรียกว่าฟีเจอร์ต่อเนื่อง

O

ออฟไลน์

#fundamentals

คําพ้องความหมายสําหรับ static

การอนุมานแบบออฟไลน์

#fundamentals

กระบวนการของโมเดลที่สร้างชุดการคาดการณ์ จากนั้นแคช (บันทึก) การคาดการณ์เหล่านั้น จากนั้นแอปจะเข้าถึงการคาดคะเนที่ต้องการจากแคชได้ แทนที่จะเรียกใช้โมเดลอีกครั้ง

ตัวอย่างเช่น ลองพิจารณาโมเดลที่สร้างพยากรณ์อากาศท้องถิ่น (การคาดการณ์) 1 ครั้งทุก 4 ชั่วโมง หลังจากที่แต่ละโมเดลทํางานแล้ว ระบบจะแคชการพยากรณ์อากาศในท้องถิ่นทั้งหมดไว้ แอปสภาพอากาศจะเรียกดู การคาดการณ์จากแคช

การอนุมานแบบออฟไลน์เรียกอีกอย่างว่าการอนุมานแบบคงที่

ขัดแย้งกับการอนุมานออนไลน์

การเข้ารหัสแบบ Hot-Hot

#fundamentals

แทนข้อมูลเชิงหมวดหมู่เป็นเวกเตอร์ที่

  • องค์ประกอบหนึ่งตั้งค่าไว้ที่ 1
  • องค์ประกอบอื่นๆ ทั้งหมดตั้งค่าเป็น 0

โดยทั่วไปการเข้ารหัสแบบ 1 ชั้นจะใช้เพื่อแสดงสตริงหรือตัวระบุที่มีค่าที่ตั้งไว้ได้ไม่จํากัด เช่น สมมติว่าฟีเจอร์การจัดหมวดหมู่ชื่อ Scandinavia มีค่าที่เป็นไปได้ 5 ค่า ดังนี้

  • "เดนมาร์ก"
  • "สวีเดน"
  • "นอร์เวย์"
  • "ฟินแลนด์"
  • "ไอซ์แลนด์"

การเข้ารหัสแบบ 1 ร้อนอาจแทนค่าแต่ละค่า 5 ค่าดังนี้

country เวกเตอร์
"เดนมาร์ก" 1 0 0 0 0
"สวีเดน" 0 1 0 0 0
"นอร์เวย์" 0 0 1 0 0
"ฟินแลนด์" 0 0 0 1 0
"ไอซ์แลนด์" 0 0 0 0 1

การเข้ารหัสแบบ 1 ครั้งช่วยให้โมเดลเรียนรู้การเชื่อมต่อที่แตกต่างกันไปตามแต่ละประเทศ

การแทนฟีเจอร์เป็นข้อมูลตัวเลขนั้นต่างจากการเข้ารหัสแบบ 1 ครั้งที่ได้รับความนิยม ขออภัย การเป็นตัวแทนประเทศของสแกนดิเนเวียในเชิงตัวเลขไม่ใช่ทางเลือกที่ดี เช่น ลองพิจารณาการนําเสนอตัวเลขต่อไปนี้

  • "เดนมาร์ก" คือ 0
  • "สวีเดน" คือ 1
  • "นอร์เวย์" คือ 2
  • "ฟินแลนด์" 3
  • "ไอซ์แลนด์" คือ 4

การเข้ารหัสที่เป็นตัวเลขจะทําให้โมเดลตีความตัวเลขดิบได้ และจะพยายามฝึกตัวเลขเหล่านั้น อย่างไรก็ตาม ไอซ์แลนด์มีสิ่งที่เกี่ยวกับนอร์เวย์มากกว่า (หรือครึ่งหนึ่ง) มากเป็น 2 เท่า ดังนั้นโมเดลจะได้ข้อสรุปที่แปลกออกไป

1 เทียบกับทั้งหมด

#fundamentals

เมื่อพิจารณาถึงปัญหาการแยกประเภทกับคลาส N โซลูชันจึงประกอบด้วยตัวแยก N ตัวแยกประเภทไบนารี ซึ่งเป็นตัวแยกประเภทไบนารี 1 ตัวสําหรับผลลัพธ์ที่เป็นไปได้แต่ละรายการ เช่น สําหรับโมเดลที่จําแนกตัวอย่างเป็นสัตว์ ผัก หรือแร่ โซลูชันหนึ่งเทียบกับทั้งหมดจะให้ตัวระบุตัวแยกประเภทไบนารี 3 รายการต่อไปนี้

  • สัตว์กับไม่ใช่สัตว์
  • ผักกับไม่เป็นผัก
  • แร่กับ ไม่ใช่แร่

ออนไลน์

#fundamentals

คําพ้องความหมายสําหรับไดนามิก

การอนุมานออนไลน์

#fundamentals

การสร้างการคาดการณ์ออนดีมานด์ เช่น สมมติว่าแอปส่งอินพุตไปยังโมเดลและส่งคําขอรับการคาดการณ์ ระบบที่ใช้การอนุมานทางออนไลน์จะตอบกลับคําขอด้วยการเรียกใช้โมเดล (และส่งการคาดการณ์กลับไปยังแอป)

ขัดแย้งกับการอนุมานแบบออฟไลน์

เลเยอร์เอาต์พุต

#fundamentals

&เลเยอร์&; " โครงข่ายเครือข่ายระบบประสาท เลเยอร์เอาต์พุตมีการคาดคะเน

ภาพประกอบต่อไปนี้แสดงโครงข่ายประสาทแบบลึกขนาดเล็กที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 ชั้น และเลเยอร์เอาต์พุต

โครงข่ายระบบประสาทเทียมที่มีชั้นอินพุต 1 ชั้น เลเยอร์ที่ซ่อนอยู่ 2 ชั้น และ
          เลเยอร์เอาต์พุต 1 รายการ เลเยอร์อินพุตมีองค์ประกอบ 2 อย่าง ชั้นที่ซ่อนอยู่ชั้นแรกประกอบด้วยเซลล์ประสาท 3 ชั้น และเซลล์ชั้นที่ 2 ซ่อนอยู่มีเซลล์ประสาท 2 เซลล์ เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

Overfitting

#fundamentals

การสร้างโมเดลที่ตรงกับข้อมูลการฝึกอย่างเคร่งครัดเพื่อให้โมเดลคาดการณ์ข้อมูลใหม่ได้อย่างถูกต้อง

การปรับให้สอดคล้องตามมาตรฐานช่วยลดการเน้นที่มากเกินไป การฝึกโดยใช้ชุดการฝึกอบรมที่มีขนาดใหญ่และหลากหลายจะช่วยลดเรื่องที่มากเกินไปได้

P

แพนด้า

#fundamentals

API การวิเคราะห์ข้อมูลตามคอลัมน์ที่สร้างขึ้นจาก numpy เฟรมเวิร์กแมชชีนเลิร์นนิงจํานวนมาก ซึ่งรวมถึง TensorFlow รองรับโครงสร้างข้อมูลแพนด้าเป็นอินพุต ดูรายละเอียดได้ในเอกสารประกอบเกี่ยวกับแพนด้า

พารามิเตอร์

#fundamentals

น้ําหนักและความลําเอียงที่โมเดลเรียนรู้ระหว่างการฝึก เช่น ในรูปแบบการถดถอยเชิงเส้น พารามิเตอร์จะประกอบด้วยการให้น้ําหนักพิเศษ (b) และน้ําหนักทั้งหมด (w1, w2 และอื่นๆ) ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในทางตรงกันข้าม hyperparameter คือค่าที่คุณ (หรือบริการเปลี่ยนไฮเปอร์พารามิเตอร์) ใช้กับโมเดล เช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์

คลาสเชิงบวก

#fundamentals

ชั้นเรียนที่คุณกําลังทดสอบ

เช่น คลาสเชิงบวกในรูปแบบมะเร็งอาจเป็น "tumor." คลาสเชิงบวกในเครื่องมือจําแนกอีเมลอาจเป็น "spam."

ตรงข้ามกับชั้นเรียนเชิงลบ

หลังการประมวลผล

#fairness
#fundamentals

การปรับเอาต์พุตของโมเดลหลังจากที่เรียกใช้โมเดลแล้ว หลังการประมวลผล คุณจะบังคับใช้ข้อจํากัดด้านความเป็นธรรมได้โดยไม่ต้องแก้ไขโมเดลด้วยตัวเอง

เช่น อาจใช้การประมวลผลหลังการประมวลผลกับตัวแยกประเภทไบนารีโดยการตั้งค่าเกณฑ์การแยกประเภทเพื่อให้ความเท่าเทียมของโอกาสได้รับการรักษาสําหรับบางแอตทริบิวต์ โดยตรวจสอบว่า อัตราผลบวกจริง มีค่าเท่ากันทั้งหมดสําหรับแอตทริบิวต์นั้น

การคาดการณ์

#fundamentals

เอาต์พุตของโมเดล เช่น

  • การคาดการณ์ของโมเดลการแยกประเภทไบนารีจะเป็นคลาสเชิงบวกหรือคลาสเชิงลบก็ได้
  • การคาดคะเนของโมเดลการจัดประเภทแบบหลายคลาสคือ 1 ชั้นเรียน
  • การคาดการณ์ของรูปแบบการถดถอยเชิงเส้นจะเป็นตัวเลข

ป้ายกํากับพร็อกซี

#fundamentals

ข้อมูลที่ใช้ในการประมาณป้ายกํากับที่ไม่พร้อมใช้งานโดยตรงในชุดข้อมูล

ตัวอย่างเช่น สมมติว่าคุณต้องฝึกโมเดลให้คาดการณ์ระดับความเครียดของพนักงาน ชุดข้อมูลมีฟีเจอร์การคาดคะเนจํานวนมาก แต่ไม่มีป้ายกํากับชื่อระดับความเครียด ไม่เลือกด้วยตนเอง คุณจะเลือก{0}คําพูดจากอุบัติเหตุในสถานที่ทํางาน" เป็นป้ายกํากับพร็อกซีสําหรับระดับความเครียด ท้ายที่สุดแล้ว พนักงานที่มีความเครียดสูงได้รับความบังเอิญมากกว่าพนักงานที่ใจเย็น หรือไม่ อุบัติเหตุในที่ทํางานก็อาจเพิ่มขึ้นหรือลดลงอย่างมาก

ตัวอย่างที่ 2 สมมติว่าคุณต้องการให้ฝนตกเป็นป้ายกํากับบูลีนสําหรับชุดข้อมูลหรือไม่ แต่ชุดข้อมูลไม่มีข้อมูลฝนตก หากมีภาพถ่าย คุณอาจสร้างภาพร่ม เช่น รูปร่มของใบไม้ว่าฝนโปรยปราย ป้ายกํากับนี้เป็นพร็อกซีที่ดีใช่ไหม บางทีผู้คนในวัฒนธรรมบางอย่างอาจแบกร่มไว้เพื่อป้องกันไม่ให้โดนแดดมากกว่าฝน

ป้ายกํากับของพร็อกซีมักจะไม่สมบูรณ์แบบ หากเป็นไปได้ ให้เลือกป้ายกํากับจริงแทนป้ายกํากับพร็อกซี กล่าวคือ หากไม่มีป้ายกํากับจริง ให้เลือกป้ายกํากับพร็อกซีอย่างระมัดระวัง โดยเลือกป้ายกํากับพร็อกซีที่ไม่เหมาะสมน้อยที่สุด

R

ผู้ประเมิน

#fundamentals

มนุษย์ที่มีป้ายกํากับสําหรับตัวอย่าง "Annotator" เป็นอีกชื่อหนึ่งของผู้ประเมิน

หน่วยเชิงเส้นแบบคงที่ (RELU)

#fundamentals

ฟังก์ชันเปิดใช้งานซึ่งมีลักษณะการทํางานดังต่อไปนี้

  • หากอินพุตเป็นลบหรือ 0 เอาต์พุตจะเป็น 0
  • หากอินพุตเป็นบวก เอาต์พุตจะเท่ากับอินพุต

เช่น

  • หากอินพุตเป็น -3 เอาต์พุตจะเป็น 0
  • หากอินพุตเป็น +3 เอาต์พุตจะเป็น 3.0

นี่คือพล็อตของ ReLU

พล็อตกราฟแบบ 2 เส้น บรรทัดแรกมีค่า y คงที่ของ 0 ซึ่งทํางานตามแกน x ตั้งแต่ -infinity, 0 ถึง 0,-0
          บรรทัดที่ 2 เริ่มต้นที่ 0,0 เส้นนี้มีความลาดชัน +1 ดังนั้นจึงทํางานตั้งแต่ 0,0 ถึง +อนันต์ + อนันต์

ReLU เป็นฟังก์ชันการเปิดใช้งานที่ได้รับความนิยมมาก แม้จะมีพฤติกรรมที่เรียบง่าย แต่ ReLU ยังคงเปิดใช้เครือข่ายระบบประสาทเพื่อเรียนรู้ความสัมพันธ์แบบเชิงเส้น ระหว่างฟีเจอร์และป้ายกํากับ

รูปแบบการเกิดปัญหาซ้ํา

#fundamentals

แบบไม่เป็นทางการ สร้างรูปแบบตัวเลขขึ้น (ในทางกลับกัน โมเดลการจัดประเภทจะสร้างการคาดการณ์คลาส) ตัวอย่างเช่น โมเดลการเกิดปัญหาซ้ําทั้งหมดมีดังต่อไปนี้

  • โมเดลที่คาดคะเนค่าบ้านบางค่า เช่น 423,000 ยูโร
  • โมเดลที่คาดการณ์ถึงสิ่งมีชีวิตบางอย่าง เช่น 23.2 ปี
  • โมเดลที่คาดการณ์ว่าฝนจะตกในเมืองหนึ่งๆ ในช่วง 6 ชั่วโมงข้างหน้า เช่น 0.18 นิ้ว

โมเดลการเกิดปัญหาซ้ําที่พบบ่อยมี 2 ประเภท ดังนี้

  • การถดถอยเชิงเส้น ซึ่งจะหาบรรทัดที่เหมาะกับค่าของป้ายกํากับมากที่สุดสําหรับฟีเจอร์
  • การถดถอยแบบโลจิสติก ซึ่งจะทําให้เกิดความน่าจะเป็นระหว่าง 0.0 ถึง 1.0 ซึ่งโดยปกติแล้วระบบจะเชื่อมโยงกับการคาดการณ์คลาส

โมเดลที่แสดงตัวเลขเป็นตัวเลขบางโมเดลไม่ใช่รูปแบบการถดถอย ในบางกรณี การคาดคะเนตัวเลขเป็นเพียงโมเดลการแยกประเภทที่มีชื่อคลาสที่เป็นตัวเลขเท่านั้น ตัวอย่างเช่น โมเดลที่คาดการณ์รหัสไปรษณีย์ที่เป็นตัวเลขคือโมเดลการจัดประเภท ไม่ใช่โมเดลการเกิดปัญหาซ้ํา

Regularization

#fundamentals

กลไกที่ช่วยลดการเพิ่มประสิทธิภาพ ประเภทของการปรับตามกฎที่ได้รับความนิยมมีดังนี้

นอกจากนี้ การปรับสม่ําเสมอยังถือเป็นบทลงโทษของความซับซ้อนของโมเดลได้ด้วย

อัตรามาตรฐาน

#fundamentals

ตัวเลขที่ระบุความสําคัญของการปรับให้สอดคล้องตามมาตรฐานระหว่างการฝึก การเพิ่มอัตราการปรับให้สอดคล้องตามมาตรฐานจะลดการเพิ่มประสิทธิภาพมากเกินไปแต่อาจลดศักยภาพในการคาดการณ์ของโมเดลลงได้ ในทางกลับกัน การลดหรือละเว้นอัตราการทําให้เป็นมาตรฐานจะเพิ่มปริมาณของผลลัพธ์มากเกินไป

รีเลิฟ

#fundamentals

ตัวย่อของหน่วยเชิงเส้นที่ได้รับการแปลง

เส้นโค้ง ROC (คุณสมบัติรับสัญญาณ)

#fundamentals

กราฟของอัตราผลบวกจริงเทียบกับ อัตราผลบวกลวงสําหรับเกณฑ์การจัดประเภทที่แตกต่างกันในการแยกประเภทไบนารี

รูปร่างของเส้นโค้ง ROC แสดงถึงความสามารถในการแยกประเภทไบนารี และความสามารถในการแยกคลาสที่เป็นบวกออกจากคลาสเชิงลบ สมมติว่าโมเดลการแยกประเภทไบนารีแยกคลาสเชิงลบออกจากคลาสเชิงบวกทั้งหมด

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 8 ตัวอย่างทางด้านขวาและตัวอย่างเชิงลบ 7 ตัวอย่างทางด้านซ้าย

เส้นโค้ง ROC สําหรับโมเดลก่อนหน้ามีลักษณะดังต่อไปนี้

เส้นโค้ง ROC แกน x คืออัตราผลบวกเท็จและแกน y คืออัตราผลบวกจริง เส้นโค้งมีรูปร่าง L แบบกลับสี เส้นโค้งจะเริ่มต้นที่ (0.0,0.0) และตรงไปจนถึง (0.0,1.0) จากนั้นเส้นโค้งจะเริ่มต้นจาก (0.0,1.0) เป็น (1.0,1.0)

ในทางตรงกันข้าม ภาพประกอบต่อไปนี้แสดงค่าการถดถอยแบบโลจิสติกส์ดิบสําหรับโมเดลที่แย่มากซึ่งไม่สามารถแยกคลาสเชิงลบออกจากคลาสที่เป็นบวกได้เลย

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวกและคลาสเชิงลบจะสลับกันโดยสิ้นเชิง

เส้นโค้ง ROC สําหรับโมเดลนี้มีลักษณะดังนี้

เส้นโค้ง ROC ซึ่งที่จริงแล้วเป็นเส้นตรงจาก (0.0,0.0) ถึง (1.0,1.0)

ส่วนในโลกความเป็นจริง โมเดลการแยกประเภทไบนารีส่วนใหญ่จะแยกคลาสที่เป็นบวกและลบออกจากแต่ละระดับ แต่มักจะไม่สมบูรณ์แบบ เส้นโค้ง ROC ทั่วไปจะอยู่ระหว่าง 2 จุด ดังนี้

เส้นโค้ง ROC แกน x คืออัตราผลบวกเท็จและแกน y คืออัตราผลบวกจริง เส้นโค้ง ROC จะประมาณเส้นโค้งที่สั่นโดยข้ามจุดเข็มทิศจากทิศตะวันตกไปยังทิศเหนือ

จุดบนเส้นโค้ง ROC ที่ใกล้กับ (0.0,1.0) ในทางทฤษฎีจะระบุเกณฑ์การจัดประเภทที่ดีที่สุด อย่างไรก็ตาม ปัญหาอื่นๆ ที่เกิดขึ้นจริงมีอิทธิพลต่อการเลือกเกณฑ์การจัดประเภทที่เหมาะสม เช่น อาจเป็นผลลบลวงซึ่งทําให้เกิดความเสียหายมากกว่าผลบวกลวง

เมตริกตัวเลขที่ชื่อ AUC จะสรุปเส้นโค้ง ROC เป็นค่าจุดลอยตัวจุดเดียว

ค่าเฉลี่ยความคลาดเคลื่อนกําลังสอง (RMSE)

#fundamentals

รากที่สองของข้อผิดพลาดกําลังสองเฉลี่ย

ฟังก์ชัน sigmoid

#fundamentals

ฟังก์ชันทางคณิตศาสตร์ที่{0}สลัก ตัวอย่างเช่น ค่าที่ป้อนเป็นช่วงที่จํากัด ซึ่งมักจะเป็น 0 ถึง 1 หรือ -1 ถึง +1 กล่าวคือ คุณสามารถส่งหมายเลขใดๆ (2, ล้าน, ลบ, พันล้าน) ไปยัง sigmoid และเอาต์พุตจะอยู่ในช่วงที่จํากัด พล็อตของฟังก์ชันการเปิดใช้งาน sigmoid มีลักษณะดังต่อไปนี้

กราฟโค้ง 2 มิติที่มีค่า x จะครอบคลุมโดเมน -อนันต์เป็น +บวก ขณะที่ค่า y จะครอบคลุมช่วงเกือบ 0 ถึง 1 เมื่อ x เป็น 0 y จะเป็น 0.5 ความชันของเส้นโค้งจะเป็นค่าบวกเสมอ โดยความชันสูงสุดอยู่ที่ 0,0.5 และค่อยๆ ลดความลาดชันเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ฟังก์ชัน sigmoid มีหลายการใช้งานในแมชชีนเลิร์นนิง ได้แก่

Softmax

#fundamentals

ฟังก์ชันที่กําหนดความน่าจะเป็นสําหรับคลาสที่เป็นไปได้แต่ละรายการในโมเดลการจัดประเภทแบบหลายคลาส ความน่าจะเป็นรวมกัน ได้ 1.0 พอดี ตัวอย่างในตารางต่อไปนี้แสดงวิธีที่ Softmax เผยแพร่ความน่าจะเป็นแบบต่างๆ

รูปภาพคือ... ความน่าจะเป็น
หมา .85
cat 0.13
ม้า .02

Softmax เรียกอีกอย่างว่า Softmax เต็มรูปแบบ

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

ฟีเจอร์แบบกระจัดกระจาย

#language
#fundamentals

ฟีเจอร์ที่มีค่าเป็น 0 หรือว่างเปล่าเป็นส่วนใหญ่ เช่น ฟีเจอร์ที่มีค่า 1 และค่า 0 ล้านเพียงรายการเดียวมีค่าน้อยมาก ในทางตรงกันข้าม ฟีเจอร์หนาแน่นมีค่าที่ยังไม่ได้เป็น 0 หรือว่างเปล่า

ในแมชชีนเลิร์นนิง มีจํานวนฟีเจอร์มากมายที่น่าประหลาดใจ ฟีเจอร์ตามหมวดหมู่มักจะเป็นฟีเจอร์ที่มีอยู่น้อยนิด เช่น ต้นไม้ 300 สายพันธุ์ในป่า ตัวอย่างหนึ่งอาจระบุเพียงต้นเมเปิล หรือตัวอย่างวิดีโอที่เป็นไปได้หลายล้านรายการในคลังวิดีโอ ตัวอย่างหนึ่งอาจระบุแค่ "Casablanca."

ในรูปแบบข้างต้น ปกติแล้วคุณจะแสดงฟีเจอร์ที่ไม่กระจัดกระจายด้วยการเข้ารหัสแบบใช้ครั้งเดียว หากการเข้ารหัสแบบ 1 ชั้นมีขนาดใหญ่ คุณอาจใส่เลเยอร์แบบฝังไว้ที่ด้านบนของการเข้ารหัสแบบ 1 ชั้นเพื่อให้มีประสิทธิภาพมากขึ้น

การนําเสนอแบบกระจัดกระจาย

#language
#fundamentals

การจัดเก็บเฉพาะตําแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์การกระจัดกระจาย

เช่น สมมติว่าฟีเจอร์การจัดหมวดหมู่ชื่อ species ระบุต้นไม้ 36 สายพันธุ์ในป่าแห่งใดแห่งหนึ่ง สมมติว่าตัวอย่างแต่ละรายการระบุสายพันธุ์เพียงประเภทเดียว

คุณสามารถใช้เวกเตอร์แบบหัวเดียวเพื่อแสดงสายพันธุ์ต้นไม้ในแต่ละตัวอย่าง เวกเตอร์ที่ได้รับความนิยมแบบหนึ่งจะมี 1 เพียงรายการเดียว (เพื่อแสดงชนิดต้นไม้ที่เจาะจงในตัวอย่างนั้น) และ 0 จํานวน 35 ชนิด (เพื่อแสดงแทนต้นไม้ 35 ชนิดไม่ใช่ในตัวอย่างดังกล่าว) การนําเสนอแบบหนึ่งของ maple ที่อาจเป็นไปได้จะมีลักษณะดังต่อไปนี้

เวกเตอร์ที่ตําแหน่ง 0 ถึง 23 จะเก็บค่า 0 ตําแหน่ง 24 จะเก็บค่า 1 และตําแหน่ง 25 ถึง 35 จะเก็บค่า 0

แต่การนําเสนอที่ไม่สมบูรณ์จะเพียงแค่ระบุตําแหน่งของสายพันธุ์เหล่านั้น หาก maple อยู่ที่อันดับ 24 การกระจัดกระจายของ maple จะเพียงแค่:

24

โปรดสังเกตว่าการนําเสนอที่กระจัดกระจายมีขนาดกะทัดรัดน้อยกว่าการนําเสนอแบบหน้าเดียว

เวกเตอร์แบบกระจัดกระจาย

#fundamentals

เวกเตอร์ที่มีค่าส่วนใหญ่เป็น 0 นอกจากนี้ โปรดดูฟีเจอร์แบบกระจายและความกระจัดกระจาย

การสูญเสียยกกําลังสอง

#fundamentals

คําพ้องความหมายสําหรับการสูญเสีย L2

คงที่

#fundamentals

มีการทํางานเพียงครั้งเดียว ไม่ใช่การดําเนินการอย่างต่อเนื่อง คําว่าคงที่และออฟไลน์คือคําพ้องความหมาย การใช้งานแบบคงที่และออฟไลน์ที่พบบ่อยในแมชชีนเลิร์นนิงมีดังนี้

  • รูปแบบคงที่ (หรือรูปแบบออฟไลน์) คือโมเดลที่ฝึกแล้ว 1 ครั้งแล้วจึงใช้ไปสักระยะหนึ่ง
  • การฝึกอบรมแบบคงที่ (หรือการฝึกอบรมออฟไลน์) เป็นกระบวนการฝึกโมเดลแบบคงที่
  • การอนุมานแบบคงที่ (หรือการอนุมานออฟไลน์) คือกระบวนการที่โมเดลสร้างการคาดการณ์แบบกลุ่มในแต่ละครั้ง

คอนทราสต์กับไดนามิก

อนุมานแบบคงที่

#fundamentals

คําพ้องความหมายสําหรับการอนุมานแบบออฟไลน์

เครื่องเขียน

#fundamentals

ฟีเจอร์ที่ค่าจะไม่เปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ โดยทั่วไปจะเป็นเวลา เช่น ฟีเจอร์ที่ค่าเหมือนกันในปี 2020 และ 2022 จัดแสดงนิทรรศการ

จริงๆ แล้วมีจุดสนใจอยู่เพียงไม่กี่อย่างที่แสดงให้เห็นชัดเจน แม้แต่ฟีเจอร์คําพ้องความหมายของระบบความเสถียร (เช่น ระดับน้ําทะเล) ก็จะเปลี่ยนไปเมื่อเวลาผ่านไป

ตรงข้ามกับ nonstationarity

ไล่ระดับแบบไล่ระดับ (SGD)

#fundamentals

อัลกอริทึมทางลาดไล่ระดับสีที่ขนาดกลุ่มเป็นอัลกอริทึมเดียว พูดง่ายๆ ก็คือ SGD จะฝึกโดยใช้เพียงตัวอย่างเดียวที่เลือกให้เป็นแบบสุ่มแบบสุ่มจากชุดการฝึก

แมชชีนเลิร์นนิงที่มีการควบคุมดูแล

#fundamentals

การฝึกอบรมรุ่นจากฟีเจอร์และป้ายกํากับที่เกี่ยวข้อง แมชชีนเลิร์นนิงที่มีการควบคุมดูแลนั้นคล้ายกับการเรียนรู้ในวิชาหนึ่งด้วยการศึกษาชุดคําถามและคําตอบที่เกี่ยวข้อง หลังจากทําความเข้าใจการจับคู่ระหว่างคําถามและคําตอบแล้ว นักเรียนจะได้คําตอบสําหรับคําถามใหม่ (ที่ไม่เคยเห็นมาก่อน) ในหัวข้อเดียวกัน

เปรียบเทียบกับแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

ฟีเจอร์สังเคราะห์

#fundamentals

ฟีเจอร์ไม่ได้มีอยู่ในฟีเจอร์การป้อนข้อมูล แต่รวบรวมจากฟีเจอร์อย่างน้อย 1 รายการ วิธีสร้างฟีเจอร์สังเคราะห์มีดังนี้

  • การฝากฟีเจอร์ต่อเนื่องกันในช่องถัง
  • การสร้างฟีเจอร์ครอส
  • การคูณ (หรือหาร) ค่าฟีเจอร์ 1 ค่าด้วยค่าฟีเจอร์อื่นๆ หรือค่าอื่นๆ ตัวอย่างเช่น หาก a และ b เป็นฟีเจอร์อินพุต ตัวอย่างต่อไปนี้คือตัวอย่างฟีเจอร์สังเคราะห์:
    • 2
  • การใช้ฟังก์ชันการจัดระดับกับค่าฟีเจอร์ ตัวอย่างเช่น หาก c เป็นฟีเจอร์อินพุต ต่อไปนี้เป็นตัวอย่างของฟีเจอร์สังเคราะห์:
    • sin(c)
    • ln(c)

ฟีเจอร์ที่สร้างขึ้นโดยการปรับให้สอดคล้องตามมาตรฐานหรือการปรับขนาดเพียงอย่างเดียวจะไม่ถือว่าเป็นฟีเจอร์สังเคราะห์

การสูญเสียการทดสอบ

#fundamentals

เมตริกที่แสดงถึงการสูญเสียโมเดลเทียบกับชุดการทดสอบ เมื่อสร้างโมเดล คุณมักพยายามลดการสูญเสียการทดสอบ นั่นเป็นเพราะการสูญเสียการทดสอบต่ําเป็นสัญญาณที่มีคุณภาพสูงกว่าการสูญเสียการฝึกหรือการสูญเสียจากการตรวจสอบที่ต่ํา

บางครั้งช่องว่างระหว่างการสูญเสียการทดสอบกับการสูญเสียการฝึกอบรมหรือการสูญเสียการตรวจสอบบ่งชี้ว่าคุณต้องเพิ่มอัตราการทําให้เป็นมาตรฐาน

การฝึก

#fundamentals

ขั้นตอนการกําหนดพารามิเตอร์ (น้ําหนักและการให้น้ําหนักพิเศษ) ที่เหมาะสมนั้นประกอบด้วยรูปแบบ ในระหว่างการฝึก ระบบจะอ่านตัวอย่างและค่อยๆ ปรับพารามิเตอร์ การฝึกใช้ตัวอย่างแต่ละรายการได้ทุกที่ ตั้งแต่ 2-3 ครั้ง ไปจนถึงหลายพันล้านครั้ง

การลดลงของการฝึก

#fundamentals

เมตริกที่แสดงถึงความสูญเสียของโมเดลในระหว่างการฝึกซ้ําครั้งหนึ่ง เช่น สมมติว่าฟังก์ชันการสูญเสีย เป็นข้อผิดพลาดกําลังสองเฉลี่ย บางทีการสูญเสียการฝึก (ค่าเฉลี่ยที่ยกกําลังสอง) สําหรับการทําซ้ําครั้งที่ 10 คือ 2.2 และการสูญเสียการฝึกอบรมสําหรับการทําซ้ําครั้งที่ 100 คือ 1.9

เส้นโค้งการสูญเสียพล็อตของการฝึกที่สูญหายเทียบกับจํานวนการฝึกซ้ํา เส้นโค้งการสูญเสียจะให้คําแนะนําต่อไปนี้เกี่ยวกับการฝึกอบรม

  • ความลาดชันด้านล่างชี้ว่าโมเดลมีการปรับปรุง
  • ความชันที่ชันขึ้นหมายความว่าโมเดลกําลังแย่ลง
  • ความลาดชันแบบโดยนัยหมายความว่าโมเดลมีความพร้อมให้บริการแล้ว

เช่น เส้นโค้งการสูญเสียที่ควรมีลักษณะดีที่สุดซึ่งแสดงให้เห็นถึงสิ่งต่อไปนี้

  • การลาดชันลาดชันระหว่างการปรับปรุงครั้งแรก ซึ่งบ่งบอกถึงการปรับปรุงโมเดลอย่างรวดเร็ว
  • การลาดชันแบบค่อยเป็นค่อยไป (แต่ยังคงลดลง) จนกว่าจะใกล้สิ้นสุดการฝึก หมายความว่าการปรับปรุงรูปแบบยังคงดําเนินต่อไปในระดับที่ค่อนข้างช้าหลังจากการทําซ้ําครั้งแรก
  • ทางลาดชันไปยังตอนท้ายของการฝึก ซึ่งชี้ให้เห็นถึงการบรรจบกัน

โครงข่ายการสูญเสียการฝึกเทียบกับการดําเนินการซ้ํา เส้นโค้งการสูญเสียนี้จะเริ่มจากทางลาดชันที่ลาดชัน ทางลาดจะค่อยๆ ลาดลงจนกว่าทางลาดจะกลายเป็น 0

แม้ว่าการสูญเสียการฝึกอบรมจะมีความสําคัญ โปรดดูหัวข้อภาพรวมเพิ่มเติมด้วย

ความคลาดเคลื่อนระหว่างการฝึกและการให้บริการ

#fundamentals

ความแตกต่างระหว่างประสิทธิภาพของโมเดลระหว่างการฝึกกับประสิทธิภาพของโมเดลเดียวกันในระหว่างการแสดงโฆษณา

ชุดการฝึก

#fundamentals

ชุดย่อยของชุดข้อมูลที่ใช้เพื่อฝึกโมเดล

โดยปกติแล้ว ตัวอย่างในชุดข้อมูลจะแบ่งออกเป็น 3 ส่วนย่อยต่อไปนี้

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นส่วนหนึ่งของชุดย่อยก่อนหน้าเพียงชุดเดียว ตัวอย่างเช่น ตัวอย่างที่ 1 ไม่ควรเป็นของทั้งชุดการฝึกอบรมและชุดการตรวจสอบ

true เชิงลบ (TN)

#fundamentals

ตัวอย่างที่โมเดลถูกต้องคาดการณ์คลาสเชิงลบ ตัวอย่างเช่น โมเดลได้อนุมานว่าข้อความอีเมลหนึ่งๆ ไม่ใช่สแปม และข้อความอีเมลนั้นไม่ใช่สแปมอย่างแท้จริง

true true (TP)

#fundamentals

ตัวอย่างที่โมเดลถูกต้องคาดการณ์คลาสเชิงบวก ตัวอย่างเช่น โมเดลอนุมานว่า ข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ และข้อความอีเมลนั้นเป็นสแปมจริงๆ

อัตราผลบวกจริง (TPR)

#fundamentals

คําพ้องความหมายสําหรับ recall โดยการ

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

อัตราบวกจริงคือแกน Y ในเส้นโค้ง ROC

U

การสวมกางเกง

#fundamentals

การสร้างโมเดลที่มีความสามารถในการคาดการณ์ที่ไม่ดี เนื่องจากโมเดลไม่ได้บันทึกความซับซ้อนของข้อมูลการฝึกอย่างสมบูรณ์ หลายๆ ปัญหาอาจทําให้ ขาดโอกาสได้ ซึ่งได้แก่

ตัวอย่างที่ไม่มีป้ายกํากับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์แต่ไม่มีป้ายกํากับ ตารางต่อไปนี้แสดงตัวอย่าง 3 รายการที่ไม่มีป้ายกํากับจากโมเดลการประเมินบ้าน โดยแต่ละฟีเจอร์มีฟีเจอร์ 3 รายการแต่ไม่มีค่าบ้าน

จำนวนห้องนอน จํานวนห้องน้ํา อายุของบ้าน
3 2 15
2 1 72
4 2 34

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกบนตัวอย่างที่มีป้ายกํากับและคาดการณ์ในตัวอย่างที่ไม่มีป้ายกํากับ

ระบบจะนําตัวอย่างที่ไม่มีป้ายกํากับมาใช้ระหว่างการฝึกในการเรียนรู้มีการควบคุมดูแลบางส่วนและ ไม่มีการควบคุมดูแล

เปรียบเทียบตัวอย่างที่ไม่มีป้ายกํากับกับตัวอย่างที่มีป้ายกํากับ

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

#clustering
#fundamentals

การฝึกโมเดลเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งโดยปกติแล้วจะเป็นชุดข้อมูลที่ไม่มีป้ายกํากับ

การใช้แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลโดยทั่วไปคือการจัดกลุ่มข้อมูลไปยังกลุ่มตัวอย่างที่คล้ายกัน ตัวอย่างเช่น อัลกอริทึมแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลจะจัดกลุ่มเพลงตามพร็อพเพอร์ตี้ต่างๆ ของเพลงได้ คลัสเตอร์ที่ได้จะกลายเป็นอินพุตสําหรับอัลกอริทึมแมชชีนเลิร์นนิงอื่นๆ (เช่น บริการแนะนําเพลง) การคลัสเตอร์อาจช่วยได้ในกรณีที่ป้ายกํากับที่มีประโยชน์ไม่มีข้อมูลน้อยมากหรือขาดหายไป ตัวอย่างเช่น ในโดเมนอย่างเช่น การป้องกันการละเมิดและการประพฤติมิชอบ คลัสเตอร์จะช่วยให้ผู้คนเข้าใจข้อมูลได้ดีขึ้น

ขัดแย้งกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล

V

การตรวจสอบความถูกต้อง

#fundamentals

การประเมินคุณภาพของโมเดลในตอนแรก การตรวจสอบคุณภาพของการคาดการณ์กับชุดการตรวจสอบ

เนื่องจากชุดการตรวจสอบแตกต่างจากชุดการฝึก การตรวจสอบจึงช่วยป้องกันการเพิ่มประสิทธิภาพ

คุณอาจลองประเมินรูปแบบเทียบกับการตรวจสอบความถูกต้องชุดแรก ของการทดสอบ และประเมินรูปแบบเทียบกับชุดการทดสอบเป็นการทดสอบรอบที่ 2

การสูญเสียการตรวจสอบ

#fundamentals

เมตริกที่แสดงถึงการสูญเสียโมเดลในชุดการตรวจสอบในระหว่างการฝึกทําซ้ําหนึ่งๆ

นอกจากนี้ โปรดดูเส้นโค้งการปรับเปลี่ยน

ชุดการตรวจสอบความถูกต้อง

#fundamentals

ชุดย่อยของชุดข้อมูลที่ดําเนินการประเมินเบื้องต้นเทียบกับโมเดลที่ผ่านการฝึกแล้ว โดยทั่วไป คุณจะต้องประเมินโมเดลที่ฝึกโดยเทียบกับชุดการตรวจสอบหลายๆ ครั้งก่อนที่จะประเมินโมเดลเทียบกับชุดการทดสอบ

โดยปกติแล้วคุณจะแบ่งตัวอย่างในชุดข้อมูลออกเป็นชุดย่อยที่แตกต่างกัน 3 ชุดต่อไปนี้

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นส่วนหนึ่งของชุดย่อยก่อนหน้าเพียงชุดเดียว ตัวอย่างเช่น ตัวอย่างที่ 1 ไม่ควรเป็นของทั้งชุดการฝึกอบรมและชุดการตรวจสอบ

W

น้ําหนัก

#fundamentals

ค่าที่โมเดลคูณด้วยค่าอื่น การฝึกเป็นกระบวนการระบุน้ําหนักที่เหมาะสมของโมเดล #การอนุมานคือกระบวนการใช้น้ําหนักที่เรียนรู้เหล่านั้นเพื่อคาดการณ์

ผลรวมที่ถ่วงน้ําหนัก

#fundamentals

ผลรวมของค่าอินพุตที่เกี่ยวข้องทั้งหมดคูณด้วยน้ําหนักที่เกี่ยวข้อง ตัวอย่างเช่น สมมติว่าอินพุตที่เกี่ยวข้องประกอบด้วยข้อมูลต่อไปนี้

ค่าอินพุต น้ําหนักของอินพุต
2 -1.3
-1 0.6
3 0.4

ดังนั้น ผลรวมถ่วงน้ําหนักจะเป็นดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

ผลรวมที่ถ่วงน้ําหนักคืออาร์กิวเมนต์อินพุตของฟังก์ชันการเปิดใช้งาน

Z

การปรับค่ามาตรฐานแบบ Z-score

#fundamentals

เทคนิคการปรับขนาดซึ่งแทนที่ค่าฟีเจอร์ดิบด้วยค่าจุดลอยตัวที่แสดงถึงจํานวนส่วนเบี่ยงเบนมาตรฐานจากฟีเจอร์ดังกล่าว เช่น ลองนึกถึงฟีเจอร์หนึ่งที่มีค่าเฉลี่ยเท่ากับ 800 และมีค่าเบี่ยงเบนมาตรฐานเป็น 100 ตารางต่อไปนี้แสดงการปรับค่ามาตรฐาน Z-score จะจับคู่ค่าดิบกับคะแนน Z

ค่าดิบ
800 0
950 +1.5
575 -2.25

จากนั้นโมเดลแมชชีนเลิร์นนิงจะฝึกคะแนน Z สําหรับฟีเจอร์ดังกล่าวแทนค่าดิบ