หน้านี้ได้รับการแปลโดย Cloud Translation API

อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง

อภิธานศัพท์นี้นิยามคำศัพท์ทั่วไปสำหรับแมชชีนเลิร์นนิง รวมถึงคำศัพท์เฉพาะสำหรับ TensorFlow

A

การจลาจล

เทคนิคในการประเมินความสำคัญของฟีเจอร์หรือคอมโพเนนต์ด้วยการนำออกชั่วคราวจากโมเดล จากนั้นให้ฝึกโมเดลอีกครั้งโดยไม่มีฟีเจอร์หรือคอมโพเนนต์ดังกล่าว และหากโมเดลที่ฝึกอีกครั้งทำงานแย่ลงมาก ฟีเจอร์หรือคอมโพเนนต์ที่นำออกไปแล้วก็น่าจะมีความสำคัญ

ตัวอย่างเช่น สมมติว่าคุณฝึกโมเดลการจัดประเภทกับฟีเจอร์ 10 รายการและมีความแม่นยำ 88% ในชุดทดสอบ หากต้องการตรวจสอบความสำคัญของฟีเจอร์แรก คุณสามารถฝึกโมเดลอีกครั้งได้โดยใช้ฟีเจอร์อีก 9 รายการเท่านั้น หากโมเดลที่ฝึกอีกครั้งมีประสิทธิภาพแย่ลงมาก (เช่น ความแม่นยำ 55%) ฟีเจอร์ที่ถูกนำออกก็อาจมีความสำคัญ ในทางกลับกัน หากโมเดลที่ฝึกอีกครั้งมีประสิทธิภาพดีพอๆ กัน ฟีเจอร์นั้นก็อาจไม่สำคัญเท่าใดนัก

การชำแหละ (Ablation) ยังช่วยระบุความสำคัญของสิ่งต่อไปนี้ได้ด้วย

คอมโพเนนต์ขนาดใหญ่ เช่น ทั้งระบบย่อยของระบบ ML ที่ใหญ่กว่า
กระบวนการหรือเทคนิค เช่น ขั้นตอนการประมวลผลข้อมูลล่วงหน้า

ในทั้ง 2 กรณี คุณจะสังเกตเห็นว่าประสิทธิภาพของระบบเปลี่ยนแปลงไปอย่างไร (หรือไม่เปลี่ยนแปลง) หลังจากนำคอมโพเนนต์ออกแล้ว

การทดสอบ A/B

วิธีทางสถิติในการเปรียบเทียบเทคนิค 2 อย่าง (ขึ้นไป) ได้แก่ A และ B โดยทั่วไปแล้ว A เป็นเทคนิคที่มีอยู่ และ B เป็นเทคนิคใหม่ การทดสอบ A/B ไม่เพียงตัดสินว่าเทคนิคใดมีประสิทธิภาพดีกว่า แต่ยังมีความแตกต่างที่มีนัยสำคัญทางสถิติหรือไม่

การทดสอบ A/B มักจะเปรียบเทียบเมตริกเดียวใน 2 เทคนิค เช่น โมเดลความแม่นยำแตกต่างกันอย่างไรสำหรับเทคนิค 2 เทคนิค อย่างไรก็ตาม การทดสอบ A/B ยังเปรียบเทียบเมตริกจำนวนเท่าใดก็ได้

ชิปตัวเร่ง

#GoogleCloud

หมวดหมู่ของคอมโพเนนต์ฮาร์ดแวร์เฉพาะที่ออกแบบมาเพื่อดำเนินการคำนวณที่สำคัญซึ่งจำเป็นสำหรับอัลกอริทึมการเรียนรู้เชิงลึก

ชิป Accelerator (หรือเรียกสั้นๆ ว่า Accelerator) สามารถเพิ่มความเร็วและประสิทธิภาพของงานการฝึกและการอนุมานได้อย่างมากเมื่อเทียบกับ CPU อเนกประสงค์ โดยเหมาะสำหรับการฝึกอบรม โครงข่ายประสาทและงานคำนวณที่คล้ายกัน

ตัวอย่างของชิป Accelerator ได้แก่

Tensor Processing Unit (TPU) ของ Google พร้อมฮาร์ดแวร์เฉพาะสำหรับการเรียนรู้เชิงลึก
GPU ของ NVIDIA ซึ่งออกแบบมาเพื่อการประมวลผลกราฟิกตั้งแต่แรก แต่ออกแบบมาเพื่อประมวลผลแบบคู่ขนาน ซึ่งจะช่วยเพิ่มความเร็วในการประมวลผลได้อย่างมาก

ความแม่นยำ

#fundamentals

จำนวนการคาดการณ์การจัดประเภทที่ถูกต้องหารด้วยจำนวนการคาดการณ์ทั้งหมด โดยการ

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

เช่น โมเดลที่ทำการคาดการณ์ถูกต้อง 40 รายการและการคาดการณ์ที่ไม่ถูกต้อง 10 รายการจะมีความแม่นยำดังนี้

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

การจัดประเภทแบบไบนารีจะระบุชื่อเฉพาะสำหรับหมวดหมู่ต่างๆ ของการคาดการณ์ที่ถูกต้องและการคาดการณ์ที่ไม่ถูกต้อง ดังนั้นสูตรความแม่นยำสำหรับการจัดประเภทแบบไบนารี มีดังนี้

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

ที่ไหน:

TP คือจำนวนผลบวกจริง (การคาดการณ์ที่ถูกต้อง)
TN คือจำนวนผลลบจริง (การคาดคะเนที่ถูกต้อง)
FP คือจํานวนผลบวกลวง (การคาดการณ์ไม่ถูกต้อง)
FN คือจำนวนผลลบลวง (การคาดการณ์ไม่ถูกต้อง)

เปรียบเทียบระหว่างความแม่นยำกับความแม่นยำและความอ่อนไหว

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

แม้ว่าเมตริกที่เป็นประโยชน์ในบางสถานการณ์ ความแม่นยำก็ทำให้ผู้อื่นเข้าใจผิดอย่างมาก สิ่งที่ควรทราบคือ ความแม่นยํามักจะเป็นเมตริกที่ไม่ดีในการประเมินโมเดลการจัดประเภทที่ประมวลผลชุดข้อมูลที่ไม่สมดุลระดับ

ตัวอย่างเช่น สมมติว่าหิมะตกเพียง 25 วันต่อศตวรรษในเมืองกึ่งเขตร้อนบางเมือง เนื่องจากวันที่ไม่มีหิมะ (คลาสเชิงลบ) มีจำนวนมากกว่าวันที่หิมะตก (คลาสเชิงบวก) ชุดข้อมูลหิมะของเมืองนี้จึงไม่สมดุล ลองจินตนาการถึงโมเดลการจัดประเภทแบบไบนารีที่ควรคาดเดาว่าจะมีหิมะหรือไม่ในแต่ละวัน แต่เพียงแค่คาดการณ์ว่า "หิมะไม่ตก" ทุกวัน โมเดลนี้มีความแม่นยำสูงแต่ไม่มีความสามารถในการคาดการณ์ ตารางต่อไปนี้สรุปผลลัพธ์ของการคาดการณ์สำหรับศตวรรษ

หมวดหมู่	ตัวเลข
TP	0
TN	36500
FP	25
FN	0

ดังนั้น ความแม่นยำของโมเดลนี้จึง:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

แม้ว่าความแม่นยำ 99.93% จะดูเหมือนเป็นเปอร์เซ็นต์ที่น่าประทับใจมาก แต่จริงๆ แล้วโมเดลนี้ไม่มีประสิทธิภาพในการคาดการณ์เลย

ความแม่นยำและการจดจำมักจะเป็นเมตริกที่มีประโยชน์มากกว่าความแม่นยำสำหรับการประเมินโมเดลที่ฝึกกับชุดข้อมูลที่ไม่สมดุลระดับ

การดำเนินการ

#rl

ในการเรียนรู้แบบเสริมการเรียนรู้ กลไกที่ agent เปลี่ยนไปมาระหว่างสถานะของสภาพแวดล้อม ตัวแทนจะเลือกการดำเนินการโดยใช้นโยบาย

ฟังก์ชันการเปิดใช้งาน

#fundamentals

ฟังก์ชันที่ช่วยให้โครงข่ายระบบประสาทเทียมเรียนรู้ความสัมพันธ์แบบไม่ใช่เชิงเส้น (ที่ซับซ้อน) ระหว่างฟีเจอร์ต่างๆ และป้ายกำกับ

ฟังก์ชันการเปิดใช้งานยอดนิยม ได้แก่

ReLU
Sigmoid

พล็อตของฟังก์ชันการเปิดใช้งานไม่ได้เป็นเส้นตรงเดี่ยว เช่น พล็อตของฟังก์ชันการเปิดใช้งาน ReLU ประกอบด้วยเส้นตรง 2 เส้น ดังนี้

พล็อตแบบคาร์เตเซียที่มีเส้น 2 เส้น บรรทัดแรกมีค่า y คงที่เป็น 0 วิ่งตามแกน x ตั้งแต่ -infinity, 0 ถึง 0,-0
บรรทัดที่ 2 เริ่มต้นที่ 0,0 เส้นนี้มีความชันของ +1 ดังนั้น
จึงเริ่มต้นจาก 0,0 ถึง +อนันต์, +อนันต์

พล็อตของฟังก์ชันการเปิดใช้งานซิกมอยด์มีลักษณะดังต่อไปนี้

พล็อตแบบโค้ง 2 มิติที่มีค่า x ซึ่งครอบคลุมโดเมนตั้งแต่ -อนันต์ไปจนถึง +บวก ขณะที่ค่า y อยู่ในช่วงเกือบ 0 ถึงเกือบ 1 เมื่อ x เท่ากับ 0 ค่า y จะเท่ากับ 0.5 ความชันของเส้นโค้งจะเป็นบวกเสมอ โดยมีความชันสูงสุดที่ 0,0.5 และค่อยๆ ลดความชันลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

คลิกไอคอนเพื่อดูตัวอย่าง

ในเครือข่ายประสาทเทียม ฟังก์ชันการเปิดใช้งานจะปรับเปลี่ยนผลรวมถ่วงน้ำหนักของอินพุตทั้งหมดไปยังเซลล์ประสาท ในการคำนวณผลรวมถ่วงน้ำหนัก เซลล์ประสาทจะบวกผลคูณของค่าและน้ำหนักที่เกี่ยวข้อง ตัวอย่างเช่น สมมติว่าอินพุตที่เกี่ยวข้อง สำหรับเซลล์ประสาทประกอบด้วยข้อมูลต่อไปนี้

ค่าอินพุต	น้ำหนักอินพุต
2	-1.3
-1	0.6
3	0.4

ดังนั้นผลรวมถ่วงน้ำหนักจะเป็นดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

สมมติว่าผู้ออกแบบโครงข่ายระบบประสาทนี้เลือก ฟังก์ชันซิกมอยด์เป็น ฟังก์ชันเปิดใช้งาน ในกรณีดังกล่าว เซลล์ประสาทจะคำนวณซิกมอยด์ของ -2.0 ซึ่งเท่ากับประมาณ 0.12 ดังนั้น เซลล์ประสาทจะส่งผ่าน 0.12 (แทน -2.0) ไปยังชั้นถัดไปในโครงข่ายประสาท รูปภาพต่อไปนี้แสดงส่วนที่เกี่ยวข้องของกระบวนการ

การเรียนรู้แบบลงมือปฏิบัติ

วิธีการการฝึกที่อัลกอริทึมเลือกข้อมูลบางส่วนที่จะเรียนรู้ การเรียนรู้แบบลงมือปฏิบัติมีประโยชน์อย่างยิ่งเมื่อตัวอย่างที่ติดป้ายกำกับมีน้อยมากหรือมีค่าใช้จ่ายสูง แทนที่จะค้นหาตัวอย่างที่ติดป้ายกำกับอย่างหลากหลาย อัลกอริทึมการเรียนรู้แบบลงมือปฏิบัติจะเลือกค้นหาตัวอย่างช่วงที่เจาะจงซึ่งจำเป็นต่อการเรียนรู้

AdaGrad

อัลกอริทึมสืบทอดการไล่ระดับสีขั้นสูงที่ปรับขนาดการไล่ระดับสีของพารามิเตอร์แต่ละรายการใหม่ โดยให้อัตราการเรียนรู้แต่ละรายการเป็นอิสระจากกัน สำหรับคำอธิบายทั้งหมด โปรดดู เอกสารของ AdaGrad นี้

ตัวแทน

#rl

ในการเรียนรู้แบบสนับสนุน เอนทิตีที่ใช้นโยบายเพื่อเพิ่มผลตอบแทนที่คาดว่าจะได้รับจากการเปลี่ยนผ่านระหว่างรัฐของสภาพแวดล้อม

หรือกล่าวอีกอย่างก็คือ ตัวแทนคือซอฟต์แวร์ที่วางแผนและดำเนินการต่างๆ อย่างอิสระเพื่อให้บรรลุเป้าหมาย โดยมีความสามารถในการปรับตัวให้เข้ากับการเปลี่ยนแปลงในสภาพแวดล้อมของตน เช่น ตัวแทนที่ใช้ LLM อาจใช้ LLM เพื่อสร้างแผนแทนการใช้นโยบายการเรียนรู้แบบเสริมแรง

การจัดกลุ่มแบบรวมกลุ่ม

#clustering

ดูการจัดกลุ่มแบบลำดับชั้น

การตรวจจับความผิดปกติ

กระบวนการระบุค่าผิดปกติ ตัวอย่างเช่น หากค่าเฉลี่ยสำหรับฟีเจอร์บางรายการเป็น 100 โดยมีค่าเบี่ยงเบนมาตรฐานเป็น 10 การตรวจจับความผิดปกติควรแจ้งค่า 200 ว่าน่าสงสัย

AR

ตัวย่อของ Augmented Reality

ใต้กราฟ PR

ดู PR AUC (พื้นที่ภายใต้ PR Curve)

พื้นที่ใต้กราฟ ROC

ดู AUC (พื้นที่ใต้เส้นโค้ง ROC)

ปัญญาประดิษฐ์ (AI) ทั่วไป

กลไกที่ไม่ได้เกิดจากมนุษย์ซึ่งแสดงให้เห็นถึงความหลากหลายของการแก้ปัญหา ความคิดสร้างสรรค์ และความสามารถในการปรับ ตัวอย่างเช่น โปรแกรมที่สาธิตปัญญาประดิษฐ์ (AI) อาจแปลข้อความ แต่งซิมโฟนี และเก่งด้านเกมที่ยังไม่ได้คิดค้น

ปัญญาประดิษฐ์ (AI)

#fundamentals

โปรแกรมหรือmodelที่ไม่ใช่มนุษย์ซึ่งแก้ปัญหาที่ซับซ้อนได้ ตัวอย่างเช่น โปรแกรมหรือโมเดลที่แปลข้อความหรือโปรแกรมหรือโมเดลที่ระบุโรคต่างๆ จากภาพรังสีวิทยาแสดงปัญญาประดิษฐ์ (AI)

อย่างเป็นทางการ แมชชีนเลิร์นนิงเป็นสาขาย่อยของปัญญาประดิษฐ์ (AI) อย่างไรก็ตาม ในช่วงไม่กี่ปีที่ผ่านมา องค์กรบางแห่งได้เริ่มใช้คำว่าปัญญาประดิษฐ์ (AI) และแมชชีนเลิร์นนิงแทนกัน

โปรดทราบ

#language

กลไกที่ใช้ในโครงข่ายระบบประสาทซึ่งระบุความสำคัญของคำบางคำหรือบางส่วนของคำ Attention บีบอัดปริมาณข้อมูลที่โมเดลต้องใช้ในการคาดการณ์โทเค็น/คำถัดไป กลไกการพิจารณาโดยทั่วไปอาจประกอบด้วยผลรวมที่ถ่วงน้ำหนักในชุดอินพุต ซึ่งน้ำหนักของอินพุตแต่ละรายการจะคำนวณโดยส่วนหนึ่งของโครงข่ายประสาท

โปรดดูการจัดการตนเองและการจัดการตนเองแบบหลายศีรษะ ซึ่งเป็นองค์ประกอบสำคัญของ Transformers

แอตทริบิวต์

#fairness

คำพ้องความหมายของ feature

ในความเป็นธรรมของแมชชีนเลิร์นนิง แอตทริบิวต์มักจะหมายถึงลักษณะเฉพาะที่เกี่ยวข้องกับบุคคล

การสุ่มตัวอย่างแอตทริบิวต์

#df

กลยุทธ์สำหรับการฝึกป่าการตัดสินใจ ซึ่งแผนผังการตัดสินใจแต่ละแบบจะพิจารณาเฉพาะชุดย่อยของฟีเจอร์ที่เป็นไปได้แบบสุ่มเมื่อเรียนรู้เงื่อนไข โดยทั่วไปแล้ว แต่ละโหนดจะใช้ฟีเจอร์ชุดย่อยที่แตกต่างกัน ในทางตรงกันข้าม เมื่อฝึกโครงสร้างการตัดสินใจที่ไม่มีการสุ่มตัวอย่างแอตทริบิวต์ ระบบจะพิจารณาฟีเจอร์ที่เป็นไปได้ทั้งหมดสำหรับแต่ละโหนด

AUC (พื้นที่ใต้กราฟ ROC)

#fundamentals

จำนวนระหว่าง 0.0 ถึง 1.0 ที่แสดงถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสบวกออกจากคลาสเชิงลบ ยิ่ง AUC ใกล้เคียงกับ 1.0 มากเท่าใด โมเดลจะสามารถแยกคลาสออกจากกันได้ดีขึ้น

ตัวอย่างเช่น ภาพประกอบต่อไปนี้แสดงโมเดลตัวแยกประเภทที่แยกคลาสบวก (วงรีสีเขียว) ออกจากคลาสลบ (สี่เหลี่ยมผืนผ้าสีม่วง) ได้อย่างสมบูรณ์แบบ โมเดลที่ไม่สมบูรณ์แบบนี้มี AUC 1.0:

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 8 ด้านในด้านหนึ่งและตัวอย่างเชิงลบ 9 รายการที่อีกด้านหนึ่ง

ในทางกลับกัน ภาพประกอบต่อไปนี้จะแสดงผลลัพธ์ของโมเดลตัวแยกประเภทที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มี AUC 0.5:

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
ลำดับของตัวอย่างคือบวก ด้านลบ ผลบวก ผลบวก บวก แง่ลบ แง่ลบ แง่ลบ แง่ลบ บวก ลบ

ใช่ โมเดลก่อนหน้ามี AUC เป็น 0.5 ไม่ใช่ 0.0

โมเดลส่วนใหญ่จะอยู่ระหว่างปลายทั้ง 2 ด้าน ตัวอย่างเช่น โมเดลต่อไปนี้จะแยกรายการเชิงบวกออกจากรายการเชิงลบ ดังนั้นจึงมี AUC อยู่ระหว่าง 0.5 ถึง 1.0

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
ลำดับของตัวอย่างคือ ลบ ลบ ลบ ลบ บวก ลบ บวก ลบ แง่ลบ บวก บวก

AUC จะไม่สนใจค่าที่คุณตั้งไว้สำหรับเกณฑ์การจัดประเภท แต่ AUC จะพิจารณาเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมด

คลิกไอคอนเพื่อดูข้อมูลเกี่ยวกับความสัมพันธ์ระหว่างเส้นโค้ง AUC และ ROC

AUC แสดงพื้นที่ภายใต้เส้นโค้ง ROC ตัวอย่างเช่น เส้นโค้ง ROC สำหรับโมเดลที่แยกผลบวกออกจากผลลบอย่างสมบูรณ์แบบมีลักษณะดังต่อไปนี้

AUC คือพื้นที่ของบริเวณที่เป็นสีเทาในภาพประกอบก่อนหน้านี้ ในกรณีที่ผิดปกตินี้ พื้นที่จะมีความยาวของพื้นที่สีเทา (1.0) คูณด้วยความกว้างของพื้นที่สีเทา (1.0) ดังนั้นผลคูณของ 1.0 และ 1.0 จะให้ AUC ที่ 1.0 พอดีซึ่งเป็นคะแนน AUC ที่สูงที่สุด

ในทางกลับกัน เส้นโค้ง ROC สำหรับตัวแยกประเภทที่ไม่สามารถแยกคลาสได้ทั้งหมดจะมีลักษณะดังนี้ พื้นที่สีเทานี้คือ 0.5

เส้นโค้ง ROC ตามปกติจะมีลักษณะประมาณต่อไปนี้

การคำนวณพื้นที่ใต้เส้นโค้งนี้ด้วยตนเองเป็นเรื่องยาก ซึ่งเป็นเหตุผลที่โปรแกรมจะคำนวณค่า AUC ส่วนใหญ่

คลิกไอคอนเพื่อดูคำจำกัดความ AUC ที่เป็นทางการมากขึ้น

AUC คือความน่าจะเป็นที่ตัวแยกประเภทจะมั่นใจมากขึ้นว่าตัวอย่างเชิงบวกที่ได้รับการสุ่มเลือกนั้นเป็นเชิงบวกจริงๆ มากกว่าตัวอย่างเชิงลบที่ได้รับการสุ่มเลือกให้เป็นเชิงบวก

Augmented Reality

#image

เทคโนโลยีที่แทนที่รูปภาพซึ่งคอมพิวเตอร์สร้างขึ้นในมุมมองของผู้ใช้ในชีวิตจริง จึงเป็นมุมมองแบบผสม

โปรแกรมเปลี่ยนไฟล์อัตโนมัติ

#language

#image

ระบบที่เรียนรู้เพื่อดึงข้อมูลที่สำคัญที่สุดจากอินพุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นการผสมผสานระหว่างโปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัส โปรแกรมเปลี่ยนไฟล์อัตโนมัติมีกระบวนการ 2 ขั้นตอนดังนี้

โปรแกรมเปลี่ยนไฟล์จะแมปอินพุตกับรูปแบบ (ทั่วไป) แบบสูญเสียช่วงมิติ (ระดับกลาง)
เครื่องมือถอดรหัสจะสร้างเวอร์ชันแบบสูญเสียข้อมูลอินพุตต้นฉบับโดยการแมปรูปแบบมิติข้อมูลที่ต่ำกว่าเข้ากับรูปแบบอินพุตที่มีมิติข้อมูลสูงกว่าแบบเดิม

โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะได้รับการฝึกจากต้นทางถึงปลายทางโดยให้เครื่องมือถอดรหัสพยายามสร้างอินพุตเดิมใหม่จากรูปแบบระดับกลางของโปรแกรมเปลี่ยนไฟล์ให้ใกล้เคียงที่สุด เนื่องจากรูปแบบระดับกลางมีขนาดเล็กกว่า (มีมิติต่ำกว่า) รูปแบบเดิม ตัวเข้ารหัสอัตโนมัติจึงถูกบังคับให้ศึกษาว่าข้อมูลใดในอินพุตเป็นข้อมูลที่สำคัญ และเอาต์พุตที่ได้จะไม่เหมือนกับอินพุตที่โดยสมบูรณ์

เช่น

หากข้อมูลอินพุตเป็นกราฟิก สำเนาที่ไม่ตรงทั้งหมดจะคล้ายกับกราฟิกต้นฉบับ แต่ได้รับการแก้ไขบ้าง สำเนาที่ไม่ใช่แบบตรงกันทั้งหมดอาจนำสัญญาณรบกวนออกจากกราฟิกต้นฉบับหรือเติมเต็มพิกเซลที่หายไปบางส่วน
หากข้อมูลอินพุตเป็นข้อความ โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะสร้างข้อความใหม่ที่เลียนแบบ (แต่ไม่เหมือนกับ) ข้อความต้นฉบับ

ดูข้อมูลเพิ่มเติมได้ในเครื่องมือเข้ารหัสอัตโนมัติรูปแบบต่างๆ

อคติการทำงานอัตโนมัติ

#fairness

เมื่อผู้มีอำนาจตัดสินใจชอบคำแนะนำจากระบบการตัดสินใจอัตโนมัติมากกว่าข้อมูลที่ไม่มีการทำงานอัตโนมัติ แม้ว่าระบบการตัดสินใจอัตโนมัติจะเกิดข้อผิดพลาดก็ตาม

AutoML

กระบวนการอัตโนมัติทั้งหมดสำหรับการสร้างโมเดลของแมชชีนเลิร์นนิง AutoML จะทำงานโดยอัตโนมัติได้ เช่น

ค้นหารุ่นที่เหมาะสมที่สุด
ปรับแต่ง hyperparameters
เตรียมข้อมูล (รวมถึงการดำเนินการวิศวกรรมฟีเจอร์)
ทำให้โมเดลที่ได้ใช้งานได้

AutoML มีประโยชน์สำหรับนักวิทยาศาสตร์ข้อมูลเพราะช่วยประหยัดเวลาและความพยายามในการพัฒนาไปป์ไลน์แมชชีนเลิร์นนิง รวมถึงปรับปรุงความแม่นยำในการคาดการณ์ นอกจากนี้ ยังมีประโยชน์สำหรับคนที่ไม่ใช่ผู้เชี่ยวชาญด้วยเพราะช่วยให้เข้าถึงงานด้านแมชชีนเลิร์นนิงที่ซับซ้อนได้มากขึ้น

รูปแบบถดถอยอัตโนมัติ

#language

#image

#GenerativeAI

modelที่อนุมานการคาดการณ์จากการคาดคะเนก่อนหน้านี้ของตัวมันเอง ตัวอย่างเช่น โมเดลภาษาที่ถดถอยอัตโนมัติจะคาดการณ์โทเค็นถัดไปโดยอิงตามโทเค็นที่คาดการณ์ไว้ก่อนหน้านี้ โมเดลภาษาขนาดใหญ่ทั้งหมดที่อิงตาม Transformer จะถดถอยโดยอัตโนมัติ

ในทางตรงกันข้าม โมเดลรูปภาพแบบ GAN มักจะไม่ถดถอยอัตโนมัติเพราะสร้างรูปภาพผ่านการส่งต่อรายการเดียวและไม่เกิดซ้ำในขั้นตอน แต่โมเดลการสร้างรูปภาพบางโมเดลจะทำงานแบบถดถอยอัตโนมัติเนื่องจากสร้างรูปภาพในขั้นตอน

การสูญเสียอุปกรณ์ช่วย

ฟังก์ชันการลด ที่ใช้ร่วมกับฟังก์ชันการลดหลักของโครงข่ายระบบประสาท โมเดล ซึ่งช่วยเร่งการฝึกในช่วงเริ่มต้นซ้ำๆ เมื่อมีการเริ่มต้นน้ำหนักแบบสุ่ม

ฟังก์ชันการลดแสงเสริมจะพุช การไล่ระดับสีที่มีประสิทธิภาพไปยังเลเยอร์ก่อนหน้า ซึ่งจะช่วยในการปรึกษาหารือระหว่างการฝึกโดยจัดการกับปัญหาการไล่ระดับสีที่หายไป

ความแม่นยำเฉลี่ย

เมตริกสำหรับการสรุปประสิทธิภาพของผลลัพธ์แบบจัดอันดับ ความแม่นยำเฉลี่ยคำนวณโดยใช้ค่าเฉลี่ยของค่าความแม่นยำสำหรับผลลัพธ์ที่เกี่ยวข้องแต่ละรายการ (ผลลัพธ์แต่ละรายการจะอยู่ในรายการที่จัดอันดับซึ่งความอ่อนไหวเพิ่มขึ้นเมื่อเทียบกับผลลัพธ์ก่อนหน้า)

ดูข้อมูลเพิ่มเติมได้ในพื้นที่ภายใต้เส้นโค้ง PR

เงื่อนไขตามแกน

#df

ในแผนผังการตัดสินใจ เงื่อนไขที่มีฟีเจอร์เพียงรายการเดียว ตัวอย่างเช่น ถ้าพื้นที่เป็นจุดสนใจ ต่อไปนี้เป็นเงื่อนไขที่จัดตามแกน

area > 200

คอนทราสต์กับเงื่อนไขแบบเอียง

B

การแพร่พันธุ์ย้อนกลับ

#fundamentals

อัลกอริทึมที่ใช้การลดระดับการไล่ระดับสีในโครงข่ายระบบประสาทเทียม

การฝึกโครงข่ายระบบประสาทเทียมมีการทำซ้ำหลายครั้งของวงจร 2 ทางต่อไปนี้

ในระหว่างการส่งต่อ ระบบจะประมวลผลกลุ่มของตัวอย่างเพื่อสร้างการคาดการณ์ ระบบจะเปรียบเทียบการคาดการณ์แต่ละรายการกับค่า label แต่ละค่า ความแตกต่างระหว่างการคาดการณ์กับค่าของป้ายกํากับคือ loss สําหรับตัวอย่างนั้น ระบบจะรวมผลเสียของตัวอย่างทั้งหมดเพื่อคำนวณการสูญเสียรวมของแบทช์ปัจจุบัน
ระหว่างการย้อนกลับทางเก่า (backproagation) ระบบจะลดการสูญเสียโดยการปรับน้ำหนักของเซลล์ประสาททั้งหมดในเลเยอร์ที่ซ่อนอยู่ทั้งหมด

โครงข่ายประสาทมักมีเซลล์ประสาทจำนวนมากตามชั้นที่ซ่อนอยู่ เซลล์ประสาทแต่ละเซลล์มีส่วนทำให้เกิดการสูญเสียโดยรวมในรูปแบบที่ไม่เหมือนกัน การแพร่พันธุ์กลับเป็นตัวกำหนดว่าจะเพิ่มหรือลดน้ำหนักที่ใช้กับเซลล์ประสาทหนึ่งๆ

อัตราการเรียนรู้คือตัวคูณที่ควบคุมระดับของการเพิ่มหรือลดน้ำหนักของแต่ละส่วนในการย้อนกลับ อัตราการเรียนรู้สูงจะเพิ่มหรือลดน้ำหนักของแต่ละระดับมากกว่าอัตราการเรียนรู้เพียงเล็กน้อย

ในทางแคลคูลัส การแพร่ย้อนกลับจะนำกฎเชนมาใช้จากแคลคูลัส ซึ่งก็คือการนำไปใช้ย้อนกลับจะคำนวณอนุพันธ์บางส่วนของข้อผิดพลาดโดยยึดตามพารามิเตอร์แต่ละรายการ

หลายปีที่ผ่านมา ผู้ปฏิบัติงาน ML ต้องเขียนโค้ดเพื่อปรับใช้การนำไปใช้ในภายหลัง ตอนนี้ ML API สมัยใหม่ เช่น TensorFlow นำการนำไปใช้ย้อนกลับให้คุณแล้ว ในที่สุด

การเก็บกระเป๋า

#df

วิธีการฝึกชุดซึ่งโมเดลส่วนประกอบแต่ละรายการจะฝึกกับตัวอย่างการฝึกชุดย่อยแบบสุ่ม สุ่มตัวอย่างด้วยการแทนที่ เช่น ป่าแบบสุ่มคือชุดของต้นไม้ตัดสินใจที่ฝึกให้มีการเก็บกระเป๋า

คำว่า bagging เป็นคำสั้นๆ ของ bootstrap aggregating

ถุงคำ

#language

การนำเสนอคำในวลีหรือข้อความ โดยไม่คำนึงถึงลำดับ ตัวอย่างเช่น กลุ่มคำจะประกอบไปด้วยวลี 3 วลีต่อไปนี้เหมือนกัน

สุนัขกระโดด
กระโดดสุนัข
หมากระโดด

แต่ละคำจะแมปกับดัชนีในเวกเตอร์แบบกระจัดกระจาย โดยที่เวกเตอร์จะมีดัชนีสำหรับทุกคำในคำศัพท์ ตัวอย่างเช่น วลีสุนัขกระโดดจะแมปเป็นเวกเตอร์ของฟีเจอร์ที่มีค่าที่ไม่ใช่ 0 ที่ดัชนี 3 รายการซึ่งตรงกับคำว่า the, dog และ jumps ค่าที่ไม่ใช่ 0 อาจเป็นค่าใดค่าหนึ่งต่อไปนี้

เลข 1 เพื่อบ่งบอกว่ามีคำ
จำนวนครั้งที่คำหนึ่งคำปรากฏขึ้นในถุง เช่น หากวลีคือ สุนัขสีน้ำตาลแดงเป็นสุนัขที่มีขนสีน้ำตาลแดง ทั้งสีน้ำตาลอมแดงและสุนัขก็จะแสดงเป็น 2 ขณะที่คำอื่นๆ จะแสดงเป็น 1
ค่าอื่นๆ เช่น ลอการิทึมของจำนวนครั้งที่คำปรากฏในถุง

พื้นฐาน

modelที่ใช้เป็นจุดอ้างอิงสำหรับการเปรียบเทียบประสิทธิภาพของโมเดลอื่น (โดยปกติจะเป็นโมเดลที่ซับซ้อนกว่า) เช่น โมเดลการถดถอยแบบโลจิสติกอาจใช้เป็นเกณฑ์พื้นฐานที่ดีสำหรับโมเดลเชิงลึก

สำหรับปัญหาหนึ่งๆ เกณฑ์พื้นฐานจะช่วยให้นักพัฒนาโมเดลสามารถวัดประสิทธิภาพที่คาดหวังขั้นต่ำที่โมเดลใหม่ต้องทำเพื่อให้โมเดลใหม่ใช้งานได้

กลุ่ม

#fundamentals

ชุดตัวอย่างที่ใช้ในทำซ้ำการฝึกรายการเดียว ขนาดกลุ่มจะเป็นตัวกำหนดจำนวนตัวอย่างในกลุ่ม

ดูคำอธิบายว่ากลุ่มเกี่ยวข้องกับ Epoch ได้อย่างไรใน Epoch

การอนุมานแบบกลุ่ม

#TensorFlow

#GoogleCloud

กระบวนการคาดการณ์การอนุมานในตัวอย่างที่ไม่มีป้ายกำกับหลายรายการจะแบ่งออกเป็นชุดย่อย ("กลุ่ม")

การอนุมานแบบกลุ่มสามารถใช้ประโยชน์จากฟีเจอร์การปรับพร้อมกันของชิป Accelerator กล่าวคือ Accelerator หลายตัวสามารถอนุมานการคาดการณ์ในกลุ่มตัวอย่างที่ไม่มีป้ายกำกับได้พร้อมกัน ซึ่งทำให้จำนวนการอนุมานต่อวินาทีเพิ่มขึ้นอย่างมาก

การแปลงเป็นรูปแบบมาตรฐาน

การทำให้อินพุตหรือเอาต์พุตของฟังก์ชันการเปิดใช้งานเป็นมาตรฐานในเลเยอร์ที่ซ่อนไว้ การปรับข้อมูลแบบกลุ่มให้อยู่ในรูปแบบมาตรฐานมีข้อดีดังนี้

ทำให้โครงข่ายระบบประสาทเทียมเสถียรยิ่งขึ้นโดยการป้องกันน้ำหนักของค่าผิดปกติ
เปิดใช้อัตราการเรียนรู้ที่สูงขึ้น ซึ่งช่วยเร่งการฝึกได้
ลดการปรับให้พอดี

ขนาดกลุ่ม

#fundamentals

จำนวนตัวอย่างในกลุ่ม เช่น หากขนาดกลุ่มคือ 100 โมเดลจะประมวลผล 100 ตัวอย่างต่อการทำซ้ำ

กลยุทธ์ขนาดกลุ่มยอดนิยมมีดังนี้

Stochastic Gradient Descent (SGD) ซึ่งมีขนาดกลุ่มคือ 1
ทั้งกลุ่ม โดยขนาดกลุ่มคือจำนวนตัวอย่างในชุดการฝึกทั้งชุด เช่น ถ้าชุดการฝึกมีตัวอย่าง 1 ล้านตัวอย่าง ขนาดกลุ่มจะเป็นล้านตัวอย่าง วิดีโอทั้งกลุ่มมักเป็นกลยุทธ์ที่ไม่มีประสิทธิภาพ
มินิแบตช์ ซึ่งขนาดกลุ่มมักจะอยู่ระหว่าง 10 ถึง 1,000 โดยทั่วไปแล้วเป็นกลยุทธ์ที่มีประสิทธิภาพสูงสุด

โครงข่ายประสาทแบบ Bayesian

โครงข่ายระบบประสาทความน่าจะเป็นที่อธิบายถึงความไม่แน่นอนในน้ำหนักและเอาต์พุต โมเดลการถดถอยของเครือข่ายระบบประสาทมาตรฐานมักจะคาดการณ์ค่าสเกลาร์ เช่น โมเดลมาตรฐานคาดการณ์ราคาบ้านที่ 853,000 ในทางตรงกันข้าม โครงข่ายประสาทแบบ Bayesian จะคาดการณ์การกระจายของค่า เช่น โมเดลแบบ Bayesian คาดการณ์ราคาบ้านที่ 853,000 โดยมีค่าเบี่ยงเบนมาตรฐานอยู่ที่ 67,200

โครงข่ายประสาทแบบ Bayesian ใช้ ทฤษฎีบทของ Bayes ในการคำนวณความไม่แน่นอนของน้ำหนักและการคาดการณ์ โครงข่ายประสาทแบบ Bayesian จะเป็นประโยชน์เมื่อต้องวัดความไม่แน่นอนในเชิงปริมาณ เช่น ในรูปแบบที่เกี่ยวข้องกับเภสัชภัณฑ์ โครงข่ายประสาทแบบ Bayesian ยังช่วยป้องกันการติดตั้งระบบเกินได้ด้วย

การเพิ่มประสิทธิภาพ Bayesian

เทคนิคโมเดลการถดถอยความน่าจะเป็นสำหรับการเพิ่มประสิทธิภาพฟังก์ชันวัตถุประสงค์ที่มีราคาแพงในการคำนวณ โดยการเพิ่มประสิทธิภาพตัวแทนที่ใช้วัดจำนวนความไม่แน่นอนโดยใช้เทคนิคการเรียนรู้แบบเบย์ เนื่องจากการเพิ่มประสิทธิภาพแบบ Bayesian นั้นมีค่าใช้จ่ายสูงมาก ระบบจึงมักใช้ในการเพิ่มประสิทธิภาพงานที่ประเมินราคาแพงซึ่งมีพารามิเตอร์เพียงไม่กี่รายการ เช่น การเลือก hyperparameters

สมการเบลล์แมน

#rl

ในการเรียนรู้แบบเสริม ข้อมูลประจำตัวต่อไปนี้ตาม ฟังก์ชัน Q ที่เหมาะสมที่สุด

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

อัลกอริทึมการเรียนรู้แบบเสริมการเรียนรู้จะนำข้อมูลระบุตัวตนนี้ไปใช้สร้าง Q-learning ผ่านกฎการอัปเดตต่อไปนี้

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

นอกเหนือจากการเรียนรู้แบบเสริมแรงแล้ว สมการของ Bellman ยังนำมาใช้กับการเขียนโปรแกรมแบบไดนามิกด้วย ดู รายการ Wikipedia สำหรับสมการของ Bellman

BERT (การเข้ารหัสแบบ 2 ทิศทาง การรับรองจาก Transformers)

#language

สถาปัตยกรรมโมเดลสำหรับการนําเสนอข้อความ โมเดล BERT ที่ได้รับการฝึกจะทำหน้าที่เป็นส่วนหนึ่งของโมเดลขนาดใหญ่สำหรับการแยกประเภทข้อความหรืองาน ML อื่นๆ

BERT มีลักษณะดังต่อไปนี้

ใช้สถาปัตยกรรม Transformer ดังนั้นจึงอาศัยการดูแลตนเอง
ใช้ส่วนโปรแกรมเปลี่ยนไฟล์ของ Transformer หน้าที่ของโปรแกรมเปลี่ยนไฟล์คือการสร้างการนำเสนอข้อความที่ดีมากกว่าการทำงานเฉพาะ อย่างเช่นการแยกประเภท
เป็นแบบแบบ 2 ทิศทาง
ใช้การมาสก์สำหรับการฝึกที่ไม่มีการควบคุมดูแล

รูปแบบของ BERT ประกอบด้วย

ALBERT ซึ่งเป็นตัวย่อของ A Light BERT
LaBSE

ดูภาพรวมของ BERT ใน Open Sourching BERT: การฝึกอบรมล่วงหน้าอันล้ำสมัยสำหรับการประมวลผลภาษาธรรมชาติ สำหรับภาพรวมของ BERT

อคติ (จริยธรรม/ความเป็นธรรม)

#fairness

#fundamentals

1. การเหมารวม อคติ หรือรายการโปรดกับบางสิ่ง บุคคล หรือกลุ่มบุคคลมากกว่าผู้อื่น อคติเหล่านี้อาจส่งผลต่อการรวบรวมและการตีความข้อมูล การออกแบบระบบ และวิธีที่ผู้ใช้โต้ตอบกับระบบ รูปแบบของการให้น้ำหนักพิเศษประเภทนี้ได้แก่

การให้น้ำหนักพิเศษในการทำงานอัตโนมัติ
การให้น้ำหนักพิเศษในการยืนยัน
อคติของผู้ทดสอบ
ความลำเอียงในการระบุแหล่งที่มาของกลุ่ม
อคติโดยไม่รู้ตัว
ความลำเอียงในกลุ่ม
อคติจากความเป็นเอกพันธ์ภายนอกกลุ่ม

2. ข้อผิดพลาดอย่างเป็นระบบซึ่งเกิดขึ้นจากขั้นตอนการสุ่มตัวอย่างหรือการรายงาน รูปแบบของการให้น้ำหนักพิเศษประเภทนี้ได้แก่

การให้น้ำหนักพิเศษกับความครอบคลุม
ความลำเอียงแบบไม่ตอบ
อคติในการเข้าร่วม
ความลำเอียงในการรายงาน
การให้น้ำหนักพิเศษในการสุ่มตัวอย่าง
ความเอนเอียงในการเลือก

อย่าสับสนกับคำศัพท์ที่มีอคติในโมเดลแมชชีนเลิร์นนิงหรืออคติของการคาดการณ์

การให้น้ำหนักพิเศษ (ทางคณิตศาสตร์) หรือการให้น้ำหนักพิเศษ

#fundamentals

จุดตัดหรือออฟเซ็ตจากต้นทาง การให้น้ำหนักพิเศษคือพารามิเตอร์ในโมเดลแมชชีนเลิร์นนิง ซึ่งระบุด้วยสัญลักษณ์อย่างใดอย่างหนึ่งต่อไปนี้

ตัวอย่างเช่น การให้น้ำหนักพิเศษคือ b ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

สำหรับเส้นสองมิติแบบง่ายๆ การให้น้ำหนักพิเศษหมายถึง "จุดตัดแกน Y" ตัวอย่างเช่น การให้น้ำหนักพิเศษของเส้นในภาพประกอบต่อไปนี้คือ 2

พล็อตของเส้นที่มีความชัน 0.5 และการให้น้ำหนักพิเศษ (จุดตัด Y) ของ 2

การให้น้ำหนักพิเศษมีเพราะบางโมเดลไม่ได้เริ่มต้นจากต้นทาง (0,0) ตัวอย่างเช่น สมมติว่าสวนสนุกต้องจ่ายเงิน 2 ยูโรสำหรับการเข้าสวนสนุก และอีก 0.5 ยูโรสำหรับทุกๆ ชั่วโมงที่ลูกค้าเข้าพัก ดังนั้น โมเดลการแมปต้นทุนทั้งหมดจึงมีอคติเป็น 2 เพราะต้นทุนต่ำสุดคือ 2 ยูโร

อย่าสับสนกับอคติทางจริยธรรมและความยุติธรรมหรืออคติในการคาดการณ์

แบบ 2 ทาง

#language

คำที่ใช้อธิบายระบบที่ประเมินข้อความที่ทั้งอยู่หน้าและติดตามส่วนเป้าหมายของข้อความ ในทางตรงกันข้าม ระบบแบบทิศทางเดียวจะประเมินเฉพาะข้อความที่อยู่ก่อนหน้าข้อความในส่วนเป้าหมายเท่านั้น

เช่น ลองพิจารณาโมเดลภาษามาสก์ซึ่งต้องระบุความน่าจะเป็นสำหรับคำหรือกลุ่มคำที่แสดงถึงการขีดเส้นใต้ในคำถามต่อไปนี้

_____ กับคุณคืออะไร

โมเดลภาษาแบบทิศทางเดียวจะต้องอิงตามความน่าจะเป็นเฉพาะในบริบทที่ระบุด้วยคำว่า "อะไร" "คือ" และ "the" เท่านั้น ในทางตรงกันข้าม โมเดลภาษาแบบ 2 ทิศทางอาจได้รับบริบทจาก "with" และ "you" ซึ่งอาจช่วยให้โมเดลสร้างการคาดการณ์ที่ดีขึ้นได้

โมเดลภาษาแบบ 2 ทิศทาง

#language

โมเดลภาษาซึ่งกำหนดความน่าจะเป็นที่โทเค็นที่ระบุจะปรากฏในตำแหน่งหนึ่งๆ ในข้อความที่ตัดตอนมาจากข้อความโดยพิจารณาจากข้อความนำหน้าและที่ตามมา

Bigram

#seq

#language

N-gram ซึ่งมี N=2

การจำแนกประเภทไบนารี

#fundamentals

งานประเภทการแยกประเภทที่คาดการณ์ว่า 1 ใน 2 คลาสที่ใช้พร้อมกันไม่ได้มีดังนี้

คลาสเชิงบวก
คลาสเชิงลบ

ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิง 2 โมเดลต่อไปนี้แต่ละโมเดลทำการแยกประเภทแบบไบนารี

รูปแบบที่กำหนดว่าข้อความอีเมลเป็นสแปม (คลาสเชิงบวก) หรือไม่ใช่สแปม (คลาสเชิงลบ)
โมเดลที่ประเมินอาการทางการแพทย์เพื่อตัดสินว่าบุคคลหนึ่งมีอาการอย่างใดอย่างหนึ่ง (คลาสที่เป็นบวก) หรือไม่เป็นโรคนั้น (คลาสที่เป็นลบ)

คอนทราสต์กับการจัดประเภทแบบหลายคลาส

รวมถึงดูการถดถอยแบบโลจิสติกและเกณฑ์การจัดประเภท

เงื่อนไขไบนารี

#df

ในแผนผังการตัดสินใจ เงื่อนไข ที่มีผลลัพธ์ที่เป็นไปได้เพียง 2 รายการ ซึ่งมักจะเป็น yes หรือ no ตัวอย่างเช่น ต่อไปนี้เป็นเงื่อนไขไบนารี

temperature >= 100

คอนทราสต์กับเงื่อนไขนอนไบนารี

Binning

คำพ้องความหมายของที่เก็บข้อมูล

BLEU (การศึกษาระหว่างการศึกษาวิจัยสองภาษา)

#language

คะแนนระหว่าง 0.0 ถึง 1.0 คือการระบุคุณภาพของคำแปลระหว่างภาษามนุษย์ 2 ภาษา (เช่น ภาษาอังกฤษและรัสเซีย) คะแนน BLEU เท่ากับ 1.0 บ่งบอกว่าคำแปลสมบูรณ์แบบ คะแนน BLEU ที่ 0.0 เป็นคำแปลที่แย่มาก

การเพิ่มพลัง

เทคนิคแมชชีนเลิร์นนิงที่จะรวมชุดตัวแยกประเภทที่เรียบง่ายและไม่ค่อยแม่นยำ (หรือที่เรียกว่าตัวแยกประเภทที่ "อ่อน") เป็นตัวแยกประเภทที่มีความแม่นยำสูง (ตัวแยกประเภทที่ "แรง") ซ้ำๆ โดยถ่วงน้ำหนักตัวอย่างที่โมเดลกำลังจัดประเภทไม่ถูกต้อง

กรอบล้อมรอบ

#image

ในรูปภาพ พิกัด (x, y) ของสี่เหลี่ยมรอบพื้นที่ที่สนใจ เช่น สุนัขในรูปภาพด้านล่าง

ภาพถ่ายสุนัขนั่งบนโซฟา กล่องล้อมรอบสีเขียวที่มีพิกัดด้านบนซ้ายของ (275, 1271) และพิกัดด้านล่างขวาของ (2954, 2761) วาดรอบร่างกายของสุนัข

กำลังออกอากาศ

การขยายรูปร่างของตัวถูกดำเนินการในการคำนวณทางคณิตศาสตร์เกี่ยวกับเมทริกซ์ไปยังมิติข้อมูลที่เข้ากันได้สำหรับการดำเนินการนั้น ตัวอย่างเช่น พีชคณิตเชิงเส้นกำหนดให้ตัวถูกดำเนินการ 2 รายการในการดำเนินการเพิ่มเมทริกซ์ต้องมีขนาดเท่ากัน ดังนั้น คุณจะไม่สามารถเพิ่มเมทริกซ์ของรูปร่าง (m, n) ลงในเวกเตอร์ความยาว n การออกอากาศจะช่วยให้สามารถใช้การทำงานนี้โดยการขยายเวกเตอร์ของความยาว n ไปยังเมทริกซ์ของรูปร่าง (m, n) ด้วยการจำลองค่าเดียวกันลงในแต่ละคอลัมน์

ตัวอย่างเช่น ตามคำนิยามต่อไปนี้ พีชคณิตเชิงเส้นไม่อนุญาตให้ใช้ A+B เนื่องจาก A และ B มีมิติต่างกัน

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

อย่างไรก็ตาม การบรอดแคสต์ข้อความจะเปิดใช้การดำเนินการ A+B โดยการขยาย B ไปยัง:

 [[2, 2, 2],
  [2, 2, 2]]

ดังนั้น A+B จึงเป็นการดำเนินการที่ถูกต้องแล้ว:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

ดูรายละเอียดเพิ่มเติมได้จากคำอธิบายต่อไปนี้ของการออกอากาศใน NumPy

การฝากข้อมูล

#fundamentals

การแปลงฟีเจอร์เดียวเป็นฟีเจอร์ไบนารีหลายรายการ ซึ่งเรียกว่าที่เก็บข้อมูลหรือถัง โดยทั่วไปแล้วจะอิงตามช่วงค่า ฟีเจอร์ที่ถูกตัดเป็นฟีเจอร์ต่อเนื่อง

เช่น แทนที่จะแสดงอุณหภูมิเป็นฟีเจอร์จุดลอยตัวต่อเนื่องจุดเดียว คุณอาจตัดช่วงของอุณหภูมิลงในที่เก็บข้อมูลแยกต่างหาก เช่น

<= 10 องศาเซลเซียสคือถังเก็บ "เย็น"
อุณหภูมิ 11-24 องศาเซลเซียสคืออุณหภูมิ "อากาศอบอุ่น"
>= 25 องศาเซลเซียส คือถัง "อุ่น"

โมเดลนี้จะถือว่าทุกค่าในที่เก็บข้อมูลเดียวกันเหมือนกัน ตัวอย่างเช่น ค่า 13 และ 22 อยู่ในที่เก็บข้อมูลชั่วคราว โมเดลจึงถือว่าทั้ง 2 ค่าเหมือนกัน

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

ถ้าคุณแสดงอุณหภูมิเป็นลักษณะต่อเนื่อง โมเดลจะถือว่าอุณหภูมิเป็นจุดสนใจเดียว หากแสดงอุณหภูมิเป็น 3 ที่เก็บข้อมูล โมเดลจะถือว่าที่เก็บข้อมูลแต่ละชุดเป็นฟีเจอร์แยกต่างหาก กล่าวคือ โมเดลจะเรียนรู้ความสัมพันธ์ที่แยกจากกันของที่เก็บข้อมูลแต่ละชุดกับป้ายกำกับ เช่น โมเดลการถดถอยเชิงเส้นจะดูน้ำหนักแยกกันสำหรับที่เก็บข้อมูลแต่ละชุดได้

การเพิ่มจำนวนที่เก็บข้อมูลจะทำให้โมเดลซับซ้อนยิ่งขึ้นด้วยการเพิ่มจำนวนความสัมพันธ์ที่โมเดลต้องเรียนรู้ เช่น ถังอากาศเย็น อบอุ่นค่อนข้างเย็น และอบอุ่นเป็นองค์ประกอบ 3 อย่างที่แยกจากกันสำหรับโมเดลของคุณเพื่อฝึก หากคุณตัดสินใจเพิ่มที่เก็บข้อมูลอีก 2 ชุด เช่น การตรึงกับร้อน โมเดลของคุณจะต้องฝึกกับฟีเจอร์ 5 อย่างแยกกัน

คุณจะทราบจำนวนที่เก็บข้อมูลที่จะสร้าง หรือช่วงสำหรับแต่ละที่เก็บข้อมูลควรเป็นเท่าใด คำตอบมักต้องได้รับการทดลอง พอสมควร

C

เลเยอร์การปรับเทียบ

การปรับหลังการคาดการณ์ ซึ่งโดยทั่วไปจะคำนึงถึงการให้น้ำหนักพิเศษในการคาดการณ์ การคาดการณ์และความน่าจะเป็นที่ปรับแล้วควรตรงกับการกระจายของชุดป้ายกำกับที่สังเกตได้

การสร้างผู้สมัคร

#recsystems

ชุดคำแนะนำเริ่มต้นที่ระบบการแนะนำเลือก ตัวอย่างเช่น ลองพิจารณาร้านหนังสือที่มีหนังสือถึง 100,000 เล่ม ในขั้นตอนการสร้างผู้สมัคร รายชื่อหนังสือที่เหมาะสมสำหรับผู้ใช้คนหนึ่งๆ จะมีจำนวนน้อยกว่ามาก เช่น 500 เล่ม แต่แม้แต่หนังสือ 500 เล่มก็ยังมากเกินกว่าที่จะแนะนำให้กับผู้ใช้ได้ หลังจากนั้น ระบบการแนะนำที่มีราคาแพงขึ้นเรื่อยๆ (เช่น การให้คะแนนและการจัดอันดับใหม่) จะทำให้ระบบการแนะนำ 500 รายการนี้เป็นชุดคำแนะนำที่น้อยลงและมีประโยชน์มากขึ้น

การสุ่มตัวอย่างผู้สมัคร

การเพิ่มประสิทธิภาพเวลาการฝึกที่คํานวณความน่าจะเป็นสำหรับป้ายกํากับเชิงบวกทั้งหมด เช่น โดยใช้ softmax แต่เป็นเพียงตัวอย่างแบบสุ่มของป้ายกํากับเชิงลบ ตัวอย่างเช่น ในตัวอย่างที่ติดป้ายกำกับว่า beagle และ dog การสุ่มตัวอย่างผู้สมัครจะคำนวณความน่าจะเป็นที่คาดการณ์ไว้และเงื่อนไขความสูญเสียที่สอดคล้องกันสำหรับ

บีเกิล
สุนัข
ชุดย่อยแบบสุ่มของคลาสเชิงลบที่เหลืออยู่ (เช่น cat, lollipop, fence)

แนวคิดก็คือคลาสเชิงลบเรียนรู้ได้จากการส่งเสริมด้านลบไม่บ่อยนัก ตราบใดที่คลาสเชิงบวกได้รับการส่งเสริมเชิงบวกที่เหมาะสมอยู่เสมอ ซึ่งเป็นสิ่งที่สังเกตได้จริงๆ

การสุ่มตัวอย่างผู้สมัครจะมีประสิทธิภาพในการคำนวณมากกว่าอัลกอริทึมการฝึกที่ประมวลผลการคาดการณ์สำหรับคลาสเชิงลบทั้งหมด โดยเฉพาะอย่างยิ่งเมื่อคลาสเชิงลบมีจำนวนสูงมาก

ข้อมูลเชิงหมวดหมู่

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ที่เฉพาะเจาะจง ตัวอย่างเช่น ลองพิจารณาฟีเจอร์เชิงหมวดหมู่ชื่อ traffic-light-state ซึ่งมีค่าที่เป็นไปได้ได้เพียง 1 ค่าจาก 3 ค่าต่อไปนี้

red
yellow
green

การแสดง traffic-light-state เป็นฟีเจอร์เชิงหมวดหมู่จะช่วยให้โมเดลเรียนรู้ผลกระทบที่แตกต่างกันของ red, green และ yellow ต่อพฤติกรรมของผู้ขับขี่ได้

บางครั้งฟีเจอร์เชิงหมวดหมู่จะเรียกว่าฟีเจอร์ที่ไม่ต่อเนื่อง

คอนทราสต์กับข้อมูลตัวเลข

โมเดลภาษาทั่วไป

#language

คำพ้องความหมายของโมเดลภาษาแบบทิศทางเดียว

ดูโมเดลภาษาแบบ 2 ทิศทางเพื่อเปรียบต่างวิธีการกำหนดทิศทางที่แตกต่างกันในการประมาณภาษา

เซนทรอยด์

#clustering

จุดศูนย์กลางของคลัสเตอร์ตามที่กำหนดโดยอัลกอริทึม k-means หรือ k-median เช่น ถ้า k คือ 3 อัลกอริทึม k-me หรือ k-มัธยฐาน จะค้นหา 3 เซนทรอยด์

คลัสเตอร์แบบเซนทรอยด์

#clustering

หมวดหมู่ของอัลกอริทึมการจัดคลัสเตอร์ที่จัดระเบียบข้อมูลเป็นคลัสเตอร์ที่ไม่มีลำดับชั้น k-means เป็นอัลกอริทึมการจัดคลัสเตอร์แบบเซนทรอยด์ที่ใช้กันมากที่สุด

คอนทราสต์กับการจัดกลุ่มแบบลําดับชั้น

ข้อความแจ้งที่เป็นห่วงโซ่ความคิด

#language

#GenerativeAI

เทคนิค prompt Engineering ที่รองรับโมเดลภาษาขนาดใหญ่ (LLM) เพื่ออธิบายเหตุผลทีละขั้นตอน เช่น ลองพิจารณาข้อความต่อไปนี้โดย ใส่ใจเป็นพิเศษกับประโยคที่ 2

คนขับจะได้รับแรงผลักดันกี่แรงในรถยนต์จาก 0 เป็น 60 ไมล์ต่อชั่วโมงใน 7 วินาที แสดงการคำนวณที่เกี่ยวข้องทั้งหมดในคำตอบ

การตอบสนองของ LLM น่าจะเป็นดังนี้

แสดงลำดับสูตรฟิสิกส์ โดยการใส่ค่า 0, 60 และ 7 ในตำแหน่งที่เหมาะสม
อธิบายเหตุผลที่บริษัทเลือกสูตรเหล่านั้นและความหมายของตัวแปรต่างๆ

ห่วงโซ่แนวคิดจะบังคับให้ LLM คำนวณค่าทั้งหมด จึงอาจทำให้ได้คำตอบที่ถูกต้องมากขึ้น นอกจากนี้ ข้อความแจ้งเกี่ยวกับห่วงโซ่ความคิดช่วยให้ผู้ใช้ตรวจสอบขั้นตอนของ LLM เพื่อพิจารณาว่าคำตอบเหมาะสมหรือไม่

แชท

#language

#GenerativeAI

เนื้อหาของบทสนทนาโต้ตอบด้วยระบบ ML ซึ่งมักจะเป็นโมเดลภาษาขนาดใหญ่ การโต้ตอบก่อนหน้าในแชท (สิ่งที่คุณพิมพ์และโมเดลภาษาขนาดใหญ่ตอบสนอง) จะกลายเป็นบริบทสำหรับส่วนต่อๆ ไปของแชท

แชทบ็อตเป็นแอปพลิเคชันโมเดลภาษาขนาดใหญ่

จุดตรวจ

ข้อมูลที่บันทึกสถานะพารามิเตอร์ของโมเดลในการฝึกซ้ำหนึ่งๆ จุดตรวจสอบเปิดใช้การส่งออกโมเดล น้ำหนัก หรือดำเนินการการฝึกในหลายเซสชัน จุดตรวจสอบยังช่วยให้การฝึกทำงานต่อกับข้อผิดพลาดที่ผ่านมาได้ (เช่น การจองงาน)

เมื่อปรับแต่ง จุดเริ่มต้นสำหรับการฝึก โมเดลใหม่จะเป็นจุดตรวจสอบเฉพาะของโมเดลที่ฝึกล่วงหน้า

คลาส

#fundamentals

หมวดหมู่ที่มีป้ายกำกับอยู่ เช่น

ในโมเดลการจัดประเภทแบบไบนารีที่ตรวจหาสแปม คลาสทั้ง 2 อาจเป็นสแปมและไม่ใช่สแปม
ในโมเดลการจัดประเภทแบบหลายคลาสที่ระบุสายพันธุ์สุนัข คลาสอาจเป็นพุดเดิ้ล บีเกิล ปั๊ก และอื่นๆ

โมเดลการจัดประเภทจะคาดการณ์คลาส ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์จำนวน ไม่ใช่คลาส

โมเดลการจัดประเภท

#fundamentals

model ที่มีการคาดการณ์เป็นคลาส ตัวอย่างต่อไปนี้คือโมเดลการจัดประเภททั้งหมด

โมเดลที่คาดคะเนภาษาของประโยคอินพุต (ภาษาฝรั่งเศส ภาษาสเปน ภาษาอิตาลี)
โมเดลที่คาดการณ์สปีชีส์ของต้นไม้ (Maple? Oak? ต้นบาวบับหรือไม่)
โมเดลที่คาดคะเนคลาสเชิงบวกหรือเชิงลบสำหรับภาวะทางการแพทย์หนึ่งๆ

ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์จำนวน ไม่ใช่คลาส

รูปแบบการจัดประเภทที่พบบ่อย 2 ประเภทมีดังนี้

การแยกประเภทไบนารี
การจัดประเภทแบบหลายคลาส

เกณฑ์การจัดประเภท

#fundamentals

ในการจัดประเภทไบนารี จำนวนระหว่าง 0 ถึง 1 ที่แปลงผลลัพธ์ดิบของโมเดลการถดถอยแบบโลจิสติกเป็นการคาดการณ์คลาสบวกหรือคลาสเชิงลบ โปรดทราบว่าเกณฑ์การจัดประเภทเป็นค่าที่มนุษย์เลือก ไม่ใช่ค่าที่การฝึกโมเดลเลือก

โมเดลการถดถอยแบบโลจิสติกจะแสดงค่าดิบระหว่าง 0 ถึง 1 จากนั้นให้ทำดังนี้

หากค่าดิบนี้มากกว่าเกณฑ์การจัดประเภท ระบบจะคาดคะเนคลาสที่เป็นบวก
หากค่าดิบนี้น้อยกว่าเกณฑ์การจัดประเภท ระบบจะคาดคะเนคลาสเชิงลบ

เช่น สมมติว่าเกณฑ์การจัดประเภทคือ 0.8 หากค่าดิบคือ 0.9 โมเดลจะคาดการณ์คลาสบวก หากค่าดิบคือ 0.7 โมเดลจะคาดการณ์คลาสเชิงลบ

ตัวเลือกเกณฑ์การจัดประเภทจะส่งผลต่อจำนวนผลบวกลวงและผลลบลวงเป็นอย่างมาก

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เมื่อโมเดลหรือชุดข้อมูลพัฒนาขึ้น บางครั้งวิศวกรก็เปลี่ยนเกณฑ์การจัดประเภทด้วย เมื่อเกณฑ์การจัดประเภทเปลี่ยนแปลง การคาดการณ์คลาสเชิงบวกจะกลายเป็นคลาสเชิงลบทันทีและในทางกลับกัน

เช่น ลองพิจารณาโมเดลการทำนายโรคจากการจัดประเภทแบบไบนารี สมมติว่าเมื่อระบบทำงานในปีแรก

ค่าดิบสำหรับผู้ป่วยบางรายคือ 0.95
เกณฑ์การจัดประเภทคือ 0.94

ดังนั้นระบบจะวินิจฉัยคลาสเชิงบวก (ผู้ป่วยหอบ "ไม่นะ! ป่วยนะ")

1 ปีต่อมา ค่าอาจมีลักษณะดังต่อไปนี้

ค่าดิบของผู้ป่วยคนเดิมยังคงอยู่ที่ 0.95
เกณฑ์การจัดประเภทจะเปลี่ยนเป็น 0.97

ดังนั้น ระบบจึงจัดประเภทผู้ป่วยรายนั้นใหม่เป็นคลาสเชิงลบ ("สุขสันต์วัน! ฉันไม่ได้ป่วยนะ") ผู้ป่วยคนเดิม การวินิจฉัยที่แตกต่างกัน

ชุดข้อมูลที่ไม่สมดุลระดับ

#fundamentals

ชุดข้อมูลของปัญหาการจัดประเภทที่จำนวนป้ายกำกับทั้งหมดของแต่ละคลาสแตกต่างกันอย่างมีนัยสำคัญ เช่น ลองพิจารณาชุดข้อมูลการจัดประเภทแบบไบนารีที่มีป้ายกำกับ 2 ป้ายแบ่งดังนี้

ป้ายกำกับเชิงลบ 1,000,000 รายการ
ป้ายกำกับเชิงบวก 10 รายการ

อัตราส่วนของป้ายกำกับเชิงลบต่อบวกคือ 100,000 ต่อ 1 ดังนั้นชุดข้อมูลนี้จึงไม่สมดุล

ในทางตรงกันข้าม ชุดข้อมูลต่อไปนี้ไม่ไม่สมดุลระดับเนื่องจากอัตราส่วนของป้ายกำกับเชิงลบต่อป้ายกำกับเชิงบวกค่อนข้างใกล้เคียงกับ 1

ป้ายกำกับเชิงลบ 517 รายการ
ป้ายกำกับเชิงบวก 483 รายการ

ชุดข้อมูลแบบหลายคลาสก็อาจมีความไม่สมดุลเช่นกัน เช่น ชุดข้อมูลการจัดประเภทแบบหลายคลาสต่อไปนี้ไม่สมดุลกันด้วย เนื่องจากป้ายกำกับหนึ่งมีตัวอย่างมากกว่าอีก 2 ป้าย

ป้ายกำกับ 1,000,000 ป้ายที่มีคลาส "สีเขียว"
ป้ายกำกับ 200 รายการที่มีคลาส "สีม่วง"
ป้ายกำกับ 350 รายการที่มีคลาส "สีส้ม"

โปรดดูเอนโทรปี คลาสส่วนใหญ่ และชนชั้นสูง

การตัดคลิป

#fundamentals

เทคนิคในการจัดการกับค่าผิดปกติโดยดำเนินการอย่างใดอย่างหนึ่งหรือทั้ง 2 อย่างต่อไปนี้

ลดค่า feature ที่มากกว่าเกณฑ์สูงสุดให้เหลือเท่ากับเกณฑ์สูงสุดนั้น
การเพิ่มค่าฟีเจอร์ที่น้อยกว่าเกณฑ์ขั้นต่ำจนถึงเกณฑ์ขั้นต่ำดังกล่าว

ตัวอย่างเช่น สมมติว่าค่าบางฟีเจอร์น้อยกว่า 0.5% อยู่นอกช่วง 40–60 ในกรณีนี้ คุณสามารถดำเนินการดังต่อไปนี้

ตัดค่าทั้งหมดที่เกิน 60 (เกณฑ์ขั้นต่ำ) ให้เป็น 60 พอดี
ตัดค่าทั้งหมดที่ต่ำกว่า 40 (เกณฑ์ขั้นต่ำ) ให้เท่ากับ 40

ค่าผิดปกติอาจทำให้โมเดลเสียหาย ซึ่งบางครั้งก็ทำให้มีน้ำหนักล้นในระหว่างการฝึก ค่าผิดปกติบางอย่างอาจทําให้เมตริกแย่ลงอย่างมาก เช่น ความแม่นยำ การตัดคลิปเป็นเทคนิคทั่วไปในการจำกัดความเสียหาย

การไล่ระดับสีจะบังคับค่าการไล่ระดับสีภายในช่วงที่กำหนดระหว่างการฝึก

Cloud TPU

#TensorFlow

#GoogleCloud

ตัวเร่งฮาร์ดแวร์เฉพาะที่ออกแบบมาเพื่อเพิ่มความเร็วของภาระงานแมชชีนเลิร์นนิงบน Google Cloud

การจัดกลุ่ม

#clustering

การจัดกลุ่มตัวอย่างที่เกี่ยวข้อง โดยเฉพาะในช่วงการเรียนรู้ที่ไม่มีการควบคุมดูแล เมื่อจัดกลุ่มตัวอย่างทั้งหมดแล้ว มนุษย์สามารถเลือกระบุความหมายให้กับแต่ละคลัสเตอร์ได้

มีอัลกอริทึมในการจัดกลุ่มจำนวนมาก เช่น ตัวอย่างคลัสเตอร์อัลกอริทึม k-means โดยอิงตามระยะใกล้กับเซนทรอยด์ ดังที่แสดงในแผนภาพต่อไปนี้

กราฟ 2 มิติที่แกน x มีป้ายกำกับความกว้างของต้นไม้ และแกน y มีป้ายกำกับความสูงของต้นไม้ กราฟมีจุดศูนย์กลาง 2 จุดและจุดข้อมูลอีกหลายสิบจุด ระบบจะจัดหมวดหมู่จุดข้อมูลตามระยะใกล้/ไกล กล่าวคือ จุดข้อมูลที่ใกล้เคียงที่สุดกับเซนทรอยด์ 1 จุดจะได้รับการจัดหมวดหมู่เป็นคลัสเตอร์ 1 ขณะที่คลัสเตอร์ที่ใกล้กับเซนทรอยด์อีกจุดหนึ่งจะได้รับการจัดหมวดหมู่เป็นคลัสเตอร์ 2

จากนั้นนักวิจัยจะตรวจสอบคลัสเตอร์ที่ 1 เป็น "ต้นไม้แคระ" และคลัสเตอร์ที่ 2 เป็น "ต้นไม้ขนาดเต็ม" เป็นต้น

อีกตัวอย่างหนึ่ง ลองพิจารณาอัลกอริทึมการจัดคลัสเตอร์โดยอิงตามระยะห่างของตัวอย่างจากจุดศูนย์กลาง ซึ่งอธิบายดังต่อไปนี้

จุดข้อมูลหลายสิบจุดถูกจัดเรียงไว้ในวงกลมซ้อนกัน คล้ายๆ กับรูรอบๆ กึ่งกลางของกระดานปาเป้า เราจัดหมวดหมู่วงแหวนด้านในของจุดข้อมูลเป็นคลัสเตอร์ 1 วงแหวนตรงกลางได้รับการจัดหมวดหมู่เป็นคลัสเตอร์ 2 และวงแหวนชั้นนอกสุดเป็นคลัสเตอร์ 3

การปรับตัวร่วมกัน

เมื่อเซลล์ประสาทคาดการณ์รูปแบบในข้อมูลการฝึกโดยพึ่งพาเอาต์พุตของเซลล์ประสาทอื่นๆ ที่จำเพาะเจาะจงเกือบทั้งหมด แทนที่จะอาศัยพฤติกรรมโดยรวมของเครือข่าย เมื่อรูปแบบที่ทําให้เกิดการปรับเปลี่ยนร่วมไม่ปรากฏในข้อมูลการตรวจสอบ การปรับร่วมจะทำให้เกิดการปรับมากเกินไป การจัดแสงแบบปกติช่วยลดการปรับตัวร่วมเนื่องจากการออกทิ้งจะช่วยให้มั่นใจว่าเซลล์ประสาทจะอาศัยเซลล์ประสาทอื่นๆ เพียงเซลล์อื่นเพียงอย่างเดียวไม่ได้

การกรองการทำงานร่วมกัน

#recsystems

การคาดคะเนเกี่ยวกับความสนใจของผู้ใช้รายหนึ่งโดยอิงจากความสนใจของผู้ใช้รายอื่น การกรองแบบทำงานร่วมกันมักใช้ในระบบการแนะนำ

การดริฟต์แนวคิด

การเปลี่ยนแปลงความสัมพันธ์ระหว่างฟีเจอร์และป้ายกำกับ เมื่อเวลาผ่านไป การดริฟต์แนวคิดจะลดคุณภาพของโมเดล

ในระหว่างการฝึก โมเดลจะเรียนรู้ความสัมพันธ์ระหว่างฟีเจอร์และป้ายกำกับในชุดการฝึก หากป้ายกำกับในชุดการฝึกเป็นพร็อกซีที่ดีสำหรับโลกแห่งความเป็นจริง โมเดลนี้ควรทำการคาดคะเนในสถานการณ์จริงได้ดี อย่างไรก็ตาม เนื่องจากแนวคิดที่เลื่อนลอยไปเรื่อยๆ การคาดการณ์ของโมเดลจึงมีแนวโน้มที่จะลดลงเมื่อเวลาผ่านไป

เช่น ลองพิจารณาโมเดลการจัดประเภทแบบไบนารีที่คาดการณ์ว่ารถบางรุ่น "ประหยัดเชื้อเพลิง" หรือไม่ ฟีเจอร์ดังกล่าวอาจเป็นดังนี้

น้ำหนักรถ
การบีบอัดเครื่องมือ
ประเภทการรับส่งข้อมูล

ในขณะที่ป้ายกำกับคือ

ประหยัดเชื้อเพลิง
ไม่ประหยัดเชื้อเพลิง

อย่างไรก็ตาม แนวคิดของ "รถยนต์ที่ประหยัดเชื้อเพลิง" นั้นเปลี่ยนแปลงอยู่เสมอ รถรุ่นที่มีป้ายกำกับว่าประหยัดเชื้อเพลิงในปี 1994 มักจะมีป้ายกำกับว่าไม่ประหยัดเชื้อเพลิงในปี 2024 โมเดลที่มีการเลื่อนแนวคิด มักจะทำให้การคาดการณ์มีประโยชน์น้อยลงเรื่อยๆ เมื่อเวลาผ่านไป

เปรียบเทียบกับค่าไม่คงที่

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

หากต้องการชดเชยการดริฟต์แนวคิด ให้ฝึกโมเดลอีกครั้งให้เร็วกว่าอัตราของการดริฟต์แนวคิด เช่น หากการดริฟต์แนวคิดลดความแม่นยำของโมเดลลงได้ส่วนต่างกำไรอย่างมีนัยสำคัญทุก 2 เดือน ก็ให้ฝึกโมเดลอีกครั้งให้บ่อยกว่าทุกๆ 2 เดือน

เงื่อนไข

#df

ในแผนผังการตัดสินใจ จะมีโหนดทั้งหมดที่ประเมินนิพจน์ เช่น ส่วนต่อไปนี้ของแผนผังการตัดสินใจมีเงื่อนไข 2 ข้อ

แผนผังการตัดสินใจที่มีเงื่อนไข 2 อย่างคือ (x > 0) และ (y > 0)

ภาวะนี้เรียกอีกอย่างว่าการแยกหรือการทดสอบ

เงื่อนไขคอนทราสต์กับใบไม้

และดู:

เงื่อนไขไบนารี
เงื่อนไขที่ไม่ใช่ไบนารี
สภาพสินค้าที่ปรับแนวแกน
สภาพสินค้าแบบเอียง

การพูดคุย

#language

คำพ้องความหมายของ ความไม่สมเหตุสมผล

การบิดเบือนน่าจะเป็นคำที่แม่นยําทางเทคนิคมากกว่าความไม่สมเหตุสมผล อย่างไรก็ตาม ความไม่สมเหตุสมผลก็กลายเป็นเรื่องที่ได้รับความนิยมเป็นอันดับแรก

การกำหนดค่า

กระบวนการกำหนดค่าพร็อพเพอร์ตี้เริ่มต้นที่ใช้ในการฝึกโมเดล ได้แก่

เลเยอร์ที่กำลังเขียนของโมเดล
ตำแหน่งของข้อมูล
hyperparameters เช่น

ในโปรเจ็กต์แมชชีนเลิร์นนิง คุณจะกำหนดค่าได้ผ่านไฟล์การกำหนดค่าพิเศษหรือจะใช้ไลบรารีการกำหนดค่าก็ได้ เช่น

HParam
จิน
ฟิดเดิล

อคติยืนยันความคิดตัวเอง

#fairness

แนวโน้มในการค้นหา ตีความ สนับสนุน และการเรียกคืนข้อมูลในลักษณะที่ยืนยันความเชื่อหรือสมมติฐานที่มีอยู่ก่อนแล้ว นักพัฒนาซอฟต์แวร์แมชชีนเลิร์นนิงอาจรวบรวมหรือติดป้ายกำกับข้อมูลในลักษณะที่ส่งผลต่อผลลัพธ์ที่สนับสนุนความเชื่อที่มีอยู่โดยไม่ได้ตั้งใจ อคติยืนยันเป็นรูปแบบหนึ่งของการให้น้ำหนักพิเศษโดยปริยาย

อคติของผู้ทดสอบเป็นรูปแบบของอคติการยืนยันที่ผู้ทดสอบฝึกโมเดลต่อไปจนกว่าจะมีการยืนยันสมมติฐานที่มีอยู่ก่อน

เมทริกซ์ความสับสน

#fundamentals

ตาราง NxN ที่สรุปจำนวนการคาดการณ์ที่ถูกต้องและไม่ถูกต้องของโมเดลการจัดประเภท เช่น พิจารณาเมทริกซ์ความสับสนต่อไปนี้สำหรับโมเดลการจัดประเภทแบบไบนารี

	เนื้องอก (คาดการณ์)	ไม่ใช่เนื้องอก (คาดการณ์)
เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง)	18 (TP)	1 (FN)
ไม่ใช่เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง)	6 (FP)	452 (เทนเนสซี)

เมทริกซ์ความสับสนก่อนหน้าจะแสดงข้อมูลต่อไปนี้

จากการคาดการณ์ 19 รายการที่ข้อมูลจากการสังเกตการณ์โดยตรงคือ Tumor โมเดลได้รับการจัดประเภทอย่างถูกต้อง 18 รายการและจัดประเภทเป็น 1 อย่างไม่ถูกต้อง
จากการคาดการณ์ 458 รายการ ที่เป็นความจริงบนพื้นดินไม่ใช่ทูมอร์ โมเดลได้รับการจัดประเภทอย่างถูกต้อง 452 รายการ และจัดประเภทไม่ถูกต้อง 6 รายการ

เมทริกซ์ความสับสนของปัญหาการจัดประเภทแบบหลายคลาสจะช่วยคุณระบุรูปแบบของข้อผิดพลาดได้ เช่น ลองพิจารณาเมทริกซ์ความสับสนต่อไปนี้สำหรับโมเดลการจัดประเภทแบบหลายคลาส 3 คลาสที่จัดหมวดหมู่ไอริส 3 ประเภท (Virginica, Versicolor และ Setosa) เมื่อข้อมูลจริงคือ Virginica เมทริกซ์ความสับสนแสดงให้เห็นว่าโมเดลมีแนวโน้มที่จะคาดการณ์ Versicolor ผิดมากกว่า Setosa:

	Setosa (คาดการณ์)	Versicolor (คาดการณ์)	Virginica (คาดการณ์)
เซโตซา (ข้อมูลจากการสังเกตการณ์โดยตรง)	88	12	0
Versicolor (ข้อมูลจากการสังเกตการณ์โดยตรง)	6	141	7
Virginica (ข้อมูลจากการสังเกตการณ์โดยตรง)	2	27	109

อีกตัวอย่างหนึ่งคือ เมทริกซ์ความสับสนอาจเผยให้เห็นว่าโมเดลที่ฝึกให้จดจำตัวเลขที่เขียนด้วยลายมือมีแนวโน้มที่จะคาดคะเน 9 แทนที่จะเป็น 4 ผิดพลาด หรืออาจคาดการณ์เป็น 1 แทนที่จะเป็น 7 ผิดพลาด

เมทริกซ์ความสับสนมีข้อมูลที่เพียงพอสำหรับการคำนวณเมตริกประสิทธิภาพที่หลากหลาย ซึ่งรวมถึงความแม่นยำและการจดจำ

การแยกวิเคราะห์เขตเลือกตั้ง

#language

การแบ่งประโยคออกเป็นโครงสร้างไวยากรณ์ที่เล็กลง ("ส่วนประกอบ") ส่วนระบบ ML ส่วนหลัง เช่น โมเดลความเข้าใจภาษาที่เป็นธรรมชาติจะแยกวิเคราะห์ส่วนประกอบได้ง่ายกว่าประโยคต้นฉบับ ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

เพื่อนของฉันรับเลี้ยงแมว 2 ตัว

โปรแกรมแยกวิเคราะห์เขตเลือกตั้งสามารถแบ่งประโยคนี้เป็น 2 ส่วนประกอบต่อไปนี้

เพื่อนของฉันเป็นวลีนาม
adoptedtwo cats เป็นวลีกริยา

ผู้คนเหล่านี้สามารถแยกย่อยลงไปอีกเล็กน้อยได้อีก เช่น วลีกริยา

รับเลี้ยงแมว 2 ตัว

สามารถแบ่งย่อยต่อไปได้อีกดังนี้

adopted เป็นคำกริยา
two cats เป็นคำนามอีกคำหนึ่ง

การฝังภาษาที่ปรับตามบริบท

#language

#GenerativeAI

การฝังที่มีความคล้ายคลึงกับคำและวลีที่ "เข้าใจ" อย่างที่เจ้าของภาษาทำได้ การฝังภาษาที่ปรับตามบริบทสามารถเข้าใจไวยากรณ์ ความหมาย และบริบทที่ซับซ้อนได้

ตัวอย่างเช่น ลองฝังคำภาษาอังกฤษว่า cow การฝังตัวเก่า เช่น word2vec แสดงถึงคำภาษาอังกฤษที่ว่าระยะทางในพื้นที่การฝังจากวัวถึงบูลคล้ายกับระยะทางจากewe (แกะตัวเมีย) ถึงแกะ (แกะตัวผู้) หรือจากตัวเมียถึงตัวผู้ การฝังภาษาที่ปรับตามบริบทสามารถพัฒนาไปได้ไกลอีกขั้นเพราะรู้ว่าบางครั้งผู้พูดภาษาอังกฤษอาจใช้คำว่าวัวเพื่อหมายถึงวัวหรือวัวกระทิง

หน้าต่างบริบท

#language

#GenerativeAI

จำนวนโทเค็นที่โมเดลประมวลผลได้ในข้อความแจ้งที่ระบุ ยิ่งหน้าต่างบริบทมีขนาดใหญ่เท่าไร โมเดลก็จะยิ่งใช้ข้อมูลมากขึ้นเท่านั้นเพื่อแสดงคำตอบที่สอดคล้องกันและสอดคล้องกันสำหรับพรอมต์

ฟีเจอร์ต่อเนื่อง

#fundamentals

ฟีเจอร์จุดลอยตัวที่มีช่วงของค่าที่เป็นไปได้อย่างไม่จำกัด เช่น อุณหภูมิหรือน้ำหนัก

คอนทราสต์กับฟีเจอร์ที่ไม่ต่อเนื่อง

การสุ่มตัวอย่างแบบตามสะดวก

ใช้ชุดข้อมูลที่ไม่ได้รวบรวมทางวิทยาศาสตร์เพื่อทำการทดสอบอย่างรวดเร็ว คุณต้องเปลี่ยนไปใช้ชุดข้อมูลที่รวบรวมทางวิทยาศาสตร์ในภายหลัง

ลู่เข้า

#fundamentals

สถานะที่มาถึงเมื่อค่า loss เปลี่ยนแปลงน้อยมากหรือไม่เปลี่ยนแปลงเลยในแต่ละรูปแบบ ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้แสดงถึงการลู่เข้าที่ประมาณ 700 ครั้ง

พล็อตคาร์ทีเซียน แกน X หายไป แกน Y คือจำนวนการฝึกซ้ำ การสูญเสียสูงมากในช่วง 2-3 ครั้งแรก แต่ลดลงอย่างมาก หลังจากทำซ้ำประมาณ 100 ครั้ง การสูญเสียก็ยังคงเกิดขึ้นแต่ค่อยๆ เพิ่มขึ้น หลังจากทำซ้ำประมาณ 700 ครั้ง การสูญเสียจะคงที่

โมเดลจะส่งเมื่อการฝึกเพิ่มเติมไม่ช่วยพัฒนาโมเดล

ในการเรียนรู้เชิงลึก บางครั้งค่าการสูญเสียอาจคงที่หรือเกือบมากสำหรับการทำซ้ำหลายครั้งก่อนที่จะลดลงไปมากในท้ายที่สุด ในช่วงเวลาที่มีค่าสูญเสียคงที่เป็นเวลานาน คุณอาจได้รับความรู้สึกของการลู่เข้าที่ผิดพลาดชั่วคราว

โปรดดูหัวข้อการหยุดแสดงโฆษณาก่อนกำหนด

ฟังก์ชัน Convex

ฟังก์ชันที่บริเวณเหนือกราฟของฟังก์ชันเป็นชุด Convx ฟังก์ชันนูนต้นแบบจะมีรูปทรงคล้ายตัวอักษร U ตัวอย่างเช่น ฟังก์ชันต่อไปนี้ คือฟังก์ชัน Convex ทั้งหมด

เส้นโค้งรูปตัว U แต่ละเส้นมีจุดต่ำสุดเพียงจุดเดียว

ในทางกลับกัน ฟังก์ชันต่อไปนี้จะไม่นูน โปรดสังเกตว่าพื้นที่ด้านบนกราฟไม่ใช่ชุดนูน

เส้นโค้งรูปตัว W ที่มีจุดต่ำสุดที่ต่างกัน 2 จุด

ฟังก์ชันนูนแบบเข้มงวดมีจุดต่ำสุดในพื้นที่ 1 จุด ซึ่งเป็นจุดต่ำสุดทั่วโลกเช่นกัน ฟังก์ชันรูปตัว U แบบคลาสสิก เป็นฟังก์ชันนูนอย่างเคร่งครัด แต่ฟังก์ชันนูนบางอย่าง (เช่น เส้นตรง) จะไม่ใช่รูปตัว U

คลิกไอคอนเพื่อดูการคำนวณอย่างลึกซึ้งยิ่งขึ้น

ฟังก์ชันการสูญหายที่พบบ่อยมากมาย รวมถึงฟังก์ชันต่อไปนี้คือฟังก์ชันนูน

แพ้ ₂
บันทึกการสูญหาย
การกำหนดกฎ L₁
กฎ L₂

การไล่ระดับสีหลายรูปแบบรับประกันว่าจะพบจุดที่ใกล้เคียงกับฟังก์ชันที่นูนอย่างเคร่งครัดน้อยที่สุด ในทำนองเดียวกัน ตัวแปรต่างๆ ของการไล่ระดับสีแบบสโตแคสติกมีโอกาสสูง (แต่ไม่ใช่การรับประกัน) ในการค้นหาจุดที่ใกล้เคียงกับค่าต่ำสุดของฟังก์ชันนูนแบบเข้มงวด

ผลรวมของฟังก์ชันนูน 2 ฟังก์ชัน (เช่น การสูญเสีย₂ + การปรับ L₁) คือฟังก์ชันนูน

โมเดลเชิงลึกไม่ใช่ฟังก์ชันนูน แน่นอนว่าอัลกอริทึมที่ออกแบบมาสำหรับการเพิ่มประสิทธิภาพ Conv. มักจะค้นหาโซลูชันที่ดีที่สมเหตุสมผลในเครือข่ายที่ลึกอยู่แล้ว แม้ว่าโซลูชันเหล่านั้นจะไม่รับประกันว่าจะเป็นโซลูชันขั้นต่ำระดับโลกก็ตาม

การเพิ่มประสิทธิภาพการนูน

กระบวนการใช้เทคนิคทางคณิตศาสตร์ เช่น การไล่ระดับสีเพื่อหาฟังก์ชัน Convx ขั้นต่ำ การวิจัยจำนวนมากเกี่ยวกับแมชชีนเลิร์นนิงได้มุ่งเน้นที่การตั้งโจทย์ต่างๆ เป็นโจทย์การเพิ่มประสิทธิภาพให้กับนูน และการแก้ปัญหาเหล่านั้นให้มีประสิทธิภาพมากขึ้น

ดูรายละเอียดทั้งหมดได้ที่ Boyd และ Vandenberghe การเพิ่มประสิทธิภาพ Convex

เซตนูน

ส่วนย่อยของพื้นที่ว่างแบบยุคลิด ซึ่งเส้นที่วาดระหว่าง 2 จุดในเซตย่อยจะยังคงอยู่อย่างสิ้นเชิง เช่น รูปร่าง 2 แบบต่อไปนี้ คือชุดนูน

ภาพสี่เหลี่ยมผืนผ้า 1 ภาพ ภาพวงรีอีกภาพ

ในทางตรงกันข้าม รูปทรง 2 แบบต่อไปนี้ไม่ใช่ชุดนูน

ภาพแผนภูมิวงกลมที่มีชิ้นส่วนหายไป
อีกภาพหนึ่งของรูปหลายเหลี่ยมที่ไม่ปกติ

Convolution

#image

ในทางคณิตศาสตร์ พูดง่ายๆ เป็นการผสมผสาน 2 ฟังก์ชันเข้าด้วยกัน ในแมชชีนเลิร์นนิง คอนโวลูชันจะผสมตัวกรองคอนโวลูชันและเมทริกซ์อินพุตเพื่อฝึกน้ำหนัก

คำว่า "คอนโวลูชัน (convolution)" ในแมชชีนเลิร์นนิงมักจะเป็นคำสั้นๆ ที่หมายถึงกระบวนการสร้างคอนโวลูชันหรือเลเยอร์คอนโวลูชัน

หากไม่มีคอนโวลูชัน (Convolutions) อัลกอริทึมของแมชชีนเลิร์นนิงจะต้องเรียนรู้น้ำหนักแยกของแต่ละเซลล์ใน tensor ขนาดใหญ่ เช่น การฝึกอัลกอริทึมแมชชีนเลิร์นนิงในรูปภาพขนาด 2K x 2K จะถูกบังคับให้ค้นหาน้ำหนักแยกกัน 4 ล้านครั้ง ด้วยคอนโวลูชัน อัลกอริทึมของแมชชีนเลิร์นนิงจะต้องหาน้ำหนักของแต่ละเซลล์ในตัวกรอง Convolutional เท่านั้น ซึ่งช่วยลดหน่วยความจำที่ต้องใช้ในการฝึกโมเดลได้อย่างมาก เมื่อใช้ตัวกรองคอนโวลูชัน ระบบจะจำลองข้อมูลข้ามเซลล์โดยนำแต่ละเซลล์คูณด้วยตัวกรอง

ฟิลเตอร์ Convolutional

#image

หนึ่งในนักแสดง 2 คนในปฏิบัติการเชิงปฏิวัติ (ตัวดำเนินการอีกตัวหนึ่งคือ ชิ้นส่วนของเมทริกซ์อินพุต) ตัวกรอง Convolutional คือเมทริกซ์ที่มีอันดับเดียวกับเมทริกซ์อินพุต แต่มีรูปร่างเล็กกว่า ตัวอย่างเช่น ในเมทริกซ์อินพุต 28x28 ตัวกรองอาจเป็นเมทริกซ์ 2 มิติที่มีขนาดเล็กกว่า 28x28 ได้

ในการชักจูงภาพถ่าย เซลล์ทั้งหมดในตัวกรองแบบคอนโวลูชัน (Convolutional filter) มักจะมีการตั้งค่าเป็นรูปแบบคงที่ของจำนวนเลข 0 กับ 0 ในแมชชีนเลิร์นนิง ตัวกรองคอนโวลูชันมักจะได้รับการตั้งต้นด้วยตัวเลขแบบสุ่ม จากนั้นเครือข่ายจะฝึกค่าที่เหมาะสม

เลเยอร์ Convolutional

#image

ชั้นของโครงข่ายประสาทแบบลึกซึ่งตัวกรองคอนโวลูชันส่งผ่านเมทริกซ์อินพุต ตัวอย่างเช่น ลองพิจารณาตัวกรอง Convolution ขนาด 3x3 ต่อไปนี้

เมทริกซ์ 3x3 ที่มีค่าต่อไปนี้ [[0,1,0], [1,0,1], [0,1,0]]

ภาพเคลื่อนไหวต่อไปนี้แสดงเลเยอร์ Convolutional ที่ประกอบด้วย การดำเนินการแบบ Convolutional 9 รายการที่เกี่ยวข้องกับเมทริกซ์อินพุต 5x5 โปรดสังเกตว่าการดำเนินการคอนโวลูชันแต่ละรายการจะทำงานบนเมทริกซ์อินพุตขนาด 3x3 ส่วนที่แตกต่างกัน เมทริกซ์ 3x3 ที่ได้ (ทางด้านขวา) ประกอบด้วยผลลัพธ์ของการดำเนินการแปลง 9 รายการ ได้แก่

ภาพเคลื่อนไหวแสดงเมทริกซ์ 2 เมทริกซ์ เมทริกซ์แรกคือเมทริกซ์ 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [33,28,92,195,179]
เมทริกซ์ที่ 2 คือเมทริกซ์ 3x3: [[181,303,618], [115,338,605], [169,351,560]]
เมทริกซ์ที่สองคำนวณโดยใช้ตัวกรอง Convolutional [[0, 1, 0], [1, 0, 1], [0, 1, 0]] ในชุดย่อย 3x3 ต่างๆ ของเมทริกซ์ 5x5

โครงข่ายระบบประสาทเทียมแบบ Convolutional

#image

โครงข่ายระบบประสาทที่มีเลเยอร์อย่างน้อย 1 ชั้นเป็นเลเยอร์คอนโวลูชัน โครงข่ายระบบประสาทเทียมทั่วไปประกอบด้วยเลเยอร์ต่อไปนี้ร่วมกัน

เลเยอร์ Convolutional
การรวมเลเยอร์
เลเยอร์ที่หนาแน่น

โครงข่ายประสาทแบบ Convolutional ประสบความสำเร็จอย่างมากในปัญหาบางประเภท เช่น การจดจำภาพ

ปฏิบัติการของคอนโวลูชัน

#image

การคำนวณทางคณิตศาสตร์ 2 ขั้นตอนดังต่อไปนี้

การคูณตัวกรอง Convolutional ตามองค์ประกอบขององค์ประกอบ และส่วนของเมทริกซ์อินพุต (ส่วนของเมทริกซ์อินพุตมีอันดับและขนาดเท่ากับตัวกรองแบบ Convolutional)
การรวมค่าทั้งหมดในเมทริกซ์ผลิตภัณฑ์ที่เป็นผลลัพธ์

ตัวอย่างเช่น ลองพิจารณาเมทริกซ์อินพุต 5x5 ต่อไปนี้

เมทริกซ์ 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179],10,40,

ทีนี้ลองนึกภาพตัวกรองแบบ Convolutional ขนาด 2x2 ต่อไปนี้

เมทริกซ์ 2x2: [[1, 0], [0, 1]]

การดำเนินการแบบ Convolutional แต่ละครั้งจะใช้เมทริกซ์อินพุตขนาด 2x2 ชิ้นเดียว ตัวอย่างเช่น สมมติว่าเราใช้ส่วน 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุต ดังนั้นการดำเนินการคอนโวลูชัน บนสไลซ์นี้มีลักษณะดังนี้

ใช้ตัวกรอง Convolutional [[1, 0], [0, 1]] กับส่วน 2x2 ด้านซ้ายบนของเมทริกซ์อินพุต ซึ่งก็คือ [[128,97], [35,22]]
ตัวกรอง Convolutional ใส่ค่า 128 และ 22 ไว้ตามเดิม แต่ไม่รวมเลข 97 และ 35 ดังนั้น การดำเนินการคอนโวลูชันจะให้ค่า 150 (128+22)

เลเยอร์ Convolutional ประกอบด้วยชุดการดำเนินการแบบ Convolutional โดยแต่ละชุดจะดำเนินการกับเมทริกซ์อินพุตส่วนต่างๆ

ต้นทุน

คำพ้องความหมายของ loss

การฝึกร่วมกัน

แนวทางการเรียนรู้แบบกึ่งมีการควบคุมดูแลจะมีประโยชน์อย่างยิ่งเมื่อเงื่อนไขทั้งหมดต่อไปนี้เป็นจริง

อัตราส่วนของตัวอย่างที่ไม่มีป้ายกำกับต่อตัวอย่างที่ติดป้ายกำกับในชุดข้อมูลสูง
นี่คือโจทย์การแยกประเภท (ไบนารีหรือมัลติคลาส)
ชุดข้อมูลประกอบด้วยชุดฟีเจอร์ตามการคาดการณ์ 2 ชุดที่แตกต่างกัน ซึ่งแยกออกจากกันและเป็นอิสระจากกันและกัน

การฝึกร่วมกันจะช่วยขยายสัญญาณอิสระเป็นสัญญาณที่แรงขึ้น เช่น ลองพิจารณารูปแบบการจัดประเภทที่จัดหมวดหมู่รถมือสองแต่ละคันว่าดีหรือไม่ดี ฟีเจอร์ตามการคาดการณ์ชุดหนึ่งอาจมุ่งเน้นที่ลักษณะโดยรวม เช่น ปี ยี่ห้อ และรุ่นของรถ ส่วนฟีเจอร์ตามการคาดการณ์อีกชุดอาจมุ่งเน้นที่ประวัติการขับขี่ของเจ้าของคนก่อนและประวัติการบำรุงรักษารถ

บทความที่เกี่ยวข้องเกี่ยวกับการฝึกอบรมร่วมคือการรวมข้อมูลที่ติดป้ายกำกับและที่ไม่มีป้ายกำกับเข้ากับการฝึกร่วมโดย Blum และ Mitchell

ความยุติธรรมที่พิสูจน์ได้จริง

#fairness

เมตริกความยุติธรรมที่ตรวจสอบว่าตัวแยกประเภทสร้างผลลัพธ์ให้กับบุคคลรายหนึ่งเช่นเดียวกับอีกบุคคลหนึ่งที่เหมือนกับบุคคลแรกหรือไม่ ยกเว้นกรณีที่เกี่ยวกับแอตทริบิวต์ที่ละเอียดอ่อนอย่างน้อย 1 รายการ การประเมินตัวแยกประเภทเพื่อความเป็นธรรมที่โต้แย้งความจริงเป็นวิธีการหนึ่งในการแสดงแหล่งอคติที่อาจเกิดขึ้นในโมเดล

ดู "When Worlds Collide: Integrating Different Different Counterf true Assumptions in Fairness" สำหรับการอภิปรายอย่างละเอียดเกี่ยวกับความเป็นธรรมที่โต้แย้งกัน

อคติเรื่องความครอบคลุม

#fairness

ดูการให้น้ำหนักพิเศษในการเลือก

Crash Blossom

#language

ประโยคหรือวลีที่มีความหมายกำกวม Crash Blossoms สร้างปัญหาสำคัญในความเข้าใจภาษาธรรมชาติ ตัวอย่างเช่น บรรทัดแรก Red Tape Holds Up Skyscraper เป็นกราฟเบ่งบานเนื่องจากโมเดล NLU สามารถตีความบรรทัดแรกได้ตรงตัวหรือตามจริง

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เราขออธิบายว่า

แถบสีแดงอาจหมายถึงข้อใดข้อหนึ่งต่อไปนี้
- กาวติด
- มีระบบราชการที่มากเกินไป
การถือสายรออาจหมายถึงข้อใดข้อหนึ่งต่อไปนี้
- การสนับสนุนด้านโครงสร้าง
- ความล่าช้า

วิจารณ์

#rl

คำพ้องความหมายของ Deep Q-Network

ครอสเอนโทรปี

การสรุปการสูญหายของบันทึกเป็นปัญหาการแยกประเภทแบบหลายคลาส ครอสเอนโทรปีจะวัดความแตกต่างระหว่างการแจกแจงความน่าจะเป็น 2 แบบ ดูเพิ่มเติมที่ความซับซ้อน

การตรวจสอบความถูกต้องข้ามแหล่ง

กลไกในการประมาณว่าmodelจะสร้างข้อมูลทั่วไปกับข้อมูลใหม่ได้ดีเพียงใดด้วยการทดสอบโมเดลกับชุดย่อยของข้อมูลที่ไม่ซ้อนทับกันอย่างน้อย 1 ชุดซึ่งแยกออกจากmodel

ฟังก์ชันการกระจายสะสม (CDF)

ฟังก์ชันที่กำหนดความถี่ของตัวอย่างน้อยกว่าหรือเท่ากับค่าเป้าหมาย เช่น ลองพิจารณาการกระจายปกติของค่าต่อเนื่อง CDF จะบอกคุณว่าประมาณ 50% ของตัวอย่างควรน้อยกว่าหรือเท่ากับค่าเฉลี่ย และประมาณ 84% ของตัวอย่างควรมีค่าเบี่ยงเบนมาตรฐานน้อยกว่าหรือเท่ากับ 1 ค่าเบี่ยงเบนมาตรฐาน

D

การวิเคราะห์ข้อมูล

ทำความเข้าใจข้อมูลโดยพิจารณาตัวอย่าง การวัดผล และการแสดงภาพ การวิเคราะห์ข้อมูลจะมีประโยชน์อย่างยิ่งเมื่อได้รับชุดข้อมูลครั้งแรกก่อนที่ชุดข้อมูลจะสร้างmodelแรก นอกจากนี้ยังจำเป็นต่อการทำความเข้าใจการทดลองและการแก้ปัญหาเกี่ยวกับระบบด้วย

การเสริมข้อมูล

#image

การบูสต์ช่วงและจำนวนตัวอย่างของการฝึกด้วยการเปลี่ยนรูปแบบตัวอย่างที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติม ตัวอย่างเช่น สมมติว่ารูปภาพเป็นหนึ่งในฟีเจอร์ของคุณ แต่ชุดข้อมูลมีตัวอย่างรูปภาพไม่เพียงพอสำหรับโมเดลที่จะเรียนรู้การเชื่อมโยงที่เป็นประโยชน์ ตามหลักการ คุณควรเพิ่มรูปภาพที่ติดป้ายกำกับลงในชุดข้อมูลให้เพียงพอเพื่อให้โมเดลฝึกได้อย่างถูกต้อง ถ้าทำไม่ได้ การเพิ่มข้อมูลสามารถหมุน ขยาย และสะท้อนภาพแต่ละภาพเพื่อสร้างตัวแปรที่หลากหลายของภาพต้นฉบับ ซึ่งอาจให้ข้อมูลที่มีป้ายกำกับมากพอที่จะทำการฝึกอบรมที่ยอดเยี่ยมได้

DataFrame

#fundamentals

ประเภทข้อมูลของ pandas ยอดนิยมสำหรับการแสดงชุดข้อมูลในหน่วยความจำ

DataFrame คล้ายกับตารางหรือสเปรดชีต แต่ละคอลัมน์ของ DataFrame จะมีชื่อ (ส่วนหัว) และแต่ละแถวจะระบุด้วยหมายเลขที่ไม่ซ้ำกัน

แต่ละคอลัมน์ใน DataFrame มีโครงสร้างเหมือนอาร์เรย์ 2 มิติ เว้นแต่ว่าแต่ละคอลัมน์จะกำหนดประเภทข้อมูลของตนเองได้

ดูหน้าอ้างอิงสำหรับ pandas.DataFrame อย่างเป็นทางการด้วย

ข้อมูลพร้อมกัน

วิธีปรับขนาดการฝึกหรือการอนุมานซึ่งจำลองโมเดลทั้งเครื่องไปยังอุปกรณ์หลายเครื่อง แล้วส่งข้อมูลอินพุตชุดย่อยไปยังอุปกรณ์แต่ละเครื่อง ข้อมูลพร้อมกันจะช่วยให้ฝึกและการอนุมานในกลุ่มที่มีขนาดใหญ่มากได้ แต่โมเดลข้อมูลต้องมีขนาดเล็กพอที่จะพอดีกับอุปกรณ์ทั้งหมด

โดยทั่วไปแล้ว การทำงานพร้อมกันของข้อมูลจะช่วยให้การฝึกและการอนุมานเร็วขึ้น

โปรดดูโมเดลที่โหลดพร้อมกันด้วย

ชุดข้อมูลหรือชุดข้อมูล

#fundamentals

การรวบรวมข้อมูลดิบซึ่งโดยปกติ (แต่ไม่เกิดขึ้นเพียงอย่างเดียว) จะจัดระเบียบในรูปแบบใดรูปแบบหนึ่งต่อไปนี้

สเปรดชีต
ไฟล์ในรูปแบบ CSV (ค่าที่คั่นด้วยคอมมา)

API ชุดข้อมูล (tf.data)

#TensorFlow

TensorFlow API ระดับสูงสำหรับการอ่านข้อมูลและเปลี่ยนให้อยู่ในรูปแบบที่อัลกอริทึมแมชชีนเลิร์นนิงต้องใช้ ออบเจ็กต์ tf.data.Dataset แสดงลำดับขององค์ประกอบ โดยแต่ละองค์ประกอบจะมี Tensor อย่างน้อย 1 รายการ ออบเจ็กต์ tf.data.Iterator ให้สิทธิ์เข้าถึงองค์ประกอบของ Dataset

โปรดดูรายละเอียดเกี่ยวกับ Dataset API ที่ tf.data: ไปป์ไลน์อินพุต TensorFlow ในคู่มือของ TensorFlow Programmer

ขอบเขตการตัดสินใจ

ตัวคั่นระหว่างคลาสที่เรียนรู้โดยโมเดลในคลาสไบนารีหรือปัญหาการจัดประเภทแบบหลายคลาส เช่น ในรูปภาพต่อไปนี้ซึ่งแสดงปัญหาการจัดประเภทแบบไบนารี ขอบเขตการตัดสินใจคือพรมแดนระหว่างคลาสสีส้มกับคลาสสีน้ำเงิน

ขอบเขตที่กำหนดไว้อย่างชัดเจนระหว่างคลาสหนึ่งกับอีกคลาสหนึ่ง

Decis Forest

#df

โมเดลที่สร้างจากแผนผังการตัดสินใจหลายต้นไม้ ฟอเรสต์การตัดสินใจจะทำการคาดคะเนโดยการรวมการคาดการณ์ของแผนผังการตัดสินใจ ประเภทฟอเรสต์ที่ได้รับความนิยม ได้แก่ ป่าสุ่มและต้นไม้ที่เร่งระดับ

เกณฑ์การตัดสิน

คำพ้องความหมายของเกณฑ์การจัดประเภท

แผนผังการตัดสินใจ

#df

โมเดลการเรียนรู้ที่มีการควบคุมดูแลซึ่งประกอบด้วยชุดconditionsและconditionsที่จัดเรียงเป็นลำดับชั้น ตัวอย่างต่อไปนี้คือแผนผังการตัดสินใจ

แผนผังการตัดสินใจประกอบด้วยเงื่อนไข 4 เงื่อนไขที่จัดเรียงตามลำดับขั้น ซึ่งนำไปสู่ใบ 5 ใบ

เครื่องมือถอดรหัส

#language

โดยทั่วไป ระบบ ML ที่แปลงจากการนำเสนอแบบผ่านการประมวลผล แบบหนาแน่น หรือแบบภายในเป็นการนำเสนอแบบดิบ แบบเบาบาง หรือแบบภายนอก

ตัวถอดรหัสมักเป็นส่วนประกอบของโมเดลขนาดใหญ่ ซึ่งมักจะจับคู่กับโปรแกรมเปลี่ยนไฟล์

ในงานที่มีลำดับต่อเนื่อง เครื่องมือถอดรหัสจะเริ่มจากสถานะภายในที่โปรแกรมเปลี่ยนไฟล์สร้างขึ้นเพื่อคาดการณ์ลำดับถัดไป

โปรดดูคำจำกัดความของตัวถอดรหัสภายในสถาปัตยกรรม Transformer จาก Transformer

โมเดลเชิงลึก

#fundamentals

โครงข่ายประสาทที่มีเลเยอร์ที่ซ่อนไว้มากกว่า 1 ชั้น

โมเดลเชิงลึกเรียกอีกอย่างว่าโครงข่ายประสาทแบบลึก

คอนทราสต์กับโมเดลแบบกว้าง

โครงข่ายประสาทแบบลึก

คำพ้องความหมายของ Deep Model

Q-Network เชิงลึก (DQN)

#rl

ใน Q-learning ซึ่งเป็นโครงข่ายระบบประสาทเทียมระดับลึกที่คาดการณ์ฟังก์ชัน Q

Critic เป็นคำพ้องความหมายของ Deep Q-Network

ความเท่าเทียมกันของข้อมูลประชากร

#fairness

เมตริกความยุติธรรมที่จะพึงพอใจหากผลลัพธ์การจัดประเภทของโมเดลไม่ขึ้นอยู่กับแอตทริบิวต์ที่มีความละเอียดอ่อนที่ระบุ

ตัวอย่างเช่น ถ้าทั้ง Lilliputians และ Brobdingnagians สมัครเข้ามหาวิทยาลัย Glubbdubdrib จะมีความเท่าเทียมของข้อมูลประชากรหากเปอร์เซ็นต์ของ Lilliputians ที่เข้าสอบมีค่าเท่ากับเปอร์เซ็นต์ของ Brobdingnagians ที่เข้าเรียน ไม่ว่าโดยเฉลี่ยแล้วกลุ่มใดจะมีคุณสมบัติมากกว่ากลุ่มอื่น

ตรงข้ามกับความน่าจะเป็นที่เท่ากันและความเท่าเทียมกันของโอกาส ซึ่งทําให้การแยกประเภทผลลัพธ์แบบรวมขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อน แต่ไม่อนุญาตให้ผลการแยกประเภทสําหรับป้ายกํากับข้อมูลที่ได้จากการสังเกตการณ์ที่ระบุบางรายการขึ้นอยู่กับแอตทริบิวต์ที่มีความละเอียดอ่อน ดู "การโจมตีการเลือกปฏิบัติด้วยแมชชีนเลิร์นนิงที่ชาญฉลาดยิ่งขึ้น" สำหรับภาพที่แสดงข้อดีและข้อเสียต่างๆ เมื่อเพิ่มประสิทธิภาพเพื่อความเท่าเทียมของข้อมูลประชากร

การลดเสียงรบกวน

#language

วิธีการทั่วไปสำหรับการเรียนรู้แบบควบคุมด้วยตนเองซึ่งมีลักษณะดังนี้

มีการเพิ่ม Noise ลงในชุดข้อมูลโดยไม่เป็นจริง
modelพยายามนำสัญญาณรบกวนออก

การตัดเสียงรบกวนช่วยให้เรียนรู้จากตัวอย่างที่ไม่มีป้ายกำกับได้ ชุดข้อมูลเดิมทำหน้าที่เป็นเป้าหมายหรือป้ายกำกับ และข้อมูลที่มีเสียงดังเป็นอินพุต

รูปแบบภาษาที่มาสก์บางรูปแบบใช้การตัดเสียงรบกวนดังต่อไปนี้

ระบบจะเพิ่มนอยส์เข้าไปในประโยคที่ไม่มีป้ายกำกับโดยปลอมเป็นมาสก์บางส่วนของโทเค็น
โมเดลจะพยายามคาดการณ์โทเค็นดั้งเดิม

องค์ประกอบที่หนาแน่น

#fundamentals

ฟีเจอร์ที่ค่าส่วนใหญ่หรือทั้งหมดไม่ใช่ 0 ซึ่งมักจะเป็น Tensor ของค่าจุดลอยตัว ตัวอย่างเช่น Tensor องค์ประกอบ 10 รายการต่อไปนี้มีความหนาแน่นเนื่องจากค่า 9 ค่าไม่ใช่ 0

คอนทราสต์กับฟีเจอร์แบบเบาบาง

ชั้นที่หนาแน่น

คำพ้องความหมายของเลเยอร์ที่เชื่อมต่อแบบครบถ้วน

ความลึก

#fundamentals

ผลรวมของสิ่งต่อไปนี้ในโครงข่ายระบบประสาท:

จำนวนเลเยอร์ที่ซ่อนไว้
จำนวนเลเยอร์เอาต์พุต ซึ่งปกติคือ 1
จำนวนเลเยอร์การฝัง

ตัวอย่างเช่น โครงข่ายประสาทที่มี 5 เลเยอร์ที่ซ่อนอยู่ และเลเยอร์เอาต์พุตหนึ่งมีความลึก 6

โปรดสังเกตว่าเลเยอร์อินพุตไม่มีอิทธิพลต่อความลึก

โครงข่ายระบบประสาทเทียมแบบ Convolutional แบบ Deepwise (sepCNN)

#image

สถาปัตยกรรมโครงข่ายระบบประสาทเทียมที่อิงตาม Inception แต่แทนที่โมดูล Inception ด้วยการสนทนาที่แยกจากกันได้ในระดับลึก หรือที่เรียกว่า Xception

คอนโวลูชันที่แยกส่วนได้ในระดับลึก (หรือย่อมาจาก สัมปฏิวัติที่แยกได้) จะประกอบการแปลง 3 มิติมาตรฐานเป็นการดำเนินการคอนโวลูชันที่แยกกัน 2 รายการ ซึ่งมีประสิทธิภาพในการคำนวณมากกว่า แรก คอนโวลูชันแบบลึก (ความลึก) ที่มีความลึก 1 (n Wednesday n ในลักษณะนี้ 1) และครั้งที่ 2 เท่ากับ 1 คอนโวลูชันแบบ 1 จุด (ความยาวและความกว้าง 1 n)

ดูข้อมูลเพิ่มเติมได้ที่ Xception: Deep Learning with Depthwise Separable Convolutions

Derived Label

คำพ้องความหมายของป้ายกำกับพร็อกซี

อุปกรณ์

#TensorFlow

#GoogleCloud

คำศัพท์มากเกินไปซึ่งมีคำจำกัดความที่เป็นไปได้ 2 อย่างต่อไปนี้

หมวดหมู่ของฮาร์ดแวร์ที่เรียกใช้เซสชัน TensorFlow ได้ซึ่งรวมถึง CPU, GPU และ TPU
เมื่อฝึกโมเดล ML บนชิป Accelerator (GPU หรือ TPU) ซึ่งเป็นส่วนของระบบที่ควบคุม tensors และการฝัง อุปกรณ์ทำงานบนชิป Accelerator ในทางตรงกันข้าม โฮสต์โดยทั่วไปจะทำงานบน CPU

Differential Privacy

ในแมชชีนเลิร์นนิง เราใช้วิธีการลบข้อมูลระบุตัวบุคคลเพื่อปกป้องข้อมูลที่ละเอียดอ่อน (เช่น ข้อมูลส่วนบุคคลของบุคคลหนึ่ง) ที่รวมอยู่ในชุดการฝึกของโมเดล วิธีนี้ทำให้modelไม่ได้เรียนรู้หรือจดจำเกี่ยวกับบุคคลใดบุคคลหนึ่งได้มากนัก ซึ่งทำได้โดยการสุ่มตัวอย่างและเพิ่มสัญญาณรบกวนระหว่างการฝึกโมเดลเพื่อบดบังจุดข้อมูลแต่ละจุด ซึ่งช่วยลดความเสี่ยงในการเปิดเผยข้อมูลการฝึกที่มีความละเอียดอ่อน

นอกจากนี้ Differential Privacy ยังใช้นอกแมชชีนเลิร์นนิงด้วย ตัวอย่างเช่น บางครั้งนักวิทยาศาสตร์ข้อมูลใช้ Differential Privacy เพื่อปกป้องความเป็นส่วนตัวของแต่ละบุคคล เมื่อคำนวณสถิติการใช้งานผลิตภัณฑ์สำหรับกลุ่มประชากรที่แตกต่างกัน

การลดมิติข้อมูล

การลดจำนวนขนาดที่ใช้แสดงจุดสนใจหนึ่งๆ ในเวกเตอร์ของจุดสนใจ โดยทั่วไปจะแปลงเป็นเวกเตอร์การฝัง

ขนาด

คำที่มีคำจำกัดความต่อไปนี้มากเกินไป

จำนวนระดับพิกัดใน Tensor เช่น
- สเกลาร์มีมิติข้อมูลเป็น 0 เช่น ["Hello"]
- เวกเตอร์มี 1 มิติข้อมูล เช่น [3, 5, 7, 11]
- เมทริกซ์มี 2 มิติข้อมูล เช่น [[2, 4, 18], [5, 7, 14]]
คุณสามารถระบุเซลล์หนึ่งๆ ในเวกเตอร์ 1 มิติได้โดยไม่ซ้ำกันด้วยพิกัด 1 พิกัด คุณต้องการพิกัด 2 จุดเพื่อระบุเซลล์ที่เฉพาะเจาะจงในเมทริกซ์สองมิติโดยไม่ซ้ำกัน
จำนวนรายการในเวกเตอร์จุดสนใจ
จำนวนองค์ประกอบในเลเยอร์การฝัง

การแสดงข้อความแจ้งโดยตรง

#language

#GenerativeAI

คำพ้องความหมายของ zero-shotข้อความเตือน

ฟีเจอร์แยกต่างหาก

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้แบบจํากัด เช่น ฟีเจอร์ที่มีค่าอาจเป็นสัตว์ ผัก หรือแร่ธาตุเท่านั้น คือฟีเจอร์ที่ไม่ต่อเนื่อง (หรือตามหมวดหมู่)

คอนทราสต์กับฟีเจอร์ต่อเนื่อง

รูปแบบที่แบ่งแยก

modelที่คาดการณ์modelจากชุดmodelอย่างน้อย 1 รายการ รูปแบบที่เลือกปฏิบัติอย่างเป็นทางการจะกําหนดความน่าจะเป็นแบบมีเงื่อนไขของเอาต์พุตโดยพิจารณาจากฟีเจอร์และน้ำหนัก ซึ่งก็คือ

p(output | features, weights)

เช่น โมเดลที่คาดการณ์ว่าอีเมลเป็นสแปมจากฟีเจอร์ และน้ำหนักหรือไม่เป็นรูปแบบที่แบ่งแยก

โมเดลการเรียนรู้ที่มีการควบคุมดูแลส่วนใหญ่ รวมถึงโมเดลการจัดประเภทและการถดถอย เป็นรูปแบบที่แบ่งแยก

คอนทราสต์กับโมเดล Generative

ตัวแบ่ง

ระบบที่กำหนดว่าตัวอย่างเป็นของจริงหรือปลอม

อีกทางเลือกหนึ่งคือ ระบบย่อยภายในเครือข่าย Generative Adversarial ซึ่งกำหนดว่าตัวอย่างที่สร้างโดยเครื่องมือสร้างเป็นของจริงหรือปลอม

ผลกระทบที่แตกต่างกัน

#fairness

การตัดสินใจเกี่ยวกับผู้คนที่ส่งผลกระทบต่อ ประชากรกลุ่มต่างๆ ในสัดส่วนที่มากกว่า ซึ่งมักจะหมายถึงสถานการณ์ที่กระบวนการตัดสินใจของอัลกอริทึมส่งผลเสียหรือให้ประโยชน์แก่กลุ่มย่อยบางกลุ่มมากกว่ากลุ่มอื่นๆ

ตัวอย่างเช่น สมมติว่าอัลกอริทึมที่กำหนดการมีสิทธิ์ของ Lilliputian สำหรับสินเชื่อบ้านขนาดเล็กมีแนวโน้มที่จะจัดว่า "ไม่มีสิทธิ์" มากกว่าในกรณีที่ที่อยู่จัดส่งมีรหัสไปรษณีย์เฉพาะ หาก Lilliputian ซึ่งเป็นชาวบิ๊กเอนด์มีแนวโน้มที่จะมีที่อยู่ทางไปรษณีย์ที่มีรหัสไปรษณีย์นี้มากกว่า Lilliputians ของ Little-Endian อัลกอริทึมนี้อาจส่งผลกระทบที่แตกต่างกัน

ซึ่งตรงข้ามกับการปฏิบัติที่แตกต่างกัน ซึ่งมุ่งเน้นที่ความไม่สอดคล้องที่เกิดขึ้นเมื่อลักษณะของกลุ่มย่อยเป็นข้อมูลป้อนเข้าในกระบวนการตัดสินใจแบบอัลกอริทึมอย่างชัดเจน

การปฏิบัติที่แตกต่างกัน

#fairness

การคำนึงถึงคุณลักษณะที่มีความละเอียดอ่อนของผู้ที่อยู่ในกระบวนการตัดสินใจตามอัลกอริทึมเพื่อทำให้กลุ่มย่อยของกลุ่มคนต่างๆ ได้รับการปฏิบัติไม่เหมือนกัน

เช่น ลองพิจารณาอัลกอริทึมที่กำหนดการมีสิทธิ์ของ Lilliputians สำหรับสินเชื่อบ้านขนาดเล็กตามข้อมูลที่ให้ไว้ในใบสมัครขอสินเชื่อ หากอัลกอริทึมใช้การเชื่อมโยงของ Liliputian ในชื่อ Big-Endian หรือ Little-Endian เป็นอินพุต ก็จะเป็นการแสดงการปฏิบัติที่แตกต่างกันตามมิติข้อมูลนั้น

ตรงข้ามกับผลกระทบที่แตกต่างกัน ซึ่งมุ่งเน้นที่ความไม่เท่าเทียมในผลกระทบทางสังคมของการตัดสินใจทางอัลกอริทึมที่มีต่อกลุ่มย่อย ไม่ว่ากลุ่มย่อยเหล่านั้นจะเป็นอินพุตของโมเดลหรือไม่ก็ตาม

คำเตือน: เนื่องจากแอตทริบิวต์ที่มีความละเอียดอ่อนมักจะสัมพันธ์กับฟีเจอร์อื่นๆ ที่อาจมีข้อมูลอยู่แล้ว การนำข้อมูลแอตทริบิวต์ที่ละเอียดอ่อนออกอย่างชัดเจนจึงไม่ได้รับประกันว่ากลุ่มย่อยจะได้รับการจัดการอย่างเท่าเทียมกัน ตัวอย่างเช่น การนำแอตทริบิวต์ข้อมูลประชากรที่มีความละเอียดอ่อนออกจากชุดข้อมูลการฝึกซึ่งยังมีรหัสไปรษณีย์เป็นฟีเจอร์อาจจัดการกับการดูแลกลุ่มย่อยที่แตกต่างกัน แต่ยังคงมีผลกระทบที่แตกต่างกันต่อกลุ่มเหล่านี้ เนื่องจากรหัสไปรษณีย์อาจทำหน้าที่เป็นพร็อกซีสำหรับข้อมูลประชากรอื่นๆ

การกลั่น

#GenerativeAI

ขั้นตอนการลดขนาดmodel (หรือที่เรียกว่าmodel) ให้เหลือน้อยที่สุด (หรือที่เรียกว่าmodel) ซึ่งจำลองการคาดการณ์ของโมเดลต้นฉบับได้อย่างน่าเชื่อถือมากที่สุด การกรองข้อมูลมีประโยชน์เนื่องจากโมเดลที่เล็กกว่ามีข้อดีที่สำคัญ 2 ประการเหนือกว่าโมเดลขนาดใหญ่ (ครู) ดังนี้

เวลาในการอนุมานเร็วขึ้น
ลดการใช้หน่วยความจำและพลังงาน

แต่การคาดการณ์ของนักเรียนมักจะไม่ดีเท่ากับการคาดคะเนของครู

การสกัดจะฝึกโมเดลของนักเรียนเพื่อลดฟังก์ชันการสูญเสียตามความแตกต่างระหว่างเอาต์พุตของการคาดการณ์ในโมเดลของนักเรียนและครู

เปรียบเทียบการกลั่นกับคำต่อไปนี้

การปรับแต่ง
การเรียนรู้ตามข้อความแจ้ง

การเผยแพร่

ความถี่และช่วงของค่าที่แตกต่างกันสำหรับฟีเจอร์หรือป้ายกำกับหนึ่งๆ การกระจายจะช่วยให้ทราบว่าค่าหนึ่งๆ มีแนวโน้มมากน้อยเพียงใด

รูปภาพต่อไปนี้แสดงฮิสโตแกรมของการแจกแจงที่ต่างกัน 2 แบบ

ทางด้านซ้ายคือการกระจายความมั่งคั่งตามกฎหมายอำนาจเทียบกับจำนวนคนที่ครอบครองความมั่งคั่งนั้น
ส่วนทางด้านขวาคือการกระจายความสูงปกติเทียบกับจำนวนคนที่มีความสูงระดับนั้น

2 ฮิสโตแกรม ฮิสโตแกรมหนึ่งแสดงการกระจายของกฎกำลังที่มีค่าความมั่งคั่งในแกน X และจำนวนคนที่มีความมั่งคั่งนั้นในแกน Y คนส่วนใหญ่มีความร่ำรวยน้อยมาก และบางคนมีความร่ำรวยมากมาย ฮิสโตแกรมอีกชิ้นหนึ่งแสดงการกระจายปกติที่มีความสูงบนแกน x และจำนวนคนที่มีความสูงนั้นบนแกน y คนส่วนใหญ่กระจุกตัวอยู่ใกล้ๆ ค่าเฉลี่ย

การทำความเข้าใจแต่ละฟีเจอร์และการกระจายของป้ายกำกับจะช่วยให้คุณกำหนดวิธีปรับค่าให้เป็นมาตรฐานและตรวจหาค่าผิดปกติได้

วลี out of Distribution หมายถึงค่าที่ไม่ปรากฏในชุดข้อมูลหรือหายากมาก ตัวอย่างเช่น ภาพของดาวเสาร์จะถือว่า ไม่ใช่การกระจายของชุดข้อมูลที่มีรูปแมว

คลัสเตอร์แบบหารลงตัว

#clustering

ดูการจัดกลุ่มแบบลำดับชั้น

การสุ่มกลุ่มตัวอย่าง

#image

คำที่มากเกินไปซึ่งอาจมีความหมายอย่างใดอย่างหนึ่งต่อไปนี้

ลดจำนวนข้อมูลในฟีเจอร์เพื่อฝึกโมเดลได้อย่างมีประสิทธิภาพมากขึ้น ตัวอย่างเช่น ก่อนฝึกโมเดลการจดจำรูปภาพ ให้ลดขนาดรูปภาพที่มีความละเอียดสูงให้เป็นรูปแบบที่มีความละเอียดต่ำลง
การฝึกกับตัวอย่างในชั้นเรียนที่มีเปอร์เซ็นต์ต่ำอย่างไม่สมส่วน เพื่อปรับปรุงการฝึกโมเดลในคลาสที่มีตัวแทนน้อยเกินไป ตัวอย่างเช่น ในชุดข้อมูลที่ไม่สมดุลระหว่างคลาส โมเดลมักจะเรียนรู้เกี่ยวกับกลุ่มส่วนใหญ่ได้มากมาย และยังไม่เพียงพอเกี่ยวกับชนกลุ่มน้อย การสุ่มเนื้อหาช่วยสร้างความสมดุลระหว่าง ปริมาณการฝึกอบรมกับชั้นเรียนส่วนใหญ่และชนกลุ่มน้อย

DQN

#rl

เป็นตัวย่อของDeep Q-Network

การกำหนดกฎออกเป็นกลุ่ม

รูปแบบหนึ่งของการควบคุมระบบที่มีประโยชน์ในการฝึกโครงข่ายระบบประสาทเทียม การกำหนดกฎเมนูแบบเลื่อนลงจะนำการสุ่มเลือกจำนวนหน่วยคงที่ในเลเยอร์เครือข่ายออกสำหรับขั้นตอนการไล่ระดับสีรายการเดียว ยิ่งมีจำนวนหน่วยโฆษณาน้อยลงเท่าใด รูปแบบที่ได้มาตรฐานก็ยิ่งมากขึ้นเท่านั้น วิธีนี้คล้ายกับการฝึกเครือข่ายให้จำลองกลุ่มเครือข่ายขนาดใหญ่แบบทวีคูณของเครือข่ายขนาดเล็ก ดูรายละเอียดทั้งหมดได้ที่การออก: วิธีง่ายๆ ในการป้องกันโครงข่ายประสาทเทียม

ไดนามิก

#fundamentals

สิ่งที่ทำบ่อยหรือต่อเนื่อง คำว่าไดนามิกและออนไลน์เป็นคำที่มีความหมายเหมือนกันในแมชชีนเลิร์นนิง การใช้งานแบบไดนามิกและออนไลน์ในแมชชีนเลิร์นนิงโดยทั่วไปมีดังนี้

รูปแบบแบบไดนามิก (หรือรูปแบบออนไลน์) คือรูปแบบที่มีการฝึกซ้ำบ่อยครั้งหรือต่อเนื่อง
การฝึกอบรมแบบไดนามิก (หรือการฝึกอบรมออนไลน์) เป็นกระบวนการฝึกบ่อยๆ หรือต่อเนื่อง
การอนุมานแบบไดนามิก (หรือการอนุมานออนไลน์) เป็นกระบวนการสร้างการคาดการณ์แบบออนดีมานด์

รูปแบบแบบไดนามิก

#fundamentals

modelที่มีการฝึกซ้ำบ่อยๆ (อาจจะต่อเนื่องกัน) โมเดลแบบไดนามิกคือ "ผู้เรียนรู้ตลอดชีวิต" ที่ต้องปรับตัวเข้ากับข้อมูลที่มีการเปลี่ยนแปลงอยู่ตลอดเวลา โมเดลแบบไดนามิกเรียกอีกอย่างหนึ่งว่าโมเดลออนไลน์

คอนทราสต์กับโมเดลภาพนิ่ง

จ.

Eager Execution

#TensorFlow

สภาพแวดล้อมในการเขียนโปรแกรม TensorFlow ที่operationsจะทำงานทันที ในทางตรงกันข้าม การดำเนินการที่เรียกใช้ในการเรียกใช้กราฟจะไม่ทำงานจนกว่าจะมีการประเมินอย่างชัดแจ้ง การดำเนินการอย่างกระตือรือร้นเป็นอินเทอร์เฟซที่จำเป็น ซึ่งคล้ายกับโค้ดในภาษาโปรแกรมส่วนใหญ่ โดยทั่วไปแล้วโปรแกรมการดำเนินการที่กระตือรือร้น จะแก้ไขข้อบกพร่องได้ง่ายกว่าโปรแกรมการดำเนินการแบบกราฟ

การหยุดก่อนกำหนด

#fundamentals

เมธอดสำหรับการกำหนดค่าที่เกี่ยวข้องกับการสิ้นสุดการฝึก ก่อนที่การสูญเสียการฝึกจะเสร็จสิ้น ในการหยุดตั้งแต่เนิ่นๆ จะเป็นการหยุดฝึกโมเดลเมื่อการสูญเสียชุดข้อมูลการตรวจสอบเริ่มเพิ่มขึ้น กล่าวคือเมื่อประสิทธิภาพของการทําให้เป็นทั่วไปแย่ลง

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

การหยุดก่อนกำหนดอาจฟังดูขัดกับสัญชาตญาณ เพราะจริงๆ แล้ว การบอกให้โมเดลหยุดการฝึกขณะที่การสูญเสียยังคงลดลง อาจดูเหมือนเป็นการบอกให้เชฟหยุดทำอาหารก่อนที่ของหวานจะอบเสร็จแล้ว อย่างไรก็ตาม การฝึกโมเดลให้ยาวเกินไปอาจทำให้เกิดการปรับโมเดลให้พอดี กล่าวคือ หากคุณฝึกโมเดลนานเกินไป โมเดลอาจพอดีกับข้อมูลการฝึกมากจนทำให้โมเดลไม่สามารถคาดการณ์ตัวอย่างใหม่ๆ ได้

ระยะทางของผู้เคลื่อนย้ายของโลก (EMD)

การวัดค่าความคล้ายคลึงเชิงสัมพัทธ์ของการแจกแจง 2 แบบ ยิ่งระยะห่างของตัวเคลื่อนที่น้อยเท่าใด การกระจายก็จะยิ่งคล้ายกันมากเท่านั้น

แก้ไขระยะทาง

#language

การวัดความคล้ายคลึงกันของสตริงข้อความ 2 สตริง ในแมชชีนเลิร์นนิง การแก้ไขระยะทางจะมีประโยชน์เนื่องจากคำนวณได้ง่าย และวิธีเปรียบเทียบ 2 สตริงที่ทราบว่าคล้ายคลึงหรือหาสตริงที่คล้ายกับสตริงได้อย่างมีประสิทธิภาพ

ระยะห่างของการแก้ไขมีคำจำกัดความหลายแบบ แต่ละคำใช้การทำงานสตริงต่างกัน เช่น ระยะ Levenshtein จะพิจารณาการดำเนินการลบ แทรก และแทนที่น้อยที่สุด

เช่น ระยะห่างของ Levenshtein ระหว่างคำว่า "หัวใจ" กับ "ลูกดอก" เท่ากับ 3 เพราะการแก้ไข 3 รายการต่อไปนี้เป็นการเปลี่ยนแปลงน้อยที่สุดที่เปลี่ยนคำหนึ่งให้เป็นอีกคำหนึ่ง

หัวใจ → รัก (แทน "h" ด้วย "d")
หัวใจ → ดาร์ต (ลบ "e")
ลูกดอก → ลูกดอก (แทรก "s")

สัญกรณ์ Einsum

สัญลักษณ์ที่มีประสิทธิภาพในการอธิบายวิธีรวม tensors 2 ค่า โดยการนำ tensor มาคูณกันโดยการคูณองค์ประกอบของ Tensor หนึ่งกับองค์ประกอบของ tensor อื่นๆ แล้วบวกผลคูณ สัญกรณ์ Einsum ใช้สัญลักษณ์ในการระบุแกนของ tensor แต่ละชุด และสัญลักษณ์เดียวกันเหล่านั้นได้รับการจัดเรียงใหม่เพื่อระบุรูปร่างของ Tensor ผลลัพธ์ใหม่

NumPy มีการติดตั้งใช้งาน Einsum ทั่วไป

เลเยอร์ที่ฝัง

#language

#fundamentals

เลเยอร์ที่ซ่อนอยู่พิเศษที่ฝึกบนฟีเจอร์เชิงหมวดหมู่ที่มีมิติสูง เพื่อค่อยๆ เรียนรู้เวกเตอร์การฝังที่มีมิติข้อมูลต่ำกว่า เลเยอร์การฝังช่วยให้โครงข่ายประสาทฝึกได้อย่างมีประสิทธิภาพมากกว่าการฝึกเฉพาะฟีเจอร์เชิงหมวดหมู่ขั้นสูง

ตัวอย่างเช่น ปัจจุบัน Earth สนับสนุนต้นไม้ประมาณ 73,000 ชนิด สมมติว่าสปีชีส์ของต้นไม้เป็นฟีเจอร์ในโมเดลของคุณ ดังนั้นเลเยอร์อินพุตของโมเดลจึงมีเวกเตอร์หนึ่งร้อน องค์ประกอบยาว 73,000 รายการ ตัวอย่างเช่น หน้าของ baobab อาจมีลักษณะดังนี้

อาร์เรย์ขององค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 รายการแรกมีค่า 0 องค์ประกอบถัดไปมีค่า 1 องค์ประกอบ 66,767 สุดท้ายจะมีค่าเป็น 0

อาร์เรย์ 73,000 องค์ประกอบยาวมาก หากคุณไม่เพิ่มเลเยอร์ที่ฝังไปยังโมเดล การฝึกจะใช้เวลานานมากเนื่องจากมีการคูณ 0 ถึง 72,999 ตัว คุณอาจเลือกเลเยอร์การฝัง ให้ประกอบด้วยมิติข้อมูล 12 แบบ เลเยอร์การฝังจะค่อยๆ เรียนรู้ เวกเตอร์การฝังใหม่สำหรับต้นไม้แต่ละชนิด

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลแทนการใช้เลเยอร์ที่ฝัง

พื้นที่ที่ฝัง

#language

พื้นที่ของเวกเตอร์ D-dimension ที่คุณลักษณะจากพื้นที่เวกเตอร์มิติที่สูงกว่าจะถูกจับคู่ ตามหลักการแล้ว พื้นที่ที่ฝังมีโครงสร้างที่ให้ผลลัพธ์ทางคณิตศาสตร์ที่มีความหมาย ตัวอย่างเช่น ในพื้นที่การฝังที่ดีที่สุด การเพิ่มและการลบการฝังจะช่วยแก้งานอุปมาอุปไมยได้

ผลคูณแบบจุดของการฝัง 2 อันเป็นตัววัดความคล้ายคลึงกัน

การฝังเวกเตอร์

#language

หรือพูดกว้างๆ ก็คืออาร์เรย์ของจำนวนจุดลอยตัวที่ดึงมาจากเลเยอร์ที่ซ่อนซึ่งจะอธิบายอินพุตไปยังเลเยอร์ที่ซ่อนอยู่ เวกเตอร์ที่ฝังอยู่บ่อยๆ คืออาร์เรย์ของจำนวนจุดลอยตัวที่ฝึกในเลเยอร์ที่ฝัง ตัวอย่างเช่น สมมติว่าเลเยอร์การฝังต้องเรียนรู้เวกเตอร์การฝังสำหรับต้นไม้ทุก 73,000 สายพันธุ์ในโลก อาร์เรย์ต่อไปนี้อาจเป็นเวกเตอร์การฝังของต้นเบาบับ

อาร์เรย์ขององค์ประกอบ 12 รายการ โดยแต่ละรายการจะมีจำนวนจุดลอยตัวระหว่าง 0.0 ถึง 1.0

เวกเตอร์ที่ฝังไม่ใช่ชุดตัวเลขสุ่ม เลเยอร์ที่ฝังจะกำหนดค่าเหล่านี้ผ่านการฝึก คล้ายกับที่โครงข่ายประสาทเรียนรู้การถ่วงน้ำหนักอื่นๆ ระหว่างการฝึก แต่ละองค์ประกอบของอาร์เรย์คือการให้คะแนนตามลักษณะบางอย่างของต้นไม้สายพันธุ์ องค์ประกอบใดแสดงลักษณะของต้นไม้ชนิดใด มนุษย์มีวิธีระบุยากมาก

ส่วนที่โดดเด่นทางคณิตศาสตร์ของเวกเตอร์การฝังก็คือรายการที่คล้ายกัน จะมีชุดจำนวนจุดลอยตัวที่คล้ายกัน เช่น ชนิดของต้นไม้ที่คล้ายกันจะมีชุดจำนวนจุดลอยตัวที่คล้ายกันมากกว่าชนิดต้นไม้ที่ไม่เหมือนกัน เรดวูดและซีคัวยาเป็นพันธุ์ของต้นไม้ที่เกี่ยวข้อง จึงจะมีชุดตัวเลขชี้ลอยคล้ายกับเรดวูดและต้นมะพร้าว ตัวเลขในเวกเตอร์การฝังจะเปลี่ยนแปลงทุกครั้งที่คุณฝึกโมเดลอีกครั้ง แม้ว่าคุณจะฝึกโมเดลอีกครั้งด้วยอินพุตที่เหมือนกันก็ตาม

ฟังก์ชันการแจกแจงสะสมแบบเอมพิริคัล (eCDF หรือ EDF)

ฟังก์ชันการแจกแจงสะสมตามการวัดแบบเอมพิริคัลจากชุดข้อมูลจริง ค่าของฟังก์ชัน ณ จุดใดก็ได้ตามแกน x คือเศษส่วนของการสังเกตการณ์ในชุดข้อมูลที่น้อยกว่าหรือเท่ากับค่าที่ระบุ

การลดความเสี่ยงเชิงประจักษ์ (ERM)

เลือกฟังก์ชันที่ช่วยลดการสูญเสียในชุดการฝึก ตรงข้ามกับการลดความเสี่ยงด้านโครงสร้าง

โปรแกรมเปลี่ยนไฟล์

#language

โดยทั่วไป ระบบ ML ที่แปลงจากการนำเสนอแบบไม่ชัดเจน หยาบๆ หรือจากภายนอกไปเป็นการนำเสนอภายในที่ประมวลผลแล้ว หนาแน่นขึ้น หรือเป็นการเป็นตัวแทนภายในมากกว่า

โปรแกรมเปลี่ยนไฟล์มักเป็นองค์ประกอบของโมเดลขนาดใหญ่ ซึ่งมักจะจับคู่กับโปรแกรมถอดรหัส Transformers บางรุ่นจับคู่โปรแกรมเปลี่ยนไฟล์กับตัวถอดรหัส ในขณะที่ Transformer อื่นๆ จะใช้เพียงโปรแกรมเปลี่ยนไฟล์หรือเพียงตัวถอดรหัสเท่านั้น

บางระบบใช้เอาต์พุตของโปรแกรมเปลี่ยนไฟล์เป็นอินพุตไปยังเครือข่ายการแยกประเภทหรือเครือข่ายการถดถอย

ในงานที่มีลำดับขั้นตอน โปรแกรมเปลี่ยนไฟล์จะจับลำดับอินพุตและแสดงผลสถานะภายใน (เวกเตอร์) จากนั้นเครื่องมือถอดรหัสจะใช้สถานะภายในนั้นเพื่อคาดการณ์ลำดับถัดไป

ดูคำจำกัดความของโปรแกรมเปลี่ยนไฟล์ในสถาปัตยกรรมของ Transformer ได้ที่ Transformer

ชุดทั้งหมด

คอลเล็กชันของโมเดลที่ได้รับการฝึกอย่างอิสระซึ่งมีการคาดการณ์เป็นค่าเฉลี่ยหรือรวม ในหลายกรณี การรวมชุดหนึ่งๆ จะให้การคาดการณ์ที่ดีกว่าโมเดลเดียว เช่น ป่าแบบสุ่มคือชุดที่ประกอบด้วยต้นไม้ตัดสินใจหลายต้น โปรดทราบว่าป่าการตัดสินใจบางภาพไม่ได้มีลักษณะเหมือนกันทั้งหมด

เอนโทรปี

#df

ใน ทฤษฎีข้อมูล คำอธิบายเกี่ยวกับการแจกแจงความน่าจะเป็นที่คาดเดาไม่ได้ นอกจากนี้ เอนโทรปียังกำหนดด้วยว่าตัวอย่างแต่ละรายการมีข้อมูลมากเพียงใด การแจกแจงมีเอนโทรปีสูงสุดเมื่อค่าทั้งหมดของตัวแปรสุ่มมีแนวโน้มเท่ากัน

เอนโทรปีของชุดที่มีค่าที่เป็นไปได้ 2 ค่าคือ "0" และ "1" (เช่น ป้ายกำกับในโจทย์การจำแนกประเภทไบนารี) มีสูตรดังนี้

H = -p log p - q log q = -p log p - (1-p) * บันทึก (1-p)

ที่ไหน:

H คือเอนโทรปี
p คือเศษส่วนของตัวอย่าง "1"
q คือเศษส่วนของตัวอย่าง "0" โปรดทราบว่า q = (1 - p)
log โดยทั่วไปจะเป็นบันทึก₂ ในกรณีนี้ หน่วยเอนโทรปีจะเป็นนิดหน่อย

ตัวอย่างเช่น สมมติว่า

ตัวอย่าง 100 รายการมีค่า "1"
ตัวอย่าง 300 รายการมีค่า "0"

ดังนั้นค่าเอนโทรปีจะเป็น

คะแนน = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81 บิตต่อตัวอย่าง

ชุดที่สมดุลกันอย่างสมบูรณ์ (เช่น 200 "0" และ 200 "1") จะมีเอนโทรปีอยู่ที่ 1.0 บิตต่อตัวอย่าง เมื่อชุดมีความไม่สมดุลมากขึ้น เอนโทรปีจะเลื่อนไปเป็น 0.0

ในแผนผังการตัดสินใจ เอนโทรปีจะช่วยสร้างข้อมูลที่ได้รับเพื่อช่วยให้สปลิตเตอร์เลือกเงื่อนไขระหว่างการเติบโตของแผนผังการตัดสินใจการจัดประเภท

เปรียบเทียบเอนโทรปีกับ

ความไม่บริสุทธิ์ของจินี
ฟังก์ชันการสูญเสียครอสเอนโทรปี

เอนโทรปีมักเรียกว่าเอนโทรปีของแชนนอน

สภาพแวดล้อม

#rl

ในการเรียนรู้แบบเสริมกำลัง โลกที่มี agent และอนุญาตให้ตัวแทนสังเกตรัฐของโลกได้ เช่น โลกจำลองอาจเป็นเกมหมากรุก หรือโลกจริงอย่างเขาวงกต เมื่อ Agent ใช้การดำเนินการกับสภาพแวดล้อม สภาพแวดล้อมจะเปลี่ยนระหว่างสถานะ

ตอน

#rl

ในการเรียนรู้แบบเสริมกำลัง ตัวแทนพยายามทำหลายครั้งเพื่อเรียนรู้สภาพแวดล้อม

Epoch

#fundamentals

การผ่านการฝึกอบรมเต็มรูปแบบสำหรับชุดการฝึกทั้งหมด เพื่อให้มีการประมวลผลตัวอย่างแต่ละรายการ 1 ครั้ง

Epoch แสดงN/ขนาดกลุ่ม การฝึกการทำซ้ำ โดยที่ N คือจำนวนตัวอย่างทั้งหมด

ตัวอย่างเช่น สมมติว่า

ชุดข้อมูลประกอบด้วยตัวอย่าง 1,000 รายการ
ขนาดกลุ่มคือ 50 ตัวอย่าง

ดังนั้น Epoch 1 ครั้งจึงต้องมีการทำซ้ำ 20 ครั้ง ดังนี้

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

นโยบายความโลภของ epsilon

#rl

ในการสนับสนุนการเรียนรู้ นโยบายที่เป็นไปตามนโยบายแบบสุ่มที่มีความน่าจะเป็นของ epsilon หรือนโยบายละเลยในกรณีอื่นๆ ตัวอย่างเช่น หาก epsilon เป็น 0.9 นโยบายจะเป็นไปตามนโยบายแบบสุ่ม 90% จากทั้งหมดและนโยบายความโลภ 10% ของเวลาทั้งหมด

ในตอนที่ต่อเนื่องกัน อัลกอริทึมจะลดค่าของ epsilon เพื่อเปลี่ยนจากการทำตามนโยบายแบบสุ่มไปเป็นการทำตามนโยบายโลภ เมื่อเปลี่ยนนโยบาย ตัวแทนจะสุ่มสำรวจสภาพแวดล้อมก่อน แล้วจึงใช้ประโยชน์จากผลลัพธ์ที่ได้จากการสำรวจแบบสุ่ม

ความเท่าเทียมของโอกาส

#fairness

เมตริกความยุติธรรมเพื่อประเมินว่าโมเดลคาดการณ์ผลลัพธ์ที่ต้องการได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่มีความละเอียดอ่อนหรือไม่ กล่าวคือ หากผลลัพธ์ที่ต้องการสำหรับโมเดลคือคลาสเชิงบวก เป้าหมายก็จะให้อัตราผลบวกจริงเหมือนกันสำหรับทุกกลุ่ม

ความเท่าเทียมของโอกาสเกี่ยวข้องกับความน่าจะเป็นที่เท่าเทียมกัน ซึ่งกําหนดให้ทั้งอัตราผลบวกจริงและอัตราผลบวกลวงต้องเหมือนกันในทุกกลุ่ม

สมมติว่ามหาวิทยาลัย Glubbdubdrib ยอมรับทั้ง Lilliputians และ Brobdingnagians เข้าเรียนในโปรแกรมคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมศึกษาของ Lilliputians มีชั้นเรียนคณิตศาสตร์ที่มีประสิทธิภาพและนักเรียนส่วนใหญ่มีคุณสมบัติเข้าเรียนโปรแกรมของมหาวิทยาลัย โรงเรียนมัธยมศึกษาของ Brobdingnagians จึงไม่มีชั้นเรียนคณิตศาสตร์เลย จึงทำให้ไม่มีนักเรียนที่มีคุณสมบัติเพียงพอ ความเท่าเทียมกันของโอกาสคือระดับซึ่งสอดคล้องกับป้ายกำกับที่ต้องการเป็น "ยอมรับ" ในส่วนที่เกี่ยวกับสัญชาติ (Lilliputian หรือ Brobdingnagian) หากนักเรียนที่มีคุณสมบัติตามเกณฑ์มีแนวโน้มที่จะรับเข้าศึกษาได้เท่ากันไม่ว่านักเรียนจะเป็น Lilliputian หรือ Brobdingnagian

ตัวอย่างเช่น สมมติว่าชาวลิลลิปูชัน 100 คนและบรอบดิงนาเจียน 100 คนสมัครเข้ามหาวิทยาลัย Glubbdubdrib และตัดสินใจรับสมัครนักศึกษาดังนี้

ตารางที่ 1 ผู้สมัคร Lilliputian (90% มีคุณสมบัติครบถ้วน)

	เข้าเกณฑ์	คุณสมบัติไม่ครบ
ยอมรับ	45	3
ปฏิเสธแล้ว	45	7
รวม	90	10
เปอร์เซ็นต์ของนักเรียนที่เข้าเกณฑ์ซึ่งเข้าศึกษา: 45/90 = 50% เปอร์เซ็นต์ของนักเรียนที่ขาดคุณสมบัติที่ถูกปฏิเสธ: 7/10 = 70% เปอร์เซ็นต์รวมของนักเรียน Lilliputian ที่รับเข้าศึกษาคือ (45+3)/100 = 48%

ตารางที่ 2 ผู้สมัคร Brobdingnagian (10% มีคุณสมบัติครบถ้วน):

	เข้าเกณฑ์	คุณสมบัติไม่ครบ
ยอมรับ	5	9
ปฏิเสธแล้ว	5	81
รวม	10	90
เปอร์เซ็นต์ของนักเรียนที่เข้าเกณฑ์ซึ่งเข้าศึกษา: 5/10 = 50% เปอร์เซ็นต์ของนักเรียนที่ไม่ผ่านการรับรองที่ถูกปฏิเสธ: 81/90 = 90% เปอร์เซ็นต์รวมของนักเรียน Brobdingnagian ที่รับเข้าศึกษา: (5+9)/100 = 14%

ตัวอย่างก่อนหน้านี้แสดงให้เห็นถึงความเท่าเทียมของโอกาสในการยอมรับนักเรียนที่มีคุณสมบัติเหมาะสม เนื่องจากทั้ง Lilliputians และ Brobdingnagians ที่มีคุณสมบัติเหมาะสมมีโอกาส 50% ที่จะได้เข้าศึกษา

แม้เราจะพึงพอใจเท่าๆ กัน แต่เมตริกด้านความเป็นธรรม 2 ประการต่อไปนี้ไม่ได้รับการตอบสนอง

ความเท่าเทียมกันของข้อมูลประชากร: Lilliputian และ Brobdingnagians เข้ามหาวิทยาลัยในอัตราที่แตกต่างกัน โดย 48% ของนักเรียน Lilliputian ได้รับเข้าศึกษา แต่มีเพียง 14% ของนักศึกษา Brobdingnagian ที่เข้ามหาวิทยาลัย
โอกาสในการเข้าเรียนที่เท่าเทียมกัน: แม้ว่านักเรียนจาก Lilliputian และ Brobdingnagian ที่มีคุณสมบัติเหมาะสมจะได้รับโอกาสเข้ารับการศึกษาเหมือนกัน แต่ข้อจำกัดเพิ่มเติมที่นักเรียน Lilliputian และ Brobdingnagians ไม่ผ่านการรับรองมีโอกาสที่ถูกปฏิเสธเท่ากัน Lilliputian ที่ไม่มีคุณสมบัติมีอัตราการปฏิเสธ 70% ขณะที่ Brobdingnagians ที่ไม่เข้าเกณฑ์มีอัตราการปฏิเสธ 90%

ดู "ความเท่าเทียมของโอกาสในการเรียนรู้ที่มีการควบคุมดูแล" เพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับความเท่าเทียมของโอกาส นอกจากนี้ โปรดดู "การโจมตี การเลือกปฏิบัติด้วยแมชชีนเลิร์นนิงที่ชาญฉลาดยิ่งขึ้น" สำหรับภาพที่แสดงข้อดีและข้อเสียต่างๆ เมื่อเพิ่มประสิทธิภาพเพื่อความเท่าเทียมของโอกาส

ความน่าจะเป็นที่เท่ากัน

#fairness

เมตริกความยุติธรรมเพื่อประเมินว่าโมเดลคาดการณ์ผลลัพธ์ได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่มีความละเอียดอ่อน โดยเคารพทั้งคลาสเชิงบวกและคลาสเชิงลบ ไม่ใช่แค่คลาสใดคลาสหนึ่งหรือคลาสอื่นๆ โดยเฉพาะ กล่าวคือ ทั้งอัตราผลบวกจริงและอัตราผลบวกลวงควรเหมือนกันสำหรับทุกกลุ่ม

ความน่าจะเป็นที่เท่าเทียมกันจะเกี่ยวข้องกับความเท่าเทียมกันของโอกาส ซึ่งมุ่งเน้นที่อัตราข้อผิดพลาดเพียงคลาสเดียว (เชิงบวกหรือเชิงลบ)

ตัวอย่างเช่น สมมติว่ามหาวิทยาลัย Glubbdubdrib ยอมรับทั้ง Lilliputians และ Brobdingnagians เข้าเรียนในโปรแกรมคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมศึกษาของ Lilliputians มีหลักสูตรวิชาคณิตศาสตร์ที่มีประสิทธิภาพและนักเรียนส่วนใหญ่มีคุณสมบัติสำหรับโปรแกรมของมหาวิทยาลัย โรงเรียนมัธยมศึกษาของ Brobdingnagians จึงไม่มีชั้นเรียนคณิตศาสตร์เลย จึงทำให้ไม่มีนักเรียนที่มีคุณสมบัติมากนัก ผู้สมัครได้รับเลือกให้มีโอกาสได้รับความพึงพอใจอย่างเท่าเทียมกันโดยมีเงื่อนไขว่าผู้สมัครเป็น Lilliputian หรือ Brobdingnagian ได้หากมีคุณสมบัติครบถ้วน ผู้สมัครก็มีแนวโน้มที่จะได้รับเลือกเข้าร่วมโปรแกรมได้ในระดับเดียวกัน และหากไม่มีสิทธิ์ ผู้สมัครก็มีแนวโน้มที่จะถูกปฏิเสธไม่แพ้กัน

สมมติว่ามีนักศึกษา Lilliputian 100 คนและ Brobdingnagians อีก 100 คนสมัครเข้าร่วมมหาวิทยาลัย Glubbdubdrib และตัดสินใจเรื่องการรับนักศึกษาดังนี้

ตารางที่ 3 ผู้สมัคร Lilliputian (90% มีคุณสมบัติครบถ้วน)

	เข้าเกณฑ์	คุณสมบัติไม่ครบ
ยอมรับ	45	2
ปฏิเสธแล้ว	45	8
รวม	90	10
เปอร์เซ็นต์ของนักเรียนที่เข้าเกณฑ์ซึ่งเข้าศึกษา: 45/90 = 50% เปอร์เซ็นต์ของนักเรียนที่ขาดคุณสมบัติที่ถูกปฏิเสธ: 8/10 = 80% เปอร์เซ็นต์รวมของนักเรียน Lilliputian ที่รับเข้าศึกษา: (45+2)/100 = 47%

ตารางที่ 4 ผู้สมัคร Brobdingnagian (10% มีคุณสมบัติครบถ้วน):

	เข้าเกณฑ์	คุณสมบัติไม่ครบ
ยอมรับ	5	18
ปฏิเสธแล้ว	5	72
รวม	10	90
เปอร์เซ็นต์ของนักเรียนที่เข้าเกณฑ์ซึ่งเข้าศึกษา: 5/10 = 50% เปอร์เซ็นต์ของนักเรียนที่ขาดคุณสมบัติซึ่งถูกปฏิเสธ: 72/90 = 80% เปอร์เซ็นต์รวมของนักเรียน Brobdingnagian ที่รับเข้าศึกษา: (5+18)/100 = 23%

คำตอบที่เท่าเทียมกันนั้นพึงพอใจเพราะนักเรียนของ Lilliputian และ Brobdingnagian ที่มีคุณสมบัติตามเกณฑ์มีโอกาสได้รับเลือกให้เข้าศึกษาถึง 50% และ Lilliputian และ Brobdingnagian ที่ขาดคุณสมบัติมีโอกาสจะถูกปฏิเสธ 80%

ความน่าจะเป็นแบบเท่ากันมีคำจำกัดความอย่างเป็นทางการไว้ใน "ความเท่าเทียมของโอกาสในการเรียนรู้ภายใต้การควบคุมดูแล" ดังนี้ "ผู้คาดการณ์ เริ่มต้นด้วยความเป็นไปได้ที่เท่ากันซึ่งเกี่ยวข้องกับแอตทริบิวต์ A และผลลัพธ์ Y หาก บัญญัติ และ A เป็นอิสระ โดยมีเงื่อนไขบน Y"

เครื่องมือประมาณ

#TensorFlow

TensorFlow API ที่เลิกใช้งานแล้ว ใช้ tf.keras แทนเครื่องมือประมาณ

การประเมิน

กระบวนการวัดคุณภาพของการคาดการณ์ของโมเดลแมชชีนเลิร์นนิง ขณะพัฒนาโมเดล โดยทั่วไปคุณจะใช้เมตริกการประเมินไม่เพียงในชุดการฝึกเท่านั้น แต่ยังใช้ในชุดการตรวจสอบและชุดทดสอบด้วย และยังใช้เมตริกการประเมินเพื่อเปรียบเทียบ รูปแบบต่างๆ ได้อีกด้วย

ตัวอย่าง

#fundamentals

ค่าของฟีเจอร์ 1 แถวและอาจจะเป็นป้ายกำกับ ตัวอย่างในการเรียนรู้ที่มีการควบคุมดูแลจะจัดเป็นหมวดหมู่ทั่วไป 2 หมวดหมู่ ดังนี้

ตัวอย่างที่ติดป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างที่ติดป้ายกำกับจะใช้ระหว่างการฝึก
ตัวอย่างที่ไม่มีป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ แต่ไม่มีป้ายกำกับ ระบบจะใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการอนุมาน

ตัวอย่างเช่น สมมติว่าคุณกำลังฝึกโมเดลเพื่อกำหนดอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ต่อไปนี้เป็นตัวอย่างที่มีป้ายกำกับ 3 ตัวอย่าง

ฟีเจอร์			ค่ายเพลง
อุณหภูมิ	ความชื้น	ความกดอากาศ	คะแนนสอบ
15	47	998	เร็ว
19	34	1020	ดีมาก
18	92	1012	แย่

ต่อไปนี้คือตัวอย่างที่ไม่มีป้ายกำกับ 3 ตัวอย่าง

อุณหภูมิ	ความชื้น	ความกดอากาศ
12	62	1014
21	47	1017
19	41	1021

โดยปกติแล้วแถวของชุดข้อมูลจะเป็นแหล่งที่มาดิบของตัวอย่าง ซึ่งหมายความว่าตัวอย่างมักจะประกอบด้วยชุดย่อยของคอลัมน์ในชุดข้อมูล นอกจากนี้ ฟีเจอร์ในตัวอย่างยังอาจมีฟีเจอร์สังเคราะห์ เช่น ฟีเจอร์เครื่องหมายกากบาท

สัมผัสประสบการณ์การเล่นซ้ำ

#rl

ในการเรียนรู้แบบเสริมการเรียนรู้ มีการใช้เทคนิค DQN ในการลดความสัมพันธ์ด้านเวลาในข้อมูลการฝึก agent จะจัดเก็บการเปลี่ยนสถานะไว้ในบัฟเฟอร์การเล่นซ้ำ จากนั้นสุ่มตัวอย่างการเปลี่ยนจากบัฟเฟอร์การเล่นซ้ำเพื่อสร้างข้อมูลการฝึก

อคติของผู้ทดสอบ

#fairness

ดูการให้น้ำหนักพิเศษในการยืนยัน

ปัญหาการไล่ระดับสีแบบระเบิด

#seq

แนวโน้มของการไล่ระดับสีในโครงข่ายประสาทระดับลึก (โดยเฉพาะโครงข่ายประสาทแบบเกิดซ้ำ) สูงชันขึ้นอย่างไม่น่าเชื่อ (สูง) การไล่ระดับสีที่ชันมักทำให้เกิดการอัปเดตน้ำหนักของโหนดแต่ละรายการในโครงข่ายประสาทระดับลึก

โมเดลที่ได้รับผลกระทบจากปัญหาการไล่ระดับสีที่ระเบิดจะฝึกได้ยากหรือไม่ได้เลย การคลิปการไล่ระดับสี จะช่วยลดปัญหานี้ได้

เปรียบเทียบกับปัญหาการไล่ระดับสีที่หายไป

F

เฟรม₁

เมตริกการจัดประเภทแบบไบนารีแบบ "ภาพรวม" ที่ใช้ทั้งความแม่นยำและการเรียกคืน โดยมีสูตรดังนี้

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

ตัวอย่างเช่น ตามที่ระบุไว้ต่อไปนี้

ความแม่นยำ = 0.6
การเรียกคืน = 0.4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

เมื่อความแม่นยำและการจดจำใกล้เคียงกัน (ตามตัวอย่างก่อนหน้านี้) F₁ จะใกล้เคียงกับค่าเฉลี่ย เมื่อความแม่นยำและความอ่อนไหวแตกต่างกันอย่างมาก F₁ จะใกล้เคียงกับค่าที่ต่ำกว่า เช่น

ความแม่นยำ = 0.9
การเรียกคืน = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

ข้อจํากัดด้านความยุติธรรม

#fairness

การใช้ข้อจำกัดกับอัลกอริทึมเพื่อให้เป็นไปตามคำจำกัดความของความเป็นธรรมอย่างน้อย 1 ข้อ ตัวอย่างข้อจำกัดเกี่ยวกับความเป็นธรรม ได้แก่

หลังการประมวลผลเอาต์พุตของโมเดล
เปลี่ยนฟังก์ชันการสูญเสียเพื่อรวมบทลงโทษเนื่องจากละเมิดเมตริกความยุติธรรม
เพิ่มข้อจำกัดทางคณิตศาสตร์ลงในโจทย์การเพิ่มประสิทธิภาพโดยตรง

เมตริกความยุติธรรม

#fairness

คำจำกัดความทางคณิตศาสตร์ของ "ความเป็นธรรม" ที่วัดผลได้ เมตริกด้านความเป็นธรรมที่ใช้กันโดยทั่วไปมีดังนี้

โอกาสในการต่อรอง
ความเท่าเทียมกันตามการคาดการณ์
ความยุติธรรมที่ขัดแย้งกับความจริงใจ
ความเท่าเทียมกันของข้อมูลประชากร

เมตริกด้านความยุติธรรมหลายรายการใช้พร้อมกันไม่ได้ โปรดดูความเข้ากันไม่ได้ของเมตริกความยุติธรรม

ผลลบลวง (FN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบผิดพลาด ตัวอย่างเช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ ไม่ใช่สแปม (คลาสเชิงลบ) แต่อีเมลดังกล่าวแท้จริงแล้วเป็นสแปม

อัตราผลลบลวง

สัดส่วนของตัวอย่างผลบวกจริงที่โมเดลคาดการณ์คลาสเชิงลบอย่างไม่ถูกต้อง สูตรต่อไปนี้จะคำนวณอัตราผลลบลวง

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

ผลบวกลวง (FP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงบวกผิดพลาด เช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ เป็นสแปม (คลาสเชิงบวก) แต่ข้อความอีเมลนั้นไม่ใช่สแปม

อัตราผลบวกลวง (FPR)

#fundamentals

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลคาดการณ์คลาสบวกโดยไม่ตั้งใจ สูตรต่อไปนี้จะคำนวณอัตราผลบวกลวง

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

อัตราผลบวกลวงคือแกน x ในเส้นโค้ง ROC

ฟีเจอร์

#fundamentals

ตัวแปรอินพุตไปยังโมเดลแมชชีนเลิร์นนิง ตัวอย่าง ประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ ตัวอย่างเช่น สมมติว่าคุณกำลังฝึกโมเดลเพื่อกำหนดอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตารางต่อไปนี้แสดงตัวอย่าง 3 ตัวอย่าง แต่ละรายการมีฟีเจอร์ 3 รายการและป้ายกำกับ 1 รายการ

ฟีเจอร์			ค่ายเพลง
อุณหภูมิ	ความชื้น	ความกดอากาศ	คะแนนสอบ
15	47	998	92
19	34	1020	84
18	92	1012	87

คอนทราสต์กับป้ายกํากับ

กากบาทในฟีเจอร์

#fundamentals

ฟีเจอร์สังเคราะห์ที่เกิดจากฟีเจอร์ "ข้าม" หมวดหมู่หรือที่เก็บข้อมูล

เช่น ลองพิจารณาโมเดล "การคาดการณ์อารมณ์" ที่แสดงอุณหภูมิใน 1 ใน 4 กลุ่มนี้

freezing
chilly
temperate
warm

และแสดงถึงความเร็วลมใน 1 ใน 3 ที่เก็บข้อมูลต่อไปนี้

still
light
windy

หากไม่มีการข้ามฟีเจอร์ โมเดลเชิงเส้นจะฝึกอย่างอิสระจากที่เก็บข้อมูลต่างๆ ทั้ง 7 แบบที่อยู่ก่อนหน้า ตัวอย่างเช่น โมเดลจะฝึกใน freezing โดยไม่ขึ้นอยู่กับการฝึก เช่น windy

หรือจะสร้างความแตกต่างระหว่างอุณหภูมิและความเร็วลม ฟีเจอร์สังเคราะห์นี้จะมีค่าที่เป็นไปได้ 12 ค่าดังนี้

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

การใช้ฟีเจอร์ข้ามฟีเจอร์ทำให้โมเดลเรียนรู้ความแตกต่างของอารมณ์ได้ระหว่าง freezing-windy วันถึง freezing-still วัน

หากคุณสร้างฟีเจอร์สังเคราะห์จาก 2 ฟีเจอร์โดยที่แต่ละฟีเจอร์มีที่เก็บข้อมูลที่แตกต่างกันจำนวนมาก ฟีเจอร์แบบข้ามได้ของฟีเจอร์ที่ได้จะมีชุดค่าผสมที่เป็นไปได้จำนวนมาก ตัวอย่างเช่น หากฟีเจอร์หนึ่งมีที่เก็บข้อมูล 1,000 รายการ และอีกฟีเจอร์หนึ่งมีที่เก็บข้อมูล 2,000 รายการ และฟีเจอร์ที่ได้จะมีที่เก็บข้อมูล 2,000,000 รายการ

อย่างเป็นทางการ ไม้กางเขนคือ ผลคูณคาร์ทีเซียน

กากบาทฟีเจอร์ส่วนใหญ่ใช้กับโมเดลเชิงเส้นและไม่ค่อยใช้กับโครงข่ายประสาท

Feature Engineering

#fundamentals

#TensorFlow

กระบวนการที่เกี่ยวข้องกับขั้นตอนต่อไปนี้

ระบุฟีเจอร์ที่อาจเป็นประโยชน์ในการฝึกโมเดล
การแปลงข้อมูลดิบจากชุดข้อมูลให้เป็นเวอร์ชันที่มีประสิทธิภาพของฟีเจอร์เหล่านั้น

ตัวอย่างเช่น คุณอาจระบุว่า temperature อาจเป็นฟีเจอร์ที่มีประโยชน์ จากนั้นคุณอาจทดสอบด้วยการเก็บข้อมูลเพื่อเพิ่มประสิทธิภาพสิ่งที่โมเดลเรียนรู้ได้จากช่วง temperature ต่างๆ

บางครั้งเราเรียกวิศวกรรมฟีเจอร์ว่าการแยกฟีเจอร์หรือการทำให้ฟีเจอร์เหล่านั้น

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติมเกี่ยวกับ TensorFlow

ใน TensorFlow วิศวกรรมฟีเจอร์มักจะหมายถึงการแปลงรายการไฟล์บันทึกดิบเป็นบัฟเฟอร์โปรโตคอล tf.Example ดูเพิ่มเติมที่ tf.Transform

การดึงข้อมูลฟีเจอร์

คำที่มากเกินไปซึ่งมีคำจำกัดความอย่างใดอย่างหนึ่งต่อไปนี้

กำลังเรียกข้อมูลการแสดงฟีเจอร์ขั้นกลางที่คำนวณโดยไม่มีการควบคุมดูแลหรือโมเดลที่ฝึกไว้แล้วล่วงหน้า (เช่น ค่าเลเยอร์ที่ซ่อนอยู่ในโครงข่ายระบบประสาทเทียม) เพื่อใช้ในโมเดลอื่นเป็นอินพุต
คำพ้องความหมายของวิศวกรรมฟีเจอร์

ความสำคัญของฟีเจอร์

#df

คำพ้องความหมายของลำดับความสำคัญที่เปลี่ยนแปลงได้

ชุดฟีเจอร์

#fundamentals

กลุ่มฟีเจอร์แมชชีนเลิร์นนิงที่โมเดลฝึกใช้งาน ตัวอย่างเช่น รหัสไปรษณีย์ ขนาดที่พัก และสภาพทรัพย์สินอาจประกอบด้วยชุดฟีเจอร์อย่างง่ายสำหรับโมเดลที่คาดการณ์ราคาที่พักอาศัย

ข้อมูลจำเพาะของฟีเจอร์

#TensorFlow

อธิบายข้อมูลที่จำเป็นในการแยกข้อมูล features จากบัฟเฟอร์โปรโตคอล tf.Example เนื่องจากบัฟเฟอร์โปรโตคอล tf.Example เป็นเพียงคอนเทนเนอร์สำหรับข้อมูล คุณจึงต้องระบุข้อมูลต่อไปนี้

ข้อมูลที่จะดึง (ซึ่งก็คือคีย์สำหรับฟีเจอร์ต่างๆ)
ประเภทข้อมูล (เช่น ทศนิยมหรือ int)
ความยาว (คงที่หรือแปรผัน)

เวกเตอร์จุดสนใจ

#fundamentals

อาร์เรย์ของค่า feature ที่ประกอบด้วยตัวอย่าง เวกเตอร์ของฟีเจอร์จะเป็นอินพุตระหว่างการฝึกและระหว่างการอนุมาน ตัวอย่างเช่น เวกเตอร์ฟีเจอร์ของโมเดลที่มีฟีเจอร์แยกกัน 2 รายการอาจเป็นดังนี้

[0.92, 0.56]

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต 1 เลเยอร์ที่ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์
เลเยอร์อินพุตมี 2 โหนด โดยโหนดหนึ่งมีค่า 0.92 และอีกโหนดมีค่า 0.56

แต่ละตัวอย่างจะให้ค่าที่แตกต่างกันสำหรับเวกเตอร์ของฟีเจอร์ ดังนั้นเวกเตอร์ของฟีเจอร์สำหรับตัวอย่างถัดไปอาจมีลักษณะดังนี้

[0.73, 0.49]

วิศวกรรมองค์ประกอบกำหนดวิธีแสดงจุดสนใจในเวกเตอร์ของฟีเจอร์ เช่น ฟีเจอร์เชิงหมวดหมู่ไบนารีที่มี 5 ค่าที่เป็นไปได้อาจแสดงด้วยการเข้ารหัสแบบ One-Hot ในกรณีนี้ ส่วนของเวกเตอร์ฟีเจอร์สำหรับตัวอย่างหนึ่งๆ จะประกอบด้วย 0 4 ตัว และ 1.0 1 ตัวอยู่ในตำแหน่งที่ 3 ดังนี้

[0.0, 0.0, 1.0, 0.0, 0.0]

อีกตัวอย่างหนึ่ง สมมติว่าโมเดลของคุณประกอบด้วยคุณลักษณะ 3 อย่างต่อไปนี้

ฟีเจอร์เชิงหมวดหมู่ไบนารีที่มีค่าที่เป็นไปได้ 5 ค่า ซึ่งแทนด้วยการเข้ารหัสแบบ 1 ฮอต เช่น [0.0, 1.0, 0.0, 0.0, 0.0]
อีกฟีเจอร์หมวดหมู่ไบนารีที่มีค่าที่เป็นไปได้ 3 ค่าซึ่งแสดงด้วยการเข้ารหัสแบบ 1- Hot เช่น [0.0, 0.0, 1.0]
ฟีเจอร์ที่เป็นจุดลอยตัว เช่น 8.3

ในกรณีนี้ เวกเตอร์ของฟีเจอร์สำหรับแต่ละตัวอย่างจะแสดงด้วยค่า 9 ค่า จากค่าตัวอย่างในรายการก่อนหน้า เวกเตอร์ของฟีเจอร์จะเป็นดังนี้

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

การเป็นผู้หญิง

กระบวนการดึง ฟีเจอร์ จากแหล่งที่มาของอินพุต เช่น เอกสารหรือวิดีโอ และแมปฟีเจอร์เหล่านั้นเป็นเวกเตอร์ฟีเจอร์

ผู้เชี่ยวชาญด้าน ML บางรายใช้การสร้างประโยชน์ด้วยซ้ำเป็นคำพ้องความหมายสำหรับวิศวกรรมฟีเจอร์หรือการแยกฟีเจอร์

การเรียนรู้แบบสมาพันธ์

แนวทางของแมชชีนเลิร์นนิงแบบกระจายที่ฝึกโมเดลแมชชีนเลิร์นนิงโดยใช้ตัวอย่างแบบกระจายศูนย์ซึ่งเกี่ยวข้องกับอุปกรณ์ เช่น สมาร์ทโฟน ในการเรียนรู้แบบสมาพันธ์ อุปกรณ์บางส่วนจะดาวน์โหลดรุ่นปัจจุบันจากเซิร์ฟเวอร์ประสานงานส่วนกลาง อุปกรณ์ใช้ตัวอย่างที่จัดเก็บไว้ในอุปกรณ์ เพื่อปรับปรุงโมเดล จากนั้นอุปกรณ์จะอัปโหลดการปรับปรุงโมเดล (ไม่ใช่ตัวอย่างการฝึก) ไปยังเซิร์ฟเวอร์ที่ประสานงาน โดยจะรวมเข้ากับการอัปเดตอื่นๆ เพื่อให้ได้โมเดลส่วนกลางที่ดีขึ้น หลังจากรวมแล้ว คุณไม่จำเป็นต้องอัปเดตโมเดลที่คํานวณโดยอุปกรณ์อีกต่อไปและทิ้งไปได้

เนื่องจากตัวอย่างการฝึกไม่เคยอัปโหลดมาก่อน การเรียนรู้แบบสมาพันธ์จึงทำตามหลักการด้านความเป็นส่วนตัวของการรวบรวมข้อมูลที่มุ่งเน้นและขอบเขตการใช้ข้อมูล

ดูข้อมูลเพิ่มเติมเกี่ยวกับการเรียนรู้แบบรวมศูนย์ได้ในบทแนะนำนี้

การเก็บฟีดแบ็กมาแก้ไข

#fundamentals

ในแมชชีนเลิร์นนิง สถานการณ์ที่การคาดการณ์ของโมเดลมีอิทธิพลต่อข้อมูลการฝึกสำหรับโมเดลเดียวกันหรือโมเดลอื่น เช่น โมเดลที่แนะนำภาพยนตร์จะมีอิทธิพลต่อภาพยนตร์ที่ผู้คนเห็น ซึ่งจะส่งผลกระทบกับรูปแบบการแนะนำภาพยนตร์ที่ตามมาด้วย

โครงข่ายระบบประสาทเทียมแบบ FeedForward (FFN)

โครงข่ายประสาทที่ไม่มีการเชื่อมต่อแบบวนซ้ำหรือแบบวนซ้ำ ตัวอย่างเช่น โครงข่ายประสาทแบบลึกแบบดั้งเดิมคือโครงข่ายระบบประสาทเทียมแบบ FeedForward คอนทราสต์กับโครงข่ายประสาทแบบวนซ้ำ ซึ่งเป็นวงจร

การเรียนรู้แบบยิงครั้งเดียว

วิธีแมชชีนเลิร์นนิงที่มักใช้ในการจำแนกออบเจ็กต์ ออกแบบมาเพื่อฝึกตัวแยกประเภทที่มีประสิทธิภาพจากตัวอย่างการฝึกเพียงไม่กี่ตัวอย่าง

โปรดดูการเรียนรู้แบบจุดเดียวและการเรียนรู้แบบ Zero shot

การแสดงข้อความแจ้งแบบ 2-3 ช็อต

#language

#GenerativeAI

ข้อความแจ้งที่มีตัวอย่างมากกว่า 1 รายการ ("2-3 รายการ") ที่แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ควรตอบสนองอย่างไร เช่น พรอมต์ที่ยาวต่อไปนี้มี 2 ตัวอย่างที่แสดงวิธีตอบคำถามของโมเดลภาษาขนาดใหญ่

ส่วนต่างๆ ของข้อความแจ้งรายการเดียว	Notes
`สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร`	คำถามที่ต้องการให้ LLM ตอบ
`ฝรั่งเศส: EUR`	เช่น
`สหราชอาณาจักร: GBP`	อีกตัวอย่างหนึ่ง
`อินเดีย:`	ข้อความค้นหาจริง

โดยทั่วไปแล้ว การแสดงข้อความแจ้งเพียงเล็กน้อยจะให้ผลลัพธ์ที่น่าพอใจมากกว่าข้อความแจ้งแบบ Zero shot และข้อความแจ้งแบบช็อตเดียว อย่างไรก็ตาม การแสดงข้อความแจ้งเพียงไม่กี่ช็อต ต้องใช้พรอมต์ที่ยาวกว่า

ข้อความแจ้งข้อผิดพลาดเล็กน้อยเป็นรูปแบบหนึ่งของการเรียนรู้แบบรวดเร็วที่ใช้กับการเรียนรู้จากข้อความแจ้ง

ฟิดเดิล

#language

ไลบรารีการกำหนดค่าแบบ Python-first ที่มีการกำหนดค่าของฟังก์ชันและคลาสโดยไม่ต้องมีโค้ดหรือโครงสร้างพื้นฐานที่รุกล้ำเข้ามา ในกรณีของ Pax และโค้ดเบส ML อื่นๆ ฟังก์ชันและคลาสเหล่านี้แสดงถึงโมเดลและการฝึก ไฮเปอร์พารามิเตอร์

Fiddle สันนิษฐานว่าโดยทั่วไปโค้ดเบสของแมชชีนเลิร์นนิงจะแบ่งออกเป็นรายการต่อไปนี้

โค้ดไลบรารี ซึ่งระบุเลเยอร์และตัวเพิ่มประสิทธิภาพ
โค้ด "Glue" ของชุดข้อมูล ซึ่งเรียกไลบรารีและเชื่อมต่อทุกอย่างเข้าด้วยกัน

Fiddle จับโครงสร้างการเรียกของ Glue Code มาในรูปแบบที่ยังไม่ประเมินและเปลี่ยนแปลงได้

การปรับแต่ง

#language

#image

#GenerativeAI

บัตรผ่านการฝึกเฉพาะงานรายการที่ 2 ที่ดำเนินการในโมเดลที่ฝึกล่วงหน้าเพื่อปรับแต่งพารามิเตอร์สำหรับ Use Case ที่เฉพาะเจาะจง ตัวอย่างเช่น ลำดับการฝึกแบบเต็มสำหรับโมเดลภาษาขนาดใหญ่บางโมเดลมีดังนี้

การฝึกล่วงหน้า: ฝึกโมเดลภาษาขนาดใหญ่ในชุดข้อมูลทั่วไปขนาดใหญ่ เช่น หน้า Wikipedia ภาษาอังกฤษทุกหน้า
การปรับแต่ง: ฝึกโมเดลที่ฝึกล่วงหน้าให้ทำงานแบบเจาะจง เช่น การตอบคำถามทางการแพทย์ การปรับแต่งโดยทั่วไปจะมีตัวอย่างหลายร้อยหรือหลายพันตัวอย่างที่มุ่งเน้นงานนั้นๆ

อีกตัวอย่างหนึ่ง ลำดับการฝึกทั้งหมดสำหรับโมเดลรูปภาพขนาดใหญ่มีดังนี้

การฝึกล่วงหน้า: ฝึกโมเดลรูปภาพขนาดใหญ่บนชุดข้อมูลรูปภาพทั่วไปขนาดใหญ่ เช่น รูปภาพทั้งหมดใน Wikimedia Common
การปรับแต่ง: ฝึกโมเดลที่ฝึกล่วงหน้าให้ทำงานแบบเจาะจง เช่น การสร้างรูปภาพวาฬเพชฌฆาต

การปรับแต่งอาจทำให้เกิดชุดค่าผสมของกลยุทธ์ต่อไปนี้

กำลังแก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกล่วงหน้าทั้งหมด ซึ่งในบางครั้งเรียกว่าการปรับแต่งทั้งหมด
แก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกล่วงหน้าบางส่วนเท่านั้น (โดยทั่วไปคือเลเยอร์ที่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด) โดยไม่เปลี่ยนแปลงพารามิเตอร์อื่นๆ ที่มีอยู่ (โดยทั่วไปจะเป็นเลเยอร์ที่ใกล้กับเลเยอร์อินพุตมากที่สุด) ดู การปรับแต่งแบบมีประสิทธิภาพพารามิเตอร์
การเพิ่มเลเยอร์ ซึ่งโดยปกติจะอยู่ที่ด้านบนของเลเยอร์ที่มีอยู่ซึ่งอยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด

การปรับแต่งเป็นรูปแบบของการเรียนรู้แบบถ่ายโอน ดังนั้น การปรับแต่งอาจใช้ฟังก์ชันการสูญเสียข้อมูลหรือโมเดลประเภทอื่นที่ต่างจากที่ใช้ในการฝึกโมเดลที่ฝึกล่วงหน้า เช่น ปรับแต่งโมเดลอิมเมจขนาดใหญ่ที่ฝึกล่วงหน้าเพื่อสร้างโมเดลการถดถอยที่แสดงผลลัพธ์จำนวนนกในอิมเมจอินพุต

เปรียบเทียบการปรับแต่งอย่างละเอียดกับข้อความต่อไปนี้

การกรอง
การเรียนรู้ตามข้อความแจ้ง

เหลืองแฟลกซ์

#language

ไลบรารีโอเพนซอร์สประสิทธิภาพสูงสำหรับการเรียนรู้เชิงลึกซึ่งสร้างต่อยอดจาก JAX Flax มีฟังก์ชันสำหรับการฝึก โครงข่ายประสาท ตลอดจนวิธีประเมินประสิทธิภาพ

Flaxformer

#language

ไลบรารี Transformer แบบโอเพนซอร์สซึ่งสร้างขึ้นใน Flax และออกแบบมาสำหรับการประมวลผลภาษาธรรมชาติและการวิจัยแบบหลายโมดัลเป็นหลัก

เลิกจำประตู

#seq

ส่วนของเซลล์หน่วยความจำระยะสั้นที่ควบคุมการรับส่งข้อมูลผ่านเซลล์ การลืมเกตจะคงบริบทไว้ด้วยการตัดสินใจว่าจะละทิ้งข้อมูลใดจากสถานะเซลล์

Softmax แบบเต็ม

คำพ้องความหมายของ softmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

เลเยอร์ที่เชื่อมต่อโดยสมบูรณ์

เลเยอร์ที่ซ่อนซึ่งโหนดแต่ละโหนดเชื่อมต่อกับทุกโหนดในเลเยอร์ที่ซ่อนอยู่ที่ตามมา

เลเยอร์ที่เชื่อมต่อกันโดยสมบูรณ์เรียกอีกอย่างว่าเลเยอร์ที่หนาแน่น

การเปลี่ยนรูปแบบฟังก์ชัน

ฟังก์ชันที่ใช้ฟังก์ชันเป็นอินพุตและแสดงผลฟังก์ชันที่เปลี่ยนรูปแบบเป็นเอาต์พุต JAX ใช้การเปลี่ยนรูปแบบฟังก์ชัน

G

อาณานิคม

ตัวย่อของเครือข่าย Generative Adversarial

ข้อมูลทั่วไป

#fundamentals

ความสามารถของโมเดลในการคาดการณ์ที่ถูกต้องในข้อมูลใหม่ซึ่งก่อนหน้านี้ไม่เคยเห็นมาก่อน โมเดลที่สร้างข้อมูลทั่วไปได้จะตรงกันข้ามกับโมเดลที่จัดวางมากเกินไป

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

คุณฝึกโมเดลกับตัวอย่างในชุดการฝึก โมเดลจะเรียนรู้ลักษณะเฉพาะของข้อมูลในชุดการฝึก โดยพื้นฐานแล้ว การทั่วไปจะถามว่าโมเดลของคุณคาดการณ์ได้ดีจากตัวอย่างที่ไม่อยู่ในชุดการฝึกหรือไม่

เพื่อให้เกิดการสรุปทั่วไป การจัดการรูปแบบจะช่วยให้โมเดลฝึกกับความพิเศษของข้อมูลในชุดการฝึกได้น้อยลง

กราฟข้อมูลทั่วไป

#fundamentals

พล็อตของทั้ง การเสียการฝึกทำงานและการสูญเสียการตรวจสอบในฐานะฟังก์ชันของจำนวนการทำซ้ำ

เส้นโค้งข้อมูลทั่วไปช่วยให้คุณตรวจจับการปรับให้พอดีที่เป็นไปได้ ตัวอย่างเช่น เส้นโค้งการสร้างทั่วไปต่อไปนี้ชี้ว่าควรมากเกินไป เนื่องจากการสูญเสียการตรวจสอบจะสูงกว่าการสูญเสียการฝึกอย่างมากในท้ายที่สุด

กราฟคาร์ทีเซียนที่แกน Y มีป้ายกำกับเป็น "สูญเสีย" และแกน X มีป้ายกำกับการทำซ้ำ ภาพ 2 แบบจะปรากฏขึ้น พล็อตหนึ่งแสดงการสูญเสียการฝึก และอีกรายการแสดงการสูญเสียการตรวจสอบ
ทั้ง 2 แผนเริ่มต้นในทำนองเดียวกัน แต่ท้ายที่สุดแล้วความสูญเสียในการฝึกจะลดลงต่ำกว่าการสูญเสียการตรวจสอบมาก

รูปแบบเชิงเส้นทั่วไป

การสรุปรวมของโมเดลการถดถอยแบบกำลังสองน้อยที่สุด ซึ่งอิงตามเสียงรบกวนแบบเกาส์เชียน กับโมเดลประเภทอื่นๆ โดยอิงตามเสียงรบกวนประเภทอื่นๆ เช่น เสียงปัวซงหรือเสียงรบกวนเชิงหมวดหมู่ ตัวอย่างของรูปแบบเชิงเส้นทั่วไป ได้แก่

การถดถอยแบบโลจิสติก
การถดถอยแบบหลายคลาส
การถดถอยแบบกำลังสองน้อยที่สุด

คุณดูพารามิเตอร์ของรูปแบบเชิงเส้นทั่วไปได้ผ่านการเพิ่มประสิทธิภาพ Conv.

โมเดลเชิงเส้นทั่วไปจะแสดงคุณสมบัติต่อไปนี้

การคาดการณ์ค่าเฉลี่ยของโมเดลการถดถอยแบบกำลังสองน้อยที่สุดที่เหมาะสมที่สุดจะเท่ากับป้ายกำกับเฉลี่ยของข้อมูลการฝึก
ความน่าจะเป็นเฉลี่ยที่คาดการณ์โดยโมเดลการถดถอยแบบโลจิสติกส์ที่เหมาะสมที่สุดจะเท่ากับป้ายกำกับเฉลี่ยของข้อมูลการฝึก

ประสิทธิภาพของโมเดลเชิงเส้นทั่วไปถูกจำกัดโดยฟีเจอร์ต่างๆ โมเดลเชิงเส้นทั่วไปนั้นต่างจากโมเดลเชิงลึกตรงที่ "เรียนรู้ฟีเจอร์ใหม่" ไม่ได้

เครือข่าย Generative Adversarial (GAN)

ระบบสร้างข้อมูลใหม่ซึ่งเครื่องมือสร้างจะสร้างข้อมูล และตัวคั่นจะกำหนดว่าข้อมูลที่สร้างขึ้นนั้นถูกต้องหรือไม่ถูกต้อง

Generative AI

#language

#image

#GenerativeAI

คือสาขาที่สามารถเปลี่ยนแปลงรูปแบบใหม่ๆ ซึ่งไม่มีคำจำกัดความที่เป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่เห็นด้วยว่าโมเดล Generative AI สามารถสร้าง ("สร้าง") เนื้อหาที่มีลักษณะดังต่อไปนี้ได้

ซับซ้อน
สอดคล้องกัน
เดิม

ตัวอย่างเช่น โมเดล Generative AI สามารถสร้างเรียงความหรือรูปภาพที่ซับซ้อนได้

เทคโนโลยีรุ่นก่อนๆ เช่น LSTM และ RNN สามารถสร้างเนื้อหาต้นฉบับที่สอดคล้องและเหมือนกันได้ด้วย ผู้เชี่ยวชาญบางคนมองว่าเทคโนโลยียุคก่อนเหล่านี้เป็น Generative AI ในขณะที่บางคนรู้สึกว่า Generative AI ที่แท้จริงต้องการผลลัพธ์ที่ซับซ้อนกว่าเทคโนโลยีแรกๆ ที่เทคโนโลยีเหล่านี้ทำได้

คอนทราสต์กับ ML แบบคาดการณ์

โมเดล Generative

ในทางปฏิบัติแล้ว เป็นโมเดลที่ทำสิ่งต่อไปนี้ได้

สร้าง (สร้าง) ตัวอย่างใหม่จากชุดข้อมูลการฝึก เช่น โมเดล Generative อาจสร้างบทกวีหลังจากฝึกชุดข้อมูลบทกวี ส่วนเครื่องมือสร้างของเครือข่ายผู้มุ่งร้ายที่ก่อให้เกิด Conversion จะจัดอยู่ในหมวดหมู่นี้
ระบุความน่าจะเป็นที่ตัวอย่างใหม่มาจากชุดการฝึก หรือสร้างขึ้นจากกลไกเดียวกับที่สร้างชุดการฝึก เช่น หลังจากการฝึกชุดข้อมูลที่ประกอบด้วยประโยคภาษาอังกฤษ โมเดล Generative จะสามารถระบุความน่าจะเป็นที่อินพุตใหม่จะเป็นประโยคภาษาอังกฤษที่ถูกต้อง

โมเดล Generative จะแยกแยะการกระจายตัวอย่างหรือฟีเจอร์ในชุดข้อมูลได้ในทางทฤษฎี โดยการ

p(examples)

โมเดลการเรียนรู้ที่ไม่มีการควบคุมดูแลเป็นแบบ Generative

คอนทราสต์กับโมเดลเชิงเปรียบเทียบ

โปรแกรมสร้างแผนผังไซต์

ระบบย่อยภายในเครือข่าย Generative Adversarial ที่สร้างตัวอย่างใหม่

คอนทราสต์กับรูปแบบการระบุแหล่งที่มา

สิ่งสกปรกในจีน

#df

เมตริกที่คล้ายกับเอนโทรปี สปลิตเตอร์จะใช้ค่าที่ได้จากจิเนียมบริสุทธิ์หรือเอนโทรปีในการสร้างเงื่อนไขสำหรับการจำแนกประเภทต้นไม้การตัดสินใจ ข้อมูลที่ได้รับได้มาจากเอนโทรปี ไม่มีคำใดคำหนึ่งที่ได้รับการยอมรับในระดับสากลสำหรับเมตริกที่มาจากความไม่สมบูรณ์แบบ (Gini Impurity) อย่างไรก็ตาม เมตริกที่ไม่มีชื่อนี้มีความสำคัญเท่ากับการได้รับข้อมูล

ความไม่บริสุทธิ์ของจีนีเรียกอีกอย่างว่าดัชนีจินี หรือเรียกสั้นๆ ว่าจินี

คลิกไอคอนเพื่อดูรายละเอียดทางคณิตศาสตร์เกี่ยวกับความไม่บริสุทธิ์ของจินี

ความไม่ปกติของจินีคือความน่าจะเป็นของการจัดประเภทข้อมูลใหม่ที่ได้มาจากการกระจายแบบเดียวกันไม่ถูกต้อง ความไม่ปกติของจินีของชุดที่มีค่าที่เป็นไปได้ 2 ค่าคือ "0" และ "1" (เช่น ป้ายกำกับในโจทย์การจัดประเภทไบนารี) จะคำนวณจากสูตรต่อไปนี้

I = 1 - (หน้า² + q²) = 1 - (หน้า² + (1-p)²)

ที่ไหน:

I คือจินีที่ไม่บริสุทธิ์
p คือเศษส่วนของตัวอย่าง "1"
q คือเศษส่วนของตัวอย่าง "0" โปรดทราบว่า q = 1-p

ตัวอย่างเช่น ลองพิจารณาชุดข้อมูลต่อไปนี้

ป้ายกำกับ 100 รายการ (0.25 ของชุดข้อมูล) มีค่า "1"
ป้ายกำกับ 300 รายการ (0.75 ของชุดข้อมูล) มีค่า "0"

ดังนั้น ความไม่บริสุทธิ์ของจินีจึงมีลักษณะดังนี้

คะแนน = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

ป้ายกำกับแบบสุ่มจากชุดข้อมูลเดียวกันจึงมีโอกาส 37.5% ที่จะจัดประเภทไม่ถูกต้อง และ 62.5% ที่จะได้รับการจัดประเภทอย่างเหมาะสม

ป้ายกำกับที่มีสมดุลอย่างสมบูรณ์ (เช่น 200 "0" และ 200 "1") จะมีความไม่บริสุทธิ์ของจินีเป็น 0.5 ป้ายกำกับที่ไม่สมดุลจะมีค่าความเจือปนของจินีเกือบ 0.0

ชุดข้อมูลทองคำ

ชุดข้อมูลที่มีการดูแลจัดการด้วยตนเองซึ่งรวบรวมข้อมูลจากการสังเกตการณ์โดยตรง ทีมสามารถใช้ชุดข้อมูลทองคำอย่างน้อย 1 ชุดเพื่อประเมินคุณภาพของโมเดล

ชุดข้อมูลทองคำบางชุดบันทึกโดเมนย่อยที่ต่างกันของข้อมูลจากการสังเกตการณ์โดยตรง เช่น ชุดข้อมูลสีทองสำหรับการแยกประเภทรูปภาพอาจบันทึกสภาพแสงและความละเอียดของรูปภาพ

GPT (Transformer ก่อนการฝึก Generative)

#language

ชุดโมเดลภาษาขนาดใหญ่ที่พัฒนาโดย Transformer ซึ่งพัฒนาโดย OpenAI

ตัวแปรของ GPT ใช้ได้กับวิธีหลายรูปแบบ ดังนี้

การสร้างรูปภาพ (เช่น ImageGPT)
การสร้างข้อความเป็นรูปภาพ (เช่น DALL-E)

ไล่ระดับ

เวกเตอร์ของอนุพันธ์บางส่วนที่เกี่ยวข้องกับตัวแปรอิสระทั้งหมด ในแมชชีนเลิร์นนิง การไล่ระดับสีเป็นเวกเตอร์ของอนุพันธ์ย่อยของฟังก์ชันโมเดล จุดไล่ระดับสีในทิศทางที่ชันที่สุด

การสะสมการไล่ระดับสี

เทคนิค backprofagation และอัปเดตพารามิเตอร์เพียง1 ครั้งต่อ 1 Epoch แทนที่จะเป็น 1 ครั้งต่อ 1 ครั้ง หลังจากประมวลผลมินิแบตช์แต่ละรายการ การไล่ระดับสีจะอัปเดตการไล่ระดับสีทั้งหมดที่ทำงานอยู่ จากนั้น หลังจากที่ประมวลผลมินิแบตช์ล่าสุดใน Epoch แล้ว ระบบจะอัปเดตพารามิเตอร์โดยอิงตามการเปลี่ยนแปลงการไล่ระดับสีทั้งหมดในที่สุด

การไล่ระดับสีมีประโยชน์เมื่อขนาดกลุ่มเยอะมากเมื่อเทียบกับปริมาณหน่วยความจำที่ใช้ได้สำหรับการฝึก เมื่อเป็นปัญหาเรื่องหน่วยความจำ แนวโน้มที่มักจะลดขนาดกลุ่มลง อย่างไรก็ตาม การลดขนาดกลุ่มในการเผยแพร่ย้อนกลับปกติจะเพิ่มจำนวนการอัปเดตพารามิเตอร์ การไล่ระดับสีช่วยให้โมเดลหลีกเลี่ยงปัญหาหน่วยความจำ แต่ยังคงฝึกได้อย่างมีประสิทธิภาพ

ต้นไม้ (การตัดสินใจ) แบบไล่ระดับสี (GBT)

#df

ป่าการตัดสินใจประเภทหนึ่งที่มีลักษณะดังนี้

การฝึกอาศัยการเพิ่มการไล่ระดับสี
โมเดลที่ไม่ปลอดภัยคือแผนผังการตัดสินใจ

การเพิ่มการไล่ระดับสี

#df

อัลกอริทึมการฝึกที่มีโมเดลที่อ่อนแอได้รับการฝึกให้ปรับปรุงคุณภาพซ้ำๆ (ลดการสูญเสีย) ของโมเดลที่แข็งแกร่ง ตัวอย่างเช่น โมเดลที่ไม่รัดกุมอาจเป็นโมเดลแผนผังการตัดสินใจแบบเชิงเส้นหรือขนาดเล็ก โมเดลที่แข็งแกร่งจะกลายเป็นผลรวมของโมเดลที่อ่อนที่ได้รับการฝึกก่อนหน้านี้ทั้งหมด

ในรูปแบบที่ง่ายที่สุดของการเพิ่มการไล่ระดับสี ในการทำซ้ำแต่ละครั้ง โมเดลที่อ่อนจะได้รับการฝึกให้คาดการณ์การไล่ระดับสีแบบสูญเสียของโมเดลที่แข็งแกร่ง จากนั้น ผลลัพธ์ของโมเดลที่มีประสิทธิภาพจะอัปเดตโดยการลบการไล่ระดับสีที่คาดการณ์ออก คล้ายกับการไล่ระดับสีลง

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

ที่ไหน:

$F_{0}$ คือรูปแบบเริ่มต้นที่มีประสิทธิภาพ
$F_{i+1}$ คือรูปแบบที่แข็งแกร่งถัดไป
$F_{i}$ คือโมเดลที่มีประสิทธิภาพในปัจจุบัน
$\xi$ คือค่าระหว่าง 0.0 ถึง 1.0 ที่เรียกว่าการหด ซึ่งคล้ายกับอัตราการเรียนรู้ในขั้นตอนการไล่ระดับสี
$f_{i}$ เป็นโมเดลอ่อนที่ได้รับการฝึกให้คาดการณ์การไล่ระดับสีการสูญเสียของ $F_{i}$

รูปแบบใหม่ๆ ของการเพิ่มการไล่ระดับสียังรวมถึงอนุพันธ์ที่สอง (เฮสเซียน) ของการสูญเสียไปในการคำนวณ

ต้นไม้ตัดสินใจมักจะใช้เป็นโมเดลที่อ่อนในการเพิ่มการไล่ระดับสี ดูต้นไม้ที่เพิ่ม (ตัดสินใจ) แบบไล่ระดับสี

การตัดแบบไล่ระดับสี

#seq

กลไกที่ใช้กันโดยทั่วไปเพื่อลดปัญหาการไล่ระดับสีแบบระเบิดโดยการจำกัด (การตัด) ค่าสูงสุดของการไล่ระดับสีโดยใช้วิธีการไล่ระดับสีลงเพื่อฝึกโมเดล

ลาดลงแบบไล่ระดับ

#fundamentals

เทคนิคทางคณิตศาสตร์ที่ช่วยลดการสูญหายให้เหลือน้อยที่สุด การไล่ระดับสีลงมาทีละขั้นจะปรับน้ำหนักและอคติอย่างค่อยเป็นค่อยไป แล้วหาชุดค่าผสมที่ดีที่สุดเพื่อลดการสูญเสีย

การไล่ระดับสีสืบทอดนั้นเก่ากว่าหรือเก่ากว่าแมชชีนเลิร์นนิงมาก

กราฟ

#TensorFlow

ใน TensorFlow ข้อกำหนดเฉพาะในการคำนวณ โหนดในกราฟแสดงการดำเนินการ Edge จะกำกับและแสดงถึงการส่งผลลัพธ์ของการดำเนินการ (Tensor) เป็นโอเปอแรนด์ไปยังการดำเนินการอื่น ใช้ TensorBoard เพื่อแสดงภาพกราฟ

Graph Execution

#TensorFlow

สภาพแวดล้อมในการเขียนโปรแกรม TensorFlow ที่โปรแกรมจะสร้างกราฟก่อนแล้วจึงเรียกใช้กราฟนั้นทั้งหมดหรือบางส่วน การเรียกใช้กราฟคือโหมดการดำเนินการเริ่มต้นใน TensorFlow 1.x

ซึ่งตรงข้ามกับการดำเนินการที่ตั้งใจไว้

นโยบายความโลภ

#rl

ในการเรียนรู้แบบเสริม นโยบายที่เลือกการดำเนินการที่มีผลตอบแทนที่คาดไว้มากที่สุดเสมอ

ข้อมูลที่เป็นความจริง

#fundamentals

เรียลลิตี้

สิ่งที่เกิดขึ้นจริง

เช่น ลองพิจารณาโมเดลการจัดประเภทไบนารีที่คาดการณ์ว่านักศึกษาปีแรกจะสำเร็จการศึกษาภายใน 6 ปีหรือไม่ ข้อมูลจากการสังเกตการณ์โดยตรงสำหรับโมเดลนี้คือการที่นักศึกษาคนนั้นจบการศึกษาภายใน 6 ปีจริงหรือไม่

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เราประเมินคุณภาพของโมเดลเทียบกับข้อมูลจากการสังเกตการณ์โดยตรง อย่างไรก็ตาม ข้อมูลเท็จ ก็ไม่ได้สมบูรณ์แบบเสมอไป ลองดูตัวอย่างต่อไปนี้ของข้อบกพร่องที่อาจเกิดขึ้นในข้อมูลจากการสังเกตการณ์โดยตรง

ในตัวอย่างการสำเร็จการศึกษา เราแน่ใจว่าบันทึกการสำเร็จการศึกษาของนักเรียนแต่ละคนถูกต้องทุกครั้งหรือไม่ การเก็บบันทึกของมหาวิทยาลัย ไร้ที่ติไหม
สมมติว่าป้ายกำกับเป็นค่าจุดลอยตัวที่วัดโดยเครื่องมือ (เช่น บารอมิเตอร์) เราจะมั่นใจได้อย่างไรว่าเครื่องมือแต่ละชิ้นได้รับการปรับเทียบมาเหมือนกันหรืออ่านค่าแต่ละค่าได้ภายใต้สถานการณ์เดียวกัน
หากป้ายกำกับเป็นเรื่องของความคิดเห็นของมนุษย์ เราจะแน่ใจได้อย่างไรว่า ผู้จัดประเภทที่เป็นมนุษย์ประเมินเหตุการณ์ในลักษณะเดียวกัน บางครั้งเจ้าหน้าที่ตรวจสอบที่เป็นผู้เชี่ยวชาญจะเข้ามามีส่วนร่วมเพื่อปรับปรุงความสอดคล้อง

อคติการระบุแหล่งที่มาของกลุ่ม

#fairness

สมมุติว่าสิ่งที่เป็นจริงสำหรับบุคคลก็เป็นเรื่องจริงสำหรับทุกคนในกลุ่มนั้นเช่นกัน ผลกระทบของอคติการระบุแหล่งที่มากลุ่มอาจรุนแรงขึ้นได้หากใช้การสุ่มตัวอย่างแบบความสะดวกในการเก็บรวบรวมข้อมูล ในตัวอย่างที่ไม่เป็นตัวแทน อาจมีการระบุแหล่งที่มา ซึ่งไม่สะท้อนความเป็นจริง

โปรดดูอคติแบบเอกพันธ์แบบนอกกลุ่มและอคติในกลุ่ม

ฮิต

ความไม่สมเหตุสมผล

#language

การสร้างผลลัพธ์ที่ดูสมเหตุสมผลแต่ไม่ถูกต้องตามข้อเท็จจริงโดยโมเดล Generative AI ที่อ้างว่าเป็นการยืนยันเกี่ยวกับโลกแห่งความเป็นจริง ตัวอย่างเช่น โมเดล Generative AI ที่อ้างว่าบารัก โอบามาเสียชีวิตในปี 1865 เป็นภาพหลอน

การแฮช

ในแมชชีนเลิร์นนิง กลไกในการเก็บข้อมูลเชิงหมวดหมู่ โดยเฉพาะอย่างยิ่งเมื่อหมวดหมู่มีจำนวนมาก แต่หมวดหมู่ที่ปรากฏในชุดข้อมูลจริงๆ นั้นมีจำนวนไม่มากนัก

ตัวอย่างเช่น Earth เป็นที่อยู่ของต้นไม้ประมาณ 73,000 ชนิด คุณอาจเป็นตัวแทนของต้นไม้แต่ละชนิดจาก 73,000 ชนิดในถังแบ่งหมวดหมู่ 73,000 กลุ่ม อีกวิธีหนึ่ง หากมีชนิดของต้นไม้เพียง 200 ชนิดปรากฏในชุดข้อมูลจริงๆ คุณสามารถใช้การแฮชเพื่อแบ่งชนิดของต้นไม้ออกเป็น 500 ที่เก็บข้อมูล

ในถังหนึ่งๆ อาจมีต้นไม้หลายชนิด เช่น การแฮชอาจใส่ baobab และเมเปิลแดง 2 สายพันธุ์ที่ต่างกันทางพันธุกรรมในถังเดียวกัน อย่างไรก็ตาม การแฮชยังคงเป็นวิธีที่ดีในการแมปชุดหมวดหมู่ขนาดใหญ่กับจำนวนที่เก็บข้อมูลที่เลือก การแฮชจะเปลี่ยนฟีเจอร์เชิงหมวดหมู่ที่มีค่าที่เป็นไปได้จำนวนมากให้มีค่าจำนวนที่น้อยกว่ามากโดยการจัดกลุ่มค่าในลักษณะที่กำหนด

การประเมินความรู้

วิธีการแก้ปัญหาที่ง่ายและรวดเร็ว ตัวอย่างเช่น "เราใช้การเรียนรู้ของระบบให้ถูกต้องแม่นยำ 86% เมื่อเราเปลี่ยนไปใช้โครงข่ายประสาท ระดับลึก ความแม่นยำเพิ่มขึ้นถึง 98%"

เลเยอร์ที่ซ่อนอยู่

#fundamentals

เลเยอร์ในเครือข่ายระบบประสาทระหว่างเลเยอร์อินพุต (ฟีเจอร์) และเลเยอร์เอาต์พุต (การคาดการณ์) เลเยอร์ที่ซ่อนอยู่แต่ละเลเยอร์ประกอบด้วยเซลล์ประสาทอย่างน้อย 1 เซลล์ ตัวอย่างเช่น โครงข่ายประสาทต่อไปนี้มีชั้นที่ซ่อนอยู่ 2 ชั้น ชั้นแรกมีเซลล์ประสาท 3 ชั้น และชั้นที่สองมีเซลล์ประสาท 2 ชั้น

โครงข่ายประสาทแบบลึกมีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 ชั้น ตัวอย่างเช่น ภาพก่อนหน้าคือโครงข่ายประสาทแบบลึกเนื่องจากโมเดลมีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์

การจัดกลุ่มแบบลำดับชั้น

#clustering

หมวดหมู่ของอัลกอริทึม clustering ที่สร้างโครงสร้างของคลัสเตอร์ การจัดกลุ่มแบบลำดับชั้นเหมาะสำหรับข้อมูลแบบลำดับชั้น เช่น การจัดหมวดหมู่พฤกษศาสตร์ อัลกอริทึมคลัสเตอร์แบบลำดับชั้นมี 2 ประเภท ได้แก่

คลัสเตอร์แบบรวมจะกำหนดตัวอย่างทั้งหมดให้กับคลัสเตอร์ของตนเองก่อน แล้วจึงผสานคลัสเตอร์ที่ใกล้เคียงที่สุดซ้ำๆ เพื่อสร้างต้นไม้ที่มีลำดับชั้น
การจัดคลัสเตอร์แบบแบ่งส่วนแรกจะจัดกลุ่มตัวอย่างทั้งหมดไว้ในคลัสเตอร์เดียว จากนั้นแบ่งคลัสเตอร์ออกเป็นลำดับชั้นตามลําดับ

คอนทราสต์กับการจัดคลัสเตอร์แบบเซนทรอยด์

บานพับ

กลุ่มของ ความสูญเสีย จะทำหน้าที่สำหรับการจัดประเภทที่ออกแบบมาเพื่อหาขอบเขตการตัดสินใจจากตัวอย่างการฝึกแต่ละครั้งให้อยู่ไกลที่สุด ซึ่งช่วยเพิ่มส่วนต่างกำไรระหว่างตัวอย่างและขอบเขตให้ได้มากที่สุด KSVM ใช้การสูญเสียบานพับ (หรือฟังก์ชันที่เกี่ยวข้อง เช่น การสูญเสียบานพับแบบสี่เหลี่ยมจัตุรัส) สำหรับการจำแนกประเภทไบนารี ฟังก์ชัน การสูญหายของบานพับมีคำจำกัดความดังนี้

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

โดยที่ y คือป้ายกำกับจริง -1 หรือ +1 และ y' เป็นเอาต์พุตดิบของโมเดลตัวแยกประเภท

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ดังนั้น แผนภาพของการสูญเสียบานพับกับ (y * y") จะมีลักษณะดังต่อไปนี้

พล็อตคาร์ทีเซียนซึ่งประกอบด้วยส่วนของเส้นตรง 2 ส่วน ส่วนของบรรทัดแรกเริ่มต้นที่ (-3, 4) และสิ้นสุดที่ (1, 0) ส่วนของบรรทัดที่ 2 เริ่มต้นที่ (1, 0) และต่อเนื่องไปอย่างไม่มีกำหนดโดยมีความชันเป็น 0

อคติในอดีต

#fairness

อคติประเภทหนึ่งที่มีอยู่แล้วในโลกและได้นำมาใช้เป็นชุดข้อมูล อคติเหล่านี้มีแนวโน้มที่จะสะท้อนภาพการเหมารวมทางวัฒนธรรม ความไม่เสมอภาคของข้อมูลประชากร และอคติต่อกลุ่มสังคมบางกลุ่ม

ตัวอย่างเช่น ลองพิจารณารูปแบบการจัดประเภทที่คาดการณ์ว่าผู้สมัครสินเชื่อจะเป็นค่าเริ่มต้นสำหรับสินเชื่อของตนหรือไม่ ซึ่งเราได้ฝึกตามข้อมูลประวัติเริ่มต้นของสินเชื่อในช่วงทศวรรษ 1980 จากธนาคารท้องถิ่นใน 2 ชุมชนที่แตกต่างกัน หากที่ผ่านมาผู้สมัครจากชุมชน A มีแนวโน้มที่จะไม่ทำสินเชื่อมากกว่าผู้สมัครจากชุมชน B ถึง 6 เท่า โมเดลอาจเรียนรู้ถึงความลำเอียงที่ผ่านมาซึ่งส่งผลให้รูปแบบมีแนวโน้มที่จะอนุมัติเงินกู้ในชุมชน A น้อยลง แม้ว่าเงื่อนไขในอดีตที่ส่งผลให้อัตราเริ่มต้นของชุมชนนั้นสูงขึ้นจะไม่เกี่ยวข้องอีกต่อไปก็ตาม

ข้อมูลถูกระงับ

ตัวอย่างโดยเจตนา ("เก็บไว้") ระหว่างการฝึกอบรม ชุดข้อมูลการตรวจสอบและชุดข้อมูลการทดสอบเป็นตัวอย่างของข้อมูลยกเว้น ข้อมูลการคงไว้ชั่วคราวจะช่วยประเมินความสามารถของโมเดลในการจัดทำข้อมูลทั่วไปกับข้อมูลอื่นที่ไม่ใช่ข้อมูลที่ฝึกสอน การสูญเสียชุดเกริ่นนำให้ค่าประมาณของการสูญเสียชุดข้อมูลที่มองไม่เห็นได้ดีกว่าการสูญเสียในชุดการฝึก

ผู้จัด

#TensorFlow

#GoogleCloud

เมื่อฝึกโมเดล ML บนชิปตัวเร่ง (GPU หรือ TPU) ส่วนของระบบที่ควบคุมทั้ง 2 รายการต่อไปนี้

ขั้นตอนโดยรวมของโค้ด
การแยกและการเปลี่ยนรูปแบบของไปป์ไลน์อินพุต

โฮสต์มักทำงานบน CPU ไม่ใช่ในชิปตัวเร่ง แต่อุปกรณ์จะควบคุม tensors บนชิป Accelerator

ไฮเปอร์พารามิเตอร์

#fundamentals

ตัวแปรที่คุณหรือบริการปรับแต่งไฮเปอร์พารามิเตอร์ จะปรับระหว่างการฝึกโมเดลต่อเนื่องกัน เช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์ คุณอาจตั้งอัตราการเรียนรู้เป็น 0.01 ก่อนเริ่มเซสชันการฝึกอบรมได้ หากคุณกำหนดค่า 0.01 สูงเกินไป คุณอาจกำหนดอัตราการเรียนรู้เป็น 0.003 สำหรับเซสชันการฝึกอบรมครั้งถัดไป

ในทางตรงกันข้าม พารามิเตอร์คือน้ำหนักและอคติต่างๆ ที่โมเดลเรียนรู้ระหว่างการฝึก

ไฮเปอร์เพลน

ขอบเขตที่แบ่งพื้นที่ทำงานออกเป็น 2 พื้นที่ย่อย เช่น เส้นคือไฮเปอร์เพลนที่มี 2 มิติ และระนาบเป็นไฮเปอร์เพลนใน 3 มิติ โดยทั่วไปในแมชชีนเลิร์นนิง ไฮเปอร์ระนาบเป็นขอบเขตที่แยกพื้นที่ที่มีมิติสูง Kernel Support Vector Machines ใช้ไฮเปอร์เพลนเพื่อแยกคลาสเชิงบวกออกจากคลาสที่เป็นลบ โดยมักจะในพื้นที่ที่มีมิติสูง

I

i.i.d.

ตัวย่อของการกระจายแบบอิสระและเหมือนกัน

การรู้จำรูปภาพ

#image

กระบวนการที่จัดประเภทออบเจ็กต์ รูปแบบ หรือแนวคิดในรูปภาพ การรู้จำรูปภาพเรียกอีกอย่างว่าการจัดประเภทรูปภาพ

ดูข้อมูลเพิ่มเติมได้ที่ ML Practicum: Image Classification

ชุดข้อมูลที่ไม่สมดุล

คำพ้องความหมายของชุดข้อมูลที่ไม่สมดุลระดับ

อคติโดยไม่รู้ตัว

#fairness

สร้างการเชื่อมโยงหรือสมมติฐานโดยอัตโนมัติตามรูปแบบความคิดและความทรงจำของผู้ใช้ อคติโดยปริยายสามารถส่งผลต่อสิ่งต่อไปนี้

วิธีรวบรวมและแยกประเภทข้อมูล
วิธีออกแบบและพัฒนาระบบแมชชีนเลิร์นนิง

เช่น เมื่อสร้างตัวแยกประเภทเพื่อระบุรูปงานแต่งงาน วิศวกรอาจใช้ชุดกระโปรงสีขาวในรูปภาพเป็นองค์ประกอบ อย่างไรก็ตาม ชุดสีขาวมีธรรมเนียมอยู่เฉพาะในบางยุคและในบางวัฒนธรรมเท่านั้น

โปรดดูการให้น้ำหนักพิเศษกับการยืนยัน

การคำนวณ

การคํานวณมูลค่าแบบสั้น

ความไม่เข้ากันของเมตริกความยุติธรรม

#fairness

แนวคิดที่ว่าแนวคิดเรื่องความเป็นธรรมบางข้ออาจใช้ร่วมกันไม่ได้และไม่สามารถทำให้พอใจพร้อมกันได้ ด้วยเหตุนี้ จึงไม่มีเมตริกแบบเหมารวมรายการเดียวสำหรับการวัดความเป็นธรรมเชิงปริมาณที่ใช้กับโจทย์ ML ทั้งหมดได้

ถึงแม้เรื่องนี้อาจดูน่าท้อใจ แต่เมตริกความยุติธรรมนั้นเข้ากันไม่ได้ ไม่ได้กล่าวเป็นนัยว่าความพยายามด้านความเป็นธรรมนั้นไร้ผล แต่แสดงให้เห็นว่าปัญหา ML ต้องกำหนดความยุติธรรมจากบริบทของปัญหา โดยมีเป้าหมายในการป้องกันอันตรายต่อกรณีการใช้งานของปัญหานั้นโดยเฉพาะ

ดู "บน (im)ความเป็นไปได้แห่งความยุติธรรม" สำหรับการอภิปรายในหัวข้อนี้โดยละเอียด

การเรียนรู้ในบริบท

#language

#GenerativeAI

คำพ้องความหมายของ few-shot prompting

กระจายอย่างอิสระและเหมือนกัน (i.d)

#fundamentals

ข้อมูลที่มาจากการแจกแจงที่ไม่มีการเปลี่ยนแปลง และแต่ละค่าที่ดึงมาไม่ได้ขึ้นอยู่กับค่าที่มีการวาดไว้ก่อนหน้านี้ i.i.d. เป็นก๊าซในอุดมคติของแมชชีนเลิร์นนิง เป็นโครงสร้างทางคณิตศาสตร์ที่มีประโยชน์ แต่แทบไม่มีกรณีใดพบได้ในชีวิตจริง ตัวอย่างเช่น การกระจายผู้เข้าชมหน้าเว็บอาจเป็น i.i.d. ในช่วงเวลาสั้นๆ กล่าวคือ การกระจายจะไม่เปลี่ยนแปลงในระหว่างช่วงเวลาสั้นๆ นั้น และโดยทั่วไปการเข้าชมของคนหนึ่งจะขึ้นอยู่กับการเข้าชมของอีกคนหนึ่ง อย่างไรก็ตาม หากคุณขยายช่วงเวลานั้น ความแตกต่างตามฤดูกาลในผู้เข้าชมหน้าเว็บอาจปรากฏขึ้น

ดูความไม่คงที่เพิ่มเติม

ความเป็นธรรมส่วนบุคคล

#fairness

เมตริกความยุติธรรมที่ตรวจสอบว่าบุคคลที่คล้ายกันได้รับการจัดประเภทคล้ายกันหรือไม่ เช่น Brobdingnagian Academy อาจต้องการดูแลความเป็นธรรมส่วนบุคคลด้วยการดูแลให้นักเรียน 2 คนที่มีเกรดเท่ากันและคะแนนสอบตามมาตรฐานมีโอกาสได้รับเข้าศึกษาเท่าๆ กัน

โปรดทราบว่าความเป็นธรรมของแต่ละบุคคลขึ้นอยู่กับการระบุ "ความคล้ายคลึงกัน" ของคุณ (ในกรณีนี้คือคะแนนและคะแนนสอบ) และคุณเสี่ยงที่จะพบกับปัญหาความยุติธรรมใหม่ๆ หากเมตริกความคล้ายคลึงกันของคุณขาดข้อมูลสำคัญ (เช่น ความเข้มงวดของหลักสูตรของนักเรียน) ไป

ดู "ความเป็นธรรมผ่านความตระหนักรู้" สำหรับการอภิปรายโดยละเอียดเกี่ยวกับความเป็นธรรมของแต่ละบุคคล

การอนุมาน

#fundamentals

ในแมชชีนเลิร์นนิง กระบวนการคาดการณ์โดยใช้โมเดลที่ฝึกแล้วกับตัวอย่างที่ไม่มีป้ายกำกับ

การอนุมานมีความหมายแตกต่างกันในสถิติ ดูรายละเอียดได้ที่ บทความ Wikipedia เกี่ยวกับการอนุมานทางสถิติ

เส้นทางการอนุมาน

#df

ในแผนผังการตัดสินใจ ระหว่างการอนุมาน เส้นทางตัวอย่างหนึ่งๆ จะนำจากรากไปยังเงื่อนไขอื่นๆ โดยสิ้นสุดด้วย leaf เช่น ในแผนผังการตัดสินใจต่อไปนี้ ลูกศรแบบหนาจะแสดงเส้นทางการอนุมานสำหรับตัวอย่างที่มีค่าฟีเจอร์ต่อไปนี้

x = 7
y = 12
z = -3

เส้นทางการอนุมานในภาพประกอบต่อไปนี้จะส่งผ่านเงื่อนไข 3 ข้อก่อนที่จะไปถึงใบไม้ (Zeta)

แผนผังการตัดสินใจประกอบด้วยเงื่อนไข 4 เงื่อนไขและใบไม้ 5 ใบ
เงื่อนไขรากคือ (x > 0) เนื่องจากคำตอบคือ "ใช่" เส้นทางการอนุมานจะเดินทางจากรูทไปยังเงื่อนไขถัดไป (y > 0)
เนื่องจากคำตอบคือ "ใช่" เส้นทางการอนุมานจะเดินทางไปยังเงื่อนไขถัดไป (z > 0) เนื่องจากคำตอบคือไม่ เส้นทางการอนุมานจะเดินทางไปยังโหนดเทอร์มินัล ซึ่งก็คือ Leaf (Zeta)

ลูกศรหนา 3 อันแสดงเส้นทางการอนุมาน

ข้อมูลที่ได้รับ

#df

ในป่าตัดสินใจ ความแตกต่างระหว่างเอนโทรปีของโหนดและผลรวมถ่วงน้ำหนัก (ตามจำนวนตัวอย่าง) ของเอนโทรปีของโหนดย่อย เอนโทรปีของโหนดคือเอนโทรปี ของตัวอย่างในโหนดนั้น

ตัวอย่างเช่น ลองพิจารณาค่าเอนโทรปีต่อไปนี้

เอนโทรปีของโหนดหลัก = 0.6
เอนโทรปีของโหนดย่อย 1 โหนดพร้อมตัวอย่างที่เกี่ยวข้อง 16 รายการ = 0.2
เอนโทรปีของโหนดย่อยอื่นที่มีตัวอย่างที่เกี่ยวข้อง 24 รายการ = 0.1

ดังนั้น 40% ของตัวอย่างจะอยู่ในโหนดย่อยรายการเดียว และ 60% อยู่ในโหนดย่อยอื่นๆ ดังนั้น

ผลรวมเอนโทรปีแบบถ่วงน้ำหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

ดังนั้น ข้อมูลที่ได้จะเป็น

ข้อมูลที่ได้รับ = เอนโทรปีของโหนดหลัก - ผลรวมเอนโทรปีแบบถ่วงน้ำหนักของโหนดย่อย
ข้อมูลที่ได้รับ = 0.6 - 0.14 = 0.46

splitter ส่วนใหญ่พยายามสร้างเงื่อนไข ที่เพิ่มพูนข้อมูลให้สูงสุด

อคติในกลุ่ม

#fairness

การแสดงบางส่วนต่อกลุ่มหรือลักษณะเฉพาะของตนเอง หากผู้ทดสอบหรือผู้ตรวจสอบประกอบด้วยเพื่อน ครอบครัว หรือเพื่อนร่วมงานของนักพัฒนาแมชชีนเลิร์นนิง ความลำเอียงในกลุ่มอาจทำให้การทดสอบผลิตภัณฑ์หรือชุดข้อมูลไม่ถูกต้อง

อคติในกลุ่มคือการให้น้ำหนักการระบุแหล่งที่มาของกลุ่ม ดูข้อมูลเพิ่มเติมได้ในอคติจากความเป็นเอกพันธ์ภายนอกกลุ่ม

โปรแกรมสร้างอินพุต

กลไกที่มีการโหลดข้อมูลลงในโครงข่ายระบบประสาทเทียม

โปรแกรมสร้างอินพุตอาจถือเป็นองค์ประกอบที่มีหน้าที่ในการประมวลผลข้อมูลดิบเป็น Tensor ซึ่งได้รับการทำซ้ำเพื่อสร้างกลุ่มสำหรับการฝึก การประเมิน และการอนุมาน

เลเยอร์อินพุต

#fundamentals

เลเยอร์ ของโครงข่ายประสาทที่มีเวกเตอร์ฟีเจอร์ กล่าวคือ เลเยอร์อินพุตจะแสดงตัวอย่างสำหรับการฝึกหรือการอนุมาน ตัวอย่างเช่น เลเยอร์อินพุตในเครือข่ายประสาทต่อไปนี้ ประกอบด้วยฟีเจอร์ 2 อย่าง

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

สภาพสินค้า

#df

ในแผนผังการตัดสินใจคือเงื่อนไขที่ทดสอบการมี 1 รายการในชุดสินค้า ตัวอย่างต่อไปนี้เป็นเงื่อนไขที่กำหนดไว้

  house-style in [tudor, colonial, cape]

ในระหว่างการอนุมาน หากค่าของฟีเจอร์สไตล์บ้านคือ tudor หรือ colonial หรือ cape เงื่อนไขนี้จะประเมินเป็น "ใช่ หากค่าของฟีเจอร์สไตล์บ้านไม่ใช่ค่าอื่น (เช่น ranch) เงื่อนไขนี้จะประเมินเป็น "ไม่"

เงื่อนไขที่รวมไว้มักจะทําให้แผนผังการตัดสินใจมีประสิทธิภาพมากกว่าเงื่อนไขที่ทดสอบฟีเจอร์เข้ารหัสแบบ One-Hot

อินสแตนซ์

คำพ้องความหมายของ example

การปรับแต่งการสอน

#GenerativeAI

รูปแบบการปรับแต่งที่ปรับปรุงความสามารถของโมเดล Generative AI ในการทำตามวิธีการ การปรับแต่งการสอนเกี่ยวข้องกับการฝึกโมเดลในชุดคำสั่งการสอน ซึ่งโดยทั่วไปจะครอบคลุมงานต่างๆ จากนั้นโมเดลที่ปรับแต่งการสอนที่ได้มีแนวโน้มที่จะสร้างคำตอบที่เป็นประโยชน์ต่อพรอมต์แบบ Zero shot ในงานต่างๆ

เปรียบเทียบจุดและเปรียบต่างกับ

การปรับแต่งให้มีประสิทธิภาพพารามิเตอร์
การปรับแต่งข้อความแจ้ง

ความสามารถในการตีความ

#fundamentals

ความสามารถในการอธิบายหรือนำเสนอโมเดลของ ML ให้เหตุผลเป็นคำที่เข้าใจได้

ตัวอย่างเช่น รูปแบบการถดถอยเชิงเส้นส่วนใหญ่นั้นตีความได้สูง (คุณแค่ต้องดูน้ำหนักที่ฝึกสำหรับแต่ละฟีเจอร์เท่านั้น) ป่าการตัดสินใจก็มีการตีความสูงเช่นกัน อย่างไรก็ตาม บางโมเดลต้องใช้การแสดงภาพที่ซับซ้อนเพื่อให้ตีความได้

คุณสามารถใช้เครื่องมือตีความการเรียนรู้ (Learning & Mediationability Tool หรือ LIT) เพื่อตีความโมเดล ML

ข้อตกลงระหว่างผู้จัดประเภท

การวัดความถี่ที่เจ้าหน้าที่ตรวจสอบตกลงเมื่อทำงาน หากผู้ตรวจสอบไม่เห็นด้วย คุณอาจต้องปรับปรุงวิธีการของงาน บางครั้งเรียกว่าข้อตกลงระหว่างผู้เขียนคำอธิบายประกอบหรือความน่าเชื่อถือของการให้คะแนนสากล ดูข้อมูลเพิ่มเติมได้ใน Cohen's kappa ซึ่งเป็นการวัดผลข้อตกลงระหว่างผู้ประเมินที่ได้รับความนิยมมากที่สุดรายการหนึ่ง

สี่แยก (IoU)

#image

จุดตัดของ 2 เซตหารด้วยสหภาพ ในงานตรวจจับรูปภาพของแมชชีนเลิร์นนิง ระบบจะใช้ IoU เพื่อวัดความแม่นยำของกรอบล้อมรอบของโมเดล เทียบกับกรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรง ในกรณีนี้ IoU สำหรับทั้ง 2 ช่องคืออัตราส่วนระหว่างพื้นที่ที่ทับซ้อนและพื้นที่ทั้งหมด และค่าจะเป็นช่วงจาก 0 (ไม่มีการทับซ้อนของกรอบล้อมรอบและกรอบความจริงใจที่คาดคะเนไว้) ต่อ 1 (กรอบล้อมรอบที่คาดการณ์ไว้และกล่องขอบเขตความเป็นจริงบนพื้นโลกมีพิกัดเดียวกันทุกประการ)

ดูตัวอย่างในรูปภาพด้านล่าง

กรอบล้อมรอบที่คาดคะเน (พิกัดคั่นตำแหน่งที่โมเดลคาดการณ์ตารางกลางคืนในภาพวาด) จะมีเส้นขอบเป็นสีม่วง
กรอบล้อมรอบความจริง (พิกัดที่แยกตำแหน่งของโต๊ะกลางคืนในภาพวาด) แสดงเส้นขอบเป็นสีเขียว

ภาพวาดของแวนโก๊ะห้องนอนของวินเซนต์ในอาร์ลส์โดยมีกรอบล้อมรอบ 2 กรอบล้อมรอบโต๊ะสำหรับกลางคืนข้างเตียง กรอบข้อมูลความเป็นจริงบนพื้นดิน (สีเขียว) ช่วยตีกรอบโต๊ะยามค่ำคืนได้อย่างลงตัว กรอบล้อมรอบที่คาดการณ์ (สีม่วง) จะมีออฟเซ็ต 50% ลงด้านล่างและทางด้านขวาของกรอบล้อมรอบข้อมูลที่ระบุว่าเป็นความจริง ซึ่งจะปิดพื้นที่ 1 ใน 4 ด้านล่างขวาของตารางตอนกลางคืน แต่ไม่เห็นส่วนที่เหลือของตาราง

ตรงนี้ อินเตอร์เซกชันของกรอบล้อมรอบสำหรับการคาดคะเนและข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างซ้าย) คือ 1 และการรวมกรอบล้อมรอบสำหรับการคาดคะเนและข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างขวา) คือ 7 ดังนั้น IoU จึงเป็น $\frac{1}{7}$

รูปภาพเหมือนกับด้านบน แต่กรอบล้อมรอบแต่ละกรอบจะแบ่งเป็น 4 ส่วน จตุภาคมีทั้งหมด 7 ตัว เนื่องจากจตุภาคด้านขวาล่างของกล่องขอบเขตความเป็นจริงบนพื้นดินและจตุภาคด้านซ้ายบนของกรอบล้อมรอบที่คาดการณ์ไว้จะซ้อนทับกัน ส่วนที่ซ้อนทับกัน (ไฮไลต์สีเขียว) แสดงถึงทางแยก และมีพื้นที่เท่ากับ 1

IoU

ตัวย่อของ 4tersection over Union

เมทริกซ์รายการ

#recsystems

ในระบบแนะนำ เมทริกซ์ของเวกเตอร์การฝังที่สร้างขึ้นจากการแยกตัวประกอบเมทริกซ์ที่มีสัญญาณแฝงเกี่ยวกับรายการแต่ละรายการ เมทริกซ์สินค้าแต่ละแถวจะมีค่าของฟีเจอร์แฝงเดียวสำหรับรายการทั้งหมด เช่น ลองพิจารณาระบบการแนะนำภาพยนตร์ แต่ละคอลัมน์ในเมทริกซ์รายการจะแทนภาพยนตร์หนึ่งเรื่อง สัญญาณแฝงอาจแสดงถึงประเภท หรืออาจเป็นสัญญาณที่ตีความได้ยาก ซึ่งเกี่ยวข้องกับการโต้ตอบที่ซับซ้อนระหว่างประเภท ดารา อายุภาพยนตร์ หรือปัจจัยอื่นๆ

เมทริกซ์รายการมีจำนวนคอลัมน์เท่ากับเมทริกซ์เป้าหมายที่กำลังแยกตัวประกอบ เช่น ในระบบแนะนำภาพยนตร์ที่ประเมินชื่อภาพยนตร์ 10,000 เรื่อง เมทริกซ์ของรายการจะมีคอลัมน์ 10,000 คอลัมน์

items

#recsystems

ในระบบการแนะนำ เอนทิตีที่ระบบแนะนำ ตัวอย่างเช่น วิดีโอเป็นรายการที่ร้านขายวิดีโอ แนะนำ ขณะที่หนังสือเป็นรายการที่ร้านหนังสือแนะนำ

การทำซ้ำ

#fundamentals

อัปเดตพารามิเตอร์ของโมเดลเพียงครั้งเดียว ซึ่งก็คือน้ำหนักและอคติของโมเดล ระหว่างการฝึก ขนาดกลุ่มจะกำหนดจำนวนตัวอย่างที่โมเดลประมวลผลในการทำซ้ำครั้งเดียว เช่น หากขนาดกลุ่มคือ 20 โมเดลจะประมวลผลตัวอย่าง 20 รายการก่อนปรับเปลี่ยนพารามิเตอร์

เมื่อฝึกโครงข่ายระบบประสาทเทียม การทำซ้ำ 1 ครั้งจะเกี่ยวข้องกับการส่ง 2 ผ่านต่อไปนี้

การส่งต่อเพื่อประเมินการสูญเสียเป็นกลุ่มเดียว
การส่งแบบย้อนกลับ (backprofagation) เพื่อปรับพารามิเตอร์ของโมเดลตามการสูญเสียและอัตราการเรียนรู้

J

JAX

ไลบรารีการประมวลผลแบบอาร์เรย์ ซึ่งรวม XLA (Accelerated Accelerated Algebra) และระบบแยกอนุพันธ์อัตโนมัติเพื่อการคำนวณตัวเลขประสิทธิภาพสูง JAX มี API ที่เรียบง่ายและมีประสิทธิภาพ สำหรับการเขียนโค้ดตัวเลขแบบเร่งด้วยการแปลง Composable JAX มีฟีเจอร์ต่างๆ เช่น

grad (การแยกความแตกต่างอัตโนมัติ)
jit (รวมคลิปแบบทันท่วงที)
vmap (เวกเตอร์อัตโนมัติ หรือการจัดกลุ่ม)
pmap (การโหลดพร้อมกัน)

JAX เป็นภาษาในการแสดงและเขียนการแปลงโค้ดตัวเลขที่คล้ายคลึงกัน แต่ขอบเขตกว้างกว่ามากเมื่อเทียบกับไลบรารี NumPy ของ Python (อันที่จริง ไลบรารี .numpy ภายใต้ JAX นั้นทำงานได้เทียบเท่ากัน แต่ไลบรารี Python NumPy เวอร์ชันที่เขียนขึ้นใหม่ทั้งหมด)

ส่วน JAX นั้นเหมาะสมอย่างยิ่งสำหรับการเร่งงานแมชชีนเลิร์นนิงหลายๆ อย่างโดยการเปลี่ยนรูปแบบโมเดลและข้อมูลให้เป็นรูปแบบที่เหมาะสำหรับการทำงานพร้อมกันใน GPU และ TPU ชิป Accelerator

Flax, Optax, Pax และไลบรารีอื่นๆ อีกมากมายสร้างขึ้นด้วยโครงสร้างพื้นฐานของ JAX

K

Keras

API แมชชีนเลิร์นนิง Python ยอดนิยม Keras ทำงานบนเฟรมเวิร์กการเรียนรู้เชิงลึกหลายรายการ ซึ่งรวมถึง TensorFlow ซึ่งพร้อมให้ใช้งานในรูปแบบ tf.keras

เครื่อง Kernel Support Vector Machines (KSVM)

อัลกอริทึมการจัดหมวดหมู่ที่พยายามเพิ่มส่วนต่างระหว่างคลาสบวกกับคลาสเชิงลบให้ได้สูงสุด โดยการแมปเวกเตอร์ข้อมูลอินพุตกับพื้นที่เชิงมิติที่สูงขึ้น เช่น ลองพิจารณาถึงปัญหาการจัดประเภทที่ชุดข้อมูลอินพุตมีฟีเจอร์ทั้ง 100 แบบ เพื่อเพิ่มส่วนต่างกำไรระหว่างคลาสเชิงบวกและเชิงลบให้ได้มากที่สุด KSVM สามารถจับคู่ฟีเจอร์เหล่านั้นกับพื้นที่ภายในเป็นล้านมิติข้อมูลได้ KSVM ใช้ฟังก์ชันการสูญเสียที่เรียกว่าการสูญเสียบานพับ

ประเด็นสำคัญ

#image

พิกัดของจุดสนใจหนึ่งๆ ในรูปภาพ เช่น สำหรับโมเดลการจดจำรูปภาพที่ช่วยจำแนกดอกไม้แต่ละชนิด จุดสำคัญอาจเป็นศูนย์กลางของแต่ละกลีบ ก้าน เกสรดอกไม้ และอื่นๆ

การตรวจสอบความถูกต้องของกากบาทแบบ K-Fold

อัลกอริทึมสำหรับการคาดการณ์ความสามารถของโมเดลในการทำให้เป็นมาตรฐานกับข้อมูลใหม่ k ใน k-Fold หมายถึงจำนวนกลุ่มที่เท่าๆ กันที่คุณแบ่งตัวอย่างของชุดข้อมูลออก กล่าวคือ คุณฝึกและทดสอบโมเดล k ครั้ง สำหรับการฝึกและการทดสอบแต่ละรอบ กลุ่มที่แตกต่างกันคือชุดทดสอบ และกลุ่มที่เหลือทั้งหมดจะกลายเป็นชุดการฝึก หลังจากการฝึกและการทดสอบ k รอบแล้ว คุณจะคำนวณค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของเมตริกการทดสอบที่เลือก

ตัวอย่างเช่น สมมติว่าชุดข้อมูลประกอบด้วยตัวอย่าง 120 รายการ นอกจากนั้น สมมติว่า คุณตัดสินใจตั้งค่า k เป็น 4 ดังนั้นหลังจากสุ่มตัวอย่าง คุณแบ่งชุดข้อมูลออกเป็น 4 กลุ่มเท่าๆ กัน 30 ตัวอย่าง และดำเนินการฝึกอบรม/ทดสอบ 4 รอบ ดังนี้

ชุดข้อมูลที่แบ่งออกเป็น 4 กลุ่มตัวอย่างเท่าๆ กัน ในรอบที่ 1 จะมีการใช้ 3 กลุ่มแรกสำหรับการฝึก และกลุ่มสุดท้ายจะใช้สำหรับการทดสอบ ในรอบที่ 2 ระบบจะใช้ 2 กลุ่มแรกและกลุ่มสุดท้ายสำหรับการฝึก ส่วนกลุ่มที่ 3 ใช้สำหรับการทดสอบ ในรอบที่ 3 กลุ่มแรกและ 2 กลุ่มสุดท้ายจะใช้สำหรับการฝึก ส่วนกลุ่มที่ 2 ใช้สำหรับการทดสอบ
ในรอบที่ 4 กลุ่มแรกจะใช้สำหรับการทดสอบ ส่วนอีก 3 กลุ่มสุดท้ายใช้สำหรับการฝึก

เช่น ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (MSE) อาจเป็นเมตริกที่มีความหมายมากที่สุดสำหรับโมเดลการถดถอยเชิงเส้น ดังนั้น คุณจะเห็นค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของ MSE ในทั้ง 4 รอบ

K-means

#clustering

อัลกอริทึม clustering ยอดนิยมที่จัดกลุ่มตัวอย่างในการเรียนรู้ที่ไม่มีการควบคุมดูแล โดยพื้นฐานแล้ว อัลกอริทึม k-means จะดำเนินการดังต่อไปนี้:

กำหนดจุดศูนย์กลางที่ดีที่สุดซ้ำๆ (หรือเรียกว่า centroids)
กำหนดตัวอย่างแต่ละรายการให้กับเซนทรอยด์ที่ใกล้ที่สุด ตัวอย่างเหล่านั้นที่อยู่ใกล้เซนทรอยด์เดียวกันมากที่สุดอยู่ในกลุ่มเดียวกัน

อัลกอริทึม k-means จะเลือกตำแหน่งเซนทรอยด์เพื่อลดสี่เหลี่ยมจัตุรัสสะสมของระยะทางจากแต่ละตัวอย่างไปยังเซนทรอยด์ที่ใกล้ที่สุด

ตัวอย่างเช่น ลองพิจารณาแผนผังความสูงสุนัขต่อความกว้างของสุนัขต่อไปนี้

แผนภูมิคาร์ทีเซียนที่มีจุดข้อมูลหลายสิบจุด

ถ้าเป็น k=3 อัลกอริทึม k-means จะระบุ 3 เซนทรอยด์ ตัวอย่างแต่ละรายการจะได้รับการกำหนดให้กับเซนทรอยด์ที่ใกล้ที่สุด โดยจะแสดงผลเป็น 3 กลุ่มดังนี้

พล็อตคาร์ทีเซียนแบบเดียวกับในภาพประกอบก่อนหน้านี้ ยกเว้นการเพิ่มเซนทรอยด์ 3 แห่ง
จุดข้อมูลก่อนหน้าจะแบ่งออกเป็น 3 กลุ่มที่แตกต่างกัน โดยแต่ละกลุ่มจะแสดงจุดข้อมูลที่อยู่ใกล้เซนทรอยด์หนึ่งๆ มากที่สุด

สมมติว่าผู้ผลิตต้องการกำหนดขนาดเสื้อสเวตเตอร์ขนาดเล็ก กลาง และใหญ่สำหรับสุนัข เซนทรอยด์ทั้ง 3 ตัวจะระบุความสูง และความกว้างเฉลี่ยของสุนัขแต่ละตัวในกลุ่มนั้น ผู้ผลิตจึงควรระบุขนาดเสื้อสเวตเตอร์ที่จุดศูนย์กลาง 3 จุด โปรดทราบว่าโดยปกติแล้ว เซนทรอยด์ของคลัสเตอร์จะไม่ใช่ตัวอย่างในคลัสเตอร์นี้

ภาพประกอบก่อนหน้านี้แสดงค่า k-me สําหรับตัวอย่างที่มีเพียง 2 ลักษณะ (ความสูงและความกว้าง) โปรดทราบว่า k-means สามารถจัดกลุ่มตัวอย่าง ในหลายคุณลักษณะ

มัธยฐาน K

#clustering

อัลกอริทึมการจัดกลุ่มมีความเกี่ยวข้องกับ k-means อย่างใกล้ชิด ข้อแตกต่างเชิงปฏิบัติระหว่าง 2 สิ่งนี้มีดังนี้

ใน k-means เซนทรอยด์จะกำหนดโดยการลดผลรวมของกำลังสองของระยะห่างระหว่างตัวเลือกเซนทรอยด์กับแต่ละตัวอย่างให้เหลือน้อยที่สุด
ในค่ามัธยฐาน k เซนทรอยด์จะกำหนดโดยการลดผลรวมของระยะห่างระหว่างตัวเลือกเซนทรอยด์กับแต่ละตัวอย่าง

โปรดทราบว่าคำจำกัดความของระยะทางก็มีความหมายแตกต่างกันดังนี้

k-means จะใช้ระยะทางยูคลิดจากเซนทรอยด์เป็นตัวอย่าง (ใน 2 มิติ ระยะทางยูคลิดหมายถึงการใช้ทฤษฎีบทพีทาโกรัสเพื่อคำนวณด้านตรงข้ามมุมฉาก) ตัวอย่างเช่น ระยะห่าง k-me ระหว่าง (2,2) และ (5,-2) จะเป็นดังนี้

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-median อาศัย ระยะทางในแมนฮัตตันจากเซนทรอยด์เป็นตัวอย่าง ระยะทางนี้คือผลรวมของเดลต้าสัมบูรณ์ในแต่ละมิติข้อมูล ตัวอย่างเช่น ระยะ k-มัธยฐาน ระหว่าง (2,2) ถึง (5,-2) จะเป็นดังนี้

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

การกำหนดกฎ L₀

#fundamentals

ประเภทของการกำหนดรูปแบบที่จะกำหนดจำนวนน้ำหนักที่ไม่ใช่ 0 ในโมเดล เช่น โมเดลที่มีน้ำหนักที่ไม่ใช่ 0 11 ตัว จะได้รับบทลงโทษมากกว่าโมเดลที่คล้ายกันที่มีน้ำหนักไม่เป็น 0 10

การกำหนดกฎ L₀ บางครั้งจะเรียกว่าการกำหนดกฎ L0-norm

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

โดยทั่วไปแล้ว การกำหนดกฎ L₀ มักไม่เกิดขึ้นจริงในโมเดลขนาดใหญ่ เนื่องจากการจัดปกติ L₀ จะเปลี่ยนการฝึกให้เป็นปัญหาในการเพิ่มประสิทธิภาพ

แพ้ L₁

#fundamentals

ฟังก์ชันการสูญเสียที่คำนวณค่าสัมบูรณ์ของความแตกต่างระหว่างค่าจริงของป้ายกำกับกับค่าที่โมเดลคาดการณ์ เช่น การคำนวณการสูญเสีย L₁ สำหรับกลุ่มของตัวอย่าง 5 รายการมีดังนี้

มูลค่าจริงของตัวอย่าง	ค่าที่คาดการณ์ไว้ของโมเดล	ค่าสัมบูรณ์ของเดลต้า
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = แพ้ L₁

การสูญเสีย L₁ มีความไวต่อค่าผิดปกติน้อยกว่าการสูญเสีย L₂

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์คือการสูญเสีย L₁ โดยเฉลี่ยต่อตัวอย่าง

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

ที่ไหน

$n$ คือจำนวนตัวอย่าง
$y$ คือค่าจริงของป้ายกำกับ
$\hat{y}$ คือค่าที่โมเดลคาดการณ์ไว้สำหรับ $y$

การกำหนดกฎ L₁

#fundamentals

ประเภทของการควบคุมแบบปกติที่หักค่าน้ำหนักเป็นสัดส่วนกับผลรวมของค่าสัมบูรณ์ของน้ำหนัก การกำหนดกฎ L₁ ช่วยให้น้ำหนักของฟีเจอร์ที่ไม่เกี่ยวข้องหรือแทบไม่เกี่ยวข้องกับฟีเจอร์เป็น 0 เลย ระบบนำฟีเจอร์ที่มีน้ำหนักเป็น 0 ออกจากโมเดลเรียบร้อยแล้ว

คอนทราสต์กับการกำหนดกฎ L₂

แพ้ L₂

#fundamentals

ฟังก์ชันการสูญเสียที่คำนวณกำลังสองของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ เช่น การคำนวณการสูญหายของ L₂ สำหรับกลุ่มของตัวอย่าง 5 รายการมีดังนี้

มูลค่าจริงของตัวอย่าง	ค่าที่คาดการณ์ไว้ของโมเดล	กำลังสองของเดลต้า
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = แพ้ L₂

เนื่องจากการยกกำลังสอง ทำให้การสูญเสีย L₂ ขยายอิทธิพลของค่าผิดปกติ กล่าวคือ การสูญเสีย L₂ ตอบสนองกับการคาดการณ์ที่ไม่ดีมากกว่าการสูญเสีย L₁ เช่น การสูญเสีย L₁ สำหรับกลุ่มก่อนหน้าจะเป็น 8 ไม่ใช่ 16 โปรดสังเกตว่าค่าผิดปกติรายการเดียวครอบคลุม 9 ใน 16

โมเดลการถดถอยมักจะใช้การสูญเสีย L₂ เป็นฟังก์ชันการสูญเสีย

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสองคือการสูญเสีย L₂ โดยเฉลี่ยต่อตัวอย่าง การสูญเสียทีละไตรมาสคืออีกชื่อหนึ่งของการสูญเสีย L₂

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

ที่ไหน

$n$ คือจำนวนตัวอย่าง
$y$ คือค่าจริงของป้ายกำกับ
$\hat{y}$ คือค่าที่โมเดลคาดการณ์ไว้สำหรับ $y$

การกำหนดกฎ L₂

#fundamentals

ประเภทของการกำหนดรูปแบบที่หักลบน้ำหนักตามสัดส่วนของผลรวมของสี่เหลี่ยมจัตุรัสของน้ำหนัก การปรับ L₂ จะช่วยผลักดันน้ำหนักค่าผิดปกติ (ที่มีค่าบวกสูงหรือค่าลบต่ำ) ให้ใกล้กับ 0 แต่ไม่ใช่ 0 ฟีเจอร์ที่มีค่าใกล้เคียง 0 มากจะยังคงอยู่ในโมเดล แต่จะไม่มีผลต่อการคาดการณ์ของโมเดลมากนัก

การกำหนดกฎ L₂ จะช่วยปรับปรุงการสรุปข้อมูลทั่วไปในโมเดลเชิงเส้นเสมอ

คอนทราสต์กับการกำหนดกฎ L₁

ป้ายกำกับ

#fundamentals

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล ส่วน "คำตอบ" หรือ "ผลลัพธ์" ของตัวอย่าง

ตัวอย่างที่ติดป้ายกำกับแต่ละรายการประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างเช่น ในชุดข้อมูลการตรวจจับสแปม ป้ายกำกับอาจเป็น "สแปม" หรือ "ไม่ใช่สแปม" ในชุดข้อมูลปริมาณฝน ป้ายกำกับอาจหมายถึงปริมาณน้ำฝนที่ตกในช่วงระยะเวลาหนึ่ง

ตัวอย่างที่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่าง 3 แบบที่ติดป้ายกำกับจากรูปแบบการประเมินมูลค่าบ้าน โดยแต่ละแบบจะมี 3 ฟีเจอร์และ 1 ป้ายกำกับ

จำนวนห้องนอน	จำนวนห้องน้ำ	อายุบ้าน	ราคาบ้าน (ป้ายกำกับ)
3	2	15	10,250,000 บาท
2	1	72	179,000 ดอลลาร์
4	2	34	392,000 ดอลลาร์สหรัฐ

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกตามตัวอย่างที่มีป้ายกำกับและทำการคาดการณ์ในตัวอย่างที่ไม่มีป้ายกำกับ

เปรียบเทียบตัวอย่างที่มีป้ายกำกับกับตัวอย่างที่ไม่มีป้ายกำกับ

ป้ายกำกับการรั่วไหล

ข้อบกพร่องในการออกแบบโมเดลที่ฟีเจอร์เป็นตัวแทนสำหรับป้ายกำกับ เช่น ลองพิจารณาโมเดลการจัดประเภทไบนารีที่คาดการณ์ว่าผู้มีโอกาสเป็นลูกค้าจะซื้อผลิตภัณฑ์หนึ่งๆ หรือไม่ สมมติว่าหนึ่งในฟีเจอร์สำหรับโมเดลคือบูลีนชื่อ SpokeToCustomerAgent นอกจากนี้ สมมติว่ามีการกำหนดตัวแทนลูกค้าหลังจากที่ผู้มีโอกาสเป็นลูกค้าซื้อผลิตภัณฑ์จริงๆ แล้วเท่านั้น ในระหว่างการฝึก โมเดลจะเรียนรู้การเชื่อมโยงระหว่าง SpokeToCustomerAgent กับป้ายกำกับอย่างรวดเร็ว

แลมบ์ดา

#fundamentals

คำพ้องความหมายของอัตราการปรับให้เป็นมาตรฐาน

Lambda เป็นคำศัพท์ที่ใช้มากเกินไป ในที่นี้เราจะเน้นไปที่คำจำกัดความของคำในรูปแบบมาตรฐาน

LaMDA (โมเดลภาษาสำหรับแอปพลิเคชันด้านการโต้ตอบ หรือ Language Model for Dialogue Applications)

#language

โมเดลภาษาขนาดใหญ่ที่อิงตามTransformer ซึ่งพัฒนาโดย Google ได้รับการฝึกผ่านชุดข้อมูลการสนทนาขนาดใหญ่ที่จะสร้างคำตอบที่เป็นการสนทนาที่สมจริงได้

LaMDA: เทคโนโลยีการสนทนาที่โดดเด่นของเรามีภาพรวม

จุดสังเกต

#image

คำพ้องความหมายของ keypoints

โมเดลภาษา

#language

modelที่ประมาณความเป็นไปได้ของmodelหรือลำดับของโทเค็นที่เกิดขึ้นในลำดับที่ยาวกว่าของโทเค็น

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

แม้ว่าจะฟังดูขัดกัน แต่โมเดลจำนวนมากที่ประเมินข้อความไม่ใช่โมเดลภาษา เช่น โมเดลการจัดประเภทข้อความและโมเดลวิเคราะห์ความเห็นไม่ใช่โมเดลภาษา

โมเดลภาษาขนาดใหญ่

#language

คำที่ไม่เป็นทางการที่ไม่มีคำจำกัดความที่เข้มงวดซึ่งมักจะหมายถึงโมเดลภาษาที่มีพารามิเตอร์จำนวนมาก โมเดลภาษาขนาดใหญ่บางโมเดลมีพารามิเตอร์มากกว่า 1 แสนล้านพารามิเตอร์

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

คุณอาจสงสัยว่าเมื่อโมเดลภาษามีขนาดใหญ่พอที่จะเรียกว่าโมเดลภาษาขนาดใหญ่ ปัจจุบันยังไม่มีการกำหนดจำนวนพารามิเตอร์ที่ตกลงกันไว้

โมเดลภาษาขนาดใหญ่ในปัจจุบันส่วนใหญ่ (เช่น GPT) จะใช้สถาปัตยกรรม Transformer

พื้นที่แฝง

#language

คำพ้องความหมายของ พื้นที่การฝัง

ชั้น

#fundamentals

ชุดของเซลล์ประสาทในโครงข่ายระบบประสาท เลเยอร์ทั่วไปมี 3 ประเภทดังนี้

เลเยอร์อินพุต ซึ่งระบุค่าสำหรับฟีเจอร์ทั้งหมด
เลเยอร์ที่ซ่อนไว้อย่างน้อย 1 เลเยอร์ซึ่งค้นหาความสัมพันธ์ที่ไม่ใช่เชิงเส้นระหว่างฟีเจอร์และป้ายกำกับ
เลเยอร์เอาต์พุต ซึ่งระบุการคาดการณ์

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโครงข่ายประสาทที่มีเลเยอร์อินพุต 1 เลเยอร์ เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์

โครงข่ายประสาทที่มี 1 เลเยอร์อินพุต เลเยอร์ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์ เลเยอร์อินพุตประกอบด้วยฟีเจอร์ 2 อย่าง เลเยอร์แรกที่ซ่อนอยู่ประกอบด้วยเซลล์ประสาท 3 เซลล์ และเลเยอร์ที่ซ่อนอยู่ลำดับที่ 2 ประกอบด้วยเซลล์ประสาท 2 เซลล์ เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

ใน TensorFlow เลเยอร์ยังเป็นฟังก์ชัน Python ที่นำ Tensor และตัวเลือกการกำหนดค่าเป็นอินพุต และสร้าง Tensor อื่นๆ เป็นเอาต์พุต

API เลเยอร์ (tf.layers)

#TensorFlow

TensorFlow API สำหรับสร้างโครงข่ายระบบประสาทระดับลึกเป็นองค์ประกอบของเลเยอร์ API เลเยอร์ช่วยให้คุณสร้างเลเยอร์ประเภทต่างๆ ได้ เช่น

tf.layers.Dense สำหรับเลเยอร์ที่เชื่อมต่อครบถ้วน
tf.layers.Conv2D สำหรับเลเยอร์ Convolutional

Layer API จะเป็นไปตามข้อกำหนดเกี่ยวกับ Layer API ของ Keras กล่าวคือ นอกจากคำนำหน้าที่ต่างกันแล้ว ฟังก์ชันทั้งหมดใน Layer API ยังมีชื่อและลายเซ็นเหมือนกับใน Keras layers API

ใบไม้

#df

ปลายทางทั้งหมดในแผนผังการตัดสินใจ Leaf ไม่ได้ทำการทดสอบ ซึ่งต่างจากสภาพสินค้า แต่ใบไม้เป็นคำที่คาดเดาได้ Leaf ยังเป็นเทอร์มินัลโหนดของเส้นทางการอนุมานอีกด้วย

ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้มีใบไม้ 3 ใบ

แผนผังการตัดสินใจที่มี 2 เงื่อนไขนำไปสู่ใบไม้ 3 ใบ

เครื่องมือตีความด้านการเรียนรู้ (LIT)

เครื่องมือสร้างความเข้าใจโมเดลแบบอินเทอร์แอกทีฟและการแสดงข้อมูลเป็นภาพ

คุณสามารถใช้ LIT แบบโอเพนซอร์สเพื่อตีความโมเดล หรือเพื่อแสดงข้อความ รูปภาพ และตารางข้อมูล

อัตราการเรียนรู้

#fundamentals

จำนวนจุดลอยตัวที่บอกอัลกอริทึมการไล่ระดับสี ว่าจะปรับน้ำหนักและความให้น้ำหนักพิเศษในข้อมูลซ้ำแต่ละรายการได้ดีเพียงใด เช่น อัตราการเรียนรู้ที่ 0.3 จะปรับน้ำหนักและความอคติที่มีประสิทธิภาพมากกว่าอัตราการเรียนรู้ที่ 0.1 ถึง 3 เท่า

อัตราการเรียนรู้เป็นพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่สำคัญ หากคุณตั้งอัตราการเรียนรู้ต่ำเกินไป การฝึกจะใช้เวลานานเกินไป หากคุณกำหนดอัตราการเรียนรู้สูงเกินไป การไล่ระดับสีลงมักจะมีปัญหาในการเข้าถึงการสนทนา

คลิกไอคอนสำหรับคำอธิบายทางคณิตศาสตร์เพิ่มเติม

ในระหว่างการทำซ้ำแต่ละครั้ง อัลกอริทึมการไล่ระดับสีจะคูณอัตราการเรียนรู้ด้วยการไล่ระดับสี ผลที่ได้เรียกว่าขั้นตอนการไล่ระดับสี

การถดถอยแบบกำลังสองน้อยที่สุด

โมเดลการถดถอยเชิงเส้นจะฝึกโดยการลด L₂ Loss ให้เหลือน้อยที่สุด

เชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปซึ่งแสดงผ่านการบวกและการคูณเพียงอย่างเดียวได้

พล็อตของความสัมพันธ์เชิงเส้นจะเป็นเส้น

คอนทราสต์แบบไม่ใช่เชิงเส้น

รูปแบบเชิงเส้น

#fundamentals

modelที่กำหนดmodel 1 รายการต่อmodelเพื่อสร้างmodel (รูปแบบเชิงเส้นยังมีอคติรวมอยู่ด้วย) ในทางตรงกันข้าม ความสัมพันธ์ของฟีเจอร์กับการคาดการณ์ในโมเดลเชิงลึกมักเป็นไม่ใช่เชิงเส้น

โมเดลเชิงเส้นมักฝึกได้ง่ายกว่าและตีความได้มากกว่าโมเดลเชิงลึก อย่างไรก็ตาม โมเดลเชิงลึกอาจเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างฟีเจอร์ต่างๆ

การถดถอยเชิงเส้นและการถดถอยแบบโลจิสติกเป็นรูปแบบเชิงเส้น 2 ประเภท

คลิกไอคอนเพื่อดูการคำนวณ

รูปแบบเชิงเส้นเป็นไปตามสูตรนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ที่:

y' คือการคาดการณ์ดิบ (ในโมเดลเชิงเส้นบางประเภท ระบบจะแก้ไขการคาดการณ์ ดิบนี้เพิ่มเติม เช่น ดูการถดถอยแบบโลจิสติก)
b คืออคติ
w คือน้ำหนัก ดังนั้น w₁ คือน้ำหนักของจุดสนใจแรก w₂ คือน้ำหนักของจุดสนใจที่ 2 และต่อไปเรื่อยๆ
x เป็นจุดสนใจ ดังนั้น x₁ คือค่าของจุดสนใจแรก x₂ คือค่าของจุดสนใจที่ 2 เป็นต้น

ตัวอย่างเช่น สมมติว่าโมเดลเชิงเส้นของฟีเจอร์ 3 รายการเรียนรู้อคติและน้ำหนักต่อไปนี้

b = 7
กว้าง ₁ = -2.5
กว้าง₂ = -1.2
กว้าง₃ = 1.4

ดังนั้น ด้วยฟีเจอร์ 3 อย่าง (x₁, x₂ และ x₃) โมเดลเชิงเส้นจะใช้สมการต่อไปนี้เพื่อสร้างการคาดการณ์แต่ละรายการ

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

สมมติว่าตัวอย่างหนึ่งมีค่าต่อไปนี้:

x₁ = 4
x₂ = -10
x₃ = 5

การเสียบค่าเหล่านั้นลงในสูตรจะทำให้เกิดการคาดการณ์สำหรับตัวอย่างนี้

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

โมเดลเชิงเส้นไม่ได้มีเพียงแค่โมเดลที่ใช้เพียงสมการเชิงเส้นในการคาดการณ์เท่านั้น แต่ยังรวมถึงชุดโมเดลที่กว้างขึ้นซึ่งใช้สมการเชิงเส้นเป็นเพียงองค์ประกอบหนึ่งของสูตรในการคาดคะเนด้วย เช่น กระบวนการถดถอยแบบโลจิสติกหลังการประมวลผลการคาดคะเนดิบ (y") เพื่อสร้างค่าการคาดการณ์สุดท้ายระหว่าง 0 ถึง 1 โดยเฉพาะ

การถดถอยเชิงเส้น

#fundamentals

โมเดลแมชชีนเลิร์นนิงประเภทหนึ่งที่เป็นไปตามเงื่อนไขทั้ง 2 ข้อต่อไปนี้

โมเดลนี้เป็นรูปแบบเชิงเส้น
การคาดคะเนจะเป็นค่าทศนิยม (นี่คือส่วนการถดถอยของการถดถอยเชิงเส้น)

เปรียบเทียบการถดถอยเชิงเส้นกับการถดถอยแบบโลจิสติก รวมถึงเปรียบเทียบการถดถอยกับการแยกประเภท

เล็กน้อย

ตัวย่อของเครื่องมือความสามารถในการตีความสำหรับการเรียนรู้ (Learning & Mediationability Tool หรือ LIT) ซึ่งก่อนหน้านี้เรียกว่าเครื่องมือความสามารถในการตีความภาษา

แอลเอ็ม

#language

ตัวย่อของโมเดลภาษาขนาดใหญ่

การถดถอยแบบโลจิสติก

#fundamentals

ประเภทของโมเดลการถดถอยที่คาดการณ์ความน่าจะเป็น โมเดลการถดถอยแบบโลจิสติกมีลักษณะดังต่อไปนี้

ป้ายกำกับเป็นหมวดหมู่ คำว่า "การถดถอยแบบโลจิสติกส์" มักจะหมายถึงการถดถอยแบบโลจิสติกแบบไบนารี ซึ่งก็คือโมเดลที่คำนวณความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้ 2 ค่า ตัวแปรที่พบบ่อยน้อยกว่า การถดถอยแบบลอจิสติกส์พหุนามจะคำนวณความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า
ฟังก์ชันการสูญเสียในระหว่างการฝึกคือบันทึกการสูญหาย (คุณวางหน่วยการสูญหายของบันทึกหลายรายการพร้อมกันสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่าได้)
โมเดลมีสถาปัตยกรรมแบบเชิงเส้น ไม่ใช่โครงข่ายประสาทแบบลึก อย่างไรก็ตาม ส่วนที่เหลือของคําจํากัดความนี้จะใช้กับโมเดลเชิงลึกที่คาดการณ์ความน่าจะเป็นสำหรับป้ายกำกับเชิงหมวดหมู่ด้วย

เช่น ลองพิจารณาโมเดลการถดถอยแบบโลจิสติก ซึ่งคํานวณความเป็นไปได้ที่อีเมลอินพุตจะเป็นสแปมหรือไม่เป็นจดหมายขยะ ในระหว่างการอนุมาน สมมติว่าโมเดลคาดการณ์ 0.72 ดังนั้นโมเดลจึงกำลังประมาณ

โอกาส 72% ที่อีเมลจะเป็นสแปม
มีโอกาส 28% ที่อีเมลจะไม่เป็นจดหมายขยะ

โมเดลการถดถอยแบบโลจิสติกใช้สถาปัตยกรรม 2 ขั้นตอนต่อไปนี้

โมเดลจะสร้างการคาดการณ์ดิบ (y") โดยใช้ฟังก์ชันเชิงเส้นของฟีเจอร์อินพุต
โมเดลนี้ใช้การคาดการณ์ดิบดังกล่าวเป็นอินพุตไปยังฟังก์ชันซิกมอย ซึ่งแปลงการคาดการณ์ดิบเป็นค่าระหว่าง 0 ถึง 1 (ไม่รวม 0 ถึง 1)

โมเดลการถดถอยแบบโลจิสติกจะคาดการณ์จำนวนเช่นเดียวกับโมเดลการถดถอยทั่วไป แต่โดยปกติแล้ว จำนวนนี้จะกลายเป็นส่วนหนึ่งของโมเดลการจัดประเภทแบบไบนารี

หากจำนวนที่คาดการณ์มากกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสที่เป็นบวก
หากจำนวนที่คาดการณ์น้อยกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสเชิงลบ

ลอจิต

เวกเตอร์ของการคาดการณ์ดิบ (ไม่ปรับให้สอดคล้องตามมาตรฐาน) ที่โมเดลการจัดประเภทสร้างขึ้น ซึ่งโดยปกติจะส่งผ่านไปยังฟังก์ชันการปรับให้เป็นมาตรฐาน หากโมเดลกำลังแก้ปัญหาเกี่ยวกับการจัดประเภทแบบหลายคลาส โดยทั่วไปตรรกะจะกลายเป็นอินพุตไปยังฟังก์ชัน softmax จากนั้นฟังก์ชัน softmax จะสร้างเวกเตอร์ของความน่าจะเป็น (ทำให้เป็นมาตรฐาน) ด้วยค่า 1 ค่าสำหรับแต่ละคลาสที่เป็นไปได้

การสูญหายของบันทึก

#fundamentals

ฟังก์ชันการสูญหายที่ใช้ในการถดถอยแบบโลจิสติกแบบไบนารี

คลิกไอคอนเพื่อดูการคำนวณ

สูตรต่อไปนี้จะคำนวณการสูญหายของบันทึก

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

ที่ไหน

$(x,y)\in D$ คือชุดข้อมูลที่มีตัวอย่างที่มีป้ายกำกับหลายรายการ ซึ่งเป็น $(x,y)$ คู่
$y$ คือป้ายกำกับในตัวอย่างที่มีป้ายกำกับ เนื่องจากนี่เป็นการถดถอยแบบโลจิสติก ทุกค่าของ $y$ ต้องเป็น 0 หรือ 1 อย่างใดอย่างหนึ่ง
$y'$ คือค่าที่คาดการณ์ไว้ (อยู่ระหว่าง 0 ถึง 1 เป็นค่าเฉพาะตัว) ตามชุดของฟีเจอร์ใน $x$

โอกาสในการบันทึก

#fundamentals

ลอการิทึมของความน่าจะเป็นของเหตุการณ์บางอย่าง

คลิกไอคอนเพื่อดูการคำนวณ

หากเหตุการณ์เป็นความน่าจะเป็นแบบไบนารี ความน่าจะเป็นจะหมายถึงอัตราส่วนของความน่าจะเป็นของความสำเร็จ (p) ต่อความน่าจะเป็นของความล้มเหลว (1-p) ตัวอย่างเช่น สมมติว่าเหตุการณ์หนึ่งๆ มีโอกาสประสบความสำเร็จ 90% และมีโอกาสล้มเหลว 10% ในกรณีนี้ ความน่าจะเป็น จะคำนวณดังนี้

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

ความน่าจะเป็นของบันทึกก็คือลอการิทึมของความน่าจะเป็น ตามรูปแบบ "ลอการิทึม" หมายถึงลอการิทึมธรรมชาติ แต่จริงๆ แล้วลอการิทึมอาจเป็นฐานใดๆ ที่มากกว่า 1 ดังนั้น การยึดถือตามธรรมเนียม โอกาสที่บันทึกในตัวอย่างของเราจะเป็นดังนี้

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

ฟังก์ชันบันทึกความน่าจะเป็นจะผกผันของฟังก์ชัน sigmoid

หน่วยความจำระยะสั้น (LSTM)

#seq

เซลล์ประเภทหนึ่งในโครงข่ายประสาทแบบเกิดซ้ำซึ่งใช้ในการประมวลผลลำดับของข้อมูลในแอปพลิเคชัน เช่น การจดจำลายมือ การแปลด้วยคอมพิวเตอร์ และคำบรรยายรูปภาพ LSTM จะจัดการกับปัญหาการไล่ระดับสีที่หายไปเมื่อฝึก RNN เนื่องจากลำดับข้อมูลยาวๆ โดยการเก็บประวัติไว้ในสถานะหน่วยความจำภายในตามอินพุตและบริบทใหม่จากเซลล์ก่อนหน้าใน RNN

LoRA

#language

#GenerativeAI

เป็นตัวย่อของการปรับตัวได้ในระดับต่ำ

แพ้

#fundamentals

ในระหว่างการฝึกของโมเดลที่มีการควบคุมดูแล ระบบจะวัดว่าการคาดคะเนของโมเดลอยู่ไกลจากป้ายกำกับของโมเดลแค่ไหน

ฟังก์ชันการสูญเสียจะคำนวณการสูญหาย

ผู้รวบรวมข้อมูลการสูญเสีย

อัลกอริทึมแมชชีนเลิร์นนิงประเภทหนึ่งที่ปรับปรุงประสิทธิภาพของโมเดลด้วยการรวมการคาดการณ์ของโมเดลต่างๆ เข้าด้วยกันและใช้การคาดการณ์เหล่านั้นเพื่อสร้างการคาดการณ์รายการเดียว ด้วยเหตุนี้ ผู้รวบรวมข้อมูลการสูญเสียจึงสามารถลดความแปรปรวนของการคาดการณ์และปรับปรุงความแม่นยำของการคาดการณ์ได้

Loss Curve

#fundamentals

พล็อตการสูญหายเป็นฟังก์ชันของจำนวนการทำซ้ำการฝึก กราฟต่อไปนี้แสดงเส้นโค้งการสูญเสียโดยทั่วไป

กราฟคาร์ทีเซียนของการสูญเสียเทียบกับการฝึกซ้ำ แสดงการสูญเสียการลดลงอย่างรวดเร็วสำหรับการทำซ้ำครั้งแรก ตามด้วยการลดลงทีละน้อย จากนั้นมีความชันคงที่ระหว่างการทำซ้ำครั้งสุดท้าย

เส้นโค้ง Loss ช่วยให้คุณทราบเวลาที่โมเดลกำลังสนทนาหรือการปรับค่าเกิน

เส้นโค้งการสูญเสียสามารถพล็อตการสูญเสียได้ทุกประเภทต่อไปนี้

การสูญเสียการฝึก
การสูญเสียการตรวจสอบ
การเสียการทดสอบ

ดูเส้นโค้งการปรับทั่วไปด้วย

ฟังก์ชันการสูญหาย

#fundamentals

ในระหว่างการฝึกหรือการทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่คำนวณการขาดทุนในกลุ่มของตัวอย่าง ฟังก์ชันการสูญหายจะส่งกลับค่าความสูญเสียต่ำกว่าสำหรับโมเดลที่ให้การคาดการณ์ที่ดีมากกว่าโมเดลที่ทำการคาดการณ์ที่ไม่ดี

โดยทั่วไป เป้าหมายของการฝึกคือเพื่อลดการสูญเสียฟังก์ชันการสูญเสีย

มีฟังก์ชันการสูญเสียรูปแบบต่างๆ มากมาย เลือกฟังก์ชันการสูญหายที่เหมาะสมกับ ประเภทโมเดลที่คุณกำลังสร้าง เช่น

การถดถอยเชิงเส้น₂ ครั้ง (หรือค่าความคลาดเคลื่อนกำลังสองเฉลี่ย) เป็นฟังก์ชันการสูญเสียสำหรับการถดถอยเชิงเส้น
Log Loss คือฟังก์ชันการสูญเสียสำหรับการถดถอยแบบโลจิสติก

Loss Surface

กราฟแสดงน้ำหนักกับการสูญเสีย การไล่ระดับสีมีจุดประสงค์เพื่อหาน้ำหนักของผิวที่สูญเสียไปอย่างน้อยที่สุด

ความสามารถในการปรับตัวที่มีอันดับต่ำ (LoRA)

#language

#GenerativeAI

อัลกอริทึมสำหรับการดำเนินการ การปรับแต่งพารามิเตอร์อย่างมีประสิทธิภาพที่ ปรับแต่งเฉพาะบางส่วนของพารามิเตอร์ โมเดลภาษาขนาดใหญ่เท่านั้น LoRA มีประโยชน์ดังต่อไปนี้

ปรับแต่งได้เร็วกว่าเทคนิคที่ต้องมีการปรับแต่งพารามิเตอร์ทั้งหมดของโมเดล
ลดต้นทุนการคำนวณของการอนุมานในโมเดลที่ปรับแต่งอย่างละเอียด

โมเดลที่ปรับแต่งด้วย LoRA จะรักษาหรือปรับปรุงคุณภาพการคาดการณ์

LoRA เปิดใช้โมเดลพิเศษหลายเวอร์ชัน

แบบ LSTM

#seq

ตัวย่อของความจำระยะสั้น

M

แมชชีนเลิร์นนิง

#fundamentals

โปรแกรมหรือระบบที่ฝึกโมเดลจากข้อมูลอินพุต โมเดลที่ผ่านการฝึกอบรมจะคาดการณ์ที่เป็นประโยชน์จากข้อมูลใหม่ (ที่ไม่เคยเห็นมาก่อน) ที่มาจากการกระจายแบบเดียวกันกับที่ใช้ในการฝึกโมเดล

แมชชีนเลิร์นนิงยังหมายถึงสาขาการศึกษาที่เกี่ยวข้องกับโปรแกรมหรือระบบเหล่านี้ด้วย

เสียงส่วนใหญ่

#fundamentals

ป้ายกำกับที่พบได้บ่อยในชุดข้อมูลที่ไม่สมดุลระดับ เช่น หากชุดข้อมูลมีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงลบจะเป็นคลาสส่วนใหญ่

คอนทราสต์กับชนกลุ่มน้อย

กระบวนการตัดสินใจของมาร์คอฟ (MDP)

#rl

กราฟที่แสดงรูปแบบการตัดสินใจที่ใช้การตัดสินใจ (หรือการดำเนินการ) เพื่อไปยังลำดับของสถานะภายใต้สมมติฐานที่ว่าพร็อพเพอร์ตี้ Markov เก็บไว้ ในการเรียนรู้แบบเสริมการเรียนรู้ การเปลี่ยนระหว่างสถานะเหล่านี้จะแสดงผลเป็นรางวัลเป็นตัวเลข

ทรัพย์สินของมาร์คอฟ

#rl

พร็อพเพอร์ตี้ของสภาพแวดล้อมบางอย่าง ซึ่งการเปลี่ยนแปลงสถานะจะขึ้นอยู่กับข้อมูลโดยนัยในสถานะปัจจุบันและการดำเนินการของตัวแทน

โมเดลภาษาที่มาสก์

#language

โมเดลภาษาที่คาดการณ์ความน่าจะเป็นของโทเค็นผู้สมัครที่จะเติมข้อความว่างในลำดับ ตัวอย่างเช่น โมเดลภาษาที่มาสก์สามารถคำนวณความน่าจะเป็นสำหรับคำที่ผู้สมัครจะแทนที่การขีดเส้นใต้ในประโยคต่อไปนี้

____ ในหมวกกลับมาแล้ว

โดยทั่วไป วรรณกรรมจะใช้สตริง "MASK" แทนการขีดเส้นใต้ เช่น

"MASK" ในหมวกกลับมาแล้ว

โมเดลภาษาแบบมาสก์สมัยใหม่ส่วนใหญ่เป็นแบบแบบ 2 ทิศทาง

Matplotlib

ไลบรารีการพล็อตแบบ Python 2D แบบโอเพนซอร์ส matplotlib ช่วยให้คุณเห็นภาพด้านต่างๆ ของแมชชีนเลิร์นนิง

การแยกตัวประกอบเมทริกซ์

#recsystems

ในทางคณิตศาสตร์ กลไกในการค้นหาเมทริกซ์ซึ่งมีผลิตภัณฑ์จุดใกล้เคียงกับเมทริกซ์เป้าหมาย

ในระบบการแนะนำ เมทริกซ์เป้าหมายมักจะให้คะแนนผู้ใช้สำหรับรายการ ตัวอย่างเช่น เมทริกซ์เป้าหมายสำหรับระบบการแนะนำภาพยนตร์อาจมีลักษณะดังนี้ โดยจำนวนเต็มบวกคือการให้คะแนนของผู้ใช้ และ 0 หมายความว่าผู้ใช้ไม่ได้ให้คะแนนภาพยนตร์ดังกล่าว

	คาสซาบลางกา	เรื่องราวของฟิลาเดลเฟีย	แบล็ค แพนเธอร์ (Black Panther)	ผู้หญิงมหัศจรรย์	เรื่องเยื่อบุฟเฟต์
ผู้ใช้ 1	5.0	3.0	0.0	2.0	0.0
ผู้ใช้ 2	4.0	0.0	0.0	1.0	5.0
ผู้ใช้ 3	3.0	1.0	4.0	5.0	0.0

ระบบการแนะนำภาพยนตร์มีเป้าหมายเพื่อคาดการณ์การให้คะแนนของผู้ใช้สำหรับ ภาพยนตร์ที่ไม่มีการจัดประเภท ตัวอย่างเช่น ผู้ใช้ 1 จะชอบ Black Panther ไหม

วิธีหนึ่งสำหรับระบบการแนะนำคือการใช้การแยกตัวประกอบเมทริกซ์เพื่อสร้างเมทริกซ์ 2 รายการต่อไปนี้

เมทริกซ์ผู้ใช้ ซึ่งมีรูปทรงตามจำนวนผู้ใช้ X จำนวนมิติข้อมูลที่ฝัง
เมทริกซ์รายการ ซึ่งมีรูปร่างเป็นจำนวนของมิติข้อมูลที่ฝัง X จำนวนรายการ

ตัวอย่างเช่น การใช้การแยกตัวประกอบเมทริกซ์กับผู้ใช้ 3 รายและ 5 รายการอาจให้ผลลัพธ์เมทริกซ์ผู้ใช้และเมทริกซ์รายการดังต่อไปนี้

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

ผลคูณแบบจุดของเมทริกซ์ผู้ใช้และเมทริกซ์รายการจะทำให้ได้รับเมทริกซ์คำแนะนำ ซึ่งประกอบด้วยการให้คะแนนของผู้ใช้ดั้งเดิม รวมถึงการคาดคะเนภาพยนตร์ที่ผู้ใช้แต่ละคนไม่เคยเห็นด้วย เช่น ลองพิจารณาคะแนนคาซาบลังกาของผู้ใช้ 1 ซึ่งเท่ากับ 5.0 ผลคูณแบบจุดที่เกี่ยวข้องกับเซลล์นั้นในเมทริกซ์คำแนะนำควรอยู่ที่ประมาณ 5.0 และมีลักษณะดังนี้

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

และที่สำคัญกว่านั้น ผู้ใช้ 1 จะชอบ Black Panther ไหม การใส่เครื่องหมายจุดที่เชื่อมโยงกับแถวแรกและคอลัมน์ที่ 3 จะทำให้ได้คะแนนที่คาดการณ์ไว้เป็น 4.3 ดังนี้

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

การแยกตัวประกอบเมทริกซ์มักทำให้เมทริกซ์ผู้ใช้และเมทริกซ์รายการเมื่อรวมกันแล้วจะกะทัดรัดมากกว่าเมทริกซ์เป้าหมายอย่างมาก

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ (MAE)

การสูญเสียเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย L₁ คำนวณค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ดังนี้

คำนวณการสูญหายของ L₁ สำหรับแบตช์
หารการสูญเสีย L₁ ด้วยจำนวนตัวอย่างในแบตช์

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

ที่ไหน:

$n$ คือจำนวนตัวอย่าง
$y$ คือค่าจริงของป้ายกำกับ
$\hat{y}$ คือค่าที่โมเดลคาดการณ์ไว้สำหรับ $y$

เช่น ลองคำนวณการขาดทุน L₁ ในกลุ่มตัวอย่าง 5 รายการต่อไปนี้

มูลค่าจริงของตัวอย่าง	ค่าที่คาดการณ์ไว้ของโมเดล	ความสูญเสีย (ความแตกต่างระหว่างข้อมูลจริงกับที่คาดการณ์ไว้)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = แพ้ L₁

ดังนั้น การสูญเสีย L₁ คือ 8 และจำนวนตัวอย่างคือ 5 ดังนั้น ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์คือ

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ของค่าความคลาดเคลื่อนกำลังสองเฉลี่ยและค่าความคลาดเคลื่อนกำลังสองเฉลี่ย

ความคลาดเคลื่อนเฉลี่ยกำลังสอง (MSE)

การสูญเสียเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย L₂ คำนวณค่าเฉลี่ยความคลาดเคลื่อนกำลังสองดังนี้

คำนวณการสูญหายของ L₂ สำหรับแบทช์
หารการสูญเสีย L₂ ด้วยจำนวนตัวอย่างในแบตช์

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ ที่ไหน:

$n$ คือจำนวนตัวอย่าง
$y$ คือค่าจริงของป้ายกำกับ
$\hat{y}$ คือการคาดคะเนของโมเดลสำหรับ $y$

ตัวอย่างเช่น ลองพิจารณาความสูญเสียของตัวอย่าง 5 กลุ่มต่อไปนี้

มูลค่าที่แท้จริง	การคาดการณ์ของโมเดล	แพ้	ค่าแพ้ในสี่เหลี่ยม
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = แพ้ L₂

ดังนั้น ค่าเฉลี่ยความคลาดเคลื่อนกำลังสองคือ

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

ค่าเฉลี่ยข้อผิดพลาดกำลังสองเป็นตัวเพิ่มประสิทธิภาพการฝึกยอดนิยม โดยเฉพาะอย่างยิ่งสำหรับการถดถอยเชิงเส้น

ค่าความคลาดเคลื่อนกำลังสองเฉลี่ยกับค่าความคลาดเคลื่อนสัมบูรณ์และค่าความคลาดเคลื่อนกำลังสองเฉลี่ย

TensorFlow Playground ใช้ความคลาดเคลื่อนกำลังสองเฉลี่ยเพื่อคำนวณค่าการสูญเสีย

คลิกไอคอนเพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับค่าผิดปกติ

ค่าผิดปกติมีอิทธิพลอย่างมากต่อค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง เช่น การสูญเสีย 1 คือการสูญเสียกำลังสองของ 1 แต่การสูญเสีย 3 คือการสูญเสียกำลังสองของ 9 ในตารางก่อนหน้านี้ ตัวอย่างที่เสีย 3 บัญชีสำหรับ ~56% ของข้อผิดพลาดเฉลี่ยกำลังสอง ในขณะที่แต่ละตัวอย่างที่เสีย 1 บัญชีสำหรับข้อผิดพลาดเฉลี่ยกำลังสองเพียง 6%

ค่าผิดปกติจะไม่ส่งผลต่อค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์มากเท่ากับความคลาดเคลื่อนกำลังสองเฉลี่ย ตัวอย่างเช่น การสูญหายของ 3 บัญชีเพียงประมาณ 38% ของค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์

การตัดเป็นวิธีหนึ่งในการป้องกันไม่ให้ข้อผิดพลาดมากเกินไปสร้างความเสียหายต่อความสามารถในการคาดการณ์ของโมเดล

Mesh

#TensorFlow

#GoogleCloud

ในการเขียนโปรแกรมคู่ขนานของ ML ซึ่งเป็นคำที่เชื่อมโยงกับการกำหนดข้อมูลและโมเดลให้กับชิป TPU รวมถึงการระบุวิธีการชาร์ดหรือจำลองค่าเหล่านี้

ตาข่ายเป็นคำที่ใช้มากเกินไปซึ่งอาจมีความหมายอย่างใดอย่างหนึ่งต่อไปนี้

เลย์เอาต์จริงของชิป TPU
โครงสร้างเชิงตรรกะนามธรรมสำหรับการแมปข้อมูลและโมเดลกับชิป TPU

ในทั้ง 2 กรณี จะมีการระบุ Mesh เป็นรูปร่าง

การเรียนรู้เมตา

#language

ชุดย่อยของแมชชีนเลิร์นนิงที่ค้นหาหรือปรับปรุงอัลกอริทึมการเรียนรู้ ระบบการเรียนรู้เมตายังสามารถมุ่งฝึกโมเดลให้เรียนรู้งานใหม่ได้อย่างรวดเร็วจากข้อมูลปริมาณน้อยหรือจากประสบการณ์ที่ได้รับในงานก่อนหน้า โดยทั่วไปอัลกอริทึมการเรียนรู้แบบเมตาจะพยายามบรรลุเป้าหมายต่อไปนี้

ปรับปรุงหรือเรียนรู้ฟีเจอร์ที่คุณออกแบบเอง (เช่น เครื่องมือเริ่มต้นหรือเครื่องมือเพิ่มประสิทธิภาพ)
เพิ่มประสิทธิภาพข้อมูลและการประมวลผลได้อย่างมีประสิทธิภาพยิ่งขึ้น
ปรับปรุงข้อมูลทั่วไป

การเรียนรู้แบบเมตานั้นเกี่ยวข้องกับการเรียนรู้แบบรวดเร็ว

เมตริก

#TensorFlow

สถิติที่คุณสนใจ

วัตถุประสงค์คือเมตริกที่ระบบแมชชีนเลิร์นนิงพยายามจะเพิ่มประสิทธิภาพ

Metrics API (tf.metrics)

TensorFlow API สำหรับการประเมินโมเดล เช่น tf.metrics.accuracy จะกำหนดความถี่ที่การคาดการณ์ของโมเดลตรงกับป้ายกำกับ

มินิแบตช์

#fundamentals

ชุดย่อยขนาดเล็กที่เลือกไว้แบบสุ่มของกลุ่มซึ่งประมวลผลในทำซ้ำ 1 รายการ ขนาดกลุ่มของมินิแบตช์มักจะอยู่ระหว่าง 10 ถึง 1,000 ตัวอย่าง

ตัวอย่างเช่น สมมติว่าชุดการฝึกทั้งหมด (ชุดเต็ม) มีตัวอย่าง 1,000 รายการ นอกจากนี้ สมมติว่าคุณตั้งค่าขนาดกลุ่มของแต่ละกลุ่มขนาดเล็กเป็น 20 ดังนั้น การทำซ้ำแต่ละรายการจึงตัดสินความสูญเสียในการสุ่ม 20 จาก 1,000 ตัวอย่าง จากนั้นจึงปรับน้ำหนักและอคติตามนั้น

การคํานวณการสูญเสียในมินิกลุ่มจะมีประสิทธิภาพมากกว่าการขาดทุนในตัวอย่างทั้งหมดในกลุ่มแบบเต็ม

การไล่ระดับสีแบบไล่ระดับสีแบบมินิแบทช์

อัลกอริทึมการไล่ระดับสีที่ใช้มินิแบทช์ กล่าวคือ การไล่ระดับสีแบบสเตคแคสติกแบบมินิแบตช์จะประมาณการไล่ระดับสีตามข้อมูลการฝึกบางส่วน การไล่ระดับสีแบบสตอคแคสติกปกติจะใช้ชุดขนาดเล็กขนาด 1

การสูญเสีย Minimax

ฟังก์ชันการสูญเสียสำหรับเครือข่าย Generative Adversarial ซึ่งอิงตามข้ามเอนโทรปีระหว่างการกระจายข้อมูลที่สร้างขึ้นกับข้อมูลจริง

ในบทความฉบับแรกมีการใช้การลดดังกล่าวของ Minimax เพื่ออธิบายถึงเครือข่าย Generative Adversarial

ชนชั้นน้อย

#fundamentals

ป้ายกำกับที่พบน้อยกว่าในชุดข้อมูลที่ไม่สมดุลระหว่างคลาส เช่น หากชุดข้อมูลมีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงบวกจะเป็นกลุ่มชนกลุ่มน้อย

คอนทราสต์กับชั้นส่วนใหญ่

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

ชุดการฝึกที่มีตัวอย่าง 1 ล้านรายการฟังดูเป็นเรื่องที่น่าประทับใจ อย่างไรก็ตาม หากมีการนำเสนอชนกลุ่มน้อย แม้กระทั่งชุดการฝึกอบรมที่ใหญ่มากๆ ก็อาจไม่เพียงพอ เน้นที่จำนวนตัวอย่างทั้งหมดในชุดข้อมูลให้น้อยลง และเน้นไปที่จำนวนตัวอย่างในกลุ่มชนกลุ่มน้อย

หากชุดข้อมูลมีตัวอย่างชนกลุ่มน้อยไม่เพียงพอ ให้พิจารณาใช้การดาวน์แซมเปิล (คำจำกัดความในหัวข้อย่อยที่ 2) เพื่อเสริมคลาสของชนกลุ่มน้อย

ML

ตัวย่อของแมชชีนเลิร์นนิง

MNIST

#image

ชุดข้อมูลสาธารณสมบัติที่รวบรวมโดย LeCun, Cortes และ Burges ซึ่งมีรูปภาพ 60,000 รูป แต่ละภาพแสดงให้เห็นว่ามนุษย์เขียนตัวเลขตัวเลขเฉพาะจาก 0-9 ด้วยตนเองได้อย่างไร รูปภาพแต่ละรูปจะจัดเก็บเป็นอาร์เรย์ 28x28 ของจำนวนเต็ม โดยจำนวนเต็มแต่ละรูปจะเป็นค่าโทนสีเทาระหว่าง 0 ถึง 255

MNIST คือชุดข้อมูล Canonical สำหรับแมชชีนเลิร์นนิง ซึ่งมักจะใช้ในการทดสอบวิธีการใหม่ๆ ของแมชชีนเลิร์นนิง ดูรายละเอียดได้ที่ ฐานข้อมูล MNIST ของตัวเลขที่เขียนด้วยลายมือ

รูปแบบ

#language

หมวดหมู่ข้อมูลระดับสูง ตัวอย่างเช่น ตัวเลข ข้อความ รูปภาพ วิดีโอ และเสียง มีรูปแบบที่แตกต่างกัน 5 แบบ

model

#fundamentals

โดยทั่วไป โครงสร้างทางคณิตศาสตร์ใดๆ ที่ประมวลผลข้อมูลอินพุตและผลตอบแทน หรืออาจกล่าวต่างกันไป โมเดลคือชุดของพารามิเตอร์และโครงสร้างที่จำเป็นสำหรับระบบในการคาดการณ์ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะใช้ตัวอย่างเป็นอินพุตและอนุมานการคาดคะเนเป็นเอาต์พุต ภายในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะแตกต่างกันอยู่บ้าง เช่น

รูปแบบการถดถอยเชิงเส้นประกอบด้วยชุดน้ำหนักและอคติ
โมเดลโครงข่ายระบบประสาทเทียมประกอบด้วย
- ชุดเลเยอร์ที่ซ่อนอยู่ โดยแต่ละชุดมีเซลล์ประสาทอย่างน้อย 1 ชั้น
- น้ำหนักและการให้น้ำหนักที่เกี่ยวข้องกับเซลล์ประสาทแต่ละเซลล์
โมเดลแผนผังการตัดสินใจประกอบด้วยข้อมูลต่อไปนี้
- รูปร่างของต้นไม้ กล่าวคือ รูปแบบที่สภาวะและใบไม้เชื่อมโยงกัน
- สภาพและใบไม้

คุณบันทึก กู้คืน หรือทำสำเนาโมเดลได้

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลยังสร้างโมเดล ซึ่งโดยทั่วไปจะเป็นฟังก์ชันที่แมปตัวอย่างอินพุตกับคลัสเตอร์ที่เหมาะสมที่สุดได้

คลิกไอคอนเพื่อเปรียบเทียบฟังก์ชันพีชคณิตและฟังก์ชันการเขียนโปรแกรมกับโมเดล ML

ฟังก์ชันพีชคณิตดังตัวอย่างต่อไปนี้

  f(x, y) = 3x -5xy + y² + 17

ฟังก์ชันก่อนหน้าจะแมปค่าอินพุต (x และ y) กับเอาต์พุต

ในทํานองเดียวกัน ฟังก์ชันการเขียนโปรแกรมดังต่อไปนี้ก็เป็นโมเดลเช่นกัน

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

ตัวเรียกใช้จะส่งอาร์กิวเมนต์ไปยังฟังก์ชัน Python ก่อนหน้า และฟังก์ชัน Python จะสร้างเอาต์พุต (ผ่านคำสั่ง return)

แม้ว่าโครงข่ายประสาทแบบลึกจะมีโครงสร้างทางคณิตศาสตร์ที่แตกต่างจากฟังก์ชันพีชคณิตหรือฟังก์ชันการเขียนโปรแกรมอย่างมาก แต่โครงข่ายประสาทแบบลึกก็ยังรับอินพุต (ตัวอย่าง) และแสดงผล (การคาดคะเน) ได้

โปรแกรมเมอร์ที่เป็นมนุษย์เขียนโค้ดฟังก์ชันการเขียนโปรแกรมด้วยตนเอง ในทางตรงกันข้าม โมเดลแมชชีนเลิร์นนิงจะค่อยๆ เรียนรู้พารามิเตอร์ที่เหมาะสมที่สุดในระหว่างการฝึกอัตโนมัติ

ความจุของโมเดล

ความซับซ้อนของปัญหาที่โมเดลสามารถเรียนรู้ได้ ยิ่งปัญหาที่โมเดลเรียนรู้ได้มีความซับซ้อนเท่าไร ความจุของโมเดลก็จะยิ่งสูงขึ้นเท่านั้น โดยทั่วไปความจุของโมเดลจะเพิ่มขึ้นตามจำนวนพารามิเตอร์โมเดล สำหรับคำจำกัดความอย่างเป็นทางการของความจุตัวแยกประเภท โปรดดูมิติข้อมูล VC

การต่อแบบโมเดล

#GenerativeAI

ระบบที่เลือกmodelที่เหมาะกับคำค้นหาการอนุมานที่เจาะจง

ลองจินตนาการถึงกลุ่มโมเดลต่างๆ ตั้งแต่ขนาดใหญ่มาก (พารามิเตอร์จำนวนมาก) ไปจนถึงขนาดเล็กมาก (พารามิเตอร์น้อยกว่ามาก) โมเดลขนาดใหญ่มากจะใช้ทรัพยากรในการประมวลผลมากกว่าโมเดลขนาดเล็กกว่า การอนุมาน อย่างไรก็ตาม โมเดลที่ใหญ่มากมักจะอนุมานคำขอที่ซับซ้อนได้กว่าโมเดลขนาดเล็ก การต่อแบบโมเดลจะกำหนดความซับซ้อนของการค้นหาการอนุมาน จากนั้นเลือกโมเดลที่เหมาะสมเพื่อทำการอนุมาน แรงจูงใจหลักสำหรับ Cascading โมเดลคือการลดต้นทุนการอนุมานโดยทั่วไปให้เลือกโมเดลที่เล็กลง และเลือกเฉพาะโมเดลที่ใหญ่ขึ้นสำหรับคำค้นหาที่ซับซ้อนมากขึ้น

สมมติว่ามีโมเดลขนาดเล็กทำงานบนโทรศัพท์ ส่วนเวอร์ชันขนาดใหญ่นั้นทำงานบนเซิร์ฟเวอร์ระยะไกล การเรียงซ้อนโมเดลที่ดีจะช่วยลดค่าใช้จ่ายและเวลาในการตอบสนองได้โดยการทำให้โมเดลที่เล็กกว่าจัดการคำขอทั่วไปและเรียกเฉพาะโมเดลระยะไกลเพื่อจัดการคำขอที่ซับซ้อนเท่านั้น

โปรดดูเราเตอร์รุ่นด้วย

โมเดลขนานกัน

#language

วิธีปรับขนาดการฝึกหรือการอนุมานที่นำส่วนต่างๆ ของmodelหนึ่งมาไว้ในmodelที่แตกต่างกัน การทำโมเดลพร้อมกันทำให้โมเดลที่ใหญ่เกินไปจะวางในอุปกรณ์เดียวได้

ในการใช้โมเดลพร้อมกัน โดยทั่วไประบบจะทำสิ่งต่อไปนี้

ชาร์ด (แบ่ง) โมเดลออกเป็นส่วนย่อยๆ
กระจายการฝึกชิ้นส่วนเล็กๆ เหล่านั้นไปยังโปรเซสเซอร์หลายเครื่อง โปรเซสเซอร์แต่ละตัวจะฝึกส่วนของตัวเองในโมเดล
รวมผลลัพธ์เพื่อสร้างรูปแบบเดียว

การทำงานพร้อมกันของโมเดลจะทำให้การฝึกทำงานช้า

ดูข้อมูลพร้อมกันด้วย

เราเตอร์โมเดล

#GenerativeAI

อัลกอริทึมที่กำหนดmodelที่เหมาะกับmodelในmodel เราเตอร์โมเดลมักจะเป็นโมเดลแมชชีนเลิร์นนิงที่จะค่อยๆ เรียนรู้วิธีเลือกโมเดลที่ดีที่สุดสำหรับอินพุต แต่บางครั้งเราเตอร์โมเดลอาจเป็นอัลกอริทึม ที่ไม่ใช่แมชชีนเลิร์นนิงที่เรียบง่ายกว่า

การฝึกโมเดล

กระบวนการในการกำหนดmodelที่ดีที่สุด

สร้างกระแส

อัลกอริทึมการไล่ระดับสีแบบซับซ้อนที่ขั้นตอนการเรียนรู้ไม่เพียงแค่ขึ้นอยู่กับอนุพันธ์ในขั้นตอนปัจจุบันเท่านั้น แต่ยังขึ้นอยู่กับอนุพันธ์ของขั้นตอนที่เกิดขึ้นก่อนหน้าด้วย โมเมนตัมเกี่ยวข้องกับการคำนวณค่าเฉลี่ยการเคลื่อนที่แบบทวีคูณของการไล่ระดับสีเมื่อเวลาผ่านไป ซึ่งคล้ายกับโมเมนตัมในฟิสิกส์ บางครั้งโมเมนตัมป้องกันไม่ให้การเรียนรู้ เกิดติดขัดกับสิ่งที่เกิดขึ้นในท้องถิ่น

การจัดประเภทแบบหลายคลาส

#fundamentals

ในการเรียนรู้ภายใต้การควบคุมดูแล ปัญหาการแยกประเภทที่ชุดข้อมูลมีป้ายกำกับมากกว่า 2 คลาส เช่น ป้ายกำกับในชุดข้อมูล Iris ต้องเป็น 1 ใน 3 คลาสต่อไปนี้

ไอริสเซโตซา
ไอริสเวอร์จิกา
สีแบบไอริส

โมเดลที่ได้รับการฝึกจากชุดข้อมูล Iris ที่คาดการณ์ประเภท Iris ในตัวอย่างใหม่กำลังทำการจัดประเภทแบบหลายคลาส

ในทางตรงกันข้าม ปัญหาการจัดประเภทที่แยกความแตกต่างระหว่าง 2 คลาสได้คือโมเดลการจัดประเภทแบบไบนารี เช่น โมเดลอีเมลที่คาดคะเนสแปมหรือไม่ใช่สแปมคือโมเดลการจัดประเภทแบบไบนารี

ในปัญหาการจัดกลุ่ม การจัดประเภทแบบหลายคลาสหมายถึงคลัสเตอร์มากกว่า 2 รายการ

การถดถอยแบบโลจิสติกส์แบบหลายคลาส

การใช้การถดถอยแบบโลจิสติกในโจทย์การแยกประเภทแบบหลายคลาส

การดูแลตนเองแบบหลายหัว

#language

การขยายเวลาของ Self-attention ที่ใช้กลไกการจัดการตนเองหลายครั้งสำหรับแต่ละตำแหน่งในลำดับอินพุต

Transformers เปิดตัวการดูแลตัวเองแบบหลายส่วนหัว

โมเดลแบบหลายโมดัล

#language

โมเดลที่มีอินพุตและ/หรือเอาต์พุตมีรูปแบบมากกว่า 1 รูปแบบ ตัวอย่างเช่น ลองพิจารณาโมเดลที่ใช้ทั้งรูปภาพและคำบรรยายภาพ (วิธีการ 2 แบบ) เป็นฟีเจอร์ แล้วจะแสดงคะแนนที่ระบุว่าคำบรรยายภาพเหมาะกับรูปภาพเพียงใด ดังนั้นอินพุตของโมเดลนี้จะเป็นแบบหลายโมดัลและเอาต์พุตเป็นแบบยูนิโมดัล

การจำแนกประเภทพหุนาม

คำพ้องความหมายของการจัดประเภทแบบหลายคลาส

การถดถอยพหุนาม

คำพ้องความหมายของการถดถอยโลจิสติกแบบหลายคลาส

ทำงานหลายอย่างพร้อมกัน

เทคนิคแมชชีนเลิร์นนิงที่มีการฝึกmodelเดียวเพื่อทำmodelหลายรายการ

โมเดลมัลติทาสก์สร้างขึ้นโดยการฝึกข้อมูลที่เหมาะสมสำหรับงานที่แตกต่างกัน วิธีนี้จะช่วยให้โมเดลเรียนรู้การแชร์ข้อมูลระหว่างงาน ซึ่งจะช่วยให้โมเดลเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้น

โมเดลที่ฝึกทำงานหลายๆ อย่างมักจะปรับปรุงความสามารถในการดูทั่วไปและสามารถจัดการข้อมูลประเภทต่างๆ ได้อย่างมีประสิทธิภาพยิ่งขึ้น

N

กับดัก NaN

เมื่อตัวเลขหนึ่งในโมเดลกลายเป็น NaN ระหว่างการฝึก ซึ่งทำให้ตัวเลขอื่นๆ จำนวนมากหรือทั้งหมดในโมเดลกลายเป็น NaN ในที่สุด

NaN เป็นตัวย่อของไม่มี อะ นัมเบอร์

ความเข้าใจภาษาธรรมชาติ

#language

การพิจารณาความตั้งใจของผู้ใช้จากสิ่งที่ผู้ใช้พิมพ์หรือพูด ตัวอย่างเช่น เครื่องมือค้นหาใช้ความเข้าใจภาษาที่เป็นธรรมชาติเพื่อระบุสิ่งที่ผู้ใช้กำลังค้นหาตามสิ่งที่ผู้ใช้พิมพ์หรือพูด

คลาสเชิงลบ

#fundamentals

ในการจัดประเภทไบนารี คลาสหนึ่งเรียกว่าเชิงบวก และอีกคลาสหนึ่งเรียกว่าเชิงลบ คลาสเชิงบวกคือสิ่งที่หรือเหตุการณ์ที่โมเดลกำลังทดสอบ ส่วนคลาสเชิงลบก็เป็นความเป็นไปได้อีกอย่างหนึ่ง เช่น

คลาสเชิงลบในการทดสอบทางการแพทย์อาจ "ไม่ใช่เนื้องอก"
คลาสเชิงลบในตัวแยกประเภทอีเมลอาจเป็น "ไม่ใช่สแปม"

คอนทราสต์กับคลาสเชิงบวก

การสุ่มตัวอย่างเชิงลบ

คำพ้องความหมายของผู้สมัครการสุ่มตัวอย่าง

Neural Architecture Search (NAS)

เทคนิคในการออกแบบสถาปัตยกรรมของโครงข่ายระบบประสาทเทียมโดยอัตโนมัติ อัลกอริทึม NAS สามารถลดระยะเวลาและทรัพยากร ที่ต้องใช้ในการฝึกโครงข่ายประสาท

โดยทั่วไป NAS จะใช้

พื้นที่สำหรับค้นหา ซึ่งเป็นชุดของสถาปัตยกรรมที่เป็นไปได้
ฟังก์ชันฟิตเนสซึ่งเป็นการวัดประสิทธิภาพของสถาปัตยกรรมหนึ่งๆ ในการทำงานหนึ่งๆ

อัลกอริทึม NAS มักเริ่มต้นด้วยสถาปัตยกรรมที่เป็นไปได้กลุ่มเล็กๆ แล้วค่อยๆ ขยายพื้นที่ในการค้นหาเมื่ออัลกอริทึมเรียนรู้เพิ่มเติมว่าสถาปัตยกรรมใดมีประสิทธิภาพ ฟังก์ชันการออกกำลังกายมักอิงตามประสิทธิภาพของสถาปัตยกรรมในชุดการฝึก และอัลกอริทึมมักจะได้รับการฝึกโดยใช้เทคนิคการเรียนรู้แบบเสริมกำลัง

อัลกอริทึม NAS ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพในการค้นหาสถาปัตยกรรมที่มีประสิทธิภาพสูงสำหรับงานต่างๆ ซึ่งรวมถึงการแยกประเภทรูปภาพ การจัดประเภทข้อความ และการแปลด้วยคอมพิวเตอร์

โครงข่ายระบบประสาทเทียม

#fundamentals

modelที่มีmodelอย่างน้อย 1 ชั้น โครงข่ายประสาทแบบลึกเป็นโครงข่ายประสาทประเภทหนึ่งที่มีเลเยอร์ซ่อนอยู่มากกว่า 1 ชั้น ตัวอย่างเช่น แผนภาพต่อไปนี้ แสดงโครงข่ายประสาทแบบลึกที่มีเลเยอร์ซ่อนอยู่ 2 เลเยอร์

โครงข่ายประสาทที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

เซลล์ประสาทแต่ละเซลล์ในโครงข่ายประสาทจะเชื่อมต่อกับโหนดทั้งหมดในเลเยอร์ถัดไป เช่น ในแผนภาพก่อนหน้านี้ จะเห็นว่าเซลล์ 3 เซลล์แต่ละเซลล์ในเลเยอร์แรกที่ซ่อนอยู่เชื่อมต่อกับเซลล์ประสาททั้ง 2 เซลล์แยกกันในเลเยอร์ที่ซ่อนอยู่ลำดับที่ 2

บางครั้งเรียกว่าโครงข่ายประสาทเทียมเพื่อแยกความแตกต่างจากโครงข่ายประสาทที่พบในสมองและระบบประสาทอื่นๆ

โครงข่ายประสาทบางเครือข่ายอาจเลียนแบบความสัมพันธ์ที่ไม่ใช่เชิงเส้นที่ซับซ้อนมากระหว่างฟีเจอร์ต่างๆ กับป้ายกำกับ

โปรดดูข้อมูลเพิ่มเติมที่หัวข้อโครงข่ายระบบประสาทเทียมและโครงข่ายระบบประสาทเทียม

เซลล์ประสาท

#fundamentals

ในแมชชีนเลิร์นนิง หน่วยหนึ่งภายในเลเยอร์ที่ซ่อนอยู่ของโครงข่ายระบบประสาท เซลล์ประสาทแต่ละเซลล์ จะทำงานสองขั้นตอนดังต่อไปนี้

จะคำนวณผลรวมถ่วงน้ำหนักของค่าอินพุตคูณด้วยน้ำหนักที่เกี่ยวข้อง
ส่งต่อผลรวมถ่วงน้ำหนักเป็นอินพุตไปยังฟังก์ชันการเปิดใช้งาน

เซลล์ประสาทในเลเยอร์แรกที่ซ่อนอยู่จะยอมรับอินพุตจากค่าฟีเจอร์ในเลเยอร์อินพุต เซลล์ประสาทในชั้นที่ซ่อนอยู่หลังชั้นแรกจะรับอินพุตจากเซลล์ประสาทในชั้นที่ซ่อนอยู่ก่อนหน้า เช่น เซลล์ประสาทในชั้นที่ 2 ที่ซ่อนอยู่จะยอมรับอินพุตจากเซลล์ประสาทในชั้นแรกที่ซ่อนอยู่

ภาพต่อไปนี้จะไฮไลต์เซลล์ประสาท 2 เซลล์และอินพุตของเซลล์เหล่านั้น

โครงข่ายประสาทที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต มีการไฮไลต์เซลล์ประสาท 2 เซลล์ โดยเซลล์หนึ่งใน
เลเยอร์แรกที่ซ่อนอยู่และหนึ่งในเลเยอร์ที่ซ่อนอยู่ลำดับที่ 2 เซลล์ประสาท
ที่ไฮไลต์ในเลเยอร์แรกที่ซ่อนอยู่จะได้รับอินพุตจากฟีเจอร์ทั้งสอง
ในเลเยอร์อินพุต เซลล์ประสาทที่ไฮไลต์ในเลเยอร์ที่สองที่ซ่อนอยู่จะได้รับอินพุตจากเซลล์ประสาททั้ง 3 เซลล์ในเลเยอร์แรกที่ซ่อนอยู่

เซลล์ประสาทในโครงข่ายประสาทจะเลียนแบบพฤติกรรมของเซลล์ประสาทในสมองและส่วนอื่นๆ ของระบบประสาท

N-แกรม

#seq

#language

ลำดับคำตามลำดับ N คำ ตัวอย่างเช่น บ้าจริงๆ คือ 2 กรัม ลำดับมีความเกี่ยวข้อง อย่างบ้าคลั่ง จึงไม่ต่างจาก 2 กรัมบ้าสุดๆ

N	ชื่อสำหรับ N-gram ประเภทนี้	ตัวอย่าง
2	Bigram หรือ 2 กรัม	จะไป ไป กินข้าวเที่ยง กินข้าวเย็น
3	Trigram หรือ 3-gram	กินมากเกินไป หนูตาบอด 3 ตัว และค่าผ่านทาง
4	4 กรัม	เดินในสวนสาธารณะ ฝุ่นปลิวไปตามสายลม เด็กชายกินถั่วเลนทิล

โมเดลการทำความเข้าใจภาษาที่เป็นธรรมชาติหลายโมเดลจะอาศัย N-gram เพื่อคาดเดาคำถัดไปที่ผู้ใช้จะพิมพ์หรือพูด ตัวอย่างเช่น สมมติว่าผู้ใช้พิมพ์ตาบอด 3 อัน โมเดล NLU ที่อิงตาม Trigrams น่าจะคาดการณ์ว่าผู้ใช้จะพิมพ์ เมาส์ เป็นลำดับถัดไป

คอนทราสต์ N กรัมกับถุงคำ ซึ่งเป็นชุดคำที่ไม่เรียงลำดับ

NLU

#language

ตัวย่อของการทำความเข้าใจภาษาที่เป็นธรรมชาติ

โหนด (แผนผังการตัดสินใจ)

#df

ในแผนผังการตัดสินใจ ให้ระบุเงื่อนไขหรือใบไม้ใดก็ได้

แผนผังการตัดสินใจที่มี 2 เงื่อนไขและใบ 3 ใบ

โหนด (โครงข่ายระบบประสาทเทียม)

#fundamentals

เซลล์ประสาทในชั้นเซลล์ที่ซ่อนอยู่

โหนด (กราฟ TensorFlow)

#TensorFlow

การดำเนินการในกราฟของ TensorFlow

เสียงรบกวน

พูดกว้างๆ ก็คือทุกสิ่งที่บดบังสัญญาณในชุดข้อมูล เราสามารถนำสัญญาณรบกวน มาใช้ในข้อมูลได้หลายวิธี เช่น

เจ้าหน้าที่ตรวจสอบอาจติดป้ายกำกับผิดพลาด
มนุษย์และเครื่องมือบันทึกค่าฟีเจอร์ผิดพลาดหรือละเว้นค่าฟีเจอร์

ภาวะนอนไบนารี

#df

เงื่อนไข ที่มีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ ตัวอย่างเช่น เงื่อนไขที่ไม่ใช่ไบนารีซึ่งมีผลลัพธ์ที่เป็นไปได้ 3 แบบดังนี้

เงื่อนไข (number_of_legs = ?) ที่จะนำไปสู่ผลลัพธ์ที่เป็นไปได้ 3 รายการ ผลลัพธ์หนึ่ง (number_of_legs = 8) นำไปสู่ใบไม้ที่ชื่อแมงมุม ผลลัพธ์ที่ 2 (number_of_legs = 4) นำไปสู่สุนัขที่มีชื่อใบไม้ ผลลัพธ์ที่ 3 (number_of_legs = 2) นำไปสู่
ใบไม้ชื่อเพนกวิน

ไม่เป็นเชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่ไม่สามารถแสดงด้วยการบวกและการคูณเพียงอย่างเดียวได้ ความสัมพันธ์แบบเชิงเส้นอาจแสดงเป็นเส้น ความสัมพันธ์แบบไม่ใช่เชิงเส้นจะแสดงเป็นเส้นไม่ได้ ตัวอย่างเช่น ลองพิจารณารูปแบบ 2 รูปแบบที่แต่ละรูปแบบ เชื่อมโยงคุณลักษณะเดียวกับป้ายกำกับเดียว รูปแบบทางซ้ายเป็นเชิงเส้น โมเดลทางขวาไม่เป็นเชิงเส้น

2 แปลง พล็อตหนึ่งคือเส้น ดังนั้นนี่คือความสัมพันธ์เชิงเส้น
อีกพล็อตหนึ่งเป็นเส้นโค้ง ดังนั้นเรื่องนี้จึงเป็นความสัมพันธ์ที่ไม่ใช่เชิงเส้น

อคติที่ไม่ตอบ

#fairness

ดูการให้น้ำหนักพิเศษในการเลือก

ความไม่คงที่

#fundamentals

ฟีเจอร์ที่มีค่าการเปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งโดยปกติจะเป็นเวลา ตัวอย่างเช่น ลองพิจารณาตัวอย่างของความไม่คงที่ต่อไปนี้

จำนวนชุดว่ายน้ำที่จำหน่ายในร้านค้าหนึ่งๆ จะแตกต่างกันไปในแต่ละฤดูกาล
ปริมาณผลไม้ชนิดหนึ่งที่เก็บในภูมิภาคหนึ่งๆ มีค่าเป็น 0 สำหรับระยะเวลาเกือบทั้งปี แต่มากเป็นระยะเวลาสั้นๆ
เนื่องจากการเปลี่ยนแปลงสภาพภูมิอากาศ อุณหภูมิเฉลี่ยรายปีจึงมีการเปลี่ยนแปลง

คอนทราสต์กับความคงที่

การแปลงเป็นรูปแบบมาตรฐาน

#fundamentals

หรือพูดกว้างๆ ก็คือ กระบวนการแปลงช่วงค่าจริงของตัวแปรให้อยู่ในช่วงค่ามาตรฐาน เช่น

-1 ถึง +1
0 ถึง 1
การกระจายปกติ

ตัวอย่างเช่น สมมติว่าช่วงค่าจริงของฟีเจอร์บางอย่างคือ 800 ถึง 2,400 ในฐานะส่วนหนึ่งของวิศวกรรมฟีเจอร์ คุณสามารถปรับค่าจริงให้อยู่ในช่วงมาตรฐาน เช่น -1 ถึง +1

การปรับให้เป็นมาตรฐานเป็นงานที่พบได้ทั่วไปในวิศวกรรมฟีเจอร์ โมเดลมักจะฝึกได้เร็วขึ้น (และสร้างการคาดการณ์ที่ดีขึ้น) เมื่อฟีเจอร์ตัวเลขทุกฟีเจอร์ในเวกเตอร์ฟีเจอร์มีช่วงค่อนข้างเท่ากัน

การตรวจจับแปลกใหม่

กระบวนการพิจารณาว่าตัวอย่างใหม่ (ใหม่) มาจากการแจกแจงแบบเดียวกันกับชุดการฝึกหรือไม่ กล่าวคือ หลังจากการฝึกในชุดการฝึก การตรวจหาแปลกจะกำหนดว่าตัวอย่างใหม่ (ในระหว่างการอนุมานหรือระหว่างการฝึกเพิ่มเติม) มีค่าผิดปกติหรือไม่

คอนทราสต์ด้วยการตรวจจับ Outlier

ข้อมูลตัวเลข

#fundamentals

ฟีเจอร์ซึ่งแสดงเป็นจำนวนเต็มหรือจำนวนจริง ตัวอย่างเช่น รูปแบบการประเมินราคาบ้านอาจแสดงขนาดบ้าน (เป็นตารางฟุตหรือตารางเมตร) เป็นข้อมูลตัวเลข การแสดงฟีเจอร์เป็นข้อมูลตัวเลขหมายความว่าค่าของฟีเจอร์มีความสัมพันธ์ทางคณิตศาสตร์กับป้ายกำกับ กล่าวคือ จำนวนตารางเมตรในบ้านอาจมีความสัมพันธ์ทางคณิตศาสตร์กับมูลค่าของบ้าน

ข้อมูลที่เป็นจำนวนเต็มบางรายการไม่ควรแสดงเป็นข้อมูลตัวเลข ตัวอย่างเช่น รหัสไปรษณีย์ในบางพื้นที่ของโลกเป็นจำนวนเต็ม อย่างไรก็ตาม รหัสไปรษณีย์ที่เป็นจำนวนเต็มไม่ควรแสดงเป็นข้อมูลตัวเลขในโมเดล ซึ่งเป็นเพราะรหัสไปรษณีย์ของ 20000 ไม่ใช่ 2 (หรือครึ่งหนึ่ง) ที่มีประสิทธิภาพเท่ากับรหัสไปรษณีย์ 10,000 นอกจากนี้ แม้ว่ารหัสไปรษณีย์ที่ต่างกันจะเกี่ยวข้องกับมูลค่าอสังหาริมทรัพย์ที่ต่างกัน แต่ก็ไม่อาจสรุปได้ว่ามูลค่าอสังหาริมทรัพย์ตามรหัสไปรษณีย์ 20, 000 มีมูลค่าเป็นสองเท่าของมูลค่าอสังหาริมทรัพย์ที่รหัสไปรษณีย์ 10, 000 รหัสไปรษณีย์ควรแสดงเป็นข้อมูลตามหมวดหมู่แทน

บางครั้งเราเรียกฟีเจอร์ที่เป็นตัวเลขว่าฟีเจอร์ต่อเนื่อง

NumPy

ไลบรารีคณิตศาสตร์แบบโอเพนซอร์สที่มีการดำเนินการอาร์เรย์ที่มีประสิทธิภาพใน Python pandas สร้างขึ้นบน NumPy

O

วัตถุประสงค์

เมตริกที่อัลกอริทึมของคุณพยายามเพิ่มประสิทธิภาพ

ฟังก์ชันวัตถุประสงค์

สูตรทางคณิตศาสตร์หรือเมตริกที่โมเดลมีจุดประสงค์เพื่อเพิ่มประสิทธิภาพ เช่น ฟังก์ชันวัตถุประสงค์สำหรับการถดถอยเชิงเส้นมักจะเป็นค่าการสูญเสียกำลังสองเฉลี่ย ดังนั้น เมื่อฝึกโมเดลการถดถอยเชิงเส้น การฝึกจะมุ่งไปที่การลดค่าเฉลี่ยการถดถอยเชิงเส้นให้เหลือน้อยที่สุด

ในบางกรณี เป้าหมายคือการเพิ่มฟังก์ชันวัตถุประสงค์ เช่น หากฟังก์ชันวัตถุประสงค์คือความแม่นยำ เป้าหมายคือการเพิ่มความแม่นยำสูงสุด

ดู loss เพิ่มเติม

เงื่อนไขแบบเอียง

#df

ในแผนผังการตัดสินใจ จะมีเงื่อนไขที่ประกอบด้วยฟีเจอร์มากกว่า 1 รายการ ตัวอย่างเช่น ถ้าความสูงและความกว้างเป็นคุณสมบัติทั้ง 2 อย่าง ต่อไปนี้จะเป็นเงื่อนไขแบบเอียง

  height > width

คอนทราสต์กับเงื่อนไขที่จัดแนวแกน

ออฟไลน์

#fundamentals

คำพ้องความหมายของ static

การอนุมานแบบออฟไลน์

#fundamentals

กระบวนการของโมเดลที่สร้างการคาดการณ์จำนวนหนึ่ง แล้วแคช (บันทึก) การคาดการณ์เหล่านั้น จากนั้นแอปจะเข้าถึงการคาดการณ์ที่สรุปได้จากแคชแทนการเรียกใช้โมเดลอีกครั้ง

เช่น ลองโมเดลที่สร้างการพยากรณ์อากาศท้องถิ่น (การพยากรณ์อากาศ) 1 ครั้งทุก 4 ชั่วโมง หลังจากแต่ละโมเดลทำงาน ระบบจะแคชการพยากรณ์อากาศในท้องถิ่นทั้งหมด แอปสภาพอากาศจะดึงข้อมูลการพยากรณ์อากาศ จากแคช

การอนุมานแบบออฟไลน์เรียกอีกอย่างว่าการอนุมานแบบคงที่

ตรงข้ามกับการอนุมานทางออนไลน์

การเข้ารหัสแบบครั้งเดียว

#fundamentals

นำเสนอข้อมูลเชิงกลุ่มเป็นเวกเตอร์ที่

มีการตั้งค่าองค์ประกอบหนึ่งเป็น 1
องค์ประกอบอื่นๆ ทั้งหมดตั้งค่าเป็น 0

โดยทั่วไป การเข้ารหัสแบบ One-Hot ใช้เพื่อแสดงสตริงหรือตัวระบุที่มีชุดค่าที่เป็นไปได้อย่างจำกัด ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ Scandinavia มีค่าที่เป็นไปได้ 5 ค่า ดังนี้

"เดนมาร์ก"
"สวีเดน"
"นอร์เวย์"
"ฟินแลนด์"
"ไอซ์แลนด์"

การเข้ารหัสแบบ 1-Hot สามารถแสดงค่าแต่ละค่าใน 5 ค่าดังนี้

country	เวกเตอร์
"เดนมาร์ก"	1	0	0	0	0
"สวีเดน"	0	1	0	0	0
"นอร์เวย์"	0	0	1	0	0
"ฟินแลนด์"	0	0	0	1	0
"ไอซ์แลนด์"	0	0	0	0	1

การเข้ารหัสแบบ 1 ครั้งช่วยให้โมเดลเรียนรู้การเชื่อมต่อที่แตกต่างกัน ตามแต่ละประเทศทั้ง 5 ประเทศได้

การนำเสนอฟีเจอร์เป็นข้อมูลตัวเลขเป็นอีกทางเลือกหนึ่งของการเข้ารหัสแบบ 1 ฮอต น่าเสียดายที่การแสดงประเทศสแกนดิเนเวียเป็นตัวเลขไม่ใช่ตัวเลือกที่ดี ตัวอย่างเช่น ลองพิจารณาการนำเสนอด้วยตัวเลขต่อไปนี้

"เดนมาร์ก" เท่ากับ 0
"สวีเดน" คือ 1
"นอร์เวย์" เป็น 2
"ฟินแลนด์" คือ 3
"ไอซ์แลนด์" คือ 4

การเข้ารหัสตัวเลขจะทำให้โมเดลตีความตัวเลขดิบทางคณิตศาสตร์ และจะพยายามฝึกกับจำนวนเหล่านั้น แต่จริงๆ แล้ว ไอซ์แลนด์ไม่ได้มากเป็น 2 เท่า (หรือครึ่งหนึ่ง) ของบางอย่าง เมื่อเทียบกับนอร์เวย์ แบบจำลองนี้จึงได้ข้อสรุปที่แปลกประหลาด

การเรียนรู้จากโอกาสเดียว

แนวทางแมชชีนเลิร์นนิงมักใช้ในการจำแนกออบเจ็กต์ ซึ่งออกแบบมาเพื่อเรียนรู้ตัวแยกประเภทที่มีประสิทธิภาพจากตัวอย่างการฝึกรายการเดียว

นอกจากนี้ โปรดดูการเรียนรู้แบบจํากัดจุดและการเรียนรู้แบบ Zero shot

ข้อความแจ้งในช็อตเดียว

#language

#GenerativeAI

ข้อความแจ้งที่มีตัวอย่าง 1 รายการที่แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ควรตอบสนองอย่างไร เช่น พรอมต์ต่อไปนี้มีตัวอย่างหนึ่งที่แสดงโมเดลภาษาขนาดใหญ่ว่าควรตอบคำถามอย่างไร

ส่วนต่างๆ ของข้อความแจ้งรายการเดียว	Notes
`สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร`	คำถามที่ต้องการให้ LLM ตอบ
`ฝรั่งเศส: EUR`	เช่น
`อินเดีย:`	ข้อความค้นหาจริง

เปรียบเทียบระหว่างข้อความแจ้งแบบช็อตเดียวกับคำศัพท์ต่อไปนี้

ข้อความแจ้งการตั้งค่าตำแหน่งศูนย์ช็อต
ข้อความแจ้งเพียงไม่กี่ช็อต

หนึ่งต่อทั้งหมด

#fundamentals

เนื่องจากปัญหาการจัดประเภทของคลาส N ได้ คำตอบจะประกอบด้วยตัวแยกประเภทไบนารีแยกกัน N รายการ ซึ่งเป็นตัวแยกประเภทไบนารีสำหรับผลลัพธ์ที่เป็นไปได้แต่ละรายการ ตัวอย่างเช่น สำหรับโมเดลที่จำแนกตัวอย่างเป็นสัตว์ ผัก หรือแร่ธาตุ โซลูชันแบบหนึ่งเทียบกับทั้งหมดจะให้ตัวแยกประเภทไบนารีแยกกัน 3 ตัวดังต่อไปนี้

สัตว์กับไม่ใช่สัตว์
ผักกับผัก
แร่ธาตุและไม่ใช่แร่

online

#fundamentals

คำพ้องความหมายของ dynamic

การอนุมานทางออนไลน์

#fundamentals

สร้างการคาดการณ์ตามความต้องการ เช่น สมมติว่าแอปส่งอินพุตไปยังโมเดลและออกคำขอสำหรับการคาดการณ์ ระบบที่ใช้การอนุมานออนไลน์จะตอบสนองต่อคำขอโดยการเรียกใช้โมเดล (และส่งคืนการคาดการณ์ไปยังแอป)

ตรงข้ามกับการอนุมานแบบออฟไลน์

การดำเนินการ (op)

#TensorFlow

ใน TensorFlow กระบวนการทั้งหมดที่สร้าง ควบคุม หรือทำลาย Tensor ตัวอย่างเช่น การคูณเมทริกซ์คือการดำเนินการที่ใช้ Tensor 2 ตัวเป็นอินพุตและสร้าง Tensor 1 ตัวเป็นเอาต์พุต

Optax

ไลบรารีการประมวลผลการไล่ระดับสีและการเพิ่มประสิทธิภาพสำหรับ JAX Optax ช่วยอำนวยความสะดวกในการวิจัยด้วยการมอบองค์ประกอบที่ใช้สร้างสรรค์ซึ่งสามารถรวมกันในรูปแบบที่กำหนดเองเพื่อเพิ่มประสิทธิภาพโมเดลพารามิเตอร์ เช่น โครงข่ายประสาทแบบลึก เป้าหมายอื่นๆ ได้แก่

ช่วยให้ใช้งานคอมโพเนนต์หลักที่อ่านง่าย ผ่านการทดสอบ และมีประสิทธิภาพ
ปรับปรุงประสิทธิภาพการทำงานโดยทำให้สามารถรวมส่วนผสมระดับต่ำเข้ากับเครื่องมือเพิ่มประสิทธิภาพที่กำหนดเอง (หรือองค์ประกอบการประมวลผลการไล่ระดับสีอื่นๆ)
การเร่งนำไอเดียใหม่ๆ ไปใช้โดยทำให้ทุกคนสามารถมีส่วนร่วมได้ง่ายๆ

นักเพิ่มประสิทธิภาพ

การใช้งานอัลกอริทึมการไล่ระดับสีที่เฉพาะเจาะจง เครื่องมือเพิ่มประสิทธิภาพที่ได้รับความนิยม ได้แก่

AdaGrad ซึ่งย่อมาจาก ADAptive GRADient
Adam ซึ่งย่อมาจาก ADAptive with Motionum

อคติจากความเป็นเอกพันธ์ภายนอกกลุ่ม

#fairness

มีแนวโน้มที่จะเห็นสมาชิกกลุ่มนอกกลุ่มเดียวกันมากกว่าสมาชิกกลุ่มเมื่อเปรียบเทียบทัศนคติ ค่านิยม ลักษณะบุคลิกภาพ และลักษณะนิสัยอื่นๆ ในกลุ่มหมายถึงคนที่คุณโต้ตอบด้วยเป็นประจำ ส่วนนอกกลุ่มหมายถึงคนที่คุณไม่ได้โต้ตอบด้วยเป็นประจำ หากคุณสร้างชุดข้อมูลโดยขอให้ผู้ใช้ระบุแอตทริบิวต์เกี่ยวกับกลุ่ม แอตทริบิวต์เหล่านั้นอาจมีความละเอียดอ่อนน้อยกว่าและได้รับการเหมารวมมากกว่าแอตทริบิวต์ที่ผู้เข้าร่วมระบุไว้สำหรับผู้ที่อยู่ในกลุ่ม

เช่น Lilliputians อาจอธิบายบ้านของ Lilliputian คนอื่นๆ อย่างละเอียด โดยอ้างอิงความแตกต่างเล็กๆ น้อยๆ ของรูปแบบสถาปัตยกรรม หน้าต่าง ประตู และขนาด แต่พวก Lilliputian กลุ่มเดียวกันนี้อาจประกาศเพียงว่า Brobdingnagians ทั้งหมดอาศัยอยู่ในบ้านที่เหมือนกัน

อคติแบบเอกพันธ์ภายนอกกลุ่มเป็นรูปแบบหนึ่งของอคติการระบุแหล่งที่มาของกลุ่ม

โปรดดูอคติในกลุ่ม

การตรวจจับ Outlier

กระบวนการระบุค่าผิดปกติในชุดการฝึก

คอนทราสต์กับการตรวจจับแปลกใหม่

ค่าผิดปกติ

ค่าที่อยู่ไกลจากค่าอื่นๆ ส่วนใหญ่ ในแมชชีนเลิร์นนิง ข้อใดต่อไปนี้เป็นค่าที่ผิดปกติ

ป้อนข้อมูลที่มีค่ามากกว่าค่าเบี่ยงเบนมาตรฐานประมาณ 3 ค่าจากค่าเฉลี่ย
น้ำหนัก ที่มีค่าสัมบูรณ์สูง
ค่าที่คาดการณ์ไว้ค่อนข้างห่างจากค่าจริง

ตัวอย่างเช่น สมมติว่า widget-price เป็นฟีเจอร์ของโมเดลอย่างหนึ่ง สมมติว่าค่าเฉลี่ย widget-price คือ 7 ยูโร โดยมีค่าเบี่ยงเบนมาตรฐานเท่ากับ 1 ยูโร ตัวอย่างที่มี widget-price เท่ากับ 12 ยูโรหรือ 2 ยูโรจะถือเป็นค่าผิดปกติ เนื่องจากแต่ละราคาเป็นค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย 5 ค่า

ค่าผิดปกติมักเกิดจากการพิมพ์ผิดหรือข้อผิดพลาดอื่นๆ ในการป้อนข้อมูล ในกรณีอื่นๆ ค่าที่ผิดปกติไม่ใช่ข้อผิดพลาด เพราะสุดท้ายแล้ว ค่าเบี่ยงเบนมาตรฐาน 5 ค่าจากค่าเฉลี่ยนั้นพบได้ยากแต่แทบจะเป็นไปไม่ได้

ค่าผิดปกติมักทำให้เกิดปัญหาในการฝึกโมเดล การตัด เป็นวิธีหนึ่งในการจัดการข้อมูลที่ผิดปกติ

การประเมินนอกกระเป๋า (การประเมิน OOB)

#df

กลไกในการประเมินคุณภาพของป่าการตัดสินใจ โดยทดสอบแผนผังการตัดสินใจแต่ละรายการกับตัวอย่าง ที่ไม่ได้ใช้ระหว่างการฝึกอบรมของแผนผังการตัดสินใจนั้น เช่น ในแผนภาพต่อไปนี้ ให้สังเกตว่าระบบจะฝึกแผนผังการตัดสินใจแต่ละรายการในตัวอย่างประมาณ 2 ใน 3 ของตัวอย่าง จากนั้นจึงประเมินผลกับตัวอย่าง 1 ใน 3 ที่เหลือ

ฟอเรสต์การตัดสินใจประกอบด้วยแผนผังการตัดสินใจ 3 ต้นไม้
แผนผังการตัดสินใจ 1 รายการจะฝึกโดยใช้ 2 ใน 3 ของตัวอย่าง จากนั้นใช้ 1 ใน 3 ที่เหลือสำหรับการประเมิน OOB
แผนผังการตัดสินใจที่ 2 จะฝึกบนตัวอย่าง 2 ใน 3 ต่างจากแผนผังการตัดสินใจก่อนหน้า จากนั้นใช้ 1 ใน 3 สำหรับการประเมิน OOB จากแผนผังการตัดสินใจก่อนหน้า

การประเมินนอกกระเป๋าเป็นการประมาณอย่างมีประสิทธิภาพในเชิงคำนวณของกลไกการตรวจสอบแบบข้ามระบบ ในการตรวจสอบข้ามข้อ จะมีการฝึกโมเดล 1 รายการสำหรับการตรวจสอบข้ามรอบแต่ละรอบ (เช่น โมเดล 10 รายการจะได้รับการฝึกในการตรวจสอบข้าม 10 เท่า) เมื่อใช้การประเมิน OOB โมเดลเดียวจะได้รับการฝึก เนื่องจากการแบกข้อมูลจะระงับข้อมูลบางอย่างจากต้นไม้แต่ละต้นระหว่างการฝึก การประเมิน OOB จะใช้ข้อมูลนั้นเพื่อประมาณการตรวจสอบข้ามข้อมูลได้

เลเยอร์เอาต์พุต

#fundamentals

ชั้น "สุดท้าย" ของโครงข่ายประสาท เลเยอร์เอาต์พุตมีการคาดการณ์

ภาพต่อไปนี้แสดงโครงข่ายประสาทแบบลึกขนาดเล็กที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

Overfitting

#fundamentals

การสร้างmodelที่ตรงกับmodelอย่างใกล้เคียงมากจนโมเดลไม่สามารถคาดการณ์ข้อมูลใหม่ได้อย่างถูกต้อง

การปรับให้เป็นปกติสามารถลดการปรับมากเกินไป การฝึกอบรมในชุดการฝึกอบรมที่มีขนาดใหญ่และหลากหลายจะช่วยลดการออกกำลังกายมากเกินไปได้

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เหมือนเป็นการทำตามคำแนะนำอย่างเคร่งครัดจากครูคนโปรดของคุณเท่านั้น คุณอาจประสบความสำเร็จในชั้นเรียนของครูคนนั้น แต่คุณอาจ "คลุมเครือ" กับไอเดียของครูคนนั้น และอาจไม่ประสบความสำเร็จในวิชาอื่นๆ การปฏิบัติตามคำแนะนำของครูจำนวนมากจะช่วยให้คุณปรับตัวเข้ากับสถานการณ์ใหม่ๆ ได้ดีขึ้น

การสุ่มตัวอย่างมากเกินไป

การใช้ตัวอย่างชนกลุ่มน้อยซ้ำในชุดข้อมูลที่ไม่สมดุลระดับเพื่อสร้างชุดการฝึกที่สมดุลยิ่งขึ้น

เช่น ลองพิจารณาโจทย์เกี่ยวกับการจำแนกประเภทไบนารีที่อัตราส่วนของชนชั้นส่วนใหญ่ต่อชนชั้นสูงคือ 5,000:1 ถ้าชุดข้อมูลมีตัวอย่าง 1 ล้านตัวอย่าง แสดงว่าชุดข้อมูลดังกล่าวจะมีตัวอย่างเพียง 200 รายการของชนชั้นย่อยเท่านั้น ซึ่งอาจเป็นตัวอย่างน้อยเกินไปสำหรับการฝึกที่มีประสิทธิภาพ เพื่อที่จะเอาชนะความบกพร่องนี้ คุณอาจสุ่มตัวอย่าง (นำมาใช้ซ้ำ) ตัวอย่าง 200 ตัวอย่างมากเกินไปหลายครั้ง ซึ่งอาจช่วยให้มีตัวอย่างที่เพียงพอสำหรับการฝึกอบรมที่เป็นประโยชน์

คุณต้องระมัดระวังเรื่องการปรับมากเกินไปเมื่อสุ่มตัวอย่างมากเกินไป

คอนทราสต์ด้วยการสุ่มกลุ่มตัวอย่างน้อยเกินไป

คะแนน

ข้อมูลที่แพ็ค

วิธีการจัดเก็บข้อมูลอย่างมีประสิทธิภาพยิ่งขึ้น

ข้อมูลที่แพ็กจะจัดเก็บข้อมูลโดยใช้รูปแบบที่บีบอัดหรือด้วยวิธีอื่นๆ ที่ช่วยให้เข้าถึงข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น ข้อมูลที่แพ็กจะลดปริมาณหน่วยความจำและการคำนวณที่ต้องใช้ในการเข้าถึง ทำให้การฝึกทำงานได้เร็วขึ้นและการอนุมานโมเดลที่มีประสิทธิภาพมากขึ้น

ข้อมูลที่อัดแน่นด้วยเทคนิคอื่นๆ เช่น การเสริมข้อมูลและการจัดระเบียบ เพื่อปรับปรุงประสิทธิภาพของโมเดลเพิ่มเติม

แพนด้า

#fundamentals

API การวิเคราะห์ข้อมูลแบบคอลัมน์ซึ่งสร้างขึ้นจาก numpy เฟรมเวิร์กแมชชีนเลิร์นนิงจำนวนมาก รวมถึง TensorFlow รองรับโครงสร้างข้อมูลแพนด้าเป็นอินพุต ดูรายละเอียดในเอกสารประกอบของ Pandas

พารามิเตอร์

#fundamentals

น้ำหนักและอคติที่โมเดลเรียนรู้ระหว่างการฝึก ตัวอย่างเช่น ในรูปแบบการถดถอยเชิงเส้น พารามิเตอร์ประกอบด้วยการให้น้ำหนักพิเศษ (b) และน้ำหนักทั้งหมด (w₁, w₂ และอื่นๆ) ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในทางตรงกันข้าม hyperparameter คือค่าที่คุณ (หรือบริการเปลี่ยนไฮเปอร์พารามิเตอร์) ให้กับโมเดล เช่น อัตราการเรียนรู้ คือไฮเปอร์พารามิเตอร์

การปรับแต่งให้มีประสิทธิภาพเกี่ยวกับพารามิเตอร์

#language

#GenerativeAI

ชุดเทคนิคในการปรับแต่งโมเดลภาษา (PLM) (PLM) ขนาดใหญ่ได้อย่างมีประสิทธิภาพมากกว่าการปรับแต่งเต็มรูปแบบ การปรับแต่งแบบมีประสิทธิภาพพารามิเตอร์มักจะปรับแต่งพารามิเตอร์น้อยกว่าการปรับแต่งแบบเต็มรูปแบบมาก แต่โดยทั่วไปจะสร้างโมเดลภาษาขนาดใหญ่ซึ่งมีประสิทธิภาพดี (หรือเกือบเท่ากัน) เหมือนโมเดลภาษาขนาดใหญ่ที่สร้างจากการปรับแต่งทั้งหมด

เปรียบเทียบการปรับแต่งประสิทธิภาพพารามิเตอร์กับสิ่งต่อไปนี้

การปรับแต่งวิธีการ
การปรับแต่งข้อความแจ้ง

การปรับแต่งอย่างมีประสิทธิภาพพารามิเตอร์เรียกอีกอย่างว่าการปรับแต่งให้มีประสิทธิภาพพารามิเตอร์

เซิร์ฟเวอร์พารามิเตอร์ (PS)

#TensorFlow

งานที่ติดตามพารามิเตอร์ของโมเดลในการตั้งค่าแบบกระจาย

การอัปเดตพารามิเตอร์

การดำเนินการปรับพารามิเตอร์ของโมเดลระหว่างการฝึก โดยปกติจะเกิดขึ้นภายในการไล่ระดับสีลงเพียงครั้งเดียว

อนุพันธ์ย่อย

อนุพันธ์ที่ตัวแปรทั้งหมดยกเว้นตัวใดตัวหนึ่งเป็นค่าคงตัว เช่น อนุพันธ์ย่อยของ f(x, y) ที่เกี่ยวข้องกับ x คืออนุพันธ์ของ f ที่ถือว่าเป็นฟังก์ชันของ x เพียงอย่างเดียว (คือทำให้ y คงที่) อนุพันธ์ย่อยของ f ที่เกี่ยวข้องกับ x จะมุ่งเน้นเฉพาะวิธีที่ x เปลี่ยนแปลงและละเว้นตัวแปรอื่นๆ ทั้งหมดในสมการเท่านั้น

อคติในการเข้าร่วม

#fairness

คำพ้องความหมายของอคติที่ไม่ตอบ ดูการให้น้ำหนักพิเศษในการเลือก

กลยุทธ์การแบ่งพาร์ติชัน

อัลกอริทึมที่ใช้แบ่งตัวแปรในเซิร์ฟเวอร์พารามิเตอร์

แพ็กซ์

เฟรมเวิร์กการเขียนโปรแกรมที่ออกแบบมาเพื่อฝึกโครงข่ายประสาท โมเดลขนาดใหญ่เพื่อให้ครอบคลุม TPU ชิปตัวเร่ง ส่วนแบ่ง หรือพ็อดหลายชิ้น

Pax สร้างขึ้นจาก Flax ซึ่งสร้างขึ้นจาก JAX

แผนภาพแสดงตำแหน่งของ Pax ในสแต็กซอฟต์แวร์
Pax สร้างขึ้นบน JAX ตัว Pax เองมี 3 เลเยอร์ ชั้นล่างสุดประกอบด้วย TensorStore และ Flax
ชั้นกลางประกอบด้วย Optax และ Flaxformer เลเยอร์ด้านบนจะมีไลบรารีโมเดลของ Praxis Fiddle สร้างขึ้นบน Pax

Perceptron

ระบบ (ฮาร์ดแวร์หรือซอฟต์แวร์) ที่ใช้ค่าอินพุตอย่างน้อย 1 ค่าจะเรียกใช้ฟังก์ชันกับผลรวมถ่วงน้ำหนักของอินพุต และคำนวณค่าเอาต์พุตค่าเดียว ในแมชชีนเลิร์นนิง ฟังก์ชันนี้มักจะไม่เป็นเชิงเส้น เช่น ReLU, sigmoid หรือ tanh ตัวอย่างเช่น Perceptron ต่อไปนี้ใช้ฟังก์ชัน sigmoid ในการประมวลผลค่าอินพุต 3 ค่า

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

ในภาพประกอบต่อไปนี้ Perceptron จะอินพุต 3 อินพุต โดยอินพุตแต่ละรายการ จะถูกปรับเปลี่ยนตามน้ำหนักก่อนที่จะป้อน Perceptron:

เพอร์เซปตรอนที่ใส่อินพุต 3 รายการ โดยให้แต่ละอินพุตคูณด้วยน้ำหนักแยกกัน โดย Perceptron จะแสดงผลค่าเดียว

เพอร์เซพตรอนคือเซลล์ประสาทในโครงข่ายระบบประสาท

การแสดง

คำที่มีคำมากเกินไปซึ่งมีความหมายดังต่อไปนี้

ความหมายมาตรฐานภายในวิศวกรรมซอฟต์แวร์ ชื่อว่า ซอฟต์แวร์นี้ ทำงานได้เร็ว (หรือมีประสิทธิภาพ) แค่ไหน
ความหมายในแมชชีนเลิร์นนิง ในมุมมองนี้ ประสิทธิภาพจะตอบคำถามต่อไปนี้: modelนี้ถูกต้องอย่างไร นั่นคือ การคาดการณ์ของโมเดล ดีแค่ไหน

ความสำคัญของตัวแปรการเรียงสับเปลี่ยน

#df

ประเภทของลำดับความสำคัญของตัวแปรที่ประเมินการเพิ่มขึ้นของข้อผิดพลาดในการคาดการณ์ของโมเดลหลังจากการเปลี่ยนเส้นทางค่าของฟีเจอร์ ความสำคัญของตัวแปรการเรียงสับเปลี่ยนเป็นเมตริกที่ขึ้นอยู่กับโมเดล

งุนงง

การวัดอย่างหนึ่งว่าmodelทำงานได้ดีเพียงใด ตัวอย่างเช่น สมมติว่างานของคุณคือการอ่านตัวอักษร 2-3 ตัวแรกของคำ ที่ผู้ใช้กำลังพิมพ์บนแป้นพิมพ์ของโทรศัพท์ และเพื่อเสนอรายการคำที่อาจเติมให้สมบูรณ์ได้ ความซับซ้อน P สำหรับงานนี้คือจำนวนการคาดเดาโดยประมาณที่คุณต้องเสนอเพื่อให้รายการมีคำจริงที่ผู้ใช้พยายามจะพิมพ์

ความซับซ้อนเกี่ยวข้องกับครอสเอนโทรปีดังนี้

$$P= 2^{-\text{cross entropy}}$$

ไปป์ไลน์

โครงสร้างพื้นฐานรอบอัลกอริทึมแมชชีนเลิร์นนิง ไปป์ไลน์จะรวมถึงการรวบรวมข้อมูล การใส่ข้อมูลลงในไฟล์ข้อมูลการฝึก การฝึกโมเดลอย่างน้อย 1 รายการ และการส่งออกโมเดลไปยังเวอร์ชันที่ใช้งานจริง

ไปป์ไลน์

#language

รูปแบบของโมเดลที่ทำงานขนานกัน ซึ่งการประมวลผลของโมเดลจะแบ่งเป็นขั้นตอนต่างๆ ติดต่อกัน และดำเนินการกับแต่ละระยะในอุปกรณ์ที่แตกต่างกัน ในขณะที่ขั้นตอนหนึ่งกำลังประมวลผล 1 กลุ่ม ระยะก่อนหน้าจะทำงานในกลุ่มถัดไปได้

ดูข้อมูลเพิ่มเติมได้ในการฝึกอบรมแบบทีละขั้น

Pjit

ฟังก์ชัน JAX ที่แยกโค้ดเพื่อเรียกใช้ในชิป Accelerator หลายรายการ ผู้ใช้ส่งฟังก์ชันไปยัง pjit ซึ่งแสดงผลฟังก์ชันที่มีอรรถศาสตร์เทียบเท่ากัน แต่ได้รับการคอมไพล์ในการคำนวณ XLA ที่ทำงานในหลายอุปกรณ์ (เช่น GPU หรือแกน TPU)

pjit ช่วยให้ผู้ใช้ชาร์ดการคำนวณได้โดยไม่ต้องเขียนใหม่โดยใช้พาร์ติชัน SPMD

เราได้ผสานรวม pjit กับ jit แล้วในเดือนมีนาคม 2023 ดูรายละเอียดเพิ่มเติมได้ที่อาร์เรย์แบบกระจายและการโหลดพร้อมกันโดยอัตโนมัติ

โปแลนด์

#language

#GenerativeAI

ตัวย่อของโมเดลภาษาก่อนการฝึก

Pmap

ฟังก์ชัน JAX ที่ดำเนินการกับสำเนาของฟังก์ชันอินพุตในอุปกรณ์ฮาร์ดแวร์พื้นฐานหลายเครื่อง (CPU, GPU หรือ TPU) ที่มีค่าอินพุตแตกต่างกัน Pmap จะใช้ SPMD

policy

#rl

ในการเรียนรู้แบบเสริม การจับคู่ความน่าจะเป็นของตัวแทนจากสถานะไปจนถึงการดำเนินการ

การร่วมกลุ่ม

#image

การลดเมทริกซ์ (หรือเมทริกซ์) ที่สร้างโดยเลเยอร์คอนโวลูชันก่อนหน้านี้ลงในเมทริกซ์ที่เล็กลง โดยทั่วไปแล้ว การจัดกลุ่มจะเกี่ยวข้องกับการหาค่าสูงสุดหรือค่าเฉลี่ยทั่วทั้งพื้นที่ร่วม ตัวอย่างเช่น สมมติว่าเรามีเมทริกซ์ 3x3 ต่อไปนี้

เมทริกซ์ 3x3 [[5,3,1], [8,2,5], [9,4,3]]

การดำเนินการจัดกลุ่มเช่นเดียวกับการดำเนินการแบบ Convolutional จะแบ่งเมทริกซ์ออกเป็นส่วนๆ แล้วสไลด์ที่ประกอบกันเป็นก้าว ตัวอย่างเช่น สมมติว่าการดำเนินการจัดกลุ่มแบ่งเมทริกซ์แบบ Convolutional เป็นส่วน 2x2 ด้วยจังหวะ 1x1 ดังที่เห็นแผนภาพต่อไปนี้ ได้เกิดการดำเนินการร่วม 4 รายการ สมมติว่าการดำเนินการร่วมแต่ละรายการเลือกค่าสูงสุดของ 4 ในส่วนดังกล่าว

การรวมจะช่วยบังคับใช้ความแปรปรวนของการแปลในเมทริกซ์อินพุต

การรวมกลุ่มสำหรับแอปพลิเคชันด้านการมองเห็นมีชื่อเรียกอีกอย่างว่า Spatial Collection แอปพลิเคชันอนุกรมเวลามักเรียกว่าการรวมชั่วคราว แต่อย่างเป็นทางการ การจัดกลุ่มมักจะเรียกว่าการสุ่มตัวอย่างหรือการดาวน์แซมปลิง

การเข้ารหัสตามตำแหน่ง

#language

เทคนิคในการเพิ่มข้อมูลเกี่ยวกับตำแหน่งของโทเค็นในลำดับให้กับการฝังของโทเค็น โมเดลหม้อแปลงใช้การเข้ารหัสตำแหน่งเพื่อให้เข้าใจความสัมพันธ์ระหว่างส่วนต่างๆ ของลำดับได้ดียิ่งขึ้น

การใช้การเข้ารหัสตามตำแหน่งที่พบได้ทั่วไปจะใช้ฟังก์ชันไซนัสซอยด์ (โดยเฉพาะอย่างยิ่ง ความถี่และแอมพลิจูดของฟังก์ชันไซนัสซอยด์จะกำหนดโดยตำแหน่งของโทเค็นในลำดับ) เทคนิคนี้ช่วยให้โมเดล Transformer เรียนรู้การเข้าร่วมส่วนต่างๆ ของลำดับตามตำแหน่งได้

คลาสเชิงบวก

#fundamentals

ชั้นเรียนที่คุณจะทดสอบ

ตัวอย่างเช่น คลาสเชิงบวกในโมเดลมะเร็งอาจเป็น "เนื้องอก" คลาสเชิงบวกในตัวแยกประเภทอีเมลอาจเป็น "สแปม"

คอนทราสต์กับคลาสเชิงลบ

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

คำว่าคลาสเชิงบวกอาจทำให้สับสนได้เนื่องจากผลลัพธ์ "เชิงบวก" ของการทดสอบหลายรายการมักเป็นผลลัพธ์ที่ไม่พึงประสงค์ เช่น คลาสที่เป็นบวกในการทดสอบทางการแพทย์หลายรายการ เกี่ยวข้องกับเนื้องอกหรือโรคต่างๆ โดยทั่วไป คุณอยากให้แพทย์ มาบอกว่า "ยินดีด้วย ผลการทดสอบของคุณเป็นลบ" แต่ทั้งนี้ คลาสเชิงบวกจะเป็นเหตุการณ์ที่การทดสอบพยายามค้นหา

แน่นอนว่าคุณกำลังทดสอบทั้งคลาสเชิงบวกและเชิงลบ

หลังการประมวลผล

#fairness

#fundamentals

การปรับเอาต์พุตของโมเดลหลังจากที่เรียกใช้โมเดลแล้ว คุณใช้หลังการประมวลผลเพื่อบังคับใช้ข้อจำกัดด้านความเป็นธรรมได้โดยไม่ต้องแก้ไขโมเดลด้วยตนเอง

เช่น อาจมีการใช้หลังการประมวลผลกับตัวแยกประเภทแบบไบนารีโดยกำหนดเกณฑ์การจัดประเภทให้คงความเท่าเทียมกันของโอกาสสำหรับบางแอตทริบิวต์โดยการตรวจสอบว่าอัตราผลบวกจริงมีค่าเหมือนกันสำหรับค่าทั้งหมดของแอตทริบิวต์นั้น

PR AUC (พื้นที่ใต้กราฟ PR)

พื้นที่ใต้กราฟ Precision-Recall ที่ประมาณค่าแล้ว ซึ่งได้จากการพล็อตจุด (ความอ่อนไหว ความแม่นยํา) สําหรับค่าต่างๆ ของเกณฑ์การจัดประเภท PR AUC อาจเทียบเท่ากับความแม่นยําเฉลี่ยของโมเดล ทั้งนี้ขึ้นอยู่กับวิธีการคํานวณ

ปรากซิส

ไลบรารี ML หลักประสิทธิภาพสูงของ Pax Praxis มักเรียกว่า "ไลบรารีเลเยอร์"

Praxis ไม่ได้มีเพียงคำจำกัดความสำหรับคลาสเลเยอร์เท่านั้น แต่ยังมีคอมโพเนนต์สนับสนุนส่วนใหญ่ของคลาสนี้ด้วย ได้แก่

อินพุตข้อมูล
ไลบรารีการกำหนดค่า (HParam และ Fiddle)
เครื่องมือเพิ่มประสิทธิภาพ

Praxis ให้คำจำกัดความของคลาสโมเดล

ความแม่นยำ

เมตริกสำหรับโมเดลการจัดประเภทที่ตอบคำถามต่อไปนี้

เมื่อโมเดลคาดการณ์คลาสบวก การคาดการณ์แม่นยำกี่เปอร์เซ็นต์

โดยมีสูตรดังนี้

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

ที่ไหน:

ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้อย่างถูกต้อง
ผลบวกลวงหมายความว่าโมเดลคาดการณ์คลาสเชิงบวกไม่ถูกต้อง

ตัวอย่างเช่น สมมติว่าโมเดลทำการคาดการณ์เชิงบวก 200 ครั้ง จากการคาดการณ์ที่เป็นบวก 200 ข้อเหล่านี้

150 เป็นผลบวกจริง
ผลบวกลวง 50 รายการ

ในกรณีนี้

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

คอนทราสต์กับความแม่นยำและการจดจำ

เส้นโค้ง Precision-Recall

เส้นโค้งของความแม่นยําเทียบกับความอ่อนไหวในเกณฑ์การจัดประเภทที่แตกต่างกัน

การคาดการณ์

#fundamentals

เอาต์พุตของโมเดล เช่น

การคาดการณ์ของโมเดลการจัดประเภทแบบไบนารีเป็นคลาสบวกหรือคลาสเชิงลบ
การคาดการณ์ของโมเดลการจัดประเภทแบบหลายคลาสคือ 1 คลาส
การคาดคะเนของโมเดลการถดถอยเชิงเส้นเป็นตัวเลข

#GenerativeAI

การฝึกเบื้องต้นของโมเดลบนชุดข้อมูลขนาดใหญ่ โมเดลก่อนการฝึกบางรุ่นเป็นยักษ์ที่งุ่มง่ามและมักต้องปรับแต่งผ่านการฝึกเพิ่มเติม เช่น ผู้เชี่ยวชาญ ML อาจฝึกโมเดลภาษาขนาดใหญ่ไว้ล่วงหน้าบนชุดข้อมูลข้อความจำนวนมาก เช่น หน้าภาษาอังกฤษทุกหน้าใน Wikipedia หลังการฝึกล่วงหน้า โมเดลผลลัพธ์อาจมีการปรับแต่งเพิ่มเติมผ่านเทคนิคต่อไปนี้

การกรอง
การปรับแต่ง
การปรับแต่งวิธีการ
การปรับแต่งให้มีประสิทธิภาพพารามิเตอร์
การปรับแต่งข้อความแจ้ง

ความเชื่อก่อนหน้า

สิ่งที่คุณเชื่อเกี่ยวกับข้อมูลก่อนที่จะเริ่มฝึกอบรม เช่น การกำหนดกฎ L₂ อาศัยความเชื่อเดิมว่าน้ำหนักควรมีขนาดเล็กและโดยปกติจะกระจายไว้ที่ประมาณ 0

โมเดลการถดถอยความน่าจะเป็น

โมเดลการถดถอยที่ไม่เพียงแค่ใช้น้ำหนักสำหรับแต่ละฟีเจอร์ แต่ยังใช้ความไม่แน่นอนของน้ำหนักเหล่านั้นด้วย โมเดลการถดถอยความน่าจะเป็น จะสร้างการคาดการณ์และความไม่แน่นอนของการคาดการณ์นั้น เช่น โมเดลการถดถอยความน่าจะเป็นอาจได้รับการคาดการณ์เป็น 325 โดยมีค่าเบี่ยงเบนมาตรฐานเป็น 12 ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลการถดถอยความน่าจะเป็นได้ที่ Colab ใน tensorflow.org นี้

ฟังก์ชันความหนาแน่นของความน่าจะเป็น

ฟังก์ชันที่ระบุความถี่ของตัวอย่างข้อมูลที่มีค่าใดค่าหนึ่งทุกประการ เมื่อค่าของชุดข้อมูลเป็นจำนวนจุดลอยตัวแบบต่อเนื่อง การจับคู่ที่ตรงกันทั้งหมดจะไม่เกิดขึ้น แต่integratingฟังก์ชันความหนาแน่นของความน่าจะเป็นจากค่า x ไปยังค่า y จะให้ความถี่ตามที่คาดหวังของตัวอย่างข้อมูลระหว่าง x ถึง y

เช่น ถ้าการแจกแจงปกติมีค่าเฉลี่ยเป็น 200 และค่าเบี่ยงเบนมาตรฐานเป็น 30 หากต้องการระบุความถี่ที่คาดไว้ของตัวอย่างข้อมูลที่อยู่ในช่วง 211.4 ถึง 218.7 คุณสามารถผสานรวมฟังก์ชันความหนาแน่นของความน่าจะเป็นสำหรับการกระจายปกติตั้งแต่ 211.4 ถึง 218.7

ข้อความแจ้ง

#language

#GenerativeAI

ข้อความที่ป้อนเป็นอินพุตในโมเดลภาษาขนาดใหญ่เพื่อกำหนดเงื่อนไขให้โมเดลทำงานในลักษณะใดลักษณะหนึ่ง พรอมต์อาจสั้นแค่วลีหรือมีความยาวใดก็ได้ (เช่น ข้อความทั้งหมดในนิยาย) พรอมต์แบ่งออกเป็นหลายหมวดหมู่ รวมถึงหมวดหมู่ที่แสดงในตารางต่อไปนี้

หมวดหมู่ของข้อความแจ้ง	ตัวอย่าง	Notes
คำถาม	`นกพิราบบินได้เร็วแค่ไหน`
โรงเรียนฝึกอบรม	`เขียนบทกวีตลกๆ เกี่ยวกับการหากำไร`	พรอมต์ที่ขอให้โมเดลภาษาขนาดใหญ่ทำบางอย่าง
ตัวอย่าง	`แปลโค้ดมาร์กดาวน์เป็น HTML เช่น Markdown: * รายการ HTML: <ul> <li>รายการ</li> </ul>`	ประโยคแรกในพรอมต์ตัวอย่างนี้คือคำสั่ง ส่วนที่เหลือของข้อความแจ้งคือตัวอย่าง
บทบาท	`อธิบายเหตุผลที่มีการใช้การไล่ระดับสีในการฝึกแมชชีนเลิร์นนิงจนถึงปริญญาเอกสาขาฟิสิกส์`	ส่วนแรกของประโยคคือคำสั่ง วลี "ต่อปริญญาเอกสาขาฟิสิกส์" คือส่วนบทบาท
ป้อนข้อมูลบางส่วนเพื่อให้โมเดลเสร็จสมบูรณ์	`นายกรัฐมนตรีของสหราชอาณาจักรอาศัยอยู่ที่`	พรอมต์การป้อนข้อมูลบางส่วนอาจสิ้นสุดอย่างกะทันหัน (ดังตัวอย่างนี้) หรือลงท้ายด้วยขีดล่างก็ได้

โมเดล Generative AI สามารถตอบสนองต่อพรอมต์ด้วยข้อความ โค้ด รูปภาพ การฝัง วิดีโอ และอื่นๆ แทบทุกอย่าง

การเรียนรู้จากข้อความแจ้ง

#language

#GenerativeAI

ความสามารถของโมเดลบางรูปแบบที่ช่วยให้ปรับลักษณะการทำงานให้ตอบสนองต่อการป้อนข้อความที่กำหนดเอง (ข้อความแจ้ง) ในรูปแบบการเรียนรู้ตามพรอมต์โดยทั่วไป โมเดลภาษาขนาดใหญ่จะตอบสนองต่อพรอมต์ด้วยการสร้างข้อความ เช่น สมมติว่าผู้ใช้ป้อนพรอมต์ต่อไปนี้

สรุปกฎการเคลื่อนที่ข้อที่ 3 ของนิวตัน

โมเดลที่สามารถเรียนรู้จากข้อความแจ้งไม่ได้รับการฝึกให้ตอบพรอมต์ก่อนหน้าโดยเฉพาะ แต่โมเดลนี้จะ "รู้" ข้อเท็จจริงมากมายเกี่ยวกับฟิสิกส์ เกี่ยวกับกฎภาษาทั่วไป และหลายๆ อย่างเกี่ยวกับสิ่งที่ประกอบขึ้นเป็นคำตอบที่มีประโยชน์โดยทั่วไป ความรู้ดังกล่าวเพียงพอที่จะให้คำตอบที่เป็นประโยชน์ (หวังว่า) ความคิดเห็นเพิ่มเติมจากมนุษย์ ("คำตอบนั้นซับซ้อนเกินไป" หรือ "ปฏิกิริยาคืออะไร") จะช่วยให้ระบบการเรียนรู้จากพรอมต์บางระบบค่อยๆ ปรับปรุงการมีประโยชน์ของคำตอบ

การออกแบบข้อความแจ้ง

#language

#GenerativeAI

คำพ้องความหมายของprompt Engineering

พรอมต์วิศวกรรม

#language

#GenerativeAI

ศิลปะในการสร้างข้อความแจ้งซึ่งกระตุ้นให้เกิดคำตอบที่ต้องการจากโมเดลภาษาขนาดใหญ่ มนุษย์ออกแบบระบบ พรอมต์ การเขียนพรอมต์ที่มีโครงสร้างดีเป็นส่วนสำคัญในการสร้างคำตอบที่เป็นประโยชน์จากโมเดลภาษาขนาดใหญ่ การส่งพรอมต์วิศวกรรมขึ้นอยู่กับปัจจัยหลายอย่าง เช่น

ชุดข้อมูลที่ใช้ฝึกล่วงหน้าและปรับแต่งโมเดลภาษาขนาดใหญ่
อุณหภูมิและพารามิเตอร์การถอดรหัสอื่นๆ ที่โมเดลใช้ในการสร้างคำตอบ

ดูรายละเอียดเพิ่มเติมเกี่ยวกับการเขียนพรอมต์ที่มีประโยชน์ได้ในข้อมูลเบื้องต้นเกี่ยวกับการออกแบบพรอมต์

การออกแบบพรอมต์ (Prompt Design) คือคำพ้องความหมายสำหรับวิศวกรรมพรอมต์

การปรับแต่งข้อความแจ้ง

#language

#GenerativeAI

กลไกการปรับแต่งพารามิเตอร์อย่างมีประสิทธิภาพซึ่งจะเรียนรู้ "คำนำหน้า" ซึ่งระบบจะใส่ไว้ข้างหน้าข้อความแจ้งจริง

การปรับแต่งพรอมต์รูปแบบหนึ่งที่บางครั้งเรียกว่าการปรับแต่งคำนำหน้าคือการเพิ่มคำนำหน้าในทุกเลเยอร์ ในทางตรงกันข้าม การปรับแต่งข้อความแจ้งส่วนใหญ่ จะเพิ่มคำนำหน้าลงในเลเยอร์อินพุตเท่านั้น

คลิกไอคอนเพื่อดูข้อมูลเพิ่มเติมเกี่ยวกับคำนำหน้า

สำหรับการปรับแต่งพรอมต์ "คำนำหน้า" (หรือที่เรียกว่า "ข้อความแจ้งแบบนุ่มนวล") คือเวกเตอร์ที่มีการเรียนรู้และเฉพาะงานซึ่งแทรกไว้ข้างหน้าโทเค็นข้อความจากพรอมต์จริง ระบบจะเรียนรู้ Soft Prompt โดยการตรึงพารามิเตอร์โมเดลอื่นๆ ทั้งหมดไว้และปรับแต่งงานที่เจาะจง

ป้ายกำกับพร็อกซี

#fundamentals

ข้อมูลที่ใช้เพื่อประมาณป้ายกำกับที่ไม่มีในชุดข้อมูลโดยตรง

ตัวอย่างเช่น สมมติว่าคุณต้องฝึกโมเดลให้คาดการณ์ระดับความเครียดของพนักงาน ชุดข้อมูลมีฟีเจอร์การคาดการณ์จำนวนมาก แต่ไม่มีป้ายกำกับชื่อระดับความเครียด ไม่เป็นไร คุณเลือก "อุบัติเหตุในที่ทำงาน" เป็นป้ายกำกับพร็อกซีสำหรับระดับความเครียด เพราะสุดท้ายแล้ว พนักงานที่อยู่ภายใต้ความเครียดสูงประสบอุบัติเหตุ มากกว่าพนักงานที่สงบสติอารมณ์ หรือว่าเป็นเช่นนั้น อุบัติเหตุในที่ทำงานอาจ เพิ่มขึ้นและตกด้วยสาเหตุหลายประการ

ตัวอย่างเช่น สมมติว่าคุณต้องการให้ฝนตกไหมเป็นป้ายกำกับบูลีนสำหรับชุดข้อมูล แต่ชุดข้อมูลไม่มีข้อมูลฝน หากมีภาพถ่าย คุณอาจสร้างภาพ คนถือร่มเป็นป้ายกำกับพร็อกซีว่าฝนตกไหม เป็นป้ายกำกับพร็อกซีที่ดีไหม แต่คนในบางวัฒนธรรมมีแนวโน้มที่จะพกร่มป้องกันแสงแดดมากกว่าฝน

ป้ายกำกับพร็อกซีมักไม่สมบูรณ์ เมื่อเป็นไปได้ ให้เลือกป้ายกำกับจริง มากกว่าป้ายกำกับพร็อกซี กล่าวคือ เมื่อไม่มีป้ายกำกับจริง ให้เลือกป้ายกำกับพร็อกซีอย่างรอบคอบ แล้วเลือกตัวเลือกป้ายกำกับพร็อกซีที่น่ากลัวน้อยที่สุด

พร็อกซี (แอตทริบิวต์ที่มีความละเอียดอ่อน)

#fairness

แอตทริบิวต์ที่ใช้เป็นสแตนด์อินสำหรับแอตทริบิวต์ที่มีความละเอียดอ่อน เช่น รหัสไปรษณีย์ของบุคคลธรรมดาอาจใช้เป็นตัวแทนสำหรับรายได้ เชื้อชาติ หรือชาติพันธุ์ของบุคคลนั้น

ฟังก์ชันที่แท้จริง

ฟังก์ชันที่เอาต์พุตอิงตามอินพุตเท่านั้นและไม่มีผลข้างเคียง กล่าวอย่างเจาะจงคือ ฟังก์ชันทั้งหมดจะไม่ใช้หรือเปลี่ยนสถานะส่วนกลางใดๆ เช่น เนื้อหาของไฟล์หรือค่าของตัวแปรที่อยู่นอกฟังก์ชัน

คุณใช้ฟังก์ชันทั้งหมดเพื่อสร้างโค้ด Thread-Safe ได้ ซึ่งมีประโยชน์เมื่อชาร์ดดิ้งโค้ด model ในชิป Accelerator หลายรายการ

วิธีการเปลี่ยนรูปแบบฟังก์ชันของ JAX กำหนดให้ฟังก์ชันอินพุตเป็นฟังก์ชันล้วนๆ

Q

ฟังก์ชัน Q

#rl

ในการเรียนรู้แบบเสริมการเรียนรู้ ฟังก์ชันที่คาดการณ์ผลตอบแทนที่คาดหวังจากการดำเนินการการดำเนินการในสถานะ แล้วทำตามนโยบายที่ระบุ

Q-Function เรียกอีกอย่างว่าฟังก์ชันค่าการดำเนินการที่ระบุสถานะ

การเรียนรู้แบบ Q

#rl

ในการเรียนรู้แบบเสริมการเรียนรู้ อัลกอริทึมที่ช่วยให้ agent เรียนรู้ฟังก์ชัน Q ที่ดีที่สุดของกระบวนการตัดสินใจของ Markov โดยใช้สมการ Bellman กระบวนการตัดสินใจของมาร์คอฟ เป็นสภาพแวดล้อม

ควอนไทล์

แต่ละที่เก็บข้อมูลในการที่เก็บข้อมูลควอนไทล์

การที่เก็บข้อมูลควอนไทล์

การกระจายค่าของฟีเจอร์ไปยังที่เก็บข้อมูล เพื่อให้แต่ละที่เก็บข้อมูลมีจำนวนตัวอย่างเท่ากัน (หรือเกือบเท่ากัน) ตัวอย่างเช่น รูปต่อไปนี้แบ่ง 44 คะแนนออกเป็น 4 ที่เก็บข้อมูล โดยแต่ละที่เก็บข้อมูลมี 11 คะแนน เพื่อให้ที่เก็บข้อมูลแต่ละชุดในรูปมีจุดเท่ากัน ที่เก็บข้อมูลบางชุดจะมีความกว้างเท่ากับ x-ค่า

จุดข้อมูล 44 จุดแบ่งเป็นที่เก็บข้อมูล 4 ชุด แต่ละชุดมี 11 คะแนน
แม้ว่าที่เก็บข้อมูลแต่ละชุดจะมีจำนวนจุดข้อมูลเท่ากัน แต่ที่เก็บข้อมูลบางรายการมีช่วงของค่าฟีเจอร์มากกว่าที่เก็บข้อมูลอื่นๆ

การวัดปริมาณ

คำที่มากเกินไปซึ่งสามารถใช้ในลักษณะต่อไปนี้ได้

การใช้การที่เก็บข้อมูลควอนไทล์ในฟีเจอร์ที่เฉพาะเจาะจง
การแปลงข้อมูลเป็น 0 และ 1 เพื่อให้จัดเก็บ ฝึก และอนุมานได้เร็วขึ้น เนื่องจากข้อมูลบูลีนสามารถป้องกันข้อผิดพลาดและข้อผิดพลาดได้ดีกว่ารูปแบบอื่นๆ การวัดปริมาณจึงช่วยปรับปรุงความถูกต้องของโมเดลได้ เทคนิคการหาปริมาณประกอบด้วยการปัดเศษ การตัดข้อความ และการเชื่อมโยง
ลดจำนวนบิตที่ใช้จัดเก็บพารามิเตอร์ของโมเดล ตัวอย่างเช่น สมมติว่าพารามิเตอร์ของโมเดล ถูกเก็บไว้เป็นจำนวนจุดลอยตัว 32 บิต การหาปริมาณจะแปลงพารามิเตอร์เหล่านั้น จาก 32 บิตเป็น 4, 8 หรือ 16 บิต การวัดปริมาณจะช่วยลดสิ่งต่อไปนี้
- การประมวลผล หน่วยความจำ ดิสก์ และเครือข่าย
- เวลาในการอนุมานการคาดการณ์
- การใช้พลังงาน
อย่างไรก็ตาม บางครั้งการวัดปริมาณอาจทำให้การคาดการณ์ของโมเดลถูกต้องน้อยลง

คิว

#TensorFlow

การดำเนินการของ TensorFlow ที่ใช้โครงสร้างข้อมูลคิว มักใช้ใน I/O

R

แร็กซ์

#fundamentals

ตัวย่อของ retrieval-augmented Generation

ป่าแบบสุ่ม

#df

ชุดต้นไม้การตัดสินใจ ซึ่งต้นไม้การตัดสินใจแต่ละอันได้รับการฝึกด้วยเสียงแบบสุ่ม เช่น การกลืน

ป่าสุ่มเป็นป่าตัดสินใจประเภทหนึ่ง

นโยบายแบบสุ่ม

#rl

ในการเรียนรู้แบบเสริมกำลัง นโยบายจะเลือกการดำเนินการแบบสุ่ม

การจัดอันดับ

ประเภทของการเรียนรู้ที่มีการควบคุมดูแลซึ่งมีวัตถุประสงค์ในการเรียงลำดับรายการต่างๆ

อันดับ (ลําดับ (ลําดับ)

ตำแหน่งตามลำดับของคลาสในโจทย์แมชชีนเลิร์นนิงที่จัดหมวดหมู่คลาสจากสูงสุดไปต่ำสุด เช่น ระบบจัดอันดับพฤติกรรมอาจจัดอันดับรางวัลของสุนัขจากสูงสุด (สเต็ก) ไปต่ำสุด (ผักเคลเหี่ยว)

อันดับ (Tensor)

#TensorFlow

จำนวนมิติข้อมูลใน Tensor ตัวอย่างเช่น สเกลาร์มีอันดับ 0 เวกเตอร์มีอันดับ 1 เมทริกซ์มีอันดับ 2

อย่าสับสนกับอันดับ (ลําดับ (ลําดับ)

ผู้ให้คะแนน

#fundamentals

บุคคลที่จัดเตรียมป้ายกำกับสำหรับตัวอย่าง "ผู้กำกับเนื้อหา" เป็นอีกชื่อหนึ่งของผู้ประเมิน

การเรียกคืน

เมตริกสำหรับโมเดลการจัดประเภทที่ตอบคำถามต่อไปนี้

เมื่อข้อมูลจากการสังเกตการณ์เป็นคลาสเชิงบวก การคาดการณ์ที่โมเดลระบุได้อย่างถูกต้องว่าเป็นคลาสเชิงบวกกี่เปอร์เซ็นต์

โดยมีสูตรดังนี้

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

ที่ไหน:

ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้อย่างถูกต้อง
ผลลบลวงหมายความว่าโมเดลคาดการณ์คลาสเชิงลบผิดพลาด

ตัวอย่างเช่น สมมติว่าโมเดลของคุณทำการคาดการณ์ 200 ครั้งจากตัวอย่างว่าข้อมูลจริงซึ่งเป็นคลาสเชิงบวก จากการคาดการณ์ 200 ข้อนี้

180 เป็นผลบวกจริง
20 เป็นค่าลบลวง

ในกรณีนี้

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

คลิกไอคอนสำหรับหมายเหตุเกี่ยวกับชุดข้อมูลที่ไม่สมดุลของชั้นเรียน

การจำมีประโยชน์อย่างยิ่งสำหรับการพิจารณาประสิทธิภาพการคาดการณ์ของโมเดลการจัดประเภทซึ่งคลาสเชิงบวกไม่ค่อยพบ เช่น ลองพิจารณาชุดข้อมูลที่ไม่สมดุลระดับชั้น ซึ่งเป็นการเกิดคลาสเชิงบวกของโรคบางอย่างกับผู้ป่วยเพียง 10 รายจาก 1 ล้านคน สมมติว่าโมเดลของคุณทำการคาดการณ์ 5 ล้านครั้งซึ่งให้ผลลัพธ์ต่อไปนี้

ผลบวกจริง 30 รายการ
ผลลบลวง 20 รายการ
ทรูเชิงลบ 4,999,000 รายการ
ผลบวกลวง 950 รายการ

การเรียกคืนโมเดลนี้จึงเป็นดังนี้

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

ในทางตรงกันข้าม ความแม่นยำของโมเดลนี้คือ

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

ความแม่นยำที่สูงขนาดนี้ดูน่าประทับใจ แต่จริงๆ แล้วไม่มีความหมาย การจดจำเป็นเมตริกที่มีประโยชน์มากกว่าสำหรับชุดข้อมูลที่ไม่สมดุลในคลาสมากกว่าความแม่นยำ

ระบบการแนะนำวิดีโอ

#recsystems

ระบบที่เลือกชุดรายการที่ต้องการจากคลังข้อมูลขนาดใหญ่ให้ผู้ใช้แต่ละราย เช่น ระบบการแนะนำวิดีโออาจแนะนำวิดีโอ 2 รายการจากคลังวิดีโอ 100,000 รายการ โดยเลือก Casablanca และ The Philadelphia Story ให้กับผู้ใช้รายหนึ่ง และ Wonderเกี่ยวข้อง และ Black Panther สำหรับอีกคนหนึ่ง ระบบการแนะนำวิดีโออาจแนะนำวิดีโอ โดยอิงตามปัจจัยต่างๆ เช่น

ภาพยนตร์ที่ผู้ใช้ที่คล้ายกันได้ให้คะแนนหรือดู
ประเภท ผู้กำกับ นักแสดง กลุ่มประชากรเป้าหมาย...

หน่วยเชิงเส้นตรง (ReLU)

#fundamentals

ฟังก์ชันการเปิดใช้งานที่มีลักษณะการทำงานดังต่อไปนี้

หากอินพุตเป็นค่าลบหรือเป็น 0 เอาต์พุตจะเป็น 0
หากอินพุตเป็นบวก เอาต์พุตจะเท่ากับอินพุต

เช่น

หากอินพุตเป็น -3 เอาต์พุตจะเป็น 0
หากอินพุตเป็น +3 เอาต์พุตจะเป็น 3.0

ตัวอย่างโครงเรื่อง ReLU มีดังนี้

ReLU เป็นฟังก์ชันเปิดใช้งานที่ได้รับความนิยมสูง แม้จะมีลักษณะการทำงานที่เรียบง่าย แต่ ReLU ยังคงทำให้โครงข่ายประสาทเรียนรู้ความสัมพันธ์ระหว่างฟีเจอร์และป้ายกำกับที่ไม่เป็นเชิงเส้นได้

โครงข่ายระบบประสาทเทียมแบบเกิดซ้ำ

#seq

โครงข่ายระบบประสาทเทียมที่จะเรียกใช้หลายครั้งโดยเจตนา โดยที่แต่ละส่วนจะเรียกใช้ฟีดในการเรียกใช้ครั้งถัดไป กล่าวอย่างเจาะจงคือ เลเยอร์ที่ซ่อนจากการเรียกใช้ก่อนหน้าเป็นการระบุส่วนหนึ่งของอินพุตไปยังเลเยอร์ที่ซ่อนเดียวกันนี้ในการเรียกใช้ครั้งถัดไป โครงข่ายประสาทแบบเกิดซ้ำมีประโยชน์มากในการประเมินลำดับ เพื่อให้เลเยอร์ที่ซ่อนอยู่เรียนรู้จากการเรียกใช้เครือข่ายประสาทเทียมก่อนหน้านี้ในส่วนก่อนหน้าของลำดับ

ตัวอย่างเช่น ภาพต่อไปนี้แสดงเครือข่ายประสาทเทียมที่ทำงาน 4 ครั้ง โปรดสังเกตว่าค่าที่เรียนรู้ในเลเยอร์ที่ซ่อนอยู่จากการเรียกใช้ครั้งแรกกลายเป็นส่วนหนึ่งของอินพุตไปยังเลเยอร์ที่ซ่อนอยู่เดียวกันในการเรียกใช้ครั้งที่ 2 ในทำนองเดียวกัน ค่าที่เรียนรู้ในเลเยอร์ที่ซ่อนอยู่ในการเรียกใช้ครั้งที่ 2 จะกลายเป็นส่วนหนึ่งของอินพุตไปยังเลเยอร์ที่ซ่อนอยู่เดียวกันในการเรียกใช้ครั้งที่ 3 ด้วยวิธีนี้ โครงข่ายประสาทแบบเกิดซ้ำจะค่อยๆ ฝึกฝนและคาดการณ์ความหมายของลำดับทั้งหมด แทนที่จะจำกัดเพียงความหมายของคำแต่ละคำ

RNN ที่ทำงาน 4 ครั้งเพื่อประมวลผลคำอินพุต 4 คำ

โมเดลการถดถอย

#fundamentals

โมเดลที่สร้างการคาดการณ์เชิงตัวเลขอย่างไม่เป็นทางการ (ในทางตรงกันข้าม โมเดลการจัดประเภทจะสร้างการคาดการณ์คลาส) ตัวอย่างต่อไปนี้คือรูปแบบการถดถอยทั้งหมด

โมเดลที่คาดคะเนมูลค่าของบ้านบางหลัง เช่น 423,000 ยูโร
โมเดลที่คาดคะเนอายุขัยของต้นไม้บางชนิด เช่น 23.2 ปี
โมเดลที่คาดคะเนปริมาณฝนที่จะตกในบางเมืองในช่วง 6 ชั่วโมงข้างหน้า เช่น 0.18 นิ้ว

รูปแบบการถดถอยที่พบบ่อยมี 2 ประเภทดังนี้

การถดถอยเชิงเส้น ซึ่งจะค้นหาบรรทัดที่เหมาะกับค่าของป้ายกำกับกับฟีเจอร์ต่างๆ มากที่สุด
การถดถอยแบบโลจิสติก ซึ่งสร้างความน่าจะเป็นระหว่าง 0.0 ถึง 1.0 ที่ระบบมักจะแมปกับการคาดการณ์คลาส

ไม่ใช่ว่าโมเดลทั้งหมดที่แสดงการคาดการณ์เชิงตัวเลขจะเป็นโมเดลการถดถอย ในบางกรณี การคาดการณ์ที่เป็นตัวเลขเป็นเพียงโมเดลการจัดประเภท ซึ่งเกิดขึ้นกับชื่อคลาสที่เป็นตัวเลข เช่น โมเดลที่คาดการณ์รหัสไปรษณีย์ที่เป็นตัวเลขคือโมเดลการจัดประเภท ไม่ใช่โมเดลการถดถอย

Regularization

#fundamentals

กลไกที่ลดการปรับให้พอดี ประเภทการกำหนดค่าที่นิยมใช้กัน ได้แก่

การกำหนดกฎ L₁
กฎ L₂
การกำหนดการออกนอกรูปแบบ
การหยุดก่อนกำหนด (นี่ไม่ใช่วิธีการจัดบรรทัดแบบทางการ แต่สามารถจำกัดการปรับมากเกินไปได้อย่างมีประสิทธิภาพ)

การปรับให้เป็นปกติอาจหมายถึงบทลงโทษสำหรับความซับซ้อนของโมเดล

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

การทำให้เป็นมาตรฐานเป็นสิ่งที่ขัดแย้งกับสัญชาตญาณ การปรับให้สม่ำเสมอมักจะเพิ่มการสูญเสียการฝึก ซึ่งฟังดูสับสนเพราะเป้าหมายในการลดการสูญเสียการฝึกไม่ใช่เป้าหมายใช่ไหม

ไม่จริง เป้าหมายไม่ใช่การลดการสูญเสียการฝึกให้ได้มากที่สุด เป้าหมายคือการทำนายที่ยอดเยี่ยมจากตัวอย่างในโลกแห่งความเป็นจริง แม้ว่าการเพิ่มความสม่ำเสมอจะทำให้สูญเสียการฝึกมากขึ้น แต่ก็มักช่วยให้โมเดลคาดการณ์ได้ดียิ่งขึ้นจากตัวอย่างในโลกแห่งความเป็นจริง

อัตราการปรับให้เป็นมาตรฐาน

#fundamentals

ตัวเลขที่ระบุลำดับความสำคัญสัมพัทธ์ของการจัดการรูปแบบในระหว่างการฝึก การเพิ่มอัตราการปรับให้เป็นมาตรฐานจะลดการปรับให้เกินความเหมาะสม แต่อาจลดความสามารถในการคาดการณ์ของโมเดล ในทางกลับกัน การลดหรือละเลยอัตราการกำหนดปกติจะเป็นการเพิ่มมากเกินไป

คลิกไอคอนเพื่อดูการคำนวณ

อัตราการกำหนดมาตรฐานนี้จะแสดงเป็นตัวอักษรกรีก (lambda) สมการ loss แบบง่ายๆ ต่อไปนี้แสดงอิทธิพลของแลมบ์ดา

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

โดยที่การจัดการรูปแบบคือกลไกการกำหนดเป็นมาตรฐาน ซึ่งรวมถึง

การกำหนดกฎ L₁
กฎ L₂

การเรียนรู้แบบเสริมแรง (RL)

#rl

ชุดอัลกอริทึมที่เรียนรู้นโยบายที่ดีที่สุด โดยมีเป้าหมายคือการเพิ่มผลตอบแทนให้ได้สูงสุดเมื่อโต้ตอบกับสภาพแวดล้อม เช่น รางวัลสุดยอดของเกมส่วนใหญ่คือชัยชนะ ระบบการเรียนรู้แบบเสริมกำลังความเชี่ยวชาญในการเล่นเกมที่ซับซ้อนโดยการประเมินลำดับการเคลื่อนไหวของเกมก่อนหน้าที่นำไปสู่ชัยชนะและลำดับที่จะนำไปสู่การแพ้ในท้ายที่สุด

การเรียนรู้แบบเสริมแรงจากความคิดเห็นของมนุษย์ (RLHF)

#GenerativeAI

#rl

การใช้ความคิดเห็นจากเจ้าหน้าที่ตรวจสอบเพื่อปรับปรุงคุณภาพของคำตอบของโมเดล ตัวอย่างเช่น กลไก RLHF จะขอให้ผู้ใช้ให้คะแนนคุณภาพคำตอบของโมเดลด้วยอีโมจิ 👍 หรือ 👎 จากนั้น ระบบจะปรับการตอบสนองในอนาคต ตามความคิดเห็นนั้น

ReLU

#fundamentals

ตัวย่อของหน่วยเชิงเส้นตรง

บัฟเฟอร์การเล่นซ้ำ

#rl

ในอัลกอริทึมที่คล้ายกับ DQN คือหน่วยความจำที่ Agent ใช้เก็บการเปลี่ยนสถานะเพื่อใช้ในการเล่นซ้ำ

ตัวจำลอง

สำเนาของชุดการฝึกหรือรุ่นซึ่งปกติจะอยู่ในเครื่องอื่น ตัวอย่างเช่น ระบบอาจใช้กลยุทธ์ต่อไปนี้สําหรับการใช้การใช้ข้อมูลพร้อมกัน

วางตัวจำลองของโมเดลที่มีอยู่ในคอมพิวเตอร์หลายเครื่อง
ส่งชุดการฝึกย่อยต่างๆ ไปยังตัวจำลองแต่ละรายการ
รวมการอัปเดตพารามิเตอร์

อคติในการรายงาน

#fairness

ข้อเท็จจริงที่ว่าความถี่ที่ผู้ใช้เขียนเกี่ยวกับการกระทำ ผลลัพธ์ หรือคุณสมบัติ ไม่ได้สะท้อนถึงความถี่ในโลกจริงหรือระดับของคุณสมบัติที่มีลักษณะเป็นของกลุ่มคน อคติในการรายงานอาจส่งผลต่อองค์ประกอบของข้อมูลที่ระบบแมชชีนเลิร์นนิงเรียนรู้

เช่น ในหนังสือ คำว่าหัวเราะจะแพร่หลายกว่าหายใจ โมเดลแมชชีนเลิร์นนิงที่ประมาณความถี่สัมพัทธ์ของการหัวเราะและการหายใจจากคลังหนังสืออาจบอกได้ว่าการหัวเราะเป็นมากกว่าการหายใจ

การนำเสนอ

กระบวนการจับคู่ข้อมูลกับฟีเจอร์ที่มีประโยชน์

การจัดอันดับใหม่

#recsystems

ขั้นตอนสุดท้ายของระบบการแนะนำนั้น ในระหว่างที่มีการให้คะแนนรายการหนึ่งๆ อาจมีการให้คะแนนซ้ำตามอัลกอริทึมอื่นๆ (โดยทั่วไปที่ไม่ใช่ ML) การจัดอันดับอีกครั้งจะประเมินรายการที่สร้างโดยระยะการให้คะแนน โดยดำเนินการดังต่อไปนี้

ลบรายการที่ผู้ใช้ซื้อไปแล้ว
กระตุ้นคะแนนของสินค้าใหม่

รุ่น Augmented Reality (RAG)

#fundamentals

เทคนิคในการปรับปรุงคุณภาพเอาต์พุตของโมเดลภาษาขนาดใหญ่ (LLM) โดยการนำมาใช้กับแหล่งความรู้ที่ดึงมาหลังจากการฝึกโมเดล RAG ปรับปรุงความแม่นยำของคำตอบ LLM ด้วยการให้ LLM ที่ผ่านการฝึกอบรมมีสิทธิ์เข้าถึงข้อมูลที่ดึงมาจากฐานความรู้หรือเอกสารที่เชื่อถือได้

แรงจูงใจทั่วไปในการใช้รุ่นดึงข้อมูลเพิ่มเติมมีดังนี้

การเพิ่มความถูกต้องของข้อเท็จจริงของคำตอบที่สร้างขึ้นของโมเดล
การให้สิทธิ์โมเดลเข้าถึงความรู้ที่โมเดลไม่ได้รับการฝึก
การเปลี่ยนความรู้ที่โมเดลใช้
การเปิดใช้โมเดลเพื่ออ้างอิงแหล่งที่มา

เช่น สมมติว่าแอปเคมีใช้ PaLM API เพื่อสร้างข้อมูลสรุปที่เกี่ยวข้องกับคำค้นหาของผู้ใช้ เมื่อแบ็กเอนด์ของแอปได้รับคำค้นหา แบ็กเอนด์จะทำดังนี้

ค้นหาข้อมูล ("ดึงข้อมูล") ที่เกี่ยวข้องกับข้อความค้นหาของผู้ใช้
เพิ่ม ("เสริม") ข้อมูลทางเคมีที่เกี่ยวข้องในข้อความค้นหาของผู้ใช้
สั่งให้ LLM สร้างสรุปตามข้อมูลต่อท้าย

return

#rl

ในการเรียนรู้แบบเสริมกำลัง โดยขึ้นอยู่กับนโยบายที่เฉพาะเจาะจงและบางสถานะ ผลตอบแทนคือผลรวมของรางวัลทั้งหมดที่ ตัวแทน คาดว่าจะได้รับเมื่อปฏิบัติตามนโยบายตั้งแต่สถานะจนถึงตอนท้ายของตอน ตัวแทนจะเป็นผู้พิจารณารางวัลที่คาดว่าจะได้รับล่าช้า โดยการลดราคารางวัลตามการเปลี่ยนแปลงของสถานะที่จำเป็นเพื่อให้ได้รับรางวัล

ดังนั้น หากปัจจัยส่วนลดเป็น $\gamma$และ $r_0, \ldots, r_{N}$ แสดงถึงรางวัลจนกว่าจะจบตอน การคำนวณการคืนสินค้าจะเป็นดังนี้

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

รางวัล

#rl

ในการเรียนรู้แบบเสริมกำลัง ผลลัพธ์ที่เป็นตัวเลขของการดำเนินการในสถานะ ตามที่กำหนดโดยสภาพแวดล้อม

รูปแบบสันซิป

คำพ้องความหมายของ L₂ regularization คำว่า Riddle derมีปัญหา มักใช้กับบริบททางสถิติล้วนๆ ส่วนในคำว่า R₂ regularization นั้นใช้ในแมชชีนเลิร์นนิงมากกว่า

RNN

#seq

ตัวย่อของโครงข่ายประสาทแบบเกิดซ้ำ

เส้นโค้ง ROC (อักขระปฏิบัติการของตัวรับ)

#fundamentals

กราฟอัตราผลบวกจริงกับอัตราผลบวกลวงสำหรับเกณฑ์การแยกประเภทที่แตกต่างกันในการแยกประเภทแบบไบนารี

รูปร่างของเส้นโค้ง ROC ชี้ให้เห็นถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสเชิงบวกออกจากคลาสเชิงลบ สมมติว่าโมเดลการจัดประเภทแบบไบนารีแยกคลาสเชิงลบทั้งหมดออกจากคลาสเชิงบวกทั้งหมดอย่างลงตัว ดังนี้

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 8 รายการทางด้านขวาและตัวอย่างเชิงลบ 7 รายการทางด้านซ้าย

เส้นโค้ง ROC สำหรับรูปแบบก่อนหน้าจะมีลักษณะดังนี้

เส้นโค้ง ROC แกน x คืออัตราผลบวกเท็จและแกน y เป็นอัตราผลบวกจริง เส้นโค้งมีรูปทรงตัว L กลับด้าน เส้นโค้งเริ่มต้นที่ (0.0,0.0) ไปจนถึง (0.0,1.0) จากนั้นเส้นโค้งจะเปลี่ยนจาก (0.0,1.0) ไปยัง (1.0,1.0)

ในทางตรงกันข้าม ภาพประกอบต่อไปนี้แสดงกราฟค่าการถดถอยโลจิสติกที่เป็นข้อมูลดิบสำหรับโมเดลที่แย่มากซึ่งไม่สามารถแยกคลาสเชิงลบออกจากคลาสบวกเลย

เส้นจำนวนที่มีตัวอย่างเชิงบวกและคลาสเชิงลบผสมกัน

เส้นโค้ง ROC สำหรับโมเดลนี้มีลักษณะดังต่อไปนี้

เส้นโค้ง ROC ซึ่งเป็นเส้นตรงตั้งแต่ (0.0,0.0) ถึง (1.0,1.0)

ในขณะเดียวกัน ในโลกแห่งความเป็นจริง โมเดลการจัดประเภทแบบไบนารีส่วนใหญ่จะแยกคลาสเชิงบวกและเชิงลบในระดับหนึ่งออก แต่มักจะไม่สมบูรณ์แบบที่สุด ดังนั้น เส้นโค้ง ROC ตามปกติจะอยู่ระหว่างปลายทั้ง 2 ด้าน

เส้นโค้ง ROC แกน x คืออัตราผลบวกเท็จและแกน y เป็นอัตราผลบวกจริง เส้นโค้ง ROC จะประมาณส่วนโค้งที่สั่นไหวไปตามจุดเข็มทิศจากตะวันตกไปยังทิศเหนือ

ทางทฤษฎี จุดบนเส้นโค้ง ROC ที่ใกล้เคียงที่สุด (0.0,1.0) จะระบุเกณฑ์การจัดประเภทที่เหมาะสม อย่างไรก็ตาม ปัญหาอื่นๆ ที่เกิดขึ้นจริงก็มีอิทธิพลต่อการเลือกเกณฑ์การจัดประเภทที่เหมาะสม เช่น ผลลบลวงอาจสร้างความเจ็บปวดมากกว่าผลบวกลวง

เมตริกตัวเลขที่ชื่อ AUC จะสรุปเส้นโค้ง ROC เป็นค่าจุดลอยตัวค่าเดียว

ข้อความแจ้งบทบาท

#language

#GenerativeAI

ส่วนที่ไม่บังคับของข้อความแจ้งที่ระบุกลุ่มเป้าหมายสำหรับคำตอบของโมเดล Generative AI หากไม่มีข้อความแจ้งบทบาท โมเดลภาษาขนาดใหญ่จะให้คำตอบที่อาจเป็นประโยชน์หรือไม่มีประโยชน์สำหรับผู้ที่ถามคำถาม เมื่อมีการพรอมต์บทบาท โมเดลภาษาขนาดใหญ่จะสามารถตอบคำถามที่เหมาะสมและมีประโยชน์มากขึ้นสำหรับกลุ่มเป้าหมายที่เฉพาะเจาะจง เช่น ส่วนพรอมต์บทบาทของข้อความแจ้งต่อไปนี้จะเป็นตัวหนา

สรุปบทความนี้สำหรับปริญญาเอกด้านเศรษฐศาสตร์
อธิบายวิธีการทำงานของกระแสน้ำสำหรับเด็กอายุ 10 ปี
อธิบายวิกฤตทางการเงินปี 2008 พูดเหมือนคุณอาจพูดกับเด็กเล็ก หรือสุนัขพันธุ์โกลเด้นรีทรีฟเวอร์

รูท

#df

โหนดเริ่มต้น (เงื่อนไขแรก) ในแผนผังการตัดสินใจ ตามแบบแผน แผนภาพจะวางรากไว้ที่ด้านบนสุดของโครงสร้างการตัดสินใจ เช่น

แผนผังการตัดสินใจที่มี 2 เงื่อนไขและใบ 3 ใบ เงื่อนไขเริ่มต้น (x > 2) คือรูท

ไดเรกทอรีราก

#TensorFlow

ไดเรกทอรีที่คุณระบุเพื่อโฮสต์ไดเรกทอรีย่อยของจุดตรวจสอบ TensorFlow และไฟล์เหตุการณ์ของหลายๆ โมเดล

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)

#fundamentals

รากที่สองของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง

ความแปรปรวนการหมุน

#image

ในโจทย์การจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพได้สำเร็จแม้ว่าการวางแนวของรูปภาพจะเปลี่ยนไปก็ตาม ตัวอย่างเช่น อัลกอริทึมยังคงระบุไม้เทนนิสได้ว่าไม้ชี้ขึ้น ด้านข้าง หรือลง โปรดทราบว่าความไม่สม่ำเสมอในการหมุนนั้นไม่เป็นที่ต้องการเสมอไป ตัวอย่างเช่น การกลับหัวกลับหาง 9 ไม่ควรจัดเป็น 9

โปรดดูความแปรปรวนของการแปลค่าและความไม่แน่นอนของขนาดด้วย

R-squared

เมตริกการถดถอยที่แสดงจำนวนการเปลี่ยนแปลงในป้ายกำกับที่เกิดจากฟีเจอร์แต่ละรายการหรือชุดฟีเจอร์ R-squared คือค่าระหว่าง 0 ถึง 1 ซึ่งคุณสามารถแปลค่าได้ดังนี้

ค่า R-squared ของ 0 หมายความว่าไม่มีรูปแบบของป้ายกำกับใดๆ ที่เกิดจากชุดฟีเจอร์
R-squared ของ 1 หมายความว่ารูปแบบต่างๆ ของป้ายกำกับทั้งหมดเกิดจากชุดฟีเจอร์
R-squared ระหว่าง 0 ถึง 1 บ่งชี้ถึงขอบเขตที่สามารถคาดการณ์รูปแบบของป้ายกำกับจากฟีเจอร์หนึ่งๆ หรือชุดฟีเจอร์ได้ ตัวอย่างเช่น R-squared 0.10 หมายความว่าความแปรปรวน 10 เปอร์เซ็นต์ในป้ายกำกับเกิดจากชุดฟีเจอร์ ส่วน R-squared 0.20 หมายความว่า 20 เปอร์เซ็นต์เกิดจากชุดฟีเจอร์ เป็นต้น

R-squared คือกำลังสองของสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันระหว่างค่าที่โมเดลคาดการณ์กับข้อมูลจากการสังเกตการณ์โดยตรง

S

อคติจากการสุ่มตัวอย่าง

#fairness

ดูการให้น้ำหนักพิเศษในการเลือก

การสุ่มตัวอย่างพร้อมการแทนที่

#df

วิธีเลือกรายการจากชุดของรายการที่เสนอซึ่งเลือกรายการเดียวกันได้หลายครั้ง วลี "พร้อมการแทนที่" หมายความว่าหลังจากการเลือกแต่ละครั้ง รายการที่เลือกจะถูกส่งกลับไปยังกลุ่มรายการตัวเลือก วิธีการผกผัน การสุ่มตัวอย่างโดยไม่มีการแทนที่หมายความว่าจะเลือกรายการผู้สมัครได้เพียงครั้งเดียวเท่านั้น

ตัวอย่างเช่น ลองพิจารณาชุดผลไม้ต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

สมมติว่าระบบสุ่มเลือก fig เป็นรายการแรก หากใช้การสุ่มตัวอย่างกับการแทนที่ ระบบจะเลือกรายการที่ 2 จากชุดต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

ใช่ เหมือนกับก่อนหน้านี้ ระบบจึงอาจเลือก fig อีกครั้ง

หากใช้การสุ่มตัวอย่างโดยไม่มีการแทนที่ เมื่อเลือกแล้ว จะไม่สามารถเลือกตัวอย่างได้อีก เช่น หากระบบสุ่มเลือก fig เป็นตัวอย่างแรก ระบบจะไม่เลือก fig อีก ดังนั้น ระบบจะเลือกตัวอย่างที่สองจากชุดต่อไปนี้ (ลด)

fruit = {kiwi, apple, pear, cherry, lime, mango}

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

คำว่าการแทนที่ในการสุ่มตัวอย่างด้วยการแทนที่ทำให้หลายคนสับสน ในภาษาอังกฤษ replacement หมายถึง "การแทนที่" อย่างไรก็ตาม การสุ่มตัวอย่างโดยการแทนที่จะใช้คำจำกัดความในภาษาฝรั่งเศสสำหรับการแทนที่ ซึ่งหมายถึง "การนำบางอย่างกลับมา"

คำภาษาอังกฤษ replacement แปลเป็นคำว่า remplacement ในภาษาฝรั่งเศส

SavedModel

#TensorFlow

รูปแบบที่แนะนำสำหรับการบันทึกและกู้คืนโมเดล TensorFlow SavedModel คือรูปแบบการทำให้เป็นอนุกรมที่กู้คืนได้แต่ใช้ภาษาที่ไม่เสถียร ซึ่งช่วยให้ระบบและเครื่องมือระดับสูงสร้าง ใช้ และเปลี่ยนรูปแบบโมเดล TensorFlow ได้

ดูรายละเอียดทั้งหมดได้ที่ส่วนการบันทึกและการคืนค่าในคู่มือสำหรับโปรแกรมเมอร์ TensorFlow

ประหยัด

#TensorFlow

ออบเจ็กต์ TensorFlow ที่มีหน้าที่บันทึกจุดตรวจสอบของโมเดล

สเกลาร์

ตัวเลขเดียวหรือสตริงเดียวที่แสดงเป็น tensor ของ rank 0 ตัวอย่างเช่น โค้ดแต่ละบรรทัดต่อไปนี้จะสร้างสเกลาร์ 1 สเกลใน TensorFlow

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

การปรับขนาด

การเปลี่ยนรูปแบบหรือเทคนิคทางคณิตศาสตร์ที่เปลี่ยนช่วงของป้ายกำกับและ/หรือค่าฟีเจอร์ การปรับขนาดบางรูปแบบมีประโยชน์อย่างยิ่งสำหรับการเปลี่ยนรูปแบบ เช่น การทำให้เป็นมาตรฐาน

รูปแบบทั่วไปสำหรับการปรับขนาดที่เป็นประโยชน์ในแมชชีนเลิร์นนิงมีดังนี้

การปรับสเกลเชิงเส้นซึ่งมักจะใช้การลบและการหารร่วมกันเพื่อแทนที่ค่าเดิมด้วยตัวเลขระหว่าง -1 ถึง +1 หรือระหว่าง 0 ถึง 1
การปรับสเกลลอการิทึม ซึ่งแทนที่ค่าเดิมด้วยลอการิทึม
การปรับคะแนนมาตรฐาน Z ซึ่งจะแทนที่ค่าเดิมด้วยค่าทศนิยมที่แสดงถึงจำนวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของสถานที่

Scikit-learn

แพลตฟอร์มแมชชีนเลิร์นนิงแบบโอเพนซอร์สยอดนิยม โปรดดู scikit-learn.org

การให้คะแนน

#recsystems

ส่วนหนึ่งของระบบคำแนะนำที่ให้ค่าหรือการจัดอันดับสำหรับแต่ละรายการที่เกิดจากระยะการสร้างผู้สมัคร

อคติการเลือก

#fairness

ข้อผิดพลาดในข้อสรุปที่มาจากข้อมูลตัวอย่างเนื่องจากกระบวนการเลือกที่ทำให้เกิดความแตกต่างอย่างเป็นระบบระหว่างตัวอย่างที่สังเกตในข้อมูลกับตัวอย่างที่สังเกตไม่ได้ ความลำเอียงในการเลือกรูปแบบต่อไปนี้มีอยู่:

อคติด้านความครอบคลุม: ประชากรที่แสดงในชุดข้อมูลไม่ตรงกับประชากรที่โมเดลแมชชีนเลิร์นนิงคาดการณ์
การให้น้ำหนักการสุ่มตัวอย่าง: จะไม่มีการรวบรวมข้อมูลแบบสุ่มจากกลุ่มเป้าหมาย
อคติที่ไม่ตอบ (หรือที่เรียกว่าอคติในการเข้าร่วม): ผู้ใช้จากบางกลุ่มเลือกไม่รับแบบสำรวจในอัตราที่แตกต่างจากผู้ใช้จากกลุ่มอื่นๆ

ตัวอย่างเช่น สมมติว่าคุณกำลังสร้างโมเดลแมชชีนเลิร์นนิงที่คาดการณ์ ความชื่นชอบของผู้คนในภาพยนตร์ ในการเก็บข้อมูลการฝึกอบรม คุณต้องแจกแบบสำรวจให้ทุกคนที่อยู่แถวหน้าของโรงภาพยนตร์ที่กำลังฉายภาพยนตร์นั้น วิธีนี้อาจฟังดูเป็นวิธีที่เหมาะสมในการรวบรวมชุดข้อมูล อย่างไรก็ตาม การเก็บรวบรวมข้อมูลในรูปแบบนี้อาจทําให้เกิดความไม่เป็นกลางในการเลือกรูปแบบต่อไปนี้

อคติด้านความครอบคลุม: ด้วยการสุ่มกลุ่มจากประชากรที่เลือกดูภาพยนตร์ การคาดคะเนของโมเดลของคุณอาจไม่ทำให้เนื้อหาทั่วไปแก่ผู้ที่ไม่ได้แสดงความสนใจในภาพยนตร์ในระดับนั้น
การให้น้ำหนักพิเศษในการสุ่มตัวอย่าง: แทนที่จะสุ่มสุ่มตัวอย่างจากประชากรเป้าหมาย (ทุกคนในภาพยนตร์) คุณได้สุ่มตัวอย่างเฉพาะคนที่อยู่ในแถวหน้า อาจเป็นไปได้ว่าคนที่อยู่แถวหน้าสนใจภาพยนตร์เรื่องนั้นมากกว่าคนที่อยู่ในแถวอื่นๆ
อคติที่ไม่ตอบ: โดยทั่วไป ผู้ที่มีความคิดเห็นรุนแรงมักจะตอบแบบสอบถามที่ไม่บังคับบ่อยกว่าคนที่มีความคิดเห็นเล็กน้อย เนื่องจากแบบสำรวจภาพยนตร์เป็นแบบสำรวจที่ไม่บังคับ คำตอบจึงมีแนวโน้มที่จะสร้างการกระจายแบบ 2 โมดัลมากกว่าการแจกแจงแบบปกติ (รูปกระดิ่ง)

self-attention (หรือเรียกว่า Self-Attention Layer)

#language

เลเยอร์โครงข่ายประสาทที่เปลี่ยนลำดับการฝัง (เช่น การฝังโทเค็น) เป็นการฝังอีกลำดับหนึ่ง การฝังแต่ละรายการในลำดับเอาต์พุตสร้างขึ้นโดยการผสานรวมข้อมูลจากองค์ประกอบของลำดับอินพุตผ่านกลไก attention

ส่วนตนเองของความสนใจตนเองหมายถึงลำดับที่ให้ความสำคัญกับตนเอง แทนที่จะเป็นบริบทอื่นๆ การจดจ่อด้วยตนเองเป็นหนึ่งในโครงสร้างหลักสำหรับ Transformers และใช้คำศัพท์ในการค้นหาพจนานุกรม เช่น "query", "key" และ "value"

เลเยอร์ความสนใจตนเองจะเริ่มด้วยลำดับการนำเสนออินพุต 1 รายการต่อ 1 คำ การแสดงอินพุตสำหรับคำอาจเป็นการฝัง ที่ไม่ซับซ้อน สำหรับแต่ละคำในลำดับอินพุต เครือข่ายจะให้คะแนนความเกี่ยวข้องของคำนั้นกับทุกองค์ประกอบในลำดับคำทั้งหมด คะแนนความเกี่ยวข้องจะกำหนดว่าสิ่งที่นำเสนอในขั้นสุดท้ายของคำนั้นรวมอยู่กับคำอื่นๆ มากเพียงใด

ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

สัตว์ไม่ได้ข้ามถนนเพราะเหนื่อยเกินไป

ภาพประกอบต่อไปนี้ (จาก Transformer: A Novel Neural Network Architecture for Language Understanding) แสดงรูปแบบการดึงดูดความสนใจของเลเยอร์การสนใจตัวเองสำหรับคำสรรพนาม it โดยที่แต่ละบรรทัดจะบอกว่าแต่ละคำมีส่วนช่วยในการนำเสนอมากน้อยเพียงใด

ประโยคต่อไปนี้ปรากฏขึ้น 2 ครั้ง: สัตว์ไม่ได้ข้ามถนนเพราะเหนื่อยเกินไป บรรทัดต่างๆ จะเชื่อมคำสรรพนามใน 1 ประโยคเข้ากับโทเค็น 5 ตัว (The, art, street, it และ the period) ในอีกประโยค เส้นแบ่งระหว่างคำสรรพนามกับคำว่า "สัตว์" แข็งแกร่งที่สุด

โดยเลเยอร์การจัดการตนเองจะไฮไลต์คำที่เกี่ยวข้องกับ "it" ในกรณีนี้ ชั้นความสนใจเรียนรู้ที่จะไฮไลต์คำที่ตัวมันอาจอ้างถึง เพื่อกำหนดน้ำหนักสูงสุดให้กับสัตว์

สำหรับลำดับของ n โทเค็น การจัดการตนเองจะเปลี่ยนลำดับของการฝัง n เวลาแยกกัน 1 ครั้งในแต่ละตำแหน่งในลำดับ

โปรดดูหัวข้อความสนใจและการจัดการตนเองแบบหลายส่วนหัว

การเรียนรู้ด้วยตนเอง

ชุดเทคนิคในการเปลี่ยนปัญหาแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลให้เป็นปัญหาแมชชีนเลิร์นนิงที่มีการควบคุมดูแลด้วยการสร้างป้ายกำกับตัวแทนจากตัวอย่างที่ไม่มีป้ายกำกับ

โมเดลที่อิงตาม Transformer บางโมเดล เช่น BERT ใช้การเรียนรู้ที่มีการควบคุมดูแลด้วยตนเอง

การฝึกอบรมแบบควบคุมดูแลด้วยตนเองเป็นการเรียนรู้แบบกึ่งมีการควบคุมดูแล

การฝึกตนเอง

การเรียนรู้ด้วยตนเองรูปแบบหนึ่งซึ่งจะเป็นประโยชน์อย่างยิ่งเมื่อเงื่อนไขทั้งหมดต่อไปนี้เป็นจริง

อัตราส่วนของตัวอย่างที่ไม่มีป้ายกำกับต่อตัวอย่างที่ติดป้ายกำกับในชุดข้อมูลสูง
นี่คือปัญหาเรื่องการแยกประเภท

การฝึกด้วยตนเองทำงานโดยการทำซ้ำใน 2 ขั้นตอนต่อไปนี้จนกว่าโมเดลจะหยุดปรับปรุง

ใช้แมชชีนเลิร์นนิงที่มีการควบคุมดูแลเพื่อฝึกโมเดลในตัวอย่างที่ติดป้ายกำกับ
ใช้โมเดลที่สร้างในขั้นตอนที่ 1 เพื่อสร้างการคาดการณ์ (ป้ายกำกับ) ในตัวอย่างที่ไม่มีป้ายกำกับ โดยย้ายโมเดลที่มีความมั่นใจสูงไปยังตัวอย่างที่ติดป้ายกำกับพร้อมป้ายกำกับที่คาดการณ์ไว้

สังเกตว่าการทำซ้ำในแต่ละขั้นตอนที่ 2 จะเพิ่มตัวอย่างที่ติดป้ายกำกับสำหรับขั้นตอนที่ 1 เพื่อฝึกต่อไป

การเรียนรู้แบบกึ่งมีการควบคุมดูแล

การฝึกโมเดลด้วยข้อมูลโดยที่ตัวอย่างการฝึกบางรายการมีป้ายกำกับ แต่ตัวอย่างอื่นๆ ไม่มี เทคนิคหนึ่งสำหรับการเรียนรู้แบบกึ่งมีการควบคุมดูแลคือการอนุมานป้ายกำกับสำหรับตัวอย่างที่ไม่มีป้ายกำกับ จากนั้นจึงฝึกป้ายกำกับที่อนุมานเพื่อสร้างโมเดลใหม่ การเรียนรู้แบบกึ่งมีการควบคุมดูแลอาจเป็นประโยชน์หากป้ายกำกับมีค่าใช้จ่ายสูงในการรับป้ายกำกับ แต่ตัวอย่างที่ไม่มีป้ายกำกับนั้นมีประโยชน์มากมาย

การฝึกด้วยตนเองเป็นเทคนิคหนึ่งสำหรับการเรียนรู้แบบกึ่งมีการควบคุมดูแล

แอตทริบิวต์ที่ละเอียดอ่อน

#fairness

แอตทริบิวต์ของมนุษย์ที่อาจได้รับการพิจารณาเป็นพิเศษเนื่องจากเหตุผลทางกฎหมาย จริยธรรม สังคม หรือส่วนบุคคล

การวิเคราะห์ความเห็น

#language

การใช้อัลกอริทึมทางสถิติหรือแมชชีนเลิร์นนิงเพื่อกำหนดทัศนคติโดยรวมของกลุ่ม ทั้งในแง่บวกหรือแง่ลบต่อบริการ ผลิตภัณฑ์ องค์กร หรือหัวข้อหนึ่งๆ ตัวอย่างเช่น การใช้ความเข้าใจภาษาที่เป็นธรรมชาติจะช่วยให้อัลกอริทึมวิเคราะห์ความเห็นที่มีต่อข้อความที่ได้รับจากหลักสูตรในมหาวิทยาลัยเพื่อระบุระดับการศึกษาที่นักเรียนส่วนใหญ่ชอบหรือไม่ชอบในหลักสูตรนี้

รูปแบบลำดับ

#seq

โมเดลที่มีอินพุตมีการขึ้นต่อกันตามลำดับ เช่น การคาดการณ์วิดีโอถัดไปที่รับชมจากลำดับของวิดีโอที่ดูก่อนหน้านี้

งานแบบเรียงตามลำดับ

#language

งานที่แปลงลำดับอินพุตของโทเค็นเป็นลำดับเอาต์พุตของโทเค็น เช่น งานแบบเรียงตามลำดับที่นิยม 2 ประเภท ได้แก่

นักแปล
- ตัวอย่างลำดับการป้อนข้อมูล: "ฉันรักเธอ"
- ตัวอย่างลำดับเอาต์พุต: "Je t'aime"
การตอบคำถาม:
- ตัวอย่างลำดับการป้อนข้อมูล: "ฉันต้องใช้รถในนิวยอร์กซิตี้ไหม"
- ลำดับเอาต์พุตตัวอย่าง: "ไม่ โปรดเก็บรถไว้ที่บ้าน"

หน่วยบริโภค

กระบวนการทําให้โมเดลที่ผ่านการฝึกพร้อมใช้งานเพื่อทำการคาดการณ์ผ่านการอนุมานออนไลน์หรือการอนุมานแบบออฟไลน์

รูปร่าง (Tensor)

จำนวนองค์ประกอบในมิติข้อมูลแต่ละรายการของ Tensor รูปร่างจะแสดงเป็นรายการจำนวนเต็ม ตัวอย่างเช่น Tensor สองมิติต่อไปนี้มีรูปร่าง [3,4]

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow ใช้รูปแบบหลักแถว (รูปแบบ C) เพื่อแสดงลำดับของมิติข้อมูล จึงเป็นเหตุผลที่รูปร่างใน TensorFlow แสดงเป็น [3,4] ไม่ใช่ [4,3] กล่าวคือ ใน TensorFlow Tensor แบบ 2 มิติ รูปร่างคือ[จำนวนแถว จำนวนคอลัมน์]

ชาร์ด

#TensorFlow

#GoogleCloud

แผนกเชิงตรรกะของชุดการฝึกหรือโมเดล โดยปกติแล้ว บางกระบวนการจะสร้างชาร์ดโดยแบ่งตัวอย่างหรือพารามิเตอร์เป็น (โดยปกติ) เป็นกลุ่มขนาดเท่ากัน จากนั้นชาร์ดแต่ละรายการจะกำหนดไปยังเครื่องอื่น

การชาร์ดโมเดลเรียกว่าโมเดลการทำงานขนานกัน การชาร์ดดิ้งข้อมูลเรียกว่าข้อมูลพร้อมกัน

การหดตัว

#df

hyperparameter ใน การเพิ่มการไล่ระดับสีที่ควบคุม การปรับให้พอดี การหดตัวของการเร่งการไล่ระดับสี คล้ายกับอัตราการเรียนรู้ใน การไล่ระดับสีลง การย่อคือค่าทศนิยมระหว่าง 0.0 ถึง 1.0 ค่าการหดตัวที่ต่ำลงจะลดปริมาณการหดตัวที่มากเกินไป

ฟังก์ชันซิกมอยด์

#fundamentals

ฟังก์ชันทางคณิตศาสตร์ที่ "บีบ" ค่าอินพุตไว้ในช่วงที่จำกัด ซึ่งมักจะเป็น 0 ถึง 1 หรือ -1 ถึง +1 กล่าวคือ คุณสามารถส่งตัวเลขใดก็ได้ (2, 1 ล้าน, ลบเป็นพันล้าน, เป็นอะไรก็ได้) ไปยังซิกมอยด์ และเอาต์พุตจะยังคงอยู่ในช่วงที่จำกัด พล็อตของฟังก์ชันการเปิดใช้งานซิกมอยด์มีลักษณะดังต่อไปนี้

ฟังก์ชันซิกมอยด์มีประโยชน์หลายอย่างในแมชชีนเลิร์นนิง ดังนี้

การแปลงผลลัพธ์ดิบของโมเดลการถดถอยแบบโลจิสติกหรือการถดถอยพหุนามเป็นความน่าจะเป็น
ทำหน้าที่เป็นฟังก์ชันเปิดใช้งานในโครงข่ายประสาทบางเครือข่าย

คลิกไอคอนเพื่อดูการคำนวณ

ฟังก์ชัน sigmoid สำหรับเลขอินพุต x มีสูตรต่อไปนี้

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

ในแมชชีนเลิร์นนิง โดยทั่วไปแล้ว x จะเป็นผลรวมถ่วงน้ำหนัก

การวัดความคล้ายคลึงกัน

#clustering

ในอัลกอริทึม clustering เมตริกที่ใช้ระบุว่าตัวอย่าง 2 ตัวอย่างแตกต่างกันอย่างไร (ความคล้ายคลึงกัน)

โปรแกรมเดียว / ข้อมูลหลายรายการ (SPMD)

เทคนิคการทำงานพร้อมกันที่ใช้การคำนวณแบบเดียวกันกับข้อมูลอินพุตที่ต่างกันแบบขนานกันในอุปกรณ์ที่แตกต่างกัน เป้าหมายของ SPMD คือเพื่อให้ได้ผลลัพธ์เร็วขึ้น เป็นรูปแบบที่นิยมใช้กันมากที่สุดของการเขียนโปรแกรม

ความแปรปรวนของขนาด

#image

ในโจทย์การจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพได้สำเร็จแม้ว่าขนาดของรูปภาพจะเปลี่ยนแปลงก็ตาม ตัวอย่างเช่น อัลกอริทึมจะยังคงระบุแมวได้ว่าจะใช้ 2 ล้านพิกเซลหรือ 200,000 พิกเซล โปรดทราบว่าแม้แต่อัลกอริทึมการจัดประเภทรูปภาพที่ดีที่สุดก็ยังคงมีข้อจำกัดในทางปฏิบัติเกี่ยวกับความไม่แน่นอนของขนาด เช่น อัลกอริทึม (หรือมนุษย์) อาจไม่จัดประเภทรูปภาพแมวที่กินเพียง 20 พิกเซลอย่างถูกต้อง

โปรดดูความแปรปรวนของการแปลค่าและความแปรปรวนของการหมุนด้วย

การสเก็ตช์ภาพ

#clustering

ในแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล ซึ่งเป็นหมวดหมู่ของอัลกอริทึมที่ทำการวิเคราะห์ความคล้ายคลึงกันเบื้องต้นในตัวอย่าง อัลกอริทึมการร่างภาพจะใช้ ฟังก์ชันแฮชที่คำนึงถึงพื้นที่ เพื่อระบุจุดที่มีแนวโน้มคล้ายคลึงกัน จากนั้นจัดกลุ่ม ลงในที่เก็บข้อมูล

การร่างภาพจะลดการคํานวณที่จำเป็นสำหรับการคํานวณความคล้ายคลึงกันในชุดข้อมูลขนาดใหญ่ เราจะคำนวณความคล้ายคลึงกันเฉพาะคะแนนแต่ละคู่ภายในที่เก็บข้อมูลแต่ละชุดแทนการคำนวณความคล้ายคลึงกันสำหรับตัวอย่างทุกคู่ในชุดข้อมูล

ข้าม-แกรม

#language

n-gram ที่อาจละคำ (หรือ "ข้าม") คำจากบริบทเดิมไป ซึ่งหมายความว่าคำ N คำนั้นอาจไม่ได้อยู่ติดกันแต่เดิม พูดง่ายๆ ก็คือ "k-skip-n-gram" คือ n-gram ที่อาจถูกข้ามไปถึง k คำ

เช่น "หมาจิ้งจอกด่วน" มีปริมาณ 2 กรัมที่เป็นไปได้ดังนี้

"ทางลัด"
"สีน้ำตาลด่วน"
"บราวน์จิ้งจอก"

"1-skip-2-gram" คือคู่ของคำที่ประกอบด้วยคำไม่เกิน 1 คำระหว่างคำ ดังนั้น "จิ้งจอกด่วน" จึงมีน้ำหนัก 1-2 กรัมต่อไปนี้

"สีน้ำตาล"
"จิ้งจอกด่วน"

นอกจากนี้ ค่า 2 กรัมทั้งหมดก็ 1-skip-2-2 กรัมด้วย เนื่องจากระบบอาจข้ามน้อยกว่า 1 คำ

การข้ามกรัมมีประโยชน์ในการทำความเข้าใจบริบทโดยรอบของคำมากขึ้น ในตัวอย่าง "สุนัขจิ้งจอก" เชื่อมโยงโดยตรงกับ "ด่วน" ในชุด 1-skip-2-กรัม แต่ไม่อยู่ในชุด 2-กรัม

การข้ามกรัมช่วยฝึก การฝังคำ

ซอฟต์แม็กซ์

#fundamentals

ฟังก์ชันที่กำหนดความน่าจะเป็นสำหรับคลาสที่เป็นไปได้แต่ละรายการในโมเดลการจัดประเภทแบบหลายคลาส ความน่าจะเป็นรวมกันได้ 1.0 พอดี ตัวอย่างเช่น ตารางต่อไปนี้แสดงให้เห็นว่า softmax กระจายความน่าจะเป็นต่างๆ อย่างไร

รูปภาพคือ...	Probability
สุนัข	0.85
cat	0.13
ม้า	0.02

Softmax เรียกอีกอย่างว่า Full softmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

คลิกไอคอนเพื่อดูการคำนวณ

สมการซอฟต์แม็กซ์มีดังนี้

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

ที่ไหน

$\sigma_i$ เป็นเวกเตอร์เอาต์พุต แต่ละองค์ประกอบของเวกเตอร์เอาต์พุต จะระบุความน่าจะเป็นขององค์ประกอบนี้ ผลรวมขององค์ประกอบทั้งหมดในเวกเตอร์เอาต์พุตคือ 1.0 เวกเตอร์เอาต์พุตจะมีจำนวนองค์ประกอบ เท่ากับเวกเตอร์อินพุต $z$
$z$ คือเวกเตอร์อินพุต แต่ละองค์ประกอบของเวกเตอร์อินพุต จะมีค่าจุดลอยตัว
$K$ คือจำนวนองค์ประกอบในเวกเตอร์อินพุต (และเวกเตอร์เอาต์พุต)

ตัวอย่างเช่น สมมติว่าเวกเตอร์อินพุตคือ

[1.2, 2.5, 1.8]

ดังนั้น Softmax จะคำนวณตัวส่วนดังนี้

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

ดังนั้น ความน่าจะเป็นของ Softmax ของแต่ละองค์ประกอบจะเป็น:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

ดังนั้นเวกเตอร์เอาต์พุตจะเป็นดังนี้

$$\sigma = [0.154, 0.565, 0.281]$$

ผลรวมขององค์ประกอบ 3 อย่างใน $\sigma$ คือ 1.0 ในที่สุด

การปรับแต่ง Soft Prompt

#language

#GenerativeAI

เทคนิคในการปรับแต่งโมเดลภาษาขนาดใหญ่สำหรับงานหนึ่งๆ โดยไม่ต้องปรับแต่งการใช้ทรัพยากรอย่างละเอียด แทนที่จะฝึกน้ำหนักทั้งหมดในโมเดล การปรับแต่ง Soft Prompt จะปรับข้อความแจ้งโดยอัตโนมัติเพื่อให้บรรลุเป้าหมายเดียวกัน

โดยทั่วไปแล้ว การปรับแต่ง Soft Prompt จะปรากฎขึ้นเมื่อมีข้อความแจ้งที่เป็นข้อความ แล้วจะเพิ่มโทเค็นที่ฝังเพิ่มเติมต่อท้ายพรอมต์และใช้การเผยแพร่ย้อนกลับเพื่อเพิ่มประสิทธิภาพอินพุต

ข้อความแจ้ง "ฮาร์ด" จะมีโทเค็นจริงแทนการฝังโทเค็น

พื้นที่กระจัดกระจาย

#language

#fundamentals

ฟีเจอร์ที่มีค่าส่วนใหญ่เป็น 0 หรือว่างเปล่า เช่น ฟีเจอร์ที่มีค่า 1 ค่าเดียวแต่ 0 ล้านค่านั้นมีน้อย ในทางตรงกันข้าม ฟีเจอร์ที่หนาแน่นจะมีค่าที่ส่วนใหญ่ไม่ใช่ 0 หรือว่างเปล่า

ในแมชชีนเลิร์นนิง จำนวนฟีเจอร์ที่น่าประหลาดใจคือฟีเจอร์จำนวนน้อย ฟีเจอร์เชิงหมวดหมู่มักจะเป็นฟีเจอร์ที่ไม่ซับซ้อน เช่น จากต้นไม้ 300 ชนิดที่เป็นไปได้ในป่า ตัวอย่างหนึ่งอาจระบุเพียงต้นเมเปิล หรือวิดีโอที่เป็นไปได้หลายล้านรายการในคลังวิดีโอ ตัวอย่างหนึ่งอาจระบุแค่คำว่า "คาซาบลังกา"

ในโมเดลหนึ่ง โดยปกติแล้วคุณจะแสดงฟีเจอร์ที่กระจัดกระจายด้วยการเข้ารหัสแบบ One-Hot หากการเข้ารหัสแบบ 1-Hot มีขนาดใหญ่ คุณอาจวาง เลเยอร์การฝัง ไว้ด้านบนของการเข้ารหัสแบบ 1 Hot เพื่อประสิทธิภาพที่ดียิ่งขึ้น

การเป็นตัวแทนแบบย่อ

#language

#fundamentals

การจัดเก็บเฉพาะตำแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์ที่กระจัดกระจาย

ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ species ระบุพันธุ์ไม้ 36 ต้นในป่าหนึ่งๆ นอกจากนี้ สมมุติว่าตัวอย่างแต่ละรายการระบุสายพันธุ์ได้เพียง 1 สปีชีส์เท่านั้น

คุณสามารถใช้เวกเตอร์หนึ่งที่น่าสนใจเพื่อแสดงถึงสปีชีส์ของต้นไม้ในแต่ละตัวอย่าง เวกเตอร์ 1 รายการที่เร็ว ๆ จะมี 1 เดียว (เพื่อแสดงถึงสปีชีส์ของต้นไม้เฉพาะในตัวอย่าง) และ 35 0 (เพื่อแสดงถึงต้นไม้ 35 ชนิดที่ไม่ใช่ในตัวอย่างนั้น) ดังนั้น การนำเสนอ maple แบบร้อนแรง อาจมีลักษณะประมาณนี้

เวกเตอร์ที่ตำแหน่ง 0 ถึง 23 มีค่า 0 ตำแหน่ง 24 มีค่า 1 และตำแหน่งที่ 25 ถึง 35 มีค่าเป็น 0

อีกตัวอย่างหนึ่งคือ การแทนแบบกระจัดกระจายอาจแค่ระบุตำแหน่งของสปีชีส์หนึ่งๆ เท่านั้น หาก maple อยู่ที่ตำแหน่ง 24 การแสดงแบบคร่าวๆ ของ maple จะมีลักษณะดังนี้

สังเกตว่าการนำเสนอแบบกระทัดรัดนั้นกะทัดรัดมากกว่าการนำเสนอแบบเดี่ยวๆ มาก

คลิกไอคอนสำหรับตัวอย่างที่ซับซ้อนขึ้นเล็กน้อย

สมมติว่าแต่ละตัวอย่างในโมเดลต้องแสดงถึงคำในประโยคภาษาอังกฤษ ไม่ใช่ลำดับของคำเหล่านั้น ภาษาอังกฤษประกอบด้วยคำประมาณ 170,000 คำ ภาษาอังกฤษจึงเป็นฟีเจอร์เชิงหมวดหมู่โดยมีองค์ประกอบประมาณ 170,000 องค์ประกอบ ประโยคภาษาอังกฤษส่วนใหญ่ใช้สัดส่วนที่น้อยมากจาก 170,000 คำ ดังนั้นชุดคำในตัวอย่างเดียวจึงแทบจะมีข้อมูลที่กระจัดกระจายไปเลย

ลองพิจารณาประโยคต่อไปนี้

My dog is a great dog

คุณสามารถใช้รูปแบบของเวกเตอร์ 1 ร้อนแทนคำในประโยคนี้ได้ ในตัวแปรนี้ เซลล์หลายเซลล์ในเวกเตอร์อาจมีค่าที่ไม่ใช่ 0 นอกจากนี้ ในตัวแปรนี้ เซลล์อาจมีจำนวนเต็มนอกเหนือจาก 1 ได้ แม้ว่าคำว่า "ของฉัน", "เป็น", "a" และ "ดี" จะปรากฏเพียง 1 ครั้งในประโยคนี้ แต่คำว่า "สุนัข" จะปรากฏ 2 ครั้ง การใช้ตัวแปรของเวกเตอร์ที่ร้อนแรงนี้แทนคำในประโยคนี้จะให้ผลลัพธ์เวกเตอร์ 170,000 องค์ประกอบดังต่อไปนี้

สรุปสั้นๆ ของประโยคเดียวกันอาจเป็นเพียง

คลิกไอคอนหากคุณสับสน

คำว่า "การเป็นตัวแทนบางส่วน" ทำให้คนจำนวนมากสับสน เพราะการเป็นตัวแทนบางส่วนนั้นไม่ใช่เวกเตอร์ที่ขาดหาย แต่ในทางตรงกันข้าม การแทนบางส่วนจริงๆ แล้วคือการนำเสนอเวกเตอร์ที่หนาแน่น คำพ้องความหมายของการแทนค่าดัชนีจะชัดเจนกว่า "การแทนแบบน้อย" เล็กน้อย

เวกเตอร์แบบกระจัดกระจาย

#fundamentals

เวกเตอร์ที่ค่าส่วนใหญ่เป็น 0 โปรดดูฟีเจอร์บางส่วนและความสอดคล้องกันด้วย

การขาดแคลนข้อมูล

จำนวนของอีลิเมนต์ที่ตั้งค่าเป็นศูนย์ (หรือค่าว่าง) ในเวกเตอร์หรือเมทริกซ์หารด้วยจำนวนรายการทั้งหมดในเวกเตอร์หรือเมทริกซ์นั้น เช่น ลองพิจารณาเมทริกซ์องค์ประกอบ 100 รายการที่เซลล์ 98 เซลล์มี 0 การคำนวณความสอดคล้องกันมีดังนี้

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

ความมีน้อยของจุดสนใจหมายถึงความน้อยของเวกเตอร์จุดสนใจ ความน้อยของโมเดลหมายถึงความน้อยของน้ำหนักโมเดล

การร่วมเก็บข้อมูลเชิงพื้นที่

#image

ดูการรวม

ข้อมูลแบบแยกส่วน

#df

ในแผนผังการตัดสินใจ อีกชื่อหนึ่งของเงื่อนไข

ตัวแยก

#df

ขณะฝึกแผนผังการตัดสินใจ กิจวัตร (และอัลกอริทึม) จะทำหน้าที่ค้นหาเงื่อนไขที่ดีที่สุดในโหนดแต่ละรายการ

SPM

ตัวย่อสำหรับโปรแกรมเดียว / ข้อมูลหลายรายการ

การสูญเสียบานพับสี่เหลี่ยม

กําลังสองของการสูญเสียบานพับ การสูญเสียบานพับในสี่เหลี่ยมจะทำให้ค่าผิดปกติได้รุนแรงกว่าการสูญเสียบานพับปกติ

ค่าสูญเสียยกกำลังสอง

#fundamentals

คำพ้องความหมายของ L₂ Los

การฝึกอบรมแบบทีละขั้น

#language

กลยุทธ์ของการฝึกโมเดลตามลำดับขั้นที่ไม่ต่อเนื่อง เป้าหมายอาจเป็นการเร่งกระบวนการฝึก หรือการปรับปรุงคุณภาพโมเดลให้ดีขึ้น

ภาพประกอบของวิธีการกองซ้อนแบบโปรเกรสซีฟแสดงอยู่ด้านล่าง

ขั้นที่ 1 มีเลเยอร์ที่ซ่อนไว้ 3 เลเยอร์ ขั้นที่ 2 มีเลเยอร์ที่ซ่อนไว้ 6 เลเยอร์ และขั้นตอนที่ 3 มีเลเยอร์ที่ซ่อนไว้ 12 เลเยอร์
ขั้นที่ 2 จะเริ่มการฝึกด้วยน้ำหนักที่ได้เรียนรู้ใน 3 ชั้นที่ซ่อนอยู่ของระยะที่ 1 ขั้นที่ 3 จะเริ่มการฝึกด้วยน้ำหนักที่ได้เรียนรู้ใน 6 ชั้นที่ซ่อนอยู่ของระยะที่ 2

มี 3 ระยะ ได้แก่ ระยะที่ 1, ระยะที่ 2 และระยะที่ 3
แต่ละขั้นตอนมีจำนวนเลเยอร์ไม่เท่ากัน ระยะที่ 1 มี 3 เลเยอร์ ระยะที่ 2 มี 6 เลเยอร์ และระยะที่ 3 มี 12 เลเยอร์
3 เลเยอร์จากระยะที่ 1 จะกลายเป็น 3 เลเยอร์แรกของระยะที่ 2
ในทำนองเดียวกัน ทั้ง 6 เลเยอร์จากระยะที่ 2 จะกลายเป็น 6 เลเยอร์แรกของระยะที่ 3

ดูไปป์ไลน์เพิ่มเติม

state

#fundamentals

อัลกอริทึมการลดระดับของการไล่ระดับสีที่มีขนาดกลุ่มเท่ากับ กล่าวคือ SGD จะฝึกโดยใช้ตัวอย่างเดียวที่ได้รับการสุ่มเลือกอย่างเท่าเทียมกันจากชุดการฝึก

ก้าว

#image

ในการดําเนินการคอนโวลูชันหรือการรวม เดลต้าในแต่ละมิติข้อมูลของสไลซ์อินพุตชุดถัดไป ตัวอย่างเช่น ภาพเคลื่อนไหวต่อไปนี้แสดงให้เห็นจังหวะ (1,1) ระหว่างการดำเนินการแบบ Convolutiona ดังนั้น ส่วนแบ่งอินพุตถัดไปจะเริ่มจากตำแหน่งที่อยู่ด้านขวาของส่วนแบ่งอินพุตก่อนหน้า เมื่อการดำเนินการมาถึงขอบด้านขวา ชิ้นส่วนถัดไปจะเลื่อนไปจนสุดด้านซ้าย แต่อยู่ในตำแหน่งที่เลื่อนลงหนึ่งตำแหน่ง

ตัวอย่างก่อนหน้านี้แสดงให้เห็นถึงความก้าวหน้าแบบ 2 มิติ หากเมทริกซ์อินพุตเป็น 3 มิติ ความก้าวหน้าจะเป็น 3 มิติด้วย

การลดความเสี่ยงด้านโครงสร้าง (SRM)

อัลกอริทึมที่สร้างสมดุลระหว่างเป้าหมาย 2 ข้อ ได้แก่

จําเป็นต้องสร้างโมเดลการคาดการณ์มากที่สุด (เช่น สูญเสียน้อยที่สุด)
ความต้องการทำให้โมเดลเรียบง่ายที่สุดเท่าที่จะทำได้ (เช่น การจัดรูปแบบให้เป็นระเบียบ)

เช่น ฟังก์ชันที่ลดการสูญเสีย+ลักษณะมาตรฐานในชุดการฝึกคืออัลกอริทึมการลดความเสี่ยงเชิงโครงสร้าง

ตรงข้ามกับการลดความเสี่ยงเชิงประจักษ์

การสุ่มย่อย

#image

ดูการรวม

โทเค็นคำย่อย

#language

ในโมเดลภาษา จะมีโทเค็นที่เป็นสตริงย่อยของคำ ซึ่งอาจเป็นทั้งคำ

ตัวอย่างเช่น คำอย่างเช่น "itemize" อาจแบ่งออกเป็น "item" (คำราก) และ "ize" (คำต่อท้าย) ซึ่งแต่ละคำจะแสดงด้วยโทเค็นของตนเอง การแยกคำที่ไม่ได้ใช้บ่อยออกเป็นส่วนๆ ที่เรียกว่าคำย่อยจะช่วยให้โมเดลภาษาดำเนินการกับส่วนประกอบของคำที่พบบ่อยได้ เช่น คำนำหน้าและคำต่อท้าย

ในทางกลับกัน คำทั่วไป เช่น "ไป" อาจไม่มีการแยกส่วนและอาจนำเสนอด้วยโทเค็นเดียว

สรุป

#TensorFlow

ใน TensorFlow ค่าหรือชุดค่าที่คำนวณในขั้นตอนหนึ่งๆ มักใช้สำหรับการติดตามเมตริกโมเดลระหว่างการฝึก

แมชชีนเลิร์นนิงที่มีการควบคุมดูแล

#fundamentals

การฝึกmodelจากmodelและmodelที่เกี่ยวข้อง แมชชีนเลิร์นนิงที่มีการควบคุมดูแลเปรียบได้กับการเรียนรู้วิชาหนึ่งโดยการศึกษาชุดคำถามและคำตอบที่เกี่ยวข้อง เมื่อจับคู่คำถามกับคำตอบอย่างเชี่ยวชาญแล้ว นักเรียนจะตอบคำถามใหม่ๆ ในหัวข้อเดียวกันได้ (ไม่เคยเห็นมาก่อน)

เปรียบเทียบกับแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

ฟีเจอร์สังเคราะห์

#fundamentals

ฟีเจอร์จะไม่ปรากฏในฟีเจอร์อินพุต แต่ประกอบขึ้นจากฟีเจอร์อย่างน้อย 1 รายการ วิธีสร้างฟีเจอร์สังเคราะห์มีดังนี้

การรวมข้อมูลฟีเจอร์แบบต่อเนื่องลงในถังขยะช่วง
การสร้างข้ามฟีเจอร์
การคูณ (หรือหาร) ค่าจุดสนใจหนึ่งด้วยค่าอื่นของจุดสนใจ หรือตามตัวมันเอง เช่น หาก a และ b เป็นฟีเจอร์อินพุต ต่อไปนี้คือตัวอย่างของฟีเจอร์สังเคราะห์
- ab
- ก²
การใช้ฟังก์ชันเชิงสืบเนื่องกับค่าฟีเจอร์ เช่น หาก c เป็นฟีเจอร์อินพุต ต่อไปนี้เป็นตัวอย่างของฟีเจอร์สังเคราะห์
- sin(c)
- ln(c)

ฟีเจอร์ที่สร้างโดยการทำให้เป็นมาตรฐานหรือการปรับขนาดเพียงอย่างเดียวไม่ถือว่าเป็นฟีเจอร์สังเคราะห์

T

T5

#language

โมเดลการเรียนรู้ในการโอนข้อมูลจากการแปลงข้อความเป็นข้อความ เปิดตัวโดย AI ของ Google ในปี 2020 T5 คือโมเดลโปรแกรมเปลี่ยนไฟล์ตัวถอดรหัสตามสถาปัตยกรรม Transformer โดยได้รับการฝึกจากชุดข้อมูลที่มีขนาดใหญ่มาก วิธีนี้มีประสิทธิภาพสำหรับงานประมวลผลภาษาธรรมชาติหลากหลายชนิด เช่น การสร้างข้อความ การแปลภาษา และการตอบคำถามในลักษณะการสนทนา

T5 ได้ชื่อมาจาก T ทั้ง 5 ตัวใน "Transformer สำหรับการแปลงจากข้อความสู่ข้อความ"

T5X

#language

เฟรมเวิร์กแมชชีนเลิร์นนิงแบบโอเพนซอร์สที่ออกแบบมาเพื่อสร้างและฝึกโมเดลการประมวลผลภาษาธรรมชาติ (NLP) ขนาดใหญ่ T5 ใช้งานบนฐานของโค้ด T5X (ซึ่งสร้างบน JAX และ Flax)

ตาราง Q-learning

#rl

ในการเรียนรู้แบบเสริม การนำ Q-learning ไปใช้โดยใช้ตารางเพื่อจัดเก็บฟังก์ชัน Q สำหรับชุดค่าผสมของ สถานะและการดำเนินการทุกชุด

เป้าหมาย

คำพ้องความหมายของ label

เครือข่ายเป้าหมาย

#rl

ใน Deep Q-learning ซึ่งเป็นโครงข่ายระบบประสาทเทียมโดยประมาณที่มีความเสถียรของโครงข่ายประสาทหลัก เครือข่ายระบบประสาทหลักใช้ฟังก์ชัน Q หรือนโยบาย จากนั้นจึงจะฝึกเครือข่ายหลักเกี่ยวกับค่า Q ที่เครือข่ายเป้าหมายคาดการณ์ได้ ดังนั้นคุณจึงป้องกันไม่ให้เกิดลูปความคิดเห็นที่เกิดขึ้นเมื่อเครือข่ายหลักฝึกเกี่ยวกับค่า Q ที่คาดการณ์ด้วยตัวเอง การหลีกเลี่ยงความคิดเห็นนี้ จะทำให้ความเสถียรของการฝึกเพิ่มขึ้น

งาน

ปัญหาที่สามารถแก้ไขได้โดยใช้เทคนิคของแมชชีนเลิร์นนิง เช่น

การจำแนกประเภท
การถดถอย
คลัสเตอร์
การตรวจจับความผิดปกติ

อุณหภูมิ

#language

#image

#GenerativeAI

ไฮเปอร์พารามิเตอร์ที่ควบคุมระดับความสุ่มของเอาต์พุตโมเดล อุณหภูมิที่สูงขึ้นจะส่งผลให้เอาต์พุตแบบสุ่มมากขึ้น ส่วนอุณหภูมิที่ต่ำลงทำให้เอาต์พุตแบบสุ่มน้อยลง

การเลือกอุณหภูมิที่ดีที่สุดขึ้นอยู่กับแอปพลิเคชันเฉพาะและคุณสมบัติที่ต้องการของเอาต์พุตโมเดล เช่น คุณอาจเพิ่มอุณหภูมิเมื่อสร้างแอปพลิเคชันที่สร้างเอาต์พุตครีเอทีฟโฆษณา ในทางกลับกัน คุณอาจลดอุณหภูมิลงเมื่อคุณสร้างโมเดลที่แยกประเภทรูปภาพหรือข้อความเพื่อปรับปรุงความแม่นยำและความสอดคล้องของโมเดล

#TensorFlow

จำนวนสเกลาร์ทั้งหมดที่ Tensor มี เช่น [5, 10] Tensor มีขนาด 50

TensorStore

ไลบรารีสำหรับการอ่านและเขียนอาร์เรย์หลายมิติขนาดใหญ่อย่างมีประสิทธิภาพ

เงื่อนไขการสิ้นสุด

#rl

ในการเรียนรู้แบบเสริมกำลัง เงื่อนไขที่จะเป็นตัวกำหนดว่าตอนจะสิ้นสุดเมื่อใด เช่น เมื่อ Agent มีสถานะหนึ่งหรือเกินเกณฑ์ของการเปลี่ยนสถานะ ตัวอย่างเช่น ใน tic-tac-toe (หรือที่เรียกว่า noughts และกากบาท) ตอนจะจบลงเมื่อผู้เล่นทำเครื่องหมายช่องว่างติดกัน 3 ช่องหรือเมื่อมีการทำเครื่องหมายเว้นวรรคทั้งหมด

ทดสอบ

#df

ในแผนผังการตัดสินใจ อีกชื่อหนึ่งของเงื่อนไข

ทดสอบการสูญหาย

#fundamentals

เมตริกที่แสดงถึงการสูญเสียของโมเดลเทียบกับชุดทดสอบ เมื่อสร้างmodel คุณมักพยายามลดการสูญหายของการทดสอบ นั่นเป็นเพราะการสูญเสียการทดสอบในระดับต่ำถือเป็นสัญญาณที่มีคุณภาพมากกว่าการสูญเสียการฝึกต่ำ หรือการสูญเสียการตรวจสอบต่ำ

บางครั้งความแตกต่างอย่างมากระหว่างการสูญเสียการทดสอบกับการสูญเสียการทดสอบหรือการสูญเสียการตรวจสอบบ่งชี้ว่าคุณต้องเพิ่มอัตราการทำให้เป็นมาตรฐาน

ชุดทดสอบ

ชุดย่อยของชุดข้อมูลซึ่งสงวนไว้สำหรับการทดสอบโมเดลที่ผ่านการฝึกแล้ว

เดิมที คุณจะแบ่งตัวอย่างในชุดข้อมูลออกเป็น 3 ชุดย่อยที่แตกต่างกันดังต่อไปนี้

ชุดการฝึก
ชุดการตรวจสอบ
ชุดทดสอบ

ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นของชุดย่อยก่อนหน้าเพียงชุดเดียวเท่านั้น ตัวอย่างเช่น ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดการฝึกและชุดทดสอบ

ทั้งชุดการฝึกและชุดการตรวจสอบมีความเกี่ยวข้องกับการฝึกโมเดลอย่างใกล้ชิด เนื่องจากชุดทดสอบมีความเกี่ยวข้องโดยอ้อมกับการฝึกเท่านั้น การทดสอบการสูญเสีย มีความลำเอียงน้อยกว่าและมีคุณภาพสูงกว่าการสูญเสียการฝึกหรือการสูญเสียการตรวจสอบ

ช่วงข้อความ

#language

ช่วงดัชนีอาร์เรย์ที่เชื่อมโยงกับส่วนย่อยเฉพาะของสตริงข้อความ ตัวอย่างเช่น คำว่า good ในสตริง Python s="Be good now" จะใช้ช่วงของข้อความตั้งแต่ 3 ถึง 6

tf.Example

#TensorFlow

บัฟเฟอร์โปรโตคอลมาตรฐานสำหรับอธิบายข้อมูลอินพุตสำหรับการฝึกหรือการอนุมานโมเดลแมชชีนเลิร์นนิง

tf.keras

#TensorFlow

การใช้งาน Keras ที่ผสานรวมเข้ากับ TensorFlow

เกณฑ์ (สำหรับแผนผังการตัดสินใจ)

#df

ในเงื่อนไขที่ปรับแนวแกน ระบบจะเปรียบเทียบค่าที่มีฟีเจอร์ เช่น 75 คือค่าเกณฑ์ในเงื่อนไขต่อไปนี้

grade >= 75

การวิเคราะห์อนุกรมเวลา

#clustering

สาขาย่อยของแมชชีนเลิร์นนิงและสถิติที่วิเคราะห์ข้อมูลชั่วคราว ปัญหาหลายประเภทเกี่ยวกับแมชชีนเลิร์นนิงต้องมีการวิเคราะห์อนุกรมเวลา ซึ่งรวมถึงการแยกประเภท การจัดกลุ่ม การคาดการณ์ และการตรวจจับความผิดปกติ เช่น คุณสามารถใช้การวิเคราะห์อนุกรมเวลาเพื่อคาดการณ์ยอดขายในอนาคตของเสื้อโค้ทกันหนาวในแต่ละเดือนตามข้อมูลการขายที่ผ่านมา

Timestep

#seq

เซลล์ "ที่ไม่ได้ม้วน" 1 เซลล์ภายในโครงข่ายระบบประสาทเทียมแบบเกิดซ้ำ ตัวอย่างเช่น ภาพต่อไปนี้แสดงขั้นเวลา 3 ขั้น (ติดป้ายกำกับด้วยตัวห้อย t-1, t และ t+1)

การจับเวลา 3 ขั้นตอนในเครือข่ายประสาทเทียม เอาต์พุตของขั้นตอนครั้งแรกจะกลายเป็นอินพุตไปยังขั้นตอนที่ 2 เอาต์พุตของขั้นตอนที่ 2 จะกลายเป็นอินพุตในขั้นตอนที่ 3

โทเค็น

#language

ในโมเดลภาษา คือหน่วยอะตอมที่โมเดลกำลังฝึกและสร้างการคาดการณ์ โดยโทเค็นมีลักษณะอย่างใดอย่างหนึ่งต่อไปนี้

คำ ตัวอย่างเช่น วลี "สุนัขอย่างแมว" ประกอบด้วยโทเค็น 3 คำ คือ "สุนัข" "ชอบ" และ "แมว"
ตัวอักขระ เช่น วลี "จักรยานปลา" ประกอบด้วยโทเค็นอักขระ 9 ตัว (โปรดทราบว่าพื้นที่ว่างจะนับเป็นโทเค็นใดโทเค็นหนึ่ง)
คำย่อย กล่าวคือ คำ 1 คำอาจเป็นโทเค็นเดียวหรือหลายโทเค็นก็ได้ คำย่อยประกอบด้วยคำราก คำนำหน้า หรือคำต่อท้าย ตัวอย่างเช่น โมเดลภาษาที่ใช้คำย่อยเป็นโทเค็นอาจเห็นคำว่า "สุนัข" เป็นโทเค็น 2 ตัว (คำราก "สุนัข" และคำต่อท้าย "s") โมเดลภาษาเดียวกันอาจเห็นคำเดียวว่า "taller" เป็นคำย่อย 2 คำ (คำราก "tall" และคำต่อท้าย "er")

#fundamentals

ขั้นตอนการกำหนดพารามิเตอร์ (น้ำหนักและอคติ) ในอุดมคติซึ่งประกอบด้วยโมเดล ระหว่างการฝึก ระบบจะอ่านตัวอย่างและค่อยๆ ปรับพารามิเตอร์ การฝึกจะใช้แต่ละตัวอย่างในทุกที่ ตั้งแต่ 2-3 ครั้งไปจนถึงหลายพันล้านครั้ง

การสูญเสียการฝึก

#fundamentals

เมตริกที่แสดงถึงการสูญหายของโมเดลระหว่างการทำซ้ำการฝึกหนึ่งๆ เช่น สมมติว่าฟังก์ชันการสูญเสียคือค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง บางทีการสูญเสียการฝึก (ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง) สำหรับการทำซ้ำครั้งที่ 10 อาจเป็น 2.2 และการสูญเสียการฝึกสำหรับการทำซ้ำครั้งที่ 100 คือ 1.9

เส้นโค้งการสูญเสียแสดงการสูญเสียการฝึกเทียบกับจำนวนการทำซ้ำ เส้นโค้งการสูญเสียจะให้ข้อมูลเกี่ยวกับการฝึกต่อไปนี้

ความลาดชันลดลงบ่งบอกว่าโมเดลกำลังพัฒนา
ความชันเพิ่มขึ้นบ่งบอกว่าโมเดลกำลังแย่ลง
ความชันแบบแบนราบหมายความว่าโมเดลไปถึงการสนทนาแล้ว

ตัวอย่างเช่น เส้นโค้งการสูญเสียตามอุดมคติต่อไปนี้แสดงให้เห็นว่า

ความชันลงที่สูงชันระหว่างการทำซ้ำช่วงแรก ซึ่งแสดงถึงการปรับปรุงโมเดลอย่างรวดเร็ว
ความลาดชันที่ค่อยๆ แบนลง (แต่ยังคงต่ำลง) จนถึงช่วงท้ายของการฝึก ซึ่งบ่งบอกว่ามีการปรับปรุงโมเดลอย่างต่อเนื่องโดยมีความเร็วค่อนข้างต่ำขณะนั้นระหว่างการทำซ้ำช่วงแรก
ทางลาดแบบราบเรียบในช่วงท้ายของการฝึก ซึ่งแสดงถึงการลู่เข้า

พล็อตเรื่องการสูญเสียการฝึกเทียบกับการทำซ้ำ โดยเส้นโค้งการสูญเสียนี้จะเริ่มต้นด้วยความชันลงที่ลาดลง ความลาดชันจะค่อยๆ คงที่จนกว่าความชันจะกลายเป็น 0

แม้ว่าการสูญเสียการฝึกจะมีความสำคัญ โปรดดูการทำให้เป็นแบบทั่วไปด้วย

ความคลาดเคลื่อนระหว่างการฝึกและการให้บริการ

#fundamentals

ความแตกต่างระหว่างประสิทธิภาพของโมเดลในระหว่างการฝึกกับประสิทธิภาพของโมเดลเดียวกันในระหว่างการแสดงผล

ชุดการฝึก

#fundamentals

ชุดย่อยของชุดข้อมูลที่ใช้ในการฝึกโมเดล

เดิมที ตัวอย่างในชุดข้อมูลจะแบ่งออกเป็น 3 ชุดย่อยที่แตกต่างกันดังต่อไปนี้

ชุดการฝึก
ชุดการตรวจสอบ
ชุดทดสอบ

ตามหลักการแล้ว แต่ละตัวอย่างในชุดข้อมูลควรเป็นของชุดย่อยที่อยู่ก่อนหน้าเพียงชุดเดียวเท่านั้น ตัวอย่างเช่น ตัวอย่าง 1 รายการไม่ควรอยู่ในทั้งชุดการฝึกและชุดการตรวจสอบ

วิถี

#rl

ในการเรียนรู้แบบเสริมการเรียนรู้ ลำดับของ Tuples ที่แสดงลำดับของการเปลี่ยนสถานะของ agent โดยแต่ละ Tuple จะสอดคล้องกับสถานะ, การดำเนินการ, reward และสถานะถัดไปของการเปลี่ยนสถานะหนึ่งๆ

โอนข้อมูลการเรียนรู้

การโอนข้อมูลจากงานแมชชีนเลิร์นนิงหนึ่งไปยังงานอื่น ตัวอย่างเช่น ในการเรียนรู้แบบมัลติทาสก์ โมเดลเดียวจะแก้งานหลายอย่าง เช่น โมเดลเชิงลึกที่มีโหนดเอาต์พุตที่ต่างกันสำหรับงานต่างๆ การถ่ายทอดการเรียนรู้อาจเกี่ยวข้องกับการถ่ายโอนความรู้จากโซลูชันงานง่ายๆ ไปยังงานที่ซับซ้อนขึ้น หรือเกี่ยวข้องกับการถ่ายทอดความรู้จากงานที่มีข้อมูลเพิ่มเติมไปยังงานที่มีข้อมูลน้อยกว่า

ระบบแมชชีนเลิร์นนิงส่วนใหญ่จะทำงานรายการเดียว การถ่ายทอดการเรียนรู้เป็นขั้นตอนเล็กๆ สู่ปัญญาประดิษฐ์ (AI) ที่โปรแกรมเดียวสามารถแก้ปัญหางานหลายงานได้

หม้อแปลง

#language

สถาปัตยกรรมโครงข่ายระบบประสาทเทียมที่ Google พัฒนาขึ้นโดยใช้กลไกการให้ความสนใจตัวเองเพื่อเปลี่ยนลำดับการฝังอินพุตเป็นการฝังเอาต์พุตโดยไม่ต้องอาศัยคอนโวลูชันหรือโครงข่ายประสาทแบบเกิดซ้ำ Transformer อาจดูเหมือนเป็นเลเยอร์ซ้อนกัน

Transformer อาจรวมถึงสิ่งต่อไปนี้

โปรแกรมเปลี่ยนไฟล์
เครื่องมือถอดรหัส
ทั้งโปรแกรมเปลี่ยนไฟล์และตัวถอดรหัส

โปรแกรมเปลี่ยนไฟล์จะเปลี่ยนลำดับการฝังเป็นลำดับใหม่ที่มีความยาวเท่ากัน โปรแกรมเปลี่ยนไฟล์จะมีเลเยอร์ที่เหมือนกัน N เลเยอร์ โดยแต่ละเลเยอร์จะมีเลเยอร์ย่อย 2 เลเยอร์ เลเยอร์ย่อยทั้ง 2 ชั้นนี้จะนำไปใช้กับแต่ละตำแหน่งของลำดับการฝังอินพุต ซึ่งจะเปลี่ยนองค์ประกอบแต่ละรายการของลำดับเป็นการฝังใหม่ เลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์แรกจะรวบรวมข้อมูลจากลำดับอินพุต เลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ที่สองจะแปลงข้อมูลรวมเป็น การฝังเอาต์พุต

ตัวถอดรหัสจะเปลี่ยนลำดับของการฝังอินพุตเป็นลำดับของการฝังเอาต์พุตที่อาจมีความยาวต่างกัน เครื่องมือถอดรหัสยังมีเลเยอร์ที่เหมือนกัน N เลเยอร์ที่มีเลเยอร์ย่อย 3 เลเยอร์ ซึ่ง 2 เลเยอร์คล้ายกับเลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ เลเยอร์ย่อยตัวถอดรหัสที่ 3 จะใช้เอาต์พุตจากโปรแกรมเปลี่ยนไฟล์และใช้กลไก Self-Attention ในการรวบรวมข้อมูล

บล็อกโพสต์ Transformer: A Novel Neural Network Architecture for Language Understanding ช่วยให้แนะนำ Transformers ได้เป็นอย่างดี

ความแปรปรวนของการแปลค่า

#image

ในโจทย์การจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพได้สำเร็จแม้ว่าตำแหน่งของวัตถุภายในรูปภาพจะเปลี่ยนไปก็ตาม เช่น อัลกอริทึมจะยังคงระบุสุนัขได้ ไม่ว่าจะอยู่กึ่งกลางของเฟรมหรือท้ายเฟรมก็ตาม

โปรดดูความไม่แน่นอนของขนาดและความไม่แน่นอนแบบหมุน

Trigram

#seq

#fundamentals

สร้างmodelที่มีความสามารถในการคาดการณ์ต่ำเนื่องจากโมเดลไม่ได้บันทึกความซับซ้อนของข้อมูลการฝึกอย่างสมบูรณ์ หลายๆ ปัญหา อาจทำให้ไม่ได้ปรับให้เหมาะสม เช่น

การฝึกใช้ฟีเจอร์ชุดที่ไม่ถูกต้อง
การฝึกสำหรับ Epoch น้อยเกินไปหรือมีอัตราการเรียนรู้ต่ำเกินไป
การฝึกที่มีอัตราการทำให้เป็นมาตรฐานสูงเกินไป
การมีเลเยอร์ที่ซ่อนอยู่น้อยเกินไปในโครงข่ายประสาทระดับลึก

การสุ่มตัวอย่างน้อยเกินไป

การนำตัวอย่างออกจากกลุ่มส่วนใหญ่ในชุดข้อมูลที่ไม่สมดุลระดับเพื่อสร้างชุดการฝึกที่สมดุลยิ่งขึ้น

เช่น ลองพิจารณาชุดข้อมูลที่อัตราส่วนของคลาสส่วนใหญ่ต่อชนชั้นย่อยคือ 20:1 หากต้องการเอาชนะความไม่สมดุลของชั้นเรียนนี้ คุณอาจสร้างชุดการฝึกที่ประกอบด้วยตัวอย่างของชั้นเรียนในจำนวนน้อยทั้งหมด แต่มีเพียง 10 ตัวอย่างจากชั้นเรียนส่วนใหญ่ ซึ่งจะสร้างอัตราส่วนชั้นเรียนในชุดการฝึกเป็น 2:1 ด้วยการสุ่มตัวอย่างน้อยเกินไป ชุดการฝึกที่สมดุลมากขึ้นนี้อาจทำให้โมเดลดีขึ้นได้ หรือชุดการฝึกที่สมดุลมากขึ้นนี้อาจมีตัวอย่างไม่เพียงพอที่จะฝึกโมเดลที่มีประสิทธิภาพ

คอนทราสต์ด้วยการสุ่มตัวอย่างมากเกินไป

แบบทางเดียว

#language

ระบบที่ประเมินเฉพาะข้อความที่อยู่ด้านหน้าข้อความในส่วนเป้าหมายเท่านั้น ในทางตรงกันข้าม ระบบแบบ 2 ทิศทางจะประเมินทั้งข้อความที่มาก่อนและติดตามส่วนเป้าหมายของข้อความ ดูรายละเอียดเพิ่มเติมได้ที่แบบ 2 ทิศทาง

โมเดลภาษาแบบทิศทางเดียว

#language

โมเดลภาษาที่อิงตามความน่าจะเป็นจากโทเค็นที่ปรากฏก่อน ไม่ใช่หลังโทเค็นเป้าหมายเท่านั้น คอนทราสต์กับโมเดลภาษาแบบ 2 ทิศทาง

ตัวอย่างที่ไม่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์ แต่ไม่มีป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่างที่ไม่มีป้ายกำกับ 3 ตัวอย่างจากรูปแบบการประเมินราคาบ้าน โดยแต่ละแบบมีฟีเจอร์ 3 รายการแต่ไม่มีมูลค่าบ้าน

จำนวนห้องนอน	จำนวนห้องน้ำ	อายุบ้าน
3	2	15
2	1	72
4	2	34

ในการเรียนรู้แบบมีการควบคุมดูแลบางส่วนและไม่มีการควบคุมดูแล จะมีการใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการฝึก

เปรียบเทียบตัวอย่างที่ไม่มีป้ายกำกับกับตัวอย่างที่ติดป้ายกำกับ

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

#clustering

#fundamentals

การฝึกmodelเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งมักจะเป็นชุดข้อมูลที่ไม่มีป้ายกำกับ

การใช้แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลที่พบบ่อยที่สุดคือการจัดกลุ่มข้อมูลเป็นกลุ่มตัวอย่างที่คล้ายกัน เช่น อัลกอริทึมแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลสามารถจัดกลุ่มเพลงตามคุณสมบัติต่างๆ ของเพลงได้ คลัสเตอร์ที่ได้อาจกลายเป็นอินพุตของอัลกอริทึมแมชชีนเลิร์นนิงอื่นๆ (เช่น กับบริการแนะนำเพลง) การจัดกลุ่มสามารถช่วยได้เมื่อไม่มีป้ายกำกับที่เป็นประโยชน์หรือป้ายกำกับที่มีประโยชน์ ตัวอย่างเช่น ในโดเมนต่างๆ อย่างการป้องกันการละเมิดและการประพฤติมิชอบ คลัสเตอร์จะช่วยให้มนุษย์เข้าใจข้อมูลได้ดีขึ้น

ตรงข้ามกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

อีกตัวอย่างหนึ่งของแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลคือการวิเคราะห์องค์ประกอบหลัก (PCA) ตัวอย่างเช่น การใช้ PCA ในชุดข้อมูลที่มีตะกร้าสินค้าหลายล้านชิ้นอาจแสดงให้เห็นว่ารถเข็นช็อปปิ้งที่มีมะนาวมักมียาลดกรดเช่นกัน

การประมาณการเพิ่มขึ้น

เทคนิคการสร้างแบบที่ใช้กันโดยทั่วไปในการตลาด ซึ่งจะสร้างโมเดล "ผลกระทบโดยทั่วไป" (หรือที่เรียกว่า "ผลกระทบที่เพิ่มขึ้น") ของ "กลุ่มทดสอบ" ต่อ "บุคคล" โดยมี 2 ตัวอย่างดังนี้

แพทย์อาจใช้การสร้างแบบจำลองการเพิ่มขึ้นเพื่อคาดการณ์การลดลงของการเสียชีวิต (ผลกระทบทั่วไป) ของกระบวนการทางการแพทย์ (การรักษา) โดยขึ้นอยู่กับอายุและประวัติการรักษาของผู้ป่วย (บุคคลทั่วไป)
นักการตลาดอาจใช้การประมาณการเพิ่มขึ้นเพื่อคาดการณ์การเพิ่มขึ้นของความน่าจะเป็นของการซื้อ (ผลกระทบโดยทั่วไป) ได้จากการโฆษณา (การปฏิบัติ) กับบุคคล (บุคคลธรรมดา)

การประมาณการเพิ่มขึ้นแตกต่างจากการแยกประเภทหรือการถดถอยตรงที่ป้ายกํากับบางป้ายกํากับ (เช่น ครึ่งหนึ่งของป้ายกํากับในไบนารีแบบไบนารี) จะไม่มีในการประมาณการเพิ่มขึ้นเสมอ ตัวอย่างเช่น ผู้ป่วยสามารถรับการรักษาหรือไม่ ดังนั้น เราจะสังเกตได้แค่ว่าผู้ป่วยจะหายดีหรือไม่ใน 2 สถานการณ์นี้เท่านั้น (แต่จะไม่หายทั้งคู่) ข้อดีหลักๆ ของโมเดลการยกระดับคือสามารถสร้างการคาดการณ์สำหรับสถานการณ์ที่ไม่สามารถสังเกตเห็นได้ (สิ่งที่ตรงข้ามกับความจริง) และใช้โมเดลนี้ในการคำนวณผลกระทบโดยทั่วไป

การถ่วงน้ำหนัก

การใช้น้ำหนักกับคลาสดาวน์เกรดเท่ากับปัจจัยที่คุณสุ่มตัวอย่างลง

เมทริกซ์ผู้ใช้

#recsystems

ในระบบแนะนำ เวกเตอร์การฝังที่สร้างขึ้นจากการแยกตัวประกอบเมทริกซ์ที่มีสัญญาณแฝงเกี่ยวกับค่ากำหนดของผู้ใช้ เมทริกซ์ผู้ใช้แต่ละแถวมีข้อมูลเกี่ยวกับความแรงสัมพัทธ์ของสัญญาณแฝงต่างๆ สำหรับผู้ใช้รายเดียว เช่น ลองพิจารณาระบบการแนะนำภาพยนตร์ ในระบบนี้ สัญญาณแฝงในเมทริกซ์ผู้ใช้อาจแสดงถึงความสนใจของผู้ใช้แต่ละคนในบางประเภท หรืออาจเป็นสัญญาณที่ยากกว่าในการตีความซึ่งเกี่ยวข้องกับการโต้ตอบที่ซับซ้อนในหลายๆ ปัจจัย

เมทริกซ์ผู้ใช้จะมีคอลัมน์สำหรับฟีเจอร์แฝงแต่ละรายการ และแถวสำหรับผู้ใช้แต่ละราย กล่าวคือ เมทริกซ์ผู้ใช้จะมีจำนวนแถวเท่ากับเมทริกซ์เป้าหมายที่กำลังแยกตัวประกอบ เช่น เมื่อมีระบบแนะนำภาพยนตร์สำหรับผู้ใช้ 1,000,000 คน เมทริกซ์ผู้ใช้จะมีแถว 1,000,000 แถว

V

การตรวจสอบความถูกต้อง

#fundamentals

การประเมินคุณภาพของโมเดลเบื้องต้น การตรวจสอบความถูกต้องจะตรวจสอบคุณภาพการคาดการณ์ของโมเดลโดยเทียบกับชุดการตรวจสอบ

เนื่องจากชุดการตรวจสอบแตกต่างจากชุดการฝึก การตรวจสอบจึงช่วยป้องกันการใส่เกิน

คุณอาจลองประเมินโมเดลกับชุดการตรวจสอบว่าเป็นการทดสอบรอบแรก และประเมินโมเดลกับชุดทดสอบซึ่งเป็นการทดสอบรอบที่ 2

การสูญเสียการตรวจสอบ

#fundamentals

เมตริกที่แสดงถึงการสูญหายของโมเดลในชุดการตรวจสอบในระหว่างการทำซ้ำการฝึกที่เฉพาะเจาะจง

ดูเส้นโค้งการปรับทั่วไปด้วย

ชุดการตรวจสอบ

#fundamentals

ชุดย่อยของชุดข้อมูลที่ทำการประเมินเบื้องต้นกับโมเดลที่ผ่านการฝึกแล้ว โดยปกติแล้ว คุณจะประเมินโมเดลที่ฝึกแล้วเทียบกับชุดการตรวจสอบหลายครั้งก่อนที่จะประเมินโมเดลกับชุดทดสอบ

ชุดการฝึก
ชุดการตรวจสอบ
ชุดทดสอบ

การคำนวณมูลค่า

กระบวนการแทนที่ค่าที่ขาดหายไปด้วยค่าแทนที่ยอมรับได้ เมื่อค่าหายไป คุณอาจทิ้งตัวอย่างทั้งหมดหรือใช้การคํานวณมูลค่าเพื่อกลบตัวอย่างก็ได้

ตัวอย่างเช่น ลองพิจารณาชุดข้อมูลที่มีฟีเจอร์ temperature ที่น่าจะบันทึกทุกชั่วโมง แต่ค่าอุณหภูมิที่อ่านได้ ไม่พร้อมใช้งานในชั่วโมงนั้น ส่วนนี้ของชุดข้อมูลมีดังนี้

การประทับเวลา	อุณหภูมิ
1680561000	10
1680564600	12
1680568200	ขาดหายไป
1680571800	20
1680575400	21
1680579000	21

ระบบอาจลบตัวอย่างที่ขาดหายไปหรือกำหนดอุณหภูมิที่ขาดหายไปเป็น 12, 16, 18 หรือ 20 โดยขึ้นอยู่กับอัลกอริทึมการคำนวณ

ปัญหาการไล่ระดับสีที่หายไป

#seq

แนวโน้มของการไล่ระดับสีของเลเยอร์ที่ซ่อนอยู่ช่วงแรกของโครงข่ายประสาทแบบลึกบางส่วนจะกลายเป็นแบนอย่างไม่น่าเชื่อ (ต่ำ) การไล่ระดับสีที่ต่ำมากขึ้นเรื่อยๆ ส่งผลให้น้ำหนักของโหนดในโครงข่ายประสาทแบบลึกเปลี่ยนแปลงน้อยลงเรื่อยๆ ซึ่งส่งผลให้มีการเรียนรู้น้อยหรือไม่เรียนรู้เลย โมเดลที่ประสบปัญหาการไล่ระดับสีที่หายไปจะทำได้ยากหรือจะไม่สามารถฝึกได้ เซลล์หน่วยความจำระยะสั้นจะช่วยแก้ปัญหานี้

เปรียบเทียบกับปัญหาการไล่ระดับสีแบบระเบิด

ความสำคัญของตัวแปร

#df

ชุดคะแนนที่ระบุความสำคัญเชิงสัมพัทธ์ของฟีเจอร์แต่ละรายการกับโมเดล

เช่น ลองพิจารณาแผนผังการตัดสินใจที่ประมาณราคาบ้าน สมมติว่าโครงสร้างการตัดสินใจนี้ใช้ฟีเจอร์ 3 อย่าง ได้แก่ ขนาด อายุ และรูปแบบ หากชุดของลำดับความสำคัญที่เปลี่ยนแปลงได้สำหรับคุณลักษณะทั้งสามคำนวณได้เป็น {size=5.8, age=2.5, style=4.7} ขนาดจะมีความสำคัญกับโครงสร้างการตัดสินใจมากกว่าอายุหรือรูปแบบ

เมตริกความสำคัญที่มีตัวแปรแตกต่างกัน ซึ่งทำให้ผู้เชี่ยวชาญ ML ทราบแง่มุมต่างๆ ของโมเดลได้

โปรแกรมเปลี่ยนไฟล์อัตโนมัติรูปแบบต่างๆ (VAE)

#language

ประเภทของ autoencoder ที่ใช้ประโยชน์จากความคลาดเคลื่อนระหว่างอินพุตและเอาต์พุตเพื่อสร้างอินพุตเวอร์ชันที่มีการแก้ไข โปรแกรมเปลี่ยนไฟล์อัตโนมัติรูปแบบต่างๆ มีประโยชน์สำหรับ Generative AI

VAE อิงตามการอนุมานตัวแปร ซึ่งเป็นเทคนิคในการประมาณพารามิเตอร์ของโมเดลความน่าจะเป็น

เวกเตอร์

มีคำศัพท์มากเกินไป ซึ่งมีความหมายแตกต่างกันไปในสาขาคณิตศาสตร์และวิทยาศาสตร์ที่แตกต่างกัน เวกเตอร์ในแมชชีนเลิร์นนิงจะมีคุณสมบัติ 2 อย่าง ได้แก่

ประเภทข้อมูล: เวกเตอร์ในแมชชีนเลิร์นนิงมักจะเก็บเลขทศนิยมไว้
จำนวนองค์ประกอบ: นี่คือความยาวของเวกเตอร์หรือมิติข้อมูลของเวกเตอร์

ตัวอย่างเช่น ลองพิจารณาเวกเตอร์ของฟีเจอร์ที่มีตัวเลขจุดลอยตัว 8 จุด เวกเตอร์ของจุดสนใจนี้มีความยาวหรือมิติข้อมูลเป็น 8 โปรดทราบว่าเวกเตอร์แมชชีนเลิร์นนิงมักมีมิติข้อมูลจำนวนมาก

คุณสามารถแสดงข้อมูลประเภทต่างๆ เป็นเวกเตอร์ได้ เช่น

ตำแหน่งใดๆ บนพื้นผิวโลกอาจแสดงเป็นเวกเตอร์ 2 มิติ โดยที่ด้านหนึ่งคือละติจูดและอีกส่วนหนึ่งคือลองจิจูด
ราคาปัจจุบันของหุ้นแต่ละตัวที่มี 500 ตัวอาจแสดงเป็นเวกเตอร์ 500 มิติ
การกระจายความน่าจะเป็นสำหรับจำนวนที่จำกัดของคลาสอาจแสดงเป็นเวกเตอร์ได้ ตัวอย่างเช่น ระบบการจัดประเภทแบบหลายคลาสที่คาดการณ์สีเอาต์พุต 1 ใน 3 สี (แดง เขียว หรือเหลือง) อาจแสดงผลเวกเตอร์ (0.3, 0.2, 0.5) เพื่อหมายถึง P[red]=0.3, P[green]=0.2, P[yellow]=0.5

เวกเตอร์สามารถต่อกันได้ ดังนั้นสื่อที่หลากหลายสามารถแสดงเป็นเวกเตอร์เดียวได้ บางโมเดลดำเนินการโดยตรงในการต่อการเข้ารหัสแบบ One-Hot หลายรายการ

ส่วนโปรเซสเซอร์เฉพาะทาง เช่น TPU จะได้รับการเพิ่มประสิทธิภาพเพื่อดำเนินการทางคณิตศาสตร์เกี่ยวกับเวกเตอร์

เวกเตอร์คือ tensor ของ rank 1

W

แพ้ Wasserstein

หนึ่งในฟังก์ชันการสูญหายที่ใช้กันโดยทั่วไปในเครือข่าย Generative Adversarial โดยอิงตามระยะห่างของผู้ขนย้ายโลกระหว่างการกระจายข้อมูลที่สร้างขึ้นกับข้อมูลจริง

น้ำหนัก

#fundamentals

ค่าที่โมเดลคูณด้วยค่าอื่น การฝึกเป็นกระบวนการในการกำหนดน้ำหนักที่เหมาะสมของโมเดล การอนุมานเป็นกระบวนการของการใช้น้ำหนักที่เรียนรู้เหล่านั้นมาในการคาดการณ์

คลิกไอคอนเพื่อดูตัวอย่างน้ำหนักในรูปแบบเชิงเส้น

สมมติว่าโมเดลเชิงเส้นที่มีฟีเจอร์ 2 รายการ สมมติว่าการฝึกเป็นตัวกำหนดน้ำหนัก (และอคติ) ต่อไปนี้

การให้น้ำหนัก b มีค่า 2.2
น้ำหนัก₁ ที่เชื่อมโยงกับจุดสนใจหนึ่งคือ 1.5
น้ำหนัก ₂ ที่เชื่อมโยงกับอีกฟีเจอร์หนึ่งคือ 0.4

คราวนี้ลองนึกภาพตัวอย่างที่มีค่าของฟีเจอร์ต่อไปนี้

ค่าของสถานที่ 1 แห่ง ซึ่งก็คือ x₁ คือ 6
ค่าของอีกฟีเจอร์หนึ่ง x₂ คือ 10

รูปแบบเชิงเส้นนี้ใช้สูตรต่อไปนี้เพื่อสร้างการคาดการณ์ ดังนี้

$$y' = b + w_1x_1 + w_2x_2$$

ดังนั้น การคาดการณ์จะเป็นดังนี้

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

หากน้ำหนักเป็น 0 หมายความว่าฟีเจอร์ที่เกี่ยวข้องจะไม่ส่งผลกับโมเดล เช่น ถ้า w₁ เป็น 0 ค่าของ x₁ จะไม่เกี่ยวข้อง

สี่เหลี่ยมจัตุรัสน้อยที่สุดแบบถ่วงน้ำหนัก (WALS)

#recsystems

อัลกอริทึมสำหรับการลดฟังก์ชันวัตถุประสงค์ในระหว่างการแยกตัวประกอบเมทริกซ์ในระบบการแนะนำ ซึ่งช่วยลดจำนวนตัวอย่างที่หายไปได้ WALS ช่วยลดความคลาดเคลื่อนกำลังสองแบบถ่วงน้ำหนักระหว่างเมทริกซ์เดิมกับการสร้างใหม่ด้วยการผกผันระหว่างการแก้ไขการแยกตัวประกอบแถวและการแยกตัวประกอบคอลัมน์ การเพิ่มประสิทธิภาพแต่ละรายการจะแก้ไขได้ด้วยการเพิ่มประสิทธิภาพ Convvex กำลังสองเป็นอย่างน้อย ดูรายละเอียดได้ที่หลักสูตรระบบการแนะนำ

ผลรวมถ่วงน้ำหนัก

#fundamentals

ผลรวมของค่าอินพุตที่เกี่ยวข้องทั้งหมดคูณด้วยน้ำหนักที่สอดคล้องกัน ตัวอย่างเช่น สมมติว่าอินพุตที่เกี่ยวข้องประกอบด้วยข้อมูลต่อไปนี้

ค่าอินพุต	น้ำหนักอินพุต
2	-1.3
-1	0.6
3	0.4

ดังนั้น ผลรวมถ่วงน้ำหนักจะเป็นดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

ผลรวมถ่วงน้ำหนักคืออาร์กิวเมนต์อินพุตของฟังก์ชันการเปิดใช้งาน

โมเดลแบบกว้าง

โมเดลเชิงเส้นที่มักจะมีฟีเจอร์อินพุตแบบกระจัดกระจายหลายรายการ เราเรียกโมเดลนี้ว่า "wide" เนื่องจากโมเดลดังกล่าวเป็นโครงข่ายระบบประสาทเทียมประเภทพิเศษที่มีอินพุตจำนวนมากที่เชื่อมต่อกับโหนดเอาต์พุตโดยตรง โมเดลแบบกว้างมักจะแก้ไขข้อบกพร่องและตรวจสอบได้ง่ายกว่าโมเดลเชิงลึก แม้ว่าโมเดลแบบกว้างจะแสดงความไม่เป็นเชิงเส้นผ่านเลเยอร์ที่ซ่อนอยู่ไม่ได้ แต่โมเดลแบบกว้างสามารถใช้การเปลี่ยนรูปแบบ เช่น ข้ามฟีเจอร์และที่เก็บข้อมูลเพื่อประมาณความไม่เป็นเชิงเส้นในลักษณะต่างๆ ได้

คอนทราสต์กับโมเดลเชิงลึก

ความกว้าง

จำนวนของเซลล์ประสาทในเลเยอร์ที่เฉพาะเจาะจงของโครงข่ายระบบประสาท

ภูมิปัญญาของฝูงชน

#df

แนวคิดที่ว่าค่าเฉลี่ยของความคิดเห็นหรือค่าประมาณของคนกลุ่มใหญ่ ("ผู้คนจำนวนมาก") มักให้ผลลัพธ์ที่ดีอย่างน่าประหลาด เช่น ลองพิจารณาเกมที่ผู้คนจะเดาจำนวน เยลลี่บีนที่อัดใส่ในโหลขนาดใหญ่ แม้ว่าการคาดเดาของคนส่วนใหญ่จะไม่แม่นยำ แต่ค่าเฉลี่ยการคาดเดาทั้งหมดเห็นได้ชัดว่าใกล้เคียงกับจำนวนเยลลี่บีนในโหลจริงๆ อย่างน่าประหลาด

Ensembles เป็นซอฟต์แวร์ที่รวบรวมความรู้จากผู้อื่น แม้ว่าแต่ละโมเดลจะคาดการณ์ได้ไม่ถูกต้องอย่างมาก แต่ค่าเฉลี่ยการคาดการณ์ของโมเดลจำนวนมากมักทำให้เกิดการคาดการณ์ที่ดีอย่างไม่น่าเชื่อ เช่น แม้ว่าแผนผังการตัดสินใจแต่ละรายการอาจคาดการณ์ได้ไม่ดี แต่ป่าการตัดสินใจมักให้การคาดการณ์ที่ดีมาก

การฝังคำ

#language

แสดงแต่ละคำในชุดคำภายในเวกเตอร์การฝัง ซึ่งก็คือการแสดงแต่ละคำเป็นเวกเตอร์ของค่าจุดลอยตัวระหว่าง 0.0 ถึง 1.0 คำที่มีความหมายคล้ายคลึงกันจะมีการนำเสนอที่คล้ายกันมากกว่าคำที่มีความหมายต่างกัน เช่น แครอท คึ่นช่าย และแตงกวาต่างก็มีการนำเสนอที่ค่อนข้างคล้ายกัน ซึ่งแตกต่างอย่างมากจากการนำเสนอเครื่องบิน แว่นกันแดด และยาสีฟัน

X

XLA (พีชคณิตเชิงเส้นแบบเร่ง)

คอมไพเลอร์แมชชีนเลิร์นนิงแบบโอเพนซอร์สสำหรับ GPU, CPU และตัวเร่ง ML

คอมไพเลอร์ XLA นำโมเดลจากเฟรมเวิร์ก ML ยอดนิยม เช่น PyTorch, TensorFlow และ JAX มาเพิ่มประสิทธิภาพให้การทำงานที่ยอดเยี่ยมในแพลตฟอร์มฮาร์ดแวร์ต่างๆ รวมถึง GPU, CPU และตัวเร่งของ ML

Z

การเรียนรู้แบบ Zero-shot

ประเภทของการฝึกแมชชีนเลิร์นนิงที่โมเดลอนุมานการคาดคะเนสำหรับงานที่ยังไม่ได้ฝึกโดยเฉพาะ กล่าวคือ โมเดลจะได้รับตัวอย่างการฝึกเฉพาะงานเป็นศูนย์ แต่ระบบจะขอให้อนุมานสำหรับงานนั้น

ข้อความแจ้งการตั้งค่าศูนย์ช็อต

#language

#GenerativeAI

ข้อความแจ้งที่ไม่ได้แสดงตัวอย่างวิธีที่คุณต้องการให้โมเดลภาษาขนาดใหญ่ตอบสนอง เช่น

ส่วนต่างๆ ของข้อความแจ้งรายการเดียว	Notes
`สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร`	คำถามที่ต้องการให้ LLM ตอบ
`อินเดีย:`	ข้อความค้นหาจริง

โมเดลภาษาขนาดใหญ่อาจตอบกลับด้วยสิ่งต่อไปนี้

รูปี
INR
₹
รูปีอินเดีย
รูปี
รูปีอินเดีย

ถูกทุกข้อ แต่คุณควรใช้รูปแบบใดรูปแบบหนึ่งโดยเฉพาะ

เปรียบเทียบข้อความแจ้งแบบเซโรช็อตกับข้อความต่อไปนี้

ข้อความแจ้งในช็อตเดียว
ข้อความแจ้งเพียงไม่กี่ช็อต

การแปลงค่ามาตรฐานเป็น Z

#fundamentals

เทคนิคการปรับขนาดที่แทนที่ค่า feature ดิบด้วยค่าจุดลอยตัวที่แสดงจำนวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของจุดสนใจนั้น ตัวอย่างเช่น ลององค์ประกอบที่มีค่าเฉลี่ยคือ 800 และมีค่าเบี่ยงเบนมาตรฐานเป็น 100 ตารางต่อไปนี้แสดงวิธีที่การปรับคะแนน Z ให้เป็นมาตรฐาน จะจับคู่ค่าดิบกับคะแนน Z

ค่าดิบ	คะแนนมาตรฐาน
800	0
950	มากกว่า 1.5
575	-2.25

จากนั้นโมเดลแมชชีนเลิร์นนิงจะฝึกตามคะแนน Z สำหรับฟีเจอร์นั้นแทนที่จะใช้ค่าดิบ