อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง

พจนานุกรมคำศัพท์นี้จะให้คำนิยามของคำศัพท์เกี่ยวกับปัญญาประดิษฐ์

A

การจี้

เทคนิคในการประเมินความสำคัญของฟีเจอร์ หรือคอมโพเนนต์โดยนำออกชั่วคราวจากโมเดล จากนั้นให้ ฝึกโมเดลใหม่โดยไม่มีฟีเจอร์หรือคอมโพเนนต์นั้น และหากโมเดลที่ฝึกใหม่ มีประสิทธิภาพแย่ลงอย่างเห็นได้ชัด แสดงว่าฟีเจอร์หรือคอมโพเนนต์ที่นำออก น่าจะมีความสำคัญ

ตัวอย่างเช่น สมมติว่าคุณฝึกโมเดลการจัดประเภท ในฟีเจอร์ 10 รายการและได้ความแม่นยำ 88% ใน ชุดทดสอบ หากต้องการตรวจสอบความสำคัญ ของฟีเจอร์แรก คุณสามารถฝึกโมเดลอีกครั้งโดยใช้เฉพาะฟีเจอร์อื่นๆ อีก 9 รายการ หากโมเดลที่ฝึกใหม่มีประสิทธิภาพแย่ลงอย่างมาก (เช่น ความแม่นยำ 55%) แสดงว่าฟีเจอร์ที่นำออกอาจมีความสำคัญ ในทางกลับกัน หากโมเดลที่ฝึกใหม่ทำงานได้ดีเท่ากัน แสดงว่าฟีเจอร์นั้นอาจ ไม่สำคัญมากนัก

นอกจากนี้ การตัดออกยังช่วยระบุความสำคัญของสิ่งต่อไปนี้ได้ด้วย

คอมโพเนนต์ขนาดใหญ่ เช่น ทั้งระบบย่อยของระบบ ML ขนาดใหญ่
กระบวนการหรือเทคนิค เช่น ขั้นตอนการประมวลผลข้อมูลเบื้องต้น

ในทั้ง 2 กรณี คุณจะสังเกตเห็นว่าประสิทธิภาพของระบบเปลี่ยนแปลง (หรือไม่เปลี่ยนแปลง) หลังจากนำคอมโพเนนต์ออก

การทดสอบ A/B

วิธีทางสถิติในการเปรียบเทียบเทคนิค 2 อย่าง (หรือมากกว่า) ซึ่งก็คือ A และ B โดยปกติแล้ว A คือเทคนิคที่มีอยู่ และ B คือเทคนิคใหม่ การทดสอบ A/B ไม่เพียงแต่ระบุว่าเทคนิคใดทำงานได้ดีกว่า แต่ยังระบุว่าความแตกต่างนั้นมีนัยสำคัญทางสถิติหรือไม่ด้วย

โดยปกติแล้วการทดสอบ A/B จะเปรียบเทียบเมตริกเดียวใน 2 เทคนิค เช่น ความแม่นยำของโมเดลเป็นอย่างไรเมื่อเปรียบเทียบกับ 2 เทคนิค อย่างไรก็ตาม การทดสอบ A/B ยังสามารถเปรียบเทียบเมตริกจำนวนจำกัดได้ด้วย

ชิปตัวเร่ง

#GoogleCloud

หมวดหมู่ของคอมโพเนนต์ฮาร์ดแวร์เฉพาะทางที่ออกแบบมาเพื่อทำการคำนวณที่สำคัญ ซึ่งจำเป็นสำหรับอัลกอริทึมการเรียนรู้เชิงลึก

ชิปตัวเร่ง (หรือเรียกสั้นๆ ว่าตัวเร่ง) สามารถเพิ่มความเร็วและประสิทธิภาพของงานการฝึกและอนุมานได้อย่างมาก เมื่อเทียบกับ CPU แบบอเนกประสงค์ ซึ่งเหมาะอย่างยิ่งสำหรับการฝึก โครงข่ายประสาทเทียมและงานที่ต้องใช้การคำนวณสูงที่คล้ายกัน

ตัวอย่างชิปเร่งความเร็ว ได้แก่

Tensor Processing Unit (TPU) ของ Google ที่มีฮาร์ดแวร์เฉพาะ สำหรับการเรียนรู้เชิงลึก
GPU ของ NVIDIA ซึ่งแม้จะออกแบบมาเพื่อการประมวลผลกราฟิกในตอนแรก แต่ก็ออกแบบมาเพื่อเปิดใช้การประมวลผลแบบขนาน ซึ่งจะช่วยเพิ่มความเร็วในการประมวลผลได้อย่างมาก

ความแม่นยำ

#fundamentals

#Metric

จำนวนการคาดการณ์การจัดประเภทที่ถูกต้องหารด้วยจำนวนการคาดการณ์ทั้งหมด โดยการ

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

เช่น โมเดลที่คาดการณ์ถูกต้อง 40 รายการและคาดการณ์ไม่ถูกต้อง 10 รายการ จะมีความแม่นยำดังนี้

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

การจัดประเภทแบบไบนารีจะระบุชื่อที่เฉพาะเจาะจง สำหรับหมวดหมู่ต่างๆ ของการคาดการณ์ที่ถูกต้องและ การคาดการณ์ที่ไม่ถูกต้อง ดังนั้น สูตรความแม่นยำสำหรับการจัดประเภทแบบไบนารี จึงเป็นดังนี้

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

ที่ไหน

TP คือจำนวนผลบวกจริง (การคาดการณ์ที่ถูกต้อง)
TN คือจำนวนผลลบจริง (การคาดการณ์ที่ถูกต้อง)
FP คือจำนวนผลบวกลวง (การคาดการณ์ที่ไม่ถูกต้อง)
FN คือจำนวนผลลบลวง (การคาดการณ์ที่ไม่ถูกต้อง)

เปรียบเทียบความแม่นยำกับความเที่ยงตรงและความอ่อนไหว

คลิกไอคอนเพื่อดูรายละเอียดเกี่ยวกับความแม่นยำและชุดข้อมูลที่มีความไม่สมดุลของคลาส

แม้ว่าความถูกต้องจะเป็นเมตริกที่มีประโยชน์ในบางสถานการณ์ แต่ก็อาจทำให้เข้าใจผิดอย่างมากในสถานการณ์อื่นๆ โดยปกติแล้ว ความแม่นยำมักจะเป็นเมตริกที่ไม่ดี สำหรับการประเมินโมเดลการแยกประเภทที่ประมวลผล ชุดข้อมูลที่มีความไม่สมดุลของคลาส

ตัวอย่างเช่น สมมติว่าในเมืองกึ่งเขตร้อนแห่งหนึ่งมีหิมะตกเพียง 25 วันต่อศตวรรษ เนื่องจากวันที่ไม่มีหิมะ (คลาสเชิงลบ) มีจำนวนมากกว่าวันที่หิมะตก (คลาสเชิงบวก) อย่างมาก ชุดข้อมูลหิมะสำหรับเมืองนี้จึงเป็นคลาสที่ไม่สมดุล ลองนึกถึงโมเดลการจัดประเภทแบบไบนารี ที่ควรจะคาดการณ์ว่าจะมีหิมะตกหรือไม่ในแต่ละวัน แต่ กลับคาดการณ์ว่า "ไม่มีหิมะ" ทุกวัน โมเดลนี้มีความแม่นยำสูง แต่ไม่มีความสามารถในการคาดการณ์ ตารางต่อไปนี้สรุปผลลัพธ์ของการคาดการณ์ในรอบศตวรรษ

หมวดหมู่	ตัวเลข
TP	0
TN	36499
FP	0
FN	25

ดังนั้นความแม่นยำของโมเดลนี้จึงเป็นดังนี้

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

แม้ว่าความแม่นยำ 99.93% จะดูเหมือนเป็นเปอร์เซ็นต์ที่น่าประทับใจมาก แต่จริงๆ แล้วโมเดล ไม่มีความสามารถในการคาดการณ์

ความแม่นยำและ ความสามารถในการเรียกคืนมักจะเป็นเมตริกที่มีประโยชน์มากกว่าความถูกต้องในการประเมินโมเดลที่ฝึกในชุดข้อมูลที่มีความไม่สมดุลของคลาส

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ความแม่นยำ การเรียกคืน ความเที่ยงตรง และเมตริกที่เกี่ยวข้อง ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

การดำเนินการ

ในการเรียนรู้แบบเสริมกำลัง กลไกที่เอเจนต์ เปลี่ยนจากสถานะหนึ่งไปยังอีกสถานะหนึ่งใน สภาพแวดล้อม เอเจนต์จะเลือกการดำเนินการโดยใช้นโยบาย

ฟังก์ชันการเปิดใช้งาน

#fundamentals

ฟังก์ชันที่ช่วยให้โครงข่ายประสาทเทียมเรียนรู้ความสัมพันธ์ที่ไม่ใช่เชิงเส้น (ซับซ้อน) ระหว่างฟีเจอร์ กับป้ายกำกับ

ฟังก์ชันการเปิดใช้งานที่ได้รับความนิยมมีดังนี้

ReLU
Sigmoid

กราฟของฟังก์ชันการเปิดใช้งานจะไม่ใช่เส้นตรงเส้นเดียว ตัวอย่างเช่น พล็อตของฟังก์ชันกระตุ้น ReLU ประกอบด้วยเส้นตรง 2 เส้น ดังนี้

พล็อตคาร์ทีเซียนของ 2 เส้น เส้นแรกมีค่า y คงที่
เป็น 0 โดยวิ่งไปตามแกน x จาก -infinity,0 ถึง 0,-0
บรรทัดที่ 2 เริ่มต้นที่ 0,0 เส้นนี้มีความชัน +1 ดังนั้น
จึงวิ่งจาก 0,0 ไปยัง +อินฟินิตี้,+อินฟินิตี้

กราฟของฟังก์ชันการเปิดใช้งานแบบซิคมอยด์มีลักษณะดังนี้

พล็อตเส้นโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมน
-อินฟินิตี้ถึง +บวก ขณะที่ค่า y ครอบคลุมช่วงเกือบ 0 ถึง
เกือบ 1 เมื่อ x เป็น 0, y จะเป็น 0.5 ความชันของเส้นโค้งจะเป็นบวกเสมอ โดยมีความชันสูงสุดที่ 0,0.5 และความชันจะค่อยๆ ลดลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

คลิกไอคอนเพื่อดูตัวอย่าง

ในโครงข่ายประสาทเทียม ฟังก์ชันการเปิดใช้งานจะจัดการผลรวมแบบถ่วงน้ำหนักของอินพุตทั้งหมดไปยังนิวรอน หากต้องการคำนวณผลรวมแบบถ่วงน้ำหนัก นิวรอนจะบวก ผลคูณของค่าและการถ่วงน้ำหนักที่เกี่ยวข้อง ตัวอย่างเช่น สมมติว่า อินพุตที่เกี่ยวข้องกับนิวรอนประกอบด้วยข้อมูลต่อไปนี้

ค่าอินพุต	น้ำหนักอินพุต
2	-1.3
-1	0.6
3	0.4

ดังนั้น ผลรวมแบบถ่วงน้ำหนักจึงเป็นดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

สมมติว่าผู้ออกแบบโครงข่ายประสาทเทียมนี้เลือกฟังก์ชันซิกมอยด์เป็นฟังก์ชันการเปิดใช้งาน ในกรณีนี้ นิวรอนจะคำนวณ ซิกมอยด์ของ -2.0 ซึ่งเท่ากับประมาณ 0.12 ดังนั้น นิวรอนจึงส่ง 0.12 (แทนที่จะเป็น -2.0) ไปยังเลเยอร์ถัดไปในโครงข่ายประสาท รูปภาพต่อไปนี้แสดงส่วนที่เกี่ยวข้องของกระบวนการ

ดูข้อมูลเพิ่มเติมได้ที่โครงข่ายประสาทเทียม: ฟังก์ชันการเปิดใช้งาน ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

การเรียนรู้แบบลงมือปฏิบัติ

แนวทางการฝึกที่อัลกอริทึมเลือกข้อมูลบางส่วนที่เรียนรู้ การเรียนรู้แบบแอ็กทีฟ มีประโยชน์อย่างยิ่งเมื่อตัวอย่างที่ติดป้ายกำกับ มีอยู่น้อยหรือมีต้นทุนสูง อัลกอริทึมการเรียนรู้แบบลงมือปฏิบัติจะเลือกหาตัวอย่างในช่วงที่ต้องการสำหรับการเรียนรู้ แทนที่จะหาตัวอย่างที่ติดป้ายกำกับหลากหลายโดยไม่เลือก

AdaGrad

อัลกอริทึมการไล่ระดับขั้นสูงที่ปรับขนาดใหม่ การไล่ระดับของแต่ละพารามิเตอร์ ซึ่งทำให้แต่ละพารามิเตอร์มี อัตราการเรียนรู้ที่เป็นอิสระ ดูคำอธิบายแบบเต็มได้ที่ วิธีการย่อยแบบปรับได้สำหรับการเรียนรู้ออนไลน์และการเพิ่มประสิทธิภาพแบบสุ่ม

การดัดแปลง

#generativeAI

คำพ้องความหมายของการปรับแต่งหรือการปรับแต่งอย่างละเอียด

ตัวแทน

#generativeAI

ซอฟต์แวร์ที่สามารถให้เหตุผลเกี่ยวกับอินพุตของผู้ใช้แบบมัลติโมดัลเพื่อวางแผนและ ดำเนินการในนามของผู้ใช้

ในการเรียนรู้แบบเสริมกำลัง เอเจนต์คือเอนทิตีที่ใช้นโยบายเพื่อเพิ่มผลตอบแทนที่คาดไว้ให้ได้มากที่สุด ซึ่งได้จากการ เปลี่ยนสถานะของสภาพแวดล้อม

เป็น Agent

#generativeAI

รูปแบบคำคุณศัพท์ของagent Agentic หมายถึงคุณสมบัติ ที่เอเจนต์มี (เช่น ความเป็นอิสระ)

เวิร์กโฟลว์ของ Agentic AI

#generativeAI

กระบวนการแบบไดนามิกที่เอเจนต์วางแผนและดำเนินการโดยอัตโนมัติ เพื่อให้บรรลุเป้าหมาย กระบวนการนี้อาจเกี่ยวข้องกับการให้เหตุผล การเรียกใช้เครื่องมือภายนอก และการแก้ไขแผนด้วยตนเอง

การจัดกลุ่มแบบรวม

#clustering

ดูการจัดกลุ่มแบบลำดับชั้น

AI Slop

#generativeAI

เอาต์พุตจากระบบ Generative AI ที่เน้นปริมาณมากกว่าคุณภาพ ตัวอย่างเช่น หน้าเว็บที่มีเนื้อหาที่ AI สร้างขึ้นอย่างลวกๆ จะเต็มไปด้วยเนื้อหาคุณภาพต่ำที่ AI สร้างขึ้นอย่างถูกๆ

การตรวจจับความผิดปกติ

กระบวนการระบุค่าผิดปกติ ตัวอย่างเช่น หากค่าเฉลี่ย ของฟีเจอร์หนึ่งๆ คือ 100 โดยมีค่าเบี่ยงเบนมาตรฐานเป็น 10 การตรวจหาความผิดปกติควรแจ้งค่า 200 ว่าน่าสงสัย

AR

คำย่อของ Augmented Reality

พื้นที่ใต้กราฟ PR

#Metric

ดูPR AUC (พื้นที่ใต้กราฟ PR)

พื้นที่ใต้กราฟ ROC

#Metric

ดู AUC (พื้นที่ใต้กราฟ ROC)

ปัญญาประดิษฐ์ทั่วไป

กลไกที่ไม่ใช่มนุษย์ซึ่งแสดงให้เห็นถึงความหลากหลายในการแก้ปัญหา ความคิดสร้างสรรค์ และความสามารถในการปรับตัว เช่น โปรแกรมที่แสดงให้เห็นถึงปัญญาประดิษฐ์ อเนกประสงค์สามารถแปลข้อความ แต่งซิมโฟนี และเล่นเกมที่ยังไม่มีใครเคยประดิษฐ์ได้เก่ง

ปัญญาประดิษฐ์ (AI)

#fundamentals

โปรแกรมหรือโมเดลที่ไม่ใช่มนุษย์ซึ่งสามารถแก้โจทย์ที่ซับซ้อนได้ ตัวอย่างเช่น โปรแกรมหรือโมเดลที่แปลข้อความ หรือโปรแกรมหรือโมเดลที่ ระบุโรคจากภาพรังสีวิทยา ทั้ง 2 อย่างนี้แสดงให้เห็นถึงปัญญาประดิษฐ์

ในทางเทคนิคแล้ว แมชชีนเลิร์นนิงเป็นสาขาย่อยของปัญญาประดิษฐ์ อย่างไรก็ตาม ในช่วงไม่กี่ปีที่ผ่านมา องค์กรบางแห่งเริ่มใช้คำว่าปัญญาประดิษฐ์และแมชชีนเลิร์นนิงสลับกัน

โปรดทราบ

กลไกที่ใช้ในโครงข่ายประสาทเทียมซึ่งบ่งบอกถึงความสำคัญของคำหรือส่วนของคำ Attention จะบีบอัด ปริมาณข้อมูลที่โมเดลต้องใช้ในการคาดการณ์โทเค็น/คำถัดไป กลไกความสนใจทั่วไปอาจประกอบด้วยผลรวมถ่วงน้ำหนักของชุดอินพุต โดยน้ำหนักสำหรับอินพุตแต่ละรายการจะคำนวณโดยส่วนอื่นของโครงข่ายประสาทเทียม

ดูSelf-Attention และ Multi-Head Self-Attention ซึ่งเป็น องค์ประกอบพื้นฐานของ Transformer

ดูข้อมูลเพิ่มเติมเกี่ยวกับ Self-Attention ได้ที่ LLM: โมเดลภาษาขนาดใหญ่คืออะไร ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

แอตทริบิวต์

#responsible

คำพ้องความหมายของฟีเจอร์

ในความเท่าเทียมของแมชชีนเลิร์นนิง แอตทริบิวต์มักหมายถึง ลักษณะที่เกี่ยวข้องกับบุคคล

การสุ่มตัวอย่างแอตทริบิวต์

#df

กลยุทธ์สำหรับการฝึกDecision Forest ซึ่งDecision Tree แต่ละรายการจะพิจารณาเฉพาะกลุ่มย่อยแบบสุ่มของฟีเจอร์ที่เป็นไปได้เมื่อเรียนรู้เงื่อนไข โดยทั่วไป ระบบจะสุ่มตัวอย่างชุดฟีเจอร์ย่อยที่แตกต่างกันสำหรับแต่ละโหนด ในทางตรงกันข้าม เมื่อฝึกต้นไม้ตัดสินใจโดยไม่ใช้การสุ่มตัวอย่างแอตทริบิวต์ ระบบจะพิจารณาฟีเจอร์ที่เป็นไปได้ทั้งหมดสำหรับแต่ละโหนด

AUC (พื้นที่ใต้กราฟ ROC)

#fundamentals

#Metric

ตัวเลขระหว่าง 0.0 ถึง 1.0 ซึ่งแสดงถึงความสามารถของโมเดลการจัดประเภทแบบไบนารี ในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ ยิ่ง AUC ใกล้ 1.0 มากเท่าใด ความสามารถของโมเดลในการแยก คลาสออกจากกันก็จะยิ่งดีขึ้นเท่านั้น

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโมเดลการจัดประเภทที่แยกคลาสเชิงบวก (วงรีสีเขียว) ออกจากคลาสเชิงลบ (สี่เหลี่ยมผืนผ้าสีม่วง) ได้อย่างสมบูรณ์ โมเดลที่สมบูรณ์แบบอย่างไม่สมจริงนี้มี AUC เท่ากับ 1.0

เส้นจำนวนที่มีตัวอย่างเชิงบวก 8 รายการด้านหนึ่งและ
ตัวอย่างเชิงลบ 9 รายการอีกด้านหนึ่ง

ในทางกลับกัน ภาพต่อไปนี้แสดงผลลัพธ์ของโมเดลการจัดประเภทที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มี AUC เท่ากับ 0.5

เส้นจำนวนที่มีตัวอย่างที่เป็นบวก 6 ตัวอย่างและตัวอย่างที่เป็นลบ 6 ตัวอย่าง
ลำดับของตัวอย่างคือ บวก ลบ
บวก ลบ บวก ลบ บวก ลบ บวก
ลบ บวก ลบ

ใช่ โมเดลก่อนหน้ามี AUC เท่ากับ 0.5 ไม่ใช่ 0.0

โมเดลส่วนใหญ่อยู่ระหว่าง 2 สุดขั้วนี้ ตัวอย่างเช่น โมเดลต่อไปนี้แยกผลลัพธ์เชิงบวกออกจากเชิงลบได้ในระดับหนึ่ง ดังนั้นจึงมี AUC อยู่ระหว่าง 0.5 ถึง 1.0

เส้นจำนวนที่มีตัวอย่างที่เป็นบวก 6 ตัวอย่างและตัวอย่างที่เป็นลบ 6 ตัวอย่าง
ลำดับของตัวอย่างคือ ลบ ลบ ลบ ลบ บวก ลบ บวก บวก ลบ บวก บวก บวก

AUC จะไม่สนใจค่าที่คุณตั้งไว้สำหรับ เกณฑ์การจัดประเภท แต่ AUC จะพิจารณาเกณฑ์การแยกประเภทที่เป็นไปได้ทั้งหมด

คลิกไอคอนเพื่อดูข้อมูลเกี่ยวกับความสัมพันธ์ระหว่าง AUC กับเส้นโค้ง ROC

AUC แสดงถึงพื้นที่ใต้ กราฟ ROC ตัวอย่างเช่น กราฟ ROC สำหรับโมเดลที่แยกผลบวกออกจากผลลบได้อย่างสมบูรณ์จะมีลักษณะดังนี้

AUC คือพื้นที่ของบริเวณสีเทาในภาพประกอบก่อนหน้า ในกรณีที่ผิดปกติเช่นนี้ พื้นที่ก็คือความยาวของพื้นที่สีเทา (1.0) คูณด้วยความกว้างของพื้นที่สีเทา (1.0) ดังนั้น ผลคูณของ 1.0 และ 1.0 จึงให้ค่า AUC เท่ากับ 1.0 ซึ่งเป็นคะแนน AUC ที่สูงที่สุด ที่เป็นไปได้

ในทางกลับกัน เส้นโค้ง ROC สำหรับโมเดลการแยกประเภทที่ไม่สามารถ แยกคลาสได้เลยจะเป็นดังนี้ พื้นที่ของบริเวณสีเทานี้คือ 0.5

กราฟ ROC ที่พบได้ทั่วไปจะมีลักษณะดังต่อไปนี้โดยประมาณ

การคำนวณพื้นที่ใต้กราฟนี้ด้วยตนเองเป็นเรื่องที่ยาก โปรแกรมจึงมักคำนวณค่า AUC ส่วนใหญ่

คลิกไอคอนเพื่อดูคำจำกัดความของ AUC ที่เป็นทางการมากขึ้น

AUC คือความน่าจะเป็นที่โมเดลการจัดประเภทจะมีความมั่นใจมากขึ้นว่าตัวอย่างเชิงบวกที่เลือกแบบสุ่มเป็นบวกจริง มากกว่าตัวอย่างเชิงลบที่เลือกแบบสุ่มเป็นบวก

ดูข้อมูลเพิ่มเติมได้ที่การแยกประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เสมือนจริงจำลอง

เทคโนโลยีที่ซ้อนภาพที่คอมพิวเตอร์สร้างขึ้นบนมุมมองโลกแห่งความเป็นจริงของผู้ใช้ จึงทำให้เกิดมุมมองแบบผสม

ออโต้เอนโค้ดเดอร์

ระบบที่เรียนรู้ที่จะดึงข้อมูลที่สำคัญที่สุดจากอินพุต ออโต้เอนโค้ดเดอร์คือการรวมกันของเอนโค้ดเดอร์และ ดีโค้ดเดอร์ Autoencoder ใช้กระบวนการ 2 ขั้นตอนต่อไปนี้

ตัวเข้ารหัสจะแมปอินพุตกับรูปแบบที่มีการสูญเสียข้อมูลและมีมิติที่ต่ำกว่า (โดยทั่วไป) ซึ่งเป็นรูปแบบ (กลาง)
ดีโคดเดอร์จะสร้างอินพุตต้นฉบับเวอร์ชันที่มีการสูญเสียโดยการแมปรูปแบบที่มีมิติต่ำกว่ากับรูปแบบอินพุตต้นฉบับที่มีมิติสูงกว่า

ระบบจะฝึก Autoencoder แบบครบวงจรโดยให้ตัวถอดรหัสพยายาม สร้างอินพุตต้นฉบับจากรูปแบบกลางของตัวเข้ารหัส ให้ใกล้เคียงที่สุด เนื่องจากรูปแบบกลางมีขนาดเล็กกว่า (มีมิติข้อมูลต่ำกว่า) รูปแบบเดิม ตัวเข้ารหัสอัตโนมัติจึงต้องเรียนรู้ว่าข้อมูลใดในอินพุตที่จำเป็น และเอาต์พุตจะไม่เหมือนกับอินพุตอย่างสมบูรณ์

เช่น

หากข้อมูลอินพุตเป็นกราฟิก สำเนาที่ไม่ตรงกันจะคล้ายกับกราฟิกต้นฉบับ แต่มีการแก้ไขเล็กน้อย อาจเป็นเพราะสำเนาที่ไม่ตรงกันจะนำสัญญาณรบกวนออกจากกราฟิกต้นฉบับหรือเติมพิกเซลที่ขาดหายไป
หากข้อมูลอินพุตเป็นข้อความ ออโต้เอนโค้ดเดอร์จะสร้างข้อความใหม่ที่ เลียนแบบ (แต่ไม่เหมือนกับ) ข้อความต้นฉบับ

ดูVariational Autoencoders ด้วย

การประเมินอัตโนมัติ

#generativeAI

การใช้ซอฟต์แวร์เพื่อตัดสินคุณภาพของเอาต์พุตของโมเดล

เมื่อเอาต์พุตของโมเดลค่อนข้างตรงไปตรงมา สคริปต์หรือโปรแกรมจะ เปรียบเทียบเอาต์พุตของโมเดลกับคำตอบที่ถูกต้องได้ บางครั้งเราเรียกการประเมินอัตโนมัติประเภทนี้ว่าการประเมินแบบเป็นโปรแกรม เมตริก เช่น ROUGE หรือ BLEU มักมีประโยชน์สำหรับการประเมินแบบเป็นโปรแกรม

เมื่อเอาต์พุตของโมเดลมีความซับซ้อนหรือไม่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว บางครั้งโปรแกรม ML แยกต่างหากที่เรียกว่าเครื่องมือให้คะแนนอัตโนมัติจะทำการประเมินอัตโนมัติ

เปรียบเทียบกับการประเมินโดยเจ้าหน้าที่

อคติในการทำงานอัตโนมัติ

#responsible

เมื่อผู้มีอำนาจตัดสินใจที่เป็นมนุษย์ชอบคำแนะนำที่ระบบการตัดสินใจอัตโนมัติสร้างขึ้นมากกว่าข้อมูลที่สร้างขึ้นโดยไม่มีการทำงานอัตโนมัติ แม้ว่าระบบการตัดสินใจอัตโนมัติจะทำผิดพลาดก็ตาม

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ประเภทของอคติ ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

AutoML

กระบวนการอัตโนมัติใดๆ สำหรับการสร้างแมชชีนเลิร์นนิง โมเดล AutoML สามารถทำงานต่างๆ โดยอัตโนมัติได้ เช่น

ค้นหาโมเดลที่เหมาะสมที่สุด
ปรับแต่งไฮเปอร์พารามิเตอร์
เตรียมข้อมูล (รวมถึงการทำการออกแบบฟีเจอร์)
ทำให้โมเดลที่ได้ใช้งานได้

AutoML มีประโยชน์สำหรับนักวิทยาศาสตร์ข้อมูลเนื่องจากช่วยประหยัดเวลาและ ความพยายามในการพัฒนาไปป์ไลน์แมชชีนเลิร์นนิง รวมถึงปรับปรุงความแม่นยำในการคาดการณ์ นอกจากนี้ยังเป็นประโยชน์ต่อผู้ที่ไม่เชี่ยวชาญด้วยการทำให้งานแมชชีนเลิร์นนิงที่ซับซ้อนเข้าถึงได้ง่ายขึ้น

ดูข้อมูลเพิ่มเติมได้ที่แมชชีนเลิร์นนิงอัตโนมัติ (AutoML) ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การประเมิน Autorater

#generativeAI

กลไกแบบผสมสำหรับการตัดสินคุณภาพของเอาต์พุตของโมเดลGenerative AI ซึ่งรวมการประเมินโดยเจ้าหน้าที่เข้ากับการประเมินอัตโนมัติ ผู้ให้คะแนนอัตโนมัติคือโมเดล ML ที่ฝึกโดยใช้ข้อมูลที่สร้างขึ้นจากการประเมินโดยเจ้าหน้าที่ ในอุดมคติแล้ว โปรแกรมให้คะแนนอัตโนมัติ จะเรียนรู้ที่จะเลียนแบบผู้ประเมินที่เป็นมนุษย์

มีเครื่องมือให้คะแนนอัตโนมัติที่สร้างไว้ล่วงหน้า แต่เครื่องมือให้คะแนนอัตโนมัติที่ดีที่สุดคือเครื่องมือที่ ได้รับการปรับแต่งมาโดยเฉพาะสำหรับงานที่คุณกำลังประเมิน

โมเดลอัตถดถอย

#generativeAI

โมเดลที่อนุมานการคาดการณ์ตามการคาดการณ์ก่อนหน้าของตัวเอง เช่น โมเดลภาษาแบบถดถอยอัตโนมัติจะคาดการณ์โทเค็นถัดไปโดยอิงตามโทเค็นที่คาดการณ์ไว้ก่อนหน้านี้ โมเดลภาษาขนาดใหญ่ที่อิงตาม Transformer ทั้งหมดเป็นแบบ Auto-Regressive

ในทางตรงกันข้าม โมเดลรูปภาพที่อิงตาม GAN มักจะไม่ใช่แบบถดถอยอัตโนมัติ เนื่องจากสร้างรูปภาพในการส่งต่อครั้งเดียวและไม่ได้ทำซ้ำใน ขั้นตอนต่างๆ อย่างไรก็ตาม โมเดลการสร้างรูปภาพบางโมเดลเป็นแบบถดถอยอัตโนมัติเนื่องจาก สร้างรูปภาพเป็นขั้นตอน

การสูญเสียเสริม

Loss Function ซึ่งใช้ร่วมกับ Loss Function หลักของโมเดลโครงข่ายประสาทเทียมที่ช่วยเร่งการฝึกในระหว่างการทำซ้ำช่วงแรกๆ เมื่อมีการเริ่มต้นน้ำหนักแบบสุ่ม

ฟังก์ชันการสูญเสียเสริมจะส่งการไล่ระดับที่มีประสิทธิภาพ ไปยังเลเยอร์ก่อนหน้า ซึ่งช่วยให้การบรรจบกันเป็นไปได้ง่ายขึ้นในระหว่างการฝึก ด้วยการแก้ปัญหาการไล่ระดับสีที่หายไป

ความแม่นยำเฉลี่ยที่ k

#Metric

เมตริกสำหรับสรุปประสิทธิภาพของโมเดลในพรอมต์เดียวที่สร้างผลลัพธ์ที่จัดอันดับ เช่น รายการคำแนะนำหนังสือที่มีหมายเลข ความแม่นยำเฉลี่ยที่ k คือค่าเฉลี่ยของค่า ความแม่นยำที่ k สำหรับผลลัพธ์ที่เกี่ยวข้องแต่ละรายการ ดังนั้น สูตรสำหรับความแม่นยำเฉลี่ยที่ k คือ

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

ที่ไหน

$n$ คือจำนวนสินค้าที่เกี่ยวข้องในรายการ

เปรียบเทียบกับฟีเจอร์ความทรงจำที่ k

คลิกไอคอนเพื่อดูตัวอย่าง

สมมติว่าโมเดลภาษาขนาดใหญ่ ได้รับคำค้นหาต่อไปนี้

List the 6 funniest movies of all time in order.

และโมเดลภาษาขนาดใหญ่จะแสดงรายการต่อไปนี้

The General
Mean Girls
Platoon
Bridesmaids
พลเมืองคาน
This is Spinal Tap

ภาพยนตร์ 4 เรื่องในรายการที่แสดงเป็นภาพยนตร์ตลกมาก (คือมีความเกี่ยวข้อง) แต่ภาพยนตร์ 2 เรื่องเป็นดราม่า (ไม่เกี่ยวข้อง) ตารางต่อไปนี้ แสดงรายละเอียดผลลัพธ์

ตำแหน่ง	ภาพยนตร์	เกี่ยวข้องไหม	ความแม่นยำที่ k
1	The General	ใช่	1.0
2	Mean Girls	ใช่	1.0
3	Platoon	ไม่	ไม่เกี่ยวข้อง
4	Bridesmaids	ใช่	0.75
5	พลเมืองคาน	ไม่	ไม่เกี่ยวข้อง
6	This is Spinal Tap	ใช่	0.67

จำนวนผลการค้นหาที่เกี่ยวข้องคือ 4 ดังนั้น คุณจึงคำนวณ ความแม่นยำเฉลี่ยที่ 6 ได้ดังนี้

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

เงื่อนไขที่สอดคล้องกับแกน

#df

ในแผนผังการตัดสินใจ เงื่อนไข ที่มีฟีเจอร์เดียวเท่านั้น ตัวอย่างเช่น หาก area เป็นฟีเจอร์ เงื่อนไขที่สอดคล้องกับแกนจะเป็นดังนี้

area > 200

เทียบกับเงื่อนไขที่คลุมเครือ

B

การแพร่ย้อนกลับ

#fundamentals

อัลกอริทึมที่ใช้การไล่ระดับการลดในโครงข่ายประสาทเทียม

การฝึกโครงข่ายประสาทเทียมต้องทำการทำซ้ำหลายครั้ง ในวงจร 2 รอบต่อไปนี้

ในระหว่างการส่งต่อ ระบบจะประมวลผลกลุ่มของ ตัวอย่างเพื่อให้ได้การคาดการณ์ ระบบจะเปรียบเทียบค่าการคาดการณ์แต่ละค่ากับค่าป้ายกำกับแต่ละค่า ความแตกต่างระหว่างค่าการคาดการณ์และค่าป้ายกำกับคือการสูญเสียสำหรับตัวอย่างนั้น ระบบจะรวมการสูญเสียสำหรับตัวอย่างทั้งหมดเพื่อคำนวณการสูญเสียทั้งหมดสำหรับกลุ่มปัจจุบัน
ในการส่งผ่านย้อนกลับ (การแพร่ย้อนกลับ) ระบบจะลดการสูญเสียโดยการ ปรับน้ำหนักของนิวรอนทั้งหมดในเลเยอร์ที่ซ่อนอยู่ทั้งหมด

โดยปกติแล้ว เครือข่ายประสาทจะมีนิวรอนจำนวนมากในเลเยอร์ที่ซ่อนอยู่หลายชั้น นิวรอนแต่ละตัวมีส่วนทำให้เกิดการสูญเสียโดยรวมในรูปแบบต่างๆ การแพร่ย้อนกลับจะพิจารณาว่าจะเพิ่มหรือลดน้ำหนัก ที่ใช้กับนิวรอนเฉพาะหรือไม่

อัตราการเรียนรู้คือตัวคูณที่ควบคุม ระดับที่แต่ละการส่งผ่านย้อนกลับจะเพิ่มหรือลดน้ำหนักแต่ละรายการ อัตราการเรียนรู้ที่สูงจะเพิ่มหรือลดน้ำหนักแต่ละรายการมากกว่าอัตราการเรียนรู้ที่ต่ำ

ในแง่ของแคลคูลัส การแพร่ย้อนกลับจะใช้กฎลูกโซ่ จากแคลคูลัส กล่าวคือ การแพร่ย้อนกลับจะคำนวณอนุพันธ์ย่อยของข้อผิดพลาดที่ เกี่ยวข้องกับแต่ละพารามิเตอร์

เมื่อหลายปีก่อน ผู้ปฏิบัติงานด้าน ML ต้องเขียนโค้ดเพื่อใช้การแพร่ย้อนกลับ API ของ ML รุ่นใหม่ เช่น Keras จะใช้การแพร่ย้อนกลับให้คุณ ในที่สุด

ดูข้อมูลเพิ่มเติมได้ที่โครงข่ายประสาทเทียม ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การใส่ถุง

#df

วิธีการฝึกกลุ่ม โดยที่โมเดลแต่ละรายการจะฝึกในชุดย่อยแบบสุ่มของตัวอย่างการฝึกที่สุ่มโดยมีการแทนที่ ตัวอย่างเช่น Random Forest คือชุดของDecision Tree ที่ฝึกด้วยการ Bagging

คำว่า Bagging ย่อมาจาก Bootstrap Aggregating

ดูข้อมูลเพิ่มเติมได้ที่ป่าสุ่ม ในหลักสูตร Decision Forests

Bag of Words

การแสดงคำในวลีหรือข้อความ โดยไม่คำนึงถึงลำดับ ตัวอย่างเช่น ถุงคำจะแสดงวลี 3 วลีต่อไปนี้เหมือนกัน

สุนัขกระโดด
กระโดดข้ามสุนัข
สุนัขกระโดด

ระบบจะแมปแต่ละคำกับดัชนีในเวกเตอร์แบบกระจัดกระจาย โดยเวกเตอร์จะมีดัชนีสำหรับทุกคำในคำศัพท์ เช่น วลี the dog jumps จะได้รับการแมปเป็นเวกเตอร์ฟีเจอร์ที่มีค่าที่ไม่ใช่ 0 ที่ดัชนี 3 รายการซึ่งสอดคล้องกับคำว่า the, dog และ jumps ค่าที่ไม่ใช่ 0 อาจเป็นค่าใดค่าหนึ่งต่อไปนี้

1 เพื่อระบุว่ามีคำนั้นอยู่
จำนวนครั้งที่คำปรากฏในถุง เช่น หากวลีคือ หมาสีน้ำตาลแดงเป็นหมาที่มีขนสีน้ำตาลแดง ทั้งคำว่าน้ำตาลแดงและหมาจะแสดงเป็น 2 ส่วนคำอื่นๆ จะแสดงเป็น 1
ค่าอื่นๆ เช่น ลอการิทึมของจำนวนครั้งที่คำปรากฏใน Bag

พื้นฐาน

#Metric

โมเดลที่ใช้เป็นจุดอ้างอิงในการเปรียบเทียบประสิทธิภาพของโมเดลอื่น (โดยปกติจะเป็นโมเดลที่ซับซ้อนกว่า) เช่น โมเดลการถดถอยโลจิสติกอาจเป็นโมเดลเชิงลึกที่ดี

สำหรับปัญหาหนึ่งๆ เกณฑ์พื้นฐานจะช่วยให้นักพัฒนาโมเดลสามารถวัดปริมาณ ประสิทธิภาพขั้นต่ำที่คาดหวังซึ่งโมเดลใหม่ต้องทำให้ได้เพื่อให้โมเดลใหม่ มีประโยชน์

โมเดลพื้นฐาน

#generativeAI

โมเดลที่ผ่านการฝึกมาก่อนซึ่งใช้เป็นจุดเริ่มต้นสำหรับการปรับแต่งเพื่อจัดการกับงานหรือแอปพลิเคชันที่เฉพาะเจาะจง

ดูโมเดลก่อนการฝึก และโมเดลพื้นฐานด้วย

กลุ่ม

#fundamentals

ชุดตัวอย่างที่ใช้ในการฝึกซ้ำ 1 ครั้ง ขนาดกลุ่มจะเป็นตัวกำหนดจำนวนตัวอย่างในกลุ่ม

ดูคำอธิบายว่ากลุ่มข้อมูลเกี่ยวข้องกับ Epoch อย่างไรได้ที่Epoch

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: ไฮเปอร์พารามิเตอร์ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การอนุมานแบบกลุ่ม

#GoogleCloud

กระบวนการอนุมานการคาดการณ์ในหลาย ตัวอย่างที่ไม่มีป้ายกำกับซึ่งแบ่งออกเป็น ชุดข้อมูลย่อย ("กลุ่ม") ที่เล็กลง

การอนุมานแบบกลุ่มสามารถใช้ประโยชน์จากฟีเจอร์การประมวลผลแบบคู่ขนานของชิปตัวเร่ง กล่าวคือ ตัวเร่งหลายตัว สามารถอนุมานการคาดการณ์ในกลุ่มตัวอย่างที่ไม่มีป้ายกำกับ ที่แตกต่างกันได้พร้อมกัน ซึ่งจะเพิ่มจำนวนการอนุมานต่อวินาทีอย่างมาก

ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML ในการใช้งานจริง: การอนุมานแบบคงที่เทียบกับการอนุมานแบบไดนามิก ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

การแปลงเป็นรูปแบบมาตรฐานแบบกลุ่ม

การปรับอินพุตหรือเอาต์พุตของฟังก์ชันการเปิดใช้งานในเลเยอร์ที่ซ่อนอยู่ การทําให้เป็นมาตรฐานแบบกลุ่มมีประโยชน์ดังนี้

ทำให้โครงข่ายประสาทเทียมมีความเสถียรมากขึ้นด้วยการป้องกัน ค่าผิดปกติ
เปิดใช้อัตราการเรียนรู้ที่สูงขึ้น ซึ่งจะช่วย เร่งการฝึก
ลดการปรับมากเกินไป

ขนาดกลุ่ม

#fundamentals

จำนวนตัวอย่างในกลุ่ม เช่น หากขนาดกลุ่มคือ 100 โมเดลจะประมวลผลตัวอย่าง 100 รายการต่อการทำซ้ำ

กลยุทธ์ขนาดกลุ่มยอดนิยมมีดังนี้

การไล่ระดับสีแบบสุ่ม (SGD) ซึ่งมีขนาดกลุ่มเท่ากับ 1
การประมวลผลแบบกลุ่มเต็ม ซึ่งขนาดกลุ่มคือจํานวนตัวอย่างในชุดการฝึกทั้งหมด เช่น หากชุดการฝึกมีตัวอย่าง 1 ล้านรายการ ขนาดกลุ่มจะเท่ากับตัวอย่าง 1 ล้านรายการ โดยปกติแล้ว การประมวลผลแบบกลุ่มทั้งหมดมักเป็นกลยุทธ์ที่ไม่มีประสิทธิภาพ
มินิแบตช์ ซึ่งโดยปกติแล้วขนาดแบตช์จะอยู่ระหว่าง 10 ถึง 1,000 โดยปกติแล้ว มินิแบทช์เป็นกลยุทธ์ที่มีประสิทธิภาพมากที่สุด

โปรดดูข้อมูลเพิ่มเติมที่ด้านล่าง

โครงข่ายประสาทเทียมแบบ Bayesian

โครงข่ายประสาทเทียมเชิงความน่าจะเป็นที่พิจารณา ความไม่แน่นอนในน้ำหนักและเอาต์พุต โดยปกติแล้วโมเดลการถดถอยของโครงข่ายประสาทเทียมมาตรฐานจะคาดการณ์ค่าสเกลาร์ เช่น โมเดลมาตรฐานคาดการณ์ราคาบ้าน ที่ 853,000 ในทางตรงกันข้าม เครือข่ายประสาทแบบเบย์จะคาดการณ์การกระจายค่า ตัวอย่างเช่น โมเดลแบบเบย์คาดการณ์ราคาบ้านที่ 853,000 โดยมี ส่วนเบี่ยงเบนมาตรฐานที่ 67,200

โครงข่ายประสาทแบบเบย์ใช้ ทฤษฎีบทของเบย์ ในการคำนวณความไม่แน่นอนในน้ำหนักและการคาดการณ์ โครงข่ายประสาทเทียมแบบ Bayesian มีประโยชน์ในกรณีที่การวัดปริมาณความไม่แน่นอนเป็นสิ่งสำคัญ เช่น ในโมเดลที่เกี่ยวข้องกับยา นอกจากนี้ เครือข่ายประสาทแบบเบย์ยังช่วยป้องกันการเกิด Overfitting ได้ด้วย

การเพิ่มประสิทธิภาพ Bayesian

เทคนิคโมเดลการถดถอยเชิงความน่าจะเป็น ในการเพิ่มประสิทธิภาพฟังก์ชันเป้าหมายที่ใช้การคำนวณสูง โดยการเพิ่มประสิทธิภาพตัวแทนแทน ซึ่งจะวัดปริมาณความไม่แน่นอนโดยใช้เทคนิคการเรียนรู้แบบเบส์ เนื่องจากการเพิ่มประสิทธิภาพแบบเบย์เองก็มีค่าใช้จ่ายสูงมาก จึงมักใช้เพื่อเพิ่มประสิทธิภาพงานที่มีค่าใช้จ่ายสูงในการประเมินซึ่งมีพารามิเตอร์จำนวนน้อย เช่น การเลือกไฮเปอร์พารามิเตอร์

สมการเบลแมน

ในการเรียนรู้แบบเสริมกำลัง Q-function ที่ดีที่สุดจะตรงกับเอกลักษณ์ต่อไปนี้

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

อัลกอริทึมการเรียนรู้แบบเสริมกำลังใช้ข้อมูลประจำตัวนี้ เพื่อสร้างการเรียนรู้แบบ Q โดยใช้กฎการอัปเดตต่อไปนี้

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

นอกจากเรื่องการเรียนรู้แบบเสริมกำลังแล้ว สมการเบลแมนยังนำไปใช้กับ การเขียนโปรแกรมแบบไดนามิกได้ด้วย ดู รายการใน Wikipedia สำหรับสมการเบลแมน

BERT (Bidirectional Encoder Representations from Transformers)

สถาปัตยกรรมโมเดลสำหรับการแสดงข้อความ โมเดล BERT ที่ฝึกแล้วสามารถทำหน้าที่เป็นส่วนหนึ่งของโมเดลขนาดใหญ่สำหรับการจัดประเภทข้อความหรืองาน ML อื่นๆ ได้

BERT มีลักษณะดังนี้

ใช้สถาปัตยกรรม Transformer จึงต้องอาศัยการใส่ใจตนเอง
ใช้ส่วนEncoder ของ Transformer หน้าที่ของตัวเข้ารหัส คือการสร้างการแสดงข้อความที่ดี ไม่ใช่การทำงานเฉพาะ อย่าง เช่น การจัดประเภท
แบบ 2 ทิศทาง
ใช้การมาสก์สำหรับ การฝึกที่ไม่มีการควบคุมดูแล

รูปแบบต่างๆ ของ BERT มีดังนี้

ALBERT ซึ่งเป็นคำย่อของ A Light BERT
LaBSE

ดูภาพรวมของ BERT ได้ที่การเปิดซอร์ส BERT: การฝึกแบบล่วงหน้าที่มีประสิทธิภาพสูงสุดสำหรับการประมวลผลภาษาธรรมชาติ

อคติ (จริยธรรม/ความยุติธรรม)

#responsible

#fundamentals

1. การเหมารวม อคติ หรือการเข้าข้างสิ่งต่างๆ บุคคล หรือกลุ่มบางกลุ่มมากกว่ากลุ่มอื่นๆ อคติเหล่านี้อาจส่งผลต่อการเก็บรวบรวมและการตีความข้อมูล การออกแบบระบบ และวิธีที่ผู้ใช้โต้ตอบกับระบบ รูปแบบของอคติประเภทนี้ ได้แก่

อคติในการทำงานอัตโนมัติ
อคติยืนยันความคิดตัวเอง
อคติของผู้ทดลอง
อคติในการระบุแหล่งที่มาของกลุ่ม
อคติโดยไม่รู้ตัว
อคติในกลุ่ม
อคติความเหมือนกันของกลุ่มนอก

2. ข้อผิดพลาดของระบบที่เกิดจากขั้นตอนการสุ่มตัวอย่างหรือการรายงาน รูปแบบของอคติประเภทนี้ ได้แก่

อคติในการรายงานข่าว
ความลำเอียงจากการไม่ตอบ
อคติในการเข้าร่วม
อคติในการรายงาน
อคติในการสุ่มตัวอย่าง
อคติในการเลือก

อย่าสับสนกับคำว่าอคติในโมเดลแมชชีนเลิร์นนิง หรืออคติในการคาดการณ์

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ประเภทของอคติใน หลักสูตรเร่งรัดแมชชีนเลิร์นนิง

อคติ (คณิตศาสตร์) หรือเทอมอคติ

#fundamentals

จุดตัดหรือออฟเซ็ตจากจุดเริ่มต้น อคติเป็นพารามิเตอร์ในโมเดลแมชชีนเลิร์นนิง ซึ่งแสดงด้วยสัญลักษณ์ต่อไปนี้

b
w₀

ตัวอย่างเช่น อคติคือ b ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในเส้นตรง 2 มิติแบบง่ายๆ อคติหมายถึง "จุดตัดแกน y" ตัวอย่างเช่น อคติของเส้นในภาพต่อไปนี้คือ 2

พล็อตของเส้นที่มีความชัน 0.5 และค่าอคติ (จุดตัดแกน y) 2

ความเอนเอียงเกิดขึ้นเนื่องจากโมเดลบางรายการไม่ได้เริ่มต้นจากจุดกำเนิด (0,0) ตัวอย่างเช่น สมมติว่าค่าเข้าสวนสนุกคือ 20 บาท และมีค่าใช้จ่ายเพิ่มเติม 5 บาทต่อชั่วโมงที่ลูกค้าอยู่ในสวนสนุก ดังนั้น โมเดลที่แมปต้นทุนทั้งหมดจึงมีอคติเป็น 2 เนื่องจากต้นทุนต่ำสุดคือ 2 ยูโร

อย่าสับสนระหว่างอคติกับอคติในด้านจริยธรรมและความเป็นธรรม หรืออคติในการคาดการณ์

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

แบบ 2 ทิศทาง

คำที่ใช้เพื่ออธิบายระบบที่ประเมินข้อความที่อยู่ก่อนหน้า และต่อจากส่วนข้อความเป้าหมาย ในทางตรงกันข้าม ระบบแบบทิศทางเดียวจะประเมินเฉพาะข้อความที่อยู่ก่อนส่วนข้อความเป้าหมาย

ตัวอย่างเช่น ลองพิจารณาโมเดลภาษาที่มาสก์ซึ่ง ต้องกำหนดความน่าจะเป็นของคำหรือคำที่แสดงถึงขีดเส้นใต้ใน คำถามต่อไปนี้

คุณมีอาการ _____ ไหม

โมเดลภาษาแบบทิศทางเดียวจะต้องอิงความน่าจะเป็นจากบริบทที่คำว่า "What", "is" และ "the" เท่านั้น ในทางตรงกันข้าม โมเดลภาษาแบบสองทิศทางยังสามารถรับบริบทจากคำว่า "กับ" และ "คุณ" ได้ด้วย ซึ่งอาจช่วยให้โมเดลคาดการณ์ได้ดียิ่งขึ้น

โมเดลภาษาแบบ 2 ทิศทาง

โมเดลภาษาที่กำหนดความน่าจะเป็นที่โทเค็นที่กำหนดจะอยู่ในตำแหน่งที่กำหนดในข้อความที่ตัดตอนโดยอิงตามข้อความก่อนหน้าและถัดไป

ไบแกรม

N-gram ที่ N=2

การจัดประเภทแบบไบนารี

#fundamentals

งานการจัดประเภทประเภทหนึ่งที่ คาดการณ์คลาสใดคลาสหนึ่งใน 2 คลาสที่แยกกันโดยสิ้นเชิง

คลาสที่เป็นบวก
คลาสเชิงลบ

ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิง 2 รายการต่อไปนี้แต่ละรายการจะทำการ การจัดประเภทแบบไบนารี

โมเดลที่ระบุว่าข้อความอีเมลเป็นจดหมายขยะ (คลาสเชิงบวก) หรือไม่ใช่จดหมายขยะ (คลาสเชิงลบ)
โมเดลที่ประเมินอาการทางการแพทย์เพื่อพิจารณาว่าบุคคล เป็นโรคใดโรคหนึ่ง (คลาสบวก) หรือไม่เป็นโรคดังกล่าว (คลาสลบ)

เปรียบเทียบกับการจัดประเภทแบบหลายคลาส

ดูเพิ่มเติมที่การถดถอยโลจิสติกและ เกณฑ์การจัดประเภท

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เงื่อนไขไบนารี

#df

ในแผนผังการตัดสินใจ เงื่อนไข ที่มีผลลัพธ์ที่เป็นไปได้เพียง 2 อย่าง โดยปกติคือใช่หรือไม่ใช่ ตัวอย่างเช่น เงื่อนไขต่อไปนี้เป็นเงื่อนไขแบบไบนารี

temperature >= 100

เปรียบเทียบกับเงื่อนไขที่ไม่ใช่แบบไบนารี

ดูข้อมูลเพิ่มเติมได้ที่ประเภทของเงื่อนไข ในหลักสูตร Decision Forests

การจัดกลุ่ม

คำพ้องความหมายของการจัดกลุ่ม

โมเดลกล่องดำ

โมเดลที่มนุษย์ไม่สามารถเข้าใจ "การให้เหตุผล" ได้หรือเข้าใจได้ยาก กล่าวคือ แม้ว่ามนุษย์จะเห็นว่าพรอมต์ ส่งผลต่อคำตอบอย่างไร แต่ก็ไม่สามารถระบุได้อย่างแน่ชัดว่าโมเดลกล่องดำกำหนดคำตอบอย่างไร กล่าวคือ โมเดลกล่องดำไม่มีความสามารถในการตีความ

โมเดลเชิงลึกและโมเดลภาษาขนาดใหญ่ส่วนใหญ่เป็นกล่องดำ

BLEU (Bilingual Evaluation Understudy)

เมตริกระหว่าง 0.0 ถึง 1.0 สำหรับการประเมินการแปลด้วยเครื่อง เช่น จากภาษาสเปนเป็นภาษาญี่ปุ่น

โดยปกติแล้ว BLEU จะเปรียบเทียบการแปลของโมเดล ML (ข้อความที่สร้างขึ้น) กับการแปลของมนุษย์ผู้เชี่ยวชาญ (ข้อความอ้างอิง) เพื่อคำนวณคะแนน ระดับที่ N-gram ในข้อความที่สร้างขึ้นและข้อความอ้างอิงตรงกันจะเป็นตัวกำหนดคะแนน BLEU

เอกสารต้นฉบับเกี่ยวกับเมตริกนี้คือ BLEU: a Method for Automatic Evaluation of Machine Translation

ดู BLEURT เพิ่มเติม

BLEURT (Bilingual Evaluation Understudy from Transformers)

เมตริกสําหรับการประเมินการแปลด้วยเครื่อง จากภาษาหนึ่งเป็นอีกภาษาหนึ่ง โดยเฉพาะอย่างยิ่งจากและเป็นภาษาอังกฤษ

สำหรับการแปลเป็นและจากภาษาอังกฤษ BLEURT จะสอดคล้องกับการจัดอันดับของมนุษย์มากกว่า BLEU BLEURT เน้นความคล้ายคลึงกันทางความหมาย (ความหมาย) และรองรับการถอดความ ซึ่งแตกต่างจาก BLEU

BLEURT ใช้โมเดลภาษาขนาดใหญ่ที่ฝึกล่วงหน้า (BERT อย่างแม่นยำ) ซึ่งจะปรับแต่ง ในข้อความจากนักแปลที่เป็นมนุษย์

เอกสารต้นฉบับเกี่ยวกับเมตริกนี้คือ BLEURT: Learning Robust Metrics for Text Generation

คำถามแบบบูลีน (BoolQ)

#Metric

ชุดข้อมูลสำหรับประเมินความสามารถของ LLM ในการตอบคำถามแบบใช่หรือไม่ ความท้าทายแต่ละอย่างในชุดข้อมูลมีองค์ประกอบ 3 อย่าง ดังนี้

การค้นหา
ข้อความที่สื่อถึงคำตอบของคำค้นหา
คำตอบที่ถูกต้อง ซึ่งอาจเป็นใช่หรือไม่ใช่

เช่น

คำถาม: รัฐมิชิแกนมีโรงไฟฟ้านิวเคลียร์ไหม
ข้อความ: ...โรงไฟฟ้านิวเคลียร์ 3 แห่งจ่ายไฟฟ้าให้มิชิแกน ประมาณ 30%
คำตอบที่ถูกต้อง: ใช่

นักวิจัยรวบรวมคำถามจากคำค้นหาใน Google Search ที่รวบรวมและลบข้อมูลระบุตัวบุคคลแล้ว จากนั้นใช้หน้า Wikipedia เพื่ออ้างอิงข้อมูล

ดูข้อมูลเพิ่มเติมได้ที่ BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions

BoolQ เป็นองค์ประกอบของกลุ่ม SuperGLUE

BoolQ

#Metric

ตัวย่อของคำถามบูลีน

การเพิ่ม

เทคนิคแมชชีนเลิร์นนิงที่รวมชุดโมเดลการแยกประเภทอย่างง่ายที่ไม่แม่นยำนัก (เรียกว่า "ตัวแยกประเภทแบบอ่อน") เข้ากับโมเดลการแยกประเภทที่มีความแม่นยำสูง ("ตัวแยกประเภทแบบเข้ม") โดยการเพิ่มน้ำหนักให้กับตัวอย่างที่โมเดลแยกประเภทผิดในปัจจุบัน

ดูข้อมูลเพิ่มเติมได้ที่Gradient Boosted Decision Trees? ในหลักสูตร Decision Forests

กรอบล้อมรอบ

ในรูปภาพ พิกัด (x, y) ของสี่เหลี่ยมผืนผ้ารอบพื้นที่ที่ น่าสนใจ เช่น สุนัขในรูปภาพด้านล่าง

ภาพถ่ายสุนัขที่นั่งอยู่บนโซฟา กรอบล้อมรอบสีเขียว
ที่มีพิกัดด้านซ้ายบนเป็น (275, 1271) และพิกัดด้านขวาล่าง
เป็น (2954, 2761) ล้อมรอบตัวสุนัข

การออกอากาศ

การขยายรูปร่างของตัวถูกดำเนินการในการดำเนินการทางคณิตศาสตร์ของเมทริกซ์ให้เป็นมิติข้อมูลที่เข้ากันได้กับการดำเนินการนั้น ตัวอย่างเช่น พีชคณิตเชิงเส้นกำหนดว่าตัวถูกดำเนินการทั้ง 2 ตัวในการดำเนินการบวกเมทริกซ์ ต้องมีมิติข้อมูลเดียวกัน ดังนั้น คุณจึงเพิ่มเมทริกซ์ที่มีรูปร่าง (m, n) ให้กับเวกเตอร์ที่มีความยาว n ไม่ได้ การออกอากาศช่วยให้ดำเนินการนี้ได้โดย ขยายเวกเตอร์ที่มีความยาว n เป็นเมทริกซ์ที่มีรูปร่าง (m, n) โดย ทำซ้ำค่าเดียวกันในแต่ละคอลัมน์

คลิกไอคอนเพื่อดูตัวอย่าง

เมื่อกำหนด A และ B ดังต่อไปนี้ พีชคณิตเชิงเส้นจะไม่อนุญาต A+B เนื่องจาก A และ B มีมิติข้อมูลที่แตกต่างกัน

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

อย่างไรก็ตาม การออกอากาศจะเปิดใช้การดำเนินการ A+B โดยการขยาย B แบบเสมือนเป็น

 [[2, 2, 2],
  [2, 2, 2]]

ดังนั้น ตอนนี้ A+B จึงเป็นการดำเนินการที่ถูกต้อง

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

ดูรายละเอียดเพิ่มเติมได้ที่คำอธิบายต่อไปนี้ของการออกอากาศใน NumPy

การจัดกลุ่ม

#fundamentals

การแปลงฟีเจอร์เดียวเป็นฟีเจอร์ไบนารีหลายรายการ ที่เรียกว่ากลุ่มหรือถัง โดยปกติจะอิงตามช่วงค่า โดยปกติแล้ว ฟีเจอร์ที่ถูกตัดจะเป็นฟีเจอร์ต่อเนื่อง

ตัวอย่างเช่น แทนที่จะแสดงอุณหภูมิเป็นฟีเจอร์ทศนิยมต่อเนื่องเดียว คุณสามารถแบ่งช่วงอุณหภูมิ ออกเป็นกลุ่มที่ไม่ต่อเนื่อง เช่น

<= 10 องศาเซลเซียสจะอยู่ในกลุ่ม "เย็น"
11-24 องศาเซลเซียสจะอยู่ในกลุ่ม "ปานกลาง"
>= 25 องศาเซลเซียสจะอยู่ในกลุ่ม "อุ่น"

โมเดลจะถือว่าค่าทุกค่าในกลุ่มเดียวกันเหมือนกัน ตัวอย่างเช่น ค่า 13 และ 22 อยู่ในกลุ่มอุณหภูมิปานกลางทั้งคู่ โมเดลจึงถือว่าค่าทั้ง 2 ค่าเหมือนกัน

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

หากคุณแสดงอุณหภูมิเป็นฟีเจอร์ต่อเนื่อง โมเดลจะถือว่าอุณหภูมิเป็นฟีเจอร์เดียว หากคุณแสดงอุณหภูมิ เป็น 3 บัคเก็ต โมเดลจะถือว่าแต่ละบัคเก็ตเป็นฟีเจอร์แยกกัน กล่าวคือ โมเดลสามารถเรียนรู้ความสัมพันธ์แยกกันของแต่ละกลุ่มกับป้ายกำกับ ตัวอย่างเช่น โมเดลการถดถอยเชิงเส้นสามารถเรียนรู้น้ำหนักแยกกันสำหรับแต่ละกลุ่มได้

การเพิ่มจำนวนกลุ่มจะทำให้โมเดลซับซ้อนมากขึ้นโดย การเพิ่มจำนวนความสัมพันธ์ที่โมเดลต้องเรียนรู้ ตัวอย่างเช่น บัคเก็ตเย็น ปานกลาง และอุ่นเป็นฟีเจอร์ 3 รายการแยกกันโดยพื้นฐานสำหรับโมเดลของคุณในการฝึก หากตัดสินใจเพิ่มบักเก็ตอีก 2 รายการ เช่น "เย็นจัด" และ "ร้อน" โมเดลจะต้องฝึกกับฟีเจอร์แยกกัน 5 รายการ

คุณจะทราบได้อย่างไรว่าควรสร้างกลุ่มกี่กลุ่ม หรือช่วงของแต่ละกลุ่มควรเป็นเท่าใด โดยปกติแล้ว คำตอบมักต้องผ่านการทดลอง พอสมควร

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงตัวเลข: การจัดกลุ่ม ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

C

เลเยอร์การปรับเทียบ

การปรับหลังการคาดการณ์ ซึ่งโดยปกติจะใช้เพื่ออธิบายอคติในการคาดการณ์ การคาดการณ์และความน่าจะเป็นที่ปรับแล้วควรตรงกับการกระจายของชุดป้ายกำกับที่สังเกตได้

การสร้างผู้สมัคร

ชุดคำแนะนำเริ่มต้นที่ระบบการแนะนำเลือก ตัวอย่างเช่น ลองพิจารณาร้านหนังสือที่มีหนังสือ 100,000 ชื่อ ระยะการสร้างรายการตัวเลือกจะสร้างรายการหนังสือที่เหมาะสมสำหรับผู้ใช้รายหนึ่งๆ ซึ่งมีขนาดเล็กลงมาก เช่น 500 รายการ แต่หนังสือ 500 เล่มก็ยังมากเกินไปที่จะแนะนำให้ผู้ใช้ ระยะต่อๆ ไปของระบบการแนะนำที่มีค่าใช้จ่ายสูงกว่า (เช่น การให้คะแนนและ การจัดอันดับใหม่) จะลดจำนวนวิดีโอ 500 รายการดังกล่าวให้เหลือชุดคำแนะนำที่เล็กลงมาก และมีประโยชน์มากขึ้น

ดูข้อมูลเพิ่มเติมได้ที่ภาพรวมการสร้างแคนดิเดต ในหลักสูตรระบบการแนะนำ

การสุ่มตัวอย่างผู้สมัคร

การเพิ่มประสิทธิภาพในเวลาฝึกที่คำนวณความน่าจะเป็นสำหรับป้ายกำกับเชิงบวกทั้งหมด โดยใช้เช่น softmax แต่ใช้เฉพาะตัวอย่างแบบสุ่มของป้ายกำกับเชิงลบ เช่น หากมีตัวอย่างที่ติดป้ายกำกับว่าบีเกิลและสุนัข การสุ่มตัวอย่างผู้สมัครจะคำนวณความน่าจะเป็นที่คาดการณ์ และข้อกำหนดการสูญเสียที่เกี่ยวข้องสำหรับ

บีเกิล
สุนัข
ชุดย่อยแบบสุ่มของคลาสเชิงลบที่เหลือ (เช่น cat lollipop fence)

แนวคิดคือคลาสเชิงลบสามารถเรียนรู้จากการเสริมแรงเชิงลบที่เกิดขึ้นไม่บ่อยนักได้ ตราบใดที่คลาสเชิงบวกได้รับการเสริมแรงเชิงบวกที่เหมาะสมอยู่เสมอ และเราก็สังเกตเห็นสิ่งนี้ได้จากการทดลอง

การสุ่มตัวอย่างผู้สมัครมีประสิทธิภาพด้านการคำนวณมากกว่าอัลกอริทึมการฝึกที่คำนวณการคาดการณ์สำหรับคลาสเชิงลบทั้งหมด โดยเฉพาะอย่างยิ่งเมื่อจำนวนคลาสเชิงลบมีจำนวนมาก

ข้อมูลเชิงหมวดหมู่

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ที่เฉพาะเจาะจง ตัวอย่างเช่น พิจารณาฟีเจอร์เชิงหมวดหมู่ชื่อ traffic-light-state ซึ่งมีค่าได้เพียงค่าใดค่าหนึ่งจาก 3 ค่าต่อไปนี้

red
yellow
green

การแสดง traffic-light-state เป็นฟีเจอร์เชิงหมวดหมู่ โมเดลจะเรียนรู้ ผลกระทบที่แตกต่างกันของ red, green และ yellow ต่อพฤติกรรมของผู้ขับขี่ได้

บางครั้งฟีเจอร์เชิงหมวดหมู่เรียกว่าฟีเจอร์ที่ไม่ต่อเนื่อง

แตกต่างจากข้อมูลเชิงตัวเลข

ดูข้อมูลเพิ่มเติมได้ที่การทำงานกับข้อมูลเชิงหมวดหมู่ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

โมเดลภาษาแบบเป็นเหตุเป็นผล

คำพ้องความหมายของโมเดลภาษาแบบทิศทางเดียว

ดูโมเดลภาษาแบบสองทิศทางเพื่อเปรียบเทียบแนวทางแบบทิศทางต่างๆ ในการสร้างโมเดลภาษา

CB

#Metric

ตัวย่อของ CommitmentBank

จุดศูนย์กลาง

#clustering

จุดศูนย์กลางของคลัสเตอร์ตามที่กำหนดโดยอัลกอริทึม k-means หรือ k-median เช่น หาก k คือ 3 อัลกอริทึม k-means หรือ k-median จะพบจุดศูนย์กลาง 3 จุด

ดูข้อมูลเพิ่มเติมได้ที่อัลกอริทึมการจัดกลุ่ม ในหลักสูตรการจัดกลุ่ม

การจัดกลุ่มตามเซนทรอยด์

#clustering

หมวดหมู่อัลกอริทึมการจัดกลุ่มที่จัดระเบียบข้อมูล เป็นคลัสเตอร์แบบไม่เป็นลำดับชั้น k-means เป็นอัลกอริทึมการจัดกลุ่มตามจุดศูนย์กลางที่ใช้กันอย่างแพร่หลายมากที่สุด

เปรียบเทียบกับอัลกอริทึมการจัดกลุ่มแบบลำดับชั้น

ดูข้อมูลเพิ่มเติมได้ที่อัลกอริทึมการจัดกลุ่ม ในหลักสูตรการจัดกลุ่ม

การเขียนพรอมต์แบบ Chain-of-Thought

#generativeAI

เทคนิคการออกแบบพรอมต์ที่กระตุ้นให้โมเดลภาษาขนาดใหญ่ (LLM) อธิบายการให้เหตุผลทีละขั้นตอน ตัวอย่างเช่น ลองพิจารณาพรอมต์ต่อไปนี้ โดยให้ความสนใจเป็นพิเศษกับประโยคที่ 2

ผู้ขับขี่จะได้รับแรงโน้มถ่วงกี่ G ในรถยนต์ที่วิ่งจาก 0 ถึง 60 ไมล์ต่อชั่วโมงใน 7 วินาที แสดงการคำนวณที่เกี่ยวข้องทั้งหมดในคำตอบ

คำตอบของ LLM น่าจะมีลักษณะดังนี้

แสดงลำดับสูตรฟิสิกส์ โดยเสียบค่า 0, 60 และ 7 ในตำแหน่งที่เหมาะสม
อธิบายเหตุผลที่เลือกใช้สูตรเหล่านั้นและความหมายของตัวแปรต่างๆ

การแจ้งแบบลูกโซ่ความคิดจะบังคับให้ LLM ทำการคำนวณทั้งหมด ซึ่งอาจนำไปสู่คำตอบที่ถูกต้องมากขึ้น นอกจากนี้ การแจ้งแบบลูกโซ่ความคิด ยังช่วยให้ผู้ใช้ตรวจสอบขั้นตอนของ LLM เพื่อพิจารณาว่าคำตอบสมเหตุสมผลหรือไม่

คะแนน F ของ N-gram อักขระ (ChrF)

#Metric

เมตริกสำหรับประเมินโมเดลการแปลด้วยเครื่อง คะแนน F ของ N-gram อักขระจะกำหนดระดับที่ N-gram ในข้อความอ้างอิงซ้อนทับกับ N-gram ในข้อความที่สร้างขึ้นของโมเดล ML

คะแนน F ของ N-gram อักขระคล้ายกับเมตริกในกลุ่ม ROUGE และ BLEU ยกเว้นว่า

คะแนน F ของ N-gram อักขระจะทำงานกับ N-gram อักขระ
ROUGE และ BLEU ทำงานกับ N-gram ของคำหรือโทเค็น

แชท

#generativeAI

เนื้อหาของบทสนทนาไปมากับระบบ ML ซึ่งโดยทั่วไปคือโมเดลภาษาขนาดใหญ่ การโต้ตอบก่อนหน้าในแชท (สิ่งที่คุณพิมพ์และวิธีที่โมเดลภาษาขนาดใหญ่ตอบกลับ) จะกลายเป็น บริบทสำหรับส่วนต่อๆ ไปของแชท

แชทบ็อตคือแอปพลิเคชันของโมเดลภาษาขนาดใหญ่

จุดตรวจ

ข้อมูลที่บันทึกสถานะของพารามิเตอร์ของโมเดล ไม่ว่าจะ ระหว่างการฝึกหรือหลังจากฝึกเสร็จสมบูรณ์ ตัวอย่างเช่น ในระหว่างการฝึก คุณจะทำสิ่งต่อไปนี้ได้

หยุดการฝึก ไม่ว่าจะโดยตั้งใจหรือไม่ก็ตาม หรืออาจเป็นผลมาจาก ข้อผิดพลาดบางอย่าง
บันทึกจุดตรวจสอบ
จากนั้นให้โหลดจุดตรวจสอบซ้ำ ซึ่งอาจทำในฮาร์ดแวร์อื่น
เริ่มการฝึกอีกครั้ง

ทางเลือกของทางเลือกที่เป็นไปได้ (COPA)

#Metric

ชุดข้อมูลสำหรับประเมินว่า LLM สามารถระบุคำตอบที่ดีกว่าใน 2 คำตอบที่เป็น ทางเลือกสำหรับสมมติฐานได้ดีเพียงใด ความท้าทายแต่ละอย่างในชุดข้อมูล ประกอบด้วย 3 องค์ประกอบ ดังนี้

สมมติฐาน ซึ่งโดยปกติจะเป็นคำกล่าวตามด้วยคำถาม
คำตอบที่เป็นไปได้ 2 คำตอบสำหรับคำถามที่ระบุไว้ในสมมติฐาน โดยคำตอบหนึ่ง ถูกต้องและอีกคำตอบไม่ถูกต้อง
คำตอบที่ถูกต้อง

เช่น

สมมติฐาน: ชายคนนี้ทำนิ้วเท้าหัก สาเหตุของปัญหานี้คืออะไร
คำตอบที่เป็นไปได้
1. ถุงเท้าของเขามีรู
2. เขาทำค้อนหล่นใส่เท้า
คำตอบที่ถูกต้อง: 2

COPA เป็นส่วนประกอบของกลุ่ม SuperGLUE

คลาส

#fundamentals

หมวดหมู่ที่ป้ายกำกับสามารถเป็นของได้ เช่น

ในโมเดลการจัดประเภทแบบไบนารีที่ตรวจหาสแปม คลาสทั้ง 2 อาจเป็นสแปมและไม่ใช่สแปม
ในโมเดลการจัดประเภทแบบหลายคลาส ที่ระบุสายพันธุ์สุนัข คลาสอาจเป็นพุดเดิล บีเกิล ปั๊ก และอื่นๆ

โมเดลการจัดประเภทจะคาดการณ์คลาส ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์ตัวเลข แทนที่จะเป็นคลาส

ชุดข้อมูลที่สมดุลของคลาส

ชุดข้อมูลที่มีป้ายกำกับ เชิงหมวดหมู่ ซึ่งมีจำนวนอินสแตนซ์ของแต่ละหมวดหมู่เท่ากันโดยประมาณ ตัวอย่างเช่น พิจารณาชุดข้อมูลพฤกษศาสตร์ที่มีป้ายกำกับไบนารี ซึ่งอาจเป็นพืชพื้นเมืองหรือพืชที่ไม่ใช่พืชพื้นเมือง

ชุดข้อมูลที่มีพืชพื้นเมือง 515 ชนิดและพืชที่ไม่ใช่พืชพื้นเมือง 485 ชนิดคือชุดข้อมูลที่สมดุลของคลาส
ชุดข้อมูลที่มีพืชพื้นเมือง 875 ชนิดและพืชที่ไม่ใช่พืชพื้นเมือง 125 ชนิดคือชุดข้อมูลที่มีความไม่สมดุลของคลาส

ไม่มีเส้นแบ่งอย่างเป็นทางการระหว่างชุดข้อมูลที่สมดุลของคลาสกับชุดข้อมูลที่ไม่สมดุลของคลาส ความแตกต่างนี้จะมีความสําคัญก็ต่อเมื่อโมเดลที่ฝึกในชุดข้อมูลที่มีความไม่สมดุลของคลาสสูงไม่สามารถบรรจบกันได้ ดูรายละเอียดได้ที่ ชุดข้อมูล: ชุดข้อมูลที่ไม่สมดุล ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

โมเดลการจัดประเภท

#fundamentals

โมเดลที่มีการคาดการณ์เป็นคลาส ตัวอย่างเช่น โมเดลต่อไปนี้เป็นโมเดลการแยกประเภททั้งหมด

โมเดลที่คาดการณ์ภาษาของประโยคอินพุต (ฝรั่งเศสใช่ไหม สเปน อิตาลี)
โมเดลที่คาดการณ์สายพันธุ์ของต้นไม้ (เมเปิล Oak บาวบับ)
โมเดลที่คาดการณ์คลาสที่เป็นบวกหรือลบสำหรับ ภาวะทางการแพทย์ที่เฉพาะเจาะจง

ในทางตรงกันข้าม โมเดลการเกิดปัญหาซ้ำจะคาดการณ์ตัวเลข แทนที่จะเป็นคลาส

โมเดลการจัดประเภทที่ใช้กันทั่วไปมี 2 ประเภท ได้แก่

การจัดประเภทแบบไบนารี
การจัดประเภทแบบหลายคลาส

เกณฑ์การจัดประเภท

#fundamentals

ในการจัดประเภทแบบไบนารี ค่า ระหว่าง 0 ถึง 1 ที่แปลงเอาต์พุตดิบของโมเดลการถดถอยโลจิสติก เป็นการคาดการณ์ของคลาสที่เป็นบวก หรือคลาสที่เป็นลบ โปรดทราบว่าเกณฑ์การแยกประเภทคือค่าที่มนุษย์เลือก ไม่ใช่ค่าที่ได้จากการฝึกโมเดล

โมเดลการถดถอยโลจิสติกจะแสดงผลค่าดิบระหว่าง 0 ถึง 1 จากนั้นให้ทำดังนี้

หากค่าดิบนี้มากกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์ คลาสที่เป็นบวก
หากค่าดิบนี้น้อยกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสเชิงลบ

ตัวอย่างเช่น สมมติว่าเกณฑ์การแยกประเภทคือ 0.8 หากค่าดิบ เป็น 0.9 โมเดลจะคาดการณ์คลาสเชิงบวก หากค่าดิบเป็น 0.7 โมเดลจะคาดการณ์คลาสเชิงลบ

การเลือกเกณฑ์การแยกประเภทมีผลอย่างมากต่อจำนวนผลบวกลวงและผลลบลวง

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เมื่อโมเดลหรือชุดข้อมูลมีการเปลี่ยนแปลง บางครั้งวิศวกรก็จะเปลี่ยนเกณฑ์การจัดประเภทด้วย เมื่อเกณฑ์การจัดประเภทเปลี่ยนแปลง การคาดการณ์คลาสที่เป็นบวกอาจกลายเป็นคลาสที่เป็นลบ และในทางกลับกัน

เช่น ลองพิจารณาโมเดลการคาดการณ์โรคแบบการจัดประเภทแบบไบนารี สมมติว่าเมื่อระบบทำงานในปีแรก

ค่าดิบสำหรับผู้ป่วยรายหนึ่งคือ 0.95
เกณฑ์การจัดประเภทคือ 0.94

ดังนั้นระบบจึงวินิจฉัยคลาสที่เป็นบวก (ผู้ป่วยหอบ "ไม่นะ ฉันไม่สบาย")

1 ปีต่อมา ค่าอาจเป็นดังนี้

ค่าดิบสำหรับผู้ป่วยรายเดียวกันจะยังคงอยู่ที่ 0.95
เกณฑ์การจัดประเภทจะเปลี่ยนเป็น 0.97

ดังนั้น ตอนนี้ระบบจึงจัดประเภทผู้ป่วยรายนั้นใหม่เป็นคลาสเชิงลบ ("สุขสันต์วันเกิด ฉันไม่ได้ป่วย") ผู้ป่วยรายเดียวกัน การวินิจฉัยที่แตกต่างกัน

ดูข้อมูลเพิ่มเติมได้ที่เกณฑ์และเมทริกซ์ความสับสน ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ตัวแยกประเภท

#fundamentals

คำที่ใช้กันทั่วไปสำหรับโมเดลการจัดประเภท

ชุดข้อมูลที่มีความไม่สมดุลของคลาส

#fundamentals

ชุดข้อมูลสำหรับการแยกประเภท ซึ่งมีจำนวนป้ายกำกับทั้งหมดของคลาสแต่ละคลาส แตกต่างกันอย่างมาก ตัวอย่างเช่น พิจารณาชุดข้อมูลการจัดประเภทแบบไบนารีที่มีป้ายกำกับ 2 รายการ ซึ่งแบ่งออกเป็นดังนี้

ป้ายกำกับเชิงลบ 1,000,000 รายการ
ป้ายกำกับค่าบวก 10 รายการ

อัตราส่วนของป้ายกำกับเชิงลบต่อป้ายกำกับเชิงบวกคือ 100,000 ต่อ 1 ดังนั้นนี่จึงเป็นชุดข้อมูลที่มีความไม่สมดุลของคลาส

ในทางตรงกันข้าม ชุดข้อมูลต่อไปนี้เป็นคลาสที่สมดุลเนื่องจากอัตราส่วนของป้ายกำกับเชิงลบต่อป้ายกำกับเชิงบวกค่อนข้างใกล้เคียงกับ 1

ป้ายกำกับเชิงลบ 517 รายการ
ป้ายกำกับค่าบวก 483 รายการ

ชุดข้อมูลแบบหลายคลาสอาจเป็นแบบคลาสไม่สมดุลได้เช่นกัน ตัวอย่างเช่น ชุดข้อมูลการจัดประเภทแบบหลายคลาสต่อไปนี้ยังเป็นชุดข้อมูลที่มีความไม่สมดุลของคลาสด้วย เนื่องจากป้ายกำกับหนึ่งมีตัวอย่างมากกว่าอีก 2 ป้ายกำกับมาก

ป้ายกำกับ 1,000,000 รายการที่มีคลาส "สีเขียว"
ป้ายกำกับ 200 รายการที่มีคลาส "สีม่วง"
ป้ายกำกับ 350 รายการที่มีคลาส "ส้ม"

การฝึกโมเดลด้วยชุดข้อมูลที่มีความไม่สมดุลของคลาสอาจเป็นเรื่องท้าทาย ดูรายละเอียดได้ที่ ชุดข้อมูลที่ไม่สมดุล ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ดูเอนโทรปี คลาสส่วนใหญ่ และคลาสส่วนน้อยด้วย

การตัด

#fundamentals

เทคนิคในการจัดการค่าผิดปกติโดยทำอย่างใดอย่างหนึ่งหรือทั้ง 2 อย่างต่อไปนี้

การลดค่าฟีเจอร์ที่มากกว่าเกณฑ์สูงสุด ลงมาที่เกณฑ์สูงสุดนั้น
การเพิ่มค่าฟีเจอร์ที่ต่ำกว่าเกณฑ์ขั้นต่ำให้เป็นเกณฑ์ขั้นต่ำ

ตัวอย่างเช่น สมมติว่าค่าสำหรับฟีเจอร์หนึ่งๆ น้อยกว่า 0.5% อยู่ นอกช่วง 40–60 ในกรณีนี้ คุณสามารถดำเนินการต่อไปนี้ได้

ตัดค่าทั้งหมดที่มากกว่า 60 (เกณฑ์สูงสุด) ให้เป็น 60
คลิปค่าทั้งหมดที่ต่ำกว่า 40 (เกณฑ์ขั้นต่ำ) ให้เป็น 40

ค่าผิดปกติอาจทำให้โมเดลเสียหาย และบางครั้งอาจทำให้น้ำหนัก ล้นระหว่างการฝึก ค่าผิดปกติบางค่าอาจทำให้เมตริกต่างๆ เช่น ความแม่นยำ ลดลงอย่างมาก การคลิปเป็นเทคนิคที่ใช้กันทั่วไปเพื่อจำกัด ความเสียหาย

การจำกัดค่าความชันบังคับให้ค่าความชันอยู่ในช่วงที่กำหนดระหว่างการฝึก

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การปรับค่า ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

Cloud TPU

#TensorFlow

#GoogleCloud

ตัวเร่งฮาร์ดแวร์เฉพาะทางที่ออกแบบมาเพื่อเพิ่มความเร็วให้กับภาระงานของแมชชีนเลิร์นนิงบน Google Cloud

การจัดกลุ่ม

#clustering

การจัดกลุ่มตัวอย่างที่เกี่ยวข้อง โดยเฉพาะในช่วงการเรียนรู้แบบไม่มีการกำกับดูแล เมื่อจัดกลุ่มตัวอย่างทั้งหมดแล้ว เจ้าหน้าที่สามารถเลือกให้ความหมายแก่แต่ละคลัสเตอร์ได้

มีอัลกอริทึมการจัดกลุ่มมากมาย ตัวอย่างเช่น อัลกอริทึม k-means จะจัดกลุ่มตัวอย่างตามระยะใกล้กับจุดศูนย์กลาง ดังในแผนภาพต่อไปนี้

กราฟ 2 มิติซึ่งแกน X มีป้ายกำกับเป็นความกว้างของต้นไม้
และแกน Y มีป้ายกำกับเป็นความสูงของต้นไม้ กราฟมีจุดศูนย์กลาง 2 จุด
และจุดข้อมูลหลายสิบจุด ระบบจะจัดหมวดหมู่จุดข้อมูลตามความใกล้เคียง
กล่าวคือ จุดข้อมูลที่อยู่ใกล้จุดศูนย์กลางหนึ่งมากที่สุดจะจัดอยู่ในคลัสเตอร์ 1 ส่วนจุดข้อมูลที่อยู่ใกล้จุดศูนย์กลางอีกจุดหนึ่งมากที่สุดจะจัดอยู่ในคลัสเตอร์ 2

จากนั้นนักวิจัยจะตรวจสอบคลัสเตอร์และติดป้ายกำกับคลัสเตอร์ 1 เป็น "ต้นไม้แคระ" และคลัสเตอร์ 2 เป็น "ต้นไม้ขนาดเต็ม" ได้ เป็นต้น

อีกตัวอย่างหนึ่งคือพิจารณาอัลกอริทึมการจัดกลุ่มตามระยะห่างของตัวอย่างจากจุดศูนย์กลาง ดังภาพต่อไปนี้

จุดข้อมูลหลายสิบจุดเรียงกันเป็นวงกลมซ้อนกัน คล้ายกับ
รูรอบๆ กึ่งกลางของกระดานปาเป้า วงแหวนด้านในสุด
ของจุดข้อมูลจัดอยู่ในหมวดหมู่คลัสเตอร์ 1 วงแหวนตรงกลาง
จัดอยู่ในหมวดหมู่คลัสเตอร์ 2 และวงแหวนด้านนอกสุด
จัดอยู่ในหมวดหมู่คลัสเตอร์ 3

ดูข้อมูลเพิ่มเติมได้ที่หลักสูตรการจัดกลุ่ม

การปรับตัวร่วมกัน

ลักษณะการทำงานที่ไม่พึงประสงค์ซึ่งนิวรอนคาดการณ์รูปแบบใน ข้อมูลการฝึกโดยอาศัยเอาต์พุตของนิวรอนอื่นๆ ที่เฉพาะเจาะจงเกือบทั้งหมด แทนที่จะอาศัยลักษณะการทำงานของเครือข่ายโดยรวม เมื่อรูปแบบที่ทำให้เกิดการปรับร่วมไม่มีอยู่ในข้อมูลการตรวจสอบ การปรับร่วมจะทำให้เกิดการปรับมากเกินไป การทำให้เป็นค่าปกติแบบ Dropout ช่วยลดการปรับตัวร่วมกัน เนื่องจาก Dropout ทำให้มั่นใจได้ว่านิวรอนจะไม่พึ่งพานิวรอนอื่นๆ ที่เฉพาะเจาะจงเพียงอย่างเดียว

การกรองร่วมกัน

การคาดการณ์ความสนใจของผู้ใช้รายหนึ่ง โดยอิงตามความสนใจของผู้ใช้คนอื่นๆ จำนวนมาก การกรองร่วม มักใช้ในระบบแนะนำ

ดูข้อมูลเพิ่มเติมได้ที่การกรองร่วมในหลักสูตรระบบการแนะนำ

CommitmentBank (CB)

#Metric

ชุดข้อมูลสําหรับประเมินความเชี่ยวชาญของ LLM ในการพิจารณาว่าผู้เขียนข้อความเชื่อในอนุประโยคเป้าหมายภายในข้อความนั้นหรือไม่ แต่ละรายการในชุดข้อมูลประกอบด้วยข้อมูลต่อไปนี้

ข้อความ
อนุประโยคเป้าหมายภายในข้อความนั้น
ค่าบูลีนที่ระบุว่าผู้เขียนข้อความเชื่อว่ามาตราเป้าหมาย

เช่น

ข้อความ: ฟังอาร์เทมิสหัวเราะช่างสนุกเสียนี่กระไร เธอเป็นเด็กที่จริงจังมาก ฉันไม่รู้ว่าเธอมีอารมณ์ขัน
อนุประโยคเป้าหมาย: เธอมีอารมณ์ขัน
บูลีน: จริง ซึ่งหมายความว่าผู้เขียนเชื่อว่าข้อความเป้าหมาย

CommitmentBank เป็นส่วนประกอบของกลุ่ม SuperGLUE

โมเดลแบบกะทัดรัด

โมเดลขนาดเล็กที่ออกแบบมาเพื่อทำงานในอุปกรณ์ขนาดเล็กที่มีทรัพยากรการคำนวณจำกัด เช่น โมเดลขนาดเล็กสามารถทำงานบนโทรศัพท์มือถือ แท็บเล็ต หรือ ระบบฝังตัวได้

คำนวณ

(คำนาม) ทรัพยากรการคำนวณที่โมเดลหรือระบบใช้ เช่น กำลังประมวลผล หน่วยความจำ และพื้นที่เก็บข้อมูล

ดูชิปเร่งความเร็ว

การดริฟต์ของแนวคิด

การเปลี่ยนแปลงความสัมพันธ์ระหว่างฟีเจอร์กับค่ายเพลง เมื่อเวลาผ่านไป แนวคิดดริฟต์จะลดคุณภาพของโมเดล

ในระหว่างการฝึก โมเดลจะเรียนรู้ความสัมพันธ์ระหว่างฟีเจอร์กับ ป้ายกำกับในชุดการฝึก หากป้ายกำกับในชุดการฝึกเป็นตัวแทนที่ดีสำหรับโลกแห่งความเป็นจริง โมเดลควรคาดการณ์ในโลกแห่งความเป็นจริงได้ดี อย่างไรก็ตาม เนื่องจากแนวคิดที่เปลี่ยนแปลงไป การคาดการณ์ของโมเดลจึงมีแนวโน้มที่จะเสื่อมถอยลงเมื่อเวลาผ่านไป

เช่น ลองพิจารณาโมเดลการจัดประเภทแบบไบนารี ที่คาดการณ์ว่ารถยนต์รุ่นหนึ่งๆ "ประหยัดน้ำมัน" หรือไม่ กล่าวคือ ฟีเจอร์อาจเป็นสิ่งต่อไปนี้

น้ำหนักรถ
การบีบอัดเครื่องยนต์
ประเภทเกียร์

ขณะที่ป้ายกำกับมีสถานะอย่างใดอย่างหนึ่งต่อไปนี้

ประหยัดเชื้อเพลิง
ไม่ประหยัดเชื้อเพลิง

อย่างไรก็ตาม แนวคิดเรื่อง "รถยนต์ประหยัดน้ำมัน" มีการเปลี่ยนแปลงอยู่เสมอ รถยนต์รุ่นที่ติดป้ายกำกับว่าประหยัดน้ำมันในปี 1994 จะติดป้ายกำกับว่าไม่ประหยัดน้ำมันในปี 2024 อย่างแน่นอน โมเดลที่ได้รับผลกระทบจากแนวคิดที่เปลี่ยนแปลงไป มักจะทำการคาดการณ์ที่มีประโยชน์น้อยลงเรื่อยๆ เมื่อเวลาผ่านไป

เปรียบเทียบกับความไม่คงที่

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

หากต้องการชดเชยการเปลี่ยนแปลงแนวคิด ให้ฝึกโมเดลซ้ำเร็วกว่าอัตราการเปลี่ยนแปลงแนวคิด เช่น หากแนวคิดที่เปลี่ยนแปลงไปลดความแม่นยำของโมเดลลงอย่างมีนัยสำคัญทุกๆ 2 เดือน ให้ฝึกโมเดลซ้ำบ่อยกว่าทุกๆ 2 เดือน

เงื่อนไข

#df

ในแผนผังการตัดสินใจ โหนดใดก็ตามที่ ทำการทดสอบ ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้มี เงื่อนไข 2 ข้อ

แผนผังการตัดสินใจที่มี 2 เงื่อนไขคือ (x > 0) และ (y > 0)

เงื่อนไขนี้เรียกอีกอย่างว่าการแยกหรือการทดสอบ

สภาพคอนทราสต์ที่มีใบไม้

และดู:

เงื่อนไขไบนารี
เงื่อนไขนอนไบนารี
axis-aligned-condition
oblique-condition

ดูข้อมูลเพิ่มเติมได้ที่ประเภทของเงื่อนไข ในหลักสูตร Decision Forests

การแต่งเรื่อง

คำพ้องความหมายของอาการหลอน

การแต่งเรื่องอาจเป็นคำที่ถูกต้องในเชิงเทคนิคมากกว่าคำว่าหลอน อย่างไรก็ตาม การหลอนได้รับความนิยมก่อน

การกำหนดค่า

กระบวนการกำหนดค่าพร็อพเพอร์ตี้เริ่มต้นที่ใช้ฝึกโมเดล ซึ่งรวมถึง

เลเยอร์การแต่งเพลงของโมเดล
ตำแหน่งของข้อมูล
ไฮเปอร์พารามิเตอร์ เช่น

ในโปรเจ็กต์แมชชีนเลิร์นนิง คุณสามารถกำหนดค่าผ่านไฟล์การกำหนดค่าพิเศษ หรือใช้ไลบรารีการกำหนดค่า เช่น รายการต่อไปนี้

อคติยืนยันความคิดตัวเอง

#responsible

แนวโน้มที่จะค้นหา ตีความ ชื่นชอบ และจดจำข้อมูลในลักษณะที่ยืนยันความเชื่อหรือสมมติฐานที่มีอยู่ก่อนแล้ว นักพัฒนาแมชชีนเลิร์นนิงอาจเก็บรวบรวมหรือติดป้ายกำกับ ข้อมูลโดยไม่ตั้งใจในลักษณะที่ส่งผลต่อผลลัพธ์ที่สนับสนุนความเชื่อที่มีอยู่ อคติยืนยันความคิดตัวเองเป็นรูปแบบหนึ่งของอคติแฝง

อคติของผู้ทดลองเป็นรูปแบบหนึ่งของอคติในการยืนยัน ซึ่งผู้ทดลองจะฝึกโมเดลต่อไปจนกว่าจะมีการยืนยันสมมติฐานที่มีอยู่ก่อนแล้ว

เมตริกความสับสน

#fundamentals

ตาราง NxN ที่สรุปจำนวนการคาดการณ์ที่ถูกต้องและไม่ถูกต้อง ที่โมเดลการจัดประเภทสร้างขึ้น ตัวอย่างเช่น ลองดูเมทริกซ์ความสับสนต่อไปนี้สําหรับโมเดลการจัดประเภทแบบไบนารี

	เนื้องอก (คาดการณ์)	ไม่ใช่เนื้องอก (คาดการณ์)
เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง)	18 (TP)	1 (FN)
ไม่ใช่เนื้องอก (ความจริง)	6 (FP)	452 (TN)

เมตริกความสับสนก่อนหน้าแสดงข้อมูลต่อไปนี้

จากการคาดการณ์ 19 รายการที่ข้อมูลที่ระบุว่าถูกต้องโดยเจ้าหน้าที่เป็นเนื้องอก โมเดลจัดประเภทได้อย่างถูกต้อง 18 รายการและจัดประเภทไม่ถูกต้อง 1 รายการ
จากการคาดการณ์ 458 รายการซึ่งมีข้อมูลที่ระบุว่าถูกต้องโดยเจ้าหน้าที่เป็น "ไม่ใช่เนื้องอก" โมเดล จัดประเภทได้อย่างถูกต้อง 452 รายการและจัดประเภทไม่ถูกต้อง 6 รายการ

เมทริกซ์ความสับสนสำหรับปัญหาการจัดประเภทแบบหลายคลาส ช่วยให้คุณระบุรูปแบบของข้อผิดพลาดได้ ตัวอย่างเช่น ลองพิจารณาเมทริกซ์ความสับสนต่อไปนี้สําหรับโมเดลการจัดประเภทแบบหลายคลาส 3 คลาส ที่จัดประเภทไอริส 3 ประเภทที่แตกต่างกัน (เวอร์จินิกา เวอร์ซิคอลอร์ และเซโตซา) เมื่อข้อมูลที่ระบุว่าถูกต้องโดยเจ้าหน้าที่คือ Virginica เมทริกซ์ความสับสนแสดงให้เห็นว่าโมเดลมีแนวโน้มที่จะคาดการณ์ Versicolor มากกว่า Setosa อย่างมาก

	Setosa (คาดการณ์)	Versicolor (คาดการณ์)	เวอร์จิเนีย (คาดการณ์)
Setosa (ข้อมูลจากการสังเกตการณ์โดยตรง)	88	12	0
Versicolor (ข้อมูลจากการสังเกตการณ์โดยตรง)	6	141	7
เวอร์จินิกา (ข้อมูลจากการสังเกตการณ์โดยตรง)	2	27	109

อีกตัวอย่างหนึ่งคือเมทริกซ์ความสับสนอาจเผยให้เห็นว่าโมเดลที่ฝึกมา เพื่อจดจำตัวเลขที่เขียนด้วยลายมือมักจะทำนายผิดเป็น 9 แทนที่จะเป็น 4 หรือทำนายผิดเป็น 1 แทนที่จะเป็น 7

เมทริกซ์ความสับสนมีข้อมูลเพียงพอที่จะคํานวณ เมตริกประสิทธิภาพที่หลากหลาย รวมถึงความแม่นยำ และการเรียกคืน

การแยกวิเคราะห์ส่วนประกอบ

การแบ่งประโยคออกเป็นโครงสร้างทางไวยากรณ์ที่เล็กลง ("ส่วนประกอบ") ส่วนที่เหลือของระบบ ML เช่น โมเดลความเข้าใจภาษาธรรมชาติ จะแยกวิเคราะห์องค์ประกอบได้ง่ายกว่าประโยคเดิม ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

เพื่อนของฉันรับเลี้ยงแมว 2 ตัว

ตัวแยกวิเคราะห์แบบ Constituency สามารถแบ่งประโยคนี้ออกเป็นส่วนประกอบ 2 ส่วนต่อไปนี้

My friend เป็นวลีนาม
รับเลี้ยงแมว 2 ตัวเป็นวลีที่มีคำกริยา

โดยสามารถแบ่งย่อยองค์ประกอบเหล่านี้ออกเป็นองค์ประกอบที่เล็กลงได้อีก เช่น วลีที่มีคำกริยา

รับเลี้ยงแมว 2 ตัว

สามารถแบ่งย่อยออกเป็น

ใช้เป็นกริยา
แมว 2 ตัวเป็นวลีนามอีกวลีหนึ่ง

การฝังภาษาตามบริบท

#generativeAI

การฝังที่เข้าใกล้ "ความเข้าใจ" คำ และวลีในแบบที่ผู้พูดที่เป็นมนุษย์สามารถทำได้ การฝังภาษาตามบริบท สามารถเข้าใจไวยากรณ์ ความหมาย และบริบทที่ซับซ้อน

ตัวอย่างเช่น ลองพิจารณาการฝังคำภาษาอังกฤษว่า cow การฝังรุ่นเก่า เช่น word2vec สามารถแสดงคำภาษาอังกฤษ ในลักษณะที่ระยะทางในพื้นที่การฝัง จาก cow ถึง bull จะคล้ายกับระยะทางจาก ewe (แกะตัวเมีย) ถึง ram (แกะตัวผู้) หรือจาก female ถึง male การฝังภาษาตามบริบทสามารถก้าวไปอีกขั้นด้วยการรับรู้ว่าบางครั้งผู้พูดภาษาอังกฤษใช้คำว่าcow ในความหมายของทั้งวัวตัวเมียและวัวตัวผู้

หน้าต่างบริบท

#generativeAI

จำนวนโทเค็นที่โมเดลประมวลผลได้ในพรอมต์ที่กำหนด ยิ่งหน้าต่างบริบทมีขนาดใหญ่เท่าใด โมเดลก็จะใช้ข้อมูลได้มากขึ้นเท่านั้น เพื่อสร้างคำตอบที่สอดคล้องและสมเหตุสมผล กับพรอมต์

ฟีเจอร์ต่อเนื่อง

#fundamentals

ฟีเจอร์ทศนิยมที่มีค่าที่เป็นไปได้ไม่สิ้นสุด เช่น อุณหภูมิหรือน้ำหนัก

เปรียบเทียบกับฟีเจอร์ที่ไม่ต่อเนื่อง

การสุ่มตัวอย่างแบบตามสะดวก

การใช้ชุดข้อมูลที่ไม่ได้รวบรวมอย่างเป็นวิทยาศาสตร์เพื่อทำการทดสอบอย่างรวดเร็ว ในภายหลัง คุณจะต้องเปลี่ยนไปใช้ชุดข้อมูลที่รวบรวมมาอย่างเป็นวิทยาศาสตร์

การบรรจบกัน

#fundamentals

สถานะที่เกิดขึ้นเมื่อค่าการสูญเสียเปลี่ยนแปลงเล็กน้อยมากหรือ ไม่เปลี่ยนแปลงเลยในแต่ละการทำซ้ำ ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้แสดงให้เห็นว่าการบรรจบกันเกิดขึ้นที่การวนซ้ำประมาณ 700 ครั้ง

พล็อตคาร์ทีเซียน แกน X สูญหาย แกน Y คือจำนวนการทำซ้ำการฝึก
การสูญเสียจะสูงมากในช่วง 2-3 การทำซ้ำแรก แต่จะลดลงอย่างรวดเร็ว
หลังจากทำซ้ำประมาณ 100 ครั้ง การสูญเสียยังคง
ลดลง แต่ลดลงทีละน้อยกว่ามาก หลังจากวนซ้ำประมาณ 700 ครั้ง
การสูญเสียจะคงที่

โมเดลจะบรรจบเมื่อการฝึกเพิ่มเติมไม่ ปรับปรุงโมเดล

ในดีปเลิร์นนิง บางครั้งค่าการสูญเสียจะคงที่หรือ เกือบคงที่สำหรับการวนซ้ำหลายครั้งก่อนที่จะลดลงในที่สุด ในช่วงระยะเวลานานที่ค่าการสูญเสียคงที่ คุณอาจรู้สึกว่าค่าต่างๆ บรรจบกันอย่างไม่ถูกต้องชั่วคราว

ดูการหยุดก่อนกำหนดด้วย

ดูข้อมูลเพิ่มเติมได้ที่เส้นโค้งการบรรจบกันของโมเดลและการสูญเสีย ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเขียนโค้ดแบบสนทนา

#generativeAI

กล่องโต้ตอบแบบวนซ้ำระหว่างคุณกับโมเดล Generative AI เพื่อวัตถุประสงค์ ในการสร้างซอฟต์แวร์ คุณป้อนพรอมต์ที่อธิบายซอฟต์แวร์บางอย่าง จากนั้น โมเดลจะใช้คำอธิบายดังกล่าวเพื่อสร้างโค้ด จากนั้นคุณจะออกพรอมต์ใหม่ เพื่อแก้ไขข้อบกพร่องในพรอมต์ก่อนหน้าหรือในโค้ดที่สร้างขึ้น และโมเดลจะสร้างโค้ดที่อัปเดตแล้ว คุณทั้ง 2 คนจะสลับกันไปมาจนกว่าซอฟต์แวร์ที่สร้างขึ้นจะดีพอ

การเขียนโค้ดการสนทนาเป็นความหมายดั้งเดิมของการเขียนโค้ดไวบ์

เปรียบเทียบกับการเขียนโค้ดตามข้อกำหนด

ฟังก์ชันนูน

ฟังก์ชันที่ภูมิภาคเหนือกราฟของฟังก์ชันเป็นเซตแบบนูน ฟังก์ชันนูนต้นแบบมีลักษณะคล้ายตัวอักษร U ตัวอย่างเช่น ฟังก์ชันต่อไปนี้ เป็นฟังก์ชันนูนทั้งหมด

เส้นโค้งรูปตัว U ซึ่งแต่ละเส้นมีจุดต่ำสุดเพียงจุดเดียว

ในทางตรงกันข้าม ฟังก์ชันต่อไปนี้ไม่ใช่ฟังก์ชันนูน โปรดสังเกตว่า พื้นที่เหนือกราฟไม่ใช่เซตแบบนูน

เส้นโค้งรูปตัว W ที่มีจุดต่ำสุดในพื้นที่ 2 จุดที่แตกต่างกัน

ฟังก์ชันนูนอย่างแท้จริงมีจุดต่ำสุดเฉพาะที่เพียงจุดเดียว ซึ่งเป็นจุดต่ำสุดส่วนกลางด้วย ฟังก์ชันรูปตัว U แบบคลาสสิกคือฟังก์ชันนูนอย่างแท้จริง อย่างไรก็ตาม ฟังก์ชันนูนบางอย่าง (เช่น เส้นตรง) ไม่ได้มีรูปร่างเป็นตัว U

คลิกไอคอนเพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับคณิตศาสตร์

ฟังก์ชันการสูญเสียที่พบบ่อยหลายอย่าง ซึ่งรวมถึงฟังก์ชันต่อไปนี้เป็นฟังก์ชันนูน

L₂ loss
การสูญเสียของบันทึก
การทำให้เป็นค่าปกติ _L1
การทำให้เป็นค่าปกติ _L2

การไล่ระดับการไล่ระดับ หลายรูปแบบรับประกันว่าจะพบจุดที่อยู่ใกล้กับค่าต่ำสุดของฟังก์ชัน นูนอย่างเคร่งครัด ในทำนองเดียวกัน Stochastic Gradient Descent หลายรูปแบบมีโอกาสสูง (แม้จะไม่รับประกัน) ที่จะพบจุดที่ใกล้เคียงกับค่าต่ำสุดของฟังก์ชัน Strictly Convex

ผลรวมของฟังก์ชันนูน 2 ฟังก์ชัน (เช่น การสูญเสีย L₂ + การทำให้เป็นปกติ L₁) คือฟังก์ชันนูน

โมเดลเชิงลึกไม่เคยเป็นฟังก์ชันนูน ที่น่าสนใจคือ อัลกอริทึมที่ออกแบบมาเพื่อการเพิ่มประสิทธิภาพแบบนูนมักจะพบโซลูชันที่ค่อนข้างดีในเครือข่ายแบบลึกอยู่ดี แม้ว่าโซลูชันเหล่านั้นจะไม่รับประกันว่าจะเป็นค่าต่ำสุดทั่วโลกก็ตาม

ดูข้อมูลเพิ่มเติมได้ที่ฟังก์ชันการบรรจบกันและฟังก์ชันนูนในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

การเพิ่มประสิทธิภาพแบบนูน

กระบวนการใช้เทคนิคทางคณิตศาสตร์ เช่น การไล่ระดับการไล่ระดับเพื่อค้นหาค่าต่ำสุดของฟังก์ชันนูน การวิจัยด้านแมชชีนเลิร์นนิงจำนวนมากมุ่งเน้นไปที่การกำหนดปัญหาต่างๆ เป็นปัญหาการเพิ่มประสิทธิภาพแบบนูน และการแก้ปัญหาเหล่านั้นอย่างมีประสิทธิภาพมากขึ้น

ดูรายละเอียดทั้งหมดได้ที่ Boyd และ Vandenberghe การเพิ่มประสิทธิภาพ แบบนูน

เซตนูน

เซตย่อยของปริภูมิแบบยุคลิดซึ่งเส้นที่ลากระหว่างจุด 2 จุดใดๆ ในเซตย่อย จะยังคงอยู่ภายในเซตย่อยนั้นอย่างสมบูรณ์ ตัวอย่างเช่น รูปร่าง 2 รูปต่อไปนี้ เป็นเซตแบบนูน

ภาพสี่เหลี่ยมผืนผ้า 1 ภาพ ภาพวงรีอีกภาพ

ในทางตรงกันข้าม รูปร่าง 2 แบบต่อไปนี้ไม่ใช่เซตคอนเวกซ์

ภาพแผนภูมิวงกลมที่มีชิ้นส่วนขาดหายไป
ภาพอีกภาพของรูปหลายเหลี่ยมที่ผิดปกติอย่างมาก

การสังวัตนาการ

ในทางคณิตศาสตร์ ฟังก์ชันผสมคือการรวมฟังก์ชัน 2 ฟังก์ชันเข้าด้วยกัน ในแมชชีนเลิร์นนิง คอนโวลูชันจะผสมฟิลเตอร์คอนโวลูชันและเมทริกซ์อินพุต เพื่อฝึกน้ำหนัก

คำว่า "การสังวัตนาการ" ในแมชชีนเลิร์นนิงมักเป็นวิธีเรียกแบบย่อ เพื่ออ้างอิงถึงการดำเนินการสังวัตนาการ หรือเลเยอร์สังวัตนาการ

หากไม่มี Convolution อัลกอริทึมแมชชีนเลิร์นนิงจะต้องเรียนรู้ น้ำหนักแยกต่างหากสำหรับทุกเซลล์ในเทนเซอร์ขนาดใหญ่ ตัวอย่างเช่น อัลกอริทึมแมชชีนเลิร์นนิงที่ฝึกกับรูปภาพขนาด 2K x 2K จะต้อง ค้นหาน้ำหนักแยกกัน 4 ล้านรายการ อัลกอริทึมแมชชีนเลิร์นนิง ต้องค้นหาน้ำหนักสำหรับทุกเซลล์ในฟิลเตอร์ Convolutional เท่านั้น ซึ่งช่วยลด หน่วยความจำที่จำเป็นในการฝึกโมเดลได้อย่างมาก เมื่อใช้ฟิลเตอร์ Convolutional ระบบจะทำซ้ำฟิลเตอร์ในเซลล์ต่างๆ เพื่อให้แต่ละเซลล์คูณด้วยฟิลเตอร์

ฟิลเตอร์ Convolutional

หนึ่งใน 2 ตัวดำเนินการในการดำเนินการแบบ Convolution (ตัวดำเนินการอีกตัว คือส่วนหนึ่งของเมทริกซ์อินพุต) ฟิลเตอร์ Convolutional คือเมทริกซ์ที่มีอันดับเดียวกันกับเมทริกซ์อินพุต แต่มีรูปร่างที่เล็กกว่า เช่น เมื่อกำหนดเมทริกซ์อินพุต 28x28 ตัวกรองอาจเป็นเมทริกซ์ 2 มิติใดก็ได้ ที่มีขนาดเล็กกว่า 28x28

ในการดัดแปลงภาพถ่าย โดยทั่วไปแล้วเซลล์ทั้งหมดในฟิลเตอร์ Convolutional จะ ตั้งค่าเป็นรูปแบบคงที่ของ 1 และ 0 ในแมชชีนเลิร์นนิง โดยทั่วไปแล้วฟิลเตอร์ Convolution จะเริ่มต้นด้วยตัวเลขสุ่ม จากนั้น เครือข่ายจะฝึกค่าที่เหมาะสม

เลเยอร์ Convolutional

เลเยอร์ของโครงข่ายประสาทแบบลึกซึ่งฟิลเตอร์ Convolutional จะส่งต่อเมทริกซ์อินพุต ตัวอย่างเช่น ลองพิจารณาฟิลเตอร์ Convolutional ขนาด 3x3 ต่อไปนี้

เมทริกซ์ 3x3 ที่มีค่าต่อไปนี้ [[0,1,0], [1,0,1], [0,1,0]]

ภาพเคลื่อนไหวต่อไปนี้แสดงเลเยอร์ Convolutional ซึ่งประกอบด้วยการดำเนินการ Convolutional 9 รายการที่เกี่ยวข้องกับเมทริกซ์อินพุตขนาด 5x5 โปรดสังเกตว่าการดำเนินการแบบ Convolution แต่ละครั้งจะทำงานกับส่วน 3x3 ที่แตกต่างกันของเมทริกซ์อินพุต เมทริกซ์ 3x3 ที่ได้ (ทางด้านขวา) ประกอบด้วยผลลัพธ์ของการดำเนินการ Convolutional 9 รายการ

ภาพเคลื่อนไหวแสดงเมทริกซ์ 2 รายการ เมทริกซ์แรกคือเมทริกซ์ 5x5
[[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]
เมทริกซ์ที่ 2 คือเมทริกซ์ 3x3 ดังนี้
[[181,303,618], [115,338,605], [169,351,560]]
เมทริกซ์ที่ 2 คํานวณโดยใช้ตัวกรองแบบ Convolution
[[0, 1, 0], [1, 0, 1], [0, 1, 0]] กับ
เซตย่อย 3x3 ที่แตกต่างกันของเมทริกซ์ 5x5

โครงข่ายประสาทแบบคอนโวลูชัน

โครงข่ายประสาทที่มีเลเยอร์ Convolutional อย่างน้อย 1 เลเยอร์ โดยทั่วไปแล้ว โครงข่ายประสาทเทียมแบบ Convolutional จะประกอบด้วยเลเยอร์ต่อไปนี้

เลเยอร์ Convolutional
เลเยอร์การรวม
เลเยอร์หนาแน่น

โครงข่ายประสาทเทียมแบบคอนโวลูชันประสบความสำเร็จอย่างมากในปัญหาบางประเภท เช่น การจดจำรูปภาพ

การดำเนินการแบบ Convolution

การดำเนินการทางคณิตศาสตร์ 2 ขั้นตอนต่อไปนี้

การคูณแบบทีละองค์ประกอบของฟิลเตอร์ Convolutional และชิ้นส่วนของเมทริกซ์อินพุต (ชิ้นส่วนของเมทริกซ์อินพุตมีอันดับและขนาดเท่ากับฟิลเตอร์ Convolutional)
ผลรวมของค่าทั้งหมดในเมทริกซ์ผลิตภัณฑ์ที่ได้

ตัวอย่างเช่น ลองพิจารณาเมทริกซ์อินพุต 5x5 ต่อไปนี้

เมทริกซ์ 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]

ตอนนี้ลองนึกถึงฟิลเตอร์การแปลงแบบ Convolution ขนาด 2x2 ต่อไปนี้

เมทริกซ์ 2x2: [[1, 0], [0, 1]]

การดำเนินการแบบ Convolution แต่ละครั้งจะเกี่ยวข้องกับชิ้นส่วนขนาด 2x2 เพียงชิ้นเดียวของเมทริกซ์อินพุต เช่น สมมติว่าเราใช้ชิ้นส่วนขนาด 2x2 ที่ ด้านซ้ายบนของเมทริกซ์อินพุต ดังนั้น การดำเนินการ Convolution ใน ชิ้นนี้จึงมีลักษณะดังนี้

การใช้ฟิลเตอร์ Convolution [[1, 0], [0, 1]] กับส่วน 2x2 ด้านซ้ายบนของเมทริกซ์อินพุต ซึ่งคือ [[128,97], [35,22]]
ฟิลเตอร์ Convolutional จะคงค่า 128 และ 22 ไว้ แต่จะตั้งค่า 97 และ 35 เป็น 0 ดังนั้น การดำเนินการ Convolution จึงให้ผลลัพธ์เป็น
ค่า 150 (128+22)

เลเยอร์ Convolutional ประกอบด้วย ชุดการดำเนินการ Convolutional ซึ่งแต่ละรายการจะทำงานกับส่วนที่แตกต่างกัน ของเมทริกซ์อินพุต

COPA

#Metric

ตัวย่อของ Choice of Plausible Alternatives

ต้นทุน

#Metric

คำพ้องความหมายของการสูญเสีย

การฝึกร่วม

แนวทางการเรียนรู้แบบกึ่งกำกับดูแล มีประโยชน์อย่างยิ่งเมื่อเงื่อนไขต่อไปนี้ทั้งหมดเป็นจริง

อัตราส่วนของตัวอย่างที่ไม่มีป้ายกำกับต่อ ตัวอย่างที่มีป้ายกำกับในชุดข้อมูลสูง
นี่คือปัญหาการจัดประเภท (ไบนารีหรือ หลายคลาส)
ชุดข้อมูลมีฟีเจอร์เชิงคาดการณ์ 2 ชุดที่แตกต่างกัน ซึ่งเป็นอิสระต่อกันและเสริมซึ่งกันและกัน

การฝึกร่วมกันจะขยายสัญญาณอิสระให้เป็นสัญญาณที่แรงขึ้น ตัวอย่างเช่น พิจารณาโมเดลการแยกประเภทที่ จัดหมวดหมู่รถมือสองแต่ละคันเป็นดีหรือไม่ดี ฟีเจอร์การคาดการณ์ชุดหนึ่งอาจมุ่งเน้นลักษณะโดยรวม เช่น ปี ยี่ห้อ และรุ่นของรถยนต์ ส่วนฟีเจอร์การคาดการณ์อีกชุดหนึ่งอาจมุ่งเน้นบันทึกการขับขี่ของเจ้าของคนก่อนและประวัติการบำรุงรักษารถยนต์

เอกสารสำคัญเกี่ยวกับการฝึกร่วมคือ Combining Labeled and Unlabeled Data with Co-Training โดย Blum และ Mitchell

ความเป็นธรรมแบบข้อเท็จจริง

#responsible

#Metric

เมตริกความเป็นธรรมที่ตรวจสอบว่าโมเดลการจัดประเภทให้ผลลัพธ์เดียวกันสำหรับบุคคลหนึ่งกับอีกบุคคลหนึ่งซึ่งเหมือนกับบุคคลแรกหรือไม่ ยกเว้นในส่วนของแอตทริบิวต์ที่ละเอียดอ่อนอย่างน้อย 1 รายการ การประเมินโมเดลการจัดประเภทเพื่อความยุติธรรมแบบข้อเท็จจริง เป็นวิธีหนึ่งในการระบุแหล่งที่มาของความเอนเอียงที่อาจเกิดขึ้นในโมเดล

โปรดดูข้อมูลเพิ่มเติมในแหล่งข้อมูลต่อไปนี้

ความเป็นธรรม: ความเป็นธรรมแบบข้อเท็จจริงที่ขัดแย้ง ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
เมื่อโลกมาบรรจบกัน: การผสานรวมสมมติฐานแบบ Counterfactual ที่แตกต่างกัน ในความเท่าเทียม

อคติในการครอบคลุม

#responsible

ดูอคติในการเลือก

การขยายตัวของข่าว

ประโยคหรือวลีที่มีความหมายกำกวม Crash Blossom เป็นปัญหาสำคัญในการทำความเข้าใจภาษาธรรมชาติ ตัวอย่างเช่น พาดหัวข่าว Red Tape Holds Up Skyscraper เป็น การใช้คำที่ทำให้เกิดความสับสนเนื่องจากโมเดล NLU อาจตีความพาดหัวข่าวตามตัวอักษรหรือ ในเชิงเปรียบเทียบ

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เราขอชี้แจงพาดหัวลึกลับนี้

อุปสรรคด้านกฎระเบียบอาจหมายถึงสิ่งใดสิ่งหนึ่งต่อไปนี้
- กาว
- ระบบราชการที่มากเกินไป
Hold Up อาจหมายถึงสิ่งใดสิ่งหนึ่งต่อไปนี้
- การสนับสนุนด้านโครงสร้าง
- ความล่าช้า

นักวิจารณ์

คำพ้องความหมายของ Deep Q-Network

ครอสเอนโทรปี

#Metric

การสรุปการสูญเสียบันทึกเป็น ปัญหาการจัดประเภทแบบหลายคลาส Cross-entropy วัดความแตกต่างระหว่างการแจกแจงความน่าจะเป็น 2 แบบ ดูเพิ่มเติม perplexity

การตรวจสอบแบบไขว้

กลไกในการประมาณว่าโมเดลจะทำงานได้ดีเพียงใดกับข้อมูลใหม่โดยการทดสอบโมเดลกับชุดข้อมูลย่อยที่ไม่ทับซ้อนกันอย่างน้อย 1 ชุด ซึ่งได้มาจากชุดการฝึก

ฟังก์ชันการกระจายสะสม (CDF)

#Metric

ฟังก์ชันที่กำหนดความถี่ของตัวอย่างที่น้อยกว่าหรือเท่ากับค่าเป้าหมาย เช่น พิจารณาการแจกแจงปกติของค่าต่อเนื่อง CDF บอกคุณว่าตัวอย่างประมาณ 50% ควรน้อยกว่าหรือเท่ากับค่าเฉลี่ย และตัวอย่างประมาณ 84% ควรน้อยกว่าหรือเท่ากับค่าเบี่ยงเบนมาตรฐาน 1 ค่าเหนือค่าเฉลี่ย

D

การวิเคราะห์ข้อมูล

ทำความเข้าใจข้อมูลโดยพิจารณาตัวอย่าง การวัด และการแสดงข้อมูลเป็นภาพ การวิเคราะห์ข้อมูลมีประโยชน์อย่างยิ่งเมื่อได้รับชุดข้อมูลเป็นครั้งแรก ก่อนที่จะสร้างโมเดลแรก นอกจากนี้ ยังมีความสำคัญอย่างยิ่งในการทำความเข้าใจการทดสอบและการแก้ไขข้อบกพร่องของระบบ

การเพิ่มข้อมูล

การเพิ่มช่วงและจำนวนตัวอย่างการฝึกโดยการแปลงตัวอย่างที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติม ตัวอย่างเช่น สมมติว่ารูปภาพเป็นหนึ่งในฟีเจอร์ของคุณ แต่ชุดข้อมูลไม่มีตัวอย่างรูปภาพเพียงพอให้โมเดลเรียนรู้ความสัมพันธ์ที่เป็นประโยชน์ คุณควรเพิ่มรูปภาพที่ติดป้ายกำกับให้เพียงพอลงในชุดข้อมูลเพื่อช่วยให้โมเดลฝึกได้อย่างถูกต้อง หากทำไม่ได้ การเพิ่มข้อมูล จะหมุน ยืด และพลิกรูปภาพแต่ละรูปเพื่อสร้างรูปภาพต้นฉบับ ในรูปแบบต่างๆ ซึ่งอาจให้ข้อมูลที่ติดป้ายกำกับเพียงพอที่จะช่วยให้การฝึกโมเดลมีประสิทธิภาพยอดเยี่ยม

DataFrame

#fundamentals

ประเภทข้อมูล pandas ยอดนิยมสำหรับแสดงชุดข้อมูลในหน่วยความจำ

DataFrame มีลักษณะคล้ายกับตารางหรือสเปรดชีต แต่ละคอลัมน์ของ DataFrame มีชื่อ (ส่วนหัว) และแต่ละแถวจะระบุด้วยหมายเลขที่ไม่ซ้ำกัน

แต่ละคอลัมน์ใน DataFrame มีโครงสร้างเหมือนอาร์เรย์ 2 มิติ ยกเว้นว่า แต่ละคอลัมน์สามารถกำหนดประเภทข้อมูลของตัวเองได้

ดูหน้าข้อมูลอ้างอิง pandas.DataFrame อย่างเป็นทางการด้วย

การประมวลผลแบบขนาน

วิธีปรับขนาดการฝึกหรือการอนุมาน ที่จำลองโมเดลทั้งหมดไปยัง อุปกรณ์หลายเครื่อง แล้วส่งชุดข้อมูลย่อยของข้อมูลอินพุตไปยังแต่ละอุปกรณ์ การขนานข้อมูลช่วยให้ฝึกและอนุมานได้ในขนาดกลุ่มที่ใหญ่มาก แต่การขนานข้อมูลกำหนดให้โมเดลต้องมีขนาดเล็กพอที่จะพอดีกับอุปกรณ์ทั้งหมด

โดยปกติแล้วการประมวลผลแบบคู่ขนานของข้อมูลจะช่วยเร่งการฝึกและการอนุมาน

ดูการทำงานแบบขนานของโมเดลด้วย

Dataset API (tf.data)

#TensorFlow

API TensorFlow ระดับสูงสําหรับการอ่านข้อมูลและ แปลงข้อมูลให้อยู่ในรูปแบบที่อัลกอริทึมแมชชีนเลิร์นนิงต้องการ ออบเจ็กต์ tf.data.Dataset แสดงลำดับขององค์ประกอบ ซึ่งแต่ละองค์ประกอบมี Tensor อย่างน้อย 1 รายการ ออบเจ็กต์ tf.data.Iterator ให้สิทธิ์เข้าถึงองค์ประกอบของ Dataset

ชุดข้อมูล

#fundamentals

ชุดข้อมูลดิบที่มักจะ (แต่ไม่เสมอไป) จัดระเบียบในรูปแบบใดรูปแบบหนึ่งต่อไปนี้

สเปรดชีต
ไฟล์ในรูปแบบ CSV (ค่าที่คั่นด้วยคอมมา)

ขอบเขตการตัดสินใจ

ตัวคั่นระหว่างคลาสที่โมเดลเรียนรู้ในคลาสแบบไบนารีหรือปัญหาการจัดประเภทแบบหลายคลาส ตัวอย่างเช่น ในรูปภาพต่อไปนี้ซึ่งแสดงถึงปัญหาการแยกประเภทแบบไบนารี ขอบเขตการตัดสินใจคือขอบเขตระหว่างคลาสสีส้มกับ คลาสสีน้ำเงิน

ขอบเขตที่กำหนดไว้อย่างชัดเจนระหว่างคลาสหนึ่งกับอีกคลาสหนึ่ง

Decision Forest

#df

โมเดลที่สร้างจากต้นไม้ตัดสินใจหลายต้น Decision Forest จะทำการคาดการณ์โดยการรวบรวมการคาดการณ์ของ Decision Tree ประเภทของป่าการตัดสินใจที่ได้รับความนิยม ได้แก่ ป่าสุ่มและต้นไม้ที่เพิ่มประสิทธิภาพด้วยการไล่ระดับสี

ดูข้อมูลเพิ่มเติมได้ที่ส่วน Decision Forests ในหลักสูตร Decision Forests

เกณฑ์การตัดสิน

คำพ้องความหมายของเกณฑ์การจัดประเภท

แผนผังการตัดสินใจ

#df

โมเดลการเรียนรู้ภายใต้การควบคุมดูแลซึ่งประกอบด้วยชุดเงื่อนไขและลีฟที่จัดระเบียบตามลำดับชั้น ตัวอย่างเช่น แผนผังการตัดสินใจมีลักษณะดังนี้

แผนผังการตัดสินใจที่มีเงื่อนไข 4 ข้อซึ่งจัดเรียงตามลำดับชั้น ซึ่งนำไปสู่ 5 ใบ

เครื่องมือถอดรหัส

โดยทั่วไปแล้ว ระบบ ML ใดๆ ที่แปลงจากรูปแบบที่ประมวลผลแล้ว หนาแน่น หรือ ภายในเป็นรูปแบบที่ดิบกว่า กระจัดกระจาย หรือภายนอก

ดีโคดเดอร์มักเป็นส่วนประกอบของโมเดลขนาดใหญ่ ซึ่งมักจะ จับคู่กับเอนโคดเดอร์

ในงานแบบลำดับต่อลำดับ ดีโคดเดอร์ จะเริ่มต้นด้วยสถานะภายในที่เอนโคดเดอร์สร้างขึ้นเพื่อคาดการณ์ลำดับ ถัดไป

ดูคำจำกัดความของตัวถอดรหัสภายในสถาปัตยกรรม Transformer ได้ที่Transformer

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โมเดลเชิงลึก

#fundamentals

โครงข่ายประสาทเทียมที่มีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 เลเยอร์

โมเดลแบบลึกเรียกอีกอย่างว่าโครงข่ายประสาทแบบลึก

เปรียบเทียบกับโมเดลแบบกว้าง

โครงข่ายประสาทแบบลึก

คำพ้องความหมายของโมเดลเชิงลึก

เครือข่าย Deep Q (DQN)

ในการเรียนรู้แบบ Q โครงข่ายประสาทแบบลึก ที่คาดการณ์ฟังก์ชัน Q

Critic เป็นคำพ้องความหมายของ Deep Q-Network

ความเท่าเทียมทางประชากร

#responsible

#Metric

เมตริกความเป็นธรรมที่ตรงตามเงื่อนไขในกรณีที่ผลลัพธ์ของการจัดประเภทของโมเดลไม่ได้ขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อนที่กำหนด

ตัวอย่างเช่น หากทั้งชาวลิลิพุตและชาวโบรบดิงแนกสมัครเข้าเรียนที่มหาวิทยาลัยกลับบ์ดับดริบ ความเท่าเทียมกันทางประชากรจะเกิดขึ้นหากเปอร์เซ็นต์ของชาวลิลิพุตที่ได้รับการตอบรับเท่ากับเปอร์เซ็นต์ของชาวโบรบดิงแนกที่ได้รับการตอบรับ ไม่ว่ากลุ่มใดกลุ่มหนึ่งจะมีคุณสมบัติมากกว่าอีกกลุ่มหนึ่งโดยเฉลี่ยหรือไม่ก็ตาม

แตกต่างจากอัตราต่อรองที่เท่ากันและความเท่าเทียมกันของโอกาส ซึ่งอนุญาตให้ผลการจัดประเภทโดยรวมขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อน แต่ไม่อนุญาตให้ผลการจัดประเภทสำหรับป้ายกำกับความจริงพื้นฐานที่ระบุบางอย่างขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อน ดู "การต่อต้านการเลือกปฏิบัติด้วยแมชชีนเลิร์นนิงที่ชาญฉลาดยิ่งขึ้น" เพื่อดูภาพ ที่อธิบายถึงการแลกเปลี่ยนเมื่อเพิ่มประสิทธิภาพเพื่อความเท่าเทียมกันทางประชากร

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ความเท่าเทียมกันทางประชากร ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การลดสัญญาณรบกวน

แนวทางทั่วไปสำหรับการเรียนรู้แบบกำกับดูแลตนเอง ซึ่งมีลักษณะดังนี้

สัญญาณรบกวนจะได้รับการเพิ่มลงในชุดข้อมูลโดยอัตโนมัติ
โมเดลจะพยายามตัดเสียงรบกวน

การลดสัญญาณรบกวนช่วยให้เรียนรู้จากตัวอย่างที่ไม่มีป้ายกำกับได้ ชุดข้อมูลเดิมทำหน้าที่เป็นเป้าหมายหรือป้ายกำกับ และข้อมูลที่มีสัญญาณรบกวนทำหน้าที่เป็นอินพุต

โมเดลภาษาที่มาสก์บางรายการใช้การลดสัญญาณรบกวน ดังนี้

ระบบจะเพิ่มสัญญาณรบกวนลงในประโยคที่ไม่มีป้ายกำกับโดยการมาสก์โทเค็นบางส่วน
โมเดลจะพยายามคาดการณ์โทเค็นต้นฉบับ

ฟีเจอร์หนาแน่น

#fundamentals

ฟีเจอร์ที่ค่าส่วนใหญ่หรือทั้งหมดไม่ใช่ 0 โดยปกติจะเป็นเทนเซอร์ของค่าทศนิยม ตัวอย่างเช่น เทนเซอร์ 10 องค์ประกอบต่อไปนี้เป็นแบบหนาแน่นเนื่องจากค่า 9 ค่าเป็นค่าที่ไม่ใช่ 0

แตกต่างจากฟีเจอร์แบบกระจัดกระจาย

เลเยอร์หนาแน่น

คำพ้องความหมายของเลเยอร์ที่เชื่อมต่ออย่างเต็มรูปแบบ

ความลึก

#fundamentals

ผลรวมของรายการต่อไปนี้ในโครงข่ายประสาทเทียม

จำนวนเลเยอร์ที่ซ่อนอยู่
จำนวนเลเยอร์เอาต์พุต ซึ่งโดยปกติคือ 1
จำนวนเลเยอร์การฝัง

เช่น โครงข่ายประสาทที่มีเลเยอร์ที่ซ่อนอยู่ 5 เลเยอร์และเลเยอร์เอาต์พุต 1 เลเยอร์ มีความลึกเท่ากับ 6

โปรดสังเกตว่าเลเยอร์อินพุตไม่มีผลต่อความลึก

โครงข่ายประสาทแบบคอนโวลูชันที่แยกความลึกได้ (sepCNN)

สถาปัตยกรรมโครงข่ายประสาทเทียมแบบคอนโวลูชัน ที่อิงตาม Inception แต่จะแทนที่โมดูล Inception ด้วยคอนโวลูชันแบบแยกตามความลึก หรือที่เรียกว่า Xception

การ Convolution ที่แยกความลึกได้ (เรียกอีกอย่างว่า Convolution ที่แยกได้) จะแยก Convolution 3 มิติมาตรฐานออกเป็น 2 การดำเนินการ Convolution แยกกัน ซึ่งมีประสิทธิภาพในการคำนวณมากกว่า โดยขั้นแรกคือ Convolution ที่แยกความลึกได้ ที่มีความลึกเป็น 1 (n ✕ n ✕ 1) และขั้นที่ 2 คือ Convolution แบบ Pointwise ที่มีความยาวและความกว้างเป็น 1 (1 ✕ 1 ✕ n)

ดูข้อมูลเพิ่มเติมได้ที่ Xception: Deep Learning with Depthwise Separable Convolutions

ป้ายกำกับที่ได้มา

คำพ้องความหมายของป้ายกำกับพร็อกซี

อุปกรณ์

#TensorFlow

#GoogleCloud

คำที่มีความหมายหลายอย่างซึ่งมีคำจำกัดความที่เป็นไปได้ 2 อย่างต่อไปนี้

หมวดหมู่ฮาร์ดแวร์ที่เรียกใช้เซสชัน TensorFlow ได้ ซึ่งรวมถึง CPU, GPU และ TPU
เมื่อฝึกโมเดล ML ในชิปตัวเร่ง (GPU หรือ TPU) ส่วนของระบบที่จัดการเทนเซอร์และการฝังจริง อุปกรณ์ทำงานบนชิปตัวเร่ง ในทางตรงกันข้าม โฮสต์ มักจะทำงานบน CPU

Differential Privacy

ในแมชชีนเลิร์นนิง แนวทางในการปกปิดข้อมูลระบุตัวบุคคลเพื่อปกป้องข้อมูลที่ละเอียดอ่อน (เช่น ข้อมูลส่วนบุคคลของบุคคล) ที่รวมอยู่ในชุดข้อมูลการฝึกของโมเดลไม่ให้มีการเปิดเผย วิธีนี้ช่วยให้มั่นใจได้ว่าโมเดลจะไม่เรียนรู้หรือจดจำข้อมูลเกี่ยวกับบุคคลใดบุคคลหนึ่งมากนัก ซึ่งทำได้โดยการสุ่มตัวอย่างและเพิ่มสัญญาณรบกวนระหว่างการฝึกโมเดล เพื่อปกปิดจุดข้อมูลแต่ละจุด ซึ่งจะช่วยลดความเสี่ยงในการเปิดเผย ข้อมูลการฝึกที่ละเอียดอ่อน

นอกจากนี้ Differential Privacy ยังใช้ภายนอกแมชชีนเลิร์นนิงด้วย ตัวอย่างเช่น นักวิทยาศาสตร์ด้านข้อมูลบางครั้งใช้ Differential Privacy เพื่อปกป้องความเป็นส่วนตัวของแต่ละบุคคล เมื่อคำนวณสถิติการใช้งานผลิตภัณฑ์สำหรับกลุ่มประชากรต่างๆ

การลดมิติ

การลดจำนวนมิติข้อมูลที่ใช้เพื่อแสดงฟีเจอร์หนึ่งๆ ในเวกเตอร์ฟีเจอร์ โดยปกติจะทำโดย การแปลงเป็นเวกเตอร์การฝัง

ขนาด

คำที่มีการใช้งานมากเกินไปซึ่งมีคำจำกัดความต่อไปนี้

จำนวนระดับของพิกัดในTensor เช่น
- สเกลาร์มี 0 มิติ เช่น ["Hello"]
- เวกเตอร์มี 1 มิติ เช่น [3, 5, 7, 11]
- เมทริกซ์มี 2 มิติ เช่น [[2, 4, 18], [5, 7, 14]] คุณระบุเซลล์หนึ่งๆ ในเวกเตอร์แบบ 1 มิติได้อย่างไม่ซ้ำกัน ด้วยพิกัด 1 รายการ แต่ต้องใช้พิกัด 2 รายการเพื่อระบุ เซลล์หนึ่งๆ ในเมทริกซ์แบบ 2 มิติได้อย่างไม่ซ้ำกัน
จำนวนรายการในเวกเตอร์ฟีเจอร์
จำนวนองค์ประกอบในเลเยอร์การฝัง

การเขียนพรอมต์โดยตรง

#generativeAI

คำพ้องความหมายของการแจ้งแบบศูนย์ช็อต

ฟีเจอร์ที่ไม่ต่อเนื่อง

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้แบบจำกัด เช่น ฟีเจอร์ที่มีค่าเป็น animal, vegetable หรือ mineral เท่านั้นคือฟีเจอร์ แบบไม่ต่อเนื่อง (หรือแบบหมวดหมู่)

เปรียบเทียบกับฟีเจอร์ต่อเนื่อง

โมเดลแยกแยะ

โมเดลที่คาดการณ์ป้ายกำกับจากชุดฟีเจอร์อย่างน้อย 1 รายการ กล่าวอย่างเป็นทางการมากขึ้นคือ โมเดลแบบแยกแยะจะกำหนด ความน่าจะเป็นแบบมีเงื่อนไขของเอาต์พุตที่กำหนดฟีเจอร์และ น้ำหนัก นั่นคือ

p(output | features, weights)

ตัวอย่างเช่น โมเดลที่คาดการณ์ว่าอีเมลเป็นสแปมหรือไม่จากฟีเจอร์และน้ำหนักคือโมเดลจำแนก

โมเดลการเรียนรู้ภายใต้การดูแลส่วนใหญ่ รวมถึงโมเดลการจัดประเภท และโมเดลการถดถอย เป็นโมเดลที่แยกแยะ

แตกต่างจากโมเดล Generative

ตัวแบ่ง

ระบบที่พิจารณาว่าตัวอย่างเป็นของจริงหรือของปลอม

หรืออาจเป็นระบบย่อยภายในเครือข่าย ปฏิปักษ์แบบกำเนิดที่กำหนดว่าตัวอย่างที่สร้างโดยเครื่องกำเนิดเป็นของจริงหรือของปลอม

ดูข้อมูลเพิ่มเติมได้ที่ตัวแยกแยะ ในหลักสูตร GAN

ผลกระทบที่แตกต่าง

#responsible

การตัดสินใจเกี่ยวกับผู้คนซึ่งส่งผลกระทบต่อกลุ่มย่อยของประชากรที่แตกต่างกันอย่างไม่สมส่วน โดยปกติแล้วจะหมายถึงสถานการณ์ ที่กระบวนการตัดสินใจแบบอัลกอริทึมส่งผลเสียหรือส่งผลดี ต่อกลุ่มย่อยบางกลุ่มมากกว่ากลุ่มอื่นๆ

ตัวอย่างเช่น สมมติว่าอัลกอริทึมที่พิจารณาการมีสิทธิ์ของชาวลิลิพุต ในการขอสินเชื่อบ้านขนาดเล็กมีแนวโน้มที่จะจัดประเภท ชาวลิลิพุตเป็น "ไม่มีสิทธิ์" หากที่อยู่จัดส่งมีรหัสไปรษณีย์ที่เฉพาะเจาะจง หากชาวลิลิพุตแบบ Big-Endian มีแนวโน้มที่จะมี ที่อยู่จัดส่งที่มีรหัสไปรษณีย์นี้มากกว่าชาวลิลิพุตแบบ Little-Endian อัลกอริทึมนี้อาจส่งผลให้เกิดผลกระทบที่ไม่เท่าเทียมกัน

ซึ่งแตกต่างจากการเลือกปฏิบัติต่างกัน ซึ่งมุ่งเน้นความแตกต่างที่เกิดขึ้นเมื่อลักษณะของกลุ่มย่อย เป็นอินพุตที่ชัดเจนในกระบวนการตัดสินใจแบบอัลกอริทึม

การเลือกปฏิบัติ

#responsible

การนำแอตทริบิวต์ที่ละเอียดอ่อนของกลุ่มตัวอย่าง มาพิจารณาในกระบวนการตัดสินใจแบบอัลกอริทึมเพื่อให้ กลุ่มย่อยต่างๆ ของผู้คนได้รับการปฏิบัติที่แตกต่างกัน

ตัวอย่างเช่น ลองพิจารณาอัลกอริทึมที่ กำหนดสิทธิ์ของชาวลิลิพุตในการขอสินเชื่อบ้านขนาดเล็กตาม ข้อมูลที่ระบุไว้ในใบสมัครขอสินเชื่อ หากอัลกอริทึมใช้ความสัมพันธ์ของ ลิลิพิวเทียนเป็น Big-Endian หรือ Little-Endian เป็นอินพุต อัลกอริทึม จะใช้การปฏิบัติที่แตกต่างกันตามมิตินั้น

แตกต่างจากผลกระทบที่แตกต่างกัน ซึ่งมุ่งเน้น ความแตกต่างในผลกระทบทางสังคมของการตัดสินใจแบบอัลกอริทึมที่มีต่อกลุ่มย่อย โดยไม่คำนึงว่ากลุ่มย่อยเหล่านั้นจะเป็นอินพุตของโมเดลหรือไม่

คำเตือน: เนื่องจากแอตทริบิวต์ที่ละเอียดอ่อนมักจะสัมพันธ์กับ ฟีเจอร์อื่นๆ ที่ข้อมูลอาจมี การนำข้อมูลแอตทริบิวต์ที่ละเอียดอ่อนออกอย่างชัดเจน จึงไม่รับประกันว่ากลุ่มย่อยจะได้รับการปฏิบัติอย่างเท่าเทียมกัน เช่น การนำแอตทริบิวต์ข้อมูลประชากรที่ละเอียดอ่อนออกจากชุดข้อมูลการฝึก ที่ยังคงมีรหัสไปรษณีย์เป็นฟีเจอร์อาจช่วยแก้ปัญหาการ เลือกปฏิบัติต่อกลุ่มย่อย แต่ก็ยังอาจมี ผลกระทบที่ไม่เท่าเทียมกันต่อกลุ่มเหล่านี้ เนื่องจาก รหัสไปรษณีย์อาจทำหน้าที่เป็นพร็อกซีสำหรับข้อมูล ประชากรอื่นๆ

การกลั่น

#generativeAI

กระบวนการลดขนาดโมเดลหนึ่ง (เรียกว่าครู) ให้เป็นโมเดลที่เล็กลง (เรียกว่านักเรียน) ซึ่งเลียนแบบ การคาดการณ์ของโมเดลเดิมให้ได้มากที่สุด การกลั่น มีประโยชน์เนื่องจากโมเดลขนาดเล็กมีข้อดี 2 ประการที่สำคัญกว่าโมเดลขนาดใหญ่ (ครู)

เวลาอนุมานที่เร็วขึ้น
ลดการใช้หน่วยความจำและพลังงาน

อย่างไรก็ตาม โดยทั่วไปแล้วการคาดการณ์ของนักเรียนมักจะไม่ดีเท่าการคาดการณ์ของครู

การกลั่นจะฝึกโมเดลนักเรียนเพื่อลดฟังก์ชันการสูญเสียตามความแตกต่างระหว่างเอาต์พุต ของการคาดการณ์ของโมเดลนักเรียนและโมเดลครู

เปรียบเทียบการกลั่นกับคำต่อไปนี้

การปรับแต่ง
การเรียนรู้ตามพรอมต์

ดูข้อมูลเพิ่มเติมได้ที่ LLM: การปรับแต่ง การกลั่น และการออกแบบพรอมต์ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเผยแพร่

ความถี่และช่วงของค่าต่างๆ สำหรับฟีเจอร์หรือป้ายกำกับที่กำหนด การกระจายจะบันทึกความน่าจะเป็นของค่าหนึ่งๆ

รูปภาพต่อไปนี้แสดงฮิสโทแกรมของการกระจาย 2 แบบที่แตกต่างกัน

ทางด้านซ้ายคือการกระจายความมั่งคั่งตามกฎของพาเรโตเทียบกับจำนวนผู้ ที่มีความมั่งคั่งนั้น
ทางด้านขวาคือการกระจายความสูงตามปกติเทียบกับจำนวนคน ที่มีความสูงนั้น

ฮิสโตแกรม 2 รายการ ฮิสโตแกรมหนึ่งแสดงการกระจายตามกฎของพาเรโตโดยมี
ความมั่งคั่งบนแกน x และจำนวนผู้ที่มีความมั่งคั่งนั้นบนแกน
y คนส่วนใหญ่มีทรัพย์สินน้อยมาก และมีคนเพียงไม่กี่คนที่มีทรัพย์สิน
จำนวนมาก ฮิสโทแกรมอีกอันแสดงการกระจายแบบปกติ
โดยมีส่วนสูงอยู่บนแกน x และจำนวนคนที่มีส่วนสูงนั้น
อยู่บนแกน y ผู้คนส่วนใหญ่จะกระจุกตัวอยู่ใกล้ค่าเฉลี่ย

การทำความเข้าใจการกระจายของฟีเจอร์และป้ายกำกับแต่ละรายการจะช่วยให้คุณทราบวิธีปรับค่าให้เป็นมาตรฐานและตรวจหาค่าผิดปกติ

วลีไม่อยู่ในการกระจายหมายถึงค่าที่ไม่ปรากฏในชุดข้อมูล หรือพบน้อยมาก เช่น รูปภาพของดาวเสาร์จะถือว่าอยู่นอกการกระจายสำหรับชุดข้อมูลที่ประกอบด้วยรูปภาพแมว

การจัดกลุ่มแบบแบ่งแยก

#clustering

ดูการจัดกลุ่มแบบลำดับชั้น

การลดขนาดตัวอย่าง

คำที่ใช้มากเกินไปซึ่งอาจหมายถึงสิ่งต่อไปนี้

การลดปริมาณข้อมูลในฟีเจอร์เพื่อฝึกโมเดลให้มีประสิทธิภาพมากขึ้น เช่น ก่อนฝึกโมเดลการจดจำรูปภาพ ให้ลดความละเอียดของรูปภาพที่มีความละเอียดสูง ลงเป็นรูปแบบที่มีความละเอียดต่ำกว่า
การฝึกกับตัวอย่างคลาสที่มีการแสดงมากเกินไปในเปอร์เซ็นต์ที่ต่ำอย่างไม่สมส่วน เพื่อปรับปรุงการฝึกโมเดลในคลาสที่มีการแสดงน้อย เช่น ในชุดข้อมูล ที่ไม่สมดุลของคลาส โมเดลมักจะเรียนรู้เกี่ยวกับ คลาสส่วนใหญ่เป็นจำนวนมาก และเรียนรู้เกี่ยวกับ คลาสส่วนน้อยไม่เพียงพอ การดาวน์แซมปลิงช่วย ปรับสมดุลปริมาณการฝึกในคลาสส่วนใหญ่และคลาสส่วนน้อย

ดูข้อมูลเพิ่มเติมได้ที่ชุดข้อมูล: ชุดข้อมูลที่ไม่สมดุล ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

DQN

ตัวย่อของ Deep Q-Network

การทำให้เป็นปกติแบบ Dropout

รูปแบบการทำให้เป็นปกติที่มีประโยชน์ในการฝึกโครงข่ายประสาทเทียม การทําให้เป็นปกติแบบ Dropout จะนําหน่วยที่เลือกแบบสุ่มจํานวนหนึ่งในเลเยอร์ เครือข่ายออกสําหรับขั้นตอนการไล่ระดับสีเดียว ยิ่งมีหน่วยหลุดออกไปมากเท่าใด การทำให้เป็นปกติก็จะยิ่งเข้มงวดมากขึ้นเท่านั้น ซึ่งคล้ายกับการฝึกโครงข่ายให้เลียนแบบกลุ่มโครงข่ายขนาดเล็กจำนวนมาก ดูรายละเอียดทั้งหมดได้ที่ Dropout: A Simple Way to Prevent Neural Networks from Overfitting

ไดนามิก

#fundamentals

สิ่งที่ทำบ่อยๆ หรืออย่างต่อเนื่อง คำว่าไดนามิกและออนไลน์มีความหมายเหมือนกันในแมชชีนเลิร์นนิง การใช้งาน dynamic และ online ที่พบบ่อยในแมชชีนเลิร์นนิงมีดังนี้

โมเดลแบบไดนามิก (หรือโมเดลออนไลน์) คือโมเดล ที่ได้รับการฝึกซ้ำบ่อยครั้งหรืออย่างต่อเนื่อง
การฝึกแบบไดนามิก (หรือการฝึกออนไลน์) คือกระบวนการฝึก อย่างต่อเนื่องหรือบ่อยครั้ง
การอนุมานแบบไดนามิก (หรือการอนุมานออนไลน์) คือกระบวนการ สร้างการคาดการณ์ตามต้องการ

โมเดลแบบไดนามิก

#fundamentals

โมเดลที่ได้รับการฝึกซ้ำบ่อยๆ (อาจจะอย่างต่อเนื่องด้วย) โมเดลแบบไดนามิกคือ "ผู้เรียนรู้ตลอดชีวิต" ที่ ปรับตัวให้เข้ากับข้อมูลที่เปลี่ยนแปลงอยู่เสมอ โมเดลแบบไดนามิกเรียกอีกอย่างว่าโมเดลออนไลน์

แตกต่างจากโมเดลคงที่

E

Eager Execution

#TensorFlow

สภาพแวดล้อมการเขียนโปรแกรม TensorFlow ซึ่งการดำเนินการ จะทำงานทันที ในทางตรงกันข้าม การดำเนินการที่เรียกใช้ในการดำเนินการกราฟจะไม่ทำงานจนกว่าจะมีการประเมินอย่างชัดเจน การดำเนินการแบบกระตือรือร้นคืออินเทอร์เฟซแบบคำสั่ง ซึ่งคล้ายกับโค้ดในภาษาโปรแกรมส่วนใหญ่ โดยทั่วไปแล้ว โปรแกรมการดำเนินการแบบกระตือรือร้นจะแก้ไขข้อบกพร่องได้ง่ายกว่าโปรแกรมการดำเนินการแบบกราฟมาก

การหยุดก่อนกำหนด

#fundamentals

วิธีการสำหรับการทำให้เป็นปกติที่เกี่ยวข้องกับการสิ้นสุดการฝึก ก่อนที่การลดลงของการฝึกจะสิ้นสุดลง การหยุดก่อนเวลาคือการหยุดฝึกโมเดลโดยตั้งใจ เมื่อการสูญเสียในชุดข้อมูลการตรวจสอบเริ่ม เพิ่มขึ้น นั่นคือเมื่อประสิทธิภาพการสรุปทั่วไปแย่ลง

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

การหยุดก่อนกำหนดอาจดูขัดกับสัญชาตญาณ ท้ายที่สุดแล้ว การบอกโมเดลให้หยุด การฝึกในขณะที่การสูญเสียยังคงลดลงอาจดูเหมือนการบอกเชฟให้ หยุดทำอาหารก่อนที่ของหวานจะอบเสร็จ อย่างไรก็ตาม การฝึกโมเดลนานเกินไปอาจทำให้เกิดการปรับมากเกินไป กล่าวคือ หากคุณฝึกโมเดลนานเกินไป โมเดลอาจปรับให้เข้ากับข้อมูลการฝึกมากเกินไปจนทำให้โมเดลคาดการณ์ตัวอย่างใหม่ได้ไม่ดี

แตกต่างจากการออกก่อนเวลา

ระยะทางของเครื่องเคลื่อนย้ายดิน (EMD)

#Metric

การวัดความคล้ายคลึงกันของการกระจาย 2 รายการ ยิ่งระยะทางของ Earth Mover ต่ำเท่าใด การกระจายก็จะยิ่งคล้ายกันมากขึ้นเท่านั้น

ระยะทางแก้ไข

#Metric

การวัดว่าสตริงข้อความ 2 รายการมีความคล้ายกันมากน้อยเพียงใด ในแมชชีนเลิร์นนิง ระยะทางในการแก้ไขมีประโยชน์ด้วยเหตุผลต่อไปนี้

การคำนวณระยะทางในการแก้ไขทำได้ง่าย
ระยะทางเอดิทสามารถเปรียบเทียบสตริง 2 รายการที่ทราบว่าคล้ายกัน
ระยะทางในการแก้ไขจะกำหนดระดับที่สตริงต่างๆ คล้ายกับสตริงที่กำหนด

มีคำจำกัดความหลายอย่างของระยะทางในการแก้ไข โดยแต่ละคำจำกัดความจะใช้การดำเนินการกับสตริงที่แตกต่างกัน ดูตัวอย่างได้ที่ระยะทางเลเวนชไตน์

สัญกรณ์ Einsum

สัญกรณ์ที่มีประสิทธิภาพสำหรับอธิบายวิธีรวมเทนเซอร์ 2 รายการ โดยจะรวมเทนเซอร์ด้วยการคูณองค์ประกอบของเทนเซอร์หนึ่ง กับองค์ประกอบของเทนเซอร์อีกอัน แล้วจึงนำผลคูณมาบวกกัน สัญกรณ์ Einsum ใช้สัญลักษณ์เพื่อระบุแกนของแต่ละเทนเซอร์ และจัดเรียงสัญลักษณ์เดียวกันเหล่านั้นเพื่อระบุรูปร่างของเทนเซอร์ใหม่ที่ได้

NumPy มีการติดตั้งใช้งาน Einsum ทั่วไป

เลเยอร์การฝัง

#fundamentals

เลเยอร์ที่ซ่อนอยู่พิเศษที่ฝึกในฟีเจอร์เชิงหมวดหมู่ที่มีมิติสูงเพื่อค่อยๆ เรียนรู้เวกเตอร์การฝังที่มีมิติต่ำกว่า เลเยอร์การฝังช่วยให้โครงข่ายประสาทเทียมฝึกได้อย่างมีประสิทธิภาพมากกว่าการฝึกเฉพาะฟีเจอร์เชิงหมวดหมู่ที่มีมิติสูง

เช่น ปัจจุบัน Earth รองรับต้นไม้ประมาณ 73,000 สายพันธุ์ สมมติว่า สายพันธุ์ต้นไม้เป็นฟีเจอร์ในโมเดลของคุณ ดังนั้นเลเยอร์ อินพุตของโมเดลจึงมีเวกเตอร์แบบ One-Hot ที่มีความยาว 73,000 องค์ประกอบ เช่น baobab อาจแสดงเป็น

อาร์เรย์ขององค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 รายการแรกมีค่าเป็น 0 องค์ประกอบถัดไปมีค่าเป็น 1 องค์ประกอบสุดท้าย 66,767 รายการมีค่าเป็น 0

อาร์เรย์ที่มีองค์ประกอบ 73,000 รายการถือว่ายาวมาก หากคุณไม่เพิ่มเลเยอร์การฝัง ลงในโมเดล การฝึกจะใช้เวลานานมากเนื่องจาก การคูณด้วย 0 จำนวน 72,999 ตัว สมมติว่าคุณเลือกเลเยอร์การฝังที่มีมิติข้อมูล 12 รายการ ดังนั้น เลเยอร์การฝังจะค่อยๆ เรียนรู้เวกเตอร์การฝังใหม่สำหรับต้นไม้แต่ละสายพันธุ์

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผล แทนเลเยอร์การฝัง

ดูข้อมูลเพิ่มเติมได้ที่การฝัง ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

พื้นที่การฝัง

ปริภูมิเวกเตอร์ d มิติที่แมปฟีเจอร์จากปริภูมิเวกเตอร์ที่มีมิติสูงกว่า ระบบจะฝึกพื้นที่การฝังเพื่อจับโครงสร้าง ที่มีความหมายต่อแอปพลิเคชันที่ต้องการ

ดอทโปรดักต์ ของการฝัง 2 รายการคือการวัดความคล้ายคลึงกัน

เวกเตอร์การฝัง

กล่าวโดยกว้างๆ คือ อาร์เรย์ของจำนวนจุดลอยที่นำมาจากเลเยอร์ที่ซ่อน ใดก็ได้ซึ่งอธิบายอินพุตไปยังเลเยอร์ที่ซ่อนนั้น เวกเตอร์การฝังมักจะเป็นอาร์เรย์ของจำนวนจุดลอยที่ได้รับการฝึกในเลเยอร์การฝัง เช่น สมมติว่าเลเยอร์การฝังต้องเรียนรู้เวกเตอร์การฝังสำหรับต้นไม้แต่ละสายพันธุ์จากทั้งหมด 73,000 สายพันธุ์บนโลก เวกเตอร์การฝังสำหรับต้นบาวบับอาจเป็นอาร์เรย์ต่อไปนี้

อาร์เรย์ขององค์ประกอบ 12 รายการ โดยแต่ละรายการมีตัวเลขทศนิยม
ระหว่าง 0.0 ถึง 1.0

เวกเตอร์การฝังไม่ใช่กลุ่มตัวเลขแบบสุ่ม เลเยอร์การฝัง จะกำหนดค่าเหล่านี้ผ่านการฝึกคล้ายกับวิธีที่ โครงข่ายประสาทเทียมเรียนรู้น้ำหนักอื่นๆ ระหว่างการฝึก องค์ประกอบแต่ละรายการของอาร์เรย์คือการจัดประเภทตามลักษณะบางอย่างของสายพันธุ์ต้นไม้ องค์ประกอบใดแสดงลักษณะของต้นไม้สายพันธุ์ใด ซึ่งเป็นสิ่งที่มนุษย์ ระบุได้ยากมาก

ส่วนที่น่าทึ่งในทางคณิตศาสตร์ของเวกเตอร์การฝังคือรายการที่คล้ายกัน จะมีชุดตัวเลขทศนิยมที่คล้ายกัน เช่น ต้นไม้สายพันธุ์ที่คล้ายกันจะมีชุดตัวเลขทศนิยมที่คล้ายกันมากกว่าต้นไม้สายพันธุ์ที่แตกต่างกัน ต้นเรดวูดและต้นซีควอยอาเป็นต้นไม้สายพันธุ์เดียวกัน จึงมีชุดตัวเลขทศนิยมแบบลอยตัวที่คล้ายกันมากกว่า ต้นเรดวูดและต้นมะพร้าว ตัวเลขในเวกเตอร์การฝังจะ เปลี่ยนทุกครั้งที่คุณฝึกโมเดลใหม่ แม้ว่าคุณจะฝึกโมเดลใหม่ ด้วยอินพุตที่เหมือนกันก็ตาม

ฟังก์ชันการกระจายสะสมเชิงประจักษ์ (eCDF หรือ EDF)

#Metric

ฟังก์ชันการกระจายสะสม โดยอิงตามการวัดเชิงประจักษ์จากชุดข้อมูลจริง ค่าของฟังก์ชันที่จุดใดก็ตามตามแกน x คือเศษส่วนของการสังเกตในชุดข้อมูลที่น้อยกว่าหรือเท่ากับค่าที่ระบุ

การลดความเสี่ยงเชิงประจักษ์ (ERM)

การเลือกฟังก์ชันที่ลดการสูญเสียในชุดการฝึกให้เหลือน้อยที่สุด เปรียบเทียบกับการลดความเสี่ยงเชิงโครงสร้าง

โปรแกรมเปลี่ยนไฟล์

โดยทั่วไปแล้ว ระบบ ML ใดๆ ที่แปลงจากรูปแบบดิบ แบบกระจัดกระจาย หรือภายนอก เป็นรูปแบบที่ประมวลผลแล้ว หนาแน่นขึ้น หรือภายในมากขึ้น

โดยมักเป็นส่วนประกอบของโมเดลขนาดใหญ่ ซึ่งมักจะ ทำงานร่วมกับดีโคดเดอร์ Transformer บางตัวจะจับคู่ตัวเข้ารหัสกับตัวถอดรหัส แต่ Transformer ตัวอื่นๆ จะใช้เฉพาะตัวเข้ารหัส หรือเฉพาะตัวถอดรหัส

บางระบบใช้เอาต์พุตของตัวเข้ารหัสเป็นอินพุตไปยังเครือข่ายการจัดประเภทหรือการถดถอย

ในงานแบบลำดับต่อลำดับ ตัวเข้ารหัส จะรับลำดับอินพุตและส่งคืนสถานะภายใน (เวกเตอร์) จากนั้นดีโคดเดอร์จะใช้สถานะภายในนั้นเพื่อคาดการณ์ลำดับถัดไป

ดูคำจำกัดความของตัวเข้ารหัสในสถาปัตยกรรม Transformer ได้ที่Transformer

ดูข้อมูลเพิ่มเติมได้ที่ LLM: โมเดลภาษาขนาดใหญ่คืออะไร ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อุปกรณ์ปลายทาง

ตำแหน่งที่เข้าถึงได้ในเครือข่าย (โดยปกติคือ URL) ซึ่งใช้เข้าถึงบริการได้

วงดนตรี

ชุดโมเดลที่ฝึกแยกกันซึ่งมีการหาค่าเฉลี่ยหรือรวบรวมการคาดการณ์ ในหลายกรณี การรวมโมเดลจะให้การคาดการณ์ที่ดีกว่า โมเดลเดียว เช่น Random Forest เป็นการรวมกันที่สร้างจากDecision Tree หลายรายการ โปรดทราบว่าDecision Forest บางรายการไม่ใช่กลุ่ม

ดูข้อมูลเพิ่มเติมได้ที่Random Forest ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เอนโทรปี

#df

#Metric

ใน ทฤษฎีข้อมูล คำอธิบายเกี่ยวกับความไม่แน่นอนของการกระจายความน่าจะเป็น หรืออาจกล่าวได้ว่าเอนโทรปีคือปริมาณข้อมูลที่ตัวอย่างแต่ละรายการมี การกระจายจะมี เอนโทรปีสูงสุดที่เป็นไปได้เมื่อค่าทั้งหมดของตัวแปรสุ่มมี โอกาสเท่ากัน

เอนโทรปีของชุดที่มีค่าที่เป็นไปได้ 2 ค่าคือ "0" และ "1" (เช่น ป้ายกำกับในปัญหาการแยกประเภทแบบไบนารี) มีสูตรดังนี้

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

ที่ไหน

H คือเอนโทรปี
p คือเศษส่วนของตัวอย่าง "1"
q คือเศษส่วนของตัวอย่าง "0" โปรดทราบว่า q = (1 - p)
log โดยทั่วไปคือ log₂ ในกรณีนี้ หน่วยเอนโทรปี คือบิต

ตัวอย่างเช่น สมมติว่า

ตัวอย่าง 100 รายการมีค่า "1"
ตัวอย่าง 300 รายการมีค่า "0"

ดังนั้นค่าเอนโทรปีจึงเป็น

p = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81 บิตต่อตัวอย่าง

ชุดข้อมูลที่สมดุลอย่างสมบูรณ์ (เช่น "0" 200 รายการและ "1" 200 รายการ) จะมีเอนโทรปี 1.0 บิตต่อตัวอย่าง เมื่อชุดข้อมูลไม่สมดุลมากขึ้น เอนโทรปีจะเข้าใกล้ 0.0

ในแผนผังการตัดสินใจ เอนโทรปีช่วยสร้างการได้ข้อมูลเพื่อช่วยให้ตัวแยกเลือกเงื่อนไข ในระหว่างการเติบโตของแผนผังการตัดสินใจในการจัดประเภท

เปรียบเทียบเอนโทรปีกับ

ความไม่บริสุทธิ์ของ Gini
ฟังก์ชันการสูญเสียเอนโทรปีครอส

โดยมักเรียกเอนโทรปีว่าเอนโทรปีของแชนนอน

ดูข้อมูลเพิ่มเติมได้ที่ตัวแยกที่แน่นอนสำหรับการแยกประเภทแบบไบนารีที่มีฟีเจอร์เชิงตัวเลข ในหลักสูตร Decision Forests

สภาพแวดล้อม

ในการเรียนรู้แบบเสริมกำลัง โลกที่มีเอเจนต์ และอนุญาตให้เอเจนต์สังเกตสถานะของโลกนั้น เช่น โลกที่แสดงอาจเป็นเกมอย่างหมากรุก หรือโลกทางกายภาพอย่างเขาวงกต เมื่อเอเจนต์ใช้การดำเนินการกับสภาพแวดล้อม สภาพแวดล้อมจะเปลี่ยนสถานะ

ตอน

ในการเรียนรู้แบบเสริมกำลัง แต่ละครั้งที่เอเจนต์พยายามซ้ำๆ เพื่อเรียนรู้สภาพแวดล้อม

Epoch

#fundamentals

การส่งผ่านการฝึกแบบเต็มทั้งชุดการฝึก เพื่อให้ระบบประมวลผลตัวอย่างแต่ละรายการ 1 ครั้ง

Epoch แสดงถึงN/ขนาดกลุ่ม การวนซ้ำในการฝึก โดย N คือ จํานวนตัวอย่างทั้งหมด

เช่น สมมติว่ามีข้อมูลต่อไปนี้

ชุดข้อมูลประกอบด้วยตัวอย่าง 1,000 รายการ
ขนาดกลุ่มคือ 50 ตัวอย่าง

ดังนั้น 1 Epoch จึงต้องมีการวนซ้ำ 20 ครั้ง

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

นโยบายแบบเอปซิลอนกรีด

ในการเรียนรู้แบบเสริมกำลัง นโยบายที่ทำตาม นโยบายแบบสุ่มที่มีความน่าจะเป็นเป็นเอปซิลอนหรือ นโยบายแบบตะกละในกรณีอื่นๆ ตัวอย่างเช่น หากเอปซิลอนเป็น 0.9 นโยบายจะทำตามนโยบายแบบสุ่ม 90% ของเวลา และนโยบายแบบตะกละ 10% ของเวลา

ในตอนต่อๆ ไป อัลกอริทึมจะลดค่าของเอปซิลอนเพื่อเปลี่ยนจากการปฏิบัติตามนโยบายแบบสุ่มเป็นการปฏิบัติตามนโยบายแบบตะกละ การเปลี่ยนนโยบายทำให้เอเจนต์สำรวจสภาพแวดล้อมแบบสุ่มก่อน แล้วจึงใช้ประโยชน์จากผลลัพธ์ของการสำรวจแบบสุ่มอย่างตะกละตะกลาม

ความเท่าเทียมกันในโอกาส

#responsible

#Metric

เมตริกความเป็นธรรมเพื่อประเมินว่าโมเดล คาดการณ์ผลลัพธ์ที่ต้องการได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่ละเอียดอ่อนหรือไม่ กล่าวอีกนัยหนึ่งคือ หากคลาสที่เป็นบวกคือผลลัพธ์ที่ต้องการสำหรับโมเดล เป้าหมายคือการทำให้อัตราผลบวกจริงเท่ากัน สำหรับทุกกลุ่ม

ความเท่าเทียมกันของโอกาสเกี่ยวข้องกับโอกาสที่เท่าเทียมกัน ซึ่งกำหนดให้ทั้งอัตราผลบวกจริงและ อัตราผลบวกลวงต้องเหมือนกันสำหรับทุกกลุ่ม

สมมติว่ามหาวิทยาลัยกลับดับริดรับทั้งชาวลิลิปุตและชาวบร็อบดิงแนก เข้าโปรแกรมคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมศึกษาของชาวลิลิพุตมี หลักสูตรที่แข็งแกร่งสำหรับชั้นเรียนคณิตศาสตร์ และนักเรียนส่วนใหญ่ มีคุณสมบัติเหมาะสมสำหรับโปรแกรมมหาวิทยาลัย โรงเรียนมัธยมของชาวบร็อบดิงแนกไม่มี ชั้นเรียนคณิตศาสตร์เลย ทำให้นักเรียนที่จบการศึกษา มีคุณสมบัติน้อยกว่ามาก โอกาสที่เท่าเทียมกันจะเกิดขึ้นสำหรับป้ายกำกับที่ต้องการของ "ได้รับการยอมรับ" ในส่วนที่เกี่ยวข้องกับสัญชาติ (ลิลิพุตหรือบร็อบดิงแนก) หากนักเรียน/นักศึกษาที่มีคุณสมบัติเหมาะสมมีโอกาสได้รับการยอมรับเท่ากัน ไม่ว่าจะเป็นชาวลิลิพุตหรือชาวบร็อบดิงแนก

ตัวอย่างเช่น สมมติว่ามีชาวลิลิพุต 100 คนและชาวโบรบดิงแนก 100 คนสมัครเข้าเรียนที่ มหาวิทยาลัยกลับบ์ดับดริบ และการตัดสินใจรับเข้าเรียนมีดังนี้

ตารางที่ 1 ผู้สมัครจากลิลิพุต (90% มีคุณสมบัติ)

	เข้าเกณฑ์	คุณสมบัติไม่ครบ
ยอมรับ	45	3
ถูกปฏิเสธ	45	7
รวม	90	10
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติเหมาะสมที่ได้รับการตอบรับ: 45/90 = 50% เปอร์เซ็นต์ของนักเรียนที่ไม่มีคุณสมบัติเหมาะสมที่ไม่ได้รับการตอบรับ: 7/10 = 70% เปอร์เซ็นต์รวมของนักเรียนชาวลิลิพุตที่ได้รับการตอบรับ: (45+3)/100 = 48%

ตารางที่ 2 ผู้สมัครจาก Brobdingnag (10% มีคุณสมบัติ):

	เข้าเกณฑ์	คุณสมบัติไม่ครบ
ยอมรับ	5	9
ถูกปฏิเสธ	5	81
รวม	10	90
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติเหมาะสมที่ได้รับการตอบรับ: 5/10 = 50% เปอร์เซ็นต์ของนักเรียนที่ไม่มีคุณสมบัติเหมาะสมที่ถูกปฏิเสธ: 81/90 = 90% เปอร์เซ็นต์รวมของนักเรียน Brobdingnagian ที่ได้รับการตอบรับ: (5+9)/100 = 14%

ตัวอย่างข้างต้นเป็นไปตามความเท่าเทียมกันในโอกาสที่จะได้รับการยอมรับ ของนักเรียนที่มีคุณสมบัติเหมาะสม เนื่องจากทั้งชาวลิลิพุตและชาวบร็อบดิงแนก มีโอกาส 50% ที่จะได้รับการตอบรับ

แม้ว่าโอกาสที่เท่าเทียมจะได้รับการตอบสนอง แต่เมตริกความเป็นธรรม 2 รายการต่อไปนี้ ยังไม่ได้รับการตอบสนอง

ความเท่าเทียมกันทางประชากร: ชาวลิลิพุตและชาวบร็อบดิงแน็กได้รับการตอบรับเข้ามหาวิทยาลัยในอัตราที่แตกต่างกัน โดยมีนักเรียนชาวลิลิพุต 48% ที่ได้รับการตอบรับ แต่มีนักเรียนชาวบร็อบดิงแน็กเพียง 14% เท่านั้นที่ได้รับการตอบรับ
โอกาสที่เท่าเทียมกัน: แม้ว่านักเรียน/นักศึกษาชาวลิลิพุต และชาวบร็อบดิงแนกที่มีคุณสมบัติตรงตามเกณฑ์จะมีโอกาสได้รับการตอบรับเท่ากัน แต่ข้อจำกัดเพิ่มเติมที่ว่านักเรียน/นักศึกษาชาวลิลิพุตและ ชาวบร็อบดิงแนกที่ไม่มีคุณสมบัติตรงตามเกณฑ์จะมีโอกาสถูกปฏิเสธเท่ากันนั้นไม่เป็นจริง ชาวลิลิปุตที่ไม่ผ่านเกณฑ์มีอัตราการปฏิเสธ 70% ในขณะที่ ชาวบร็อบดิงแนกที่ไม่ผ่านเกณฑ์มีอัตราการปฏิเสธ 90%

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ความเท่าเทียมกันของโอกาส ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โอกาสที่เท่ากัน

#responsible

#Metric

เมตริกความเป็นธรรมเพื่อประเมินว่าโมเดลคาดการณ์ผลลัพธ์ได้ดีเท่ากันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่ละเอียดอ่อนหรือไม่ โดยคำนึงถึงทั้งคลาสบวกและคลาสลบ ไม่ใช่แค่คลาสใดคลาสหนึ่งเท่านั้น กล่าวคือ อัตราผลบวกจริง และอัตราผลลบลวงควรเท่ากันสำหรับ ทุกกลุ่ม

โอกาสที่เท่าเทียมกันเกี่ยวข้องกับความเท่าเทียมกันของโอกาส ซึ่งมุ่งเน้นเฉพาะ อัตราข้อผิดพลาดสำหรับคลาสเดียว (ค่าบวกหรือค่าลบ)

ตัวอย่างเช่น สมมติว่ามหาวิทยาลัยกลับดับดริบรับทั้งชาวลิลิปุตและชาวบร็อบดิงแนกเข้าเรียนในโปรแกรมคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมของชาวลิลิพุต มีหลักสูตรที่แข็งแกร่งสำหรับชั้นเรียนคณิตศาสตร์ และนักเรียนส่วนใหญ่ มีคุณสมบัติเหมาะสมสำหรับโปรแกรมมหาวิทยาลัย โรงเรียนมัธยมของชาวบร็อบดิงแนกไม่มีชั้นเรียนคณิตศาสตร์เลย และด้วยเหตุนี้ นักเรียนจำนวนน้อยมากจึงมีคุณสมบัติเหมาะสม โอกาสที่เท่าเทียมกันจะเกิดขึ้นได้ก็ต่อเมื่อไม่ว่าผู้สมัครจะเป็นชาวลิลิปุตหรือชาวบร็อบดิงแน็ก หากมีคุณสมบัติครบถ้วน ก็มีโอกาสเท่ากันที่จะได้รับการยอมรับให้เข้าร่วมโปรแกรม และหากไม่มีคุณสมบัติครบถ้วน ก็มีโอกาสเท่ากันที่จะถูกปฏิเสธ

สมมติว่าชาวลิลิปุต 100 คนและชาวโบรบดิงแนก 100 คนสมัครเข้าเรียนที่มหาวิทยาลัยกลับบดรับ และมีการตัดสินใจรับเข้าเรียนดังนี้

ตารางที่ 3 ผู้สมัครจากลิลิพุต (90% มีคุณสมบัติ)

	เข้าเกณฑ์	คุณสมบัติไม่ครบ
ยอมรับ	45	2
ถูกปฏิเสธ	45	8
รวม	90	10
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติผ่านที่ได้รับการตอบรับ: 45/90 = 50% เปอร์เซ็นต์ของนักเรียนที่ไม่มีคุณสมบัติผ่านที่ถูกปฏิเสธ: 8/10 = 80% เปอร์เซ็นต์รวมของนักเรียนชาวลิลิพุตที่ได้รับการตอบรับ: (45+2)/100 = 47%

ตารางที่ 4 ผู้สมัครจาก Brobdingnag (10% มีคุณสมบัติ):

	เข้าเกณฑ์	คุณสมบัติไม่ครบ
ยอมรับ	5	18
ถูกปฏิเสธ	5	72
รวม	10	90
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติเหมาะสมที่ได้รับการตอบรับ: 5/10 = 50% เปอร์เซ็นต์ของนักเรียนที่ไม่มีคุณสมบัติเหมาะสมที่ถูกปฏิเสธ: 72/90 = 80% เปอร์เซ็นต์รวมของนักเรียนจาก Brobdingnag ที่ได้รับการตอบรับ: (5+18)/100 = 23%

โอกาสที่เท่าเทียมกันเป็นไปตามเงื่อนไขเนื่องจากนักเรียนที่มีคุณสมบัติทั้งชาวลิลิพุตและชาวบร็อบดิงแนกมีโอกาส 50% ที่จะได้รับการตอบรับ และนักเรียนที่ไม่มีคุณสมบัติทั้งชาวลิลิพุตและชาวบร็อบดิงแนกมีโอกาส 80% ที่จะถูกปฏิเสธ

หมายเหตุ: แม้ว่าที่นี่จะตรงตามเงื่อนไขของโอกาสที่เท่าเทียมกัน แต่ความเท่าเทียมกันทางประชากรไม่ตรงตามเงื่อนไข นักเรียน/นักศึกษาจากลิลิพุตและโบรบดิงแนกจะได้รับการรับเข้าศึกษาที่มหาวิทยาลัยกลับบ์ดับดริบในอัตราที่แตกต่างกัน โดยนักเรียน/นักศึกษาจากลิลิพุตได้รับการรับเข้าศึกษา 47% และนักเรียน/นักศึกษาจากโบรบดิงแนกได้รับการรับเข้าศึกษา 23%

ความน่าจะเป็นที่เท่ากันมีการกำหนดอย่างเป็นทางการใน "ความเท่าเทียมกันของ โอกาสในการเรียนรู้ภายใต้การกำกับดูแล" ดังนี้ "ตัวทำนาย Ŷ มีความน่าจะเป็นที่เท่ากันเมื่อเทียบกับ แอตทริบิวต์ที่ได้รับการคุ้มครอง A และผลลัพธ์ Y หาก Ŷ และ A เป็นอิสระ โดยมีเงื่อนไขเป็น Y"

เครื่องมือประมาณค่า

#TensorFlow

API ของ TensorFlow ที่เลิกใช้งานแล้ว ใช้ tf.keras แทน Estimators

evals

#generativeAI

#Metric

ใช้เป็นคำย่อสำหรับการประเมิน LLM เป็นหลัก ในวงกว้าง evals เป็นคำย่อของการประเมินในรูปแบบใดก็ได้

การประเมิน

#generativeAI

#Metric

กระบวนการวัดคุณภาพของโมเดลหรือการเปรียบเทียบโมเดลต่างๆ กับโมเดลอื่นๆ

โดยปกติแล้ว คุณจะประเมินโมเดลแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โดยเปรียบเทียบกับชุดการตรวจสอบ และชุดการทดสอบ การประเมิน LLM โดยทั่วไปจะเกี่ยวข้องกับการประเมินคุณภาพและความปลอดภัยในวงกว้าง

การทำงานแบบตรง

#Metric

เมตริกแบบทั้งหมดหรือไม่มีเลยซึ่งเอาต์พุตของโมเดลจะตรงกับข้อมูลจากการสังเกตการณ์โดยตรงหรือข้อความอ้างอิง อย่างใดอย่างหนึ่ง เช่น หากข้อมูลจากการสังเกตการณ์โดยตรงคือ orange ผลลัพธ์ของโมเดลเดียวที่ตรงกับการทำงานแบบตรงทั้งหมดคือ orange

การจับคู่ที่แน่นอนยังประเมินโมเดลที่มีเอาต์พุตเป็นลำดับได้ด้วย (รายการที่จัดอันดับแล้ว) โดยทั่วไป การทำงานแบบตรงกำหนดให้รายการที่จัดอันดับซึ่งสร้างขึ้นต้องตรงกับความจริงพื้นฐานทุกประการ กล่าวคือ รายการแต่ละรายการในทั้ง 2 รายการต้องอยู่ในลำดับเดียวกัน อย่างไรก็ตาม หากข้อมูลจากการสังเกตการณ์โดยตรง ประกอบด้วยลำดับที่ถูกต้องหลายลำดับ การจับคู่ที่แน่นอนจะกำหนดให้เอาต์พุตของโมเดลตรงกับลำดับที่ถูกต้องลำดับใดลำดับหนึ่งเท่านั้น

ตัวอย่าง

#fundamentals

ค่าของแถวหนึ่งของ features และอาจมี label ตัวอย่างในการเรียนรู้แบบมีผู้ดูแลแบ่งออกเป็น 2 หมวดหมู่ ทั่วไป ดังนี้

ตัวอย่างที่มีป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ และป้ายกำกับ ตัวอย่างที่มีป้ายกำกับจะใช้ในระหว่างการฝึก
ตัวอย่างที่ไม่มีป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการแต่ไม่มีป้ายกำกับ ระบบจะใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการอนุมาน

เช่น สมมติว่าคุณกำลังฝึกโมเดลเพื่อพิจารณาอิทธิพล ของสภาพอากาศต่อคะแนนสอบของนักเรียน ตัวอย่างที่มีป้ายกำกับ 3 รายการมีดังนี้

ฟีเจอร์			ป้ายกำกับ
อุณหภูมิ	ความชื้น	ความกดอากาศ	คะแนนสอบ
15	47	998	ดี
19	34	1020	ดีมาก
18	92	1012	แย่

ตัวอย่างที่ไม่มีป้ายกำกับ 3 รายการมีดังนี้

อุณหภูมิ	ความชื้น	ความกดอากาศ
12	62	1014
21	47	1017
19	41	1021

โดยปกติแล้ว แถวของชุดข้อมูลจะเป็นแหล่งที่มาดิบสำหรับตัวอย่าง กล่าวคือ โดยปกติแล้ว ตัวอย่างจะประกอบด้วยชุดย่อยของคอลัมน์ในชุดข้อมูล นอกจากนี้ ฟีเจอร์ในตัวอย่างยังอาจรวมถึงฟีเจอร์สังเคราะห์ เช่น การรวมฟีเจอร์

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบมีผู้ดูแลใน หลักสูตรข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

การเล่นประสบการณ์ซ้ำ

ในรีอินฟอร์ซเมนต์เลิร์นนิง เทคนิค DQN ใช้เพื่อลดความสัมพันธ์ตามเวลาในข้อมูลการฝึก Agent จะจัดเก็บการเปลี่ยนสถานะไว้ในบัฟเฟอร์การเล่นซ้ำ จากนั้น จะสุ่มตัวอย่างการเปลี่ยนสถานะจากบัฟเฟอร์การเล่นซ้ำเพื่อสร้างข้อมูลการฝึก

อคติของผู้ทดลอง

#responsible

ดูอคติยืนยันความคิดตัวเอง

ปัญหาการไล่ระดับสีที่ระเบิด

แนวโน้มที่การไล่ระดับสีใน โครงข่ายประสาทแบบลึก (โดยเฉพาะ โครงข่ายประสาทแบบเกิดซ้ำ) จะชัน (สูง) อย่างน่าประหลาดใจ การไล่ระดับที่ชันมักทำให้เกิดการอัปเดตขนาดใหญ่มาก ในน้ำหนักของโหนดแต่ละรายการใน โครงข่ายประสาทเทียมแบบลึก

โมเดลที่ประสบปัญหาการไล่ระดับสีที่เพิ่มขึ้นอย่างรวดเร็วจะฝึกได้ยาก หรือฝึกไม่ได้เลย การตัดค่าความชัน ช่วยลดปัญหานี้ได้

เปรียบเทียบกับปัญหาการไล่ระดับสีที่หายไป

การสรุปแบบสุดขั้ว (xsum)

#Metric

ชุดข้อมูลสำหรับการประเมินความสามารถของ LLM ในการสรุปเอกสารเดียว แต่ละรายการในชุดข้อมูลประกอบด้วย

เอกสารที่จัดทำโดย British Broadcasting Corporation (BBC)
สรุปเอกสารนั้นใน 1 ประโยค

ดูรายละเอียดได้ที่ ไม่ต้องบอกรายละเอียด แค่สรุปให้หน่อย Topic-Aware Convolutional Neural Networks for Extreme Summarization

F

F₁

#Metric

เมตริกการจัดประเภทแบบไบนารีแบบ "สรุป" ที่ อิงตามทั้งความแม่นยำและการเรียกคืน สูตรมีดังนี้

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

คลิกไอคอนเพื่อดูตัวอย่าง

สมมติว่าความแม่นยำและการเรียกคืนมีค่าดังนี้

ความแม่นยำ = 0.6
recall = 0.4

คุณคํานวณ F₁ ได้ดังนี้

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

เมื่อความแม่นยำและความอ่อนไหวค่อนข้างคล้ายกัน (ดังในตัวอย่างก่อนหน้า) F₁ จะใกล้เคียงกับค่าเฉลี่ยของทั้ง 2 ค่า เมื่อความแม่นยำและการเรียกคืนแตกต่างกันอย่างมาก F₁ จะมีค่าใกล้เคียงกับค่าที่ต่ำกว่า เช่น

precision = 0.9
การเรียกคืน = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

ข้อเท็จจริง

#generativeAI

ในโลกของ ML พร็อพเพอร์ตี้ที่อธิบายโมเดลซึ่งเอาต์พุตอิงตามความเป็นจริง ความถูกต้องตามข้อเท็จจริงเป็นแนวคิด ไม่ใช่เมตริก เช่น สมมติว่าคุณส่งพรอมต์ต่อไปนี้ ไปยังโมเดลภาษาขนาดใหญ่

สูตรเคมีของเกลือแกงคืออะไร

โมเดลที่เพิ่มประสิทธิภาพความถูกต้องจะตอบว่า

NaCl

การคิดว่าโมเดลทั้งหมดควรอิงตามข้อเท็จจริงเป็นสิ่งที่น่าดึงดูดใจ อย่างไรก็ตาม พรอมต์บางอย่าง เช่น พรอมต์ต่อไปนี้ ควรทำให้โมเดล Generative AI เพิ่มประสิทธิภาพความคิดสร้างสรรค์มากกว่าความถูกต้องตามข้อเท็จจริง

เขียนกลอนขบขันเกี่ยวกับนักบินอวกาศและหนอนผีเสื้อ

และไม่น่าจะเป็นไปได้ที่กลอนตลกที่ได้จะอิงตามความเป็นจริง

เปรียบเทียบกับความสมเหตุสมผล

ข้อจำกัดด้านความเป็นธรรม

#responsible

การใช้ข้อจำกัดกับอัลกอริทึมเพื่อให้มั่นใจว่าคำจำกัดความของความเป็นธรรมอย่างน้อย 1 รายการเป็นไปตามข้อกำหนด ตัวอย่างข้อจำกัดด้านความเป็นธรรม ได้แก่

การประมวลผลภายหลังเอาต์พุตของโมเดล
การแก้ไขฟังก์ชันการสูญเสียเพื่อรวมค่าปรับ สำหรับการละเมิดเมตริกความเป็นธรรม
การเพิ่มข้อจำกัดทางคณิตศาสตร์ลงในปัญหาการเพิ่มประสิทธิภาพโดยตรง

เมตริกความเป็นธรรม

#responsible

#Metric

คำจำกัดความทางคณิตศาสตร์ของ "ความเป็นธรรม" ที่วัดได้ ตัวอย่างเมตริกความเป็นธรรมที่ใช้กันโดยทั่วไปมีดังนี้

โอกาสที่เท่าเทียม
ความเท่าเทียมในการคาดการณ์
ความยุติธรรมแบบข้อเท็จจริง
ความเท่าเทียมกันของข้อมูลประชากร

เมตริกความเป็นธรรมหลายรายการไม่สามารถใช้ร่วมกันได้ โปรดดูความไม่เข้ากันของเมตริกความเป็นธรรม

ผลลบลวง (FN)

#fundamentals

#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบผิดพลาด เช่น โมเดล คาดการณ์ว่าอีเมลหนึ่งๆ ไม่ใช่จดหมายขยะ (คลาสเชิงลบ) แต่อีเมลนั้นเป็นจดหมายขยะจริง

อัตราผลลบลวง

#Metric

สัดส่วนของตัวอย่างที่เป็นบวกจริงซึ่งโมเดลคาดการณ์คลาสเชิงลบผิดพลาด สูตรต่อไปนี้ใช้ในการคำนวณอัตราผลลบลวง

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

ผลบวกลวง (FP)

#fundamentals

#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงบวกอย่างไม่ถูกต้อง เช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ (คลาสบวก) แต่ข้อความอีเมลนั้นไม่ใช่จดหมายขยะ

อัตราผลบวกลวง (FPR)

#fundamentals

#Metric

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลคาดการณ์คลาสเชิงบวกผิดพลาด สูตรต่อไปนี้ใช้ในการคำนวณอัตราผลบวกลวง

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

อัตราผลบวกลวงคือแกน x ในกราฟ ROC

ลดลงอย่างรวดเร็ว

#generativeAI

เทคนิคการฝึกเพื่อปรับปรุงประสิทธิภาพของ LLM Fast decay involves rapidly decreasing the learning rate during training. กลยุทธ์นี้ช่วยป้องกันไม่ให้โมเดลโอเวอร์ฟิตกับ ข้อมูลการฝึก และปรับปรุงการทั่วไป

ฟีเจอร์

#fundamentals

ตัวแปรอินพุตของโมเดลแมชชีนเลิร์นนิง ตัวอย่าง ประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ เช่น สมมติว่าคุณกำลังฝึกโมเดลเพื่อพิจารณาอิทธิพลของสภาพอากาศต่อคะแนนสอบของนักเรียน ตารางต่อไปนี้แสดงตัวอย่าง 3 รายการ ซึ่งแต่ละรายการมีฟีเจอร์ 3 รายการและป้ายกำกับ 1 รายการ

ฟีเจอร์			ป้ายกำกับ
อุณหภูมิ	ความชื้น	ความกดอากาศ	คะแนนสอบ
15	47	998	92
19	34	1020	84
18	92	1012	87

คอนทราสต์กับป้ายกำกับ

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบมีผู้สอน ในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

ฟีเจอร์ข้าม

#fundamentals

ฟีเจอร์สังเคราะห์ที่เกิดจากการ "ครอส" ฟีเจอร์เชิงหมวดหมู่หรือแบบจัดกลุ่ม

ตัวอย่างเช่น ลองพิจารณารูปแบบ "การพยากรณ์อารมณ์" ที่แสดง อุณหภูมิในกลุ่มใดกลุ่มหนึ่งต่อไปนี้

freezing
chilly
temperate
warm

และแสดงความเร็วลมในกลุ่มใดกลุ่มหนึ่งต่อไปนี้

still
light
windy

หากไม่มีฟีเจอร์ครอส โมเดลเชิงเส้นจะฝึกแยกกันในแต่ละกลุ่มต่างๆ 7 กลุ่มก่อนหน้า ดังนั้น โมเดลจะฝึกใน เช่น freezing โดยไม่ขึ้นอยู่กับการฝึกใน เช่น windy

หรือจะสร้างฟีเจอร์ครอสของอุณหภูมิและ ความเร็วลมก็ได้ ฟีเจอร์สังเคราะห์นี้จะมีค่าที่เป็นไปได้ 12 ค่าดังนี้

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

การรวมฟีเจอร์ช่วยให้โมเดลเรียนรู้ความแตกต่างของอารมณ์ ระหว่างfreezing-windyวันหนึ่งกับอีกfreezing-stillวันหนึ่งได้

หากคุณสร้างฟีเจอร์สังเคราะห์จาก 2 ฟีเจอร์ที่มีกลุ่มต่างๆ จำนวนมาก ฟีเจอร์ครอสที่ได้จะมีชุดค่าผสมที่เป็นไปได้จำนวนมาก เช่น หากฟีเจอร์หนึ่งมี 1,000 กลุ่ม และอีกฟีเจอร์หนึ่งมี 2,000 กลุ่ม ฟีเจอร์ครอสที่ได้จะมี 2,000,000 กลุ่ม

ในทางคณิตศาสตร์ ครอสคือผลคูณคาร์ทีเซียน

โดยส่วนใหญ่แล้ว Feature Cross จะใช้กับโมเดลเชิงเส้นและไม่ค่อยได้ใช้กับ โครงข่ายประสาทเทียม

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงหมวดหมู่: การรวมฟีเจอร์ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Feature Engineering

#fundamentals

#TensorFlow

กระบวนการที่มีขั้นตอนต่อไปนี้

การพิจารณาว่าฟีเจอร์ใดบ้างที่อาจมีประโยชน์ ในการฝึกโมเดล
การแปลงข้อมูลดิบจากชุดข้อมูลเป็นฟีเจอร์เวอร์ชันที่มีประสิทธิภาพ

เช่น คุณอาจพิจารณาว่า temperature อาจเป็นฟีเจอร์ที่มีประโยชน์ จากนั้นคุณอาจทดลองใช้การจัดกลุ่ม เพื่อเพิ่มประสิทธิภาพสิ่งที่โมเดลสามารถเรียนรู้จากtemperatureช่วงต่างๆ ได้

บางครั้งเราเรียกการปรับแต่งฟีเจอร์ว่า การดึงฟีเจอร์หรือ การสร้างฟีเจอร์

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติมเกี่ยวกับ TensorFlow

ใน TensorFlow การปรับแต่งฟีเจอร์มักหมายถึงการแปลงรายการไฟล์บันทึกดิบ เป็นบัฟเฟอร์โปรโตคอล tf.Example ดูเพิ่มเติมที่ tf.Transform

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงตัวเลข: วิธีที่โมเดลรับข้อมูลโดยใช้เวกเตอร์ฟีเจอร์ ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

การแยกฟีเจอร์

คำที่โอเวอร์โหลดซึ่งมีคำจำกัดความอย่างใดอย่างหนึ่งต่อไปนี้

การดึงข้อมูลการแสดงฟีเจอร์ระดับกลางที่คำนวณโดย โมเดลแบบไม่มีการกำกับดูแลหรือ โมเดลที่ผ่านการฝึกมาก่อน (เช่น ค่าเลเยอร์ที่ซ่อนอยู่ในนิวรอลเน็ตเวิร์ก) เพื่อใช้ในโมเดลอื่นเป็นอินพุต
คำพ้องความหมายของ Feature Engineering

ความสำคัญของฟีเจอร์

#df

#Metric

คำพ้องความหมายสำหรับความสำคัญของตัวแปร

ชุดฟีเจอร์

#fundamentals

กลุ่มฟีเจอร์ที่โมเดลแมชชีนเลิร์นนิงของคุณใช้ฝึก ตัวอย่างเช่น ชุดฟีเจอร์ที่เรียบง่ายสำหรับโมเดลที่คาดการณ์ราคาที่อยู่อาศัย อาจประกอบด้วยรหัสไปรษณีย์ ขนาดของที่พัก และสภาพของที่พัก

ข้อมูลจำเพาะของฟีเจอร์

#TensorFlow

อธิบายข้อมูลที่จำเป็นในการดึงข้อมูลฟีเจอร์ จากบัฟเฟอร์โปรโตคอล tf.Example เนื่องจากบัฟเฟอร์โปรโตคอล tf.Example เป็นเพียงคอนเทนเนอร์สำหรับข้อมูล คุณจึงต้องระบุข้อมูลต่อไปนี้

ข้อมูลที่จะดึง (เช่น คีย์สำหรับฟีเจอร์)
ประเภทข้อมูล (เช่น ลอยหรือ int)
ความยาว (คงที่หรือเปลี่ยนแปลงได้)

เวกเตอร์ฟีเจอร์

#fundamentals

อาร์เรย์ของค่า feature ที่ประกอบกันเป็น example เวกเตอร์ฟีเจอร์เป็นอินพุตระหว่างการฝึกและระหว่างการอนุมาน ตัวอย่างเช่น เวกเตอร์ฟีเจอร์สําหรับโมเดลที่มีฟีเจอร์แยกกัน 2 รายการ อาจเป็นดังนี้

[0.92, 0.56]

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์
เลเยอร์อินพุตมี 2 โหนด โดยโหนดหนึ่งมีค่า 0.92 และอีกโหนดหนึ่งมีค่า 0.56

ตัวอย่างแต่ละรายการจะให้ค่าที่แตกต่างกันสำหรับเวกเตอร์ฟีเจอร์ ดังนั้น เวกเตอร์ฟีเจอร์สำหรับตัวอย่างถัดไปอาจมีลักษณะดังนี้

[0.73, 0.49]

การออกแบบฟีเจอร์จะกำหนดวิธีแสดงฟีเจอร์ ในเวกเตอร์ฟีเจอร์ ตัวอย่างเช่น ฟีเจอร์เชิงหมวดหมู่แบบไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าอาจแสดงด้วยการเข้ารหัสแบบ One-Hot ในกรณีนี้ ส่วนของเวกเตอร์ฟีเจอร์สำหรับตัวอย่างหนึ่งๆ จะประกอบด้วยเลข 0 จำนวน 4 ตัวและเลข 1.0 ตัวเดียวในตำแหน่งที่ 3 ดังนี้

[0.0, 0.0, 1.0, 0.0, 0.0]

อีกตัวอย่างหนึ่ง สมมติว่าโมเดลของคุณประกอบด้วยฟีเจอร์ 3 อย่าง

ฟีเจอร์เชิงหมวดหมู่แบบไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าซึ่งแสดงด้วย การเข้ารหัสแบบ One-Hot เช่น [0.0, 1.0, 0.0, 0.0, 0.0]
ฟีเจอร์เชิงหมวดหมู่แบบไบนารีอีกรายการที่มีค่าที่เป็นไปได้3 ค่า ซึ่งแสดงด้วยการเข้ารหัสแบบ One-hot เช่น [0.0, 0.0, 1.0]
ฟีเจอร์จุดลอยตัว เช่น 8.3

ในกรณีนี้ เวกเตอร์ฟีเจอร์สำหรับแต่ละตัวอย่างจะแสดงด้วยค่า9 ค่า จากค่าตัวอย่างในรายการก่อนหน้า เวกเตอร์ฟีเจอร์จะเป็นดังนี้

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

การแปลงเป็นฟีเจอร์

กระบวนการดึงฟีเจอร์จากแหล่งที่มาของอินพุต เช่น เอกสารหรือวิดีโอ และการแมปฟีเจอร์เหล่านั้นลงใน เวกเตอร์ฟีเจอร์

ผู้เชี่ยวชาญด้าน ML บางคนใช้การสร้างฟีเจอร์เป็นคำพ้องความหมายของ การออกแบบฟีเจอร์หรือ การดึงฟีเจอร์

การเรียนรู้แบบสมาพันธ์

แนวทางแมชชีนเลิร์นนิงแบบกระจายที่ฝึก โมเดลแมชชีนเลิร์นนิงโดยใช้ตัวอย่างแบบกระจายที่อยู่ในอุปกรณ์ต่างๆ เช่น สมาร์ทโฟน ในการเรียนรู้แบบรวมศูนย์ อุปกรณ์บางส่วนจะดาวน์โหลดโมเดลปัจจุบัน จากเซิร์ฟเวอร์ส่วนกลางที่ทำหน้าที่ประสานงาน อุปกรณ์จะใช้ตัวอย่างที่จัดเก็บไว้ ในอุปกรณ์เพื่อปรับปรุงโมเดล จากนั้นอุปกรณ์จะอัปโหลด การปรับปรุงโมเดล (แต่ไม่ใช่ตัวอย่างการฝึก) ไปยังเซิร์ฟเวอร์ ที่ประสานงาน ซึ่งจะรวบรวมการปรับปรุงเหล่านี้กับการอัปเดตอื่นๆ เพื่อให้ได้โมเดล ส่วนกลางที่ได้รับการปรับปรุง หลังจากการรวบรวมแล้ว ระบบจะไม่จำเป็นต้องใช้การอัปเดตโมเดลที่คำนวณโดยอุปกรณ์ และสามารถทิ้งได้

เนื่องจากไม่มีการอัปโหลดตัวอย่างการฝึก Federated Learning จึงเป็นไปตาม หลักการด้านความเป็นส่วนตัวของการเก็บรวบรวมข้อมูลที่มุ่งเน้นและการลดข้อมูลให้เหลือน้อยที่สุด

ดูรายละเอียดเพิ่มเติมได้ที่การ์ตูนการเรียนรู้แบบรวมศูนย์ (ใช่ การ์ตูน)

วงจรความคิดเห็น

#fundamentals

ในแมชชีนเลิร์นนิง สถานการณ์ที่การคาดการณ์ของโมเดลส่งผลต่อข้อมูลการฝึกของโมเดลเดียวกันหรือโมเดลอื่น ตัวอย่างเช่น โมเดลที่ แนะนำภาพยนตร์จะส่งผลต่อภาพยนตร์ที่ผู้คนเห็น ซึ่งจะ ส่งผลต่อโมเดลการแนะนำภาพยนตร์ในภายหลัง

ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML ในเวอร์ชันที่ใช้งานจริง: คำถามที่ควรถาม ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

ฟีดฟอร์เวิร์ดนิวรอลเน็ตเวิร์ก (FFN)

โครงข่ายประสาทเทียมที่ไม่มีการเชื่อมต่อแบบวนซ้ำหรือแบบเรียกซ้ำ เช่น โครงข่ายประสาทแบบลึกแบบเดิมคือ โครงข่ายประสาทแบบฟีดฟอร์เวิร์ด ซึ่งแตกต่างจากโครงข่ายประสาท แบบเกิดซ้ำซึ่งเป็นแบบวนซ้ำ

การเรียนรู้แบบ Few-Shot Learning

แนวทางแมชชีนเลิร์นนิงซึ่งมักใช้สำหรับการจัดประเภทออบเจ็กต์ ออกแบบมาเพื่อฝึกโมเดลการจัดประเภทที่มีประสิทธิภาพ จากตัวอย่างการฝึกเพียงไม่กี่รายการ

ดูการเรียนรู้แบบนัดเดียวจบและ การเรียนรู้แบบศูนย์ช็อตด้วย

Few-Shot Prompting

#generativeAI

พรอมต์ที่มีตัวอย่างมากกว่า 1 รายการ ("ไม่กี่") ซึ่งแสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ ควรตอบสนองอย่างไร ตัวอย่างเช่น พรอมต์ยาวต่อไปนี้มีตัวอย่าง 2 รายการที่แสดงให้โมเดลภาษาขนาดใหญ่เห็นวิธีตอบคำค้นหา

ส่วนต่างๆ ของพรอมต์	หมายเหตุ
`สกุลเงินทางการของประเทศที่ระบุคืออะไร`	คำถามที่คุณต้องการให้ LLM ตอบ
`ฝรั่งเศส: EUR`	ตัวอย่าง
`สหราชอาณาจักร: GBP`	อีกตัวอย่างหนึ่ง
`อินเดีย:`	คำค้นหาจริง

โดยทั่วไปแล้ว การแจ้งแบบ Few-Shot จะให้ผลลัพธ์ที่ต้องการมากกว่าการแจ้งแบบ Zero-Shot และการแจ้งแบบ One-Shot อย่างไรก็ตาม Few-Shot Prompting ต้องใช้พรอมต์ที่ยาวกว่า

Few-Shot Prompting เป็นรูปแบบหนึ่งของการเรียนรู้แบบ Few-Shot ที่ใช้กับการเรียนรู้ตามพรอมต์

ดูข้อมูลเพิ่มเติมได้ที่พรอมต์ เอนจิเนียริง ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟิดเดิล

ไลบรารีการกำหนดค่าที่เน้น Python เป็นหลักซึ่งกำหนดค่า ฟังก์ชันและคลาสโดยไม่ต้องใช้โค้ดหรือโครงสร้างพื้นฐานที่รบกวน ในกรณีของ Pax และโค้ดเบส ML อื่นๆ ฟังก์ชันและ คลาสเหล่านี้แสดงถึงโมเดลและการฝึก ไฮเปอร์พารามิเตอร์

Fiddle ถือว่าโดยทั่วไปแล้วโค้ดเบสของแมชชีนเลิร์นนิงจะแบ่งออกเป็นส่วนต่างๆ ดังนี้

โค้ดไลบรารีซึ่งกำหนดเลเยอร์และตัวเพิ่มประสิทธิภาพ
โค้ด "กาว" ของชุดข้อมูล ซึ่งเรียกใช้ไลบรารีและเชื่อมโยงทุกอย่างเข้าด้วยกัน

Fiddle จะบันทึกโครงสร้างการเรียกของโค้ดกาวในรูปแบบที่ยังไม่ได้ประเมินและ เปลี่ยนแปลงได้

การปรับแต่ง

#generativeAI

การฝึกครั้งที่ 2 ที่เจาะจงงานซึ่งดำเนินการกับโมเดลที่ฝึกล่วงหน้าเพื่อปรับแต่งพารามิเตอร์สำหรับกรณีการใช้งานที่เฉพาะเจาะจง ตัวอย่างเช่น ลำดับการฝึกแบบเต็มสำหรับโมเดลภาษาขนาดใหญ่บางรุ่นมีดังนี้

การฝึกเบื้องต้น: ฝึกโมเดลภาษาขนาดใหญ่ในชุดข้อมูลทั่วไปจำนวนมหาศาล เช่น หน้า Wikipedia ทั้งหมดในภาษาอังกฤษ
การปรับแต่ง: ฝึกโมเดลที่ฝึกไว้ล่วงหน้าให้ทำงานเฉพาะเจาะจง เช่น ตอบคำค้นหาทางการแพทย์ โดยปกติแล้ว การปรับแต่งอย่างละเอียดต้องใช้ตัวอย่างหลายร้อยหรือหลายพันรายการที่มุ่งเน้นงานที่เฉพาะเจาะจง

อีกตัวอย่างหนึ่งคือลำดับการฝึกแบบเต็มสำหรับโมเดลรูปภาพขนาดใหญ่มีดังนี้

การฝึกเบื้องต้น: ฝึกโมเดลรูปภาพขนาดใหญ่ในชุดข้อมูลรูปภาพทั่วไปจำนวนมาก เช่น รูปภาพทั้งหมดใน Wikimedia Commons
การปรับแต่ง: ฝึกโมเดลที่ฝึกไว้ล่วงหน้าให้ทำงานเฉพาะเจาะจง เช่น สร้างรูปภาพของวาฬเพชฌฆาต

การปรับแต่งอาจเกี่ยวข้องกับกลยุทธ์ต่อไปนี้ร่วมกัน

การแก้ไขทั้งหมดของพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกไว้ล่วงหน้า ซึ่งบางครั้งเรียกว่าการปรับแต่งแบบละเอียด
การแก้ไขเฉพาะพารามิเตอร์บางส่วนที่มีอยู่ของโมเดลที่ผ่านการฝึกมาก่อน (โดยปกติคือเลเยอร์ที่อยู่ใกล้เลเยอร์เอาต์พุตมากที่สุด) ในขณะที่คงพารามิเตอร์อื่นๆ ที่มีอยู่ไว้ไม่เปลี่ยนแปลง (โดยปกติคือเลเยอร์ที่อยู่ใกล้เลเยอร์อินพุตมากที่สุด) ดูการปรับแต่งที่มีประสิทธิภาพด้านพารามิเตอร์
การเพิ่มเลเยอร์อื่นๆ โดยปกติจะอยู่เหนือเลเยอร์ที่มีอยู่ซึ่งอยู่ใกล้กับ เลเยอร์เอาต์พุตมากที่สุด

การปรับแต่งโมเดลเป็นรูปแบบหนึ่งของการเรียนรู้แบบโอน ดังนั้น การปรับแต่งอาจใช้ Loss Function หรือโมเดล ประเภทอื่นที่แตกต่างจากที่ใช้ฝึกโมเดลที่ผ่านการฝึกมาก่อน เช่น คุณอาจ ปรับแต่งโมเดลรูปภาพขนาดใหญ่ที่ฝึกไว้ล่วงหน้าเพื่อสร้างโมเดลการถดถอยที่ แสดงจำนวนนกในรูปภาพอินพุต

เปรียบเทียบการปรับแต่งกับคำศัพท์ต่อไปนี้

กลั่น
การเรียนรู้ตามพรอมต์

ดูข้อมูลเพิ่มเติมได้ที่การปรับแต่ง ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โมเดล Flash

#generativeAI

กลุ่มโมเดล Gemini ขนาดค่อนข้างเล็กที่เพิ่มประสิทธิภาพเพื่อความเร็ว และเวลาในการตอบสนองที่ต่ำ โมเดล Flash ออกแบบมาสําหรับแอปพลิเคชันที่หลากหลาย ซึ่งการตอบกลับที่รวดเร็วและปริมาณงานสูงเป็นสิ่งสําคัญ

เหลืองแฟลกซ์

ไลบรารีโอเพนซอร์สที่มีประสิทธิภาพสูง สำหรับ ดีปเลิร์นนิงที่สร้างขึ้นบน JAX Flax มีฟังก์ชัน สำหรับการฝึก นิวรัลเน็ตเวิร์ก รวมถึงวิธีการประเมินประสิทธิภาพของนิวรัลเน็ตเวิร์ก

Flaxformer

Transformer ไลบรารีโอเพนซอร์ส ที่สร้างขึ้นบน Flax ซึ่งออกแบบมาเพื่อการประมวลผลภาษาธรรมชาติ และการวิจัยแบบมัลติโมดอลเป็นหลัก

ลืมประตู

ส่วนของหน่วยความจำระยะยาว ที่ควบคุมการไหลของข้อมูลผ่านเซลล์ Forget Gate จะรักษาบริบทโดยการตัดสินใจว่าจะทิ้งข้อมูลใดจากสถานะของเซลล์

โมเดลพื้นฐาน

#generativeAI

#Metric

โมเดลที่ได้รับการฝึกเบื้องต้นขนาดใหญ่มาก ซึ่งได้รับการฝึกจากชุดการฝึกที่หลากหลายและมีขนาดใหญ่ โมเดลพื้นฐานสามารถทำทั้ง 2 อย่างต่อไปนี้ได้

ตอบสนองต่อคำขอที่หลากหลายได้ดี
ใช้เป็นโมเดลพื้นฐานสำหรับการปรับแต่งเพิ่มเติมหรือการปรับแต่งอื่นๆ

กล่าวคือ โมเดลพื้นฐานมีความสามารถสูงอยู่แล้วในแง่ทั่วไป แต่สามารถปรับแต่งเพิ่มเติมให้มีประโยชน์มากยิ่งขึ้นสำหรับงานที่เฉพาะเจาะจงได้

เศษส่วนของความสำเร็จ

#generativeAI

#Metric

เมตริกสําหรับประเมินข้อความที่โมเดล ML สร้างขึ้น เศษส่วนของความสำเร็จคือจำนวนเอาต์พุตข้อความที่สร้างขึ้นซึ่ง "สำเร็จ" หารด้วยจำนวนเอาต์พุตข้อความที่สร้างขึ้นทั้งหมด ตัวอย่างเช่น หากโมเดลภาษาขนาดใหญ่สร้างโค้ด 10 บล็อก และมี 5 บล็อกที่สำเร็จ เศษส่วนของความสำเร็จ จะเป็น 50%

แม้ว่าเศษส่วนของความสำเร็จจะมีประโยชน์อย่างกว้างขวางในสถิติ แต่ใน ML เมตริกนี้มีประโยชน์หลักๆ ในการวัดงานที่ตรวจสอบได้ เช่น การสร้างโค้ดหรือปัญหาทางคณิตศาสตร์

full softmax

คำพ้องความหมายของ softmax

แตกต่างจากการสุ่มตัวอย่างผู้สมัคร

ดูข้อมูลเพิ่มเติมได้ที่โครงข่ายประสาทเทียม: การจัดประเภทแบบหลายคลาส ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

เลเยอร์ที่เชื่อมต่ออย่างเต็มรูปแบบ

เลเยอร์ที่ซ่อนซึ่งโหนดแต่ละโหนดเชื่อมต่อกับทุกโหนดในเลเยอร์ที่ซ่อนถัดไป

เลเยอร์ที่เชื่อมต่ออย่างเต็มรูปแบบเรียกอีกอย่างว่าเลเยอร์หนาแน่น

การแปลงฟังก์ชัน

ฟังก์ชันที่รับฟังก์ชันเป็นอินพุตและแสดงผลฟังก์ชันที่แปลงแล้ว เป็นเอาต์พุต JAX ใช้การแปลงฟังก์ชัน

G

GAN

ตัวย่อของเครือข่าย ปฏิปักษ์แบบ Generative

Gemini

#generativeAI

ระบบนิเวศที่ประกอบด้วย AI ที่ทันสมัยที่สุดของ Google องค์ประกอบของระบบนิเวศนี้ ประกอบด้วย

โมเดลต่างๆ ของ Gemini
อินเทอร์เฟซการสนทนาแบบอินเทอร์แอกทีฟกับโมเดล Gemini ผู้ใช้พิมพ์พรอมต์และ Gemini จะตอบกลับพรอมต์เหล่านั้น
Gemini API ต่างๆ
ผลิตภัณฑ์ทางธุรกิจต่างๆ ที่อิงตามโมเดล Gemini เช่น Gemini สำหรับ Google Cloud

โมเดลต่างๆ ของ Gemini

#generativeAI

Transformer ที่ทันสมัยของ Google โมเดลหลายรูปแบบ โมเดล Gemini ออกแบบมาโดยเฉพาะ เพื่อผสานรวมกับเอเจนต์

ผู้ใช้โต้ตอบกับโมเดล Gemini ได้หลายวิธี รวมถึงผ่าน อินเทอร์เฟซกล่องโต้ตอบแบบอินเทอร์แอกทีฟและผ่าน SDK

Gemma

#generativeAI

โมเดลโอเพนซอร์สแบบน้ำหนักเบาตระกูลหนึ่งที่สร้างขึ้นจากงานวิจัยและเทคโนโลยีเดียวกันกับที่ใช้สร้างโมเดล Gemini มีโมเดล Gemma หลายรุ่นให้เลือกใช้ ซึ่งแต่ละรุ่นจะมีฟีเจอร์ที่แตกต่างกัน เช่น วิชัน, โค้ด และการปฏิบัติตามคำสั่ง ดูรายละเอียดได้ที่ Gemma

GenAI หรือ genAI

#generativeAI

คำย่อของ Generative AI

การสรุป

#fundamentals

ความสามารถของโมเดลในการคาดการณ์ข้อมูลใหม่ที่ไม่เคยเห็นมาก่อนได้อย่างถูกต้อง โมเดลที่สามารถสรุปได้จะตรงกันข้ามกับโมเดลที่โอเวอร์ฟิต

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

คุณฝึกโมเดลจากตัวอย่างในชุดการฝึก ด้วยเหตุนี้ โมเดลจึงเรียนรู้ลักษณะเฉพาะของข้อมูลในชุดการฝึก การสรุป โดยพื้นฐานแล้วจะถามว่าโมเดลของคุณสามารถคาดการณ์ตัวอย่างได้ดีหรือไม่ ซึ่งไม่ได้อยู่ในชุดการฝึก

การทำให้เป็นปกติช่วยให้โมเดลฝึกได้ไม่ตรงกับลักษณะเฉพาะของข้อมูลในชุดการฝึกมากนักเพื่อส่งเสริมการสรุปทั่วไป

ดูข้อมูลเพิ่มเติมได้ที่การสรุปทั่วไป ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เส้นโค้งการสรุป

#fundamentals

พล็อตของทั้งการสูญเสียการฝึกและ การสูญเสียการตรวจสอบเป็นฟังก์ชันของจำนวนการทำซ้ำ

เส้นโค้งการสรุปทั่วไปช่วยให้คุณตรวจพบการปรับมากเกินไปที่อาจเกิดขึ้นได้ ตัวอย่างเช่น เส้นโค้งการสรุปทั่วไปต่อไปนี้ บ่งบอกถึงการปรับมากเกินไปเนื่องจากความสูญเสียในการตรวจสอบ ในท้ายที่สุดจะสูงกว่าความสูญเสียในการฝึกอย่างมาก

กราฟคาร์ทีเซียนซึ่งแกน Y มีป้ายกำกับว่าการสูญเสีย และแกน X
มีป้ายกำกับว่าการทำซ้ำ โดยจะปรากฏพล็อต 2 รายการ โดยกราฟหนึ่งแสดง
การสูญเสียการฝึก และอีกกราฟแสดงการสูญเสียการตรวจสอบ
กราฟทั้ง 2 เริ่มต้นคล้ายกัน แต่ในที่สุด Loss ของการฝึกก็จะ
ลดลงต่ำกว่า Loss ของการตรวจสอบอย่างมาก

โมเดลเชิงเส้นทั่วไป

การขยายความของโมเดลการถดถอยแบบกำลังสองน้อยที่สุด ซึ่งอิงตามสัญญาณรบกวนแบบ Gaussian ไปยังโมเดลประเภทอื่นๆ ที่อิงตามสัญญาณรบกวนประเภทอื่นๆ เช่น สัญญาณรบกวนแบบ Poisson หรือสัญญาณรบกวนแบบหมวดหมู่ ตัวอย่างของโมเดลเชิงเส้นทั่วไป ได้แก่

การถดถอยแบบโลจิสติก
การถดถอยแบบหลายคลาส
การถดถอยแบบกำลังสองน้อยที่สุด

พารามิเตอร์ของโมเดลเชิงเส้นทั่วไปสามารถพบได้ผ่านการเพิ่มประสิทธิภาพแบบนูน

โมเดลเชิงเส้นทั่วไปมีคุณสมบัติดังต่อไปนี้

ค่าคาดการณ์เฉลี่ยของโมเดลการถดถอยแบบกำลังสองน้อยที่สุดที่เหมาะสมจะเท่ากับป้ายกำกับเฉลี่ยในข้อมูลการฝึก
ความน่าจะเป็นเฉลี่ยที่โมเดลการถดถอยโลจิสติกส์ที่เหมาะสมคาดการณ์จะเท่ากับป้ายกำกับเฉลี่ยในข้อมูลการฝึก

ความสามารถของโมเดลเชิงเส้นทั่วไปถูกจำกัดด้วยฟีเจอร์ของโมเดล โมเดลเชิงเส้นทั่วไป "เรียนรู้ฟีเจอร์ใหม่" ไม่ได้ ซึ่งต่างจากโมเดลเชิงลึก

ข้อความที่สร้างขึ้น

#generativeAI

โดยทั่วไปคือข้อความที่โมเดล ML แสดง เมื่อประเมินโมเดลภาษาขนาดใหญ่ เมตริกบางอย่างจะเปรียบเทียบข้อความที่สร้างขึ้นกับข้อความอ้างอิง ตัวอย่างเช่น สมมติว่าคุณ พยายามพิจารณาว่าโมเดล ML แปลจากภาษาฝรั่งเศส เป็นภาษาดัตช์ได้มีประสิทธิภาพเพียงใด ในกรณีนี้

ข้อความที่สร้างขึ้นคือคำแปลภาษาดัตช์ที่โมเดล ML แสดง
ข้อความอ้างอิงคือคำแปลภาษาดัตช์ที่นักแปล (หรือซอฟต์แวร์) สร้างขึ้น

โปรดทราบว่ากลยุทธ์การประเมินบางอย่างไม่มีข้อความอ้างอิง

Generative Adversarial Network (GAN)

ระบบที่ใช้สร้างข้อมูลใหม่ซึ่งเครื่องกำเนิดสร้างข้อมูล และตัวแยกแยะจะพิจารณาว่าข้อมูลที่สร้างขึ้นนั้นถูกต้องหรือไม่

ดูข้อมูลเพิ่มเติมได้ที่หลักสูตร Generative Adversarial Networks

Generative AI

#generativeAI

สาขาที่กำลังเกิดใหม่ซึ่งมีการเปลี่ยนแปลงและไม่มีคำจำกัดความอย่างเป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่เห็นพ้องต้องกันว่าโมเดล Generative AI สามารถ สร้าง ("สร้าง") เนื้อหาที่มีลักษณะดังต่อไปนี้

ซับซ้อน
สอดคล้องกัน
เดิม

ตัวอย่างของ Generative AI ได้แก่

โมเดลภาษาขนาดใหญ่ที่สามารถสร้าง ข้อความต้นฉบับที่ซับซ้อนและตอบคำถามได้
โมเดลการสร้างรูปภาพที่สร้างรูปภาพที่ไม่ซ้ำกันได้
โมเดลการสร้างเสียงและเพลง ซึ่งสามารถแต่งเพลงต้นฉบับหรือ สร้างคำพูดที่สมจริง
โมเดลการสร้างวิดีโอที่สร้างวิดีโอต้นฉบับได้

เทคโนโลยีรุ่นก่อนๆ บางอย่าง รวมถึง LSTM และ RNN ก็สามารถสร้างเนื้อหาต้นฉบับที่ สอดคล้องกันได้เช่นกัน ผู้เชี่ยวชาญบางคนมองว่าเทคโนโลยีรุ่นก่อนๆ เหล่านี้เป็น Generative AI ขณะที่บางคนรู้สึกว่า Generative AI ที่แท้จริงต้องมีเอาต์พุตที่ซับซ้อนกว่าที่เทคโนโลยีรุ่นก่อนๆ เหล่านั้นสร้างขึ้นได้

แตกต่างจาก ML เชิงคาดการณ์

โมเดล Generative AI

ในทางปฏิบัติ โมเดลที่ทำอย่างใดอย่างหนึ่งต่อไปนี้

สร้าง (สร้าง) ตัวอย่างใหม่จากชุดข้อมูลการฝึก ตัวอย่างเช่น โมเดล Generative สามารถสร้างบทกวีได้หลังจากฝึก ในชุดข้อมูลบทกวี ส่วนเครื่องกำเนิดของเครือข่าย Generative Adversarial จัดอยู่ในหมวดหมู่นี้
กำหนดความน่าจะเป็นที่ตัวอย่างใหม่จะมาจากชุดข้อมูลการฝึก หรือสร้างขึ้นจากกลไกเดียวกันกับที่สร้างชุดข้อมูลการฝึก ตัวอย่างเช่น หลังจากฝึกในชุดข้อมูลที่ประกอบด้วยประโยคภาษาอังกฤษ โมเดล Generative จะสามารถกำหนดความน่าจะเป็นที่อินพุตใหม่จะเป็นประโยคภาษาอังกฤษที่ถูกต้อง

ในทางทฤษฎีแล้ว โมเดล Generative สามารถแยกแยะการกระจายของตัวอย่าง หรือฟีเจอร์ที่เฉพาะเจาะจงในชุดข้อมูลได้ โดยการ

p(examples)

โมเดลการเรียนรู้ที่ไม่มีการควบคุมดูแลเป็นแบบ Generative

เปรียบเทียบกับโมเดลจำแนก

โปรแกรมสร้างแผนผังไซต์

ระบบย่อยภายในเครือข่าย ปฏิปักษ์แบบ Generative ที่สร้างตัวอย่างใหม่

เทียบกับโมเดลการเลือกปฏิบัติ

ความไม่บริสุทธิ์ของจีนี

#df

#Metric

เมตริกที่คล้ายกับเอนโทรปี ตัวแยก ใช้ค่าที่ได้จากความไม่บริสุทธิ์ของ Gini หรือเอนโทรปีเพื่อสร้าง เงื่อนไขสำหรับการจัดประเภท ต้นไม้ตัดสินใจ การได้ข้อมูลได้มาจากเอนโทรปี ไม่มีคำที่เทียบเท่าซึ่งเป็นที่ยอมรับในระดับสากลสำหรับเมตริกที่ได้มาจากความไม่บริสุทธิ์ของ Gini อย่างไรก็ตาม เมตริกที่ไม่มีชื่อนี้มีความสำคัญไม่แพ้การได้ข้อมูล

ความไม่บริสุทธิ์ของจีนียังเรียกว่าดัชนีจีนี หรือเรียกสั้นๆ ว่าจีนี

คลิกไอคอนเพื่อดูรายละเอียดทางคณิตศาสตร์เกี่ยวกับความไม่บริสุทธิ์ของ Gini

ความไม่บริสุทธิ์ของ Gini คือความน่าจะเป็นของการจัดประเภทข้อมูลใหม่ที่นำมาจากการกระจายเดียวกันอย่างไม่ถูกต้อง ความไม่บริสุทธิ์ของ Gini ของชุดที่มีค่าที่เป็นไปได้ 2 ค่าคือ "0" และ "1" (เช่น ป้ายกำกับในปัญหาการจัดประเภทแบบไบนารี) คำนวณได้จากสูตรต่อไปนี้

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

ที่ไหน

I คือความไม่บริสุทธิ์ของ Gini
p คือเศษส่วนของตัวอย่าง "1"
q คือเศษส่วนของตัวอย่าง "0" โปรดทราบว่า q = 1-p

ตัวอย่างเช่น ลองพิจารณาชุดข้อมูลต่อไปนี้

ป้ายกำกับ 100 รายการ (0.25 ของชุดข้อมูล) มีค่า "1"
ป้ายกำกับ 300 รายการ (0.75 ของชุดข้อมูล) มีค่า "0"

ดังนั้น ความไม่บริสุทธิ์ของ Gini คือ

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

ดังนั้น ป้ายกำกับแบบสุ่มจากชุดข้อมูลเดียวกันจะมีโอกาส 37.5% ที่จะได้รับการจัดประเภทอย่างไม่ถูกต้อง และมีโอกาส 62.5% ที่จะได้รับการจัดประเภทอย่างถูกต้อง

ป้ายกำกับที่สมดุลอย่างสมบูรณ์ (เช่น "0" 200 รายการและ "1" 200 รายการ) จะมีความไม่บริสุทธิ์ของ Gini เท่ากับ 0.5 ป้ายกำกับที่ไม่สมดุลอย่างมากจะมี ความไม่บริสุทธิ์ของ Gini ใกล้เคียงกับ 0.0

ชุดข้อมูลทองคำ

ชุดข้อมูลที่ดูแลจัดการด้วยตนเองซึ่งบันทึกข้อมูลที่ได้จากการสังเกตการณ์ ทีมสามารถใช้ชุดข้อมูลทองอย่างน้อย 1 ชุดเพื่อประเมินคุณภาพของโมเดล

ชุดข้อมูลทองคำบางชุดจะบันทึกโดเมนย่อยที่แตกต่างกันของความจริงพื้นฐาน เช่น ชุดข้อมูลทองคำสำหรับการแยกประเภทรูปภาพอาจบันทึกสภาพแสง และความละเอียดของรูปภาพ

คำตอบดี

#generativeAI

คำตอบที่ทราบว่าดี ตัวอย่างเช่น หากมีพรอมต์ต่อไปนี้

2 + 2

คำตอบที่ดีที่สุดคือ

4

หมายเหตุ: องค์กรบางแห่งกำหนดข้อกำหนดเพิ่มเติม เช่น คำตอบระดับเงินและคำตอบระดับแพลตินัมสำหรับคำตอบที่มีคุณภาพต่ำกว่าหรือสูงกว่าตามลำดับ คำตอบระดับทอง ตัวอย่างเช่น องค์กรอาจใช้ platinum response เพื่อระบุคำตอบระดับโกลด์ที่ผู้เชี่ยวชาญสร้างขึ้น จากนั้นผู้เชี่ยวชาญคนอื่นๆ จะตรวจสอบเพิ่มเติม

คลิกที่นี่เพื่อดูหมายเหตุเกี่ยวกับคำตอบที่ถูกต้องและข้อความอ้างอิง

เมตริกการประเมินบางอย่าง เช่น ROUGE จะเปรียบเทียบข้อความอ้างอิงกับข้อความที่โมเดลสร้างขึ้น เมื่อพรอมต์มีคำตอบที่ถูกต้องเพียงคำตอบเดียว โดยทั่วไปแล้วคำตอบที่ยอดเยี่ยมจะ ทำหน้าที่เป็นข้อความอ้างอิง

พรอมต์บางรายการไม่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว เช่น พรอมต์สรุปเอกสารนี้น่าจะมีคำตอบที่ถูกต้องหลายคำตอบ สำหรับพรอมต์ดังกล่าว ข้อความอ้างอิงมักจะใช้ไม่ได้เนื่องจาก โมเดลสามารถสร้างข้อมูลสรุปที่เป็นไปได้หลากหลายมาก อย่างไรก็ตาม คำตอบที่ยอดเยี่ยมอาจมีประโยชน์ในสถานการณ์นี้ เช่น คำตอบที่สมบูรณ์ ซึ่งมีสรุปเอกสารที่ดีจะช่วยฝึกเครื่องมือให้คะแนนอัตโนมัติให้ค้นพบรูปแบบของสรุปเอกสารที่ดีได้

Google AI Studio

เครื่องมือของ Google ที่มีอินเทอร์เฟซที่ใช้งานง่าย สำหรับการทดลองและสร้างแอปพลิเคชันโดยใช้โมเดลภาษาขนาดใหญ่ของ Google ดูรายละเอียดได้ที่หน้าแรกของ Google AI Studio

GPT (Generative Pre-trained Transformer)

#generativeAI

ตระกูลโมเดลภาษาขนาดใหญ่ที่อิงตาม Transformer ซึ่งพัฒนาโดย OpenAI

รูปแบบ GPT สามารถใช้กับรูปแบบต่างๆ ได้ ซึ่งรวมถึง

การสร้างรูปภาพ (เช่น ImageGPT)
การสร้างรูปภาพจากข้อความ (เช่น DALL-E)

ไล่ระดับ

เวกเตอร์ของอนุพันธ์ย่อยที่เทียบกับ ตัวแปรอิสระทั้งหมด ในแมชชีนเลิร์นนิง เกรเดียนต์คือ เวกเตอร์ของอนุพันธ์ย่อยของฟังก์ชันโมเดล จุดไล่ระดับสี ในทิศทางที่ชันที่สุด

การสะสมการไล่ระดับสี

เทคนิคการแพร่ย้อนกลับที่อัปเดตพารามิเตอร์เพียงครั้งเดียวต่อ Epoch แทนที่จะอัปเดตครั้งเดียวต่อการวนซ้ำ หลังจากประมวลผลมินิแบตช์แต่ละรายการ การสะสมการไล่ระดับสีจะอัปเดตผลรวมของการไล่ระดับสี จากนั้นหลังจาก ประมวลผลมินิแบทช์สุดท้ายในยุคแล้ว ระบบจะอัปเดต พารามิเตอร์ตามการเปลี่ยนแปลงการไล่ระดับสีทั้งหมด

การสะสมการไล่ระดับสีจะมีประโยชน์เมื่อขนาดกลุ่มมีขนาดใหญ่มากเมื่อเทียบกับปริมาณหน่วยความจำที่ใช้ได้สำหรับการฝึก เมื่อหน่วยความจำมีปัญหา แนวโน้มตามธรรมชาติคือการลดขนาดกลุ่ม อย่างไรก็ตาม การลดขนาดกลุ่มในการแพร่ย้อนกลับปกติจะเพิ่ม จํานวนการอัปเดตพารามิเตอร์ การสะสมการไล่ระดับสีช่วยให้โมเดล หลีกเลี่ยงปัญหาเกี่ยวกับหน่วยความจำ แต่ยังคงฝึกได้อย่างมีประสิทธิภาพ

ต้นไม้แบบไล่ระดับ (การตัดสินใจ) (GBT)

#df

ป่าการตัดสินใจประเภทหนึ่งซึ่งมีลักษณะดังนี้

การฝึกใช้ การเพิ่มประสิทธิภาพแบบไล่ระดับ
โมเดลที่อ่อนแอคือแผนผังการตัดสินใจ

ดูข้อมูลเพิ่มเติมได้ที่ต้นไม้ตัดสินใจแบบ Gradient Boosting ในหลักสูตร Decision Forests

การเพิ่มประสิทธิภาพการไล่ระดับ

#df

อัลกอริทึมการฝึกที่ฝึกโมเดลที่อ่อนแอเพื่อปรับปรุงคุณภาพ (ลดการสูญเสีย) ของโมเดลที่แข็งแกร่งอย่างต่อเนื่อง เช่น โมเดลที่อ่อนแออาจเป็นโมเดลเชิงเส้นหรือโมเดลต้นไม้ตัดสินขนาดเล็ก โมเดลที่แข็งแกร่งจะกลายเป็นผลรวมของโมเดลที่อ่อนแอทั้งหมดที่ได้รับการฝึกก่อนหน้านี้

ในรูปแบบที่ง่ายที่สุดของการเพิ่มประสิทธิภาพแบบไล่ระดับ ในแต่ละการทำซ้ำ โมเดลที่อ่อนแอ จะได้รับการฝึกให้คาดการณ์การไล่ระดับการสูญเสียของโมเดลที่แข็งแกร่ง จากนั้น ระบบจะอัปเดตเอาต์พุตของโมเดล strong โดยการลบการไล่ระดับที่คาดการณ์ไว้ ซึ่งคล้ายกับการไล่ระดับ

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

ที่ไหน

$F_{0}$ คือโมเดลเริ่มต้นได้ดี
$F_{i+1}$ คือโมเดลที่แข็งแกร่งถัดไป
$F_{i}$ คือโมเดลที่แข็งแกร่งในปัจจุบัน
$\xi$ คือค่าระหว่าง 0.0 ถึง 1.0 ที่เรียกว่าการหดตัว ซึ่งคล้ายกับ อัตราการเรียนรู้ใน การไล่ระดับการไล่ระดับ
$f_{i}$ คือโมเดลแบบอ่อนที่ได้รับการฝึกให้คาดการณ์การไล่ระดับการสูญเสียของ $F_{i}$

การปรับปรุงการเพิ่มแบบไล่ระดับสมัยใหม่ยังรวมอนุพันธ์อันดับที่ 2 (เมทริกซ์เฮสเซียน) ของการสูญเสียในการคำนวณด้วย

แผนผังการตัดสินใจมักใช้เป็นโมเดลที่อ่อนแอใน Gradient Boosting ดูต้นไม้แบบไล่ระดับ (การตัดสินใจ)

การตัดการไล่ระดับสี

กลไกที่ใช้กันโดยทั่วไปเพื่อลดปัญหาการไล่ระดับสีที่เพิ่มขึ้นโดยการจำกัดค่าสูงสุดของการไล่ระดับสีอย่างไม่เป็นธรรมชาติ (การตัด) เมื่อใช้การไล่ระดับสีเพื่อฝึกโมเดล

การไล่ระดับความชัน

#fundamentals

เทคนิคทางคณิตศาสตร์เพื่อลดการสูญเสีย การไล่ระดับความชันจะปรับน้ำหนักและอคติซ้ำๆ เพื่อค้นหาการผสมผสานที่ดีที่สุดในการลดการสูญเสียทีละน้อย

การไล่ระดับความชันมีมานานกว่าแมชชีนเลิร์นนิงมาก

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: การไล่ระดับสี ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

กราฟ

#TensorFlow

ใน TensorFlow ข้อมูลจำเพาะของการคำนวณ โหนดในกราฟ แสดงถึงการดำเนินการ ขอบมีทิศทางและแสดงถึงการส่งผลลัพธ์ ของการดำเนินการ (Tensor) เป็น ตัวถูกดำเนินการไปยังการดำเนินการอื่น ใช้ TensorBoard เพื่อแสดงภาพกราฟ

การดำเนินการกราฟ

#TensorFlow

สภาพแวดล้อมการเขียนโปรแกรม TensorFlow ซึ่งโปรแกรมจะสร้างกราฟก่อน แล้วจึงเรียกใช้กราฟทั้งหมดหรือบางส่วน การดำเนินการกราฟ เป็นโหมดการดำเนินการเริ่มต้นใน TensorFlow 1.x

แตกต่างจากการดำเนินการแบบรีบร้อน

นโยบายที่การละเมิดถือว่าร้ายแรง

ใน Reinforcement Learning นโยบายที่เลือกการดำเนินการที่มีผลตอบแทนที่คาดไว้สูงสุดเสมอ

ความสมเหตุสมผล

พร็อพเพอร์ตี้ของโมเดลที่มีเอาต์พุตอิงตาม (ยึดตาม) แหล่งข้อมูลที่เฉพาะเจาะจง ตัวอย่างเช่น สมมติว่าคุณป้อนตำราฟิสิกส์ทั้งเล่มเป็นอินพุต ("บริบท") ให้กับโมเดลภาษาขนาดใหญ่ จากนั้นคุณจะป้อนคำสั่งให้โมเดลภาษาขนาดใหญ่นั้นด้วยคำถามเกี่ยวกับฟิสิกส์ หากคำตอบของโมเดลแสดงข้อมูลในตำราเรียนนั้น แสดงว่าโมเดลนั้นอิงตามตำราเรียนนั้น

โปรดทราบว่าโมเดลที่อิงตามข้อมูลพื้นฐานไม่ได้เป็นโมเดลข้อเท็จจริงเสมอไป เช่น ตำราฟิสิกส์ที่ป้อนอาจมีข้อผิดพลาด

ข้อมูลจากการสังเกตการณ์โดยตรง

#fundamentals

เรียลลิตี้

สิ่งที่เกิดขึ้นจริง

ตัวอย่างเช่น ลองพิจารณาการจัดประเภทแบบไบนารี โมเดลที่คาดการณ์ว่านักศึกษาปี 1 ในมหาวิทยาลัย จะสำเร็จการศึกษาภายใน 6 ปีหรือไม่ ความจริงพื้นฐานสำหรับโมเดลนี้คือการที่นักเรียน นักศึกษาจบการศึกษาภายใน 6 ปีหรือไม่

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

เราประเมินคุณภาพโมเดลเทียบกับข้อมูลจากการสังเกตการณ์โดยตรง อย่างไรก็ตาม ความจริง อาจไม่เป็นความจริงเสมอไป ตัวอย่างเช่น ลองพิจารณา ตัวอย่างต่อไปนี้ของข้อบกพร่องที่อาจเกิดขึ้นในความจริงพื้นฐาน

ในตัวอย่างการสำเร็จการศึกษา เราแน่ใจไหมว่าบันทึกการสำเร็จการศึกษา ของนักเรียนแต่ละคนถูกต้องเสมอ มหาวิทยาลัยมี การเก็บบันทึกที่สมบูรณ์แบบไหม
สมมติว่าป้ายกำกับเป็นค่าทศนิยมที่วัดโดยเครื่องมือ (เช่น บารอมิเตอร์) เราจะมั่นใจได้อย่างไรว่าเครื่องมือแต่ละชิ้น ได้รับการปรับเทียบเหมือนกัน หรือการอ่านค่าแต่ละครั้งเกิดขึ้นภายใต้สถานการณ์เดียวกัน
หากป้ายกำกับเป็นเรื่องของความคิดเห็นของมนุษย์ เราจะมั่นใจได้อย่างไรว่าผู้ให้คะแนนแต่ละคนจะประเมินเหตุการณ์ในลักษณะเดียวกัน ผู้เชี่ยวชาญที่เป็นเจ้าหน้าที่อาจเข้ามาแทรกแซงในบางครั้งเพื่อปรับปรุงความสอดคล้อง

อคติในการระบุแหล่งที่มาของกลุ่ม

#responsible

การคิดว่าสิ่งที่จริงสำหรับบุคคลหนึ่งก็จริงสำหรับทุกคน ในกลุ่มนั้นด้วย ผลกระทบของอคติในการระบุแหล่งที่มาของกลุ่มอาจรุนแรงขึ้น หากใช้การสุ่มตัวอย่างตามความสะดวก ในการเก็บรวบรวมข้อมูล ในการสุ่มตัวอย่างที่ไม่เป็นตัวแทน ระบบอาจทำการระบุแหล่งที่มา ซึ่งไม่ตรงกับความเป็นจริง

ดูอคติความเหมือนกันของกลุ่มนอก และอคติในกลุ่มด้วย นอกจากนี้ โปรดดูข้อมูลเพิ่มเติมในความเป็นธรรม: ประเภทของอคติ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

H

อาการหลอนของ AI

#generativeAI

การที่โมเดล Generative AI สร้างเอาต์พุตที่ดูสมเหตุสมผลแต่ไม่ถูกต้องตามข้อเท็จจริง ซึ่งอ้างว่าเป็นการยืนยันเกี่ยวกับโลกแห่งความเป็นจริง ตัวอย่างเช่น โมเดล Generative AI ที่อ้างว่าบารัก โอบามา เสียชีวิตในปี 1865 เป็นอาการหลอน

การแฮช

ในแมชชีนเลิร์นนิง กลไกสำหรับการจัดกลุ่ม ข้อมูลเชิงหมวดหมู่ โดยเฉพาะอย่างยิ่งเมื่อจำนวน หมวดหมู่มีมาก แต่จำนวนหมวดหมู่ที่ปรากฏจริง ในชุดข้อมูลมีน้อยกว่า

ตัวอย่างเช่น โลกมีต้นไม้ประมาณ 73,000 สายพันธุ์ คุณสามารถ แสดงต้นไม้แต่ละสายพันธุ์จากทั้งหมด 73,000 สายพันธุ์ในที่เก็บข้อมูลแบบหมวดหมู่แยกกัน 73,000 ที่ หรือหากมีต้นไม้เพียง 200 ชนิดที่ปรากฏในชุดข้อมูล คุณอาจใช้การแฮชเพื่อแบ่งต้นไม้เป็น 500 บัคเก็ต

ถังเดียวอาจมีต้นไม้หลายชนิด เช่น การแฮช อาจวาง baobab และ red maple ซึ่งเป็น 2 สายพันธุ์ที่แตกต่างกันทางพันธุกรรม ไว้ในที่เดียวกัน อย่างไรก็ตาม การแฮชยังคงเป็นวิธีที่ดีในการ แมปชุดหมวดหมู่ขนาดใหญ่ลงในจำนวนกลุ่มที่เลือก การแฮชจะเปลี่ยนฟีเจอร์เชิงหมวดหมู่ที่มีค่าที่เป็นไปได้จำนวนมากให้เป็นค่าจำนวนน้อยลงมากโดยการจัดกลุ่มค่าในลักษณะที่กำหนด

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงหมวดหมู่: คำศัพท์และการเข้ารหัสแบบ One-Hot ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

ฮิวริสติก

โซลูชันที่เรียบง่ายและนำไปใช้ได้อย่างรวดเร็วเพื่อแก้ปัญหา เช่น "เราใช้ฮิวริสติกเพื่อให้ได้ความแม่นยำ 86% เมื่อเราเปลี่ยนไปใช้ ดีปนิวรอลเน็ตเวิร์ก ความแม่นยำก็เพิ่มขึ้นเป็น 98%"

เลเยอร์ที่ซ่อนอยู่

#fundamentals

เลเยอร์ในโครงข่ายประสาทเทียมระหว่างเลเยอร์อินพุต (ฟีเจอร์) กับเลเยอร์เอาต์พุต (การคาดการณ์) เลเยอร์ที่ซ่อนแต่ละเลเยอร์ประกอบด้วยนิวรอนอย่างน้อย 1 ตัว ตัวอย่างเช่น เครือข่ายประสาทต่อไปนี้มีเลเยอร์ที่ซ่อนไว้ 2 เลเยอร์ เลเยอร์แรกมี 3 นิวรอน และเลเยอร์ที่ 2 มี 2 นิวรอน

โครงข่ายประสาทแบบลึกมีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 เลเยอร์ ตัวอย่างเช่น ภาพประกอบก่อนหน้าเป็นเครือข่ายประสาทเทียมแบบลึกเนื่องจากโมเดลมีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์

ดูข้อมูลเพิ่มเติมได้ที่โครงข่ายประสาทเทียม: โหนดและเลเยอร์ที่ซ่อนอยู่ ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

การจัดกลุ่มแบบลำดับชั้น

#clustering

หมวดหมู่อัลกอริทึมการจัดกลุ่มที่สร้างแผนผังคลัสเตอร์ การจัดกลุ่มแบบลำดับชั้นเหมาะกับข้อมูลลำดับชั้น เช่น การจัดหมวดหมู่ทางพฤกษศาสตร์ อัลกอริทึมการจัดกลุ่มแบบลำดับชั้นมี 2 ประเภท ได้แก่

การจัดกลุ่มแบบรวมกลุ่มจะกำหนดตัวอย่างทั้งหมดให้กับคลัสเตอร์ของตัวเองก่อน และผสานคลัสเตอร์ที่ใกล้ที่สุดซ้ำๆ เพื่อสร้างแผนผังแบบลำดับชั้น
การจัดกลุ่มแบบแบ่งจะจัดกลุ่มตัวอย่างทั้งหมดไว้ในคลัสเตอร์เดียวก่อน จากนั้นจะแบ่งคลัสเตอร์ออกเป็นแผนภูมิลำดับชั้นซ้ำๆ

เปรียบเทียบกับการจัดกลุ่มตามเซนทรอยด์

ดูข้อมูลเพิ่มเติมได้ที่อัลกอริทึม การจัดกลุ่ม ในหลักสูตรการจัดกลุ่ม

การปีนเขา

อัลกอริทึมสำหรับการปรับปรุงโมเดลแมชชีนเลิร์นนิงซ้ำๆ ("เดินขึ้นเขา") จนกว่าโมเดลจะหยุดการปรับปรุง ("ขึ้นถึงยอดเขา") รูปแบบทั่วไป ของอัลกอริทึมมีดังนี้

สร้างโมเดลเริ่มต้น
สร้างโมเดลผู้สมัครใหม่โดยปรับเปลี่ยนเล็กน้อยในวิธีที่คุณฝึกหรือปรับแต่ง ซึ่งอาจต้อง ทำงานกับชุดการฝึกที่แตกต่างกันเล็กน้อยหรือ ไฮเปอร์พารามิเตอร์ที่แตกต่างกัน
ประเมินโมเดลผู้สมัครใหม่และดำเนินการอย่างใดอย่างหนึ่งต่อไปนี้
- หากโมเดลผู้ท้าชิงมีประสิทธิภาพเหนือกว่าโมเดลเริ่มต้น โมเดลผู้ท้าชิงนั้นจะกลายเป็นโมเดลเริ่มต้นใหม่ ในกรณีนี้ ให้ทำขั้นตอนที่ 1, 2 และ 3 ซ้ำ
- หากไม่มีโมเดลใดที่ทำงานได้ดีกว่าโมเดลเริ่มต้น แสดงว่าคุณมาถึงจุดสูงสุดแล้วและควรหยุดการทำซ้ำ

ดูคำแนะนำเกี่ยวกับการปรับแต่งไฮเปอร์พารามิเตอร์ได้ที่เพลย์บุ๊กการปรับแต่งการเรียนรู้เชิงลึก ดูคำแนะนำเกี่ยวกับการออกแบบฟีเจอร์ได้ที่โมดูลข้อมูลของหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การสูญเสียบานพับ

#Metric

ตระกูลฟังก์ชันการสูญเสียสำหรับการจัดประเภทที่ออกแบบมาเพื่อค้นหาขอบเขตการตัดสินใจให้ไกลที่สุดจากตัวอย่างการฝึกแต่ละรายการ จึงเป็นการเพิ่มระยะขอบระหว่างตัวอย่างกับขอบเขตให้ได้มากที่สุด KSVM ใช้การสูญเสียแบบบานพับ (หรือฟังก์ชันที่เกี่ยวข้อง เช่น การสูญเสียแบบบานพับยกกำลังสอง) สําหรับการจัดประเภทแบบไบนารี ฟังก์ชันการสูญเสียแบบบานพับ จะกําหนดดังนี้

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

โดย y คือป้ายกำกับที่แท้จริง ซึ่งอาจเป็น -1 หรือ +1 และ y' คือเอาต์พุตดิบ ของโมเดลการแยกประเภท:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ดังนั้น พล็อตของฟังก์ชันการสูญเสียแบบบานพับเทียบกับ (y * y') จะมีลักษณะดังนี้

พล็อตคาร์ทีเซียนที่ประกอบด้วยส่วนของเส้นตรง 2 ส่วนที่เชื่อมต่อกัน ส่วนของเส้นแรก
เริ่มต้นที่ (-3, 4) และสิ้นสุดที่ (1, 0) ส่วนบรรทัดที่สอง
เริ่มต้นที่ (1, 0) และดำเนินต่อไปเรื่อยๆ โดยมีความชัน
เป็น 0

อคติจากข้อมูลในอดีต

#responsible

อคติประเภทหนึ่งที่มีอยู่แล้วในโลกและแทรกซึมเข้าไปในชุดข้อมูล อคติเหล่านี้มักจะสะท้อนถึง การเหมารวมทางวัฒนธรรมที่มีอยู่ ความไม่เท่าเทียมกันทางประชากร และอคติที่มีต่อกลุ่ม ทางสังคมบางกลุ่ม

ตัวอย่างเช่น ลองพิจารณาโมเดลการจัดประเภทที่ คาดการณ์ว่าผู้สมัครขอสินเชื่อจะผิดนัดชำระหนี้หรือไม่ ซึ่งได้รับการ ฝึกจากข้อมูลการผิดนัดชำระหนี้ย้อนหลังตั้งแต่ปี 1980 จากธนาคารท้องถิ่นใน 2 ชุมชนที่แตกต่างกัน หากผู้สมัครจากชุมชน ก ในอดีตมีแนวโน้มที่จะผิดนัดชำระหนี้มากกว่าผู้สมัครจากชุมชน ข ถึง 6 เท่า โมเดลอาจเรียนรู้จากอคติในอดีต ซึ่งส่งผลให้โมเดลมีแนวโน้มน้อยที่จะอนุมัติเงินกู้ในชุมชน ก แม้ว่าเงื่อนไขในอดีตที่ส่งผลให้อัตราการผิดนัดชำระหนี้ของชุมชนนั้นสูงขึ้นจะไม่มีความเกี่ยวข้องอีกต่อไปก็ตาม

ข้อมูลที่กันไว้

ตัวอย่างที่ไม่ได้ใช้ ("กันไว้") โดยเจตนาในระหว่างการฝึก ชุดข้อมูลการตรวจสอบและชุดข้อมูลการทดสอบเป็นตัวอย่างของข้อมูลที่แยกไว้ ข้อมูลที่กันไว้ ช่วยประเมินความสามารถของโมเดลในการสรุปข้อมูลอื่นๆ นอกเหนือจาก ข้อมูลที่ใช้ฝึก การสูญเสียในชุดข้อมูลที่กันไว้จะช่วยให้ประมาณการสูญเสียในชุดข้อมูลที่ไม่เคยเห็นได้ดีกว่าการสูญเสียในชุดข้อมูลการฝึก

ผู้จัด

#TensorFlow

#GoogleCloud

เมื่อฝึกโมเดล ML บนชิปตัวเร่ง (GPU หรือ TPU) ส่วนของระบบ ที่ควบคุมทั้ง 2 อย่างต่อไปนี้

โฟลว์โดยรวมของโค้ด
การแยกและการแปลงไปป์ไลน์อินพุต

โดยปกติแล้วโฮสต์จะทำงานบน CPU ไม่ใช่ชิปตัวเร่ง ส่วนอุปกรณ์จะจัดการเทนเซอร์บนชิปตัวเร่ง

การประเมินโดยมนุษย์

#generativeAI

กระบวนการที่ผู้ใช้ประเมินคุณภาพของเอาต์พุตโมเดล ML เช่น การให้ผู้ใช้ที่พูดได้ 2 ภาษาประเมินคุณภาพของโมเดลการแปลด้วย ML การประเมินโดยเจ้าหน้าที่จะมีประโยชน์อย่างยิ่งในการประเมินโมเดลที่ไม่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว

เปรียบเทียบกับการประเมินอัตโนมัติและ การประเมินโดยผู้ให้คะแนนอัตโนมัติ

ต้องมีคนคอยตรวจสอบ (HITL)

#generativeAI

สำนวนที่ไม่ได้กำหนดไว้อย่างชัดเจนซึ่งอาจหมายถึงสิ่งใดสิ่งหนึ่งต่อไปนี้

นโยบายการดูผลลัพธ์ของ Generative AI อย่างมีวิจารณญาณหรือ อย่างไม่ปักใจเชื่อ
กลยุทธ์หรือระบบที่ช่วยให้มั่นใจว่าผู้คนจะช่วยกำหนด ประเมิน และปรับแต่ง ลักษณะการทำงานของโมเดล การให้มนุษย์เข้ามามีส่วนร่วมจะช่วยให้ AI ได้รับประโยชน์จาก ทั้งปัญญาประดิษฐ์และความฉลาดของมนุษย์ ตัวอย่างเช่น ระบบที่ AI สร้างโค้ดซึ่งวิศวกรซอฟต์แวร์จะตรวจสอบในภายหลังคือระบบที่มีมนุษย์เป็นผู้ควบคุม

ไฮเปอร์พารามิเตอร์

#fundamentals

ตัวแปรที่คุณหรือบริการปรับแต่ง Hyperparameter ปรับในระหว่างการเรียกใช้การฝึกโมเดลที่ต่อเนื่อง ตัวอย่างเช่น อัตราการเรียนรู้เป็นไฮเปอร์พารามิเตอร์ คุณอาจ ตั้งค่าอัตราการเรียนรู้เป็น 0.01 ก่อนเซสชันการฝึก 1 ครั้ง หากพิจารณาแล้วว่า 0.01 สูงเกินไป คุณอาจตั้งค่าอัตราการเรียนรู้เป็น 0.003 สำหรับเซสชันการฝึกถัดไป

ในทางตรงกันข้าม พารามิเตอร์คือน้ำหนักและอคติต่างๆ ที่โมเดลเรียนรู้ระหว่างการฝึก

ระนาบไฮเปอร์

ขอบเขตที่แบ่งพื้นที่ออกเป็น 2 พื้นที่ย่อย เช่น เส้นคือ ระนาบเหนือใน 2 มิติ และระนาบคือระนาบเหนือใน 3 มิติ โดยทั่วไปในแมชชีนเลิร์นนิง ไฮเปอร์เพลนคือขอบเขตที่แยก พื้นที่ที่มีมิติสูง Kernel Support Vector Machines ใช้ ระนาบไฮเปอร์เพื่อแยกคลาสเชิงบวกออกจากคลาสเชิงลบ ซึ่งมักจะอยู่ในพื้นที่ ที่มีมิติสูงมาก

I

i.i.d.

ตัวย่อของการแจกแจงแบบอิสระและเหมือนกัน

การรู้จำรูปภาพ

กระบวนการที่จัดประเภทออบเจ็กต์ รูปแบบ หรือแนวคิดในรูปภาพ การจดจำรูปภาพเรียกอีกอย่างว่าการจัดประเภทรูปภาพ

ชุดข้อมูลที่ไม่สมดุล

คำพ้องความหมายของชุดข้อมูลที่มีความไม่สมดุลของคลาส

อคติโดยไม่รู้ตัว

#responsible

การเชื่อมโยงหรือการคาดเดาโดยอัตโนมัติตามโมเดลความคิดและความทรงจำของบุคคล อคติแฝงอาจส่งผลต่อสิ่งต่อไปนี้

วิธีเก็บรวบรวมและจัดประเภทข้อมูล
วิธีออกแบบและพัฒนาระบบแมชชีนเลิร์นนิง

ตัวอย่างเช่น เมื่อสร้างโมเดลการจัดประเภท เพื่อระบุรูปภาพงานแต่งงาน วิศวกรอาจใช้การมีชุดสีขาว ในรูปภาพเป็นฟีเจอร์ อย่างไรก็ตาม ชุดสีขาวเป็นธรรมเนียมเฉพาะในบางยุคและบางวัฒนธรรมเท่านั้น

ดูอคติยืนยันความคิดตัวเองด้วย

การประมาณค่า

รูปแบบย่อของการแทนค่า

ความไม่เข้ากันของเมตริกความเป็นธรรม

#responsible

#Metric

แนวคิดที่ว่าแนวคิดเรื่องความยุติธรรมบางอย่างใช้ร่วมกันไม่ได้และ ไม่สามารถตอบสนองพร้อมกันได้ ด้วยเหตุนี้ จึงไม่มีเมตริกเดียวที่ใช้กันทั่วไป ในการวัดความเป็นธรรม ซึ่งนำไปใช้กับปัญหา ML ทั้งหมดได้

แม้ว่าอาจดูเหมือนว่าการวัดความยุติธรรมไม่สอดคล้องกัน ไม่ได้หมายความว่าความพยายามที่จะสร้างความยุติธรรมนั้นไร้ผล แต่กลับแนะนำว่า ต้องกำหนดความเป็นธรรมตามบริบทสำหรับปัญหา ML ที่กำหนด โดยมี เป้าหมายเพื่อป้องกันอันตรายที่เฉพาะเจาะจงกับ Use Case ของปัญหา

ดูรายละเอียดเพิ่มเติมเกี่ยวกับการไม่สามารถใช้เมตริกความเป็นธรรมร่วมกันได้ที่ "On the (im)possibility of fairness"

การเรียนรู้ในบริบท

#generativeAI

คำพ้องความหมายของ Few-Shot Prompting

มีการแจกแจงแบบอิสระและเหมือนกัน (i.i.d)

#fundamentals

ข้อมูลที่ดึงมาจากการกระจายที่ไม่เปลี่ยนแปลง และค่าแต่ละค่า ที่ดึงมาจะไม่ขึ้นอยู่กับค่าที่ดึงมาก่อนหน้านี้ ข้อมูล i.i.d. คือก๊าซในอุดมคติ ของแมชชีน เลิร์นนิง ซึ่งเป็นโครงสร้างทางคณิตศาสตร์ที่มีประโยชน์ แต่แทบจะไม่พบในโลกแห่งความเป็นจริง ตัวอย่างเช่น การกระจายของผู้เข้าชมหน้าเว็บ อาจเป็นแบบ i.i.d. ในช่วงเวลาสั้นๆ นั่นคือ การกระจายจะไม่ เปลี่ยนแปลงในช่วงเวลาสั้นๆ นั้น และโดยทั่วไปแล้วการเข้าชมของบุคคลหนึ่งจะ ไม่ขึ้นอยู่กับการเข้าชมของอีกบุคคลหนึ่ง อย่างไรก็ตาม หากคุณขยายกรอบเวลาดังกล่าว ความแตกต่างตามฤดูกาลของผู้เข้าชมหน้าเว็บอาจปรากฏขึ้น

ดูความไม่คงที่ด้วย

ความเป็นธรรมต่อบุคคล

#responsible

#Metric

เมตริกความเป็นธรรมที่ตรวจสอบว่าบุคคลที่คล้ายกันได้รับการจัดประเภท ในลักษณะเดียวกันหรือไม่ ตัวอย่างเช่น Brobdingnagian Academy อาจต้องการสร้างความเป็นธรรมในระดับบุคคลโดยการรับประกันว่านักเรียน 2 คนที่มีคะแนนเหมือนกันและคะแนนสอบมาตรฐานมีโอกาสเท่ากันที่จะได้รับการตอบรับ

โปรดทราบว่าความเป็นธรรมในระดับบุคคลขึ้นอยู่กับวิธีที่คุณกำหนด "ความคล้ายคลึง" (ในกรณีนี้คือเกรดและคะแนนสอบ) และคุณอาจเสี่ยงต่อการ ทำให้เกิดปัญหาด้านความเป็นธรรมใหม่ๆ หากเมตริกความคล้ายคลึงพลาดข้อมูลสำคัญ (เช่น ความเข้มงวดของหลักสูตรของนักเรียน)

ดูรายละเอียดเพิ่มเติมเกี่ยวกับการพิจารณาความเป็นธรรมในแต่ละบุคคลได้ที่ "ความเป็นธรรมผ่านการรับรู้"

การอนุมาน

#fundamentals

#generativeAI

ในแมชชีนเลิร์นนิงแบบเดิม กระบวนการคาดการณ์จะทำโดย การใช้โมเดลที่ฝึกแล้วกับตัวอย่างที่ไม่ได้ติดป้ายกำกับ ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบมีผู้ดูแลในหลักสูตร Intro to ML

ในโมเดลภาษาขนาดใหญ่ การอนุมานคือ กระบวนการใช้โมเดลที่ฝึกแล้วเพื่อสร้างคำตอบ สำหรับพรอมต์อินพุต

การอนุมานมีความหมายที่แตกต่างออกไปเล็กน้อยในสถิติ ดูรายละเอียดได้ที่ บทความวิกิพีเดียเกี่ยวกับการอนุมานทางสถิติ

เส้นทางการอนุมาน

#df

ในแผนผังการตัดสินใจ ระหว่างการอนุมาน เส้นทางที่ตัวอย่างหนึ่งๆ ใช้จากรูทไปยังเงื่อนไขอื่นๆ โดยสิ้นสุดด้วยลีฟ ตัวอย่างเช่น ในแผนผังการตัดสินใจต่อไปนี้ ลูกศรที่หนาขึ้นแสดงเส้นทางการอนุมานสำหรับตัวอย่างที่มีค่าฟีเจอร์ต่อไปนี้

x = 7
y = 12
z = -3

เส้นทางการอนุมานในภาพประกอบต่อไปนี้จะผ่านเงื่อนไข 3 ข้อ ก่อนที่จะไปถึงลีฟ (Zeta)

แผนผังการตัดสินใจประกอบด้วยเงื่อนไข 4 รายการและใบไม้ 5 ใบ
เงื่อนไขรูทคือ (x > 0) เนื่องจากคำตอบคือ "ใช่" เส้นทางการอนุมานจึงเดินทางจากรูทไปยังเงื่อนไขถัดไป (y > 0)
เนื่องจากคำตอบคือ "ใช่" เส้นทางการอนุมานจึงไปยัง
เงื่อนไขถัดไป (z > 0) เนื่องจากคำตอบคือ "ไม่" เส้นทางการอนุมาน
จึงไปยังโหนดปลายทางซึ่งเป็นโหนดใบ (Zeta)

ลูกศรหนา 3 อันแสดงเส้นทางการอนุมาน

ดูข้อมูลเพิ่มเติมได้ที่แผนผังการตัดสินใจ ในหลักสูตร Decision Forests

การได้ข้อมูล

#df

#Metric

ในป่าการตัดสินใจ ความแตกต่างระหว่างเอนโทรปีของโหนดกับผลรวมของเอนโทรปีของโหนดลูกที่ถ่วงน้ำหนัก (ตามจำนวนตัวอย่าง) เอนโทรปีของโหนดคือเอนโทรปี ของตัวอย่างในโหนดนั้น

ตัวอย่างเช่น ลองพิจารณาค่าเอนโทรปีต่อไปนี้

เอนโทรปีของโหนดหลัก = 0.6
เอนโทรปีของโหนดลูกที่มีตัวอย่างที่เกี่ยวข้อง 16 รายการ = 0.2
เอนโทรปีของโหนดย่อยอีกโหนดหนึ่งที่มีตัวอย่างที่เกี่ยวข้อง 24 รายการ = 0.1

ดังนั้น ตัวอย่าง 40% จึงอยู่ในโหนดลูกโหนดหนึ่ง และอีก 60% อยู่ในโหนดลูกอีกโหนดหนึ่ง ดังนั้น

ผลรวมของเอนโทรปีแบบถ่วงน้ำหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

ดังนั้น การได้ข้อมูลจึงเป็นดังนี้

การได้ข้อมูล = เอนโทรปีของโหนดแม่ - ผลรวมของเอนโทรปีแบบถ่วงน้ำหนักของโหนดลูก
การได้ข้อมูล = 0.6 - 0.14 = 0.46

ตัวแยกส่วนใหญ่พยายามสร้างเงื่อนไข ที่เพิ่มการรับข้อมูลให้ได้มากที่สุด

อคติในกลุ่ม

#responsible

การแสดงความลำเอียงต่อกลุ่มหรือลักษณะของตนเอง หากผู้ทดสอบหรือผู้ให้คะแนนเป็นเพื่อน ครอบครัว หรือเพื่อนร่วมงานของนักพัฒนาแมชชีนเลิร์นนิง อคติในกลุ่มอาจทำให้การทดสอบผลิตภัณฑ์ หรือชุดข้อมูลไม่ถูกต้อง

อคติในกลุ่มเป็นรูปแบบหนึ่งของอคติในการระบุแหล่งที่มาของกลุ่ม ดูอคติความเหมือนกันของกลุ่มนอกด้วย

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ประเภทของอคติใน หลักสูตรเร่งรัดแมชชีนเลิร์นนิง

เครื่องมือสร้างอินพุต

กลไกที่ใช้โหลดข้อมูลลงในโครงข่ายประสาท

คุณอาจคิดว่าเครื่องมือสร้างอินพุตเป็นคอมโพเนนต์ที่รับผิดชอบในการประมวลผล ข้อมูลดิบเป็นเทนเซอร์ ซึ่งจะมีการวนซ้ำเพื่อสร้างกลุ่มสำหรับการ ฝึก การประเมิน และการอนุมาน

เลเยอร์อินพุต

#fundamentals

เลเยอร์ของโครงข่ายระบบประสาทเทียมที่ เก็บเวกเตอร์ฟีเจอร์ กล่าวคือ เลเยอร์อินพุต มีตัวอย่างสำหรับการฝึกหรือ การอนุมาน ตัวอย่างเช่น เลเยอร์อินพุตใน โครงข่ายประสาทเทียมต่อไปนี้ประกอบด้วยฟีเจอร์ 2 รายการ

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต

เงื่อนไขในชุด

#df

ในแผนผังการตัดสินใจ เงื่อนไข ที่ทดสอบการมีอยู่ของสินค้า 1 รายการในชุดสินค้า ตัวอย่างเช่น เงื่อนไขในชุดมีดังนี้

  house-style in [tudor, colonial, cape]

ในระหว่างการอนุมาน หากค่าของฟีเจอร์ รูปแบบของบ้านเป็น tudor หรือ colonial หรือ cape เงื่อนไขนี้จะประเมินเป็น "ใช่" หากค่าของฟีเจอร์รูปแบบการเขียนเป็นอย่างอื่น (เช่น ranch) เงื่อนไขนี้จะประเมินเป็น "ไม่"

โดยปกติแล้ว เงื่อนไขในชุดจะทำให้ได้แผนผังการตัดสินใจที่มีประสิทธิภาพมากกว่าเงื่อนไขที่ทดสอบฟีเจอร์ที่เข้ารหัสแบบ One-Hot

อินสแตนซ์

คำพ้องความหมายของตัวอย่าง

การปรับแต่งคำสั่ง

#generativeAI

รูปแบบหนึ่งของการปรับแต่งที่ช่วยเพิ่มความสามารถของโมเดล Generative AI ในการทำตามคำสั่ง การปรับแต่งตามคำสั่งเกี่ยวข้องกับการฝึกโมเดลในชุดพรอมต์คำสั่ง ซึ่งโดยทั่วไปจะครอบคลุมงานที่หลากหลาย จากนั้นโมเดลที่ได้รับการปรับแต่งตามคำสั่งมักจะ สร้างคำตอบที่มีประโยชน์สำหรับ พรอมต์แบบ Zero-Shot ในงานต่างๆ

เปรียบเทียบกับ

การปรับแต่งที่มีประสิทธิภาพด้านพารามิเตอร์
การปรับแต่งพรอมต์

ความสามารถในการตีความ

#fundamentals

ความสามารถในการอธิบายหรือนำเสนอการให้เหตุผลของโมเดล ML ใน รูปแบบที่มนุษย์เข้าใจได้

ตัวอย่างเช่น โมเดลการถดถอยเชิงเส้นส่วนใหญ่สามารถตีความได้สูง (คุณเพียงแค่ต้องดูน้ำหนักที่ฝึกแล้วสำหรับแต่ละฟีเจอร์) นอกจากนี้ Decision Forest ยังตีความได้สูงอีกด้วย อย่างไรก็ตาม โมเดลบางอย่าง ต้องใช้การแสดงภาพที่ซับซ้อนจึงจะตีความได้

คุณใช้เครื่องมือการตีความการเรียนรู้ (LIT) เพื่อตีความโมเดล ML ได้

ความสอดคล้องระหว่างผู้ประเมิน

#Metric

การวัดความถี่ที่ผู้ให้คะแนนที่เป็นมนุษย์เห็นด้วยเมื่อทำงาน หากผู้ให้คะแนนไม่เห็นด้วย คุณอาจต้องปรับปรุงวิธีการของงาน บางครั้งเรียกว่าความสอดคล้องระหว่างผู้ใส่คำอธิบายประกอบหรือ ความน่าเชื่อถือระหว่างผู้ให้คะแนน ดูค่าแคปปาของโคเฮนด้วย ซึ่งเป็นหนึ่งในการวัดข้อตกลงระหว่างผู้ประเมินที่ได้รับความนิยมมากที่สุด

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงหมวดหมู่: ปัญหาที่พบบ่อย ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

Intersection over Union (IoU)

อินเทอร์เซกชันของ 2 ชุดหารด้วยยูเนียนของชุดเหล่านั้น ในงานตรวจหาภาพด้วยแมชชีนเลิร์นนิง IoU ใช้เพื่อวัดความแม่นยำของกรอบล้อมรอบที่โมเดลคาดการณ์เทียบกับกรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรง ในกรณีนี้ IoU สำหรับกรอบ 2 กรอบคืออัตราส่วนระหว่างพื้นที่ที่ซ้อนทับกันกับพื้นที่ทั้งหมด และค่าของ IoU จะอยู่ในช่วงตั้งแต่ 0 (ไม่มีการซ้อนทับกันของกรอบล้อมรอบที่คาดการณ์ไว้กับกรอบล้อมรอบของข้อมูลจากการสังเกตการณ์โดยตรง) ถึง 1 (กรอบล้อมรอบที่คาดการณ์ไว้กับกรอบล้อมรอบของข้อมูลจากการสังเกตการณ์โดยตรงมีพิกัดเดียวกันทุกประการ)

ตัวอย่างเช่น ในรูปภาพด้านล่าง

กรอบล้อมรอบที่คาดการณ์ (พิกัดที่กำหนดขอบเขตตำแหน่งที่โมเดล คาดการณ์ว่าโต๊ะข้างเตียงในภาพวาดอยู่) จะมีเส้นขอบสีม่วง
กรอบล้อมรอบความจริงภาคพื้น (พิกัดที่กำหนดขอบเขตของตำแหน่งที่โต๊ะข้างเตียงในภาพวาดอยู่จริง) จะมีเส้นขอบสีเขียว

ในที่นี้ ส่วนตัดของกรอบล้อมรอบสำหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างซ้าย) คือ 1 และส่วนรวมของกรอบล้อมรอบสำหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างขวา) คือ 7 ดังนั้น IoU จึงเท่ากับ $\frac{1}{7}$

รูปภาพเดียวกันกับด้านบน แต่แบ่งกรอบล้อมรอบแต่ละกรอบออกเป็น 4
ส่วน มีทั้งหมด 7 ช่อง เนื่องจากช่องขวาล่างของกรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรงและช่องซ้ายบนของกรอบล้อมรอบที่คาดการณ์ไว้ซ้อนทับกัน ส่วนที่
ทับซ้อนกันนี้ (ไฮไลต์เป็นสีเขียว) แสดงถึง
ส่วนที่ตัดกัน และมีพื้นที่เท่ากับ 1

รูปภาพเดียวกันกับด้านบน แต่แบ่งกรอบล้อมรอบแต่ละกรอบออกเป็น 4
ส่วน มีทั้งหมด 7 ส่วน เนื่องจากส่วนขวาล่างของกรอบล้อมรอบความจริงภาคพื้นดินและส่วนซ้ายบนของกรอบล้อมรอบที่คาดการณ์ทับซ้อนกัน
พื้นที่ภายในทั้งหมดที่ล้อมรอบด้วยกล่องขอบเขตทั้ง 2 กล่อง
(ไฮไลต์เป็นสีเขียว) แสดงถึงการรวมกันและมี
พื้นที่เท่ากับ 7

IoU

ตัวย่อของ Intersection over Union

เมทริกซ์รายการ

ในระบบการแนะนำ จะมีเมทริกซ์ของเวกเตอร์การฝังที่สร้างขึ้นโดยการแยกตัวประกอบเมทริกซ์ ซึ่งมีสัญญาณแฝงเกี่ยวกับรายการแต่ละรายการ แต่ละแถวของเมทริกซ์สินค้าจะมีค่าของฟีเจอร์แฝงเดียวสำหรับสินค้าทั้งหมด ตัวอย่างเช่น พิจารณาระบบแนะนำภาพยนตร์ แต่ละคอลัมน์ ในเมทริกซ์รายการจะแสดงภาพยนตร์ 1 เรื่อง สัญญาณแฝง อาจแสดงถึงประเภท หรืออาจเป็นสัญญาณที่ตีความได้ยากกว่า ซึ่งเกี่ยวข้องกับการโต้ตอบที่ซับซ้อนระหว่างประเภทภาพยนตร์ ดารา อายุของภาพยนตร์ หรือปัจจัยอื่นๆ

เมทริกซ์รายการมีจำนวนคอลัมน์เท่ากับเมทริกซ์เป้าหมาย ที่กำลังแยกตัวประกอบ ตัวอย่างเช่น หากมีระบบแนะนำภาพยนตร์ที่ประเมินชื่อภาพยนตร์ 10,000 เรื่อง เมทริกซ์รายการจะมี 10,000 คอลัมน์

รายการ

ในระบบการแนะนำ เอนทิตีที่ระบบแนะนำ เช่น วิดีโอคือรายการที่ร้านวิดีโอแนะนำ ส่วนหนังสือคือรายการที่ร้านหนังสือแนะนำ

การทำซ้ำ

#fundamentals

การอัปเดตพารามิเตอร์ของโมเดลเพียงครั้งเดียว ซึ่งก็คือน้ำหนักและอคติของโมเดลระหว่างการฝึก ขนาดกลุ่มจะกำหนด จำนวนตัวอย่างที่โมเดลประมวลผลในการทำซ้ำครั้งเดียว เช่น หากขนาดกลุ่มคือ 20 โมเดลจะประมวลผลตัวอย่าง 20 รายการก่อน ปรับพารามิเตอร์

เมื่อฝึกโครงข่ายระบบประสาทเทียม การทำซ้ำครั้งเดียว จะเกี่ยวข้องกับการส่งผ่าน 2 ครั้งต่อไปนี้

การส่งต่อเพื่อประเมินการสูญเสียในกลุ่มเดียว
การส่งผ่านย้อนกลับ (การแพร่ย้อนกลับ) เพื่อปรับ พารามิเตอร์ของโมเดลตามการสูญเสียและอัตราการเรียนรู้

ดูข้อมูลเพิ่มเติมได้ที่การไล่ระดับสี ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

J

JAX

ไลบรารีการประมวลผลอาร์เรย์ที่รวมXLA (Accelerated Linear Algebra) และการหาอนุพันธ์อัตโนมัติ สำหรับการประมวลผลเชิงตัวเลขประสิทธิภาพสูง JAX มี API ที่เรียบง่ายและมีประสิทธิภาพ สำหรับการเขียนโค้ดตัวเลขที่เร่งความเร็วด้วยการเปลี่ยนรูปแบบที่ประกอบได้ JAX มีฟีเจอร์ต่างๆ เช่น

grad (การหาอนุพันธ์อัตโนมัติ)
jit (การคอมไพล์แบบทันที)
vmap (การแปลงเป็นเวกเตอร์หรือการจัดกลุ่มอัตโนมัติ)
pmap (การประมวลผลแบบคู่ขนาน)

JAX เป็นภาษาสำหรับแสดงและเรียบเรียงการแปลงโค้ดตัวเลข ซึ่งคล้ายกับไลบรารี NumPy ของ Python แต่มีขอบเขตที่กว้างกว่ามาก (ในความเป็นจริงแล้ว ไลบรารี .numpy ใน JAX มีฟังก์ชันการทำงานเทียบเท่ากัน แต่เป็นเวอร์ชันที่เขียนใหม่ทั้งหมดของไลบรารี NumPy ของ Python)

JAX เหมาะอย่างยิ่งสำหรับการเร่งความเร็วงานแมชชีนเลิร์นนิงหลายอย่าง โดยการแปลงโมเดลและข้อมูลให้อยู่ในรูปแบบที่เหมาะกับการทำงานแบบคู่ขนาน ใน GPU และTPU ชิปตัวเร่ง

Flax, Optax, Pax และไลบรารีอื่นๆ อีกมากมาย สร้างขึ้นบนโครงสร้างพื้นฐานของ JAX

K

Keras

API แมชชีนเลิร์นนิงของ Python ที่ได้รับความนิยม Keras ทํางานบน เฟรมเวิร์กการเรียนรู้เชิงลึกหลายรายการ รวมถึง TensorFlow ซึ่งมีให้ใช้งานเป็น tf.keras

Kernel Support Vector Machines (KSVM)

อัลกอริทึมการจัดประเภทที่พยายามเพิ่มระยะขอบระหว่างคลาสเชิงบวกและคลาสเชิงลบโดยการแมปเวกเตอร์ข้อมูลอินพุตไปยังพื้นที่ที่มีมิติสูงกว่า ตัวอย่างเช่น พิจารณาปัญหาการจัดประเภท ซึ่งชุดข้อมูลอินพุต มีฟีเจอร์ 100 รายการ KSVM สามารถจับคู่ฟีเจอร์เหล่านั้นภายในเป็นพื้นที่ที่มีมิติข้อมูล 1 ล้านมิติเพื่อเพิ่มระยะขอบระหว่าง คลาสที่เป็นบวกและคลาสที่เป็นลบให้ได้มากที่สุด KSVM ใช้ Loss Function ที่เรียกว่า hinge loss

คีย์พอยต์

พิกัดของฟีเจอร์ที่เฉพาะเจาะจงในรูปภาพ เช่น สำหรับโมเดลการจดจำรูปภาพที่แยกแยะสายพันธุ์ดอกไม้ จุดสำคัญอาจเป็นจุดกึ่งกลางของกลีบดอกแต่ละกลีบ ก้าน เกสรตัวผู้ และอื่นๆ

การตรวจสอบความถูกต้องแบบไขว้ k-fold

อัลกอริทึมสําหรับการคาดการณ์ความสามารถของโมเดลในการสรุปข้อมูลใหม่ k ใน k-fold หมายถึงจำนวนกลุ่มที่เท่ากันที่คุณแบ่งตัวอย่างของชุดข้อมูลออกเป็น นั่นคือ คุณฝึกและทดสอบโมเดล k ครั้ง สำหรับการฝึกและทดสอบแต่ละรอบ กลุ่มที่แตกต่างกันจะเป็นชุดทดสอบ และกลุ่มที่เหลือทั้งหมดจะกลายเป็นชุดฝึก หลังจากฝึกและทดสอบ k รอบแล้ว ให้คำนวณค่าเฉลี่ยและ ส่วนเบี่ยงเบนมาตรฐานของเมตริกการทดสอบที่เลือก

เช่น สมมติว่าชุดข้อมูลของคุณมีตัวอย่าง 120 รายการ สมมติว่าคุณตัดสินใจตั้งค่า k เป็น 4 ดังนั้นหลังจากสับเปลี่ยนตัวอย่างแล้ว คุณจะแบ่งชุดข้อมูลออกเป็น 4 กลุ่มเท่าๆ กัน กลุ่มละ 30 ตัวอย่าง และทำการฝึกและทดสอบ 4 รอบ ดังนี้

ชุดข้อมูลที่แบ่งออกเป็น 4 กลุ่มตัวอย่างที่เท่ากัน ในรอบที่ 1
กลุ่มแรก 3 กลุ่มใช้สำหรับการฝึก และกลุ่มสุดท้าย
ใช้สำหรับการทดสอบ ในรอบที่ 2 เราใช้ 2 กลุ่มแรกและกลุ่มสุดท้าย
ในการฝึก ส่วนกลุ่มที่ 3 ใช้ในการ
ทดสอบ ในรอบที่ 3 กลุ่มแรกและ 2 กลุ่มสุดท้ายจะใช้สำหรับการฝึก ส่วนกลุ่มที่ 2 จะใช้สำหรับการทดสอบ
ในรอบที่ 4 กลุ่มแรกใช้สำหรับการทดสอบ ส่วน 3 กลุ่มสุดท้ายใช้สำหรับการฝึก

ตัวอย่างเช่น ความคลาดเคลื่อนเฉลี่ยกำลังสอง (MSE) อาจเป็นเมตริกที่มีความหมายมากที่สุดสำหรับโมเดลการถดถอยเชิงเส้น ดังนั้น คุณ จึงควรหาค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของ MSE ในทั้ง 4 รอบ

k-means

#clustering

อัลกอริทึมการจัดกลุ่มยอดนิยมที่จัดกลุ่มตัวอย่าง ในการเรียนรู้แบบไม่มีการควบคุมดูแล โดยพื้นฐานแล้ว อัลกอริทึม K-means จะทำสิ่งต่อไปนี้

กำหนดจุดศูนย์กลาง k ที่ดีที่สุดซ้ำๆ (เรียกว่าเซนทรอยด์)
กำหนดตัวอย่างแต่ละรายการไปยังเซนทรอยด์ที่ใกล้ที่สุด ตัวอย่างที่อยู่ใกล้ จุดศูนย์กลางเดียวกันจะอยู่ในกลุ่มเดียวกัน

อัลกอริทึม k-means จะเลือกตำแหน่งจุดศูนย์กลางเพื่อลดสี่เหลี่ยมจัตุรัสสะสมของระยะทางจากแต่ละตัวอย่างไปยังจุดศูนย์กลางที่ใกล้ที่สุด

ตัวอย่างเช่น ลองพิจารณาพล็อตความสูงของสุนัขเทียบกับความกว้างของสุนัขต่อไปนี้

พล็อตคาร์ทีเซียนที่มีจุดข้อมูลหลายสิบจุด

หาก k=3 อัลกอริทึม K-means จะกำหนดจุดศูนย์กลาง 3 จุด ระบบจะกำหนดตัวอย่างแต่ละรายการ ให้กับจุดศูนย์กลางที่ใกล้ที่สุด ทำให้ได้ 3 กลุ่ม ดังนี้

พล็อตคาร์ทีเซียนเดียวกันกับในภาพก่อนหน้า แต่เพิ่มจุดศูนย์กลาง 3 จุด
ระบบจะจัดกลุ่มจุดข้อมูลก่อนหน้าเป็น 3 กลุ่มที่แตกต่างกัน
โดยแต่ละกลุ่มจะแสดงจุดข้อมูลที่ใกล้กับเซนทรอยด์ที่เฉพาะเจาะจงมากที่สุด

สมมติว่าผู้ผลิตต้องการกำหนดขนาดที่เหมาะสมที่สุดสำหรับเสื้อสเวตเตอร์ขนาดเล็ก กลาง และใหญ่สำหรับสุนัข เซนทรอยด์ทั้ง 3 ระบุความสูงเฉลี่ยและความกว้างเฉลี่ยของสุนัขแต่ละตัวในคลัสเตอร์นั้น ดังนั้น ผู้ผลิต ควรใช้จุดศูนย์กลางทั้ง 3 จุดนี้เป็นพื้นฐานในการกำหนดขนาดเสื้อสเวตเตอร์ โปรดทราบว่า โดยทั่วไปแล้ว จุดศูนย์กลางของคลัสเตอร์ไม่ใช่ตัวอย่างในคลัสเตอร์

ภาพประกอบก่อนหน้าแสดง k-means สำหรับตัวอย่างที่มีฟีเจอร์เพียง 2 รายการ (ความสูงและความกว้าง) โปรดทราบว่า K-Means สามารถจัดกลุ่มตัวอย่าง ในฟีเจอร์ต่างๆ ได้

ดูข้อมูลเพิ่มเติมได้ที่การจัดกลุ่ม K-means คืออะไร ในหลักสูตรการจัดกลุ่ม

k-median

#clustering

อัลกอริทึมการจัดกลุ่มที่เกี่ยวข้องอย่างใกล้ชิดกับ k-means ความแตกต่างในทางปฏิบัติระหว่างทั้ง 2 อย่างมีดังนี้

ใน K-Means เซนทรอยด์จะกำหนดโดยการลดผลรวมของกำลังสองของระยะห่างระหว่างเซนทรอยด์ที่เป็นไปได้กับแต่ละตัวอย่าง
ใน k-median ระบบจะกำหนดจุดศูนย์กลางโดยการลดผลรวมของ ระยะห่างระหว่างจุดศูนย์กลางที่เป็นไปได้กับแต่ละตัวอย่าง

โปรดทราบว่าคำจำกัดความของระยะทางก็แตกต่างกันด้วย

K-means อาศัยระยะทางแบบยุคลิดจาก จุดศูนย์กลางไปยังตัวอย่าง (ใน 2 มิติ ระยะทางแบบยุคลิดหมายถึงการใช้ทฤษฎีบทพีทาโกรัสเพื่อคำนวณด้านตรงข้ามมุมฉาก) ตัวอย่างเช่น ระยะทาง k-means ระหว่าง (2,2) กับ (5,-2) จะเป็นดังนี้

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-median อาศัย ระยะทางแมนฮัตตัน จากจุดศูนย์กลางไปยังตัวอย่าง ระยะทางนี้คือผลรวมของ เดลต้าสัมบูรณ์ในแต่ละมิติ ตัวอย่างเช่น ระยะทาง k-มัธยฐาน ระหว่าง (2,2) กับ (5,-2) จะเป็นดังนี้

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularization แบบ L₀

#fundamentals

การทำให้เป็นปกติประเภทหนึ่งที่ ลงโทษจำนวนทั้งหมดของน้ำหนักที่ไม่ใช่ศูนย์ ในโมเดล เช่น โมเดลที่มีน้ำหนักที่ไม่ใช่ 0 จำนวน 11 รายการ จะถูกลงโทษมากกว่าโมเดลที่คล้ายกันซึ่งมีน้ำหนักที่ไม่ใช่ 0 จำนวน 10 รายการ

บางครั้งเราเรียก Regularization แบบ L₀ ว่า Regularization แบบ L0-norm

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

โดยทั่วไปแล้ว การทำให้เป็นปกติ L₀ จะไม่สามารถใช้ได้ในโมเดลขนาดใหญ่เนื่องจาก การทำให้เป็นปกติ L₀ จะเปลี่ยนการฝึกให้เป็นปัญหาการเพิ่มประสิทธิภาพแบบนูน

แพ้ ₁ นัด

#fundamentals

#Metric

ฟังก์ชันการสูญเสียที่คำนวณค่าสัมบูรณ์ของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น ต่อไปนี้คือการคำนวณการสูญเสีย L₁ สำหรับกลุ่มของตัวอย่าง 5 รายการ

ค่าจริงของตัวอย่าง	ค่าที่โมเดลคาดการณ์	ค่าสัมบูรณ์ของเดลต้า
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = การสูญเสีย L₁

การสูญเสีย L₁ มีความไวต่อค่าผิดปกติน้อยกว่าการสูญเสีย L₂

ค่าเฉลี่ยความผิดพลาดสัมบูรณ์คือการสูญเสีย _L1 โดยเฉลี่ยต่อตัวอย่าง

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

where:

$n$ คือจำนวนตัวอย่าง
$y$ คือค่าจริงของป้ายกำกับ
$\hat{y}$ คือค่าที่โมเดลคาดการณ์สำหรับ $y$

ดูข้อมูลเพิ่มเติมได้ที่ การถดถอยเชิงเส้น: การสูญเสีย ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

Regularization แบบ L₁

#fundamentals

การทำให้เป็นปกติประเภทหนึ่งที่ลงโทษน้ำหนักตามสัดส่วนของผลรวมค่าสัมบูรณ์ของน้ำหนัก การปรับค่า L₁ ช่วยให้ค่าถ่วงน้ำหนักของฟีเจอร์ที่ไม่เกี่ยวข้อง หรือแทบไม่เกี่ยวข้องกลายเป็น 0 อย่างแน่นอน ฟีเจอร์ที่มีน้ำหนักเป็น 0 จะถูกนำออกจากโมเดล

เปรียบเทียบกับ L₂ Regularization

การสูญเสีย L₂

#fundamentals

#Metric

ฟังก์ชันการสูญเสียที่คำนวณกำลังสอง ของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น ต่อไปนี้คือการคำนวณการสูญเสีย L₂ สำหรับกลุ่มของตัวอย่าง 5 รายการ

ค่าจริงของตัวอย่าง	ค่าที่โมเดลคาดการณ์	สี่เหลี่ยมของเดลต้า
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ loss

เนื่องจากการยกกำลังสอง การสูญเสีย L₂ จึงขยายอิทธิพลของค่าผิดปกติ กล่าวคือ การสูญเสีย L₂ จะตอบสนองต่อการคาดการณ์ที่ไม่ดีมากกว่าการสูญเสีย L₁ เช่น การสูญเสีย L₁ สำหรับกลุ่มก่อนหน้าจะเป็น 8 แทนที่จะเป็น 16 โปรดสังเกตว่าบัญชีที่ผิดปกติเพียงบัญชีเดียว คิดเป็น 9 จาก 16 รายการ

โมเดลการถดถอยมักใช้ Loss L₂ เป็น Loss Function

ความคลาดเคลื่อนเฉลี่ยกำลังสองคือการสูญเสีย _L2 โดยเฉลี่ยต่อตัวอย่าง Squared loss เป็นอีกชื่อหนึ่งของ L₂ loss

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

where:

$n$ คือจำนวนตัวอย่าง
$y$ คือค่าจริงของป้ายกำกับ
$\hat{y}$ คือค่าที่โมเดลคาดการณ์สำหรับ $y$

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยโลจิสติก: การสูญเสียและ การทำให้เป็นปกติ ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

การทำ Regularization แบบ L₂

#fundamentals

การทำให้เป็นปกติประเภทหนึ่งที่ลงโทษน้ำหนักตามสัดส่วนของผลยกกำลังสองของน้ำหนัก การปรับค่า L₂ ช่วยให้ค่าน้ำหนักค่าผิดปกติ (ค่าที่มีค่าบวกสูงหรือค่าลบต่ำ) เข้าใกล้ 0 มากขึ้น แต่ไม่ถึง 0 ฟีเจอร์ที่มีค่าใกล้ 0 มากจะยังคงอยู่ในโมเดล แต่จะไม่ส่งผลต่อการคาดการณ์ของโมเดลมากนัก

การทำให้เป็นมาตรฐาน L₂ จะปรับปรุงการสรุปในโมเดลเชิงเส้นเสมอ

เปรียบเทียบกับ L₁ Regularization

ดูข้อมูลเพิ่มเติมได้ที่การปรับมากเกินไป: การปรับ L2 ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ป้ายกำกับ

#fundamentals

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล ส่วน "คำตอบ" หรือ "ผลลัพธ์" ของตัวอย่าง

ตัวอย่างที่ติดป้ายกำกับแต่ละรายการประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างเช่น ในชุดข้อมูลการตรวจหาสแปม ป้ายกำกับน่าจะเป็น "สแปม" หรือ "ไม่ใช่สแปม" ในชุดข้อมูลปริมาณน้ำฝน ป้ายกำกับอาจเป็นปริมาณ น้ำฝนที่ตกลงมาในช่วงระยะเวลาหนึ่ง

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบมีครู ในข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

ตัวอย่างที่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่างที่ติดป้ายกำกับ 3 รายการจากโมเดลการประเมินบ้าน โดยแต่ละรายการมีฟีเจอร์ 3 รายการและป้ายกำกับ 1 รายการ

จำนวนห้องนอน	จำนวนห้องน้ำ	อายุของบ้าน	ราคาบ้าน (ป้ายกำกับ)
3	2	15	$345,000
2	1	72	$179,000
4	2	34	$392,000

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกกับตัวอย่างที่ติดป้ายกำกับและทำการคาดการณ์กับ ตัวอย่างที่ไม่มีป้ายกำกับ

เปรียบเทียบตัวอย่างที่มีป้ายกำกับกับตัวอย่างที่ไม่มีป้ายกำกับ

การรั่วไหลของป้ายกำกับ

ข้อบกพร่องในการออกแบบโมเดลซึ่งฟีเจอร์เป็นตัวแทนของ ป้ายกำกับ ตัวอย่างเช่น ลองพิจารณารูปแบบการแยกประเภทไบนารีที่คาดการณ์ว่าลูกค้าที่มีแนวโน้มจะซื้อผลิตภัณฑ์หนึ่งๆ หรือไม่ สมมติว่าฟีเจอร์หนึ่งของโมเดลเป็นบูลีนชื่อ SpokeToCustomerAgent สมมติว่าตัวแทนลูกค้าจะได้รับมอบหมายหลังจากผู้มีโอกาสเป็นลูกค้าซื้อผลิตภัณฑ์แล้ว ในระหว่างการฝึก โมเดลจะเรียนรู้ความสัมพันธ์ระหว่าง SpokeToCustomerAgent กับป้ายกำกับอย่างรวดเร็ว

ดูข้อมูลเพิ่มเติมได้ที่การตรวจสอบ ไปป์ไลน์ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

lambda

#fundamentals

คำพ้องความหมายของอัตราการปรับ

Lambda เป็นคำที่มีการใช้งานมากเกินไป ในที่นี้เราจะมุ่งเน้นที่คำจำกัดความของคำว่า การทำให้เป็นปกติ

LaMDA (โมเดลภาษาสำหรับแอปพลิเคชันด้านการโต้ตอบ หรือ Language Model for Dialogue Applications)

โมเดลภาษาขนาดใหญ่ที่อิงตามTransformer พัฒนาโดย Google ซึ่งได้รับการฝึกจากชุดข้อมูลการสนทนาขนาดใหญ่ที่สามารถสร้างคำตอบที่เป็นการสนทนาที่สมจริง

LaMDA: เทคโนโลยีการสนทนา ที่ก้าวล้ำของเราให้ภาพรวม

จุดสังเกต

คำพ้องความหมายของประเด็นสำคัญ

โมเดลภาษา

โมเดลที่ประมาณความน่าจะเป็นของโทเค็น หรือลำดับของโทเค็นที่เกิดขึ้นในลำดับโทเค็นที่ยาวขึ้น

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

แม้จะดูขัดกับสัญชาตญาณ แต่โมเดลจำนวนมากที่ประเมินข้อความไม่ใช่โมเดลภาษา เช่น โมเดลการจัดประเภทข้อความและโมเดลการวิเคราะห์ความรู้สึกไม่ใช่โมเดลภาษา

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาคืออะไร ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โมเดลภาษาขนาดใหญ่

#generativeAI

อย่างน้อยที่สุด โมเดลภาษาที่มีพารามิเตอร์จำนวนมาก หรือจะพูดอย่างไม่เป็นทางการก็ได้ว่าโมเดลภาษาที่อิงตามTransformer เช่น Gemini หรือ GPT

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ (LLM) ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เวลาในการตอบสนอง

#generativeAI

เวลาที่โมเดลใช้ในการประมวลผลอินพุตและสร้างคำตอบ การตอบสนองที่มีเวลาในการตอบสนองสูงจะใช้เวลาในการสร้างนานกว่าการตอบสนองที่มีเวลาในการตอบสนองต่ำ

ปัจจัยที่มีผลต่อเวลาในการตอบสนองของโมเดลภาษาขนาดใหญ่ ได้แก่

ความยาวของโทเค็นอินพุตและเอาต์พุต
ความซับซ้อนของโมเดล
โครงสร้างพื้นฐานที่โมเดลทำงานอยู่

การเพิ่มประสิทธิภาพเพื่อลดเวลาในการตอบสนองเป็นสิ่งสำคัญในการสร้างแอปพลิเคชันที่ตอบสนองและเป็นมิตรกับผู้ใช้

พื้นที่แฝง

คำพ้องความหมายของพื้นที่การฝัง

เลเยอร์

#fundamentals

ชุดนิวรอนในโครงข่ายระบบประสาทเทียม เลเยอร์ 3 ประเภทที่ใช้กันทั่วไป มีดังนี้

เลเยอร์อินพุต ซึ่งให้ค่าสำหรับฟีเจอร์ทั้งหมด
เลเยอร์ที่ซ่อนอย่างน้อย 1 เลเยอร์ ซึ่งจะค้นหา ความสัมพันธ์แบบไม่เชิงเส้นระหว่างฟีเจอร์กับป้ายกำกับ
เลเยอร์เอาต์พุตซึ่งให้การคาดการณ์

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโครงข่ายประสาทเทียมที่มีเลเยอร์อินพุต 1 เลเยอร์ เลเยอร์ที่ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์

โครงข่ายประสาทที่มีเลเยอร์อินพุต 1 เลเยอร์ เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และ
เลเยอร์เอาต์พุต 1 เลเยอร์ เลเยอร์อินพุตประกอบด้วยฟีเจอร์ 2 รายการ เลเยอร์ที่ซ่อนเลเยอร์แรกประกอบด้วยนิวรอน 3 ตัว และเลเยอร์ที่ซ่อนเลเยอร์ที่ 2 ประกอบด้วยนิวรอน 2 ตัว เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

ใน TensorFlow เลเยอร์ยังเป็นฟังก์ชัน Python ที่รับTensor และตัวเลือกการกำหนดค่าเป็นอินพุต และสร้าง Tensor อื่นๆ เป็นเอาต์พุต

Layers API (tf.layers)

#TensorFlow

API ของ TensorFlow สำหรับสร้างดีปนิวรัลเน็ตเวิร์ก เป็นองค์ประกอบของเลเยอร์ Layers API ช่วยให้คุณสร้างเลเยอร์ประเภทต่างๆ ได้ เช่น

tf.layers.Dense สำหรับเลเยอร์ที่เชื่อมต่ออย่างเต็มรูปแบบ
tf.layers.Conv2D สำหรับเลเยอร์ Convolutional

Layers API เป็นไปตามรูปแบบ API ของเลเยอร์ Keras กล่าวคือ นอกเหนือจากคำนำหน้าที่แตกต่างกัน ฟังก์ชันทั้งหมดใน Layers API มีชื่อและลายเซ็นเหมือนกับฟังก์ชันที่เทียบเท่าใน Keras layers API

ใบไม้

#df

จุดสิ้นสุดในแผนผังการตัดสินใจ Leaf จะไม่ทำการทดสอบ ซึ่งต่างจากเงื่อนไข แต่ใบไม้คือการคาดการณ์ที่เป็นไปได้ ใบยังเป็นโหนดสุดท้ายของเส้นทางการอนุมานด้วย

ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้มี 3 ใบ

แผนผังการตัดสินใจที่มี 2 เงื่อนไขซึ่งนำไปสู่ 3 ใบ

ดูข้อมูลเพิ่มเติมได้ที่แผนผังการตัดสินใจ ในหลักสูตร Decision Forests

เครื่องมือตีความการเรียนรู้ (LIT)

เครื่องมือแบบภาพและแบบอินเทอร์แอกทีฟสำหรับทำความเข้าใจโมเดลและการแสดงข้อมูลผ่านภาพ

คุณสามารถใช้ LIT แบบโอเพนซอร์สเพื่อตีความโมเดล หรือเพื่อแสดงภาพข้อความ รูปภาพ และข้อมูลตาราง

อัตราการเรียนรู้

#fundamentals

จำนวนลอยตัวที่บอกอัลกอริทึมการไล่ระดับสี ว่าควรปรับน้ำหนักและอคติในแต่ละการทำซ้ำมากน้อยเพียงใด ตัวอย่างเช่น อัตราการเรียนรู้ที่ 0.3 จะปรับน้ำหนักและอคติได้แรงกว่าอัตราการเรียนรู้ที่ 0.1 ถึง 3 เท่า

อัตราการเรียนรู้เป็นไฮเปอร์พารามิเตอร์ที่สำคัญ หากตั้งค่า อัตราการเรียนรู้ต่ำเกินไป การฝึกจะใช้เวลานานเกินไป หาก คุณตั้งค่าอัตราการเรียนรู้สูงเกินไป การไล่ระดับการไล่ระดับมักจะมีปัญหาในการ เข้าถึงการบรรจบกัน

คลิกไอคอนเพื่อดูคำอธิบายทางคณิตศาสตร์เพิ่มเติม

ในแต่ละการทำซ้ำ อัลกอริทึม การไล่ระดับการไล่ระดับ จะคูณอัตราการเรียนรู้ด้วยการไล่ระดับ ผลิตภัณฑ์ที่ได้จะเรียกว่าขั้นตอนการไล่ระดับสี

การถดถอยแบบกำลังสองน้อยที่สุด

โมเดลการถดถอยเชิงเส้นที่ฝึกโดยการลด การสูญเสีย _L2

ระยะทางเลเวนชไตน์

#metric

เมตริกระยะทางในการแก้ไขที่คำนวณการดำเนินการลบ แทรก และแทนที่ที่น้อยที่สุดซึ่งจำเป็นต่อการเปลี่ยนคำหนึ่งเป็นอีกคำหนึ่ง ตัวอย่างเช่น ระยะทางเลเวนชไตน์ระหว่างคำว่า "heart" และ "darts" คือ 3 เนื่องจากมีการแก้ไข 3 รายการต่อไปนี้ ซึ่งเป็นการเปลี่ยนแปลงที่น้อยที่สุดในการเปลี่ยน คำหนึ่งเป็นอีกคำหนึ่ง

heart → deart (แทนที่ "h" ด้วย "d")
deart → dart (ลบ "e")
dart → darts (แทรก "s")

โปรดทราบว่าลำดับก่อนหน้าไม่ใช่เส้นทางการแก้ไข 3 รายการเพียงเส้นทางเดียว

เชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่แสดงได้โดยการบวกและการคูณเท่านั้น

พล็อตของความสัมพันธ์เชิงเส้นคือเส้นตรง

แตกต่างจากไม่ปรากฏร่วมกับเนื้อหา

รูปแบบเชิงเส้น

#fundamentals

โมเดลที่กำหนดน้ำหนัก 1 รายการต่อ ฟีเจอร์เพื่อทำการคาดการณ์ (รูปแบบเชิงเส้นยังรวมอคติด้วย) ในทางตรงกันข้าม ความสัมพันธ์ของฟีเจอร์กับการคาดการณ์ในโมเดลแบบลึก โดยทั่วไปแล้วจะไม่ใช่เชิงเส้น

โดยปกติแล้ว โมเดลเชิงเส้นจะฝึกได้ง่ายกว่าและตีความได้มากกว่าโมเดลเชิงลึก อย่างไรก็ตาม โมเดลเชิงลึกสามารถเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างฟีเจอร์ต่างๆ ได้

การถดถอยเชิงเส้นและ การถดถอยโลจิสติกเป็นโมเดลเชิงเส้น 2 ประเภท

คลิกไอคอนเพื่อดูคณิตศาสตร์

รูปแบบเชิงเส้นมีสูตรดังนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

where:

y' คือการคาดการณ์ดิบ (ในโมเดลเชิงเส้นบางประเภท ระบบจะแก้ไขการคาดการณ์ดิบนี้เพิ่มเติม เช่น ดู การถดถอยแบบโลจิสติก)
b คือค่าอคติ
w คือน้ำหนัก ดังนั้น w₁ คือน้ำหนักของฟีเจอร์แรก, w₂ คือน้ำหนักของฟีเจอร์ที่ 2 และอื่นๆ
x คือฟีเจอร์ ดังนั้น x₁ คือ ค่าของฟีเจอร์แรก x₂ คือค่าของฟีเจอร์ที่ 2 และอื่นๆ

ตัวอย่างเช่น สมมติว่ารูปแบบเชิงเส้นสำหรับฟีเจอร์ 3 รายการเรียนรู้ค่าต่อไปนี้ อคติและน้ำหนัก

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

ดังนั้น เมื่อพิจารณาฟีเจอร์ 3 อย่าง (x₁, x₂ และ x₃) โมเดลเชิงเส้นจะใช้สมการต่อไปนี้ เพื่อสร้างการคาดการณ์แต่ละรายการ

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

สมมติว่าตัวอย่างหนึ่งมีค่าต่อไปนี้

x₁ = 4
x₂ = -10
x₃ = 5

การป้อนค่าเหล่านั้นลงในสูตรจะให้ค่าการคาดการณ์สำหรับตัวอย่างนี้

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

แบบจำลองเชิงเส้นไม่เพียงรวมถึงแบบจำลองที่ใช้สมการเชิงเส้นเท่านั้นในการคาดการณ์ แต่ยังรวมถึงชุดแบบจำลองที่กว้างขึ้นซึ่งใช้สมการเชิงเส้นเป็นเพียงองค์ประกอบหนึ่งของสูตรที่ทำการคาดการณ์ ตัวอย่างเช่น การถดถอยโลจิสติกส์จะประมวลผลภายหลังการคาดการณ์ดิบ (y') เพื่อสร้างค่าการคาดการณ์สุดท้ายระหว่าง 0 ถึง 1 โดยไม่รวมค่าดังกล่าว

การถดถอยเชิงเส้น

#fundamentals

โมเดลแมชชีนเลิร์นนิงประเภทหนึ่งซึ่งมีลักษณะดังต่อไปนี้

โมเดลนี้เป็นโมเดลเชิงเส้น
การคาดการณ์เป็นค่าทศนิยม (นี่คือส่วนการถดถอยของการถดถอยเชิงเส้น)

เปรียบเทียบการถดถอยเชิงเส้นกับการถดถอยแบบโลจิสติก นอกจากนี้ ให้เปรียบเทียบการถดถอยกับการจัดประเภทด้วย

LIT

ตัวย่อของ เครื่องมือการตีความการเรียนรู้ (LIT) ซึ่งก่อนหน้านี้เรียกว่าเครื่องมือการตีความภาษา

LLM

#generativeAI

ตัวย่อของโมเดลภาษาขนาดใหญ่

การประเมิน LLM (Evals)

#generativeAI

#Metric

ชุดเมตริกและการเปรียบเทียบสำหรับประเมินประสิทธิภาพของ โมเดลภาษาขนาดใหญ่ (LLM) การประเมิน LLM ในระดับสูงมีดังนี้

ช่วยนักวิจัยระบุจุดที่ LLM ต้องปรับปรุง
มีประโยชน์ในการเปรียบเทียบ LLM ต่างๆ และระบุ LLM ที่ดีที่สุดสำหรับงานหนึ่งๆ
ช่วยให้มั่นใจว่า LLM จะปลอดภัยและมีจริยธรรมในการใช้งาน

การถดถอยแบบโลจิสติก

#fundamentals

โมเดลการถดถอยประเภทหนึ่งที่คาดการณ์ความน่าจะเป็น โมเดลการถดถอยลอจิสติกมีลักษณะดังนี้

ป้ายกำกับเป็นเชิงหมวดหมู่ โดยปกติแล้วคำว่าการถดถอยโลจิสติกจะหมายถึงการถดถอยโลจิสติกแบบไบนารี ซึ่งก็คือ โมเดลที่คำนวณความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้ 2 ค่า การถดถอยโลจิสติกแบบมัลติโนเมียล ซึ่งเป็นรูปแบบที่พบได้น้อยกว่า จะคำนวณ ความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า
ฟังก์ชันการสูญเสียระหว่างการฝึกคือLog Loss (วางหน่วย Log Loss หลายหน่วยแบบขนานกันสําหรับป้ายกํากับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่าได้)
โมเดลนี้มีสถาปัตยกรรมเชิงเส้น ไม่ใช่โครงข่ายประสาทเทียมแบบลึก อย่างไรก็ตาม คําจํากัดความที่เหลือนี้ยังใช้กับโมเดลเชิงลึกที่คาดการณ์ความน่าจะเป็น สําหรับป้ายกํากับเชิงหมวดหมู่ด้วย

ตัวอย่างเช่น พิจารณาโมเดลการถดถอยโลจิสติกส์ที่คำนวณ ความน่าจะเป็นของอีเมลขาเข้าที่อาจเป็นสแปมหรือไม่ใช่สแปม ในระหว่างการอนุมาน สมมติว่าโมเดลคาดการณ์ 0.72 ดังนั้น โมเดลจึงประมาณค่าต่อไปนี้

มีโอกาส 72% ที่อีเมลจะเป็นจดหมายขยะ
มีโอกาส 28% ที่อีเมลจะไม่ใช่จดหมายขยะ

โมเดลการถดถอยโลจิสติกใช้สถาปัตยกรรม 2 ขั้นตอนต่อไปนี้

โมเดลจะสร้างการคาดการณ์ดิบ (y') โดยใช้ฟังก์ชันเชิงเส้น ของฟีเจอร์อินพุต
โมเดลใช้การคาดการณ์ดิบดังกล่าวเป็นอินพุตสำหรับฟังก์ชันซิกมอยด์ ซึ่งจะแปลงการคาดการณ์ดิบ เป็นค่าระหว่าง 0 ถึง 1 โดยไม่รวม 0 และ 1

โมเดลการถดถอยแบบโลจิสติกจะคาดการณ์ตัวเลขเช่นเดียวกับโมเดลการถดถอยอื่นๆ อย่างไรก็ตาม โดยปกติแล้วตัวเลขนี้จะกลายเป็นส่วนหนึ่งของโมเดลการจัดประเภทแบบไบนารี ดังนี้

หากตัวเลขที่คาดการณ์มากกว่า เกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสที่เป็นบวก
หากตัวเลขที่คาดการณ์น้อยกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสเชิงลบ

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยโลจิสติก ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ลอจิท

เวกเตอร์ของการคาดการณ์ดิบ (ไม่ได้รับการทำให้เป็นมาตรฐาน) ที่โมเดลการจัดประเภท สร้างขึ้น ซึ่งโดยปกติแล้วจะส่งไปยังฟังก์ชันการทำให้เป็นมาตรฐาน หากโมเดลกำลังแก้ปัญหาการแยกประเภทหลายคลาส โดยทั่วไปแล้ว ลอจิทจะกลายเป็นอินพุตของฟังก์ชัน ซอฟต์แม็กซ์ จากนั้นฟังก์ชัน Softmax จะสร้างเวกเตอร์ของความน่าจะเป็น (ที่ทำให้เป็นมาตรฐานแล้ว) โดยมีค่า 1 ค่าสำหรับแต่ละคลาสที่เป็นไปได้

การสูญเสียของบันทึก

#fundamentals

Loss Function ที่ใช้ในการถดถอยลอจิสติกแบบไบนารี

คลิกไอคอนเพื่อดูคณิตศาสตร์

สูตรต่อไปนี้ใช้ในการคำนวณ Log Loss

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

where:

$(x,y)\in D$ คือชุดข้อมูลที่มีตัวอย่างที่ติดป้ายกำกับไว้จำนวนมาก ซึ่งเป็น $(x,y)$ คู่
$y$ คือป้ายกำกับในตัวอย่างที่มีป้ายกำกับ เนื่องจากเป็นการถดถอยโลจิสติก ค่าของ $y$ ทุกค่าต้องเป็น 0 หรือ 1
$y'$ คือค่าที่คาดการณ์ (อยู่ระหว่าง 0 ถึง 1 แต่ไม่รวม 0 และ 1) เมื่อพิจารณาชุดฟีเจอร์ใน $x$

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยโลจิสติก: การสูญเสียและการทำให้เป็นปกติ ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

ล็อกออดส์

#fundamentals

ลอการิทึมของอัตราต่อรองของเหตุการณ์

คลิกไอคอนเพื่อดูคณิตศาสตร์

หากเหตุการณ์เป็นความน่าจะเป็นแบบไบนารี odds จะหมายถึง อัตราส่วนของความน่าจะเป็นที่จะสำเร็จ (p) ต่อความน่าจะเป็นที่จะ ล้มเหลว (1-p) ตัวอย่างเช่น สมมติว่าเหตุการณ์หนึ่งมีความน่าจะเป็นที่จะสำเร็จ 90% และมีความน่าจะเป็นที่จะไม่สำเร็จ 10% ในกรณีนี้ ระบบจะคำนวณ อัตราต่อรองดังนี้

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Log-odds คือลอการิทึมของ Odds ตามธรรมเนียมแล้ว "ลอการิทึม" หมายถึงลอการิทึมธรรมชาติ แต่จริงๆ แล้วลอการิทึมอาจเป็นฐานใดก็ได้ที่มากกว่า 1 ดังนั้น ตามธรรมเนียมแล้ว ล็อกออดส์ของตัวอย่างจึงเป็นดังนี้

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

ฟังก์ชันลอการิทึมของอัตราส่วนของความน่าจะเป็นคือส่วนกลับของฟังก์ชันซิกมอยด์

หน่วยความจำระยะยาวแบบสั้น (LSTM)

ประเภทของเซลล์ในเครือข่ายประสาทแบบเกิดซ้ำที่ใช้ในการประมวลผลลำดับข้อมูลในแอปพลิเคชันต่างๆ เช่น การจดจำลายมือ การแปลด้วยเครื่อง และการสร้างคำบรรยายภาพ LSTM แก้ปัญหาการไล่ระดับสีที่หายไปซึ่ง เกิดขึ้นเมื่อฝึก RNN เนื่องจากลำดับข้อมูลที่ยาวโดยการเก็บประวัติไว้ใน สถานะหน่วยความจำภายในตามอินพุตใหม่และบริบทจากเซลล์ก่อนหน้าใน RNN

LoRA

#generativeAI

คำย่อของ Low-Rank Adaptability

แพ้

#fundamentals

#Metric

ในระหว่างการฝึกโมเดลภายใต้การควบคุม จะมีการวัดว่าการคาดการณ์ของโมเดลอยู่ห่างจากป้ายกำกับมากน้อยเพียงใด

ฟังก์ชันการสูญเสียจะคำนวณการสูญเสีย

ดูข้อมูลเพิ่มเติมได้ที่ Linear regression: Loss ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

ผู้รวบรวมข้อมูลการสูญเสีย

อัลกอริทึมประเภทแมชชีนเลิร์นนิงที่ ปรับปรุงประสิทธิภาพของโมเดล โดยการรวมการคาดการณ์ของโมเดลหลายรายการและ ใช้การคาดการณ์เหล่านั้นเพื่อทำการคาดการณ์รายการเดียว ด้วยเหตุนี้ เครื่องมือรวบรวมการสูญเสียจึงช่วยลดความแปรปรวนของการคาดการณ์และ ปรับปรุงความแม่นยำของการคาดการณ์ได้

เส้นโค้งการสูญเสีย

#fundamentals

พล็อตของการสูญเสียเป็นฟังก์ชันของจำนวนการทำซ้ำในการฝึก พล็อตต่อไปนี้แสดงเส้นโค้งการสูญเสียทั่วไป

กราฟคาร์ทีเซียนของค่าความสูญเสียเทียบกับการวนซ้ำของการฝึก โดยแสดง
ค่าความสูญเสียที่ลดลงอย่างรวดเร็วสำหรับการวนซ้ำครั้งแรก ตามด้วยการ
ลดลงอย่างค่อยเป็นค่อยไป และจากนั้นเป็นเส้นตรงในช่วงการวนซ้ำสุดท้าย

เส้นโค้งการสูญเสียช่วยให้คุณพิจารณาได้ว่าโมเดลบรรจบกันหรือฟิตมากเกินไปเมื่อใด

เส้นโค้งการสูญเสียสามารถพล็อตการสูญเสียประเภทต่อไปนี้ทั้งหมด

การสูญเสียการฝึก
การสูญเสียการตรวจสอบ
การสูญเสียการทดสอบ

ดูเส้นโค้งการสรุปด้วย

ดูข้อมูลเพิ่มเติมได้ที่การปรับมากเกินไป: การตีความเส้นโค้งการสูญเสีย ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

ฟังก์ชันการสูญเสีย

#fundamentals

#Metric

ในระหว่างการฝึกหรือการทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่คำนวณ การสูญเสียในกลุ่มตัวอย่าง ฟังก์ชันการสูญเสียจะส่งคืนการสูญเสียที่ต่ำกว่า สำหรับโมเดลที่ทำการคาดการณ์ได้ดีกว่าโมเดลที่ทำการคาดการณ์ ได้ไม่ดี

โดยปกติแล้วเป้าหมายของการฝึกคือการลดการสูญเสียที่ฟังก์ชันการสูญเสีย ส่งคืน

ฟังก์ชันการสูญเสียมีหลายประเภท เลือกฟังก์ชันการสูญเสียที่เหมาะสม สำหรับโมเดลประเภทที่คุณสร้าง เช่น

การสูญเสีย _L2 (หรือข้อผิดพลาดกำลังสองเฉลี่ย) คือฟังก์ชันการสูญเสียสำหรับการถดถอยเชิงเส้น
Log Loss คือฟังก์ชันการสูญเสียสำหรับ การถดถอยโลจิสติก

พื้นผิวการสูญเสีย

กราฟของน้ำหนักเทียบกับความสูญเสีย การไล่ระดับความชันมีเป้าหมาย เพื่อค้นหาน้ำหนักที่พื้นผิวการสูญเสียอยู่ที่ค่าต่ำสุดในพื้นที่

เอฟเฟกต์การสูญเสียระหว่างกลาง

แนวโน้มของ LLM ในการใช้ข้อมูลจากจุดเริ่มต้นและจุดสิ้นสุดของหน้าต่างบริบทที่ยาวนานได้อย่างมีประสิทธิภาพมากกว่าข้อมูลจากตรงกลาง กล่าวคือ เมื่อมีบริบทที่ยาว เอฟเฟกต์ "หลงทางตรงกลาง" จะทำให้ความแม่นยำเป็นดังนี้

ค่อนข้างสูงเมื่อข้อมูลที่เกี่ยวข้องในการสร้างคำตอบอยู่ใกล้จุดเริ่มต้นหรือจุดสิ้นสุดของบริบท
ค่อนข้างต่ำ เมื่อข้อมูลที่เกี่ยวข้องในการสร้างคำตอบอยู่ตรงกลางของบริบท

คำนี้มาจากบทความLost in the Middle: How Language Models Use Long Contexts

ความสามารถในการปรับตัวแบบ Low-Rank (LoRA)

#generativeAI

เทคนิคประหยัดพารามิเตอร์สำหรับ การปรับแต่งที่ "ตรึง" น้ำหนักที่ฝึกไว้ล่วงหน้าของโมเดล (เพื่อให้แก้ไขไม่ได้อีกต่อไป) แล้วแทรกชุดน้ำหนักที่ฝึกได้จำนวนเล็กน้อย ลงในโมเดล ชุดน้ำหนักที่ฝึกได้นี้ (หรือที่เรียกว่า "เมทริกซ์การอัปเดต") มีขนาดเล็กกว่าโมเดลพื้นฐานอย่างมาก จึงฝึกได้เร็วกว่ามาก

LoRA มีประโยชน์ดังนี้

ปรับปรุงคุณภาพการคาดการณ์ของโมเดลสำหรับโดเมนที่มีการปรับแต่ง
ปรับแต่งได้เร็วกว่าเทคนิคที่ต้องปรับแต่งพารามิเตอร์ทั้งหมดของโมเดล
ลดต้นทุนการคำนวณของการอนุมานโดยการเปิดใช้ การแสดงพร้อมกันของโมเดลเฉพาะทางหลายรายการที่ใช้โมเดลพื้นฐานเดียวกัน

คลิกไอคอนเพื่อดูข้อมูลเพิ่มเติมเกี่ยวกับเมทริกซ์การอัปเดตใน LoRA

เมทริกซ์การอัปเดตที่ใช้ใน LoRA ประกอบด้วยเมทริกซ์การแยกอันดับ ซึ่งได้มาจากโมเดลพื้นฐานเพื่อช่วยกรองสัญญาณรบกวนและ มุ่งเน้นการฝึกในฟีเจอร์ที่สำคัญที่สุดของโมเดล

LSTM

ตัวย่อของ Long Short-Term Memory

M

แมชชีนเลิร์นนิง

#fundamentals

โปรแกรมหรือระบบที่ฝึก โมเดลจากข้อมูลที่ป้อน โมเดลที่ฝึกแล้วจะคาดการณ์ข้อมูลใหม่ (ไม่เคยเห็นมาก่อน) ที่ดึงมาจาก การกระจายเดียวกันกับที่ใช้ฝึกโมเดลได้

แมชชีนเลิร์นนิงยังหมายถึงสาขาวิชาที่เกี่ยวข้องกับโปรแกรมหรือระบบเหล่านี้ด้วย

ดูข้อมูลเพิ่มเติมได้ในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

การแปลด้วยคอมพิวเตอร์

#generativeAI

การใช้ซอฟต์แวร์ (โดยปกติคือโมเดลแมชชีนเลิร์นนิง) เพื่อแปลงข้อความจาก ภาษาหนึ่งของมนุษย์เป็นอีกภาษาหนึ่งของมนุษย์ เช่น จากอังกฤษเป็น ญี่ปุ่น

คลาสส่วนใหญ่

#fundamentals

ป้ายกำกับที่พบบ่อยกว่าในชุดข้อมูลที่มีความไม่สมดุลของคลาส ตัวอย่างเช่น หากชุดข้อมูลมีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงลบจะเป็นคลาสส่วนใหญ่

เปรียบเทียบกับคลาสส่วนน้อย

ดูข้อมูลเพิ่มเติมได้ที่ชุดข้อมูล: ชุดข้อมูลที่ไม่สมดุล ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

กระบวนการตัดสินใจแบบมาร์คอฟ (MDP)

กราฟที่แสดงรูปแบบการตัดสินใจซึ่งมีการตัดสินใจ (หรือการดำเนินการ) เพื่อไปยังลำดับของสถานะภายใต้สมมติฐานว่าคุณสมบัติมาร์คอฟเป็นจริง ในการเรียนรู้แบบเสริมกำลัง การเปลี่ยนสถานะเหล่านี้ จะแสดงผลรางวัลที่เป็นตัวเลข

คุณสมบัติมาร์คอฟ

คุณสมบัติของสภาพแวดล้อมบางอย่าง ซึ่งการเปลี่ยนสถานะ จะพิจารณาจากข้อมูลที่อยู่ในสถานะปัจจุบันและการดำเนินการของเอเจนต์โดยสมบูรณ์

โมเดลภาษาที่มาสก์

โมเดลภาษาที่คาดการณ์ความน่าจะเป็นของ โทเค็นผู้สมัครเพื่อเติมช่องว่างในลำดับ ตัวอย่างเช่น โมเดลภาษาที่มาสก์สามารถคำนวณความน่าจะเป็นของคำที่ต้องการ เพื่อแทนที่ขีดเส้นใต้ในประโยคต่อไปนี้

____ ในหมวกกลับมาแล้ว

โดยปกติแล้ว เอกสารจะใช้สตริง "MASK" แทนขีดล่าง เช่น

"MASK" ในหมวกกลับมาแล้ว

โมเดลภาษาที่มาสก์สมัยใหม่ส่วนใหญ่เป็นแบบสองทิศทาง

math-pass@k

เมตริกที่ใช้กำหนดความแม่นยำของ LLM ในการแก้โจทย์คณิตศาสตร์ภายใน K ครั้ง ตัวอย่างเช่น math-pass@2 จะวัดความสามารถของ LLM ในการแก้โจทย์คณิตศาสตร์ ภายใน 2 ครั้ง ความแม่นยำ 0.85 ใน math-pass@2 แสดงให้เห็นว่า LLM สามารถแก้โจทย์คณิตศาสตร์ได้ 85% ของเวลาภายใน 2 ครั้ง

math-pass@k เหมือนกับเมตริก pass@k ทุกประการ ยกเว้น คำว่า math-pass@k ใช้สำหรับการประเมินคณิตศาสตร์โดยเฉพาะ

matplotlib

ไลบรารีการพล็อต 2 มิติของ Python แบบโอเพนซอร์ส matplotlib ช่วยให้คุณเห็นภาพ แง่มุมต่างๆ ของแมชชีนเลิร์นนิง

การแยกตัวประกอบเมทริกซ์

ในคณิตศาสตร์ กลไกในการค้นหาเมทริกซ์ที่มีผลคูณจุดประมาณเมทริกซ์เป้าหมาย

ในระบบการแนะนำ เมทริกซ์เป้าหมาย มักจะมีการให้คะแนนของผู้ใช้เกี่ยวกับรายการ ตัวอย่างเช่น เมทริกซ์เป้าหมาย สำหรับระบบแนะนำภาพยนตร์อาจมีลักษณะดัง ต่อไปนี้ โดยจำนวนเต็มบวกคือคะแนนที่ผู้ใช้ให้ และ 0 หมายความว่าผู้ใช้ไม่ได้ให้คะแนนภาพยนตร์

	คาสซาบลางกา	The Philadelphia Story	แบล็ค แพนเธอร์ (Black Panther)	Wonder Woman	Pulp Fiction
ผู้ใช้ 1	5.0	3.0	0.0	2.0	0.0
ผู้ใช้ 2	4.0	0.0	0.0	1.0	5.0
ผู้ใช้ 3	3.0	1.0	4.0	5.0	0.0

ระบบแนะนำภาพยนตร์มีเป้าหมายเพื่อคาดการณ์การให้คะแนนภาพยนตร์ที่ยังไม่ได้รับการจัดประเภทของผู้ใช้ เช่น ผู้ใช้ 1 จะชอบ Black Panther ไหม

แนวทางหนึ่งสำหรับระบบการแนะนำคือการใช้การแยกตัวประกอบเมทริกซ์ เพื่อสร้างเมทริกซ์ 2 รายการต่อไปนี้

เมทริกซ์ผู้ใช้ในรูปแบบจํานวนผู้ใช้ X จํานวนมิติข้อมูลการฝัง
เมทริกซ์รายการที่มีรูปร่างเป็นจำนวนมิติการฝัง X จำนวนรายการ

ตัวอย่างเช่น การใช้การแยกเมทริกซ์กับผู้ใช้ 3 รายและสินค้า 5 รายการ อาจให้เมทริกซ์ผู้ใช้และเมทริกซ์สินค้าต่อไปนี้

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

ผลคูณของเมทริกซ์ผู้ใช้และเมทริกซ์รายการจะให้เมทริกซ์คำแนะนำ ซึ่งไม่เพียงมีคะแนนเดิมของผู้ใช้ แต่ยังมีค่าที่คาดการณ์ สำหรับภาพยนตร์ที่ผู้ใช้แต่ละคนยังไม่เคยดูด้วย ตัวอย่างเช่น ลองพิจารณาคะแนนที่ผู้ใช้ 1 ให้กับคาซาบลังกา ซึ่งเท่ากับ 5.0 ผลิตภัณฑ์ที่สอดคล้องกับเซลล์นั้นในเมทริกซ์คำแนะนำควรมีค่าประมาณ 5.0 และมีค่าดังนี้

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

และที่สำคัญกว่านั้นคือ ผู้ใช้ 1 จะชอบ Black Panther ไหม การนำผลคูณของเวกเตอร์ ที่สอดคล้องกับแถวแรกและคอลัมน์ที่สามจะให้คะแนนที่คาดการณ์ไว้ เป็น 4.3

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

โดยปกติแล้วการแยกตัวประกอบเมทริกซ์จะให้เมทริกซ์ผู้ใช้และเมทริกซ์สินค้าที่เมื่อรวมกันแล้วจะกะทัดรัดกว่าเมทริกซ์เป้าหมายอย่างมาก

MBPP

#Metric

ตัวย่อของ Mostly Basic Python Problems

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ (MAE)

#Metric

การสูญเสียเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย _L1 คำนวณค่าเฉลี่ยความผิดพลาดสัมบูรณ์ดังนี้

คำนวณการสูญเสีย L₁ สำหรับกลุ่ม
หารการสูญเสีย L₁ ด้วยจำนวนตัวอย่างในกลุ่ม

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

ที่ไหน

$n$ คือจำนวนตัวอย่าง
$y$ คือค่าจริงของป้ายกำกับ
$\hat{y}$ คือค่าที่โมเดลคาดการณ์สำหรับ $y$

ตัวอย่างเช่น ลองพิจารณาการคำนวณการสูญเสีย L₁ ในชุดตัวอย่าง 5 รายการต่อไปนี้

ค่าจริงของตัวอย่าง	ค่าที่โมเดลคาดการณ์	การสูญเสีย (ความแตกต่างระหว่างค่าจริงกับค่าที่คาดการณ์)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = การสูญเสีย L₁

ดังนั้นการสูญเสีย L₁ คือ 8 และจำนวนตัวอย่างคือ 5 ดังนั้นค่าเฉลี่ยความผิดพลาดสัมบูรณ์จึงเป็นดังนี้

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

เปรียบเทียบค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์กับความคลาดเคลื่อนเฉลี่ยกำลังสองและสแควรูทของความคลาดเคลื่อนกำลังสองเฉลี่ย

ความแม่นยำของค่าเฉลี่ยที่ k (mAP@k)

#generativeAI

#Metric

ค่าเฉลี่ยทางสถิติของคะแนนความแม่นยำเฉลี่ยที่ k ทั้งหมดในชุดข้อมูลการตรวจสอบ การใช้ความแม่นยำเฉลี่ยที่ตำแหน่ง k อย่างหนึ่งคือการประเมิน คุณภาพของคำแนะนำที่สร้างโดยระบบแนะนำ

แม้ว่าวลี "ค่าเฉลี่ย" จะฟังดูซ้ำซ้อน แต่ชื่อของเมตริก ก็เหมาะสมแล้ว เนื่องจากเมตริกนี้จะหาค่าเฉลี่ยของค่าความแม่นยำเฉลี่ยที่ k หลายค่า

คลิกไอคอนเพื่อดูตัวอย่าง

สมมติว่าคุณสร้างระบบคำแนะนำที่สร้างรายการนิยายแนะนำที่ปรับเปลี่ยนในแบบของคุณ สำหรับผู้ใช้แต่ละราย จากความคิดเห็นของผู้ใช้ที่เลือก คุณจะคำนวณคะแนนความแม่นยำเฉลี่ยที่ k ทั้ง 5 รายการต่อไปนี้ (คะแนน 1 รายการต่อผู้ใช้)

0.73
0.77
0.67
0.82
0.76

ดังนั้นความแม่นยำเฉลี่ยที่ K จึงเป็น

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

ความคลาดเคลื่อนเฉลี่ยกำลังสอง (MSE)

#Metric

การสูญเสียเฉลี่ยต่อตัวอย่างเมื่อใช้L₂ loss คำนวณความคลาดเคลื่อนเฉลี่ยกำลังสองดังนี้

คำนวณการสูญเสีย L₂ สำหรับกลุ่ม
หารการสูญเสีย L₂ ด้วยจำนวนตัวอย่างในกลุ่ม

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ โดยมีรายละเอียดดังนี้

$n$ คือจำนวนตัวอย่าง
$y$ คือค่าจริงของป้ายกำกับ
$\hat{y}$ คือการคาดการณ์ของโมเดลสำหรับ $y$

ตัวอย่างเช่น ลองพิจารณาการสูญเสียในกลุ่มตัวอย่าง 5 รายการต่อไปนี้

มูลค่าที่แท้จริง	การคาดการณ์ของโมเดล	แพ้	การสูญเสียกำลังสอง
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = L₂ loss

ดังนั้น ความคลาดเคลื่อนเฉลี่ยกำลังสองจึงเป็น

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

ความคลาดเคลื่อนเฉลี่ยกำลังสองเป็นเครื่องมือเพิ่มประสิทธิภาพการฝึกยอดนิยม โดยเฉพาะอย่างยิ่งสำหรับการถดถอยเชิงเส้น

เปรียบเทียบความคลาดเคลื่อนกำลังสองเฉลี่ยกับค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์และค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง

TensorFlow Playground ใช้ข้อผิดพลาดกำลังสองเฉลี่ย เพื่อคำนวณค่าการสูญเสีย

คลิกไอคอนเพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับค่าผิดปกติ

ค่าผิดปกติมีผลอย่างมากต่อความคลาดเคลื่อนเฉลี่ยกำลังสอง เช่น การสูญเสีย 1 คือการสูญเสียกำลังสองของ 1 แต่การสูญเสีย 3 คือการสูญเสียกำลังสองของ 9 ในตารางก่อนหน้า ตัวอย่างที่มีการสูญเสีย 3 บัญชีคิดเป็นประมาณ 56% ของข้อผิดพลาดกำลังสองเฉลี่ย ในขณะที่แต่ละตัวอย่างที่มีการสูญเสีย 1 บัญชีคิดเป็นเพียง 6% ของข้อผิดพลาดกำลังสองเฉลี่ย

ค่าผิดปกติไม่ส่งผลต่อค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์มากเท่ากับ ความคลาดเคลื่อนเฉลี่ยกำลังสอง เช่น การสูญเสีย 3 บัญชีสำหรับข้อผิดพลาดสัมบูรณ์เฉลี่ยเพียง ~38%

การตัดค่าเป็นวิธีหนึ่งในการป้องกันไม่ให้ค่าผิดปกติที่มากเกินไปทำลายความสามารถในการคาดการณ์ของโมเดล

Mesh

#TensorFlow

#GoogleCloud

ในการเขียนโปรแกรมแบบขนาน ML คำที่เกี่ยวข้องกับการกำหนดข้อมูลและโมเดลให้กับชิป TPU และการกำหนดวิธีที่จะแยกส่วนหรือจำลองค่าเหล่านี้

Mesh เป็นคำที่มีความหมายหลากหลาย ซึ่งอาจหมายถึงสิ่งใดสิ่งหนึ่งต่อไปนี้

เลย์เอาต์จริงของชิป TPU
โครงสร้างเชิงตรรกะแบบนามธรรมสำหรับการแมปข้อมูลและโมเดลกับชิป TPU

ไม่ว่าในกรณีใดก็ตาม ระบบจะระบุตาข่ายเป็นรูปร่าง

การเรียนรู้แบบเมตา

ส่วนย่อยของแมชชีนเลิร์นนิงที่ค้นพบหรือปรับปรุงอัลกอริทึมการเรียนรู้ ระบบการเรียนรู้แบบเมตาอาจมีเป้าหมายในการฝึกโมเดลให้เรียนรู้ งานใหม่ได้อย่างรวดเร็วจากข้อมูลจำนวนเล็กน้อยหรือจากประสบการณ์ที่ได้รับในงานก่อนหน้า โดยทั่วไปแล้ว อัลกอริทึมเมตาเลิร์นนิงจะพยายามทำให้ได้ผลลัพธ์ต่อไปนี้

ปรับปรุงหรือเรียนรู้ฟีเจอร์ที่สร้างขึ้นด้วยมือ (เช่น ตัวเริ่มต้นหรือ ตัวเพิ่มประสิทธิภาพ)
มีประสิทธิภาพด้านข้อมูลและการประมวลผลมากขึ้น
ปรับปรุงการสรุป

Meta-learning เกี่ยวข้องกับการเรียนรู้แบบ Few-Shot

เมตริก

#TensorFlow

#Metric

สถิติที่คุณสนใจ

วัตถุประสงค์คือเมตริกที่ระบบแมชชีนเลิร์นนิง พยายามเพิ่มประสิทธิภาพ

Metrics API (tf.metrics)

#Metric

API ของ TensorFlow สำหรับการประเมินโมเดล เช่น tf.metrics.accuracy จะกำหนดความถี่ที่การคาดการณ์ของโมเดลตรงกับป้ายกำกับ

มินิแบทช์

#fundamentals

กลุ่มเล็กๆ ที่สุ่มเลือกมาซึ่งประมวลผลในการทำซ้ำครั้งเดียว โดยปกติแล้ว ขนาดกลุ่มของมินิแบตช์จะอยู่ ระหว่าง 10 ถึง 1,000 ตัวอย่าง

ตัวอย่างเช่น สมมติว่าชุดการฝึกทั้งหมด (กลุ่มทั้งหมด) ประกอบด้วยตัวอย่าง 1,000 รายการ สมมติว่าคุณตั้งค่า ขนาดกลุ่มของมินิแบตช์แต่ละรายการเป็น 20 ดังนั้น การวนซ้ำแต่ละครั้งจะกำหนดการสูญเสียในตัวอย่างแบบสุ่ม 20 รายการจาก 1,000 รายการ แล้วจึงปรับน้ำหนักและอคติตามนั้น

การคำนวณการสูญเสียในมินิแบตช์มีประสิทธิภาพมากกว่า การสูญเสียในตัวอย่างทั้งหมดในฟูลแบตช์มาก

การไล่ระดับสีแบบสุ่มของมินิแบตช์

อัลกอริทึมการไล่ระดับการลดที่ใช้ มินิแบตช์ กล่าวอีกนัยหนึ่ง การไล่ระดับความชันแบบสุ่มของมินิแบตช์จะประมาณค่าการไล่ระดับความชันโดยอิงตามชุดข้อมูลการฝึกขนาดเล็ก การไล่ระดับความชันแบบสุ่มปกติจะใช้ มินิแบตช์ขนาด 1

การสูญเสียแบบมินิแม็กซ์

#Metric

ฟังก์ชันการสูญเสียสำหรับGenerative Adversarial Network โดยอิงตามCross-Entropy ระหว่างการกระจาย ของข้อมูลที่สร้างขึ้นและข้อมูลจริง

การสูญเสียแบบมินิแม็กซ์ใช้ในเอกสารฉบับแรกเพื่ออธิบาย Generative Adversarial Network

ดูข้อมูลเพิ่มเติมได้ที่ฟังก์ชันการสูญเสียใน หลักสูตร Generative Adversarial Networks

กลุ่มชาติพันธุ์ส่วนน้อย

#fundamentals

ป้ายกำกับที่พบน้อยกว่าในชุดข้อมูลที่มีความไม่สมดุลของคลาส เช่น หากชุดข้อมูลมีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงบวกจะเป็นคลาสส่วนน้อย

เปรียบเทียบกับชั้นเรียนส่วนใหญ่

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

ชุดการฝึกที่มีตัวอย่างนับล้านดูน่าประทับใจ อย่างไรก็ตาม หากคลาสส่วนน้อยมีการแสดงที่ไม่ดี แม้แต่ชุดการฝึกขนาดใหญ่มากก็อาจไม่เพียงพอ มุ่งเน้นที่จำนวนตัวอย่างทั้งหมดในชุดข้อมูลน้อยลง และมุ่งเน้นที่จำนวน ตัวอย่างในคลาสส่วนน้อยมากขึ้น

หากชุดข้อมูลมีตัวอย่างคลาสรองไม่เพียงพอ ให้ลอง ใช้การสุ่มตัวอย่างลง (คำจำกัดความ ในหัวข้อย่อยที่ 2) เพื่อเสริมคลาสรอง

Mixture of Experts

#generativeAI

รูปแบบการเพิ่มประสิทธิภาพเครือข่ายประสาทโดย ใช้เฉพาะชุดย่อยของพารามิเตอร์ (เรียกว่าผู้เชี่ยวชาญ) เพื่อประมวลผล โทเค็นหรือตัวอย่างที่กำหนด เครือข่ายการควบคุมการเข้าถึงจะกำหนดเส้นทางโทเค็นอินพุตหรือตัวอย่างแต่ละรายการไปยังผู้เชี่ยวชาญที่เหมาะสม

ดูรายละเอียดได้ที่เอกสารต่อไปนี้

ML

ตัวย่อของแมชชีนเลิร์นนิง

MMIT

#generativeAI

คำย่อของ multimodal instruction-tuned

MNIST

ชุดข้อมูลโดเมนสาธารณะที่รวบรวมโดย LeCun, Cortes และ Burges ซึ่งมีรูปภาพ 60,000 รูป โดยแต่ละรูปแสดงวิธีที่มนุษย์เขียนตัวเลข 0-9 ด้วยตนเอง ระบบจะจัดเก็บรูปภาพแต่ละรูปเป็นอาร์เรย์จำนวนเต็มขนาด 28x28 โดย จำนวนเต็มแต่ละรายการคือค่าระดับสีเทาระหว่าง 0 ถึง 255 (รวม)

MNIST เป็นชุดข้อมูล Canonical สำหรับแมชชีนเลิร์นนิง ซึ่งมักใช้ในการทดสอบแนวทางใหม่ๆ ของแมชชีนเลิร์นนิง ดูรายละเอียดได้ที่ ฐานข้อมูล MNIST ของตัวเลขที่เขียนด้วยลายมือ

รูปแบบ

หมวดหมู่ข้อมูลระดับสูง ตัวอย่างเช่น ตัวเลข ข้อความ รูปภาพ วิดีโอ และเสียงเป็นข้อมูล 5 รูปแบบที่แตกต่างกัน

รุ่น

#fundamentals

โดยทั่วไปแล้ว โครงสร้างทางคณิตศาสตร์ใดๆ ที่ประมวลผลข้อมูลอินพุตและส่งคืน เอาต์พุต กล่าวอีกนัยหนึ่งคือ โมเดลคือชุดพารามิเตอร์และโครงสร้าง ที่ระบบต้องใช้ในการคาดการณ์ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะใช้ตัวอย่างเป็นข้อมูลป้อนเข้าและอนุมานการคาดการณ์เป็นข้อมูลผลลัพธ์ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะแตกต่างกันเล็กน้อย เช่น

โมเดลการถดถอยเชิงเส้นประกอบด้วยชุดน้ำหนัก และอคติ
โมเดลโครงข่ายประสาทเทียมประกอบด้วยองค์ประกอบต่อไปนี้
- ชุดเลเยอร์ที่ซ่อน ซึ่งแต่ละเลเยอร์มีนิวรอนอย่างน้อย 1 ตัว
- น้ำหนักและความเอนเอียงที่เชื่อมโยงกับแต่ละนิวรอน
โมเดลแผนผังการตัดสินใจประกอบด้วยองค์ประกอบต่อไปนี้
- รูปร่างของต้นไม้ ซึ่งก็คือรูปแบบที่เชื่อมต่อเงื่อนไข และใบไม้
- สภาพอากาศและใบไม้

คุณสามารถบันทึก กู้คืน หรือทำสำเนารูปแบบได้

แมชชีนเลิร์นนิงแบบไม่มีการกำกับดูแลยังสร้างโมเดลด้วย โดยปกติจะเป็นฟังก์ชันที่สามารถเชื่อมโยงตัวอย่างอินพุตกับคลัสเตอร์ที่เหมาะสมที่สุด

คลิกไอคอนเพื่อเปรียบเทียบฟังก์ชันพีชคณิตและการเขียนโปรแกรมกับโมเดล ML

ฟังก์ชันพีชคณิต เช่น ฟังก์ชันต่อไปนี้ คือโมเดล

  f(x, y) = 3x -5xy + y² + 17

ฟังก์ชันก่อนหน้าจะแมปค่าอินพุต (x และ y) กับ เอาต์พุต

ในทำนองเดียวกัน ฟังก์ชันการเขียนโปรแกรม เช่น ฟังก์ชันต่อไปนี้ ก็เป็นโมเดลเช่นกัน

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

ผู้โทรจะส่งอาร์กิวเมนต์ไปยังฟังก์ชัน Python ก่อนหน้า และฟังก์ชัน Python จะสร้างเอาต์พุต (ผ่านคำสั่ง return)

แม้ว่าโครงข่ายประสาทแบบลึก จะมีโครงสร้างทางคณิตศาสตร์ที่แตกต่างจากฟังก์ชันทางพีชคณิตหรือฟังก์ชันการเขียนโปรแกรม อย่างมาก แต่โครงข่ายประสาทแบบลึกก็ยังคงรับอินพุต (ตัวอย่าง) และแสดงผลลัพธ์ (การคาดการณ์)

โปรแกรมเมอร์ที่เป็นมนุษย์จะเขียนโค้ดฟังก์ชันการเขียนโปรแกรมด้วยตนเอง ในทางตรงกันข้าม โมเดลแมชชีนเลิร์นนิงจะค่อยๆ เรียนรู้พารามิเตอร์ที่เหมาะสม ระหว่างการฝึกอัตโนมัติ

ความจุของโมเดล

#Metric

ความซับซ้อนของปัญหาที่โมเดลสามารถเรียนรู้ได้ ยิ่งโมเดลเรียนรู้ปัญหาที่ซับซ้อนได้มากเท่าใด ความสามารถของโมเดลก็จะยิ่งสูงขึ้นเท่านั้น โดยปกติแล้ว ความจุของโมเดลจะเพิ่มขึ้นตามจำนวนพารามิเตอร์ของโมเดล ดูคำจำกัดความอย่างเป็นทางการของความจุโมเดลการจัดประเภทได้ที่มิติข้อมูล VC

การส่งต่อโมเดล

#generativeAI

ระบบที่เลือกโมเดลที่เหมาะสมที่สุดสําหรับการอนุมาน คําค้นหาที่เฉพาะเจาะจง

ลองนึกถึงกลุ่มโมเดลที่มีตั้งแต่ขนาดใหญ่มาก (มีพารามิเตอร์จำนวนมาก) ไปจนถึงขนาดเล็กกว่ามาก (มีพารามิเตอร์น้อยกว่ามาก) โมเดลขนาดใหญ่มากจะใช้ทรัพยากรการคำนวณมากกว่าโมเดลขนาดเล็กในเวลาการอนุมาน อย่างไรก็ตาม โดยทั่วไปแล้วโมเดลขนาดใหญ่มาก จะอนุมานคำขอที่ซับซ้อนกว่าโมเดลขนาดเล็กได้ การเรียงซ้อนโมเดลจะกำหนดความซับซ้อนของคำค้นหาการอนุมาน จากนั้นจะเลือกโมเดลที่เหมาะสมเพื่อทำการอนุมาน แรงจูงใจหลักในการเรียงซ้อนโมเดลคือการลดต้นทุนการอนุมานโดย โดยทั่วไปแล้วจะเลือกโมเดลขนาดเล็กกว่า และเลือกโมเดลขนาดใหญ่กว่าเฉพาะสำหรับคำค้นหาที่ซับซ้อนกว่า

ลองนึกภาพว่าโมเดลขนาดเล็กทำงานบนโทรศัพท์และโมเดลเวอร์ชันที่ใหญ่กว่านั้น ทำงานบนเซิร์ฟเวอร์ระยะไกล การเรียงต่อโมเดลที่ดีจะช่วยลดต้นทุนและเวลาในการตอบสนองโดยช่วยให้โมเดลขนาดเล็กกว่าจัดการคำขอที่เรียบง่ายได้ และเรียกใช้โมเดลระยะไกลเพื่อจัดการคำขอที่ซับซ้อนเท่านั้น

ดูเราเตอร์รุ่นเพิ่มเติม

การขนานโมเดล

วิธีปรับขนาดการฝึกหรือการอนุมานที่วางส่วนต่างๆ ของโมเดลหนึ่งไว้ในอุปกรณ์ต่างๆ การขนานโมเดล ช่วยให้ใช้โมเดลที่มีขนาดใหญ่เกินกว่าจะพอดีกับอุปกรณ์เครื่องเดียวได้

โดยทั่วไปแล้ว ระบบจะดำเนินการต่อไปนี้เพื่อใช้การขนานกันของโมเดล

แบ่ง (แยก) โมเดลออกเป็นส่วนเล็กๆ
กระจายการฝึกส่วนเล็กๆ เหล่านั้นไปยังโปรเซสเซอร์หลายตัว โดยโปรเซสเซอร์แต่ละตัวจะฝึกโมเดลในส่วนของตัวเอง
รวมผลลัพธ์เพื่อสร้างโมเดลเดียว

การขนานโมเดลทำให้การฝึกช้าลง

ดูการประมวลผลแบบขนานของข้อมูลด้วย

เราเตอร์โมเด็ม

#generativeAI

อัลกอริทึมที่กำหนดโมเดลที่เหมาะสมที่สุดสำหรับ การอนุมานในการเรียงซ้อนโมเดล โดยปกติแล้วเราเตอร์โมเดลจะเป็นโมเดลแมชชีนเลิร์นนิงที่ ค่อยๆ เรียนรู้วิธีเลือกโมเดลที่ดีที่สุดสำหรับอินพุตที่กำหนด อย่างไรก็ตาม บางครั้งเราเตอร์โมเดลอาจเป็นอัลกอริทึมที่ไม่ใช่แมชชีนเลิร์นนิงที่เรียบง่ายกว่า

การฝึกโมเดล

กระบวนการพิจารณาโมเดลที่ดีที่สุด

MOE

#generativeAI

คำย่อของMixture of Experts

สร้างกระแส

อัลกอริทึมการไล่ระดับที่ซับซ้อนซึ่งขั้นตอนการเรียนรู้ไม่ได้ขึ้นอยู่กับอนุพันธ์ในขั้นตอนปัจจุบันเท่านั้น แต่ยังขึ้นอยู่กับอนุพันธ์ของขั้นตอนก่อนหน้าด้วย โมเมนตัมเกี่ยวข้องกับการคำนวณ ค่าเฉลี่ยเคลื่อนที่แบบถ่วงน้ำหนักแบบเอ็กซ์โปเนนเชียลของค่าการไล่ระดับเมื่อเวลาผ่านไป ซึ่งคล้ายกับ โมเมนตัมในวิชาฟิสิกส์ โมเมนตัมบางครั้งช่วยให้การเรียนรู้ไม่ติดอยู่ ในค่าต่ำสุดเฉพาะที่

Mostly Basic Python Problems (MBPP)

#Metric

ชุดข้อมูลสำหรับประเมินความสามารถของ LLM ในการสร้างโค้ด Python Mostly Basic Python Problems มีปัญหาการเขียนโปรแกรมที่รวบรวมจากมวลชนประมาณ 1,000 รายการ ปัญหาแต่ละข้อในชุดข้อมูลประกอบด้วยข้อมูลต่อไปนี้

คำอธิบายงาน
รหัสโซลูชัน
กรณีทดสอบอัตโนมัติ 3 กรณี

MT

#generativeAI

ตัวย่อของการแปลด้วยคอมพิวเตอร์

การจัดประเภทแบบหลายคลาส

#fundamentals

ใน Supervised Learning ปัญหาการจัดประเภท ซึ่งชุดข้อมูลมีป้ายกำกับมากกว่า 2 คลาส ตัวอย่างเช่น ป้ายกำกับในชุดข้อมูล Iris ต้องเป็นหนึ่งใน 3 คลาสต่อไปนี้

Iris setosa
Iris virginica
Iris versicolor

โมเดลที่ฝึกในชุดข้อมูล Iris ซึ่งคาดการณ์ประเภท Iris ในตัวอย่างใหม่ จะทำการจัดประเภทแบบหลายคลาส

ในทางตรงกันข้าม ปัญหาการจัดประเภทที่แยกความแตกต่างระหว่าง 2 คลาสอย่างชัดเจนคือโมเดลการจัดประเภทแบบไบนารี เช่น โมเดลอีเมลที่คาดการณ์ว่าจะเป็นสแปมหรือไม่ใช่สแปม คือโมเดลการจัดประเภทแบบไบนารี

ในปัญหาการจัดกลุ่ม การจัดประเภทแบบหลายคลาสหมายถึงคลัสเตอร์มากกว่า 2 คลัสเตอร์

การถดถอยแบบโลจิสติกหลายคลาส

การใช้การถดถอยโลจิสติกในปัญหาการจัดประเภทแบบหลายคลาส

Multi-Head Self-Attention

ส่วนขยายของการใส่ใจตนเองที่ใช้กลไกการใส่ใจตนเองหลายครั้งสำหรับแต่ละตำแหน่งในลำดับอินพุต

Transformer ได้นำเสนอการทำ Self-Attention แบบหลายหัว

ได้รับการปรับแต่งสำหรับการสอนแบบหลายรูปแบบ

โมเดลที่ปรับแต่งตามคำสั่งซึ่งประมวลผลอินพุตได้ นอกเหนือจากข้อความ เช่น รูปภาพ วิดีโอ และเสียง

โมเดลแบบ Multimodal

โมเดลที่มีอินพุต เอาต์พุต หรือทั้ง 2 อย่างซึ่งมีรูปแบบมากกว่า 1 รายการ ตัวอย่างเช่น พิจารณาโมเดลที่รับทั้ง รูปภาพและคำบรรยายแทนข้อความ (2 รูปแบบ) เป็นฟีเจอร์ และ แสดงคะแนนที่บ่งบอกว่าคำบรรยายแทนข้อความเหมาะสมกับรูปภาพเพียงใด ดังนั้นอินพุตของโมเดลนี้จึงเป็นแบบหลายรูปแบบและเอาต์พุตเป็นแบบรูปแบบเดียว

การจัดประเภทแบบหลายกลุ่ม

คำพ้องความหมายของการจัดประเภทแบบหลายคลาส

การถดถอยแบบมัลติโนเมียล

คำพ้องความหมายสำหรับ การถดถอยแบบโลจิสติกหลายคลาส

การอ่านทำความเข้าใจแบบหลายประโยค (MultiRC)

ชุดข้อมูลสำหรับประเมินความสามารถของ LLM ในการตอบแบบฝึกหัดแบบหลายตัวเลือก ตัวอย่างแต่ละรายการในชุดข้อมูลประกอบด้วยข้อมูลต่อไปนี้

ย่อหน้าบริบท
คำถามเกี่ยวกับย่อหน้านั้น
คำตอบหลายคำตอบสำหรับคำถาม คำตอบแต่ละข้อจะมีป้ายกำกับว่า "จริง" หรือ "เท็จ" คำตอบหลายข้ออาจเป็นจริง

เช่น

ย่อหน้าบริบท:

ซูซานอยากจัดงานวันเกิด เธอโทรหาเพื่อนทุกคน เธอมีเพื่อน 5 คน แม่ของเธอพูดว่าซูซานเชิญทุกคนไปงานปาร์ตี้ได้ เพื่อนคนแรกของเธอไปงานปาร์ตี้ไม่ได้เพราะไม่สบาย เพื่อนคนที่ 2 ของเธอ กำลังจะเดินทางออกนอกเมือง ส่วนเพื่อนคนที่ 3 ไม่แน่ใจว่าพ่อแม่จะอนุญาตหรือไม่ เพื่อนคนที่ 4 ตอบว่าไม่แน่ เพื่อนคนที่ 5 ไปงานปาร์ตี้ได้ แน่นอน ซูซานรู้สึกเศร้าเล็กน้อย ในวันจัดปาร์ตี้ เพื่อนทั้ง 5 คน ก็มา เพื่อนแต่ละคนมีของขวัญให้ซูซาน ซูซานรู้สึกดีใจและส่งการ์ดขอบคุณให้เพื่อนแต่ละคนในสัปดาห์ถัดมา
คำถาม: เพื่อนที่ป่วยของซูซานหายดีหรือยัง
ตอบได้หลายคำตอบ:
- ใช่ เธอหายดีแล้ว (จริง)
- ไม่ (เท็จ)
- ได้ (จริง)
- ไม่ เธอไม่หาย (ไม่จริง)
- ใช่ เธอไปงานปาร์ตี้ของซูซาน (จริง)

MultiRC เป็นส่วนประกอบของกลุ่มโมเดล SuperGLUE

โปรดดูรายละเอียดที่ Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences

มัลติทาสก์

เทคนิคแมชชีนเลิร์นนิงที่ใช้โมเดลเดียว เพื่อฝึกให้ทำงานหลายอย่าง

โมเดลแบบมัลติทาสก์สร้างขึ้นโดยการฝึกข้อมูลที่เหมาะสมกับแต่ละงาน ซึ่งจะช่วยให้โมเดลเรียนรู้ที่จะแชร์ ข้อมูลในงานต่างๆ ซึ่งจะช่วยให้โมเดลเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้น

โมเดลที่ฝึกสำหรับหลายงานมักมีความสามารถในการสร้างข้อมูลทั่วไปที่ดีขึ้น และสามารถจัดการข้อมูลประเภทต่างๆ ได้อย่างมีประสิทธิภาพมากขึ้น

N

Nano

#generativeAI

โมเดล Gemini ขนาดค่อนข้างเล็กซึ่งออกแบบมาเพื่อใช้ในอุปกรณ์ ดูรายละเอียดได้ที่ Gemini Nano

ดูเพิ่มเติมที่ Pro และ Ultra

กับดัก NaN

เมื่อตัวเลขหนึ่งในโมเดลกลายเป็น NaN ระหว่างการฝึก ซึ่งทำให้ตัวเลขอื่นๆ ในโมเดล กลายเป็น NaN ในที่สุด

NaN เป็นตัวย่อของ Not a Number

การประมวลผลภาษาธรรมชาติ

สาขาการสอนคอมพิวเตอร์ให้ประมวลผลสิ่งที่ผู้ใช้พูดหรือพิมพ์โดยใช้ กฎทางภาษา การประมวลผลภาษาธรรมชาติสมัยใหม่เกือบทั้งหมดอาศัย แมชชีนเลิร์นนิง

ความเข้าใจภาษาธรรมชาติ

ส่วนย่อยของการประมวลผลภาษาธรรมชาติ ที่กำหนดเจตนาของสิ่งที่พูดหรือพิมพ์ ความเข้าใจภาษาธรรมชาติ สามารถก้าวข้ามการประมวลผลภาษาธรรมชาติเพื่อพิจารณาลักษณะที่ซับซ้อน ของภาษา เช่น บริบท การประชดประชัน และความรู้สึก

คลาสที่เป็นลบ

#fundamentals

#Metric

ในการจัดประเภทแบบไบนารี คลาสหนึ่งจะเรียกว่าบวกและอีกคลาสหนึ่งจะเรียกว่าลบ คลาสที่เป็นบวกคือ สิ่งหรือเหตุการณ์ที่โมเดลกำลังทดสอบ และคลาสที่เป็นลบคือ ความเป็นไปได้อื่นๆ เช่น

คลาสเชิงลบในการตรวจทางการแพทย์อาจเป็น "ไม่ใช่มะเร็ง"
คลาสเชิงลบในโมเดลการจัดประเภทอีเมลอาจเป็น "ไม่ใช่จดหมายขยะ"

เปรียบเทียบกับคลาสที่เป็นบวก

การสุ่มตัวอย่างเชิงลบ

คำพ้องความหมายของการสุ่มตัวอย่างผู้สมัคร

Neural Architecture Search (NAS)

เทคนิคในการออกแบบสถาปัตยกรรมของโครงข่ายประสาทเทียมโดยอัตโนมัติ อัลกอริทึม NAS ช่วยลดเวลาและทรัพยากรที่ต้องใช้ในการฝึกโครงข่ายประสาทได้

โดยปกติแล้ว NAS จะใช้

พื้นที่ค้นหา ซึ่งเป็นชุดสถาปัตยกรรมที่เป็นไปได้
ฟังก์ชันความเหมาะสม ซึ่งเป็นการวัดว่าสถาปัตยกรรมหนึ่งๆ ทำงานได้ดีเพียงใดในงานที่กำหนด

โดยปกติแล้ว อัลกอริทึม NAS จะเริ่มต้นด้วยชุดสถาปัตยกรรมที่เป็นไปได้ขนาดเล็ก และค่อยๆ ขยายพื้นที่ค้นหาเมื่ออัลกอริทึมเรียนรู้เพิ่มเติมเกี่ยวกับสถาปัตยกรรมที่มีประสิทธิภาพ โดยปกติแล้ว ฟังก์ชันความเหมาะสมจะอิงตามประสิทธิภาพของสถาปัตยกรรมในชุดการฝึก และโดยปกติแล้ว อัลกอริทึมจะได้รับการฝึกโดยใช้เทคนิคการเรียนรู้แบบเสริมกำลัง

อัลกอริทึม NAS ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพในการค้นหาสถาปัตยกรรมที่มีประสิทธิภาพสูงสำหรับงานต่างๆ ซึ่งรวมถึงการจัดประเภทรูปภาพ การจัดประเภทข้อความ และการแปลด้วยเครื่อง

โครงข่ายระบบประสาทเทียม

#fundamentals

โมเดลที่มีเลเยอร์ที่ซ่อนอยู่อย่างน้อย 1 รายการ โครงข่ายประสาทแบบลึกเป็นโครงข่ายประสาทประเภทหนึ่ง ที่มีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 เลเยอร์ ตัวอย่างเช่น ไดอะแกรมต่อไปนี้ แสดงโครงข่ายประสาทเทียมแบบลึกที่มีเลเยอร์ซ่อน 2 เลเยอร์

โครงข่ายประสาทเทียมที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

นิวรอนแต่ละตัวในโครงข่ายประสาทจะเชื่อมต่อกับโหนดทั้งหมดในเลเยอร์ถัดไป ตัวอย่างเช่น ในแผนภาพก่อนหน้า คุณจะเห็นว่านิวรอนทั้ง 3 ตัว ในเลเยอร์ที่ซ่อนอยู่แรกเชื่อมต่อกับนิวรอนทั้ง 2 ตัวใน เลเยอร์ที่ซ่อนอยู่ชั้นที่ 2 แยกกัน

บางครั้งเราเรียกโครงข่ายประสาทเทียมที่ใช้ในคอมพิวเตอร์ว่าโครงข่ายประสาทเทียมเพื่อแยกความแตกต่างจากโครงข่ายประสาทที่พบในสมองและระบบประสาทอื่นๆ

โครงข่ายประสาทเทียมบางอย่างสามารถเลียนแบบความสัมพันธ์แบบไม่เชิงเส้นที่ซับซ้อนอย่างยิ่ง ระหว่างฟีเจอร์ต่างๆ กับป้ายกำกับ

ดูโครงข่ายประสาทเทียมแบบคอนโวลูชันและ โครงข่ายประสาทเทียมแบบเกิดซ้ำด้วย

เซลล์ประสาท

#fundamentals

ในแมชชีนเลิร์นนิง หน่วยที่แตกต่างกันภายในเลเยอร์ที่ซ่อนอยู่ ของโครงข่ายประสาทเทียม นิวรอนแต่ละตัวจะดำเนินการ 2 ขั้นตอนต่อไปนี้

คำนวณผลรวมแบบถ่วงน้ำหนักของค่าอินพุตที่คูณ ด้วยน้ำหนักที่เกี่ยวข้อง
ส่งผลรวมแบบถ่วงน้ำหนักเป็นอินพุตไปยังฟังก์ชันการเปิดใช้งาน

นิวรอนในเลเยอร์ที่ซ่อนแรกจะรับอินพุตจากค่าฟีเจอร์ ในเลเยอร์อินพุต นิวรอนในเลเยอร์ที่ซ่อนใดๆ ที่อยู่ถัดจากเลเยอร์แรกจะรับอินพุตจากนิวรอนในเลเยอร์ที่ซ่อนก่อนหน้า ตัวอย่างเช่น นิวรอนในเลเยอร์ที่ซ่อนที่ 2 จะยอมรับอินพุตจากนิวรอนในเลเยอร์ที่ซ่อนที่ 1

ภาพต่อไปนี้ไฮไลต์นิวรอน 2 ตัวและอินพุตของนิวรอนเหล่านั้น

โครงข่ายประสาทเทียมที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต มีการไฮไลต์นิวรอน 2 ตัว ได้แก่ ตัวหนึ่งในเลเยอร์ซ่อนชั้นแรก
และอีกตัวหนึ่งในเลเยอร์ซ่อนชั้นที่ 2 นิวรอนที่ไฮไลต์
ในเลเยอร์แรกที่ซ่อนไว้จะรับอินพุตจากทั้ง 2 ฟีเจอร์
ในเลเยอร์อินพุต นิวรอนที่ไฮไลต์ในเลเยอร์ที่ซ่อนที่ 2
รับอินพุตจากนิวรอนทั้ง 3 ตัวในเลเยอร์ที่ซ่อนแรก

นิวรอนในโครงข่ายประสาทเทียมจะเลียนแบบพฤติกรรมของนิวรอนในสมองและ ส่วนอื่นๆ ของระบบประสาท

N-gram

ลำดับของคำ N คำ เช่น truly madly เป็น 2-gram เนื่องจากลำดับมีความเกี่ยวข้อง madly truly จึงเป็น 2-gram ที่แตกต่างจาก truly madly

N	ชื่อของ N-gram ประเภทนี้	ตัวอย่าง
2	ไบแกรมหรือ 2-แกรม	ไป ไปที่ กินอาหารกลางวัน กินอาหารเย็น
3	ไตรแกรมหรือ 3-แกรม	กินมากไป ขอให้มีความสุขชั่วนิรันดร์ เสียงระฆังดัง
4	4-gram	walk in the park, dust in the wind, the boy ate lentils

โมเดลการทำความเข้าใจภาษาธรรมชาติจำนวนมาก ใช้ N-gram เพื่อคาดเดาคำถัดไปที่ผู้ใช้จะพิมพ์ หรือพูด เช่น สมมติว่าผู้ใช้พิมพ์ happily ever โมเดล NLU ที่อิงตามไตรแกรมมีแนวโน้มที่จะคาดการณ์ว่าผู้ใช้จะพิมพ์คำว่าหลังจากเป็นคำถัดไป

เปรียบเทียบ N-gram กับ bag of words ซึ่งเป็น ชุดคำที่ไม่มีการเรียงลำดับ

NLP

ตัวย่อของ การประมวลผลภาษาธรรมชาติ

NLU

ตัวย่อของความเข้าใจภาษาธรรมชาติ

โหนด (แผนผังการตัดสินใจ)

#df

ในแผนผังการตัดสินใจ เงื่อนไขหรือลีฟ

แผนผังการตัดสินใจที่มี 2 เงื่อนไขและ 3 ใบ

ดูข้อมูลเพิ่มเติมได้ที่แผนผังการตัดสินใจ ในหลักสูตร Decision Forests

โหนด (โครงข่ายประสาทเทียม)

#fundamentals

นิวรอนในเลเยอร์ที่ซ่อนอยู่

โหนด (กราฟ TensorFlow)

#TensorFlow

การดำเนินการในกราฟ TensorFlow

เสียงรบกวน

โดยทั่วไปแล้ว สิ่งใดก็ตามที่บดบังสัญญาณในชุดข้อมูล ระบบอาจแทรกสัญญาณรบกวนลงในข้อมูลได้หลายวิธี เช่น

ผู้ให้คะแนนที่เป็นมนุษย์อาจติดป้ายกำกับผิดพลาด
มนุษย์และเครื่องมือบันทึกค่าฟีเจอร์ผิดพลาดหรือละเว้นค่าฟีเจอร์

เงื่อนไขนอนไบนารี

#df

เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ ตัวอย่างเช่น เงื่อนไขแบบไม่ใช่ไบนารีต่อไปนี้มีผลลัพธ์ที่เป็นไปได้ 3 อย่าง

เงื่อนไข (number_of_legs = ?) ที่นำไปสู่ผลลัพธ์ที่เป็นไปได้ 3 อย่าง
ผลลัพธ์หนึ่ง (number_of_legs = 8) จะนำไปสู่ใบไม้
ชื่อ spider ผลลัพธ์ที่ 2 (number_of_legs = 4) จะทำให้เกิด
ลีฟชื่อ dog ผลลัพธ์ที่ 3 (number_of_legs = 2) จะทําให้เกิด
ใบไม้ชื่อเพนกวิน

ดูข้อมูลเพิ่มเติมได้ที่ประเภทของเงื่อนไข ในหลักสูตร Decision Forests

ไม่ใช่แบบดั้งเดิม

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปซึ่งไม่สามารถแสดงได้โดยใช้การบวกและการคูณเพียงอย่างเดียว ความสัมพันธ์เชิงเส้นแสดงเป็นเส้นได้ แต่ความสัมพันธ์ที่ไม่ใช่เชิงเส้นแสดงเป็นเส้นไม่ได้ ตัวอย่างเช่น ลองพิจารณารูปแบบ 2 รูปแบบที่แต่ละรูปแบบเชื่อมโยง ฟีเจอร์เดียวกับป้ายกำกับเดียว โมเดลทางด้านซ้ายเป็นแบบเชิงเส้น และโมเดลทางด้านขวาเป็นแบบไม่เชิงเส้น

2 แปลง พล็อต 1 คือเส้นตรง ดังนั้นนี่คือความสัมพันธ์เชิงเส้น
ส่วนอีกพล็อตเป็นเส้นโค้ง ดังนั้นความสัมพันธ์นี้จึงเป็นความสัมพันธ์แบบไม่เชิงเส้น

ดูโครงข่ายประสาทเทียม: โหนดและเลเยอร์ที่ซ่อนอยู่ ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิงเพื่อทดลองใช้ฟังก์ชันไม่เชิงเส้น ประเภทต่างๆ

อคติจากการไม่ตอบ

#responsible

ดูอคติในการเลือก

ความไม่คงที่

#fundamentals

ฟีเจอร์ที่มีค่าเปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักจะเป็นเวลา ตัวอย่างเช่น ลองพิจารณาตัวอย่างต่อไปนี้ของความไม่คงที่

จำนวนชุดว่ายน้ำที่ขายในร้านค้าหนึ่งๆ จะแตกต่างกันไปตามฤดูกาล
ปริมาณผลไม้ชนิดหนึ่งที่เก็บเกี่ยวในภูมิภาคหนึ่งๆ เป็น 0 ในช่วงเวลาส่วนใหญ่ของปี แต่มีปริมาณมากในช่วงเวลาสั้นๆ
การเปลี่ยนแปลงสภาพภูมิอากาศทำให้อุณหภูมิเฉลี่ยรายปีเปลี่ยนแปลงไป

คอนทราสต์กับความคงที่

ไม่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว (NORA)

#generativeAI

พรอมต์ที่มีคำตอบที่ถูกต้องหลายรายการ ตัวอย่างเช่น พรอมต์ต่อไปนี้ไม่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว

เล่าเรื่องตลกเกี่ยวกับช้างให้ฟังหน่อย

การประเมินคำตอบของพรอมต์ที่ไม่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว มักจะมีความเป็นอัตนัยมากกว่าการประเมินพรอมต์ที่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว เช่น การประเมินมุกตลกเกี่ยวกับช้างต้องมีวิธีที่เป็นระบบเพื่อพิจารณาว่ามุกตลกนั้นตลกแค่ไหน

NORA

#generativeAI

คำย่อของไม่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว

การแปลงเป็นรูปแบบมาตรฐาน

#fundamentals

โดยทั่วไป กระบวนการแปลงช่วงค่าจริงของตัวแปร เป็นช่วงค่ามาตรฐาน เช่น

-1 ถึง +1
0 ถึง 1
คะแนนมาตรฐาน (Z-Score) (ประมาณ -3 ถึง +3)

เช่น สมมติว่าช่วงค่าจริงของฟีเจอร์หนึ่งคือ 800 ถึง 2,400 ในส่วนของการออกแบบฟีเจอร์ คุณสามารถปรับค่าจริงให้เป็นช่วงมาตรฐานได้ เช่น -1 ถึง +1

การปรับให้เป็นมาตรฐานเป็นงานที่พบบ่อยในการออกแบบฟีเจอร์ โดยปกติแล้ว โมเดลจะได้รับการฝึกเร็วขึ้น (และให้การคาดการณ์ที่ดีขึ้น) เมื่อฟีเจอร์ที่เป็นตัวเลขทุกรายการในเวกเตอร์ฟีเจอร์มีช่วงที่ใกล้เคียงกัน

ดูการปรับค่าให้เป็นมาตรฐานแบบ Z-score ด้วย

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การปรับให้เป็นมาตรฐาน ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

Notebook LM

#generativeAI

เครื่องมือที่ทำงานด้วย Gemini ซึ่งช่วยให้ผู้ใช้อัปโหลดเอกสาร แล้วใช้พรอมต์เพื่อถามคำถาม สรุป หรือจัดระเบียบเอกสารเหล่านั้นได้ ตัวอย่างเช่น นักเขียนอาจอัปโหลดเรื่องสั้นหลายเรื่อง และขอให้ NotebookLM ค้นหาธีมที่พบบ่อยหรือระบุว่าเรื่องใด เหมาะที่จะนำไปสร้างเป็นภาพยนตร์มากที่สุด

การตรวจหาความแปลกใหม่

กระบวนการพิจารณาว่าตัวอย่างใหม่ (ที่ไม่เคยเห็น) มาจากการกระจายเดียวกันกับชุดการฝึกหรือไม่ กล่าวคือ หลังจากฝึกโมเดลในชุดข้อมูลการฝึกแล้ว การตรวจหาความแปลกใหม่จะพิจารณาว่าตัวอย่างใหม่ (ในระหว่างการอนุมานหรือการฝึกเพิ่มเติม) เป็นค่าผิดปกติหรือไม่

เปรียบเทียบกับการตรวจจับค่าผิดปกติ

ข้อมูลเชิงตัวเลข

#fundamentals

ฟีเจอร์แสดงเป็นจำนวนเต็มหรือจำนวนจริง เช่น โมเดลการประเมินบ้านอาจแสดงขนาด ของบ้าน (เป็นตารางฟุตหรือตารางเมตร) เป็นข้อมูลเชิงตัวเลข การแสดงฟีเจอร์เป็นข้อมูลตัวเลขบ่งชี้ว่าค่าของฟีเจอร์มีความสัมพันธ์ทางคณิตศาสตร์กับป้ายกำกับ กล่าวคือ จำนวนตารางเมตรในบ้านอาจมีความสัมพันธ์ทางคณิตศาสตร์กับมูลค่าของบ้าน

ข้อมูลจำนวนเต็มบางรายการไม่ควรแสดงเป็นข้อมูลตัวเลข ตัวอย่างเช่น รหัสไปรษณีย์ในบางส่วนของโลกเป็นจำนวนเต็ม แต่ไม่ควรแสดงรหัสไปรษณีย์ที่เป็นจำนวนเต็ม เป็นข้อมูลตัวเลขในโมเดล เนื่องจากรหัสไปรษณีย์ 20000 ไม่ได้มีประสิทธิภาพเป็น 2 เท่า (หรือครึ่งหนึ่ง) ของรหัสไปรษณีย์ 10000 นอกจากนี้ แม้ว่ารหัสไปรษณีย์ที่แตกต่างกันจะสัมพันธ์กับมูลค่าอสังหาริมทรัพย์ที่แตกต่างกัน แต่เราก็ไม่สามารถสรุปได้ว่ามูลค่าอสังหาริมทรัพย์ที่รหัสไปรษณีย์ 20000 มีมูลค่าเป็น 2 เท่าของมูลค่าอสังหาริมทรัพย์ที่รหัสไปรษณีย์ 10000 ควรแสดงรหัสไปรษณีย์เป็นข้อมูลเชิงหมวดหมู่แทน

บางครั้งฟีเจอร์ที่เป็นตัวเลขจะเรียกว่า ฟีเจอร์ต่อเนื่อง

ดูข้อมูลเพิ่มเติมได้ที่การทำงานกับข้อมูลตัวเลข ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

NumPy

ไลบรารีคณิตศาสตร์แบบโอเพนซอร์ส ที่ให้การดำเนินการกับอาร์เรย์อย่างมีประสิทธิภาพใน Python pandas สร้างขึ้นบน NumPy

O

วัตถุประสงค์

#Metric

เมตริกที่อัลกอริทึมพยายามเพิ่มประสิทธิภาพ

ฟังก์ชันเป้าหมาย

#Metric

สูตรทางคณิตศาสตร์หรือเมตริกที่โมเดลต้องการเพิ่มประสิทธิภาพ เช่น ฟังก์ชันออบเจกทีฟสำหรับการถดถอยเชิงเส้นมักจะเป็นการสูญเสียค่าเฉลี่ยกำลังสอง ดังนั้น เมื่อฝึกโมเดล การถดถอยเชิงเส้น การฝึกจึงมุ่งเน้นที่การลดการสูญเสียกำลังสองเฉลี่ย

ในบางกรณี เป้าหมายคือการเพิ่มฟังก์ชันออบเจ็กต์ให้ได้สูงสุด เช่น หากฟังก์ชันออบเจ็กทีฟคือความแม่นยำ เป้าหมายคือ การเพิ่มความแม่นยำสูงสุด

ดูการสูญเสียด้วย

เงื่อนไขทางอ้อม

#df

ในแผนผังการตัดสินใจ เงื่อนไขที่เกี่ยวข้องกับฟีเจอร์มากกว่า 1 รายการ ตัวอย่างเช่น หากความสูงและความกว้างเป็นทั้งฟีเจอร์ เงื่อนไขที่อ้อมค้อมจะเป็นดังนี้

  height > width

เปรียบเทียบกับเงื่อนไขที่สอดคล้องกับแกน

ดูข้อมูลเพิ่มเติมได้ที่ประเภทของเงื่อนไข ในหลักสูตร Decision Forests

ออฟไลน์

#fundamentals

คำพ้องความหมายของ static

การอนุมานแบบออฟไลน์

#fundamentals

กระบวนการที่โมเดลสร้างการคาดการณ์เป็นชุด แล้วแคช (บันทึก) การคาดการณ์เหล่านั้น จากนั้นแอปจะเข้าถึงการคาดคะเนที่อนุมานได้จากแคชแทนที่จะเรียกใช้โมเดลอีกครั้ง

ตัวอย่างเช่น ลองพิจารณาโมเดลที่สร้างพยากรณ์อากาศในท้องถิ่น (การคาดการณ์) ทุกๆ 4 ชั่วโมง หลังจากเรียกใช้โมเดลแต่ละครั้ง ระบบจะ แคชพยากรณ์อากาศในพื้นที่ทั้งหมด แอปสภาพอากาศจะดึงข้อมูลพยากรณ์อากาศ จากแคช

การอนุมานแบบออฟไลน์เรียกอีกอย่างว่าการอนุมานแบบคงที่

แตกต่างจากการอนุมานแบบออนไลน์ ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML ที่ใช้งานจริง: การอนุมานแบบคงที่เทียบกับการอนุมานแบบไดนามิก ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเข้ารหัสแบบ One-hot

#fundamentals

การแสดงข้อมูลเชิงหมวดหมู่เป็นเวกเตอร์ซึ่งมีลักษณะดังนี้

องค์ประกอบหนึ่งตั้งค่าเป็น 1
และตั้งค่าองค์ประกอบอื่นๆ ทั้งหมดเป็น 0

โดยทั่วไปแล้ว การเข้ารหัสแบบ One-Hot จะใช้เพื่อแสดงสตริงหรือตัวระบุที่มีชุดค่าที่เป็นไปได้แบบจำกัด ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่หนึ่งชื่อ Scandinavia มีค่าที่เป็นไปได้ 5 ค่าดังนี้

"เดนมาร์ก"
"สวีเดน"
"นอร์เวย์"
"ฟินแลนด์"
"ไอซ์แลนด์"

การเข้ารหัสแบบ One-Hot สามารถแสดงค่าทั้ง 5 ค่าได้ดังนี้

ประเทศ	เวกเตอร์
"เดนมาร์ก"	1	0	0	0	0
"สวีเดน"	0	1	0	0	0
"นอร์เวย์"	0	0	1	0	0
"ฟินแลนด์"	0	0	0	1	0
"ไอซ์แลนด์"	0	0	0	0	1

การเข้ารหัสแบบ One-Hot ช่วยให้โมเดลเรียนรู้การเชื่อมต่อต่างๆ ตามประเทศทั้ง 5 ประเทศได้

การแสดงฟีเจอร์เป็นข้อมูลตัวเลขเป็นอีกทางเลือกหนึ่งแทนการเข้ารหัสแบบ One-hot ขออภัย การแสดงประเทศใน สแกนดิเนเวียเป็นตัวเลขไม่ใช่ตัวเลือกที่ดี ตัวอย่างเช่น ลองพิจารณาการแสดงตัวเลขต่อไปนี้

"เดนมาร์ก" คือ 0
"สวีเดน" คือ 1
"นอร์เวย์" คือ 2
"ฟินแลนด์" คือ 3
"ไอซ์แลนด์" คือ 4

เมื่อใช้การเข้ารหัสตัวเลข โมเดลจะตีความตัวเลขดิบในเชิงคณิตศาสตร์และจะพยายามฝึกกับตัวเลขเหล่านั้น อย่างไรก็ตาม ไอซ์แลนด์ไม่ได้มีประชากรมากกว่า (หรือน้อยกว่า) นอร์เวย์ 2 เท่า โมเดลจึงอาจสรุปผลที่แปลกประหลาด

คำตอบที่ถูกต้อง 1 ข้อ (ORA)

#generativeAI

พรอมต์ที่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว ตัวอย่างเช่น ลองพิจารณาพรอมต์ต่อไปนี้

จริงหรือเท็จ: ดาวเสาร์มีขนาดใหญ่กว่าดาวอังคาร

คำตอบที่ถูกต้องเพียงอย่างเดียวคือ true

เปรียบเทียบกับไม่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว

การเรียนรู้แบบครั้งเดียว

แนวทางแมชชีนเลิร์นนิงซึ่งมักใช้สำหรับการแยกประเภทออบเจ็กต์ ออกแบบมาเพื่อเรียนรู้โมเดลการแยกประเภทที่มีประสิทธิภาพ จากตัวอย่างการฝึกเพียงรายการเดียว

ดูการเรียนรู้แบบไม่กี่ช็อตและ การเรียนรู้แบบศูนย์ช็อตด้วย

การเขียนพรอมต์แบบ One-Shot Prompting

#generativeAI

พรอมต์ที่มีตัวอย่างหนึ่งตัวอย่างที่แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ควรตอบสนองอย่างไร ตัวอย่างเช่น พรอมต์ต่อไปนี้มีตัวอย่างหนึ่งที่แสดงให้โมเดลภาษาขนาดใหญ่เห็นว่า ควรตอบคำค้นหาอย่างไร

ส่วนต่างๆ ของพรอมต์	หมายเหตุ
`สกุลเงินทางการของประเทศที่ระบุคืออะไร`	คำถามที่คุณต้องการให้ LLM ตอบ
`ฝรั่งเศส: EUR`	ตัวอย่าง
`อินเดีย:`	คำค้นหาจริง

เปรียบเทียบการแจ้งแบบนัดเดียวกับคำศัพท์ต่อไปนี้

การเขียนพรอมต์แบบ Zero-Shot
Few-Shot Prompting

หนึ่งเทียบกับทั้งหมด

#fundamentals

เมื่อพิจารณาปัญหาการแยกประเภทที่มี N คลาส โซลูชันที่ประกอบด้วยโมเดลการแยกประเภทแบบไบนารีแยกกัน N โมเดล ซึ่งเป็นโมเดลการแยกประเภทแบบไบนารี 1 โมเดลสำหรับผลลัพธ์ที่เป็นไปได้แต่ละรายการ ตัวอย่างเช่น เมื่อพิจารณาโมเดล ที่จัดประเภทตัวอย่างเป็นสัตว์ พืช หรือแร่ธาตุ โซลูชันแบบหนึ่งเทียบกับที่เหลือทั้งหมด จะให้โมเดลการจัดประเภทแบบไบนารี 3 รายการแยกกันต่อไปนี้

สัตว์เทียบกับไม่ใช่สัตว์
ผักกับไม่ใช่ผัก
แร่ธาตุเทียบกับไม่ใช่แร่ธาตุ

ออนไลน์

#fundamentals

คำพ้องความหมายของไดนามิก

การอนุมานออนไลน์

#fundamentals

สร้างการคาดการณ์ตามต้องการ ตัวอย่างเช่น สมมติว่าแอปส่งอินพุตไปยังโมเดลและส่งคำขอเพื่อรับ การคาดการณ์ ระบบที่ใช้การอนุมานออนไลน์จะตอบสนองต่อคำขอโดยการเรียกใช้โมเดล (และส่งคืนการคาดการณ์ไปยังแอป)

เปรียบเทียบกับการอนุมานแบบออฟไลน์

ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML ที่ใช้งานจริง: การอนุมานแบบคงที่เทียบกับการอนุมานแบบไดนามิก ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การดำเนินการ (op)

#TensorFlow

ใน TensorFlow คือกระบวนการใดๆ ที่สร้าง จัดการ หรือทำลาย Tensor ตัวอย่างเช่น การคูณเมทริกซ์เป็นการดำเนินการที่รับ Tensor 2 รายการเป็น อินพุตและสร้าง Tensor 1 รายการเป็นเอาต์พุต

Optax

ไลบรารีการประมวลผลและการเพิ่มประสิทธิภาพการไล่ระดับสีสำหรับ JAX Optax ช่วยอำนวยความสะดวกในการวิจัยโดยการจัดหาองค์ประกอบพื้นฐานที่สามารถ รวมกันใหม่ในรูปแบบที่กำหนดเองเพื่อเพิ่มประสิทธิภาพโมเดลพารามิเตอร์ เช่น เครือข่ายประสาทเทียมแบบลึก เป้าหมายอื่นๆ ได้แก่

การใช้งานที่อ่านง่าย มีการทดสอบอย่างดี และมีประสิทธิภาพของ คอมโพเนนต์หลัก
การปรับปรุงประสิทธิภาพด้วยการทำให้สามารถรวมส่วนผสมระดับต่ำ เข้ากับตัวเพิ่มประสิทธิภาพที่กำหนดเอง (หรือคอมโพเนนต์การประมวลผลแบบไล่ระดับอื่นๆ)
เร่งการนำแนวคิดใหม่ๆ มาใช้ด้วยการทำให้ทุกคนร่วมให้ข้อมูลได้ง่ายขึ้น

เครื่องมือเพิ่มประสิทธิภาพ

การใช้งานอัลกอริทึมการไล่ระดับการไล่ระดับ ที่เฉพาะเจาะจง เครื่องมือเพิ่มประสิทธิภาพยอดนิยม ได้แก่

AdaGrad ซึ่งย่อมาจาก ADAptive GRADient descent
Adam ซึ่งย่อมาจาก ADAptive with Momentum

ORA

#generativeAI

ตัวย่อของคำตอบที่ถูกต้องเพียงข้อเดียว

อคติความเหมือนกันของกลุ่มนอก

#responsible

แนวโน้มที่จะมองว่าสมาชิกนอกกลุ่มมีความคล้ายคลึงกันมากกว่าสมาชิกในกลุ่ม เมื่อเปรียบเทียบทัศนคติ คุณค่า ลักษณะบุคลิกภาพ และลักษณะอื่นๆ กลุ่มในหมายถึงผู้ที่คุณโต้ตอบด้วยเป็นประจำ กลุ่มนอกหมายถึงผู้ที่คุณไม่ได้โต้ตอบด้วยเป็นประจำ หากคุณ สร้างชุดข้อมูลโดยขอให้ผู้คนระบุแอตทริบิวต์เกี่ยวกับ กลุ่มนอก แอตทริบิวต์เหล่านั้นอาจมีความแตกต่างน้อยและเป็นแบบเหมารวมมากกว่า แอตทริบิวต์ที่ผู้เข้าร่วมระบุสำหรับผู้คนในกลุ่มของตน

ตัวอย่างเช่น ชาวลิลิพุตอาจอธิบายบ้านของชาวลิลิพุตคนอื่นๆ อย่างละเอียด โดยอ้างถึงความแตกต่างเล็กๆ น้อยๆ ในรูปแบบสถาปัตยกรรม หน้าต่าง ประตู และขนาด แต่ชาวลิลิปุตคนเดียวกันนี้อาจกล่าวว่า ชาวบร็อบดิงแน็กทุกคนอาศัยอยู่ในบ้านที่เหมือนกัน

อคติความเหมือนกันของกลุ่มนอกเป็นรูปแบบหนึ่งของอคติการระบุแหล่งที่มาของกลุ่ม

ดูอคติในกลุ่มด้วย

การตรวจจับค่าผิดปกติ

กระบวนการระบุค่าผิดปกติในชุดการฝึก

แตกต่างจากการตรวจหาความแปลกใหม่

ค่าผิดปกติ

ค่าที่แตกต่างจากค่าอื่นๆ ส่วนใหญ่ ในแมชชีนเลิร์นนิง รายการต่อไปนี้ถือเป็นค่าผิดปกติ

ป้อนข้อมูลที่มีค่ามากกว่าค่าเบี่ยงเบนมาตรฐานประมาณ 3 ค่า จากค่าเฉลี่ย
น้ำหนักที่มีค่าสัมบูรณ์สูง
ค่าที่คาดการณ์อยู่ห่างจากค่าจริงค่อนข้างมาก

ตัวอย่างเช่น สมมติว่า widget-price เป็นฟีเจอร์ของโมเดลหนึ่ง สมมติว่าค่าเฉลี่ย widget-price คือ 7 ยูโร โดยมีค่าเบี่ยงเบนมาตรฐาน เท่ากับ 1 ยูโร ตัวอย่างที่มีwidget-price 12 ยูโรหรือ 2 ยูโร จึงถือเป็นค่าผิดปกติ เนื่องจากราคาแต่ละรายการ อยู่ห่างจากค่าเฉลี่ย 5 ส่วนเบี่ยงเบนมาตรฐาน

ค่าผิดปกติมักเกิดจากการพิมพ์ผิดหรือข้อผิดพลาดอื่นๆ ในการป้อนข้อมูล ในกรณีอื่นๆ ค่าผิดปกติไม่ใช่ข้อผิดพลาด เนื่องจากค่าที่อยู่ห่างจากค่าเฉลี่ย 5 ส่วนเบี่ยงเบนมาตรฐานนั้นพบได้ยากแต่ก็ไม่ใช่ว่าจะไม่มีเลย

ค่าผิดปกติมักทำให้เกิดปัญหาในการฝึกโมเดล การตัดค่า เป็นวิธีหนึ่งในการจัดการค่าผิดปกติ

การประเมินนอกกลุ่มตัวอย่าง (การประเมิน OOB)

#df

กลไกในการประเมินคุณภาพของDecision Forest โดยการทดสอบDecision Tree แต่ละรายการกับตัวอย่างที่ไม่ได้ใช้ในระหว่างการฝึกของ Decision Tree นั้น ตัวอย่างเช่น ใน แผนภาพต่อไปนี้ โปรดสังเกตว่าระบบจะฝึกต้นไม้ตัดสินใจแต่ละต้น กับตัวอย่างประมาณ 2 ใน 3 แล้วประเมินกับ ตัวอย่างที่เหลืออีก 1 ใน 3

Decision Forest ประกอบด้วย Decision Tree 3 รายการ
แผนผังการตัดสินใจหนึ่งจะฝึกกับตัวอย่าง 2 ใน 3
แล้วใช้ตัวอย่างที่เหลือ 1 ใน 3 สำหรับการประเมิน OOB
แผนผังการตัดสินใจที่ 2 จะได้รับการฝึกจากตัวอย่าง 2 ใน 3 ส่วนที่แตกต่างจากแผนผังการตัดสินใจก่อนหน้า จากนั้นจะใช้ตัวอย่าง 1 ใน 3 ส่วนที่แตกต่างกันสำหรับการประเมิน OOB ซึ่งแตกต่างจากแผนผังการตัดสินใจก่อนหน้า

การประเมินนอกกลุ่มตัวอย่างเป็นการประมาณกลไกการตรวจสอบแบบไขว้ที่มีประสิทธิภาพด้านการคำนวณและมีความระมัดระวัง ในการตรวจสอบความถูกต้องแบบไขว้ ระบบจะฝึกโมเดล 1 รายการสําหรับการตรวจสอบความถูกต้องแบบไขว้แต่ละรอบ (เช่น ฝึกโมเดล 10 รายการในการตรวจสอบความถูกต้องแบบไขว้ 10 พับ) การประเมิน OOB จะฝึกโมเดลเดียว เนื่องจากการสุ่มตัวอย่างแบบแทนที่ จะกันข้อมูลบางส่วนจากแต่ละต้นไม้ไว้ระหว่างการฝึก การประเมิน OOB จึงใช้ข้อมูลดังกล่าวเพื่อประมาณค่าการตรวจสอบแบบไขว้ได้

ดูข้อมูลเพิ่มเติมได้ที่การประเมินนอกกลุ่มตัวอย่าง ในหลักสูตร Decision Forests

เลเยอร์เอาต์พุต

#fundamentals

เลเยอร์ "สุดท้าย" ของโครงข่ายประสาทเทียม เลเยอร์เอาต์พุตมีการคาดการณ์

ภาพต่อไปนี้แสดงโครงข่ายประสาทแบบลึกขนาดเล็กที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อน 2 เลเยอร์ และเลเยอร์เอาต์พุต

Overfitting

#fundamentals

การสร้างโมเดลที่ตรงกับข้อมูลการฝึกอย่างใกล้ชิดมากจนโมเดลไม่สามารถคาดการณ์ข้อมูลใหม่ได้อย่างถูกต้อง

การทำให้เป็นปกติจะช่วยลดการปรับมากเกินไปได้ การฝึกในชุดการฝึกขนาดใหญ่และหลากหลายยังช่วยลดการเกิด Overfitting ได้ด้วย

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

การปรับมากเกินไปก็เหมือนกับการทำตามคำแนะนำจากครูคนโปรดของคุณเท่านั้น คุณอาจประสบความสำเร็จในชั้นเรียนของครูคนนั้น แต่ก็อาจ "ปรับมากเกินไป" กับแนวคิดของครูคนนั้นและไม่ประสบความสำเร็จในชั้นเรียนอื่นๆ การปฏิบัติตามคำแนะนำจากครูหลายๆ คนจะช่วยให้คุณ ปรับตัวเข้ากับสถานการณ์ใหม่ๆ ได้ดียิ่งขึ้น

ดูข้อมูลเพิ่มเติมได้ที่การเกิด Overfitting ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การโอเวอร์แซมปลิง

การนำตัวอย่างของคลาสส่วนน้อย ในชุดข้อมูลที่มีคลาสไม่สมดุลมาใช้ซ้ำเพื่อ สร้างชุดการฝึกที่สมดุลมากขึ้น

ตัวอย่างเช่น พิจารณาปัญหาการแยกประเภทแบบไบนารี ซึ่งอัตราส่วนของคลาสส่วนใหญ่ต่อคลาสส่วนน้อยคือ 5,000:1 หากชุดข้อมูลมีตัวอย่าง 1 ล้านรายการ ชุดข้อมูลจะมีตัวอย่างของคลาสส่วนน้อยเพียงประมาณ 200 รายการ ซึ่งอาจมีตัวอย่างน้อยเกินไปสำหรับการฝึกที่มีประสิทธิภาพ คุณอาจแก้ปัญหานี้ได้โดยการสุ่มตัวอย่างเกิน (นำกลับมาใช้ใหม่) ตัวอย่าง 200 รายการนั้นหลายครั้ง ซึ่งอาจทำให้มีตัวอย่างเพียงพอสำหรับการฝึกที่เป็นประโยชน์

คุณต้องระมัดระวังเกี่ยวกับการปรับมากเกินไปเมื่อ การสุ่มตัวอย่างเกิน

เปรียบเทียบกับการสุ่มตัวอย่างน้อยเกินไป

P

ข้อมูลที่แพ็ก

แนวทางในการจัดเก็บข้อมูลอย่างมีประสิทธิภาพมากขึ้น

ข้อมูลที่แพ็กจะจัดเก็บข้อมูลโดยใช้รูปแบบที่บีบอัดหรือใน วิธีอื่นๆ ที่ช่วยให้เข้าถึงข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น ข้อมูลที่แพ็กจะลดปริมาณหน่วยความจำและการคำนวณที่จำเป็นต่อการเข้าถึงข้อมูล ซึ่งจะช่วยให้การฝึกเร็วขึ้นและการอนุมานโมเดลมีประสิทธิภาพมากขึ้น

มักใช้ข้อมูลที่แพ็กแล้วร่วมกับเทคนิคอื่นๆ เช่น การเพิ่มข้อมูลและการทำให้เป็นปกติ เพื่อปรับปรุงประสิทธิภาพของโมเดลให้ดียิ่งขึ้น

PaLM

ตัวย่อของ โมเดลภาษา Pathways

แพนด้า

#fundamentals

API การวิเคราะห์ข้อมูลแบบคอลัมน์ที่สร้างขึ้นบน numpy เฟรมเวิร์กแมชชีนเลิร์นนิงหลายรายการ รวมถึง TensorFlow รองรับโครงสร้างข้อมูล pandas เป็นอินพุต ดูรายละเอียดได้ที่ เอกสารประกอบของ Pandas

พารามิเตอร์

#fundamentals

น้ำหนักและอคติที่โมเดลเรียนรู้ระหว่างการฝึก ตัวอย่างเช่น ในโมเดลการถดถอยเชิงเส้น พารามิเตอร์ประกอบด้วย อคติ (b) และน้ำหนักทั้งหมด (w₁, w₂, และอื่นๆ) ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในทางตรงกันข้าม ไฮเปอร์พารามิเตอร์คือค่าที่ คุณ (หรือบริการปรับไฮเปอร์พารามิเตอร์) ระบุให้กับโมเดล เช่น อัตราการเรียนรู้เป็นไฮเปอร์พารามิเตอร์

การปรับแต่งที่มีประสิทธิภาพด้านพารามิเตอร์

#generativeAI

ชุดเทคนิคในการปรับแต่งโมเดลภาษาที่ฝึกไว้ล่วงหน้า (PLM) ขนาดใหญ่ ให้มีประสิทธิภาพมากกว่าการปรับแต่งแบบเต็ม การปรับแต่งที่มีประสิทธิภาพด้านพารามิเตอร์ มักจะปรับแต่งพารามิเตอร์จำนวนน้อยกว่าการปรับแต่งแบบเต็ม อย่างละเอียดมาก แต่โดยทั่วไปแล้วจะสร้างโมเดลภาษาขนาดใหญ่ที่ทำงานได้ดี (หรือเกือบดี) เท่ากับโมเดลภาษาขนาดใหญ่ที่สร้างจากการปรับแต่งแบบเต็ม อย่างละเอียด

เปรียบเทียบการปรับแต่งที่มีประสิทธิภาพด้านพารามิเตอร์กับ

การปรับแต่งตามคำสั่ง
การปรับแต่งพรอมต์

การปรับแต่งที่มีประสิทธิภาพด้านพารามิเตอร์เรียกอีกอย่างว่าการปรับแต่งแบบละเอียดที่มีประสิทธิภาพด้านพารามิเตอร์

เซิร์ฟเวอร์พารามิเตอร์ (PS)

#TensorFlow

งานที่ติดตามพารามิเตอร์ของโมเดลใน การตั้งค่าแบบกระจาย

การอัปเดตพารามิเตอร์

การดำเนินการปรับพารามิเตอร์ของโมเดลระหว่างการฝึก โดยปกติจะอยู่ในการทำซ้ำครั้งเดียวของ การไล่ระดับสี

อนุพันธ์ย่อย

อนุพันธ์ที่ถือว่าตัวแปรทั้งหมดเป็นค่าคงที่ ยกเว้นตัวแปร 1 ตัว ตัวอย่างเช่น อนุพันธ์ย่อยของ f(x, y) เทียบกับ x คืออนุพันธ์ของ f ซึ่งถือเป็นฟังก์ชันของ x เพียงอย่างเดียว (นั่นคือคงค่า y ไว้) อนุพันธ์ย่อยของ f เทียบกับ x จะมุ่งเน้นเฉพาะ วิธีที่ x เปลี่ยนแปลง และไม่สนใจตัวแปรอื่นๆ ทั้งหมดในสมการ

อคติจากการเข้าร่วม

#responsible

คำพ้องความหมายของอคติจากการไม่ตอบ ดูอคติในการเลือก

กลยุทธ์การแบ่งพาร์ติชัน

อัลกอริทึมที่ใช้ในการแบ่งตัวแปรในเซิร์ฟเวอร์พารามิเตอร์

ผ่านที่ k (pass@k)

#Metric

เมตริกที่ใช้กำหนดคุณภาพของโค้ด (เช่น Python) ที่โมเดลภาษาขนาดใหญ่สร้างขึ้น กล่าวอย่างเจาะจงคือ การส่งผ่านที่ k จะบอกความน่าจะเป็นที่โค้ดอย่างน้อย 1 บล็อกจากโค้ด k บล็อกที่สร้างขึ้นจะผ่านการทดสอบหน่วยทั้งหมด

โมเดลภาษาขนาดใหญ่มักประสบปัญหาในการสร้างโค้ดที่ดีสำหรับปัญหาการเขียนโปรแกรมที่ซับซ้อน วิศวกรซอฟต์แวร์ปรับตัวเพื่อรับมือกับปัญหานี้โดย การแจ้งโมเดลภาษาขนาดใหญ่ให้สร้างโซลูชันหลายรายการ (k) สำหรับปัญหาเดียวกัน จากนั้นวิศวกรซอฟต์แวร์จะทดสอบโซลูชันแต่ละรายการ กับการทดสอบหน่วย การคำนวณการผ่านที่ k จะขึ้นอยู่กับผลลัพธ์ ของการทดสอบหน่วย

หากโซลูชันอย่างน้อย 1 รายการผ่านการทดสอบหน่วย แสดงว่า LLM ผ่านความท้าทายในการสร้างโค้ดนั้น
หากไม่มีโซลูชันใดผ่านการทดสอบหน่วย LLM จะไม่ผ่านความท้าทายในการสร้างโค้ดนั้น

สูตรสำหรับผ่านที่ k มีดังนี้

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

โดยทั่วไป ค่า k ที่สูงขึ้นจะทำให้ได้คะแนนที่ผ่านเกณฑ์ที่สูงขึ้น อย่างไรก็ตาม ค่า k ที่สูงขึ้นจะต้องการโมเดลภาษาขนาดใหญ่และการทดสอบหน่วย มากขึ้น

คลิกไอคอนเพื่อดูตัวอย่าง

สมมติว่าวิศวกรซอฟต์แวร์ขอให้โมเดลภาษาขนาดใหญ่ สร้างโซลูชัน k=10 สำหรับปัญหาการเขียนโค้ดที่ท้าทาย n=50 ผลลัพธ์ที่ได้มีดังนี้

บัตร 30 ใบ
20 Fails

ดังนั้นคะแนนที่ตำแหน่ง 10 จึงเป็น

$$\text{pass at 10} = \frac{\text{30}} {\text{50}} = 0.6$$

โมเดลภาษา Pathways (PaLM)

โมเดลรุ่นเก่าและรุ่นก่อนหน้าโมเดล Gemini

Pax

#generativeAI

เฟรมเวิร์กการเขียนโปรแกรมที่ออกแบบมาเพื่อฝึกโมเดล โครงข่ายระบบประสาทเทียมขนาดใหญ่ ซึ่งมีขนาดใหญ่มากจนครอบคลุมชิป TPU ตัวเร่ง หลายชิ้น หรือพ็อด

Pax สร้างขึ้นบน Flax ซึ่งสร้างขึ้นบน JAX

แผนภาพแสดงตำแหน่งของ Pax ในสแต็กซอฟต์แวร์
Pax สร้างขึ้นบน JAX Pax ประกอบด้วย 3
เลเยอร์ เลเยอร์ล่างสุดประกอบด้วย TensorStore และ Flax
เลเยอร์ตรงกลางประกอบด้วย Optax และ Flaxformer เลเยอร์ด้านบน
มี Praxis Modeling Library Fiddle สร้างขึ้น
บน Pax

เพอร์เซ็ปตรอน

ระบบ (ทั้งฮาร์ดแวร์หรือซอฟต์แวร์) ที่รับค่าอินพุตอย่างน้อย 1 ค่า เรียกใช้ฟังก์ชันกับผลรวมแบบถ่วงน้ำหนักของอินพุต และคำนวณค่า เอาต์พุตเดียว ในแมชชีนเลิร์นนิง ฟังก์ชันมักจะเป็นแบบไม่เชิงเส้น เช่น ReLU, sigmoid หรือ tanh ตัวอย่างเช่น เพอร์เซปตรอนต่อไปนี้ใช้ฟังก์ชันซิกมอยด์เพื่อประมวลผล ค่าอินพุต 3 ค่า

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

ในภาพประกอบต่อไปนี้ เพอร์เซ็ปตรอนรับอินพุต 3 รายการ ซึ่งแต่ละรายการ จะได้รับการแก้ไขด้วยน้ำหนักก่อนเข้าสู่เพอร์เซ็ปตรอน

เพอร์เซปตรอนที่รับอินพุต 3 รายการ โดยแต่ละรายการจะคูณด้วยน้ำหนักแยกกัน
Perceptron จะแสดงค่าเดียว

เพอร์เซ็ปตรอนคือนิวรอนในโครงข่ายประสาทเทียม

การแสดง

#Metric

คำที่มีความหมายหลายอย่างต่อไปนี้

ความหมายมาตรฐานในวิศวกรรมซอฟต์แวร์ กล่าวคือ ซอฟต์แวร์นี้ทำงานได้เร็ว (หรือมีประสิทธิภาพ) เพียงใด
ความหมายในแมชชีนเลิร์นนิง ในที่นี้ ประสิทธิภาพจะตอบคำถามต่อไปนี้ โมเดลนี้ถูกต้องเพียงใด กล่าวคือ การคาดการณ์ของโมเดลดีเพียงใด

ความสําคัญของตัวแปรการเรียงสับเปลี่ยน

#df

#Metric

ประเภทของความสําคัญของตัวแปรที่ประเมิน การเพิ่มขึ้นของข้อผิดพลาดในการคาดการณ์ของโมเดลหลังจากสลับค่าของฟีเจอร์ ความสําคัญของตัวแปรการสับเปลี่ยนเป็นเมตริกที่ไม่ขึ้นอยู่กับโมเดล

Perplexity

#Metric

มาตรวัดหนึ่งที่ใช้ประเมินว่าโมเดลทํางานได้ดีเพียงใด เช่น สมมติว่างานของคุณคือการอ่านตัวอักษร 2-3 ตัวแรกของคำ ที่ผู้ใช้พิมพ์บนแป้นพิมพ์โทรศัพท์ และแสดงรายการคำที่เป็นไปได้ เพื่อเติมคำให้สมบูรณ์ ค่าความซับซ้อน P สำหรับงานนี้คือจำนวนคำที่ต้องเดาโดยประมาณเพื่อให้รายการของคุณมีคำจริงที่ผู้ใช้พยายามพิมพ์

Perplexity เกี่ยวข้องกับCross-Entropy ดังนี้

$$P= 2^{-\text{cross entropy}}$$

ไปป์ไลน์

โครงสร้างพื้นฐานที่อยู่รอบๆ อัลกอริทึมแมชชีนเลิร์นนิง ไปป์ไลน์ประกอบด้วยการรวบรวมข้อมูล การใส่ข้อมูลลงในไฟล์ข้อมูลการฝึก การฝึกโมเดลอย่างน้อย 1 รายการ และการส่งออกโมเดลไปยังการใช้งานจริง

ดูข้อมูลเพิ่มเติมได้ที่ไปป์ไลน์ ML ในหลักสูตรการจัดการโปรเจ็กต์ ML

การไปป์ไลน์

รูปแบบของการทำงานแบบขนานของโมเดลซึ่งแบ่งการประมวลผลของโมเดลออกเป็นขั้นตอนต่อเนื่องกัน และแต่ละขั้นตอนจะดำเนินการในอุปกรณ์ที่แตกต่างกัน ในขณะที่สเตจหนึ่งประมวลผลกลุ่มหนึ่ง สเตจก่อนหน้า จะประมวลผลกลุ่มถัดไปได้

ดูการฝึกอบรมแบบแบ่งระยะด้วย

pjit

ฟังก์ชัน JAX ที่แยกโค้ดเพื่อเรียกใช้ในชิปตัวเร่งหลายตัว ผู้ใช้ส่งฟังก์ชันไปยัง pjit ซึ่งจะแสดงผลฟังก์ชันที่มีความหมายเทียบเท่ากัน แต่จะคอมไพล์ เป็นการคำนวณ XLA ที่ทำงานในอุปกรณ์หลายเครื่อง (เช่น GPU หรือแกน TPU)

pjit ช่วยให้ผู้ใช้สามารถแบ่งการคำนวณออกเป็นส่วนๆ ได้โดยไม่ต้องเขียนใหม่ด้วยการใช้ตัวแบ่งพาร์ติชัน SPMD

ตั้งแต่เดือนมีนาคม 2023 เป็นต้นมา pjit ได้รวมเข้ากับ jit แล้ว ดูรายละเอียดเพิ่มเติมได้ที่ อาร์เรย์แบบกระจายและการ ประมวลผลแบบขนานอัตโนมัติ

PLM

#generativeAI

คำย่อของโมเดลภาษาที่ฝึกล่วงหน้า

pmap

ฟังก์ชัน JAX ที่เรียกใช้สำเนาของฟังก์ชันอินพุต ในอุปกรณ์ฮาร์ดแวร์พื้นฐานหลายเครื่อง (CPU, GPU หรือ TPU) โดยมีค่าอินพุตที่แตกต่างกัน pmap อาศัย SPMD

policy

ในการเรียนรู้แบบเสริมกำลัง การแมปเชิงความน่าจะเป็นของเอเจนต์จากสถานะไปยังการดำเนินการ

การรวมกลุ่ม

การลดขนาดเมทริกซ์ (หรือเมทริกซ์) ที่สร้างขึ้นโดยเลเยอร์ Convolutional ก่อนหน้าให้เป็นเมทริกซ์ขนาดเล็กลง โดยปกติแล้วการรวมจะเกี่ยวข้องกับการใช้ค่าสูงสุดหรือค่าเฉลี่ย ในพื้นที่ที่รวม ตัวอย่างเช่น สมมติว่าเรามีเมทริกซ์ 3x3 ดังนี้

เมทริกซ์ 3x3 [[5,3,1], [8,2,5], [9,4,3]]

การดำเนินการพูลลิ่งจะแบ่งเมทริกซ์นั้นออกเป็นส่วนๆ เช่นเดียวกับการดำเนินการแบบ Convolutional แล้วเลื่อนการดำเนินการแบบ Convolutional นั้นตามระยะก้าวกระโดด ตัวอย่างเช่น สมมติว่าการดำเนินการพูล แบ่งเมทริกซ์การแปลงเป็นชิ้นๆ ขนาด 2x2 โดยมีระยะก้าวยาว 1x1 ดังที่แผนภาพต่อไปนี้แสดงให้เห็น การดำเนินการพูล 4 รายการจะเกิดขึ้น สมมติว่าการดำเนินการจัดกลุ่มแต่ละครั้งเลือกค่าสูงสุดของ ทั้ง 4 รายการในสไลซ์นั้น

พูลช่วยบังคับใช้ความไม่แปรเปลี่ยนตามการแปลในเมทริกซ์อินพุต

การรวมกลุ่มสำหรับแอปพลิเคชันวิชันซิสเตมเรียกอย่างเป็นทางการว่าการรวมกลุ่มเชิงพื้นที่ โดยปกติแล้ว แอปพลิเคชันอนุกรมเวลาจะอ้างอิงถึงการรวมเป็นการรวมเชิงเวลา การพูลมักเรียกว่าการสุ่มตัวอย่างย่อยหรือการดาวน์แซมปลิง

การเข้ารหัสตำแหน่ง

เทคนิคในการเพิ่มข้อมูลเกี่ยวกับตำแหน่งของโทเค็นในลำดับไปยัง การฝังโทเค็น โมเดล Transformer ใช้การเข้ารหัสตำแหน่งเพื่อทำความเข้าใจความสัมพันธ์ระหว่างส่วนต่างๆ ของลำดับได้ดียิ่งขึ้น

การติดตั้งใช้งานการเข้ารหัสตำแหน่งโดยทั่วไปจะใช้ฟังก์ชันไซน์ (กล่าวอย่างเจาะจงคือ ความถี่และแอมพลิจูดของฟังก์ชันไซน์จะกำหนดโดยตำแหน่งของโทเค็นในลำดับ) เทคนิคนี้ ช่วยให้โมเดล Transformer เรียนรู้ที่จะให้ความสนใจกับส่วนต่างๆ ของ ลําดับตามตําแหน่งของส่วนนั้นๆ

คลาสที่เป็นบวก

#fundamentals

#Metric

ชั้นเรียนที่คุณกำลังทดสอบ

เช่น คลาสที่เป็นบวกในโมเดลมะเร็งอาจเป็น "เนื้องอก" คลาสที่เป็นบวกในโมเดลการจัดประเภทอีเมล อาจเป็น "จดหมายขยะ"

เปรียบเทียบกับคลาสที่เป็นลบ

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

คำว่าคลาสที่เป็นบวกอาจทำให้เกิดความสับสนเนื่องจากผลลัพธ์ "เชิงบวก" ของการทดสอบหลายอย่างมักเป็นผลลัพธ์ที่ไม่พึงประสงค์ ตัวอย่างเช่น คลาสบวกในการตรวจทางการแพทย์หลายอย่างสอดคล้องกับเนื้องอกหรือโรค โดยทั่วไป คุณคงอยากให้ แพทย์บอกว่า "ขอแสดงความยินดีด้วย ผลการตรวจหาเชื้อเป็นลบ" ไม่ว่าในกรณีใด คลาสที่เป็นบวกคือเหตุการณ์ที่การทดสอบต้องการค้นหา

แน่นอนว่าคุณกำลังทดสอบทั้งคลาสเชิงบวกและเชิงลบพร้อมกัน

หลังการประมวลผล

#responsible

#fundamentals

การปรับเอาต์พุตของโมเดลหลังจากเรียกใช้โมเดลแล้ว การประมวลผลภายหลังสามารถใช้เพื่อบังคับใช้ข้อจํากัดด้านความเป็นธรรมโดยไม่ต้อง แก้ไขโมเดลด้วยตนเอง

ตัวอย่างเช่น อาจใช้การประมวลผลภายหลังกับโมเดลการจัดประเภทแบบไบนารีโดยการตั้งค่าเกณฑ์การจัดประเภทเพื่อให้ความเท่าเทียมกันของโอกาสยังคงอยู่ สําหรับแอตทริบิวต์บางอย่างโดยตรวจสอบว่าอัตราผลบวกจริง มีค่าเท่ากันสําหรับค่าทั้งหมดของแอตทริบิวต์นั้น

โมเดลที่ฝึกภายหลัง

#generativeAI

คำที่กำหนดอย่างหลวมๆ ซึ่งโดยทั่วไปหมายถึงโมเดลที่ผ่านการฝึกมาก่อนซึ่งผ่านการประมวลผลภายหลังมาแล้ว เช่น การประมวลผลอย่างน้อย 1 อย่างต่อไปนี้

การกลั่น
การปรับแต่ง
การปรับแต่งคำสั่ง

PR AUC (พื้นที่ใต้กราฟ PR)

#Metric

พื้นที่ใต้กราฟ Precision-Recall ที่ประมาณค่าระหว่างจุด (ความอ่อนไหว ความแม่นยำ) สำหรับค่าต่างๆ ของเกณฑ์การจัดประเภท

Praxis

ไลบรารี ML หลักที่มีประสิทธิภาพสูงของ Pax โดยมักจะเรียกว่า "ไลบรารีเลเยอร์"

Praxis ไม่ได้มีเพียงคำจำกัดความสำหรับคลาส Layer เท่านั้น แต่ยังมีคอมโพเนนต์สนับสนุนส่วนใหญ่ด้วย ซึ่งรวมถึง

ข้อมูลอินพุต
ไลบรารีการกำหนดค่า (HParam และ Fiddle)
optimizers

Praxis มีคำจำกัดความสำหรับคลาส Model

ความแม่นยำ

#fundamentals

#Metric

เมตริกสําหรับโมเดลการจัดประเภทที่ตอบคําถามต่อไปนี้

เมื่อโมเดลคาดการณ์คลาสเชิงบวก การคาดการณ์กี่เปอร์เซ็นต์ที่ถูกต้อง

สูตรมีดังนี้

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

ที่ไหน

True Positive หมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้อย่างถูกต้อง
ผลบวกลวงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกอย่างไม่ถูกต้อง

เช่น สมมติว่าโมเดลทำการคาดการณ์เชิงบวก 200 รายการ จากการคาดการณ์ที่เป็นบวก 200 รายการ

150 รายการเป็นผลบวกจริง
50 รายการเป็นการตรวจจับที่ผิดพลาด

ในกรณีนี้

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

เปรียบเทียบกับความแม่นยำและความอ่อนไหว

ความแม่นยำที่ k (precision@k)

#Metric

เมตริกสําหรับการประเมินรายการที่จัดอันดับ (เรียงลําดับ) ความแม่นยำที่ k ระบุเศษส่วนของรายการแรก k ในรายการนั้น ซึ่ง "เกี่ยวข้อง" โดยการ

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

ค่าของ k ต้องน้อยกว่าหรือเท่ากับความยาวของรายการที่แสดง โปรดทราบว่าความยาวของรายการที่แสดงจะไม่รวมอยู่ในการคำนวณ

ความเกี่ยวข้องมักเป็นเรื่องส่วนบุคคล แม้แต่ผู้ประเมินที่เป็นมนุษย์ซึ่งเป็นผู้เชี่ยวชาญก็มักไม่เห็นด้วยว่ารายการใดเกี่ยวข้อง

เปรียบเทียบกับ:

ความแม่นยำเฉลี่ยที่ k
ความแม่นยำของค่าเฉลี่ยที่ k

คลิกไอคอนเพื่อดูตัวอย่าง

สมมติว่าโมเดลภาษาขนาดใหญ่ ได้รับคำค้นหาต่อไปนี้

List the 6 funniest movies of all time in order.

และโมเดลภาษาขนาดใหญ่จะแสดงรายการที่แสดงใน 2 คอลัมน์แรกของตารางต่อไปนี้

ตำแหน่ง	ภาพยนตร์	เกี่ยวข้องไหม
1	The General	ใช่
2	Mean Girls	ใช่
3	Platoon	ไม่
4	Bridesmaids	ใช่
5	พลเมืองคาน	ไม่
6	This is Spinal Tap	ใช่

ภาพยนตร์ 2 เรื่องจาก 3 เรื่องแรกมีความเกี่ยวข้อง ดังนั้นความแม่นยำที่ 3 จึงเป็นดังนี้

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

ภาพยนตร์ 3 เรื่องจาก 5 เรื่องแรกตลกมาก ดังนั้นความแม่นยำที่ 5 จึงเป็นดังนี้

$$\text{precision at 5} = \frac{\text{3}} {\text{5}} = 0.6$$

เส้นโค้ง Precision-Recall

#Metric

กราฟของความแม่นยำเทียบกับความอ่อนไหวที่เกณฑ์การจัดประเภทต่างๆ

การคาดการณ์

#fundamentals

เอาต์พุตของโมเดล เช่น

การคาดการณ์ของโมเดลการจัดประเภทแบบไบนารีคือคลาสที่เป็นบวกหรือคลาสที่เป็นลบ
การคาดการณ์ของโมเดลการจัดประเภทแบบหลายคลาสคือ 1 คลาส
การคาดการณ์ของโมเดลการถดถอยเชิงเส้นคือตัวเลข

อคติในการคาดการณ์

#Metric

ค่าที่บ่งบอกว่าค่าเฉลี่ยของการคาดการณ์อยู่ห่างจากค่าเฉลี่ยของป้ายกำกับ ในชุดข้อมูลมากน้อยเพียงใด

อย่าสับสนกับคำว่าอคติในโมเดลแมชชีนเลิร์นนิง หรืออคติในด้านจริยธรรมและความยุติธรรม

ML เชิงคาดการณ์

ระบบแมชชีนเลิร์นนิงมาตรฐาน ("คลาสสิก")

คำว่า ML เชิงคาดการณ์ไม่มีคำจำกัดความอย่างเป็นทางการ แต่คำนี้ใช้เพื่อแยกหมวดหมู่ของระบบ ML ที่ไม่ได้อิงตามGenerative AI

ความเท่าเทียมในการคาดการณ์

#responsible

#Metric

เมตริกความเป็นธรรมที่ตรวจสอบว่าสำหรับโมเดลการแยกประเภทที่กำหนด อัตราความแม่นยำจะเทียบเท่ากับกลุ่มย่อยที่อยู่ระหว่างการพิจารณาหรือไม่

ตัวอย่างเช่น โมเดลที่คาดการณ์การตอบรับเข้าวิทยาลัยจะตรงตาม ความเท่าเทียมเชิงคาดการณ์สำหรับสัญชาติ หากอัตราความแม่นยำเท่ากัน สำหรับชาวลิลิปุตและชาวโบรบดิงแนก

บางครั้งเราเรียกความเท่าเทียมในการคาดการณ์ว่าความเท่าเทียมของอัตราการคาดการณ์

ดูรายละเอียดเพิ่มเติมเกี่ยวกับการเท่าเทียมกันในการคาดการณ์ได้ที่ "คำอธิบายคำจำกัดความของความเป็นธรรม" (ส่วนที่ 3.2.1)

ความเท่าเทียมของราคาเชิงคาดการณ์

#responsible

#Metric

อีกชื่อหนึ่งของความเท่าเทียมเชิงคาดการณ์

การประมวลผลล่วงหน้า

#responsible

การประมวลผลข้อมูลก่อนที่จะนำไปใช้ฝึกโมเดล การประมวลผลล่วงหน้าอาจ ง่ายๆ เพียงแค่การนำคำออกจากคลังข้อความภาษาอังกฤษที่ไม่ได้ อยู่ในพจนานุกรมภาษาอังกฤษ หรืออาจซับซ้อนถึงขั้นการแสดง จุดข้อมูลใหม่ในลักษณะที่กำจัดแอตทริบิวต์ที่สัมพันธ์กับแอตทริบิวต์ที่ละเอียดอ่อนให้ได้มากที่สุด การประมวลผลล่วงหน้าช่วยให้เป็นไปตามข้อจำกัดด้านความเป็นธรรม

โมเดลที่ฝึกไว้ล่วงหน้า

#generativeAI

แม้ว่าคำนี้จะหมายถึงโมเดลหรือเวกเตอร์การฝังที่ผ่านการฝึกใดๆ แต่ปัจจุบันโมเดลที่ผ่านการฝึกเบื้องต้นมักหมายถึงโมเดลภาษาขนาดใหญ่ที่ผ่านการฝึก หรือโมเดล Generative AI รูปแบบอื่นๆ ที่ผ่านการฝึก

ดูโมเดลพื้นฐานและ โมเดลพื้นฐานด้วย

การฝึกล่วงหน้า

#generativeAI

การฝึกโมเดลเบื้องต้นในชุดข้อมูลขนาดใหญ่ โมเดลที่ผ่านการฝึกมาก่อนบางโมเดล เป็นโมเดลขนาดใหญ่ที่ทำงานได้ไม่ดีนักและมักจะต้องได้รับการปรับแต่งผ่านการฝึกเพิ่มเติม ตัวอย่างเช่น ผู้เชี่ยวชาญด้าน ML อาจฝึกล่วงหน้าโมเดลภาษาขนาดใหญ่ในชุดข้อมูลข้อความขนาดใหญ่ เช่น หน้าภาษาอังกฤษทั้งหมดในวิกิพีเดีย หลังจากการฝึกเบื้องต้น โมเดลที่ได้อาจได้รับการปรับแต่งเพิ่มเติมผ่านเทคนิคใดเทคนิคหนึ่งต่อไปนี้

กลั่น
การปรับแต่ง
การปรับแต่งตามคำสั่ง
การปรับแต่งที่มีประสิทธิภาพด้านพารามิเตอร์
การปรับพรอมต์

ความเชื่อก่อนหน้า

สิ่งที่คุณเชื่อเกี่ยวกับข้อมูลก่อนเริ่มการฝึก เช่น การทำให้เป็นปกติ _L2 อาศัย ความเชื่อเบื้องต้นว่าน้ำหนักควรมีขนาดเล็กและมีการกระจายแบบปกติ รอบๆ ศูนย์

Pro

#generativeAI

โมเดล Gemini ที่มีพารามิเตอร์น้อยกว่า Ultra แต่มีพารามิเตอร์มากกว่า Nano ดูรายละเอียดได้ที่ Gemini Pro

โมเดลการถดถอยเชิงความน่าจะเป็น

โมเดลการถดถอยที่ใช้ไม่เพียงแต่น้ำหนักสำหรับฟีเจอร์แต่ละรายการเท่านั้น แต่ยังใช้ความไม่แน่นอนของน้ำหนักเหล่านั้นด้วย โมเดลการถดถอยเชิงความน่าจะเป็นจะสร้าง การคาดการณ์และความไม่แน่นอนของการคาดการณ์นั้น ตัวอย่างเช่น โมเดลการถดถอยเชิงความน่าจะเป็นอาจให้ผลการคาดการณ์เป็น 325 โดยมี ค่าเบี่ยงเบนมาตรฐานเป็น 12 ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลการถดถอยเชิงความน่าจะเป็นได้ใน Colab บน tensorflow.org

ฟังก์ชันความหนาแน่นของความน่าจะเป็น

#Metric

ฟังก์ชันที่ระบุความถี่ของตัวอย่างข้อมูลที่มีค่าใดค่าหนึ่งตรงกัน เมื่อค่าของชุดข้อมูลเป็นตัวเลขทศนิยมแบบต่อเนื่อง การจับคู่ที่ตรงกันทุกประการจะเกิดขึ้นได้ยาก อย่างไรก็ตาม การหาปริพันธ์ของฟังก์ชันความหนาแน่นของความน่าจะเป็นจากค่า x ถึงค่า y จะให้ความถี่ที่คาดไว้ของตัวอย่างข้อมูลระหว่าง x และ y

ตัวอย่างเช่น พิจารณาการแจกแจงปกติที่มีค่าเฉลี่ย 200 และค่าเบี่ยงเบนมาตรฐาน 30 หากต้องการกำหนดความถี่ที่คาดไว้ของตัวอย่างข้อมูล ที่อยู่ในช่วง 211.4 ถึง 218.7 คุณสามารถรวมความน่าจะเป็น ฟังก์ชันความหนาแน่นสำหรับการแจกแจงแบบปกติจาก 211.4 ถึง 218.7

prompt

#generativeAI

ข้อความใดก็ตามที่ป้อนเป็นอินพุตไปยังโมเดลภาษาขนาดใหญ่ เพื่อกำหนดให้โมเดลทำงานในลักษณะใดลักษณะหนึ่ง พรอมต์อาจสั้นเพียง วลีเดียวหรือยาวเท่าใดก็ได้ (เช่น ข้อความทั้งหมดของนวนิยาย) พรอมต์ จะอยู่ในหลายหมวดหมู่ รวมถึงหมวดหมู่ที่แสดงในตารางต่อไปนี้

หมวดหมู่พรอมต์	ตัวอย่าง	หมายเหตุ
คำถาม	`นกพิราบบินได้เร็วแค่ไหน`
โรงเรียนฝึกอบรม	`แต่งกลอนตลกๆ เกี่ยวกับการเก็งกำไร`	พรอมต์ที่ขอให้โมเดลภาษาขนาดใหญ่ทำบางอย่าง
ตัวอย่าง	`แปลโค้ด Markdown เป็น HTML เช่น มาร์กดาวน์: * รายการ HTML: <ul> <li>รายการ</li> </ul>`	ประโยคแรกในพรอมต์ตัวอย่างนี้คือคำสั่ง ส่วนที่เหลือของพรอมต์คือตัวอย่าง
บทบาท	`อธิบายเหตุผลที่ใช้การไล่ระดับความชันในการฝึกแมชชีนเลิร์นนิงให้ ผู้ที่จบปริญญาเอกสาขาฟิสิกส์ฟัง`	ส่วนแรกของประโยคคือคำสั่ง ส่วนวลี "to a PhD in Physics" คือส่วนบทบาท
อินพุตบางส่วนเพื่อให้โมเดลทำให้เสร็จสมบูรณ์	`นายกรัฐมนตรีแห่งสหราชอาณาจักรอาศัยอยู่ที่`	พรอมต์อินพุตบางส่วนอาจสิ้นสุดอย่างกะทันหัน (ดังตัวอย่างนี้) หรือลงท้ายด้วยขีดล่าง

โมเดล Generative AI สามารถตอบสนองต่อพรอมต์ด้วยข้อความ โค้ด รูปภาพ การฝัง วิดีโอ และอื่นๆ อีกมากมาย

การเรียนรู้จากพรอมต์

#generativeAI

ความสามารถของโมเดลบางอย่างที่ช่วยให้โมเดลปรับเปลี่ยน ลักษณะการทำงานเพื่อตอบสนองต่อข้อความที่ป้อนโดยพลการ (พรอมต์) ได้ ในกระบวนทัศน์การเรียนรู้ตามพรอมต์ทั่วไป โมเดลภาษาขนาดใหญ่จะตอบกลับพรอมต์โดยการสร้างข้อความ ตัวอย่างเช่น สมมติว่าผู้ใช้ป้อนพรอมต์ต่อไปนี้

สรุปกฎการเคลื่อนที่ข้อที่ 3 ของนิวตัน

โมเดลที่รองรับการเรียนรู้ตามพรอมต์ไม่ได้ผ่านการฝึกมาเพื่อตอบพรอมต์ก่อนหน้าโดยเฉพาะ แต่โมเดลจะ "รู้" ข้อเท็จจริงมากมายเกี่ยวกับฟิสิกส์ กฎเกณฑ์ทั่วไปของภาษา และสิ่งที่ประกอบกันเป็นคำตอบที่มีประโยชน์โดยทั่วไป ความรู้นั้นเพียงพอที่จะให้คำตอบที่ (หวังว่า) จะเป็นประโยชน์ ความคิดเห็นเพิ่มเติมจากเจ้าหน้าที่ ("คำตอบนั้นซับซ้อนเกินไป" หรือ "รีแอ็กชันคืออะไร") ช่วยให้ระบบการเรียนรู้บางอย่างที่อิงตามพรอมต์ค่อยๆ ปรับปรุงประโยชน์ของคำตอบได้

การออกแบบพรอมต์

#generativeAI

คำพ้องความหมายของวิศวกรรมพรอมต์

วิศวกรรมพรอมต์

#generativeAI

ศิลปะในการสร้างพรอมต์ที่กระตุ้นให้คำตอบที่ต้องการจากโมเดลภาษาขนาดใหญ่ มนุษย์จะทำพรอมต์ เอ็นจิเนียริง การเขียนพรอมต์ที่มีโครงสร้างดีเป็นส่วนสำคัญในการรับประกัน คำตอบที่เป็นประโยชน์จากโมเดลภาษาขนาดใหญ่ การออกแบบพรอมต์ขึ้นอยู่กับปัจจัยหลายประการ ได้แก่

ชุดข้อมูลที่ใช้ในการฝึกเบื้องต้นและอาจใช้ปรับแต่งโมเดลภาษาขนาดใหญ่
อุณหภูมิและพารามิเตอร์การถอดรหัสอื่นๆ ที่โมเดลใช้ในการสร้างคำตอบ

การออกแบบพรอมต์เป็นคำพ้องความหมายของวิศวกรรมพรอมต์

ดูรายละเอียดเพิ่มเติมเกี่ยวกับการเขียนพรอมต์ที่เป็นประโยชน์ได้ที่ ข้อมูลเบื้องต้นเกี่ยวกับการออกแบบพรอมต์

ชุดพรอมต์

#generativeAI

กลุ่มพรอมต์สำหรับการประเมิน โมเดลภาษาขนาดใหญ่ ตัวอย่างเช่น ภาพต่อไปนี้ แสดงชุดพรอมต์ที่ประกอบด้วยพรอมต์ 3 รายการ

พรอมต์ 3 รายการที่ส่งไปยัง LLM จะสร้างคำตอบ 3 รายการ พรอมต์ทั้ง 3 รายการ
คือชุดพรอมต์ คำตอบทั้ง 3 รายการคือชุดคำตอบ

ชุดพรอมต์ที่ดีประกอบด้วยคอลเล็กชันพรอมต์ที่ "หลากหลาย" เพียงพอที่จะ ประเมินความปลอดภัยและประโยชน์ของโมเดลภาษาขนาดใหญ่อย่างละเอียด

ดูชุดคำตอบด้วย

การปรับแต่งพรอมต์

#generativeAI

กลไกการปรับแต่งที่มีประสิทธิภาพของพารามิเตอร์ ซึ่งจะเรียนรู้ "คำนำหน้า" ที่ระบบจะเพิ่มไว้หน้าพรอมต์จริง

การปรับพรอมต์รูปแบบหนึ่งซึ่งบางครั้งเรียกว่าการปรับคำนำหน้าคือการ เพิ่มคำนำหน้าที่ทุกเลเยอร์ ในทางตรงกันข้าม การปรับพรอมต์ส่วนใหญ่จะเพิ่มคำนำหน้าให้กับเลเยอร์อินพุตเท่านั้น

คลิกไอคอนเพื่อดูข้อมูลเพิ่มเติมเกี่ยวกับคำนำหน้า

สำหรับการปรับพรอมต์ "คำนำหน้า" (หรือที่เรียกว่า "พรอมต์แบบซอฟต์") คือเวกเตอร์ที่เฉพาะเจาะจงกับงานที่เรียนรู้มาจำนวนหนึ่งซึ่งเพิ่มไว้ด้านหน้าการฝังโทเค็นข้อความจากพรอมต์จริง ระบบจะเรียนรู้พรอมต์แบบยืดหยุ่นโดย การตรึงพารามิเตอร์โมเดลอื่นๆ ทั้งหมดและปรับแต่งงานที่เฉพาะเจาะจง

พร็อกซี (แอตทริบิวต์ที่ละเอียดอ่อน)

#responsible

แอตทริบิวต์ที่ใช้แทนแอตทริบิวต์ที่ละเอียดอ่อน เช่น รหัสไปรษณีย์ของบุคคลอาจใช้เป็นตัวแทนของรายได้ เชื้อชาติ หรือกลุ่มชาติพันธุ์

ป้ายกำกับพร็อกซี

#fundamentals

ข้อมูลที่ใช้ในการประมาณป้ายกำกับซึ่งไม่มีในชุดข้อมูลโดยตรง

ตัวอย่างเช่น สมมติว่าคุณต้องฝึกโมเดลเพื่อคาดการณ์ระดับความเครียดของพนักงาน ชุดข้อมูลของคุณมีฟีเจอร์การคาดการณ์จำนวนมาก แต่ไม่มีป้ายกำกับที่ชื่อระดับความเครียด คุณจึงเลือก "อุบัติเหตุในที่ทำงาน" เป็นป้ายกำกับพร็อกซีสำหรับ ระดับความเครียด เพราะพนักงานที่อยู่ภายใต้ความเครียดสูงมีแนวโน้มที่จะเกิดอุบัติเหตุมากกว่าพนักงานที่ใจเย็น หรือว่าไม่ อุบัติเหตุในที่ทำงานอาจเพิ่มขึ้นและลดลงด้วยเหตุผลหลายประการ

ตัวอย่างที่ 2 สมมติว่าคุณต้องการให้ is it raining? เป็นป้ายกํากับบูลีน สําหรับชุดข้อมูล แต่ชุดข้อมูลไม่มีข้อมูลฝน หากมีรูปภาพ คุณอาจสร้างรูปภาพของผู้คน ที่ถือร่มเป็นป้ายกำกับพร็อกซีสำหรับฝนตกไหม ป้ายกำกับพร็อกซีที่ดี คืออะไร อาจเป็นไปได้ แต่ผู้คนในบางวัฒนธรรมอาจมีแนวโน้มที่จะพกร่มเพื่อป้องกันแสงแดดมากกว่าฝน

ป้ายกำกับพร็อกซีมักจะไม่สมบูรณ์ หากเป็นไปได้ ให้เลือกป้ายกำกับจริงแทน ป้ายกำกับพร็อกซี อย่างไรก็ตาม หากไม่มีป้ายกำกับจริง ให้เลือกป้ายกำกับพร็อกซีอย่างระมัดระวัง โดยเลือกป้ายกำกับพร็อกซีที่มีความเหมาะสมน้อยที่สุด

ดูข้อมูลเพิ่มเติมได้ที่ชุดข้อมูล: ป้ายกำกับ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟังก์ชันบริสุทธิ์

ฟังก์ชันที่มีเอาต์พุตอิงตามอินพุตเท่านั้น และไม่มีผลข้างเคียง กล่าวคือ ฟังก์ชันบริสุทธิ์จะไม่ใช้หรือเปลี่ยนแปลงสถานะส่วนกลางใดๆ เช่น เนื้อหาของไฟล์หรือค่าของตัวแปรนอกฟังก์ชัน

ฟังก์ชันบริสุทธิ์สามารถใช้เพื่อสร้างโค้ดที่ปลอดภัยต่อเธรด ซึ่งเป็นประโยชน์ เมื่อทำการ Sharding โค้ดโมเดลในชิปตัวเร่งหลายตัว

วิธีการเปลี่ยนรูปแบบฟังก์ชันของ JAX กำหนดให้ฟังก์ชันอินพุตต้องเป็นฟังก์ชันบริสุทธิ์

Q

ฟังก์ชัน Q

ในการเรียนรู้แบบเสริมกำลัง ฟังก์ชันที่คาดการณ์ผลตอบแทนที่คาดไว้จากการทำการดำเนินการในสถานะหนึ่งๆ แล้วทำตามนโยบายที่กำหนด

ฟังก์ชัน Q เรียกอีกอย่างว่าฟังก์ชันค่าสถานะ-การดำเนินการ

Q-learning

ในการเรียนรู้แบบเสริมกำลัง อัลกอริทึมที่ ช่วยให้เอเจนต์ ได้เรียนรู้ฟังก์ชัน Q ที่ดีที่สุดของกระบวนการตัดสินใจแบบมาร์คอฟ โดยใช้สมการเบลแมน กระบวนการตัดสินใจแบบ Markov สร้างโมเดลสภาพแวดล้อม

ควอนไทล์

กลุ่มแต่ละกลุ่มในการจัดกลุ่มควอนไทล์

การจัดกลุ่มตามควอนไทล์

การกระจายค่าของฟีเจอร์ลงในกลุ่มเพื่อให้แต่ละกลุ่มมีจำนวนตัวอย่างเท่ากัน (หรือเกือบเท่ากัน) ตัวอย่างเช่น รูปต่อไปนี้แบ่งคะแนน 44 คะแนนออกเป็น 4 กลุ่ม โดยแต่ละกลุ่ม มีคะแนน 11 คะแนน เพื่อให้แต่ละ Bucket ในรูปมีจำนวนจุดเท่ากัน บาง Bucket จึงครอบคลุมค่า x ที่มีความกว้างต่างกัน

จุดข้อมูล 44 จุดแบ่งออกเป็น 4 กลุ่ม กลุ่มละ 11 จุด
แม้ว่าแต่ละกลุ่มจะมีจุดข้อมูลจำนวนเท่ากัน
แต่บางกลุ่มจะมีค่าฟีเจอร์ที่หลากหลายกว่ากลุ่มอื่นๆ

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การจัดกลุ่ม ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การหาปริมาณ

คำที่มีความหมายหลายอย่างซึ่งอาจใช้ในลักษณะใดก็ได้ต่อไปนี้

การใช้การจัดกลุ่มตามควอนไทล์ ในฟีเจอร์หนึ่งๆ
การเปลี่ยนข้อมูลเป็น 0 และ 1 เพื่อให้จัดเก็บ ฝึก และอนุมานได้เร็วขึ้น เนื่องจากข้อมูลบูลีนมีความทนทานต่อสัญญาณรบกวนและข้อผิดพลาดมากกว่ารูปแบบอื่นๆ การหาปริมาณจึงช่วยปรับปรุงความถูกต้องของโมเดลได้ เทคนิคการหาปริมาณรวมถึงการปัดเศษ การตัดทอน และการจัดกลุ่ม
การลดจำนวนบิตที่ใช้จัดเก็บพารามิเตอร์ของโมเดล ตัวอย่างเช่น สมมติว่าพารามิเตอร์ของโมเดล จัดเก็บเป็นจำนวนจุดลอยตัวแบบ 32 บิต การหาปริมาณจะแปลงพารามิเตอร์เหล่านั้น จาก 32 บิตเป็น 4, 8 หรือ 16 บิต การกำหนดค่าควอนไทซ์จะช่วยลด สิ่งต่อไปนี้
- การใช้งาน Compute, หน่วยความจำ, ดิสก์ และเครือข่าย
- เวลาในการอนุมานการคาดการณ์
- การใช้พลังงาน
อย่างไรก็ตาม การควอนไทซ์อาจลดความถูกต้องของการคาดการณ์ของโมเดลในบางครั้ง

คิว

#TensorFlow

การดำเนินการ TensorFlow ที่ใช้โครงสร้างข้อมูลคิว มักใช้ใน I/O

R

RAG

#fundamentals

คำย่อของ การสร้างข้อความโดยใช้การดึงข้อมูล

ป่าสุ่ม

#df

กลุ่มของต้นไม้ตัดสินใจซึ่งแต่ละต้นไม้ตัดสินใจได้รับการฝึกด้วยสัญญาณรบกวนแบบสุ่มที่เฉพาะเจาะจง เช่น Bagging

Random Forest เป็นDecision Forest ประเภทหนึ่ง

ดูข้อมูลเพิ่มเติมได้ที่Random Forest ในหลักสูตร Decision Forests

นโยบายแบบสุ่ม

ในการเรียนรู้แบบเสริมกำลัง นโยบายที่เลือกการดำเนินการแบบสุ่ม

อันดับ (ลำดับ)

ตำแหน่งตามลำดับของคลาสในปัญหาแมชชีนเลิร์นนิงที่จัดหมวดหมู่คลาสจากสูงสุดไปต่ำสุด ตัวอย่างเช่น ระบบการจัดอันดับพฤติกรรม อาจจัดอันดับรางวัลของสุนัขจากสูงสุด (สเต็ก) ไปยัง ต่ำสุด (คะน้าเหี่ยว)

อันดับ (Tensor)

#TensorFlow

จำนวนมิติข้อมูลในTensor เช่น สเกลาร์มีอันดับ 0, เวกเตอร์มีอันดับ 1 และเมทริกซ์มีอันดับ 2

อย่าสับสนกับอันดับ (ลำดับ)

การจัดอันดับ

การเรียนรู้ที่มีการควบคุมดูแลประเภทหนึ่งซึ่งมี วัตถุประสงค์เพื่อจัดลำดับรายการ

ผู้ให้คะแนน

#fundamentals

บุคคลที่ให้ป้ายกำกับสำหรับตัวอย่าง "ผู้ใส่คำอธิบายประกอบ" เป็นอีกชื่อหนึ่งของผู้จัดประเภท

ชุดข้อมูลการอ่านทำความเข้าใจพร้อมการให้เหตุผลแบบสามัญสำนึก (ReCoRD)

#Metric

ชุดข้อมูลสำหรับประเมินความสามารถของ LLM ในการใช้เหตุผลตามสามัญสำนึก ตัวอย่างแต่ละรายการในชุดข้อมูลประกอบด้วย 3 องค์ประกอบ ได้แก่

ย่อหน้า 1-2 ย่อหน้าจากบทความข่าว
คำค้นหาที่มีเอนทิตีอย่างน้อย 1 รายการที่ระบุอย่างชัดเจนหรือโดยนัย ในข้อความมาสก์
คำตอบ (ชื่อของเอนทิตีที่อยู่ในมาสก์)

ดูตัวอย่างเพิ่มเติมได้ที่ ReCoRD

ReCoRD เป็นส่วนประกอบของกลุ่ม SuperGLUE

RealToxicityPrompts

#Metric

ชุดข้อมูลที่มีชุดจุดเริ่มต้นของประโยคที่อาจมี เนื้อหาที่เป็นพิษ ใช้ชุดข้อมูลนี้เพื่อประเมินความสามารถของ LLM ในการสร้าง ข้อความที่ไม่เป็นพิษเพื่อเติมประโยคให้สมบูรณ์ โดยปกติแล้ว คุณจะใช้ Perspective API เพื่อพิจารณาว่า LLM ทำงานนี้ได้ดีเพียงใด

ดูรายละเอียดได้ที่ RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models

การเรียกคืน

#fundamentals

#Metric

เมตริกสําหรับโมเดลการจัดประเภทที่ตอบคําถามต่อไปนี้

เมื่อความจริงพื้นฐานคือคลาสที่เป็นบวก โมเดลระบุการคาดการณ์เป็นคลาสที่เป็นบวกได้อย่างถูกต้องกี่เปอร์เซ็นต์

สูตรมีดังนี้

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

ที่ไหน

True Positive หมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้อย่างถูกต้อง
ผลลบลวงหมายความว่าโมเดลคาดการณ์ผิดพลาดว่า คลาสเชิงลบ

เช่น สมมติว่าโมเดลของคุณทำการคาดการณ์ 200 รายการในตัวอย่างที่ความจริงพื้นฐานเป็นคลาสเชิงบวก โดยในการคาดการณ์ 200 รายการนี้

180 รายการเป็นผลบวกจริง
20 รายการเป็นผลลบลวง

ในกรณีนี้

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

คลิกไอคอนเพื่อดูหมายเหตุเกี่ยวกับชุดข้อมูลที่มีความไม่สมดุลของคลาส

Recall มีประโยชน์อย่างยิ่งในการพิจารณาความสามารถในการคาดการณ์ของ โมเดลการจัดประเภทที่คลาสที่เป็นบวกเกิดขึ้นได้ยาก เช่น พิจารณาชุดข้อมูลที่มีความไม่สมดุลของคลาส ซึ่งคลาสที่เป็นบวกสำหรับโรคหนึ่งๆ เกิดขึ้นในผู้ป่วยเพียง 10 ราย จากผู้ป่วย 1 ล้านราย สมมติว่าโมเดลของคุณทำการคาดการณ์ 5 ล้านครั้งซึ่งให้ผลลัพธ์ต่อไปนี้

ผลบวกจริง 30 รายการ
20 ผลลบลวง
ผลลบจริง 4,999,000 รายการ
950 ผลบวกลวง

ดังนั้นการเรียกคืนของโมเดลนี้จึงเป็นดังนี้

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

ในทางตรงกันข้าม ความแม่นยำของโมเดลนี้คือ

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

ค่าความแม่นยำที่สูงนั้นดูน่าประทับใจ แต่จริงๆ แล้วไม่มีความหมาย ความอ่อนไหวเป็นเมตริกที่มีประโยชน์มากกว่าความแม่นยำสำหรับชุดข้อมูลที่ไม่สมดุลของคลาส

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้อง

ความอ่อนไหวที่ k (recall@k)

#Metric

เมตริกสำหรับประเมินระบบที่แสดงรายการสินค้าที่จัดอันดับ (เรียงลำดับ) การเรียกคืนที่ k จะระบุเศษส่วนของรายการที่เกี่ยวข้องในรายการแรก k ในรายการนั้นจากจำนวนรายการที่เกี่ยวข้องทั้งหมดที่แสดง

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

เปรียบเทียบกับความแม่นยำที่ k

คลิกไอคอนเพื่อดูตัวอย่าง

สมมติว่าโมเดลภาษาขนาดใหญ่ ได้รับคำค้นหาต่อไปนี้

List the 10 funniest movies of all time in order.

และโมเดลภาษาขนาดใหญ่จะแสดงรายการที่แสดงใน 2 คอลัมน์แรก ดังนี้

ตำแหน่ง	ภาพยนตร์	เกี่ยวข้องไหม
1	The General	ใช่
2	Mean Girls	ใช่
3	Platoon	ไม่
4	Bridesmaids	ใช่
5	This is Spinal Tap	ใช่
6	เครื่องบิน!	ใช่
7	Groundhog Day	ใช่
8	Monty Python and the Holy Grail	ใช่
9	Oppenheimer	ไม่
10	ขอเวอร์ให้สะเด็ด	ใช่

ภาพยนตร์ 8 เรื่องในรายการก่อนหน้าตลกมาก จึงเป็น "รายการที่เกี่ยวข้องในรายการ" ดังนั้น 8 จึงเป็นตัวหารในการคำนวณการเรียกคืนทั้งหมดที่ k แล้วตัวเศษล่ะ โดย 3 ใน 4 รายการแรกมีความเกี่ยวข้อง ดังนั้นการเรียกคืนที่ 4 จึงเป็นดังนี้

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

ภาพยนตร์ 7 เรื่องจาก 8 เรื่องแรกตลกมาก ดังนั้นการเรียกคืนที่ 8 คือ

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

การจดจำความสัมพันธ์โดยนัยของข้อความ (RTE)

#Metric

ชุดข้อมูลสําหรับประเมินความสามารถของ LLM ในการพิจารณาว่าสมมติฐาน สามารถสรุป (ดึงออกมาอย่างมีเหตุผล) จากข้อความได้หรือไม่ ตัวอย่างแต่ละรายการในการประเมิน RTE ประกอบด้วย 3 ส่วน ดังนี้

ข้อความ โดยปกติมาจากบทความข่าวหรือบทความใน Wikipedia
สมมติฐาน
คำตอบที่ถูกต้องซึ่งเป็นอย่างใดอย่างหนึ่งต่อไปนี้
- จริง หมายความว่าสมมติฐานสามารถอนุมานได้จากข้อความ
- เท็จ หมายความว่าสมมติฐานไม่ได้มาจากข้อความ

เช่น

ข้อความ: ยูโรเป็นสกุลเงินของสหภาพยุโรป
สมมติฐาน: ฝรั่งเศสใช้สกุลเงินยูโร
การอนุมาน: จริง เพราะฝรั่งเศสเป็นส่วนหนึ่งของสหภาพยุโรป

RTE เป็นองค์ประกอบของกลุ่ม SuperGLUE

ระบบการแนะนำ

ระบบที่เลือกไอเทมที่ต้องการจำนวนค่อนข้างน้อยสำหรับผู้ใช้แต่ละรายจากคลังขนาดใหญ่ ตัวอย่างเช่น ระบบแนะนำวิดีโออาจแนะนำวิดีโอ 2 รายการ จากคลังวิดีโอ 100,000 รายการ โดยเลือกคาซาบลังกาและ The Philadelphia Story ให้ผู้ใช้รายหนึ่ง และเลือกWonder Woman และ Black Panther ให้ผู้ใช้รายอื่น ระบบวิดีโอแนะนำอาจ อิงตามปัจจัยต่างๆ เช่น

ภาพยนตร์ที่ผู้ใช้ที่คล้ายกันให้คะแนนหรือดู
ประเภทภาพยนตร์ ผู้กำกับ นักแสดง ข้อมูลประชากรเป้าหมาย...

ดูข้อมูลเพิ่มเติมได้ในหลักสูตรระบบการแนะนำ

ReCoRD

#Metric

คำย่อของ ชุดข้อมูลการอ่านทำความเข้าใจด้วยการให้เหตุผลแบบสามัญสำนึก

หน่วยเชิงเส้นที่มีการแก้ไข (ReLU)

#fundamentals

ฟังก์ชันการเปิดใช้งานที่มีลักษณะการทำงานดังนี้

หากอินพุตเป็นค่าลบหรือ 0 เอาต์พุตจะเป็น 0
หากอินพุตเป็นค่าบวก เอาต์พุตจะเท่ากับอินพุต

เช่น

หากอินพุตคือ -3 เอาต์พุตจะเป็น 0
หากอินพุตคือ +3 เอาต์พุตจะเป็น 3.0

นี่คือพล็อตของ ReLU

ReLU เป็นฟังก์ชันการเปิดใช้งานที่ได้รับความนิยมอย่างมาก แม้จะมีลักษณะการทำงานที่เรียบง่าย แต่ ReLU ก็ยังช่วยให้โครงข่ายประสาทเทียมเรียนรู้ความสัมพันธ์แบบไม่เชิงเส้นระหว่างฟีเจอร์กับป้ายกำกับได้

โครงข่ายประสาทแบบเกิดซ้ำ

โครงข่ายประสาทเทียมที่ตั้งใจให้ทำงานหลายครั้ง โดยที่ส่วนหนึ่งของการทำงานแต่ละครั้งจะป้อนเข้าสู่การทำงานครั้งถัดไป กล่าวคือ เลเยอร์ที่ซ่อนจากการเรียกใช้ก่อนหน้าจะให้ข้อมูลส่วนหนึ่ง แก่เลเยอร์ที่ซ่อนเดียวกันในการเรียกใช้ครั้งถัดไป Recurrent Neural Network มีประโยชน์อย่างยิ่งในการประเมินลำดับ เพื่อให้เลเยอร์ที่ซ่อนอยู่ สามารถเรียนรู้จากการเรียกใช้ Neural Network ก่อนหน้านี้ในส่วนก่อนหน้าของ ลำดับ

ตัวอย่างเช่น รูปต่อไปนี้แสดงโครงข่ายประสาทเทียมแบบเกิดซ้ำที่ ทำงาน 4 ครั้ง โปรดสังเกตว่าค่าที่ได้เรียนรู้ในเลเยอร์ที่ซ่อนไว้จากการรันครั้งแรกจะกลายเป็นส่วนหนึ่งของอินพุตไปยังเลเยอร์ที่ซ่อนไว้เดียวกันในการรันครั้งที่ 2 ในทำนองเดียวกัน ค่าที่ได้เรียนรู้ในเลเยอร์ที่ซ่อนในการรันครั้งที่ 2 จะกลายเป็นส่วนหนึ่งของอินพุตไปยังเลเยอร์ที่ซ่อนเดียวกันในการรันครั้งที่ 3 ด้วยวิธีนี้ เครือข่ายประสาทแบบเกิดซ้ำจะค่อยๆ ฝึกและ คาดการณ์ความหมายของลำดับทั้งหมด แทนที่จะเป็นเพียงความหมาย ของแต่ละคำ

RNN ที่ทำงาน 4 ครั้งเพื่อประมวลผลคำนำเข้า 4 คำ

ข้อความอ้างอิง

#generativeAI

คำตอบของผู้เชี่ยวชาญต่อพรอมต์ เช่น หากได้รับพรอมต์ต่อไปนี้

แปลคำถาม "คุณชื่ออะไร" จากภาษาอังกฤษเป็นภาษาฝรั่งเศส

คำตอบของผู้เชี่ยวชาญอาจเป็นดังนี้

Comment vous appelez-vous?

เมตริกต่างๆ (เช่น ROUGE) จะวัดระดับที่ข้อความอ้างอิง ตรงกับข้อความที่สร้างขึ้นของโมเดล ML

ทบทวนความคิด

#generativeAI

กลยุทธ์ในการปรับปรุงคุณภาพของเวิร์กโฟลว์แบบเอเจนต์โดยการตรวจสอบ (พิจารณา) เอาต์พุตของขั้นตอนหนึ่งๆ ก่อนที่จะส่งเอาต์พุตนั้นไปยังขั้นตอนถัดไป

โดยปกติแล้ว ผู้ตรวจสอบจะเป็น LLM เดียวกันกับที่สร้างคำตอบ (แม้ว่าอาจเป็น LLM อื่นก็ได้) LLM เดียวกันที่สร้างคำตอบจะเป็นผู้ตัดสินที่ยุติธรรมสำหรับคำตอบของตัวเองได้อย่างไร "เคล็ดลับ" คือการทำให้ LLM มีความคิดเชิงวิพากษ์ (ไตร่ตรอง) กระบวนการนี้คล้ายกับนักเขียนที่ใช้ความคิดสร้างสรรค์ ในการเขียนฉบับร่างแรก แล้วเปลี่ยนไปใช้ความคิดเชิงวิพากษ์ เพื่อแก้ไข

ตัวอย่างเช่น ลองนึกถึงเวิร์กโฟลว์แบบเอเจนต์ซึ่งมีขั้นตอนแรกเป็นการสร้าง ข้อความสำหรับแก้วกาแฟ ข้อความแจ้งสำหรับขั้นตอนนี้อาจเป็น

คุณเป็นครีเอเตอร์ สร้างข้อความตลกๆ ที่ไม่ซ้ำใครซึ่งมีความยาวไม่เกิน 50 อักขระ เหมาะสำหรับแก้วกาแฟ

ตอนนี้ลองนึกถึงพรอมต์การไตร่ตรองต่อไปนี้

คุณเป็นคนดื่มกาแฟ คุณคิดว่าคำตอบก่อนหน้านี้ตลกไหม

จากนั้นเวิร์กโฟลว์อาจส่งต่อเฉพาะข้อความที่ได้รับคะแนนการสะท้อนสูง ไปยังขั้นตอนถัดไป

โมเดลการเกิดปัญหาซ้ำ

#fundamentals

โดยทั่วไปแล้ว โมเดลที่สร้างการคาดการณ์เชิงตัวเลข (ในทางตรงกันข้าม โมเดลการแยกประเภทจะสร้างการคาดการณ์คลาส) ตัวอย่างเช่น โมเดลต่อไปนี้เป็นโมเดลการถดถอยทั้งหมด

โมเดลที่คาดการณ์มูลค่าของบ้านหลังหนึ่งในสกุลเงินยูโร เช่น 423,000
โมเดลที่คาดการณ์อายุคาดเฉลี่ยของต้นไม้หนึ่งๆ เป็นปี เช่น 23.2
โมเดลที่คาดการณ์ปริมาณฝนเป็นนิ้วที่จะตกในเมืองหนึ่งๆ ในอีก 6 ชั่วโมงข้างหน้า เช่น 0.18

โมเดลการถดถอยที่ใช้กันทั่วไปมี 2 ประเภท ได้แก่

การถดถอยเชิงเส้น ซึ่งจะค้นหาเส้นที่เหมาะสมที่สุด กับค่าป้ายกำกับสำหรับฟีเจอร์
การถดถอยแบบโลจิสติก ซึ่งสร้างความน่าจะเป็นระหว่าง 0.0 ถึง 1.0 ที่โดยปกติแล้วระบบจะแมปกับการคาดการณ์คลาส

ไม่ใช่ทุกโมเดลที่ให้ผลลัพธ์เป็นการคาดการณ์เชิงตัวเลขจะเป็นโมเดลการถดถอย ในบางกรณี การคาดการณ์ที่เป็นตัวเลขก็เป็นเพียงโมเดลการจัดประเภท ที่มีชื่อคลาสเป็นตัวเลข ตัวอย่างเช่น โมเดลที่คาดการณ์รหัสไปรษณีย์ที่เป็นตัวเลขคือโมเดลการจัดประเภท ไม่ใช่โมเดลการถดถอย

Regularization

#fundamentals

กลไกที่ช่วยลดการปรับมากเกินไป การทำให้เป็นปกติประเภทที่ได้รับความนิยมมีดังนี้

การทำให้เป็นค่าปกติ _L1
การทำให้เป็นค่าปกติ _L2
การทำให้เป็นค่าปกติของ Dropout
การหยุดก่อนเวลา (นี่ไม่ใช่ วิธีการปรับค่าปกติอย่างเป็นทางการ แต่สามารถจำกัดการปรับมากเกินไปได้อย่างมีประสิทธิภาพ)

นอกจากนี้ การปรับค่าปกติยังอาจกำหนดเป็นค่าปรับสำหรับความซับซ้อนของโมเดลได้ด้วย

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

การปรับค่าปกติเป็นสิ่งที่ขัดกับสัญชาตญาณ การเพิ่มการปรับค่าปกติมักจะเพิ่มการสูญเสียจากการฝึก ซึ่งสร้างความสับสนเนื่องจากเป้าหมายคือการลดการสูญเสียจากการฝึกไม่ใช่หรือ

ไม่ เป้าหมายไม่ใช่การลดการสูญเสียจากการฝึก เป้าหมายคือการ คาดการณ์ตัวอย่างในโลกแห่งความเป็นจริงได้อย่างยอดเยี่ยม แม้ว่าการเพิ่มการปรับค่าปกติจะเพิ่มการสูญเสียการฝึก แต่โดยปกติแล้วจะช่วยให้โมเดลคาดการณ์ตัวอย่างในโลกแห่งความเป็นจริงได้ดีขึ้น

ดูข้อมูลเพิ่มเติมได้ที่การปรับมากเกินไป: ความซับซ้อนของโมเดล ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อัตราการปรับค่าปกติ

#fundamentals

ตัวเลขที่ระบุความสําคัญสัมพัทธ์ของการทําให้เป็นปกติระหว่างการฝึก การเพิ่ม อัตราการทำให้เป็นปกติจะช่วยลดการปรับมากเกินไป แต่ก็อาจ ลดความสามารถในการคาดการณ์ของโมเดล ในทางกลับกัน การลดหรือละเว้น อัตราการทำให้เป็นปกติจะเพิ่มการปรับมากเกินไป

คลิกไอคอนเพื่อดูคณิตศาสตร์

โดยปกติแล้วอัตราการทำให้เป็นปกติจะแสดงเป็นอักษรแลมดากรีก สมการการสูญเสียแบบย่อต่อไปนี้แสดงอิทธิพลของ แลมบ์ดา

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

โดยที่ Regularization คือกลไกการปรับค่าปกติใดๆ ซึ่งรวมถึง

การทำให้เป็นค่าปกติ _L1
การทำให้เป็นค่าปกติ _L2

การเรียนรู้แบบเสริมกำลัง (RL)

กลุ่มอัลกอริทึมที่เรียนรู้นโยบายที่เหมาะสมที่สุด ซึ่งมีเป้าหมาย เพื่อเพิ่มผลตอบแทนสูงสุดเมื่อโต้ตอบกับสภาพแวดล้อม ตัวอย่างเช่น รางวัลสูงสุดของเกมส่วนใหญ่คือชัยชนะ ระบบการเรียนรู้แบบเสริมกำลังสามารถกลายเป็นผู้เชี่ยวชาญในการเล่นเกมที่ซับซ้อน ได้โดยการประเมินลำดับการเดินเกมก่อนหน้านี้ที่นำไปสู่ชัยชนะในท้ายที่สุด และลำดับที่นำไปสู่ความพ่ายแพ้ในท้ายที่สุด

การเรียนรู้แบบเสริมกำลังจากฟีดแบ็กของมนุษย์ (Reinforcement Learning from Human Feedback หรือ RLHF)

#generativeAI

การใช้ความคิดเห็นจากผู้ให้คะแนนที่เป็นมนุษย์เพื่อปรับปรุงคุณภาพคำตอบของโมเดล ตัวอย่างเช่น กลไก RLHF สามารถขอให้ผู้ใช้ ให้คะแนนคุณภาพของคำตอบของโมเดลด้วยอีโมจิ 👍 หรือ 👎 จากนั้นระบบ จะปรับคำตอบในอนาคตตามความคิดเห็นนั้น

ReLU

#fundamentals

ตัวย่อของ Rectified Linear Unit

บัฟเฟอร์การเล่นซ้ำ

ในอัลกอริทึมที่คล้ายกับ DQN หน่วยความจำที่เอเจนต์ใช้ เพื่อจัดเก็บการเปลี่ยนสถานะสำหรับใช้ใน การเล่นประสบการณ์ซ้ำ

ตัวจำลอง

สำเนา (หรือบางส่วน) ของชุดข้อมูลการฝึกหรือโมเดล ซึ่งโดยทั่วไปจะจัดเก็บไว้ในเครื่องอื่น ตัวอย่างเช่น ระบบอาจใช้กลยุทธ์ต่อไปนี้ในการใช้การประมวลผลแบบขนานของข้อมูล

วางสำเนาของโมเดลที่มีอยู่บนเครื่องหลายเครื่อง
ส่งชุดย่อยที่แตกต่างกันของชุดการฝึกไปยังแต่ละสำเนา
รวบรวมการอัปเดตพารามิเตอร์

นอกจากนี้ รีพลิกายังอ้างอิงถึงสำเนาอื่นของเซิร์ฟเวอร์การอนุมาน ได้ด้วย การเพิ่มจำนวนรีพลิกาจะเพิ่มจำนวนคำขอที่ระบบสามารถให้บริการได้พร้อมกัน แต่ก็เพิ่มค่าใช้จ่ายในการให้บริการด้วย

อคติในการรายงาน

#responsible

ความถี่ที่ผู้คนเขียนถึงการกระทำ ผลลัพธ์ หรือพร็อพเพอร์ตี้ไม่ได้สะท้อนถึงความถี่ในโลกแห่งความเป็นจริงหรือระดับที่พร็อพเพอร์ตี้เป็นลักษณะเฉพาะของกลุ่มบุคคล อคติในการรายงานอาจส่งผลต่อองค์ประกอบ ของข้อมูลที่ระบบแมชชีนเลิร์นนิงเรียนรู้

เช่น ในหนังสือ คำว่าหัวเราะพบได้บ่อยกว่าคำว่าหายใจ โมเดลแมชชีนเลิร์นนิงที่ประมาณความถี่สัมพัทธ์ของ การหัวเราะและการหายใจจากคลังหนังสืออาจระบุว่า การหัวเราะพบได้บ่อยกว่าการหายใจ

การเป็นตัวแทน

กระบวนการแมปข้อมูลกับฟีเจอร์ที่มีประโยชน์

การจัดอันดับใหม่

ขั้นตอนสุดท้ายของระบบแนะนำ ซึ่งในระหว่างนี้ ระบบอาจจัดเกรดรายการที่ได้คะแนนใหม่ตามอัลกอริทึมอื่นๆ (โดยปกติคืออัลกอริทึมที่ไม่ใช่ ML) การจัดอันดับใหม่จะประเมินรายการสินค้า ที่สร้างขึ้นในระยะการให้คะแนน โดยจะดำเนินการต่างๆ เช่น

การนำรายการที่ผู้ใช้ซื้อไปแล้วออก
เพิ่มคะแนนของรายการที่ใหม่กว่า

ดูข้อมูลเพิ่มเติมได้ที่การจัดอันดับใหม่ ในหลักสูตรระบบการแนะนำ

การตอบกลับ

#generativeAI

ข้อความ รูปภาพ เสียง หรือวิดีโอที่โมเดล Generative AI อนุมาน กล่าวอีกนัยหนึ่งคือ พรอมต์คืออินพุตของโมเดล Generative AI และคำตอบคือเอาต์พุต

ชุดคำตอบ

#generativeAI

ชุดคำตอบที่โมเดลภาษาขนาดใหญ่ส่งกลับไปยังอินพุต ชุดพรอมต์

การสร้างเสริมด้วยการดึงข้อมูล (RAG)

#fundamentals

เทคนิคในการปรับปรุงคุณภาพของเอาต์พุตโมเดลภาษาขนาดใหญ่ (LLM) โดยการอิงตามแหล่งความรู้ที่ดึงมาหลังจากฝึกโมเดลแล้ว RAG ช่วยปรับปรุงความแม่นยําของคําตอบของ LLM โดยให้สิทธิ์เข้าถึงข้อมูลที่ดึงมาจากฐานความรู้หรือเอกสารที่เชื่อถือได้แก่ LLM ที่ผ่านการฝึกมา

แรงจูงใจที่พบบ่อยในการใช้การสร้างที่เพิ่มการดึงข้อมูล ได้แก่

เพิ่มความถูกต้องตามข้อเท็จจริงของคำตอบที่โมเดลสร้างขึ้น
การให้สิทธิ์โมเดลเข้าถึงความรู้ที่ไม่ได้ฝึก
การเปลี่ยนความรู้ที่โมเดลใช้
การเปิดใช้โมเดลเพื่ออ้างอิงแหล่งที่มา

ตัวอย่างเช่น สมมติว่าแอปเคมีใช้ PaLM API เพื่อสร้างข้อมูลสรุป ที่เกี่ยวข้องกับคำค้นหาของผู้ใช้ เมื่อแบ็กเอนด์ของแอปได้รับการค้นหา แบ็กเอนด์จะดำเนินการต่อไปนี้

ค้นหา ("ดึง") ข้อมูลที่เกี่ยวข้องกับคําค้นหาของผู้ใช้
ผนวก ("เพิ่ม") ข้อมูลเคมีที่เกี่ยวข้องกับคำค้นหาของผู้ใช้
สั่งให้ LLM สร้างข้อมูลสรุปตามข้อมูลที่ต่อท้าย

รีเทิร์น

ในการเรียนรู้แบบเสริมกำลัง เมื่อกำหนดนโยบายและสถานะหนึ่งๆ ผลตอบแทนคือผลรวมของรางวัลทั้งหมดที่เอเจนต์คาดว่าจะได้รับเมื่อปฏิบัติตามนโยบายจากสถานะจนถึงตอนจบของตอน เอเจนต์ จะพิจารณาถึงลักษณะที่ล่าช้าของรางวัลที่คาดหวังโดยการลดรางวัล ตามการเปลี่ยนสถานะที่จำเป็นต่อการได้รับรางวัล

ดังนั้น หากปัจจัยส่วนลดคือ $\gamma$และ $r_0, \ldots, r_{N}$ แสดงถึงรางวัลจนกว่าจะจบตอน การคำนวณผลตอบแทน จะเป็นดังนี้

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

รางวัล

ในการเรียนรู้แบบเสริมกำลัง ผลลัพธ์ที่เป็นตัวเลขของการดำเนินการในสถานะตามที่กำหนดโดยสภาพแวดล้อม

การปรับค่า Ridge

คำพ้องความหมายของ L₂ Regularization คำว่าการทำให้เป็นปกติแบบริดจ์มักใช้ในบริบทของสถิติล้วนๆ ขณะที่การทำให้เป็นปกติแบบ _L มักใช้ในแมชชีนเลิร์นนิง มากกว่า

RNN

คำย่อของโครงข่ายประสาทแบบเกิดซ้ำ

กราฟ ROC (Receiver Operating Characteristic)

#fundamentals

#Metric

กราฟของอัตราผลบวกจริงเทียบกับ อัตราผลบวกลวงสำหรับเกณฑ์การจัดประเภทต่างๆ ในการจัดประเภทแบบไบนารี

รูปร่างของเส้นโค้ง ROC แสดงให้เห็นความสามารถของโมเดลการจัดประเภทแบบไบนารี ในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ สมมติว่าโมเดลการจัดประเภทแบบไบนารีแยกคลาสเชิงลบทั้งหมดออกจากคลาสเชิงบวกทั้งหมดได้อย่างสมบูรณ์ ดังนี้

เส้นจำนวนที่มีตัวอย่างบวก 8 รายการทางด้านขวาและ
ตัวอย่างลบ 7 รายการทางด้านซ้าย

เส้นโค้ง ROC สำหรับโมเดลก่อนหน้ามีลักษณะดังนี้

เส้นโค้ง ROC แกน X คืออัตราผลบวกลวง และแกน Y คืออัตราผลบวกจริง เส้นโค้งมีรูปร่างเป็นตัว L กลับด้าน เส้นโค้ง
เริ่มต้นที่ (0.0,0.0) และขึ้นไปที่ (0.0,1.0) โดยตรง จากนั้นเส้นโค้ง
จะเปลี่ยนจาก (0.0,1.0) เป็น (1.0,1.0)

ในทางตรงกันข้าม ภาพประกอบต่อไปนี้แสดงกราฟค่าการถดถอยลอจิสติกแบบดิบ สำหรับโมเดลที่แย่ซึ่งแยกคลาสเชิงลบออกจาก คลาสเชิงบวกไม่ได้เลย

เส้นจำนวนที่มีตัวอย่างที่เป็นบวกและคลาสที่เป็นลบ
ปะปนกันโดยสมบูรณ์

เส้นโค้ง ROC สำหรับโมเดลนี้มีลักษณะดังนี้

เส้นโค้ง ROC ซึ่งจริงๆ แล้วเป็นเส้นตรงจาก (0.0,0.0)
ถึง (1.0,1.0)

ในขณะเดียวกัน ในโลกแห่งความเป็นจริง โมเดลการจัดประเภทแบบไบนารีส่วนใหญ่จะแยก คลาสที่เป็นบวกและลบในระดับหนึ่ง แต่โดยปกติแล้วจะไม่สมบูรณ์แบบ ดังนั้น กราฟ ROC ทั่วไปจะอยู่ระหว่าง 2 สุดขั้วนี้

เส้นโค้ง ROC แกน X คืออัตราผลบวกลวง และแกน Y คืออัตราผลบวกจริง เส้นโค้ง ROC ประมาณค่าส่วนโค้งที่ไม่แน่นอน
ซึ่งตัดผ่านจุดเข็มทิศจากทิศตะวันตกไปยังทิศเหนือ

จุดบนเส้นโค้ง ROC ที่ใกล้กับ (0.0,1.0) มากที่สุดในทางทฤษฎีจะระบุเกณฑ์การแยกประเภทที่เหมาะสม อย่างไรก็ตาม ปัญหาอื่นๆ ในโลกแห่งความเป็นจริง มีผลต่อการเลือกเกณฑ์การแยกประเภทที่เหมาะสม ตัวอย่างเช่น ผลลบเท็จอาจสร้างความเจ็บปวดมากกว่าผลบวกเท็จ

เมตริกเชิงตัวเลขที่เรียกว่า AUC จะสรุปเส้นโค้ง ROC เป็นค่าทศนิยมค่าเดียว

การเขียนพรอมต์ตามบทบาท

#generativeAI

พรอมต์ที่มักเริ่มต้นด้วยคำสรรพนามคุณ ซึ่ง บอกโมเดล Generative AI ให้แสร้งเป็นบุคคลหรือบทบาทหนึ่งๆ เมื่อสร้างคำตอบ การใช้พรอมต์ตามบทบาทจะช่วยให้โมเดล Generative AI มี "กรอบความคิด" ที่เหมาะสม เพื่อสร้างคำตอบที่เป็นประโยชน์มากขึ้น ตัวอย่างเช่น พรอมต์บทบาทต่อไปนี้อาจเหมาะสม ทั้งนี้ขึ้นอยู่กับประเภทของคำตอบที่คุณต้องการ

คุณจบการศึกษาระดับปริญญาเอกสาขาวิทยาการคอมพิวเตอร์

คุณเป็นวิศวกรซอฟต์แวร์ที่ชอบอธิบายเรื่อง Python ให้กับนักเรียนนักศึกษาที่เพิ่งเริ่มเรียนการเขียนโปรแกรมอย่างอดทน

คุณเป็นฮีโร่แอ็กชันที่มีทักษะการเขียนโปรแกรมที่เฉพาะเจาะจงมาก โปรดยืนยันว่าคุณจะค้นหารายการที่เฉพาะเจาะจงในรายการ Python

รูท

#df

โหนดเริ่มต้น (เงื่อนไขแรก) ในแผนผังการตัดสินใจ ตามธรรมเนียมแล้ว แผนภาพจะวางรูทไว้ที่ด้านบนของแผนผังการตัดสินใจ เช่น

แผนผังการตัดสินใจที่มี 2 เงื่อนไขและ 3 ใบ เงื่อนไขเริ่มต้น (x > 2) คือรูท

ไดเรกทอรีราก

#TensorFlow

ไดเรกทอรีที่คุณระบุสำหรับการโฮสต์ไดเรกทอรีย่อยของไฟล์จุดตรวจสอบและเหตุการณ์ TensorFlow ของโมเดลหลายรายการ

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)

#fundamentals

#Metric

รากที่ 2 ของความคลาดเคลื่อนเฉลี่ยกำลังสอง

ความไม่แปรเปลี่ยนภายใต้การหมุน

ในปัญหาการแยกประเภทรูปภาพ ความสามารถของอัลกอริทึมในการแยกประเภทรูปภาพได้สำเร็จ แม้ว่าการวางแนวของรูปภาพจะเปลี่ยนไป เช่น อัลกอริทึมยังคงระบุไม้เทนนิสได้ไม่ว่าจะชี้ขึ้น ด้านข้าง หรือลง โปรดทราบว่าการไม่เปลี่ยนแปลงเมื่อหมุนไม่ได้เป็นสิ่งที่ต้องการเสมอไป เช่น ไม่ควรจัดประเภท 9 ที่กลับหัวเป็น 9

ดูความไม่แปรเปลี่ยนตามการเลื่อนและ ความไม่แปรเปลี่ยนตามขนาดด้วย

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#Metric

กลุ่มเมตริกที่ประเมินโมเดลการสรุปอัตโนมัติและการแปลด้วยเครื่อง เมตริก ROUGE จะกำหนดระดับที่ข้อความอ้างอิงซ้อนทับกับข้อความที่สร้างขึ้นของโมเดล ML สมาชิกแต่ละคนในตระกูล ROUGE จะวัดการทับซ้อนกันในวิธีที่แตกต่างกัน คะแนน ROUGE ที่สูงขึ้นบ่งบอกถึง ความคล้ายกันระหว่างข้อความอ้างอิงกับข้อความที่สร้างขึ้นมากกว่าคะแนน ROUGE ที่ต่ำกว่า

โดยปกติแล้ว สมาชิกแต่ละคนในตระกูล ROUGE จะสร้างเมตริกต่อไปนี้

ความแม่นยำ
การจดจำ
F₁

ดูรายละเอียดและตัวอย่างได้ที่

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#Metric

สมาชิกในตระกูล ROUGE ที่มุ่งเน้นความยาวของลำดับย่อยร่วมกันที่ยาวที่สุด ในข้อความอ้างอิงและข้อความที่สร้างขึ้น สูตรต่อไปนี้จะคำนวณการเรียกคืนและความแม่นยำสำหรับ ROUGE-L

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

จากนั้นคุณจะใช้ F₁ เพื่อสรุปการเรียกคืน ROUGE-L และความแม่นยำของ ROUGE-L เป็นเมตริกเดียวได้

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

คลิกไอคอนเพื่อดูตัวอย่างการคำนวณ ROUGE-L

พิจารณาข้อความอ้างอิงและข้อความที่สร้างขึ้นต่อไปนี้

หมวดหมู่	ใครเป็นผู้ผลิต	ข้อความ
ข้อความอ้างอิง	นักแปล	ฉันอยากเข้าใจเรื่องต่างๆ ให้ได้มากที่สุด
ข้อความที่สร้างขึ้น	โมเดล ML	ฉันอยากเรียนรู้หลายๆ อย่าง

ดังนั้น

ลำดับย่อยร่วมกันที่ยาวที่สุดคือ 5 (I want to of things)
ข้อความอ้างอิงมี 9 คำ
จำนวนคำในข้อความที่สร้างขึ้นคือ 7

ดังนั้น

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

ROUGE-L จะไม่สนใจบรรทัดใหม่ในข้อความอ้างอิงและข้อความที่สร้างขึ้น ดังนั้น ลำดับย่อยร่วมที่ยาวที่สุดจึงอาจข้ามหลายประโยคได้ เมื่อข้อความอ้างอิงและข้อความที่สร้างขึ้นมีหลายประโยค โดยทั่วไปแล้ว ROUGE-L รูปแบบหนึ่งที่เรียกว่า ROUGE-Lsum จะเป็นเมตริกที่ดีกว่า ROUGE-Lsum จะกำหนดลำดับย่อยร่วมที่ยาวที่สุดสำหรับประโยค ในข้อความ จากนั้นจะคำนวณค่าเฉลี่ยของลำดับย่อยร่วมที่ยาวที่สุดเหล่านั้น

คลิกไอคอนเพื่อดูตัวอย่างการคำนวณ ROUGE-Lsum

พิจารณาข้อความอ้างอิงและข้อความที่สร้างขึ้นต่อไปนี้

หมวดหมู่	ใครเป็นผู้ผลิต	ข้อความ
ข้อความอ้างอิง	นักแปล	พื้นผิวของดาวอังคารแห้ง น้ำเกือบทั้งหมดอยู่ลึกลงไป ใต้ดิน
ข้อความที่สร้างขึ้น	โมเดล ML	ดาวอังคารมีพื้นผิวที่แห้ง อย่างไรก็ตาม น้ำส่วนใหญ่ อยู่ใต้ดิน

ดังนั้น

	ประโยคแรก	ประโยคที่ 2
ลำดับร่วมที่ยาวที่สุด	2 (ดาวอังคารแห้ง)	3 (น้ำอยู่ใต้ดิน)
ความยาวประโยคของข้อความอ้างอิง	6	7
ความยาวของประโยคในข้อความที่สร้างขึ้น	5	8

ดังนั้น

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#Metric

ชุดเมตริกภายในตระกูล ROUGE ที่เปรียบเทียบ N-gram ที่แชร์ซึ่งมีขนาดหนึ่งๆ ในข้อความอ้างอิง และข้อความที่สร้างขึ้น เช่น

ROUGE-1 จะวัดจำนวนโทเค็นที่ใช้ร่วมกันในข้อความอ้างอิงและ ข้อความที่สร้างขึ้น
ROUGE-2 จะวัดจำนวน bigram (2-gram) ที่ใช้ร่วมกัน ในข้อความอ้างอิงและข้อความที่สร้างขึ้น
ROUGE-3 จะวัดจำนวน trigram (3-gram) ที่ใช้ร่วมกัน ในข้อความอ้างอิงและข้อความที่สร้างขึ้น

คุณใช้สูตรต่อไปนี้เพื่อคํานวณการเรียกคืน ROUGE-N และความแม่นยําของ ROUGE-N สําหรับสมาชิกใดก็ได้ในตระกูล ROUGE-N

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

จากนั้นคุณจะใช้ F₁ เพื่อสรุปการเรียกคืน ROUGE-N และความแม่นยำของ ROUGE-N เป็นเมตริกเดียวได้

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

คลิกไอคอนเพื่อดูตัวอย่าง

สมมติว่าคุณตัดสินใจใช้ ROUGE-2 เพื่อวัดประสิทธิภาพการแปลของโมเดล ML เทียบกับการแปลของนักแปลที่เป็นมนุษย์

หมวดหมู่	ใครเป็นผู้ผลิต	ข้อความ	ไบแกรม
ข้อความอ้างอิง	นักแปล	ฉันอยากเข้าใจเรื่องต่างๆ ให้ได้มากที่สุด	ฉันอยาก อยากจะ เข้าใจ เข้าใจสิ่งต่างๆ ที่หลากหลาย หลากหลาย
ข้อความที่สร้างขึ้น	โมเดล ML	ฉันอยากเรียนรู้หลายๆ อย่าง	ฉันอยาก อยากจะ เรียน เรียนรู้ สิ่งต่างๆ มากมาย

ดังนั้น

จำนวน 2-แกรมที่ตรงกันคือ 3 (I want, want to และ of things)
ข้อความอ้างอิงมี 2-แกรม 8 รายการ
จำนวน 2-แกรมในข้อความที่สร้างขึ้นคือ 6

ดังนั้น

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#Metric

รูปแบบที่ยืดหยุ่นของ ROUGE-N ที่ช่วยให้การจับคู่ skip-gram กล่าวคือ ROUGE-N จะนับเฉพาะ N-gram ที่ตรงกันทุกประการ แต่ ROUGE-S จะนับ N-gram ที่คั่นด้วยคำอย่างน้อย 1 คำด้วย เช่น โปรดคำนึงถึงสิ่งต่อไปนี้

ข้อความอ้างอิง: เมฆสีขาว
ข้อความที่สร้างขึ้น: เมฆสีขาวที่ลอยเป็นปุย

เมื่อคำนวณ ROUGE-N ไบแกรม White clouds จะไม่ตรงกับ White billowing clouds อย่างไรก็ตาม เมื่อคำนวณ ROUGE-S White clouds จะตรงกับ White billowing clouds

R-squared

#Metric

เมตริกการถดถอยที่ระบุความผันแปรของป้ายกำกับที่เกิดจากฟีเจอร์แต่ละรายการหรือชุดฟีเจอร์ R-squared คือค่าระหว่าง 0 ถึง 1 ซึ่งคุณสามารถตีความได้ดังนี้

ค่า R-squared ที่ 0 หมายความว่าความแปรปรวนของป้ายกำกับไม่ได้เกิดจากชุดฟีเจอร์
ค่า R-squared ที่ 1 หมายความว่าความแปรปรวนทั้งหมดของป้ายกำกับเกิดจาก ชุดฟีเจอร์
ค่า R-squared ระหว่าง 0 ถึง 1 แสดงให้เห็นถึงขอบเขตที่สามารถคาดการณ์ความแปรปรวนของป้ายกำกับได้จากฟีเจอร์หรือชุดฟีเจอร์หนึ่งๆ เช่น ค่า R ยกกำลังสองที่ 0.10 หมายความว่าความแปรปรวน 10% ในป้ายกำกับเกิดจากชุดฟีเจอร์ ค่า R ยกกำลังสองที่ 0.20 หมายความว่า 20% เกิดจากชุดฟีเจอร์ และอื่นๆ

ค่า R ยกกำลังสองคือค่ากำลังสองของสัมประสิทธิ์สหสัมพันธ์ของ Pearson ระหว่างค่าที่โมเดลคาดการณ์ไว้กับข้อมูลจากการสังเกตการณ์โดยตรง

RTE

#Metric

ตัวย่อของ Recognizing Textual Entailment

S

อคติในการสุ่มตัวอย่าง

#responsible

ดูอคติในการเลือก

การสุ่มตัวอย่างแบบแทนที่

#df

วิธีการเลือกรายการจากชุดรายการที่แนะนำซึ่งสามารถเลือกรายการเดียวกันได้หลายครั้ง วลี "มีการแทนที่" หมายความว่า หลังจากเลือกแต่ละครั้ง ระบบจะส่งคืนรายการที่เลือกไปยังกลุ่ม ของรายการที่อาจเป็นไปได้ ส่วนวิธีผกผัน การสุ่มตัวอย่างแบบไม่แทนที่ หมายความว่าเลือกรายการที่ต้องการได้เพียงครั้งเดียว

ตัวอย่างเช่น ลองพิจารณาชุดผลไม้ต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

สมมติว่าระบบสุ่มเลือก fig เป็นรายการแรก หากใช้การสุ่มตัวอย่างแบบแทนที่ ระบบจะเลือกรายการที่ 2 จากชุดต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

ใช่ ชุดข้อมูลนั้นเป็นชุดเดียวกับก่อนหน้านี้ ดังนั้นระบบอาจ เลือกfigอีกครั้ง

หากใช้การสุ่มตัวอย่างแบบไม่แทนที่ เมื่อเลือกแล้ว จะเลือกตัวอย่างนั้นอีกไม่ได้ ตัวอย่างเช่น หากระบบสุ่มเลือก fig เป็น ตัวอย่างแรก ระบบจะเลือก fig อีกไม่ได้ ดังนั้น ระบบ จะเลือกตัวอย่างที่ 2 จากชุด (ที่ลดลง) ต่อไปนี้

fruit = {kiwi, apple, pear, cherry, lime, mango}

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

คำว่าการแทนที่ในการสุ่มตัวอย่างแบบแทนที่ทำให้หลายคนสับสน ในภาษาอังกฤษ replacement หมายถึง "substitution" อย่างไรก็ตาม การสุ่มตัวอย่างแบบแทนที่ใช้คำจำกัดความของฝรั่งเศสสำหรับการแทนที่ ซึ่งหมายถึง "การใส่สิ่งใดสิ่งหนึ่งกลับเข้าไป"

คำภาษาอังกฤษว่า replacement แปลเป็นคำภาษาฝรั่งเศสว่า remplacement

SavedModel

#TensorFlow

รูปแบบที่แนะนำสำหรับการบันทึกและกู้คืนโมเดล TensorFlow SavedModel เป็นรูปแบบการซีเรียลไลซ์ที่กู้คืนได้และไม่ขึ้นกับภาษา ซึ่งช่วยให้ระบบและเครื่องมือระดับสูง สร้าง ใช้ และแปลงโมเดล TensorFlow ได้

ดูรายละเอียดทั้งหมดได้ที่ ส่วนการบันทึกและกู้คืน ของคู่มือโปรแกรมเมอร์ TensorFlow

ประหยัด

#TensorFlow

ออบเจ็กต์ TensorFlow ที่รับผิดชอบในการบันทึกจุดตรวจของโมเดล

สเกลาร์

ตัวเลขหรือสตริงเดียวที่แสดงเป็นเทนเซอร์ของอันดับ 0 ได้ ตัวอย่างเช่น บรรทัดโค้ดต่อไปนี้ แต่ละบรรทัดจะสร้างสเกลาร์ 1 รายการใน TensorFlow

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

การปรับขนาด

การแปลงหรือเทคนิคทางคณิตศาสตร์ที่เปลี่ยนช่วงของป้ายกำกับ ค่าฟีเจอร์ หรือทั้ง 2 อย่าง การปรับขนาดบางรูปแบบมีประโยชน์อย่างมากสำหรับ การแปลง เช่น การปรับให้เป็นมาตรฐาน

รูปแบบการปรับขนาดที่ใช้กันทั่วไปในแมชชีนเลิร์นนิง ได้แก่

การปรับขนาดเชิงเส้น ซึ่งโดยปกติจะใช้การลบและการหารร่วมกันเพื่อแทนที่ค่าเดิมด้วยตัวเลขระหว่าง -1 ถึง +1 หรือระหว่าง 0 ถึง 1
การปรับขนาดแบบลอการิทึม ซึ่งจะแทนที่ค่าเดิมด้วย ลอการิทึมของค่าดังกล่าว
การทําให้เป็นมาตรฐาน Z-score ซึ่งจะแทนที่ค่าเดิมด้วยค่าทศนิยมที่แสดงจํานวนส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของฟีเจอร์นั้น

scikit-learn

แพลตฟอร์มแมชชีนเลิร์นนิงแบบโอเพนซอร์สที่ได้รับความนิยม ดูที่ scikit-learn.org

การให้คะแนน

#Metric

ส่วนของระบบการแนะนำที่ ให้ค่าหรือการจัดอันดับสำหรับแต่ละรายการที่สร้างขึ้นใน ระยะการสร้างแคนดิเดต

อคติในการเลือก

#responsible

ข้อผิดพลาดในข้อสรุปที่ได้จากข้อมูลที่สุ่มตัวอย่างเนื่องจากกระบวนการเลือก ที่สร้างความแตกต่างอย่างเป็นระบบระหว่างตัวอย่างที่สังเกตได้ในข้อมูล กับตัวอย่างที่สังเกตไม่ได้ อคติในการเลือกมีรูปแบบดังนี้

อคติจากความครอบคลุม: ประชากรที่แสดงในชุดข้อมูลไม่ตรงกับประชากรที่โมเดลแมชชีนเลิร์นนิงใช้คาดการณ์
อคติในการสุ่มตัวอย่าง: ไม่ได้รวบรวมข้อมูลแบบสุ่มจากกลุ่มเป้าหมาย
อคติจากการไม่ตอบ (หรือที่เรียกว่าอคติจากการเข้าร่วม): ผู้ใช้จาก บางกลุ่มเลือกไม่เข้าร่วมตอบแบบสำรวจในอัตราที่แตกต่างจากผู้ใช้จาก กลุ่มอื่นๆ

ตัวอย่างเช่น สมมติว่าคุณกำลังสร้างโมเดลแมชชีนเลิร์นนิงที่คาดการณ์ ความชอบภาพยนตร์ของผู้คน หากต้องการรวบรวมข้อมูลการฝึก คุณจะแจกแบบสำรวจให้ทุกคนที่นั่งแถวหน้าในโรงภาพยนตร์ ที่ฉายภาพยนตร์ ในแง่หนึ่ง วิธีนี้อาจดูเหมือนเป็นวิธีที่สมเหตุสมผลในการรวบรวมชุดข้อมูล แต่การเก็บรวบรวมข้อมูลในรูปแบบนี้อาจทำให้เกิดอคติในการเลือกในรูปแบบต่อไปนี้

อคติในการครอบคลุม: การสุ่มตัวอย่างจากประชากรที่เลือกดูภาพยนตร์ อาจทำให้การคาดการณ์ของโมเดลไม่สามารถสรุปผลไปยังผู้ที่ไม่ได้แสดงความสนใจในภาพยนตร์ในระดับนั้นอยู่แล้ว
อคติในการสุ่มตัวอย่าง: แทนที่จะสุ่มตัวอย่างจากประชากรเป้าหมาย (ทุกคนที่อยู่ในโรงภาพยนตร์) คุณกลับสุ่มตัวอย่างเฉพาะคนที่นั่งแถวหน้า เป็นไปได้ว่าผู้ที่นั่งแถวหน้าจะสนใจภาพยนตร์มากกว่าผู้ที่นั่งแถวอื่นๆ
อคติจากการไม่ตอบ: โดยทั่วไปแล้ว ผู้ที่มีความคิดเห็นอย่างชัดเจนมัก ตอบแบบสำรวจที่ไม่บังคับบ่อยกว่าผู้ที่มีความคิดเห็น ไม่ชัดเจน เนื่องจากแบบสำรวจภาพยนตร์เป็นแบบไม่บังคับ คำตอบจึงมีแนวโน้มที่จะสร้างการกระจายแบบ 2 โหมดมากกว่าการกระจายแบบปกติ (รูประฆัง)

Self-Attention (หรือที่เรียกว่าเลเยอร์ Self-Attention)

เลเยอร์โครงข่ายประสาทเทียมที่แปลงลําดับของ การฝัง (เช่น การฝังโทเค็น) เป็นลําดับการฝังอีกชุดหนึ่ง การฝังแต่ละรายการในลำดับเอาต์พุตจะสร้างขึ้นโดยการผสานรวมข้อมูลจากองค์ประกอบของลำดับอินพุตผ่านกลไกความสนใจ

ส่วนself ของการใส่ใจตนเองหมายถึงลำดับที่ใส่ใจ ตัวมันเองแทนที่จะเป็นบริบทอื่นๆ การใส่ใจตนเองเป็นหนึ่งในองค์ประกอบหลักของ Transformer และใช้คำศัพท์ในการค้นหาในพจนานุกรม เช่น "คำค้นหา" "คีย์" และ "ค่า"

เลเยอร์ Self-Attention จะเริ่มต้นด้วยลำดับการแสดงอินพุต ซึ่งมี 1 รายการ สำหรับแต่ละคำ การแสดงอินพุตสำหรับคำอาจเป็นเพียงการฝัง สำหรับแต่ละคำในลำดับอินพุต เครือข่ายจะให้คะแนนความเกี่ยวข้องของคำกับทุกองค์ประกอบในลำดับคำทั้งหมด คะแนนความเกี่ยวข้องจะกำหนดว่าการแสดงคำสุดท้าย จะรวมการแสดงคำอื่นๆ ไว้มากน้อยเพียงใด

ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

สัตว์ไม่ข้ามถนนเพราะเหนื่อยเกินไป

ภาพต่อไปนี้ (จาก Transformer: A Novel Neural Network Architecture for Language Understanding) แสดงรูปแบบความสนใจของเลเยอร์การใส่ใจตนเองสำหรับคำสรรพนาม it โดยความเข้มของแต่ละบรรทัดจะบ่งบอกว่าแต่ละคำมีส่วนช่วยในการแสดงมากน้อยเพียงใด

ประโยคต่อไปนี้ปรากฏ 2 ครั้ง: The animal didn't cross the
street because it was too tired. เส้นเชื่อมคำสรรพนาม "it" ใน
ประโยคหนึ่งกับโทเค็น 5 รายการ (The, animal, street, it และ
เครื่องหมายจุด) ในอีกประโยคหนึ่ง ความแตกต่างระหว่างคำสรรพนาม "it"
กับคำว่า "animal" นั้นชัดเจนที่สุด

เลเยอร์การสนใจตนเองจะไฮไลต์คำที่เกี่ยวข้องกับ "มัน" ในกรณีนี้ เลเยอร์ความสนใจได้เรียนรู้ที่จะไฮไลต์คำที่เลเยอร์อาจอ้างอิงถึง โดยกำหนดน้ำหนักสูงสุดให้กับคำว่าสัตว์

สำหรับลำดับของโทเค็น n รายการ การใส่ใจตนเองจะเปลี่ยนลำดับของการฝัง n ครั้งแยกกัน โดยจะเปลี่ยน 1 ครั้งในแต่ละตำแหน่งในลำดับ

ดูAttention และ Multi-Head Self-Attention ด้วย

การเรียนรู้แบบควบคุมดูแลด้วยตนเอง

กลุ่มเทคนิคสำหรับการเปลี่ยนปัญหาแมชชีนเลิร์นนิงแบบไม่มีการควบคุมดูแล ให้เป็นปัญหาแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โดยการสร้างป้ายกำกับแทนจากตัวอย่างที่ไม่มีป้ายกำกับ

โมเดลบางรายการที่อิงตาม Transformer เช่น BERT ใช้ การเรียนรู้แบบกำกับดูแลตนเอง

การฝึกแบบกำกับดูแลตนเองเป็นแนวทางการเรียนรู้แบบกึ่งกำกับดูแล

การฝึกด้วยตนเอง

การเรียนรู้แบบกำกับดูแลตนเองรูปแบบหนึ่งซึ่งมีประโยชน์อย่างยิ่งในกรณีที่เงื่อนไขต่อไปนี้ทั้งหมดเป็นจริง

อัตราส่วนของตัวอย่างที่ไม่มีป้ายกำกับต่อ ตัวอย่างที่มีป้ายกำกับในชุดข้อมูลสูง
นี่คือปัญหาการจัดประเภท

การฝึกด้วยตนเองจะทำงานโดยการทำซ้ำ 2 ขั้นตอนต่อไปนี้จนกว่าโมเดลจะหยุดการปรับปรุง

ใช้แมชชีนเลิร์นนิงที่มีการควบคุมดูแลเพื่อ ฝึกโมเดลในตัวอย่างที่ติดป้ายกำกับ
ใช้โมเดลที่สร้างขึ้นในขั้นตอนที่ 1 เพื่อสร้างการคาดการณ์ (ป้ายกำกับ) ใน ตัวอย่างที่ไม่มีป้ายกำกับ โดยย้ายตัวอย่างที่มีความเชื่อมั่นสูงไปยัง ตัวอย่างที่มีป้ายกำกับพร้อมป้ายกำกับที่คาดการณ์ไว้

โปรดสังเกตว่าแต่ละการทำซ้ำของขั้นตอนที่ 2 จะเพิ่มตัวอย่างที่มีป้ายกำกับมากขึ้นสำหรับขั้นตอนที่ 1 เพื่อใช้ในการฝึก

การเรียนรู้แบบกึ่งควบคุม

การฝึกโมเดลในข้อมูลที่ตัวอย่างการฝึกบางรายการมีป้ายกำกับ แต่ตัวอย่างอื่นๆ ไม่มี เทคนิคหนึ่งสำหรับการเรียนรู้แบบกึ่งควบคุมดูแลคือการอนุมานป้ายกำกับสำหรับ ตัวอย่างที่ไม่มีป้ายกำกับ แล้วฝึกโมเดลตามป้ายกำกับที่อนุมานเพื่อสร้างโมเดลใหม่ การเรียนรู้ที่มีการควบคุมดูแลบางส่วนอาจมีประโยชน์หากการได้ป้ายกำกับมีค่าใช้จ่ายสูง แต่มีตัวอย่างที่ไม่มีป้ายกำกับจำนวนมาก

การฝึกด้วยตนเองเป็นเทคนิคหนึ่งสำหรับการเรียนรู้แบบกึ่งกำกับดูแล

แอตทริบิวต์ที่มีความละเอียดอ่อน

#responsible

คุณลักษณะของมนุษย์ที่อาจได้รับการพิจารณาเป็นพิเศษด้วยเหตุผลทางกฎหมาย จริยธรรม สังคม หรือส่วนบุคคล

การวิเคราะห์ความเห็น

การใช้อัลกอริทึมทางสถิติหรือแมชชีนเลิร์นนิงเพื่อพิจารณาทัศนคติโดยรวมของกลุ่ม ไม่ว่าจะเป็นเชิงบวกหรือเชิงลบต่อบริการ ผลิตภัณฑ์ องค์กร หรือหัวข้อ ตัวอย่างเช่น การใช้การทำความเข้าใจภาษาธรรมชาติ อัลกอริทึมสามารถวิเคราะห์ความรู้สึกจากความคิดเห็นที่เป็นข้อความ จากหลักสูตรของมหาวิทยาลัยเพื่อพิจารณาว่าโดยทั่วไปแล้วนักเรียน ชอบหรือไม่ชอบหลักสูตรนั้นมากน้อยเพียงใด

ดูข้อมูลเพิ่มเติมได้ที่คู่มือการจัดประเภทข้อความ

โมเดลลำดับ

โมเดลที่มีอินพุตซึ่งขึ้นอยู่กับลำดับ เช่น การคาดการณ์ วิดีโอถัดไปที่ดูจากลำดับวิดีโอที่ดูไปก่อนหน้านี้

งานแบบลำดับต่อลำดับ

งานที่แปลงลำดับอินพุตของโทเค็นเป็นลำดับเอาต์พุตของโทเค็น ตัวอย่างเช่น งานแบบลำดับต่อลำดับที่ได้รับความนิยม 2 ประเภท ได้แก่

ผู้แปล
- ลำดับอินพุตตัวอย่าง: "ฉันรักเธอ"
- ลำดับเอาต์พุตตัวอย่าง: "Je t'aime"
การตอบคำถาม
- ลำดับอินพุตตัวอย่าง: "ฉันต้องใช้รถในนิวยอร์กไหม"
- ลำดับเอาต์พุตตัวอย่าง: "ไม่ เก็บรถไว้ที่บ้าน"

หน่วยบริโภค

กระบวนการทำให้โมเดลที่ฝึกแล้วพร้อมใช้งานเพื่อแสดงการคาดการณ์ผ่านการอนุมานออนไลน์หรือการอนุมานออฟไลน์

รูปร่าง (Tensor)

จำนวนองค์ประกอบในมิติข้อมูลแต่ละรายการของเทนเซอร์ รูปร่างจะแสดงเป็นรายการจำนวนเต็ม ตัวอย่างเช่น เทนเซอร์ 2 มิติต่อไปนี้มีรูปร่างเป็น [3,4]

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow ใช้รูปแบบแถวหลัก (สไตล์ C) เพื่อแสดงลำดับของ มิติข้อมูล ซึ่งเป็นเหตุผลที่รูปร่างใน TensorFlow คือ [3,4] ไม่ใช่ [4,3] กล่าวอีกนัยหนึ่งคือ ในเทนเซอร์ TensorFlow แบบ 2 มิติ รูปร่าง คือ [จำนวนแถว จำนวนคอลัมน์]

รูปร่างคงที่คือรูปร่างของเทนเซอร์ที่ทราบในเวลาคอมไพล์

รูปร่างแบบไดนามิกจะไม่รู้จักในเวลาคอมไพล์และ จึงขึ้นอยู่กับข้อมูลรันไทม์ Tensor นี้อาจแสดงด้วยมิติข้อมูลตัวยึดตำแหน่งใน TensorFlow ดังใน [3, ?]

ชาร์ด

#TensorFlow

#GoogleCloud

การแบ่งชุดการฝึกหรือโมเดลอย่างมีเหตุผล โดยปกติแล้ว กระบวนการบางอย่างจะสร้าง Shard โดยการแบ่งตัวอย่างหรือพารามิเตอร์ออกเป็นกลุ่มที่มีขนาดเท่ากัน (โดยปกติ) จากนั้นระบบจะกำหนดแต่ละ Shard ให้กับเครื่องที่แตกต่างกัน

การแบ่งพาร์ติชันโมเดลเรียกว่าการทำงานแบบคู่ขนานของโมเดล การแบ่งพาร์ติชันข้อมูลเรียกว่าการทำงานแบบคู่ขนานของข้อมูล

การหดตัว

#df

ไฮเปอร์พารามิเตอร์ใน การเพิ่มประสิทธิภาพแบบไล่ระดับที่ควบคุม การปรับมากเกินไป การลดขนาดในการเพิ่มประสิทธิภาพแบบไล่ระดับ คล้ายกับอัตราการเรียนรู้ใน การไล่ระดับการลด การหดตัวคือค่าทศนิยม ระหว่าง 0.0 ถึง 1.0 ค่าการหดตัวที่ต่ำกว่าจะลดการปรับมากเกินไป ได้มากกว่าค่าการหดตัวที่สูงกว่า

การประเมินแบบเทียบหน้าต่อหน้า

การเปรียบเทียบคุณภาพของโมเดล 2 รายการโดยการประเมินคำตอบของโมเดลต่อพรอมต์เดียวกัน ตัวอย่างเช่น สมมติว่า มีการป้อนพรอมต์ต่อไปนี้ให้กับโมเดลที่แตกต่างกัน 2 โมเดล

สร้างรูปสุนัขน่ารักที่กำลังโยนลูกบอล 3 ลูก

ในการประเมินแบบเทียบกัน ผู้ประเมินจะเลือกรูปภาพที่ "ดีกว่า" (แม่นยำกว่า สวยงามมากขึ้น น่ารักกว่าไหม)

ฟังก์ชันซิกมอยด์

#fundamentals

ฟังก์ชันทางคณิตศาสตร์ที่ "บีบ" ค่าอินพุตให้อยู่ในช่วงที่จำกัด โดยปกติคือ 0 ถึง 1 หรือ -1 ถึง +1 กล่าวคือ คุณสามารถส่งตัวเลขใดก็ได้ (2, 1 ล้าน, -1 พันล้าน หรืออะไรก็ตาม) ไปยังฟังก์ชัน Sigmoid และเอาต์พุตจะยังคงอยู่ในช่วงที่จำกัด กราฟของฟังก์ชันการเปิดใช้งานแบบซิคมอยด์มีลักษณะดังนี้

ฟังก์ชันซิกมอยด์มีการใช้งานหลายอย่างในแมชชีนเลิร์นนิง ซึ่งรวมถึง

การแปลงเอาต์พุตดิบของโมเดลการถดถอยแบบโลจิสติก หรือโมเดลการถดถอยแบบมัลติโนเมียลเป็นความน่าจะเป็น
ทำหน้าที่เป็นฟังก์ชันกระตุ้นใน โครงข่ายประสาทเทียมบางส่วน

คลิกไอคอนเพื่อดูคณิตศาสตร์

ฟังก์ชันซิกมอยด์สำหรับตัวเลขอินพุต x มีสูตรดังนี้

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

ในแมชชีนเลิร์นนิง โดยทั่วไป x คือผลรวมแบบถ่วงน้ำหนัก

การวัดความคล้ายคลึง

#clustering

#Metric

ในอัลกอริทึมการจัดกลุ่ม เมตริกที่ใช้ในการพิจารณา ความเหมือน (ความคล้ายคลึง) ของตัวอย่าง 2 รายการ

โปรแกรมเดียว / ข้อมูลหลายรายการ (SPMD)

เทคนิคการทำงานแบบขนานที่ใช้การคำนวณเดียวกันกับข้อมูลอินพุตที่แตกต่างกัน แบบขนานในอุปกรณ์ต่างๆ เป้าหมายของ SPMD คือการได้รับผลลัพธ์ เร็วขึ้น ซึ่งเป็นรูปแบบการเขียนโปรแกรมแบบขนานที่พบได้บ่อยที่สุด

ความไม่แปรเปลี่ยนตามขนาด

ในปัญหาการแยกประเภทรูปภาพ ความสามารถของอัลกอริทึมในการแยกประเภทรูปภาพได้สำเร็จ แม้ว่าขนาดของรูปภาพจะเปลี่ยนแปลงไปก็ตาม ตัวอย่างเช่น อัลกอริทึมยังคงระบุ แมวได้ไม่ว่าจะใช้ 2 ล้านพิกเซลหรือ 2 แสนพิกเซล โปรดทราบว่าแม้แต่ อัลกอริทึมการจัดประเภทรูปภาพที่ดีที่สุดก็ยังมีข้อจำกัดในทางปฏิบัติเกี่ยวกับความไม่แปรเปลี่ยนของขนาด ตัวอย่างเช่น อัลกอริทึม (หรือมนุษย์) ไม่น่าจะจัดประเภทรูปภาพแมวที่มีขนาดเพียง 20 พิกเซลได้อย่างถูกต้อง

ดูความไม่แปรเปลี่ยนตามการเลื่อนและ ความไม่แปรเปลี่ยนตามการหมุนด้วย

ดูข้อมูลเพิ่มเติมได้ที่หลักสูตรการจัดกลุ่ม

การสเก็ตช์

#clustering

ในแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล ซึ่งเป็นหมวดหมู่อัลกอริทึมที่ทำการวิเคราะห์ความคล้ายคลึงเบื้องต้น ในตัวอย่าง อัลกอริทึมการสเก็ตช์ใช้ ฟังก์ชันแฮชที่คำนึงถึงตำแหน่ง เพื่อระบุจุดที่มีแนวโน้มที่จะคล้ายกัน แล้วจัดกลุ่ม จุดเหล่านั้นลงในที่เก็บข้อมูล

การสเก็ตช์ช่วยลดการคำนวณที่จำเป็นสำหรับการคำนวณความคล้ายคลึงกัน ในชุดข้อมูลขนาดใหญ่ แทนที่จะคำนวณความคล้ายคลึงสำหรับตัวอย่างแต่ละคู่ในชุดข้อมูล เราจะคำนวณความคล้ายคลึงสำหรับคู่ของจุดแต่ละคู่ภายในแต่ละกลุ่มเท่านั้น

Skip-gram

N-gram ซึ่งอาจละเว้น (หรือ "ข้าม") คำจากบริบทเดิม ซึ่งหมายความว่าคำ N คำอาจไม่ได้อยู่ติดกันตั้งแต่แรก กล่าวอย่างเจาะจงคือ "k-skip-n-gram" คือ n-gram ที่อาจมีการข้ามคำได้สูงสุด k คำ

เช่น "the quick brown fox" มี 2-แกรมที่เป็นไปได้ดังนี้

"the quick"
"quick brown"
"หมาป่าสีน้ำตาล"

"1-skip-2-gram" คือคู่คำที่มีคำคั่นระหว่างกันไม่เกิน 1 คำ ดังนั้น "the quick brown fox" จึงมี 1-skip 2-grams ดังนี้

"the brown"
"quick fox"

นอกจากนี้ 2-gram ทั้งหมดยังเป็น 1-skip-2-gram ด้วย เนื่องจากอาจข้ามคำน้อยกว่า 1 คำ

Skip-gram มีประโยชน์ในการทำความเข้าใจบริบทโดยรอบของคำให้มากขึ้น ในตัวอย่างนี้ "fox" เชื่อมโยงกับ "quick" โดยตรงในชุดของ 1-skip-2-grams แต่ไม่ได้เชื่อมโยงในชุดของ 2-grams

Skip-gram ช่วยฝึกโมเดลการฝังคำ

softmax

#fundamentals

ฟังก์ชันที่กำหนดความน่าจะเป็นสำหรับแต่ละคลาสที่เป็นไปได้ในโมเดลการจัดประเภทแบบหลายคลาส ความน่าจะเป็นรวมกัน เป็น 1.0 พอดี ตัวอย่างเช่น ตารางต่อไปนี้แสดงวิธีที่ Softmax กระจาย ความน่าจะเป็นต่างๆ

รูปภาพเป็น...	Probability
สุนัข	.85
cat	.13
ม้า	.02

Softmax เรียกอีกอย่างว่า full softmax

แตกต่างจากการสุ่มตัวอย่างผู้สมัคร

คลิกไอคอนเพื่อดูคณิตศาสตร์

สมการ Softmax มีดังนี้

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

where:

$\sigma_i$ คือเวกเตอร์เอาต์พุต องค์ประกอบแต่ละรายการของเวกเตอร์เอาต์พุต จะระบุความน่าจะเป็นขององค์ประกอบนี้ ผลรวมขององค์ประกอบทั้งหมด ในเวกเตอร์เอาต์พุตคือ 1.0 เวกเตอร์เอาต์พุตมีจำนวนองค์ประกอบเท่ากับเวกเตอร์อินพุต $z$
$z$ คือเวกเตอร์อินพุต องค์ประกอบแต่ละรายการของเวกเตอร์อินพุตมีค่าทศนิยม
$K$ คือจำนวนองค์ประกอบในเวกเตอร์อินพุต (และเวกเตอร์เอาต์พุต)

ตัวอย่างเช่น สมมติว่าเวกเตอร์อินพุตคือ

[1.2, 2.5, 1.8]

ดังนั้น Softmax จึงคำนวณตัวส่วนดังนี้

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

ดังนั้น ความน่าจะเป็นของ Softmax ของแต่ละองค์ประกอบจึงเป็นดังนี้

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

ดังนั้น เวกเตอร์เอาต์พุตจึงเป็น

$$\sigma = [0.154, 0.565, 0.281]$$

ผลรวมขององค์ประกอบทั้ง 3 ใน $\sigma$ คือ 1.0 ในที่สุด

การปรับแต่งพรอมต์แบบซอฟต์

#generativeAI

เทคนิคในการปรับโมเดลภาษาขนาดใหญ่ สำหรับงานหนึ่งๆ โดยไม่ต้องใช้การปรับแต่งที่ต้องใช้ทรัพยากรจำนวนมาก การปรับพรอมต์แบบซอฟต์จะปรับพรอมต์โดยอัตโนมัติเพื่อให้บรรลุเป้าหมายเดียวกัน แทนที่จะฝึกน้ำหนักทั้งหมดในโมเดลใหม่

เมื่อได้รับพรอมต์ที่เป็นข้อความ การปรับพรอมต์แบบซอฟต์ โดยทั่วไปจะผนวกการฝังโทเค็นเพิ่มเติมลงในพรอมต์และใช้ การแพร่ย้อนกลับเพื่อเพิ่มประสิทธิภาพอินพุต

พรอมต์ "ฮาร์ด" มีโทเค็นจริงแทนที่จะเป็นโทเค็นแบบฝัง

ฟีเจอร์ Sparse

#fundamentals

ฟีเจอร์ที่มีค่าเป็น 0 หรือว่างเปล่าเป็นส่วนใหญ่ เช่น ฟีเจอร์ที่มีค่า 1 เพียงค่าเดียวและค่า 0 จำนวน 1 ล้านค่าถือเป็นฟีเจอร์ แบบกระจัดกระจาย ในทางตรงกันข้าม ฟีเจอร์แบบหนาแน่นจะมีค่าที่ส่วนใหญ่ไม่ใช่ 0 หรือว่าง

ในแมชชีนเลิร์นนิง ฟีเจอร์จำนวนมากอย่างน่าประหลาดใจเป็นฟีเจอร์แบบเบาบาง ฟีเจอร์เชิงหมวดหมู่มักเป็นฟีเจอร์แบบกระจัดกระจาย ตัวอย่างเช่น จากต้นไม้ 300 สายพันธุ์ที่เป็นไปได้ในป่า ตัวอย่างเดียวอาจระบุได้เพียงต้นเมเปิล หรือจากวิดีโอหลายล้านรายการในคลังวิดีโอ ตัวอย่างเดียวอาจระบุได้เพียง "คาซาบลังกา"

ในโมเดล คุณมักจะแสดงฟีเจอร์แบบกระจัดกระจายด้วยการเข้ารหัสแบบ One-hot หากการเข้ารหัสแบบ One-hot มีขนาดใหญ่ คุณอาจวางเลเยอร์การฝังไว้เหนือ การเข้ารหัสแบบ One-hot เพื่อเพิ่มประสิทธิภาพ

การแสดงแบบกระจัดกระจาย

#fundamentals

จัดเก็บเฉพาะตำแหน่งขององค์ประกอบที่ไม่ใช่ศูนย์ในฟีเจอร์แบบกระจัดกระจาย

ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ species ระบุพันธุ์ไม้ 36 ชนิดในป่าแห่งหนึ่ง สมมติว่าตัวอย่างแต่ละรายการระบุสายพันธุ์เดียวเท่านั้น

คุณสามารถใช้เวกเตอร์แบบ One-Hot เพื่อแสดงสายพันธุ์ของต้นไม้ในแต่ละตัวอย่าง เวกเตอร์แบบ One-Hot จะมี 1 เพียงรายการเดียว (เพื่อแสดง สายพันธุ์ต้นไม้ที่เฉพาะเจาะจงในตัวอย่างนั้น) และ 0 35 รายการ (เพื่อแสดง สายพันธุ์ต้นไม้ 35 สายพันธุ์ที่ไม่ได้อยู่ในตัวอย่างนั้น) ดังนั้นการแสดงแบบ One-Hot ของ maple อาจมีลักษณะดังนี้

เวกเตอร์ที่ตำแหน่ง 0 ถึง 23 มีค่าเป็น 0, ตำแหน่ง 24 มีค่าเป็น 1 และตำแหน่ง 25 ถึง 35 มีค่าเป็น 0

หรือการแสดงแบบกระจัดกระจายจะระบุตำแหน่งของ สายพันธุ์ที่เฉพาะเจาะจง หาก maple อยู่ที่ตำแหน่ง 24 การแสดงแบบกระจัดกระจาย ของ maple จะเป็นดังนี้

โปรดสังเกตว่าการแสดงแบบกระจัดกระจายนั้นกะทัดรัดกว่าการแสดงแบบ One-Hot มาก

คลิกไอคอนเพื่อดูตัวอย่างที่ซับซ้อนขึ้นเล็กน้อย

สมมติว่าแต่ละตัวอย่างในโมเดลต้องแสดงคำต่างๆ ในประโยคภาษาอังกฤษ แต่ไม่ต้องแสดงลำดับของคำเหล่านั้น ภาษาอังกฤษมีคำศัพท์ประมาณ 170,000 คำ ดังนั้นภาษาอังกฤษจึงเป็นฟีเจอร์แบบหมวดหมู่ที่มีองค์ประกอบประมาณ 170,000 รายการ ประโยคภาษาอังกฤษส่วนใหญ่ใช้คำเพียงเล็กน้อยจากคำ 170,000 คำ ดังนั้นชุดคำในตัวอย่างเดียวจึงแทบจะเป็นข้อมูลเบาบางอย่างแน่นอน

ลองพิจารณาประโยคต่อไปนี้

My dog is a great dog

คุณอาจใช้เวกเตอร์แบบ One-Hot รูปแบบหนึ่งเพื่อแสดงคำในประโยคนี้ ในตัวแปรนี้ เซลล์หลายเซลล์ในเวกเตอร์อาจมีค่าที่ไม่ใช่ 0 นอกจากนี้ ในตัวแปรนี้ เซลล์สามารถมีจำนวนเต็ม ที่ไม่ใช่ 1 แม้ว่าคำว่า "my", "is", "a" และ "great" จะปรากฏเพียงครั้งเดียวในประโยค แต่คำว่า "dog" ปรากฏ 2 ครั้ง การใช้เวกเตอร์แบบ One-Hot รูปแบบนี้เพื่อแสดงคำในประโยคนี้จะให้เวกเตอร์ที่มีองค์ประกอบ 170,000 รายการดังนี้

การแสดงประโยคเดียวกันแบบกระจัดกระจายจะเป็นดังนี้

คลิกไอคอนหากคุณสับสน

คำว่า "การแสดงแบบกระจัดกระจาย" ทำให้หลายคนสับสนเนื่องจากการแสดงแบบกระจัดกระจายไม่ใช่เวกเตอร์แบบกระจัดกระจาย แต่การแสดงแบบกระจัดกระจาย คือการแสดงแบบหนาแน่นของเวกเตอร์แบบกระจัดกระจาย การแสดงดัชนีของคำพ้องความหมายจะชัดเจนกว่า "การแสดงแบบกระจัดกระจาย" เล็กน้อย

ดูข้อมูลเพิ่มเติมได้ที่การทำงานกับข้อมูลเชิงหมวดหมู่ ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

เวกเตอร์แบบกระจัดกระจาย

#fundamentals

เวกเตอร์ที่มีค่าเป็น 0 เป็นส่วนใหญ่ ดูฟีเจอร์แบบกระจัดกระจาย และความกระจัดกระจายด้วย

การขาดแคลนข้อมูล

#Metric

จำนวนองค์ประกอบที่ตั้งค่าเป็น 0 (หรือ Null) ในเวกเตอร์หรือเมทริกซ์หารด้วยจำนวนรายการทั้งหมดในเวกเตอร์หรือเมทริกซ์นั้น ตัวอย่างเช่น ลองพิจารณาเมทริกซ์ที่มี 100 องค์ประกอบซึ่งมีเซลล์ 98 เซลล์ที่มีค่าเป็น 0 การคำนวณความกระจัดกระจาย มีดังนี้

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

ความกระจัดกระจายของฟีเจอร์หมายถึงความกระจัดกระจายของเวกเตอร์ฟีเจอร์ ความกระจัดกระจายของโมเดลหมายถึงความกระจัดกระจายของน้ำหนักโมเดล

การรวมกลุ่มเชิงพื้นที่

ดูการรวมกลุ่ม

การเขียนโค้ดตามข้อกำหนด

#generativeAI

กระบวนการเขียนและดูแลรักษาไฟล์ในภาษาที่มนุษย์ใช้ (เช่น ภาษาอังกฤษ) ซึ่งอธิบายซอฟต์แวร์ จากนั้นคุณสามารถบอกโมเดล Generative AI หรือ วิศวกรซอฟต์แวร์คนอื่นให้สร้างซอฟต์แวร์ที่ตรงกับคำอธิบายนั้น

โดยทั่วไปแล้ว โค้ดที่สร้างขึ้นโดยอัตโนมัติต้องมีการทำซ้ำ ในการเขียนโค้ดตามข้อกำหนด คุณจะวนซ้ำในไฟล์คำอธิบาย ในทางตรงกันข้าม การเขียนโค้ดแบบสนทนาจะวนซ้ำภายใน ช่องพรอมต์ ในทางปฏิบัติ การสร้างโค้ดอัตโนมัติบางครั้งเกี่ยวข้องกับทั้งการเขียนโค้ดตามข้อกำหนดและการเขียนโค้ดแบบสนทนา

แยก

#df

ในแผนผังการตัดสินใจ ซึ่งเป็นอีกชื่อหนึ่งของ เงื่อนไข

ตัวแยก

#df

ขณะฝึกต้นไม้ตัดสินใจ รูทีน (และอัลกอริทึม) มีหน้าที่ค้นหาเงื่อนไขที่ดีที่สุดในแต่ละโหนด

SPMD

ตัวย่อสำหรับโปรแกรมเดียว / ข้อมูลหลายรายการ

SQuAD

#Metric

คำย่อของ Stanford Question Answering Dataset ซึ่งเปิดตัวในเอกสาร SQuAD: 100,000+ Questions for Machine Comprehension of Text คำถามในชุดข้อมูลนี้มาจากผู้ที่ถามคำถามเกี่ยวกับบทความใน วิกิพีเดีย คำถามบางข้อใน SQuAD มีคำตอบ แต่คำถามอื่นๆ ไม่มีคำตอบโดยตั้งใจ ดังนั้น คุณจึงใช้ SQuAD เพื่อประเมินความสามารถของ LLM ในการทำสิ่งต่อไปนี้ได้

ตอบคำถามที่ตอบได้
ระบุคำถามที่ตอบไม่ได้

การทำงานแบบตรงทั้งหมดร่วมกับ _F1 เป็นเมตริกที่ใช้กันมากที่สุดในการ ประเมิน LLM กับ SQuAD

การสูญเสียบานพับกำลังสอง

#Metric

กำลังสองของการสูญเสียแบบบานพับ การสูญเสียฮิงจ์กำลังสองจะลงโทษค่าผิดปกติอย่างรุนแรงกว่าการสูญเสียฮิงจ์ปกติ

การสูญเสียกำลังสอง

#fundamentals

#Metric

คำพ้องความหมายของL₂ loss

การฝึกอบรมแบบเป็นขั้น

กลยุทธ์ในการฝึกโมเดลในลำดับของขั้นตอนที่แยกจากกัน เป้าหมายอาจเป็นการเร่งกระบวนการฝึก หรือเพื่อให้ได้โมเดลที่มีคุณภาพดีขึ้น

ภาพประกอบของแนวทางการซ้อนแบบก้าวหน้าแสดงอยู่ด้านล่าง

โดยสเตจ 1 มีเลเยอร์ที่ซ่อนอยู่ 3 เลเยอร์ สเตจ 2 มีเลเยอร์ที่ซ่อนอยู่ 6 เลเยอร์ และ สเตจ 3 มีเลเยอร์ที่ซ่อนอยู่ 12 เลเยอร์
ระยะที่ 2 เริ่มฝึกด้วยน้ำหนักที่ได้เรียนรู้ในเลเยอร์ที่ซ่อนอยู่ 3 เลเยอร์ ของระยะที่ 1 ระยะที่ 3 จะเริ่มฝึกโดยใช้น้ำหนักที่ได้เรียนรู้ในเลเยอร์ที่ซ่อนอยู่ 6 เลเยอร์ของระยะที่ 2

3 ขั้นตอน ซึ่งมีป้ายกำกับว่าขั้นตอนที่ 1, ขั้นตอนที่ 2 และขั้นตอนที่ 3
แต่ละด่านจะมีเลเยอร์จำนวนต่างกัน โดยด่านที่ 1 มี 3 เลเยอร์ ด่านที่ 2 มี 6 เลเยอร์ และด่านที่ 3 มี 12 เลเยอร์
เลเยอร์ทั้ง 3 จากระยะที่ 1 จะกลายเป็น 3 เลเยอร์แรกของระยะที่ 2
ในทำนองเดียวกัน เลเยอร์ 6 เลเยอร์จากระยะที่ 2 จะกลายเป็น 6 เลเยอร์แรกของระยะที่ 3

ดูการส่งผ่านคำสั่งด้วย

รัฐ

แตกต่างจากความไม่คงที่

ขั้นตอน

การส่งต่อและการส่งย้อนกลับของกลุ่ม

ดูข้อมูลเพิ่มเติมเกี่ยวกับ Forward Pass และ Backward Pass ได้ที่การแพร่ย้อนกลับ

ขนาดของขั้น

คำพ้องความหมายของอัตราการเรียนรู้

การไล่ระดับสีแบบสุ่ม (SGD)

#fundamentals

อัลกอริทึมการไล่ระดับสีซึ่งมีขนาดกลุ่มเป็น 1 กล่าวอีกนัยหนึ่งคือ SGD ฝึกกับ ตัวอย่างเดียวที่เลือกแบบสุ่ม อย่างสม่ำเสมอจากชุดการฝึก

ก้าว

ในการดำเนินการแบบ Convolutional หรือการรวมกลุ่ม เดลต้าในแต่ละมิติของ ชุดอินพุตสไลซ์ถัดไป ตัวอย่างเช่น ภาพเคลื่อนไหวต่อไปนี้ แสดงการก้าวย่าง (1,1) ระหว่างการดำเนินการแบบ Convolution ดังนั้น อินพุตสไลซ์ถัดไปจึงเริ่มต้นที่ตำแหน่งทางขวาของอินพุต สไลซ์ก่อนหน้า เมื่อการดำเนินการไปถึงขอบด้านขวา ส่วนถัดไปจะอยู่ทางด้านซ้ายสุด แต่เลื่อนลงมา 1 ตำแหน่ง

ตัวอย่างก่อนหน้าแสดงการก้าวย่างแบบ 2 มิติ หากเมทริกซ์อินพุต เป็นแบบ 3 มิติ สไตรด์ก็จะเป็นแบบ 3 มิติด้วย

การลดความเสี่ยงเชิงโครงสร้าง (SRM)

อัลกอริทึมที่สร้างสมดุลระหว่างเป้าหมาย 2 อย่าง

ความจำเป็นในการสร้างโมเดลที่มีความสามารถในการคาดการณ์มากที่สุด (เช่น มีการสูญเสียต่ำสุด)
ความจำเป็นในการทำให้โมเดลเรียบง่ายที่สุดเท่าที่จะเป็นไปได้ (เช่น การควบคุมแบบเข้มงวด)

ตัวอย่างเช่น ฟังก์ชันที่ลดการสูญเสีย + การทำให้เป็นปกติในชุดข้อมูลการฝึกเป็นอัลกอริทึมการลดความเสี่ยงเชิงโครงสร้าง

แตกต่างจากการลดความเสี่ยงเชิงประจักษ์

การสุ่มย่อย

ดูการรวมกลุ่ม

โทเค็นคำย่อย

ในโมเดลภาษา โทเค็นคือสตริงย่อยของคำ ซึ่งอาจเป็นคำทั้งคำ

เช่น คำว่า "itemize" อาจแบ่งออกเป็น "item" (คำหลัก) และ "ize" (คำต่อท้าย) ซึ่งแต่ละคำจะแสดงด้วยโทเค็นของตัวเอง การแยกคำที่ไม่ค่อยพบออกเป็นส่วนๆ ดังกล่าวเรียกว่าคำย่อย ซึ่งช่วยให้ โมเดลภาษาทำงานกับส่วนประกอบที่พบบ่อยกว่าของคำ เช่น คำนำหน้าและคำต่อท้าย

ในทางกลับกัน คำที่ใช้กันทั่วไป เช่น "going" อาจไม่ถูกแบ่งและอาจ แสดงด้วยโทเค็นเดียว

สรุป

#TensorFlow

ใน TensorFlow ค่าหรือชุดค่าที่คำนวณในขั้นตอนหนึ่งๆ มักใช้เพื่อติดตามเมตริกของโมเดลระหว่างการฝึก

SuperGLUE

#Metric

ชุดข้อมูลสำหรับการให้คะแนนความสามารถโดยรวมของ LLM ในการทำความเข้าใจ และสร้างข้อความ กลุ่มประกอบด้วยชุดข้อมูลต่อไปนี้

คำถามแบบบูลีน (BoolQ)
CommitmentBank (CB)
ทางเลือกของทางเลือกที่เป็นไปได้ (COPA)
การอ่านจับใจความแบบหลายประโยค (MultiRC)
ชุดข้อมูลความเข้าใจในการอ่านด้วยการให้เหตุผลตามสามัญสำนึก (ReCoRD)
Recognizing Textual Entailment (RTE)
คำในบริบท (WiC)
Winograd Schema Challenge (WSC)

ดูรายละเอียดได้ที่ SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems

แมชชีนเลิร์นนิงที่มีการควบคุมดูแล

#fundamentals

การฝึกโมเดลจากฟีเจอร์และป้ายกำกับที่เกี่ยวข้อง แมชชีนเลิร์นนิงที่มีการควบคุมดูแลเปรียบเสมือน การเรียนรู้เรื่องหนึ่งๆ โดยการศึกษาชุดคำถามและคำตอบที่ เกี่ยวข้อง หลังจากเข้าใจความสัมพันธ์ระหว่างคำถามและคำตอบแล้ว นักเรียนจะสามารถตอบคำถามใหม่ (ที่ไม่เคยเห็นมาก่อน) ในหัวข้อเดียวกันได้

เปรียบเทียบกับแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบมีผู้ดูแล ในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับ ML

ฟีเจอร์สังเคราะห์

#fundamentals

ฟีเจอร์ที่ไม่มีในฟีเจอร์อินพุต แต่ ประกอบขึ้นจากฟีเจอร์อินพุตอย่างน้อย 1 รายการ วิธีการสร้างฟีเจอร์สังเคราะห์ มีดังนี้

การจัดกลุ่มฟีเจอร์ต่อเนื่องลงในกลุ่มช่วง
การสร้างครอสโอเวอร์
การคูณ (หรือหาร) ค่าฟีเจอร์หนึ่งด้วยค่าฟีเจอร์อื่นๆ หรือด้วยค่าฟีเจอร์นั้นเอง ตัวอย่างเช่น หาก a และ b เป็นฟีเจอร์อินพุต ตัวอย่างฟีเจอร์สังเคราะห์มีดังนี้
- ab
- a²
การใช้ฟังก์ชันอดิศัยกับค่าฟีเจอร์ ตัวอย่างเช่น หาก c เป็นฟีเจอร์อินพุต ตัวอย่างฟีเจอร์สังเคราะห์จะมีดังนี้
- sin(c)
- ln(c)

ฟีเจอร์ที่สร้างขึ้นโดยการปรับให้เป็นมาตรฐานหรือปรับขนาด เพียงอย่างเดียวไม่ถือเป็นฟีเจอร์สังเคราะห์

T

T5

โมเดล การเรียนรู้แบบถ่ายโอนจากข้อความหนึ่งไปยังอีกข้อความหนึ่ง ซึ่งเปิดตัวโดย Google AI ในปี 2020 T5 เป็นโมเดลตัวเข้ารหัส-ตัวถอดรหัสที่อิงตามสถาปัตยกรรม Transformer ซึ่งได้รับการฝึกในชุดข้อมูลขนาดใหญ่มาก โมเดลนี้มีประสิทธิภาพในการทำงานด้านการประมวลผลภาษาธรรมชาติที่หลากหลาย เช่น การสร้างข้อความ การแปลภาษา และการตอบคำถามใน ลักษณะการสนทนา

T5 ได้ชื่อมาจากตัวอักษร T 5 ตัวใน "Text-to-Text Transfer Transformer"

T5X

เฟรมเวิร์กแมชชีนเลิร์นนิงโอเพนซอร์สที่ออกแบบมา เพื่อสร้างและฝึกโมเดลการประมวลผลภาษาธรรมชาติ (NLP) ขนาดใหญ่ T5 ได้รับการติดตั้งใช้งานในโค้ดเบส T5X (ซึ่งสร้างขึ้นจาก JAX และ Flax)

Q-Learning แบบตาราง

ในการเรียนรู้แบบเสริมกำลัง การใช้การเรียนรู้ Q โดยใช้ตารางเพื่อจัดเก็บฟังก์ชัน Q สำหรับชุดค่าผสมทั้งหมดของสถานะและการดำเนินการ

เป้าหมาย

คำพ้องความหมายของป้ายกำกับ

เครือข่ายเป้าหมาย

ใน Deep Q-learning โครงข่ายประสาทที่เสถียร โดยประมาณของโครงข่ายประสาทหลัก ซึ่งโครงข่ายประสาทหลัก จะใช้ ฟังก์ชัน Q หรือนโยบาย จากนั้นคุณจะฝึกเครือข่ายหลักเกี่ยวกับค่า Q ที่เครือข่ายเป้าหมายคาดการณ์ได้ ดังนั้น คุณจึงป้องกันลูปความคิดเห็นที่เกิดขึ้นเมื่อเครือข่ายหลัก ฝึกค่า Q ที่เครือข่ายหลักคาดการณ์เอง การหลีกเลี่ยงความคิดเห็นนี้จะช่วยเพิ่มความเสถียรในการฝึก

งาน

ปัญหาที่แก้ไขได้โดยใช้เทคนิคแมชชีนเลิร์นนิง เช่น

การแยกประเภท
การถดถอย
การจัดกลุ่ม
การตรวจจับความผิดปกติ

อุณหภูมิ

#generativeAI

ไฮเปอร์พารามิเตอร์ที่ควบคุมระดับความสุ่ม ของเอาต์พุตของโมเดล อุณหภูมิที่สูงขึ้นจะทำให้เอาต์พุตมีความสุ่มมากขึ้น ขณะที่อุณหภูมิที่ต่ำลงจะทำให้เอาต์พุตมีความสุ่มน้อยลง

#TensorFlow

จำนวนสเกลาร์ทั้งหมดที่ Tensor มี เช่น [5, 10]เทนเซอร์มีขนาด 50

TensorStore

ไลบรารีสำหรับการอ่านและเขียนอาร์เรย์หลายมิติขนาดใหญ่อย่างมีประสิทธิภาพ

เงื่อนไขการสิ้นสุด

ในการเรียนรู้แบบเสริมกำลัง เงื่อนไขที่กำหนดเวลาสิ้นสุดตอน เช่น เมื่อเอเจนต์ไปถึงสถานะหนึ่งๆ หรือเกินจำนวนการเปลี่ยนสถานะตามเกณฑ์ ตัวอย่างเช่น ในเกม Tic-Tac-Toe (หรือที่รู้จักกันในชื่อเกม O-X) ตอนจะจบลงเมื่อผู้เล่นทำเครื่องหมาย ในช่อง 3 ช่องติดต่อกันหรือเมื่อมีการทำเครื่องหมายในทุกช่อง

ทดสอบ

#df

ในแผนผังการตัดสินใจ ซึ่งเป็นอีกชื่อหนึ่งของ เงื่อนไข

การสูญเสียการทดสอบ

#fundamentals

#Metric

เมตริกที่แสดงถึงการสูญเสียของโมเดลเทียบกับ ชุดทดสอบ เมื่อสร้างโมเดล คุณ มักจะพยายามลดการสูญเสียในการทดสอบ เนื่องจากค่าการสูญเสียในการทดสอบที่ต่ำเป็นสัญญาณคุณภาพที่แข็งแกร่งกว่าการสูญเสียในการฝึกหรือการสูญเสียในการตรวจสอบที่ต่ำ

ช่องว่างขนาดใหญ่ระหว่างการสูญเสียในการทดสอบกับการสูญเสียในการฝึกหรือการสูญเสียในการตรวจสอบบางครั้ง บ่งบอกว่าคุณต้องเพิ่มอัตราการทำให้เป็นปกติ

ชุดทดสอบ

ชุดย่อยของชุดข้อมูลที่สงวนไว้สำหรับการทดสอบ โมเดลที่ฝึกแล้ว

โดยปกติแล้ว คุณจะแบ่งตัวอย่างในชุดข้อมูลออกเป็น 3 ชุดย่อยที่แตกต่างกันดังนี้

ชุดฝึก
ชุดข้อมูลสำหรับตรวจสอบความถูกต้อง
ชุดทดสอบ

ตัวอย่างแต่ละรายการในชุดข้อมูลควรอยู่ในชุดข้อมูลย่อยเพียงชุดเดียวจากชุดข้อมูลย่อยที่กล่าวถึงก่อนหน้านี้ เช่น ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดการฝึกและชุดการทดสอบ

ทั้งชุดการฝึกและชุดการตรวจสอบมีความเกี่ยวข้องอย่างใกล้ชิดกับการฝึกโมเดล เนื่องจากชุดทดสอบเชื่อมโยงกับการฝึกโดยอ้อมเท่านั้น การสูญเสียจากการทดสอบจึงเป็นเมตริกที่มีคุณภาพสูงกว่าและมีอคติน้อยกว่าการสูญเสียจากการฝึกหรือการสูญเสียจากการตรวจสอบ

ดูข้อมูลเพิ่มเติมได้ที่ชุดข้อมูล: การแบ่งชุดข้อมูลเดิม ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ช่วงข้อความ

ช่วงดัชนีอาร์เรย์ที่เชื่อมโยงกับส่วนย่อยที่เฉพาะเจาะจงของสตริงข้อความ เช่น คำว่า good ในสตริง Python s="Be good now" จะครอบคลุม ช่วงข้อความตั้งแต่ 3 ถึง 6

tf.Example

#TensorFlow

Protocol Buffer มาตรฐานสำหรับอธิบายข้อมูลอินพุตสำหรับการฝึกหรือการอนุมานโมเดลแมชชีนเลิร์นนิง

tf.keras

#TensorFlow

การติดตั้งใช้งาน Keras ที่ผสานรวมเข้ากับ TensorFlow

เกณฑ์ (สำหรับต้นไม้ตัดสินใจ)

#df

ในเงื่อนไขที่สอดคล้องกับแกน ค่าที่ฟีเจอร์กำลังเปรียบเทียบด้วย ตัวอย่างเช่น 75 คือค่าเกณฑ์ในเงื่อนไขต่อไปนี้

grade >= 75

การวิเคราะห์อนุกรมเวลา

#clustering

สาขาย่อยของแมชชีนเลิร์นนิงและสถิติที่วิเคราะห์ข้อมูลตามเวลา ปัญหาแมชชีนเลิร์นนิงหลายประเภทต้องใช้การวิเคราะห์อนุกรมเวลา ซึ่งรวมถึงการจัดประเภท การจัดกลุ่ม การคาดการณ์ และการตรวจหาความผิดปกติ ตัวอย่างเช่น คุณอาจใช้ การวิเคราะห์อนุกรมเวลาเพื่อคาดการณ์ยอดขายในอนาคตของเสื้อโค้ทฤดูหนาวในแต่ละเดือน โดยอิงตามข้อมูลยอดขายย้อนหลัง

ช่วงเวลา

เซลล์ "คลี่" หนึ่งเซลล์ภายในโครงข่ายประสาทแบบเกิดซ้ำ ตัวอย่างเช่น รูปต่อไปนี้แสดงไทม์สเต็ป 3 รายการ (ติดป้ายกำกับด้วย ตัวห้อย t-1, t และ t+1)

ไทม์สเต็ป 3 รายการในโครงข่ายประสาทเทียมแบบเกิดซ้ำ เอาต์พุตของ
ไทม์สเต็ปแรกจะกลายเป็นอินพุตของไทม์สเต็ปที่ 2 เอาต์พุต
ของไทม์สเต็ปที่ 2 จะกลายเป็นอินพุตของไทม์สเต็ปที่ 3

โทเค็น

ในโมเดลภาษา หน่วยย่อยที่โมเดลใช้ ฝึกและคาดการณ์ โดยทั่วไปแล้ว โทเค็นจะเป็นอย่างใดอย่างหนึ่งต่อไปนี้

คำ เช่น วลี "หมาชอบแมว" ประกอบด้วยโทเค็นคำ 3 คำ ได้แก่ "หมา" "ชอบ" และ "แมว"
อักขระ เช่น วลี "bike fish" ประกอบด้วยโทเค็นอักขระ 9 ตัว (โปรดทราบว่าช่องว่างจะนับเป็นโทเค็น 1 รายการ)
คำย่อย ซึ่งคำเดียวอาจเป็นโทเค็นเดียวหรือหลายโทเค็น คำย่อยประกอบด้วยคำหลัก คำนำหน้า หรือคำต่อท้าย ตัวอย่างเช่น โมเดลภาษาที่ใช้คำย่อยเป็นโทเค็นอาจมองคำว่า "dogs" เป็น 2 โทเค็น (คำหลัก "dog" และคำต่อท้ายพหูพจน์ "s") โมเดลภาษาเดียวกันนี้อาจมองคำว่า "สูงกว่า" เป็นคำย่อย 2 คำ (คำหลัก "สูง" และคำต่อท้าย "กว่า")

ในโดเมนที่อยู่นอกโมเดลภาษา โทเค็นสามารถแสดงหน่วยย่อยประเภทอื่นๆ ได้ เช่น ในคอมพิวเตอร์วิทัศน์ โทเค็นอาจเป็นเซ็ตย่อย ของรูปภาพ

เครื่องมือแปลงข้อความเป็นโทเค็น

ระบบหรืออัลกอริทึมที่แปลลําดับของข้อมูลที่ป้อนเป็นโทเค็น

โมเดลพื้นฐานที่ทันสมัยส่วนใหญ่เป็นโมเดลหลายรูปแบบ ตัวแยกโทเค็นสำหรับระบบมัลติโมดัล ต้องแปลอินพุตแต่ละประเภทเป็นรูปแบบที่เหมาะสม ตัวอย่างเช่น เมื่อได้รับข้อมูลอินพุตซึ่งประกอบด้วยทั้งข้อความและกราฟิก ตัวแยกโทเค็นอาจ แปลข้อความอินพุตเป็นคำย่อย และแปลรูปภาพอินพุตเป็นแพตช์ขนาดเล็ก จากนั้นโทเค็นไนเซอร์ต้องแปลงโทเค็นทั้งหมดเป็นเวกเตอร์การฝังแบบรวมเดียว ซึ่งช่วยให้โมเดล "เข้าใจ" สตรีมอินพุตหลายรูปแบบได้

ความแม่นยำสูงสุด k

#Metric

เปอร์เซ็นต์ของจำนวนครั้งที่ "ป้ายกำกับเป้าหมาย" ปรากฏภายในk ตำแหน่งแรกของรายการที่สร้างขึ้น รายการอาจเป็นคำแนะนำที่ปรับเปลี่ยนในแบบของคุณ หรือรายการสินค้าที่จัดเรียงตาม softmax

ความแม่นยำสูงสุด k เรียกอีกอย่างว่าความแม่นยำที่ k

คลิกไอคอนเพื่อดูตัวอย่าง

ลองพิจารณาระบบแมชชีนเลิร์นนิงที่ใช้ Softmax เพื่อระบุความน่าจะเป็นของต้นไม้ตามรูปภาพของใบไม้ ตารางต่อไปนี้แสดง รายการเอาต์พุตที่สร้างจากรูปภาพต้นไม้ 5 รูป แต่ละแถวจะมีป้ายกำกับ เป้าหมายและต้นไม้ 5 ต้นที่มีแนวโน้มมากที่สุด เช่น เมื่อป้ายกำกับเป้าหมายคือ เมเปิล โมเดลแมชชีนเลิร์นนิงระบุว่าเอล์มเป็นต้นไม้ที่มีแนวโน้มมากที่สุด โอ๊กเป็นต้นไม้ที่มีแนวโน้มมากที่สุดเป็นอันดับ 2 และอื่นๆ

ป้ายกำกับเป้าหมาย	1	2	3	4	5
เมเปิล	เอล์ม	โอ๊ก	maple	บีช	พอปลาร์
ด็อกวู้ด	โอ๊ก	dogwood	พอปลาร์	Hickory	เมเปิล
โอ๊ก	oak	บาสวูด	ตั๊กแตน	เอลเดอร์	Linden
Linden	เมเปิล	มะละกอ	โอ๊ก	บาสวูด	พอปลาร์
โอ๊ก	ตั๊กแตน	Linden	oak	เมเปิล	มะละกอ

ป้ายกำกับเป้าหมายจะปรากฏในตำแหน่งแรกเพียงครั้งเดียว ดังนั้น ความแม่นยำของ Top-1 คือ

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

ป้ายกำกับเป้าหมายปรากฏในตำแหน่ง 3 อันดับแรก 4 ครั้ง ดังนั้นความแม่นยำของ 3 อันดับแรกจึงเป็นดังนี้

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

หอคอย

องค์ประกอบของโครงข่ายประสาทแบบลึกซึ่งเป็น โครงข่ายประสาทแบบลึกในตัว ในบางกรณี แต่ละทาวเวอร์จะอ่านจากแหล่งข้อมูลอิสระ และทาวเวอร์เหล่านั้นจะยังคงเป็นอิสระจนกว่าจะมีการรวมเอาต์พุตไว้ในเลเยอร์สุดท้าย ในกรณีอื่นๆ (เช่น ในเอนโค้ดเดอร์และดีโค้ดเดอร์ของ Transformer หลายๆ ตัว) ทาวเวอร์จะมีการเชื่อมต่อข้าม ซึ่งกันและกัน

#fundamentals

กระบวนการในการกำหนดพารามิเตอร์ (น้ำหนักและความเอนเอียง) ที่เหมาะสม ซึ่งประกอบกันเป็นโมเดล ในระหว่างการฝึก ระบบจะอ่านตัวอย่างและค่อยๆ ปรับพารามิเตอร์ การฝึกจะใช้ตัวอย่างแต่ละรายการตั้งแต่ไม่กี่ครั้งไปจนถึงหลายพันล้านครั้ง

การสูญเสียการฝึก

#fundamentals

#Metric

เมตริกที่แสดงการสูญเสียของโมเดลระหว่างการฝึก ในรอบการฝึกที่เฉพาะเจาะจง เช่น สมมติว่าฟังก์ชันการสูญเสีย คือความคลาดเคลื่อนกำลังสองเฉลี่ย เช่น การลดลงของการฝึก (ข้อผิดพลาดกำลังสองเฉลี่ย) สำหรับการทำซ้ำครั้งที่ 10 คือ 2.2 และการลดลงของการฝึกสำหรับการทำซ้ำครั้งที่ 100 คือ 1.9

เส้นโค้งการสูญเสียจะพล็อตการสูญเสียการฝึกเทียบกับจำนวน การทำซ้ำ เส้นโค้งการสูญเสียจะให้คำแนะนำต่อไปนี้เกี่ยวกับการฝึก

ความชันลงแสดงว่าโมเดลดีขึ้น
ความชันที่เพิ่มขึ้นหมายความว่าโมเดลแย่ลง
ความชันที่แบนราบแสดงว่าโมเดลถึงการบรรจบกันแล้ว

ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้ซึ่งค่อนข้างสมบูรณ์ แสดงให้เห็นว่า

ความชันที่ลดลงอย่างรวดเร็วในระหว่างการทำซ้ำครั้งแรก ซึ่งหมายถึงการปรับปรุงโมเดลอย่างรวดเร็ว
ความชันที่ค่อยๆ แบนราบ (แต่ยังคงลดลง) จนกระทั่งใกล้สิ้นสุดการฝึก ซึ่งหมายถึงการปรับปรุงโมเดลอย่างต่อเนื่องในอัตราที่ช้าลงเล็กน้อยกว่าในช่วงการทำซ้ำครั้งแรก
ความชันที่ราบเรียบในช่วงท้ายของการฝึก ซึ่งบ่งบอกถึงการบรรจบกัน

พล็อตของการลดลงของการฝึกเทียบกับการทำซ้ำ เส้นโค้งการสูญเสียนี้เริ่มต้น
ด้วยความชันที่ลดลงอย่างรวดเร็ว ความชันจะค่อยๆ แบนราบจนกระทั่ง
ความชันเป็น 0

แม้ว่าการสูญเสียจากการฝึกจะมีความสําคัญ แต่โปรดดูการวางนัยทั่วไปด้วย

ความคลาดเคลื่อนระหว่างการฝึกและการให้บริการ

#fundamentals

ความแตกต่างระหว่างประสิทธิภาพของโมเดลในระหว่างการฝึกกับประสิทธิภาพของโมเดลเดียวกันในระหว่างการแสดงผล

ชุดฝึก

#fundamentals

ชุดย่อยของชุดข้อมูลที่ใช้ฝึกโมเดล

โดยปกติแล้ว ตัวอย่างในชุดข้อมูลจะแบ่งออกเป็นชุดย่อยที่แตกต่างกัน 3 ชุดต่อไปนี้

ชุดฝึก
ชุดข้อมูลสำหรับตรวจสอบความถูกต้อง
ชุดทดสอบ

ในอุดมคติ ตัวอย่างแต่ละรายการในชุดข้อมูลควรอยู่ในชุดย่อยที่กล่าวถึงก่อนหน้าเพียงชุดเดียว เช่น ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดข้อมูลการฝึกและชุดข้อมูลการตรวจสอบ

วิถี

ในการเรียนรู้แบบเสริมกำลัง ลำดับของทูเพิลที่แสดงถึง ลำดับของการเปลี่ยนสถานะของเอเจนต์ โดยแต่ละทูเพิลจะสอดคล้องกับสถานะ การดำเนินการ รางวัล และสถานะถัดไปสำหรับการเปลี่ยนสถานะที่กำหนด

การเรียนรู้แบบโอน

การโอนข้อมูลจากงานแมชชีนเลิร์นนิงหนึ่งไปยังอีกงานหนึ่ง ตัวอย่างเช่น ในการเรียนรู้แบบหลายงาน โมเดลเดียวจะแก้ปัญหาหลายอย่าง เช่น โมเดลแบบลึกที่มีโหนดเอาต์พุตที่แตกต่างกันสำหรับ งานต่างๆ การเรียนรู้แบบถ่ายโอนอาจเกี่ยวข้องกับการถ่ายโอนความรู้ จากโซลูชันของงานที่ง่ายกว่าไปยังงานที่ซับซ้อนกว่า หรือเกี่ยวข้องกับ การถ่ายโอนความรู้จากงานที่มีข้อมูลมากกว่าไปยังงานที่มีข้อมูลน้อยกว่า

ระบบแมชชีนเลิร์นนิงส่วนใหญ่จะแก้ปัญหางานเดียว การเรียนรู้แบบถ่ายโอนเป็นก้าวแรกสู่ปัญญาประดิษฐ์ ซึ่งโปรแกรมเดียวสามารถแก้ปัญหาหลายงานได้

Transformer

สถาปัตยกรรมโครงข่ายประสาทเทียมที่พัฒนาขึ้นที่ Google ซึ่ง อาศัยกลไกการทำความเข้าใจตนเองเพื่อเปลี่ยน ลำดับของเวกเตอร์การฝังอินพุตเป็นลำดับของเวกเตอร์การฝังเอาต์พุต โดยไม่ต้องอาศัยการสังวัตนาการหรือ โครงข่ายประสาทเทียมแบบเกิดซ้ำ Transformer สามารถมองได้ว่าเป็นเลเยอร์การใส่ใจตนเองที่ซ้อนกัน

Transformer อาจมีสิ่งต่อไปนี้

โปรแกรมเปลี่ยนไฟล์
ตัวถอดรหัส
ทั้งตัวเข้ารหัสและตัวถอดรหัส

เอนโคดเดอร์จะแปลงลำดับของการฝังเป็นลำดับใหม่ที่มีความยาวเท่ากัน โดยตัวเข้ารหัสประกอบด้วยเลเยอร์ที่เหมือนกัน N เลเยอร์ ซึ่งแต่ละเลเยอร์มีเลเยอร์ย่อย 2 เลเยอร์ เลเยอร์ย่อยทั้ง 2 นี้จะใช้กับแต่ละตำแหน่งของลำดับการฝังอินพุต เพื่อเปลี่ยนองค์ประกอบแต่ละรายการในลำดับเป็นการฝังใหม่ เลเยอร์ย่อยของตัวเข้ารหัสแรกจะรวบรวมข้อมูลจากทั่วทั้ง ลำดับอินพุต เลเยอร์ย่อยของตัวเข้ารหัสที่ 2 จะแปลงข้อมูลที่รวบรวมแล้ว เป็นเวกเตอร์การฝังเอาต์พุต

ดีโคดเดอร์จะแปลงลำดับของเวกเตอร์การฝังอินพุตเป็นลำดับของเวกเตอร์การฝังเอาต์พุต ซึ่งอาจมีความยาวแตกต่างกัน ดีโคดเดอร์ยังมีเลเยอร์ที่เหมือนกัน 0x0A>N เลเยอร์ที่มี 3 เลเยอร์ย่อย ซึ่ง 2 เลเยอร์ย่อยคล้ายกับเลเยอร์ย่อยของเอนโคดเดอร์ เลเยอร์ย่อยตัวถอดรหัสที่สามจะรับเอาต์พุตของ ตัวเข้ารหัสและใช้กลไกSelf-Attention เพื่อ รวบรวมข้อมูลจากเอาต์พุตดังกล่าว

บล็อกโพสต์ Transformer: สถาปัตยกรรมโครงข่ายระบบประสาทเทียมแบบใหม่สำหรับการทำความเข้าใจภาษา เป็นข้อมูลเบื้องต้นที่ดีเกี่ยวกับ Transformer

ความไม่แปรเปลี่ยนตามการเลื่อน

ในปัญหาการแยกประเภทรูปภาพ ความสามารถของอัลกอริทึมในการแยกประเภทรูปภาพได้สำเร็จ แม้ว่าตำแหน่งของออบเจ็กต์ภายในรูปภาพจะเปลี่ยนไปก็ตาม ตัวอย่างเช่น อัลกอริทึมจะยังคงระบุสุนัขได้ ไม่ว่าจะอยู่ตรงกลางเฟรมหรือที่ขอบซ้ายของเฟรม

ดูความไม่แปรผันของขนาดและ ความไม่แปรผันของการหมุนด้วย

ไตรแกรม

N-gram ที่ N=3

การตอบคำถามแบบทดสอบความรู้

#Metric

ชุดข้อมูลเพื่อประเมินความสามารถของ LLM ในการตอบคำถามเรื่องไม่สำคัญ ชุดข้อมูลแต่ละชุดมีคู่คำถาม-คำตอบที่สร้างขึ้นโดยผู้ที่ชื่นชอบเรื่องน่ารู้ ชุดข้อมูลต่างๆ อิงตามแหล่งที่มาที่แตกต่างกัน ซึ่งรวมถึงแหล่งที่มาต่อไปนี้

การค้นหาเว็บ (TriviaQA)
Wikipedia (TriviaQA_wiki)

ดูข้อมูลเพิ่มเติมได้ที่ TriviaQA: ชุดข้อมูลความท้าทายขนาดใหญ่ที่มีการกำกับดูแลจากระยะไกลสำหรับการอ่านเพื่อความเข้าใจ

ผลลบจริง (TN)

#fundamentals

#Metric

Ultra

#generativeAI

โมเดล Gemini ที่มีพารามิเตอร์มากที่สุด ดูรายละเอียดได้ที่ Gemini Ultra

ดู Pro และ Nano ด้วย

การไม่รับรู้ (ต่อแอตทริบิวต์ที่มีความละเอียดอ่อน)

#responsible

สถานการณ์ที่แอตทริบิวต์ที่มีความละเอียดอ่อนมีอยู่ แต่ไม่ได้รวมอยู่ในข้อมูลการฝึก เนื่องจากแอตทริบิวต์ที่ละเอียดอ่อน มักจะมีความสัมพันธ์กับแอตทริบิวต์อื่นๆ ของข้อมูล โมเดลที่ฝึก โดยไม่ทราบเกี่ยวกับแอตทริบิวต์ที่ละเอียดอ่อนอาจยังคงมีผลกระทบที่ไม่เท่าเทียมกันเกี่ยวกับแอตทริบิวต์นั้น หรือละเมิดข้อจํากัดด้านความเป็นธรรมอื่นๆ

Underfitting

#fundamentals

การสร้างโมเดลที่มีความสามารถในการคาดการณ์ต่ำเนื่องจากโมเดล ไม่ได้รับความซับซ้อนของข้อมูลการฝึกอย่างเต็มที่ ปัญหาหลายอย่าง อาจทำให้เกิดการปรับแบบน้อยเกินไป ได้แก่

การฝึกเกี่ยวกับชุดฟีเจอร์ที่ไม่ถูกต้อง
การฝึกที่Epoch น้อยเกินไปหรือมีอัตราการเรียนรู้ต่ำเกินไป
การฝึกที่มีอัตราการทำให้เป็นปกติสูงเกินไป
การระบุเลเยอร์ที่ซ่อนน้อยเกินไปใน โครงข่ายประสาทเทียมแบบลึก

การสุ่มตัวอย่างน้อยเกินไป

การนำตัวอย่างออกจาก คลาสส่วนใหญ่ใน ชุดข้อมูลที่มีคลาสไม่สมดุลเพื่อ สร้างชุดการฝึกที่สมดุลมากขึ้น

ตัวอย่างเช่น พิจารณาชุดข้อมูลที่อัตราส่วนของคลาสส่วนใหญ่ต่อคลาสส่วนน้อยคือ 20:1 หากต้องการแก้ไขปัญหาความไม่สมดุลของคลาสนี้ คุณสามารถสร้างชุดการฝึกที่มีตัวอย่างคลาสส่วนน้อยทั้งหมด แต่มีตัวอย่างคลาสส่วนใหญ่เพียงหนึ่งในสิบ ซึ่งจะสร้างอัตราส่วนคลาสของชุดการฝึกเป็น 2:1 การสุ่มตัวอย่างแบบไม่เกินจะช่วยให้ชุดการฝึกที่สมดุลมากขึ้นนี้อาจสร้างโมเดลที่ดีขึ้นได้ อีกทางหนึ่ง ชุดการฝึกที่สมดุลมากขึ้นนี้อาจมีตัวอย่างไม่เพียงพอที่จะฝึกโมเดลที่มีประสิทธิภาพ

คอนทราสต์กับการสุ่มตัวอย่างเกิน

แบบทิศทางเดียว

ระบบที่ประเมินเฉพาะข้อความที่อยู่ก่อนข้อความเป้าหมาย ในทางตรงกันข้าม ระบบแบบสองทิศทางจะประเมินทั้งข้อความที่อยู่ก่อนและอยู่หลังส่วนข้อความเป้าหมาย ดูรายละเอียดเพิ่มเติมได้ที่สองทิศทาง

โมเดลภาษาแบบทิศทางเดียว

โมเดลภาษาที่อิงความน่าจะเป็นจากโทเค็นที่ปรากฏก่อนโทเค็นเป้าหมายเท่านั้น ไม่ใช่หลังโทเค็นเป้าหมาย แตกต่างจากโมเดลภาษาแบบสองทิศทาง

ตัวอย่างที่ไม่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์แต่ไม่มีป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่างที่ไม่ได้ติดป้ายกำกับ 3 รายการจากโมเดลการประเมินบ้าน โดยแต่ละรายการมีฟีเจอร์ 3 รายการแต่ไม่มีมูลค่าบ้าน

จำนวนห้องนอน	จำนวนห้องน้ำ	อายุของบ้าน
3	2	15
2	1	72
4	2	34

ในการเรียนรู้แบบกึ่งควบคุมดูแลและ การเรียนรู้ที่ไม่มีการควบคุมดูแล จะมีการใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการฝึก

เปรียบเทียบตัวอย่างที่ไม่มีป้ายกำกับกับตัวอย่างที่มีป้ายกำกับ

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

#clustering

#fundamentals

การฝึกโมเดลเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งโดยปกติจะเป็นชุดข้อมูลที่ไม่มีป้ายกำกับ

การใช้งานแมชชีนเลิร์นนิงแบบไม่มีการกำกับดูแลที่พบบ่อยที่สุดคือการจัดกลุ่มข้อมูล เป็นกลุ่มของตัวอย่างที่คล้ายกัน ตัวอย่างเช่น อัลกอริทึมแมชชีนเลิร์นนิงแบบไม่มีการกำกับดูแล สามารถจัดกลุ่มเพลงตามพร็อพเพอร์ตี้ต่างๆ ของเพลงได้ คลัสเตอร์ที่ได้สามารถกลายเป็นอินพุตสำหรับอัลกอริทึมแมชชีนเลิร์นนิงอื่นๆ (เช่น สำหรับบริการแนะนำเพลง) การจัดกลุ่มช่วยได้ในกรณีที่ป้ายกำกับที่มีประโยชน์หายากหรือไม่มีเลย ตัวอย่างเช่น ในโดเมนต่างๆ เช่น การต่อต้านการละเมิดและการฉ้อโกง คลัสเตอร์จะช่วยให้ มนุษย์เข้าใจข้อมูลได้ดีขึ้น

เปรียบเทียบกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

อีกตัวอย่างหนึ่งของแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลคือการวิเคราะห์องค์ประกอบหลัก (PCA) ตัวอย่างเช่น การใช้ PCA กับชุดข้อมูลที่มีเนื้อหาในรถเข็นช็อปปิ้งนับล้านอาจเผยให้เห็นว่ารถเข็นช็อปปิ้งที่มีมะนาวมักจะมีผลิตภัณฑ์ยาลดกรดด้วย

ดูข้อมูลเพิ่มเติมได้ที่แมชชีนเลิร์นนิงคืออะไร ในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับ ML

การประมาณการเพิ่มขึ้น

เทคนิคการประมาณที่ใช้กันทั่วไปในการตลาด ซึ่งจะประมาณ "ผลเชิงสาเหตุ" (หรือที่เรียกว่า "ผลกระทบที่เพิ่มขึ้น") ของ "การทดสอบ" ที่มีต่อ "บุคคล" ต่อไปนี้เป็นตัวอย่างสองตัวอย่าง:

แพทย์อาจใช้การประมาณการเพิ่มขึ้นเพื่อคาดการณ์การลดลงของอัตราการเสียชีวิต (ผลเชิงสาเหตุ) ของกระบวนการทางการแพทย์ (การรักษา) โดยขึ้นอยู่กับ อายุและประวัติทางการแพทย์ของผู้ป่วย (บุคคล)
นักการตลาดอาจใช้การประมาณการเพิ่มเพื่อคาดการณ์การเพิ่มขึ้นของ ความน่าจะเป็นในการซื้อ (ผลเชิงสาเหตุ) อันเนื่องมาจากโฆษณา (การรักษา) ที่มีต่อบุคคล (แต่ละบุคคล)

การประมาณการเพิ่มขึ้นแตกต่างจากการจัดประเภทหรือ การถดถอยตรงที่ป้ายกำกับบางรายการ (เช่น ป้ายกำกับครึ่งหนึ่ง ในการรักษาแบบไบนารี) จะหายไปเสมอในการประมาณการเพิ่มขึ้น ตัวอย่างเช่น ผู้ป่วยอาจได้รับการรักษาหรือไม่ได้รับการรักษา ดังนั้น เราจึงสังเกตได้ว่าผู้ป่วยจะหายหรือไม่หายในสถานการณ์ใดสถานการณ์หนึ่งเท่านั้น (แต่จะไม่ใช่ทั้ง 2 สถานการณ์) ข้อได้เปรียบหลักของโมเดลการเพิ่มคือสามารถสร้างการคาดการณ์ สำหรับสถานการณ์ที่สังเกตไม่ได้ (สิ่งที่ขัดแย้งกับความจริงที่ตั้งขึ้น) และใช้เพื่อคำนวณ ผลกระทบเชิงสาเหตุ

การเพิ่มน้ำหนัก

การกำหนดน้ำหนักให้กับคลาสที่ดาวน์แซมเปิลเท่ากับ ปัจจัยที่คุณใช้ดาวน์แซมเปิล

เมทริกซ์ผู้ใช้

ชุดย่อยของชุดข้อมูลที่ทำการประเมินเบื้องต้นกับโมเดลที่ฝึกแล้ว โดยปกติแล้ว คุณจะประเมิน โมเดลที่ฝึกแล้วกับชุดข้อมูลการตรวจสอบหลายครั้ง ก่อนที่จะประเมินโมเดลกับชุดข้อมูลทดสอบ

ชุดฝึก
ชุดข้อมูลสำหรับตรวจสอบความถูกต้อง
ชุดทดสอบ

การประมาณค่า

กระบวนการแทนที่ค่าที่ขาดหายไปด้วยค่าทดแทนที่ยอมรับได้ เมื่อไม่มีค่า คุณจะทิ้งตัวอย่างทั้งหมดหรือใช้การประมาณค่าเพื่อกอบกู้ตัวอย่างก็ได้

ตัวอย่างเช่น พิจารณาชุดข้อมูลที่มีฟีเจอร์ temperature ซึ่งควรบันทึกทุกชั่วโมง อย่างไรก็ตาม ค่าอุณหภูมิที่อ่านได้ ไม่พร้อมใช้งานในชั่วโมงหนึ่งๆ ส่วนหนึ่งของชุดข้อมูลมีดังนี้

การประทับเวลา	อุณหภูมิ
1680561000	10
1680564600	12
1680568200	ขาดหายไป
1680571800	20
1680575400	21
1680579000	21

ระบบอาจลบตัวอย่างที่ขาดหายไปหรือใส่ค่าอุณหภูมิที่ขาดหายไปเป็น 12, 16, 18 หรือ 20 ขึ้นอยู่กับอัลกอริทึมการใส่ค่า

ปัญหาการไล่ระดับสีที่หายไป

แนวโน้มที่การไล่ระดับของเลเยอร์ที่ซ่อนอยู่ ในช่วงแรกของโครงข่ายประสาทเทียมแบบลึกบางส่วนจะกลายเป็น แบนราบอย่างน่าประหลาดใจ (ต่ำ) การไล่ระดับที่ต่ำลงเรื่อยๆ จะส่งผลให้เกิดการเปลี่ยนแปลงที่เล็กลงเรื่อยๆ ในน้ำหนักของโหนดในโครงข่ายประสาทแบบลึก ซึ่งจะทำให้เกิดการเรียนรู้น้อยมากหรือไม่มีเลย โมเดลที่ประสบปัญหาการไล่ระดับสีที่หายไป จะฝึกได้ยากหรือฝึกไม่ได้ เซลล์หน่วยความจำระยะสั้นแบบยาวจะช่วยแก้ปัญหานี้

เปรียบเทียบกับปัญหาการไล่ระดับสีที่ขยาย

ความสําคัญของตัวแปร

#df

#Metric

ชุดคะแนนที่บ่งบอกถึงความสำคัญที่สัมพันธ์กันของแต่ละฟีเจอร์ต่อโมเดล

ตัวอย่างเช่น ลองพิจารณาแผนผังการตัดสินใจที่ ประมาณราคาบ้าน สมมติว่าแผนผังการตัดสินใจนี้ใช้ฟีเจอร์ 3 อย่าง ได้แก่ ขนาด อายุ และสไตล์ หากระบบคำนวณชุดความสําคัญของตัวแปร สําหรับฟีเจอร์ทั้ง 3 รายการได้เป็น {size=5.8, age=2.5, style=4.7} แสดงว่าขนาดมีความสําคัญต่อ Decision Tree มากกว่าอายุหรือสไตล์

มีเมตริกความสําคัญของตัวแปรที่แตกต่างกัน ซึ่งจะช่วยให้ผู้เชี่ยวชาญด้าน ML ทราบถึงแง่มุมต่างๆ ของโมเดล

Variational Autoencoder (VAE)

ออโต้เอนโค้ดเดอร์ประเภทหนึ่งที่ใช้ประโยชน์จากความคลาดเคลื่อน ระหว่างอินพุตและเอาต์พุตเพื่อสร้างอินพุตเวอร์ชันที่แก้ไขแล้ว Variational Autoencoder มีประโยชน์สำหรับ Generative AI

VAE อิงตามการอนุมานแบบแปรผัน ซึ่งเป็นเทคนิคในการประมาณ พารามิเตอร์ของโมเดลความน่าจะเป็น

เวกเตอร์

คำที่มีการใช้งานมากเกินไปซึ่งมีความหมายแตกต่างกันในสาขาคณิตศาสตร์ และวิทยาศาสตร์ต่างๆ ในแมชชีนเลิร์นนิง เวกเตอร์มีคุณสมบัติ 2 อย่างดังนี้

ประเภทข้อมูล: เวกเตอร์ในแมชชีนเลิร์นนิงมักจะมีตัวเลขทศนิยม
จำนวนองค์ประกอบ: นี่คือความยาวของเวกเตอร์หรือมิติของเวกเตอร์

เช่น ลองพิจารณาเวกเตอร์ฟีเจอร์ที่มีตัวเลขทศนิยม 8 ตัว เวกเตอร์ฟีเจอร์นี้มีความยาวหรือมิติข้อมูล 8 โปรดทราบว่าเวกเตอร์แมชชีนเลิร์นนิงมักมีมิติข้อมูลจำนวนมาก

คุณสามารถแสดงข้อมูลหลายประเภทเป็นเวกเตอร์ได้ เช่น

ตำแหน่งใดก็ตามบนพื้นผิวโลกสามารถแสดงเป็นเวกเตอร์ 2 มิติ ได้ โดยมิติหนึ่งคือละติจูดและอีกมิติหนึ่งคือลองจิจูด
ราคาปัจจุบันของหุ้นแต่ละตัวจาก 500 หุ้นสามารถแสดงเป็นเวกเตอร์ 500 มิติได้
การกระจายความน่าจะเป็นในจำนวนชั้นเรียนที่จำกัดสามารถแสดงเป็นเวกเตอร์ได้ เช่น ระบบการแยกประเภทแบบหลายคลาสที่ คาดการณ์สีเอาต์พุต 1 ใน 3 สี (แดง เขียว หรือเหลือง) อาจแสดงเวกเตอร์ (0.3, 0.2, 0.5) เพื่อหมายถึง P[red]=0.3, P[green]=0.2, P[yellow]=0.5

เวกเตอร์สามารถต่อกันได้ ดังนั้นสื่อต่างๆ จึงสามารถแสดงเป็นเวกเตอร์เดียวได้ โมเดลบางรุ่นทำงานโดยตรงกับการ ต่อกันของการเข้ารหัสแบบ One-hot หลายรายการ

โปรเซสเซอร์เฉพาะทาง เช่น TPU ได้รับการเพิ่มประสิทธิภาพให้ดำเนินการ ทางคณิตศาสตร์กับเวกเตอร์

เวกเตอร์คือเทนเซอร์ที่มีอันดับ 1

Vertex

#GoogleCloud

#generativeAI

แพลตฟอร์มของ Google Cloud สำหรับ AI และแมชชีนเลิร์นนิง Vertex มีเครื่องมือ และโครงสร้างพื้นฐานสำหรับการสร้าง การติดตั้งใช้งาน และการจัดการแอปพลิเคชัน AI รวมถึงสิทธิ์เข้าถึงโมเดล Gemini

Vibe Coding

#generativeAI

การป้อนพรอมต์ให้โมเดล Generative AI สร้างซอฟต์แวร์ กล่าวคือ พรอมต์ของคุณ จะอธิบายวัตถุประสงค์และฟีเจอร์ของซอฟต์แวร์ ซึ่งโมเดล Generative AI จะแปลเป็นซอร์สโค้ด โค้ดที่สร้างขึ้นอาจไม่ตรงกับ ความตั้งใจของคุณเสมอไป ดังนั้นการเขียนโค้ดแบบไวบ์จึงมักต้องมีการทำซ้ำ

Andrej Karpathy เป็นผู้บัญญัติคำว่า การเขียนโค้ดตามฟีลในโพสต์บน X นี้ ในโพสต์บน X คาร์พาธีอธิบายว่า "การเขียนโค้ดรูปแบบใหม่...ที่คุณปล่อยใจไปกับฟีลลิ่งอย่างเต็มที่..." ดังนั้นเดิมทีคำนี้จึงหมายถึงแนวทางที่ตั้งใจให้มีความยืดหยุ่น ในการสร้างซอฟต์แวร์ ซึ่งคุณอาจไม่ต้องตรวจสอบโค้ดที่สร้างขึ้นด้วยซ้ำ อย่างไรก็ตาม คำนี้ได้พัฒนาอย่างรวดเร็วในหลายวงการจนปัจจุบันหมายถึงการเขียนโค้ดที่ AI สร้างขึ้นทุกรูปแบบ

ดูคำอธิบายการเข้ารหัสฟีเจอร์เพิ่มเติมได้ที่ Vibe Coding คืออะไร

นอกจากนี้ ให้เปรียบเทียบการเข้ารหัสอารมณ์กับสิ่งต่อไปนี้

การเข้ารหัสตามข้อกำหนด
การเขียนโค้ดแบบสนทนา

W

การสูญเสีย Wasserstein

#Metric

ฟังก์ชันการสูญเสียอย่างหนึ่งที่ใช้กันทั่วไปในGenerative Adversarial Network โดยอิงตามระยะทางของ Earth Mover ระหว่าง การกระจายข้อมูลที่สร้างขึ้นและข้อมูลจริง

น้ำหนัก

#fundamentals

ค่าที่โมเดลคูณด้วยค่าอื่น การฝึกคือกระบวนการกำหนดน้ำหนักที่เหมาะสมของโมเดล การอนุมานคือกระบวนการใช้น้ำหนักที่เรียนรู้เหล่านั้นเพื่อ ทำการคาดการณ์

คลิกไอคอนเพื่อดูตัวอย่างน้ำหนักในโมเดลเชิงเส้น

ลองนึกถึงโมเดลเชิงเส้นที่มีฟีเจอร์ 2 รายการ สมมติว่าการฝึกกำหนดน้ำหนัก (และอคติ) ดังนี้

อคติ b มีค่า 2.2
น้ำหนัก w₁ ที่เชื่อมโยงกับฟีเจอร์หนึ่งคือ 1.5
ส่วนน้ำหนัก w₂ ที่เชื่อมโยงกับฟีเจอร์อื่นๆ คือ 0.4

ตอนนี้ลองนึกถึงตัวอย่างที่มีค่าฟีเจอร์ต่อไปนี้

ค่าของฟีเจอร์หนึ่ง x₁ คือ 6
ค่าของฟีเจอร์อีกรายการหนึ่ง x₂ คือ 10

รูปแบบเชิงเส้นนี้ใช้สูตรต่อไปนี้เพื่อสร้างการคาดการณ์ y':

$$y' = b + w_1x_1 + w_2x_2$$

ดังนั้น การคาดการณ์จึงเป็นดังนี้

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

หากน้ำหนักเป็น 0 แสดงว่าฟีเจอร์ที่เกี่ยวข้องจะไม่มีส่วนช่วยในโมเดล เช่น หาก w₁ เป็น 0 ค่าของ x₁ ก็ไม่เกี่ยวข้อง

วิธีกำลังสองน้อยที่สุดแบบสลับถ่วงน้ำหนัก (WALS)

อัลกอริทึมสำหรับการลดฟังก์ชันออบเจ็กทีฟระหว่างการแยกตัวประกอบเมทริกซ์ในระบบการแนะนำ ซึ่งช่วยให้การลดน้ำหนักของตัวอย่างที่ขาดหายไป WALS จะลดข้อผิดพลาดกำลังสองแบบถ่วงน้ำหนักระหว่างเมทริกซ์เดิมกับการสร้างใหม่โดยสลับระหว่างการแก้ไขการแยกตัวประกอบแถวและการแยกตัวประกอบคอลัมน์ การเพิ่มประสิทธิภาพแต่ละอย่างเหล่านี้สามารถแก้ไขได้ด้วยการเพิ่มประสิทธิภาพแบบนูนของกำลังสองที่น้อยที่สุด โปรดดูรายละเอียดที่หลักสูตรระบบการแนะนำ

ผลรวมแบบถ่วงน้ำหนัก

#fundamentals

ผลรวมของค่าอินพุตที่เกี่ยวข้องทั้งหมดคูณด้วย ค่าถ่วงน้ำหนักที่สอดคล้องกัน ตัวอย่างเช่น สมมติว่าอินพุตที่เกี่ยวข้องประกอบด้วยข้อมูลต่อไปนี้

ค่าอินพุต	น้ำหนักอินพุต
2	-1.3
-1	0.6
3	0.4

ดังนั้น ผลรวมแบบถ่วงน้ำหนักจึงเป็นดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

ผลรวมแบบถ่วงน้ำหนักคืออาร์กิวเมนต์อินพุตของฟังก์ชันกระตุ้น

WiC

#Metric

ตัวย่อของคำในบริบท

โมเดลแบบกว้าง

โมเดลเชิงเส้นซึ่งมักจะมีฟีเจอร์อินพุตแบบกระจัดกระจายจำนวนมาก เราเรียกโมเดลนี้ว่า "กว้าง" เนื่องจากโมเดลดังกล่าวเป็นโครงข่ายประสาทเทียมประเภทพิเศษที่มีอินพุตจำนวนมากซึ่งเชื่อมต่อกับโหนดเอาต์พุตโดยตรง โมเดลแบบกว้าง มักจะแก้ไขข้อบกพร่องและตรวจสอบได้ง่ายกว่าโมเดลแบบลึก แม้ว่าโมเดลแบบกว้างจะไม่สามารถแสดงความไม่เชิงเส้นผ่านเลเยอร์ที่ซ่อนอยู่ได้ แต่โมเดลแบบกว้างสามารถใช้การแปลง เช่น การรวมฟีเจอร์และการแบ่งกลุ่มเพื่อสร้างโมเดลความไม่เชิงเส้นในรูปแบบต่างๆ ได้

เปรียบเทียบกับโมเดลเชิงลึก

ความกว้าง

จำนวนนิวรอนในเลเยอร์หนึ่งๆ ของโครงข่ายประสาทเทียม

WikiLingua (wiki_lingua)

#Metric

ชุดข้อมูลสำหรับประเมินความสามารถของ LLM ในการสรุปบทความสั้นๆ WikiHow ซึ่งเป็นสารานุกรมบทความที่อธิบาย วิธีทำงานต่างๆ เป็นแหล่งข้อมูลที่มนุษย์เขียนขึ้นสำหรับทั้งบทความ และข้อมูลสรุป แต่ละรายการในชุดข้อมูลประกอบด้วย

บทความที่สร้างขึ้นโดยการต่อท้ายแต่ละขั้นตอนของเวอร์ชันร้อยแก้ว (ย่อหน้า) ของรายการที่เรียงลำดับเลข โดยไม่รวมประโยคเปิดของแต่ละขั้นตอน
สรุปบทความนั้นซึ่งประกอบด้วยประโยคเปิด ของแต่ละขั้นตอนในรายการที่เรียงลำดับเลข

โปรดดูรายละเอียดที่ WikiLingua: ชุดข้อมูลเปรียบเทียบใหม่สำหรับการสรุปแบบดึงข้อมูลข้ามภาษา

การแข่งขัน Winograd Schema Challenge (WSC)

#Metric

รูปแบบ (หรือชุดข้อมูลที่เป็นไปตามรูปแบบนั้น) สำหรับประเมินความสามารถของ LLM ในการระบุกลุ่มคำนามที่คำสรรพนาม อ้างถึง

แต่ละรายการใน Winograd Schema Challenge ประกอบด้วย

บทอ่านสั้นๆ ที่มีคำสรรพนามเป้าหมาย
คำสรรพนามเป้าหมาย
กลุ่มคำนามที่เป็นตัวเลือก ตามด้วยคำตอบที่ถูกต้อง (บูลีน) หากคำสรรพนามเป้าหมายอ้างอิงถึงผู้สมัครคนนี้ คำตอบจะเป็น "จริง" หากคำสรรพนามเป้าหมายไม่ได้อ้างอิงถึงผู้สมัครคนนี้ คำตอบจะเป็น False

เช่น

ข้อความ: มาร์คโกหกพีทหลายเรื่องเกี่ยวกับตัวเขาเอง ซึ่งพีทได้ใส่ไว้ใน หนังสือของเขา เขาควรจะพูดความจริงมากกว่านี้
คำสรรพนามเป้าหมาย: เขา
กลุ่มคำนามที่แนะนำ
- มาร์ค: จริง เพราะคำสรรพนามเป้าหมายหมายถึงมาร์ค
- พีท: ไม่จริง เพราะคำสรรพนามเป้าหมายไม่ได้อ้างอิงถึงพีท

การแข่งขัน Winograd Schema เป็นส่วนหนึ่งของกลุ่ม SuperGLUE

ภูมิปัญญาของมวลชน

#df

แนวคิดที่ว่าการหาค่าเฉลี่ยของความคิดเห็นหรือการประมาณค่าจากกลุ่มคนจำนวนมาก ("ฝูงชน") มักจะให้ผลลัพธ์ที่ดีอย่างน่าประหลาดใจ ตัวอย่างเช่น ลองพิจารณาเกมที่ผู้คนทายจำนวน เยลลี่บีนที่บรรจุในโหลขนาดใหญ่ แม้ว่าการคาดเดาของแต่ละคนส่วนใหญ่จะไม่ถูกต้อง แต่ค่าเฉลี่ยของการคาดเดาทั้งหมดได้รับการพิสูจน์แล้วว่าใกล้เคียงกับจำนวนจริงของลูกอมในขวดอย่างน่าประหลาดใจ

กลุ่มเป็นซอฟต์แวร์ที่เทียบเท่ากับภูมิปัญญาของมวลชน แม้ว่าโมเดลแต่ละรายการจะคาดการณ์ได้ไม่แม่นยำอย่างมาก แต่การหาค่าเฉลี่ยของการคาดการณ์ของโมเดลจำนวนมากมักจะสร้างการคาดการณ์ที่ดีอย่างน่าประหลาดใจ ตัวอย่างเช่น แม้ว่าแผนผังการตัดสินใจแต่ละรายการอาจให้การคาดการณ์ที่ไม่ดี แต่ป่าการตัดสินใจมักจะให้การคาดการณ์ที่ดีมาก

WMT

แปลกๆ หน่อย แต่ก็เป็นตัวย่อของ Conference on Machine Translation (ตัวย่อคือ WMT เนื่องจากชื่อเดิมคือ Workshop on Machine Translation) การประชุมนี้มุ่งเน้นที่การพัฒนาในระบบการแปลด้วยเครื่อง

Word Embedding

การแสดงคำแต่ละคำในชุดคำภายในเวกเตอร์การฝัง นั่นคือการแสดงคำแต่ละคำเป็นเวกเตอร์ของค่าทศนิยมระหว่าง 0.0 ถึง 1.0 คำที่มีความหมายคล้ายกัน จะมีตัวแทนที่คล้ายกันมากกว่าคำที่มีความหมายต่างกัน ตัวอย่างเช่น แครอท ขึ้นฉ่าย และแตงกวาจะมีลักษณะที่ค่อนข้าง คล้ายกัน ซึ่งจะแตกต่างจากลักษณะของเครื่องบิน แว่นกันแดด และยาสีฟัน

คำในบริบท (WiC)

#Metric

ชุดข้อมูลสำหรับประเมินว่า LLM ใช้บริบทได้ดีเพียงใดในการทำความเข้าใจคำที่มีหลายความหมาย แต่ละรายการในชุดข้อมูลประกอบด้วยข้อมูลต่อไปนี้

2 ประโยคที่มีคำเป้าหมาย
คำเป้าหมาย
คำตอบที่ถูกต้อง (บูลีน) โดยมีรายละเอียดดังนี้
- True หมายความว่าคำเป้าหมายมีความหมายเหมือนกันในทั้ง 2 ประโยค
- False หมายความว่าคำเป้าหมายมีความหมายแตกต่างกันใน 2 ประโยค

เช่น

2 ประโยค:
- มีขยะจำนวนมากที่ก้นแม่น้ำ
- ฉันวางแก้วน้ำไว้ข้างเตียงตอนนอน
คำเป้าหมาย: เตียง
คำตอบที่ถูกต้อง: เท็จ เนื่องจากคำเป้าหมายมีความหมายต่างกันใน ประโยคทั้ง 2 ประโยค

โปรดดูรายละเอียดที่ WiC: ชุดข้อมูลคำในบริบทสำหรับการประเมินการแสดงความหมายที่คำนึงถึงบริบท

Words in Context เป็นองค์ประกอบของกลุ่ม SuperGLUE

WSC

#Metric

ตัวย่อของความท้าทายของสคีมา Winograd

X

XLA (Accelerated Linear Algebra)

คอมไพเลอร์แมชชีนเลิร์นนิงแบบโอเพนซอร์สสำหรับ GPU, CPU และตัวเร่ง ML

คอมไพเลอร์ XLA จะรับโมเดลจากเฟรมเวิร์ก ML ยอดนิยม เช่น PyTorch TensorFlow และ JAX แล้วเพิ่มประสิทธิภาพ เพื่อให้ดำเนินการได้อย่างมีประสิทธิภาพสูงในแพลตฟอร์มฮาร์ดแวร์ต่างๆ ซึ่งรวมถึง GPU, CPU และตัวเร่งความเร็ว ML

XL-Sum (xlsum)

#Metric

ชุดข้อมูลสำหรับประเมินความสามารถของ LLM ในการสรุปข้อความ XL-Sum มีรายการในหลายภาษา แต่ละรายการในชุดข้อมูลประกอบด้วยข้อมูลต่อไปนี้

บทความจาก British Broadcasting Company (BBC)
สรุปบทความที่เขียนโดยผู้เขียนบทความ โปรดทราบว่า สรุปดังกล่าวอาจมีคำหรือวลีที่ไม่มีในบทความ

โปรดดูรายละเอียดที่ XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44 Languages

xsum

ตัวย่อของการสรุปแบบสุดขั้ว

Z

การเรียนรู้แบบศูนย์ช็อต

การฝึกแมชชีนเลิร์นนิงประเภทหนึ่งซึ่งโมเดลจะอนุมานการคาดการณ์สำหรับงานที่ไม่ได้ฝึกมาโดยเฉพาะ กล่าวคือ โมเดล ไม่ได้รับตัวอย่างการฝึกเฉพาะงานเลย แต่ได้รับคำสั่ง ให้ทำการอนุมานสำหรับงานนั้น

การเขียนพรอมต์แบบ Zero-Shot Prompting

#generativeAI

พรอมต์ที่ไม่ได้ระบุตัวอย่างวิธีที่คุณต้องการให้โมเดลภาษาขนาดใหญ่ตอบ เช่น

ส่วนต่างๆ ของพรอมต์	หมายเหตุ
`สกุลเงินทางการของประเทศที่ระบุคืออะไร`	คำถามที่คุณต้องการให้ LLM ตอบ
`อินเดีย:`	คำค้นหาจริง

โมเดลภาษาขนาดใหญ่อาจตอบกลับด้วยข้อความต่อไปนี้

รูปี
INR
₹
รูปีอินเดีย
รูปี
รูปีอินเดีย

คำตอบทั้งหมดถูกต้อง แต่คุณอาจชอบรูปแบบใดรูปแบบหนึ่งมากกว่า

เปรียบเทียบการแจ้งแบบศูนย์ช็อตกับคำศัพท์ต่อไปนี้

การเขียนพรอมต์แบบ One-Shot Prompting
Few-Shot Prompting

การแปลงข้อมูลเป็นรูปแบบมาตรฐาน Z-Score

#fundamentals

เทคนิคการปรับขนาดที่แทนที่ค่าฟีเจอร์ดิบด้วยค่าทศนิยมที่แสดงถึงจำนวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของฟีเจอร์นั้น ตัวอย่างเช่น ลองพิจารณาฟีเจอร์ที่มีค่าเฉลี่ย 800 และค่าเบี่ยงเบนมาตรฐาน 100 ตารางต่อไปนี้แสดงวิธีที่การทําให้เป็นปกติของคะแนนมาตรฐาน จะแมปค่าดิบกับคะแนนมาตรฐาน

ค่าดิบ	คะแนนมาตรฐาน (Z-Score)
800	0
950	+1.5
575	-2.25

จากนั้นโมเดลแมชชีนเลิร์นนิงจะฝึกกับคะแนน Z สําหรับฟีเจอร์นั้นแทนที่จะเป็นค่าดิบ