อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง

อภิธานศัพท์นี้อธิบายคําศัพท์เกี่ยวกับแมชชีนเลิร์นนิง

A

การผ่าตัด

เทคนิคในการประเมินความสำคัญของฟีเจอร์หรือคอมโพเนนต์โดยนำออกจากโมเดลชั่วคราว จากนั้นคุณก็ฝึกโมเดลใหม่โดยไม่มีฟีเจอร์หรือคอมโพเนนต์นั้น และหากโมเดลที่ฝึกใหม่มีประสิทธิภาพแย่ลงอย่างมาก แสดงว่าฟีเจอร์หรือคอมโพเนนต์ที่นําออกนั้นมีความสําคัญ

ตัวอย่างเช่น สมมติว่าคุณฝึกโมเดลการจัดประเภทด้วยฟีเจอร์ 10 รายการและได้ความแม่นยำ 88% ในชุดทดสอบ หากต้องการตรวจสอบความสำคัญของฟีเจอร์แรก คุณสามารถฝึกโมเดลใหม่โดยใช้เพียงฟีเจอร์อื่นๆ อีก 9 รายการ หากโมเดลที่ผ่านการฝึกใหม่มีประสิทธิภาพแย่ลงอย่างมาก (เช่น ความแม่นยำ 55%) แสดงว่าฟีเจอร์ที่นําออกอาจมีความสำคัญ ในทางกลับกัน หากรูปแบบที่ฝึกใหม่มีประสิทธิภาพดีเท่าเดิม แสดงว่าฟีเจอร์นั้นอาจไม่สำคัญมากนัก

การลบออกยังช่วยระบุความสำคัญของสิ่งต่อไปนี้ได้ด้วย

  • คอมโพเนนต์ขนาดใหญ่ เช่น ระบบย่อยทั้งหมดของระบบ ML ขนาดใหญ่
  • กระบวนการหรือเทคนิค เช่น ขั้นตอนเตรียมข้อมูลล่วงหน้า

ไม่ว่าจะในกรณีใด คุณจะต้องสังเกตการเปลี่ยนแปลง (หรือไม่เปลี่ยนแปลง) ของประสิทธิภาพของระบบหลังจากที่นำคอมโพเนนต์ออก

การทดสอบ A/B

วิธีทางสถิติในการเปรียบเทียบเทคนิค 2 (หรือมากกว่า) อย่าง ได้แก่ A และ B โดยปกติแล้ว A คือเทคนิคที่มีอยู่ และ B คือเทคนิคใหม่ การทดสอบ A/B ไม่เพียงแต่จะระบุว่าเทคนิคใดมีประสิทธิภาพดีกว่า แต่ยังระบุว่าความแตกต่างนั้นสำคัญทางสถิติหรือไม่

การทดสอบ A/B มักจะเปรียบเทียบเมตริกเดียวใน 2 เทคนิค เช่น ความแม่นยำของโมเดลเป็นอย่างไรเมื่อเปรียบเทียบ 2 เทคนิค อย่างไรก็ตาม การทดสอบ A/B ยังเปรียบเทียบเมตริกจํานวนจำกัดได้ด้วย

ชิปตัวเร่ง

#GoogleCloud

หมวดหมู่ของคอมโพเนนต์ฮาร์ดแวร์เฉพาะที่ออกแบบมาเพื่อดำเนินการประมวลผลที่สําคัญซึ่งจําเป็นสําหรับอัลกอริทึมการเรียนรู้เชิงลึก

ชิปเร่งความเร็ว (หรือเรียกสั้นๆ ว่าตัวเร่งความเร็ว) สามารถเพิ่มความเร็วและประสิทธิภาพของงานการฝึกและการทำนายได้อย่างมากเมื่อเทียบกับ CPU ทั่วไป ซึ่งเหมาะอย่างยิ่งสำหรับการฝึกอบรมเครือข่ายประสาทเทียมและงานที่มีการคำนวณอย่างหนักเช่นเดียวกัน

ตัวอย่างชิปเร่ง ได้แก่

  • Tensor Processing Unit (TPU) ของ Google ที่มีฮาร์ดแวร์เฉพาะสําหรับการเรียนรู้เชิงลึก
  • GPU ของ NVIDIA แม้ว่าจะออกแบบมาเพื่อประมวลผลกราฟิกในตอนแรก แต่ก็ออกแบบมาให้ประมวลผลแบบขนานได้ ซึ่งจะเพิ่มความเร็วในการประมวลผลได้อย่างมาก

ความแม่นยำ

#fundamentals
#Metric

จํานวนการคาดการณ์การจัดประเภทที่ถูกต้องหารด้วยจํานวนการคาดการณ์ทั้งหมด โดยการ

Accuracy=correct predictionscorrect predictions + incorrect predictions 

ตัวอย่างเช่น โมเดลที่ทําการคาดการณ์ที่ถูกต้อง 40 ครั้งและการคาดการณ์ที่ไม่ถูกต้อง 10 ครั้งจะมีความแม่นยําเท่ากับ

Accuracy=4040 + 10=80%

การจัดประเภทแบบไบนารีจะตั้งชื่อเฉพาะสำหรับการคาดการณ์ที่ถูกต้องและการคาดการณ์ที่ไม่ถูกต้องในหมวดหมู่ต่างๆ ดังนั้น สูตรความแม่นยำสำหรับการจัดประเภทแบบไบนารีจึงมีดังนี้

Accuracy=TP+TNTP+TN+FP+FN

where:

  • TP คือจํานวนผลบวกจริง (การคาดการณ์ที่ถูกต้อง)
  • TN คือจํานวนผลลบจริง (การคาดการณ์ที่ถูกต้อง)
  • FP คือจํานวนผลบวกลวง (การคาดการณ์ที่ไม่ถูกต้อง)
  • FN คือจํานวนผลลบเท็จ (การคาดการณ์ที่ไม่ถูกต้อง)

เปรียบเทียบความถูกต้องกับความแม่นยำและความแม่นยำในการจดจำ

แม้ว่าความถูกต้องจะเป็นเมตริกที่มีคุณค่าในบางสถานการณ์ แต่อาจทําให้เข้าใจผิดอย่างมากในบางสถานการณ์ โปรดทราบว่าความแม่นยำมักเป็นเมตริกที่ไม่เหมาะสมสําหรับการประเมินโมเดลการจัดประเภทที่ประมวลผลชุดข้อมูลที่คลาสไม่สมดุล

ตัวอย่างเช่น สมมติว่าหิมะตกเพียง 25 วันต่อศตวรรษในเมืองเขตร้อนชื้นแห่งหนึ่ง เนื่องจากวันที่ไม่มีหิมะ (คลาสเชิงลบ) มีอยู่เป็นจำนวนมากกว่าวันที่มีหิมะ (คลาสเชิงบวก) ชุดข้อมูลหิมะของเมืองนี้จึงมีความไม่สมดุลของคลาส ลองจินตนาการถึงโมเดลการจัดประเภทแบบไบนารีที่ควรจะคาดการณ์ว่าจะมีหิมะหรือไม่มีหิมะในแต่ละวัน แต่กลับคาดการณ์ว่า "ไม่มีหิมะ" ทุกวัน โมเดลนี้มีความแม่นยำสูง แต่ไม่มีความสามารถในการคาดการณ์ ตารางต่อไปนี้สรุปผลลัพธ์ของการคาดการณ์ตลอด 1 ศตวรรษ

หมวดหมู่ ตัวเลข
TP 0
TN 36499
FP 0
FN 25

ดังนั้นความแม่นยำของโมเดลนี้คือ

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

แม้ว่าความแม่นยำ 99.93% จะดูเหมือนเป็นเปอร์เซ็นต์ที่น่าประทับใจมาก แต่โมเดลนี้ไม่มีความสามารถในการคาดการณ์

ความแม่นยำและความไวมักเป็นเมตริกที่มีประโยชน์มากกว่าความถูกต้องในการประเมินโมเดลที่ฝึกในชุดข้อมูลที่มีคลาสไม่สมดุล


ดูข้อมูลเพิ่มเติมได้ในการจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้องในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การดำเนินการ

#rl

ในการเรียนรู้ด้วยการทำซ้ำ กลไกที่เอเจนต์เปลี่ยนระหว่างสถานะของสภาพแวดล้อม โดยตัวแทนจะเลือกการดำเนินการโดยใช้นโยบาย

ฟังก์ชันการเปิดใช้งาน

#fundamentals

ฟังก์ชันที่ช่วยให้เครือข่ายประสาทเทียมเรียนรู้ความสัมพันธ์ที่ไม่ใช่เชิงเส้น (ซับซ้อน) ระหว่างฟีเจอร์กับป้ายกำกับ

ฟังก์ชันการเปิดใช้งานยอดนิยมมีดังนี้

ผังฟังก์ชันการเปิดใช้งานจะไม่ได้เป็นเส้นตรงเส้นเดียว เช่น ผังฟังก์ชันการเปิดใช้งาน ReLU ประกอบด้วยเส้นตรง 2 เส้น ดังนี้

ผังพิกัดคาร์ทีเซียนของเส้น 2 เส้น บรรทัดแรกมีค่า y คงที่ที่ 0 ซึ่งวิ่งไปตามแกน x จาก -infinity,0 ถึง 0,-0
          บรรทัดที่สองเริ่มต้นที่ 0,0 เส้นนี้มีความชัน +1 ดังนั้นจึงวิ่งจาก 0,0 ถึง +infinity,+infinity

ผังฟังก์ชันการเปิดใช้งาน Sigmoid มีลักษณะดังนี้

ผังโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมนจาก -infinity ถึง +positive ส่วนค่า y ครอบคลุมช่วงเกือบ 0 ถึงเกือบ 1 เมื่อ x เป็น 0, y เป็น 0.5 ความชันของเส้นโค้งเป็นค่าบวกเสมอ โดยมีค่าสูงสุดที่ 0,0.5 และค่อยๆ ลดลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ในเครือข่ายประสาท ฟังก์ชันการเปิดใช้งานจะจัดการผลรวมถ่วงน้ำหนักของอินพุตทั้งหมดไปยังเซลล์ประสาท ในการคำนวณผลรวมถ่วงน้ำหนัก นิวรอนจะบวกผลคูณของค่าที่เกี่ยวข้องและน้ำหนัก ตัวอย่างเช่น สมมติว่าอินพุตที่เกี่ยวข้องของเซลล์ประสาทประกอบด้วยข้อมูลต่อไปนี้

ค่าอินพุต น้ำหนักอินพุต
2 -1.3
-1 0.6
3 0.4
ดังนั้นผลรวมถ่วงน้ำหนักจึงเท่ากับ
weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0
สมมติว่านักออกแบบของเครือข่ายประสาทนี้เลือกฟังก์ชัน sigmoid เป็นฟังก์ชันการเปิดใช้งาน ในกรณีนี้ เซลล์ประสาทจะคํานวณ Sigmoid ของ -2.0 ซึ่งเท่ากับประมาณ 0.12 ดังนั้น นิวรอนจะส่ง 0.12 (แทนที่จะเป็น -2.0) ไปยังเลเยอร์ถัดไปในเครือข่ายประสาท รูปภาพต่อไปนี้แสดงส่วนที่เกี่ยวข้องของกระบวนการ

เลเยอร์อินพุตที่มี 3 ฟีเจอร์ซึ่งส่งค่าฟีเจอร์ 3 ค่าและน้ำหนัก 3 รายการไปยังเซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่ เลเยอร์ที่ซ่อนจะคํานวณค่าดิบ (-2.0) แล้วส่งค่าดิบไปยังฟังก์ชันการเปิดใช้งาน ฟังก์ชันการเปิดใช้งานจะคํานวณ Sigmoid ของค่าดิบ และส่งผลลัพธ์ (0.12) ไปยังเลเยอร์ถัดไปของเครือข่ายประสาท


ดูข้อมูลเพิ่มเติมได้ที่เครือข่ายประสาท: ฟังก์ชันการเปิดใช้งานในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเรียนรู้แบบลงมือปฏิบัติ

แนวทางการฝึกที่อัลกอริทึมเลือกข้อมูลบางส่วนที่เรียนรู้ การเรียนรู้แบบมีส่วนร่วมจะมีประโยชน์อย่างยิ่งเมื่อตัวอย่างที่มีป้ายกำกับมีไม่มากหรือหาได้ยาก อัลกอริทึมการเรียนรู้แบบมีส่วนร่วมจะเลือกหาตัวอย่างที่หลากหลายตามที่ต้องการเพื่อการเรียนรู้ แทนที่จะค้นหาตัวอย่างที่ติดป้ายกำกับอย่างไร้จุดหมาย

AdaGrad

อัลกอริทึมการลดเชิงลาดขั้นสูงที่ปรับขนาดเชิงลาดของพารามิเตอร์แต่ละรายการใหม่ ซึ่งช่วยให้พารามิเตอร์แต่ละรายการมีอัตราการเรียนรู้อิสระ ดูคำอธิบายแบบเต็มได้ที่หัวข้อวิธีการ Subgradient แบบปรับได้สำหรับการเรียนรู้ออนไลน์และการเพิ่มประสิทธิภาพแบบสุ่ม

ตัวแทน

#rl

ในการเรียนรู้เพื่อเสริมแรง บุคคลที่ใช้นโยบายเพื่อเพิ่มผลตอบแทนที่คาดหวังสูงสุดจากการเปลี่ยนระหว่างสถานะของสภาพแวดล้อม

โดยทั่วไปแล้ว ตัวแทนคือซอฟต์แวร์ที่วางแผนและดําเนินการชุดหนึ่งๆ เพื่อบรรลุเป้าหมายอย่างอิสระ โดยสามารถปรับตัวตามการเปลี่ยนแปลงในสภาพแวดล้อม ตัวอย่างเช่น ตัวแทนที่อิงตาม LLM อาจใช้ LLM เพื่อสร้างแผน แทนที่จะใช้นโยบายการเรียนรู้ด้วยการทำซ้ำ

การแบ่งกลุ่มแบบรวมกลุ่ม

#clustering

ดูการจัดกลุ่มตามลําดับชั้น

การตรวจจับความผิดปกติ

กระบวนการระบุค่าผิดปกติ ตัวอย่างเช่น หากค่าเฉลี่ยของฟีเจอร์หนึ่งๆ คือ 100 ส่วนเบี่ยงเบนมาตรฐานคือ 10 การตรวจหาความผิดปกติควรแจ้งว่าค่า 200 เป็นค่าที่น่าสงสัย

AR

คำย่อของ Augmented Reality

พื้นที่ใต้กราฟ PR

#Metric

ดูAUC ของ PR (พื้นที่ใต้กราฟ PR)

พื้นที่ใต้เส้นโค้ง ROC

#Metric

ดู AUC (พื้นที่ใต้กราฟ ROC)

ปัญญาประดิษฐ์ทั่วไป

กลไกที่ไม่ใช่มนุษย์ซึ่งแสดงให้เห็นถึงหลากหลายวิธีแก้ปัญหา ความคิดสร้างสรรค์ และความสามารถในการปรับตัว เช่น โปรแกรมที่แสดงให้เห็นถึงปัญญาประดิษฐ์ทั่วไปสามารถแปลข้อความ แต่งซิมโฟนี และเล่นเกมที่ยังไม่มีคนคิดค้นได้

ปัญญาประดิษฐ์ (AI)

#fundamentals

โปรแกรมหรือโมเดลที่ไม่ใช่มนุษย์ซึ่งสามารถแก้ปัญหาที่ซับซ้อน ตัวอย่างเช่น โปรแกรมหรือโมเดลที่แปลข้อความ หรือโปรแกรมหรือโมเดลที่ระบุโรคจากภาพรังสีวิทยา ต่างก็แสดงถึงปัญญาประดิษฐ์

แมชชีนเลิร์นนิงเป็นสาขาย่อยของปัญญาประดิษฐ์ (AI) อย่างไรก็ตาม ในช่วงไม่กี่ปีที่ผ่านมา องค์กรบางแห่งเริ่มใช้คำว่าปัญญาประดิษฐ์และแมชชีนเลิร์นนิงแทนกันได้

โปรดทราบ

#language

กลไกที่ใช้ในเครือข่ายประสาทเทียมซึ่งระบุความสำคัญของคําหนึ่งๆ หรือส่วนหนึ่งของคํา การใส่ใจจะบีบอัดปริมาณข้อมูลที่จำเป็นต่อโมเดลในการคาดคะเนโทเค็น/คำถัดไป กลไกการให้ความสำคัญทั่วไปอาจประกอบด้วยผลรวมถ่วงน้ำหนักของชุดอินพุต โดยที่น้ำหนักของอินพุตแต่ละรายการจะคํานวณโดยส่วนอื่นของเครือข่ายประสาท

โปรดดูการใส่ใจตนเองและการใส่ใจตนเองแบบหลายส่วน ซึ่งเป็นองค์ประกอบพื้นฐานของ Transformer

ดูข้อมูลเพิ่มเติมเกี่ยวกับการให้ความสนใจตนเองได้ที่หัวข้อ LLM: โมเดลภาษาขนาดใหญ่คืออะไรในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

แอตทริบิวต์

#fairness

คำพ้องความหมายของ feature

ในแง่ความยุติธรรมของแมชชีนเลิร์นนิง แอตทริบิวต์มักหมายถึงลักษณะที่เกี่ยวข้องกับบุคคล

การสุ่มตัวอย่างแอตทริบิวต์

#df

กลยุทธ์สำหรับการฝึกป่าการตัดสินใจ ซึ่งต้นไม้การตัดสินใจแต่ละต้นจะพิจารณาเฉพาะชุดย่อยแบบสุ่มของฟีเจอร์ที่เป็นไปได้เมื่อเรียนรู้เงื่อนไข โดยทั่วไป ระบบจะสุ่มตัวอย่างชุดย่อยของฟีเจอร์ที่แตกต่างกันสําหรับแต่ละโหนด ในทางตรงกันข้าม เมื่อฝึกต้นไม้การตัดสินใจโดยไม่มีการสุ่มตัวอย่างแอตทริบิวต์ ระบบจะพิจารณาฟีเจอร์ที่เป็นไปได้ทั้งหมดสำหรับแต่ละโหนด

AUC (พื้นที่ใต้เส้นโค้ง ROC)

#fundamentals
#Metric

ตัวเลขระหว่าง 0.0 ถึง 1.0 ที่แสดงถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ ยิ่ง AUC ใกล้เคียงกับ 1.0 มากเท่าใด ความสามารถในการแยกคลาสออกจากกันของโมเดลก็จะยิ่งดีขึ้นเท่านั้น

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโมเดลการจัดประเภทที่แยกคลาสเชิงบวก (รูปไข่สีเขียว) ออกจากคลาสเชิงลบ (สี่เหลี่ยมผืนผ้าสีม่วง) อย่างสมบูรณ์ โมเดลที่สมบูรณ์แบบเกินจริงนี้มีค่า AUC เท่ากับ 1.0

เส้นจำนวนที่มีตัวอย่างบวก 8 รายการด้านหนึ่ง และตัวอย่างลบ 9 รายการอีกด้านหนึ่ง

ในทางกลับกัน ภาพต่อไปนี้แสดงผลลัพธ์ของโมเดลการจัดประเภทที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มีค่า AUC เท่ากับ 0.5

เส้นจำนวนที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลําดับของตัวอย่างคือ บวก ลบ บวก ลบ บวก ลบ บวก ลบ บวก ลบ

ใช่ โมเดลก่อนหน้ามี AUC เท่ากับ 0.5 ไม่ใช่ 0.0

โมเดลส่วนใหญ่อยู่ตรงกลางระหว่าง 2 รูปแบบข้างต้น ตัวอย่างเช่น โมเดลต่อไปนี้แยกรายการเชิงบวกออกจากรายการเชิงลบได้ในระดับหนึ่ง จึงมี AUC อยู่ระหว่าง 0.5 ถึง 1.0

เส้นจำนวนที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลําดับของตัวอย่างคือ เชิงลบ เชิงลบ เชิงลบ เชิงลบ เชิงบวก เชิงลบ เชิงบวก เชิงบวก เชิงลบ เชิงบวก เชิงบวก เชิงบวก

AUC จะไม่สนใจค่าที่คุณตั้งไว้สําหรับเกณฑ์การจัดประเภท แต่ AUC จะพิจารณาเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมดแทน

AUC แสดงถึงพื้นที่ใต้กราฟ ROC ตัวอย่างเช่น กราฟ ROC ของโมเดลที่แยกผลบวกออกจากผลลบได้อย่างสมบูรณ์จะมีลักษณะดังนี้

ผังพิกัดคาร์ทีเซียน โดยแกน X คืออัตราผลบวกลวง และแกน Y คืออัตราผลบวกจริง กราฟเริ่มต้นที่ 0,0 และขึ้นตรงๆ ไปที่ 0,1 จากนั้นไปทางขวาตรงๆ จนจบที่ 1,1

AUC คือพื้นที่ของบริเวณสีเทาในภาพประกอบก่อนหน้า ในกรณีพิเศษนี้ พื้นที่คือความยาวของบริเวณสีเทา (1.0) คูณด้วยความกว้างของบริเวณสีเทา (1.0) ดังนั้นผลคูณของ 1.0 และ 1.0 จะให้ AUC เท่ากับ 1.0 ซึ่งเป็นคะแนน AUC สูงสุดที่เป็นไปได้

ในทางกลับกัน เส้นโค้ง ROC ของโมเดลการจัดประเภทที่แยกคลาสไม่ได้เลยจะเป็นดังนี้ พื้นที่ของบริเวณสีเทานี้คือ 0.5

ผังพิกัดคาร์ทีเซียน โดยแกน X คืออัตราผลบวกลวง และแกน Y คืออัตราผลบวกจริง กราฟเริ่มต้นที่ 0,0 และลากไปทางทแยงมุมถึง 1,1

กราฟ ROC ทั่วไปจะมีลักษณะดังต่อไปนี้

ผังพิกัดคาร์ทีเซียน โดยแกน X คืออัตราผลบวกลวง และแกน Y คืออัตราผลบวกจริง กราฟเริ่มต้นที่ 0,0 และโค้งไปทาง 1,0

การคํานวณพื้นที่ใต้เส้นโค้งนี้ด้วยตนเองเป็นเรื่องที่ยุ่งยาก โปรแกรมจึงมักคํานวณค่า AUC ส่วนใหญ่


AUC คือความน่าจะเป็นที่โมเดลการจัดประเภทจะมีความมั่นใจมากกว่าตัวอย่างเชิงบวกที่เลือกแบบสุ่มว่าเป็นเชิงบวกจริงมากกว่าตัวอย่างเชิงลบที่เลือกแบบสุ่มว่าเป็นเชิงบวก


ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Augmented Reality

#image

เทคโนโลยีที่วางซ้อนภาพที่สร้างโดยคอมพิวเตอร์บนมุมมองของผู้ใช้เกี่ยวกับโลกแห่งความเป็นจริง จึงให้มุมมองแบบผสม

ตัวเข้ารหัสอัตโนมัติ

#language
#image

ระบบที่เรียนรู้วิธีดึงข้อมูลที่สำคัญที่สุดจากอินพุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นชุดค่าผสมของโปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัส โปรแกรมเข้ารหัสอัตโนมัติใช้กระบวนการ 2 ขั้นตอนต่อไปนี้

  1. ตัวเข้ารหัสจะแมปอินพุตเป็นรูปแบบ (โดยปกติ) ที่มีการสูญเสียและมิติข้อมูลต่ำลง (สื่อกลาง)
  2. ตัวถอดรหัสจะสร้างอินพุตต้นฉบับเวอร์ชันที่สูญเสียคุณภาพโดยการแมปรูปแบบมิติข้อมูลต่ำกับรูปแบบอินพุตมิติข้อมูลสูงเดิม

ระบบจะฝึก Autoencoder ตั้งแต่ต้นจนจบโดยให้ตัวถอดรหัสพยายามสร้างอินพุตเดิมขึ้นมาใหม่จากรูปแบบกลางของตัวเข้ารหัสให้ใกล้เคียงกับต้นฉบับมากที่สุด เนื่องจากรูปแบบกลางมีขนาดเล็กกว่า (มิติข้อมูลต่ำกว่า) รูปแบบเดิม ระบบจึงบังคับให้ตัวเข้ารหัสอัตโนมัติต้องเรียนรู้ว่าข้อมูลใดในอินพุตมีความสําคัญ และเอาต์พุตจะไม่เหมือนกับอินพุตอย่างสมบูรณ์

เช่น

  • หากข้อมูลอินพุตเป็นกราฟิก สำเนาที่ไม่ใช่สำเนาที่ตรงกันทั้งหมดจะคล้ายกับกราฟิกต้นฉบับ แต่มีการแก้ไขเล็กน้อย อาจเป็นเพราะสำเนาที่ไม่ใช่สำเนาที่ตรงกันทั้งหมดได้นำสัญญาณรบกวนออกจากกราฟิกต้นฉบับหรือเติมพิกเซลที่ขาดหายไป
  • หากข้อมูลอินพุตเป็นข้อความ ตัวเข้ารหัสอัตโนมัติจะสร้างข้อความใหม่ที่เลียนแบบ (แต่ไม่เหมือนกับ) ข้อความต้นฉบับ

ดูข้อมูลเพิ่มเติมได้ที่ตัวแปร Autoencoder

การประเมินอัตโนมัติ

#language
#generativeAI

ใช้ซอฟต์แวร์เพื่อตัดสินคุณภาพของเอาต์พุตของโมเดล

เมื่อเอาต์พุตของโมเดลค่อนข้างตรงไปตรงมา สคริปต์หรือโปรแกรมจะเปรียบเทียบเอาต์พุตของโมเดลกับคำตอบที่ถูกต้องได้ บางครั้งเราเรียกการประเมินอัตโนมัติประเภทนี้ว่าการประเมินแบบเป็นโปรแกรม เมตริก เช่น ROUGE หรือBLEU มักมีประโยชน์สําหรับการประเมินแบบเป็นโปรแกรม

เมื่อเอาต์พุตของโมเดลมีความซับซ้อนหรือมีคำตอบที่ถูกต้องเพียงคำตอบเดียว บางครั้งโปรแกรม ML แยกต่างหากที่เรียกว่าโปรแกรมประเมินอัตโนมัติจะดำเนินการประเมินโดยอัตโนมัติ

ตรงข้ามกับการประเมินโดยเจ้าหน้าที่

อคติการทำงานอัตโนมัติ

#fairness

เมื่อผู้ตัดสินใจที่เป็นมนุษย์ให้ความสำคัญกับคําแนะนําที่ได้จากระบบการตัดสินอัตโนมัติมากกว่าข้อมูลที่ได้จากระบบที่ไม่ใช้การทำงานอัตโนมัติ แม้ว่าระบบการตัดสินอัตโนมัติจะทําผิดพลาดก็ตาม

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

AutoML

กระบวนการอัตโนมัติในการสร้างโมเดลแมชชีนเลิร์นนิง AutoML สามารถทํางานต่างๆ โดยอัตโนมัติ เช่น

AutoML มีประโยชน์สําหรับนักวิทยาศาสตร์ข้อมูลเนื่องจากช่วยประหยัดเวลาและความพยายามในการพัฒนาไปป์ไลน์แมชชีนเลิร์นนิงและปรับปรุงความแม่นยําในการคาดการณ์ นอกจากนี้ เครื่องมือนี้ยังเป็นประโยชน์ต่อผู้ที่ไม่ใช่ผู้เชี่ยวชาญด้วย เนื่องจากช่วยให้งานแมชชีนเลิร์นนิงที่ซับซ้อนเข้าถึงได้ง่ายขึ้น

ดูข้อมูลเพิ่มเติมได้ที่แมชชีนเลิร์นนิงอัตโนมัติ (AutoML) ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การประเมินโดยโปรแกรมอัตโนมัติ

#language
#generativeAI
กลไกแบบผสมผสานสำหรับตัดสินคุณภาพของเอาต์พุตจากโมเดลGenerative AI ซึ่งรวมการประเมินโดยเจ้าหน้าที่เข้ากับการประเมินอัตโนมัติ โปรแกรมให้คะแนนอัตโนมัติคือโมเดล ML ที่ฝึกด้วยข้อมูลที่สร้างขึ้นจากการประเมินโดยมนุษย์ ในทางทฤษฎีแล้ว โปรแกรมประเมินอัตโนมัติจะเรียนรู้ที่จะเลียนแบบผู้ประเมินที่เป็นมนุษย์

เครื่องมือประเมินอัตโนมัติที่สร้างไว้ล่วงหน้ามีให้ใช้งาน แต่เครื่องมือประเมินอัตโนมัติที่ดีที่สุดคือเครื่องมือที่ปรับแต่งมาเพื่องานที่คุณประเมินโดยเฉพาะ

โมเดลอนุกรมเวลาแบบเลื่อนไปข้างหน้าอัตโนมัติ

#language
#image
#generativeAI

โมเดลที่อนุมานการคาดการณ์ตามการคาดการณ์ก่อนหน้าของตนเอง ตัวอย่างเช่น โมเดลภาษาแบบย้อนกลับอัตโนมัติจะคาดการณ์โทเค็นถัดไปโดยอิงตามโทเค็นที่คาดการณ์ไว้ก่อนหน้านี้ โมเดลภาษาขนาดใหญ่ทั้งหมดที่อิงตาม Transformer จะเป็นแบบย้อนกลับอัตโนมัติ

ในทางตรงกันข้าม โมเดลรูปภาพที่อิงตาม GAN มักจะไม่แสดงการถดถอยอัตโนมัติเนื่องจากสร้างรูปภาพในขั้นตอนเดียวแบบเดินหน้าและไม่ทําซ้ำในขั้นตอนต่างๆ อย่างไรก็ตาม โมเดลการสร้างรูปภาพบางรุ่นเป็นแบบถดถอยอัตโนมัติเนื่องจากสร้างรูปภาพเป็นขั้นตอน

การสลายพลังงาน

Loss Function ซึ่งใช้ร่วมกับ Loss Function หลักของโครงข่ายประสาทเทียม ที่ช่วยเร่งการฝึกในช่วงเริ่มต้นซ้ำๆ เมื่อมีการเริ่มต้นน้ำหนักแบบสุ่ม

ฟังก์ชันการสูญเสียเสริมจะส่งอนุพันธ์ที่มีประสิทธิภาพไปยังเลเยอร์ก่อนหน้า วิธีนี้ช่วยในการบรรจบระหว่างการฝึกด้วยการต่อสู้กับปัญหาการลดลงของ Gradient

ความแม่นยำเฉลี่ยที่ k

#language
#Metric

เมตริกสำหรับสรุปประสิทธิภาพของโมเดลในพรอมต์เดียวซึ่งจะสร้างผลลัพธ์ที่จัดอันดับ เช่น รายการคำแนะนำหนังสือที่มีหมายเลข ความแม่นยำเฉลี่ยที่ k คือค่าเฉลี่ยของค่าความแม่นยำที่ k สำหรับผลการค้นหาที่เกี่ยวข้องแต่ละรายการ ดังนั้น สูตรความแม่นยำเฉลี่ยที่ k จึงจะเป็นดังนี้

average precision at k=1ni=1nprecision at k for each relevant item

where:

  • n คือจํานวนรายการที่เกี่ยวข้องในรายการ

เปรียบเทียบกับ recall at k

สมมติว่าโมเดลภาษาขนาดใหญ่ได้รับคําค้นหาต่อไปนี้

List the 6 funniest movies of all time in order.

และโมเดลภาษาขนาดใหญ่จะแสดงรายการต่อไปนี้

  1. The General
  2. Mean Girls
  3. Platoon
  4. Bridesmaids
  5. Citizen Kane
  6. This is Spinal Tap
ภาพยนตร์ 4 เรื่องในรายการที่แสดงผลตลกมาก (เกี่ยวข้อง) แต่อีก 2 เรื่องเป็นภาพยนตร์แนวดราม่า (ไม่เกี่ยวข้อง) ตารางต่อไปนี้แสดงรายละเอียดผลลัพธ์
ตำแหน่ง ภาพยนตร์ เกี่ยวข้องไหม ความแม่นยำที่ k
1 The General ใช่ 1.0
2 Mean Girls ใช่ 1.0
3 Platoon ไม่ ไม่เกี่ยวข้อง
4 Bridesmaids ใช่ 0.75
5 Citizen Kane ไม่ ไม่เกี่ยวข้อง
6 This is Spinal Tap ใช่ 0.67

จํานวนผลการค้นหาที่เกี่ยวข้องคือ 4 คุณจึงคํานวณความแม่นยําเฉลี่ยที่ 6 ได้ดังนี้

average precision at 6=14(1.0 + 1.0 + 0.75 + 0.67)
average precision at 6=~0.85

เงื่อนไขที่สอดคล้องกับแกน

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขที่เกี่ยวข้องกับฟีเจอร์เพียงรายการเดียว ตัวอย่างเช่น หาก area เป็นฟีเจอร์ เงื่อนไขที่สอดคล้องกับแกนจะเป็นดังนี้

area > 200

ตรงข้ามกับเงื่อนไขเอียง

B

การย้อนกลับ

#fundamentals

อัลกอริทึมที่นําการลดเชิงลาดไปใช้ในโครงข่ายประสาทเทียม

การฝึกโครงข่ายระบบประสาทเทียมเกี่ยวข้องกับiterationsหลายรอบของวงจรแบบ 2 รอบต่อไปนี้

  1. ในระหว่างการส่งผ่านไปข้างหน้า ระบบจะประมวลผลกลุ่มตัวอย่างเพื่อให้ได้การคาดการณ์ ระบบจะเปรียบเทียบการคาดการณ์แต่ละรายการกับค่าป้ายกำกับแต่ละค่า ส่วนต่างระหว่างการคาดการณ์และค่าป้ายกำกับคือการสูญเสียสำหรับตัวอย่างนั้น ระบบจะรวบรวมการสูญเสียของตัวอย่างทั้งหมดเพื่อคํานวณการสูญเสียทั้งหมดของกลุ่มปัจจุบัน
  2. ในระหว่างการส่งผ่านย้อนกลับ (Backpropagation) ระบบจะลดการสูญเสียด้วยการปรับน้ำหนักของเซลล์ประสาททั้งหมดในเลเยอร์ที่ซ่อนอยู่

เครือข่ายประสาทมักจะมีเซลล์ประสาทหลายเซลล์ในหลายเลเยอร์ที่ซ่อนอยู่ เซลล์ประสาทแต่ละเซลล์มีส่วนทำให้เกิดความสูญเสียโดยรวมในลักษณะที่แตกต่างกัน การย้อนกลับจะกำหนดว่าจะเพิ่มหรือลดน้ำหนักที่ใช้กับเซลล์ประสาทบางเซลล์

อัตราการเรียนรู้คือตัวคูณที่ควบคุมระดับที่การย้อนกลับแต่ละครั้งจะเพิ่มหรือลดน้ำหนักแต่ละรายการ อัตราการเรียนรู้ที่สูงจะเพิ่มหรือลดน้ำหนักแต่ละรายการมากกว่าอัตราการเรียนรู้ที่ต่ำ

ในแง่แคลคูลัส การแสดงผลย้อนกลับจะใช้กฎเชนจากแคลคูลัส กล่าวคือ การแสดงผลย้อนกลับจะคํานวณอนุพันธ์บางส่วนของข้อผิดพลาดเทียบกับพารามิเตอร์แต่ละรายการ

เมื่อหลายปีก่อน ผู้ปฏิบัติงานด้าน ML ต้องเขียนโค้ดเพื่อใช้ Backpropagation ตอนนี้ API ML สมัยใหม่อย่าง Keras ใช้ Backpropagation ให้คุณแล้ว ในที่สุด

ดูข้อมูลเพิ่มเติมเกี่ยวกับเครือข่ายประสาทเทียมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ถุง

#df

วิธีการฝึกชุดค่าผสม โดยโมเดลแต่ละรายการที่ประกอบกันจะฝึกจากชุดย่อยแบบสุ่มของตัวอย่างการฝึกที่สุ่มตัวอย่างแบบแทนที่ เช่น Random Forest คือชุดของDecision Tree ที่ผ่านการฝึกด้วย bagging

คําว่า bagging ย่อมาจาก bootstrap aggregating

ดูข้อมูลเพิ่มเติมเกี่ยวกับป่าแบบสุ่มในหลักสูตรป่าการตัดสินใจ

ถุงคำ

#language

การนําเสนอคําในวลีหรือข้อความ โดยไม่ได้คำนึงถึงลําดับ ตัวอย่างเช่น ถุงคำจะแสดงวลี 3 วลีต่อไปนี้ในลักษณะเดียวกัน

  • สุนัขกระโดด
  • กระโดดใส่สุนัข
  • สุนัขกระโดด

ระบบจะจับคู่แต่ละคำกับดัชนีในเวกเตอร์แบบเบาบาง โดยเวกเตอร์จะมีดัชนีสําหรับคําทุกคำในคําศัพท์ ตัวอย่างเช่น วลี the dog jumps จะแมปกับเวกเตอร์ลักษณะที่มีค่าที่ไม่ใช่ 0 ที่ดัชนี 3 รายการซึ่งสอดคล้องกับคําว่า the, dog และ jumps ค่าที่ไม่ใช่ 0 อาจเป็นค่าใดค่าหนึ่งต่อไปนี้

  • 1 เพื่อระบุการมีอยู่ของคำ
  • จำนวนครั้งที่คำหนึ่งๆ ปรากฏในถุง เช่น หากวลีคือ สุนัขสีน้ำตาลแดงเป็นสุนัขที่มีขนสีน้ำตาลแดง ทั้ง สีน้ำตาลแดงและสุนัขจะแสดงเป็น 2 ส่วนคําอื่นๆ จะแสดงเป็น 1
  • ค่าอื่นๆ เช่น ลอการิทึมของจํานวนครั้งที่คําปรากฏในถุง

พื้นฐาน

#Metric

โมเดลที่ใช้เป็นจุดอ้างอิงเพื่อเปรียบเทียบประสิทธิภาพของโมเดลอื่น (โดยทั่วไปคือโมเดลที่ซับซ้อนกว่า) เช่น โมเดลการถดถอยเชิงเส้นโลจิสติกอาจใช้เป็นบรรทัดฐานที่ดีสําหรับโมเดลเชิงลึก

สําหรับปัญหาหนึ่งๆ เกณฑ์พื้นฐานจะช่วยให้นักพัฒนาโมเดลระบุปริมาณประสิทธิภาพขั้นต่ำที่คาดหวังซึ่งโมเดลใหม่ต้องบรรลุเพื่อให้โมเดลใหม่มีประโยชน์

กลุ่ม

#fundamentals

ชุดตัวอย่างที่ใช้ในการฝึก 1 ครั้งซ้ำ ขนาดกลุ่มจะกําหนดจํานวนตัวอย่างในกลุ่ม

ดูคำอธิบายว่ากลุ่มเกี่ยวข้องกับยุคสมัยอย่างไรได้ที่ยุคสมัย

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: ตัวแปรพหุนามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การอนุมานแบบกลุ่ม

#TensorFlow
#GoogleCloud

กระบวนการอนุมานการคาดการณ์จากตัวอย่างที่ไม่มีป้ายกำกับหลายรายการซึ่งแบ่งออกเป็นชุดย่อยขนาดเล็ก ("กลุ่ม")

การอนุมานแบบเป็นกลุ่มใช้ประโยชน์จากฟีเจอร์การขนานของชิปเร่งความเร็วได้ กล่าวคือ ตัวเร่งหลายตัวสามารถอนุมานการคาดการณ์ในชุดตัวอย่างที่ไม่มีป้ายกำกับหลายชุดพร้อมกัน ซึ่งจะเพิ่มจำนวนการอนุมานต่อวินาทีได้อย่างมาก

ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML สําหรับใช้งานจริง: การอนุมานแบบคงที่เทียบกับแบบไดนามิกในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การแปลงเป็นรูปแบบมาตรฐานกลุ่ม

การปรับค่าอินพุตหรือเอาต์พุตของฟังก์ชันการเปิดใช้งานในเลเยอร์ที่ซ่อนอยู่ การปรับมาตรฐานกลุ่มมีข้อดีดังนี้

ขนาดกลุ่ม

#fundamentals

จํานวนตัวอย่างในกลุ่ม เช่น หากขนาดกลุ่มเป็น 100 โมเดลจะประมวลผลตัวอย่าง 100 รายการต่อรอบ

กลยุทธ์ขนาดกลุ่มที่ได้รับความนิยมมีดังนี้

  • Stochastic Gradient Descent (SGD) ซึ่งมีขนาดกลุ่มเป็น 1
  • กลุ่มแบบเต็ม ซึ่งขนาดกลุ่มคือจํานวนตัวอย่างในชุดการฝึกทั้งหมด เช่น หากชุดข้อมูลการฝึกมีตัวอย่าง 1 ล้านรายการ ขนาดกลุ่มจะเป็น 1 ล้านตัวอย่าง โดยปกติแล้ว การใช้กลุ่มเต็มเป็นกลยุทธ์ที่ไม่มีประสิทธิภาพ
  • มินิแบทช์ ซึ่งโดยปกติแล้วขนาดกลุ่มจะอยู่ระหว่าง 10 ถึง 1,000 โดยปกติแล้ว การส่งกลุ่มย่อยเป็นกลยุทธ์ที่มีประสิทธิภาพมากที่สุด

โปรดดูข้อมูลเพิ่มเติมที่ด้านล่าง

โครงข่ายประสาทเทียมแบบ Bayesian

เครือข่ายประสาทเทียมแบบน่าจะเป็นที่พิจารณาถึงความไม่แน่นอนในน้ำหนักและเอาต์พุต โดยทั่วไปแล้ว รูปแบบการถดถอยของเครือข่ายประสาทมาตรฐานจะคาดการณ์ค่าสเกลาร์ เช่น รูปแบบมาตรฐานคาดการณ์ราคาบ้านที่ 853,000 ในทางตรงกันข้าม เครือข่ายประสาทแบบ Bayesian จะคาดการณ์การแจกแจงค่า เช่น แบบจำลอง Bayesian จะคาดการณ์ราคาบ้านที่ 853,000 บาทโดยมีส่วนเบี่ยงเบนมาตรฐาน 67,200 บาท

เครือข่ายประสาทแบบเบย์เซียนใช้ ทฤษฎีของเบย์เพื่อคํานวณความไม่แน่นอนของน้ำหนักและการคาดการณ์ เครือข่ายประสาทแบบเบย์อาจมีประโยชน์เมื่อจำเป็นต้องวัดความไม่แน่นอน เช่น ในโมเดลที่เกี่ยวข้องกับยา เครือข่ายประสาทแบบเบย์ยังช่วยป้องกันการจับคู่ที่มากเกินไปได้ด้วย

การเพิ่มประสิทธิภาพ Bayesian

เทคนิคโมเดลการถดถอยแบบมีข้อมูลเป็นค่าความน่าจะเป็นเพื่อเพิ่มประสิทธิภาพฟังก์ชันวัตถุประสงค์ที่ต้องใช้การประมวลผลมาก โดยการเพิ่มประสิทธิภาพตัวแทนแทน ซึ่งจะวัดความไม่แน่นอนโดยใช้เทคนิคการเรียนรู้แบบเบย์เซียน เนื่องจากการเพิ่มประสิทธิภาพแบบเบย์เซียนมีค่าใช้จ่ายสูงมาก จึงมักใช้เพื่อเพิ่มประสิทธิภาพงานที่ประเมินได้ยากซึ่งมีพารามิเตอร์จํานวนน้อย เช่น การเลือกไฮเปอร์พารามิเตอร์

สมการของ Bellman

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ฟังก์ชัน Q ที่ดีที่สุดจะเป็นไปตามเอกลักษณ์ต่อไปนี้

Q(s,a)=r(s,a)+γEs|s,amaxaQ(s,a)

อัลกอริทึมของการเรียนรู้แบบเสริมกำลังจะใช้ข้อมูลประจําตัวนี้เพื่อสร้าง Q-learning โดยใช้กฎการอัปเดตต่อไปนี้

Q(s,a)Q(s,a)+α[r(s,a)+γmaxa1Q(s,a)Q(s,a)]

นอกเหนือจากการเรียนรู้ด้วยการทำซ้ำแล้ว สมการของ Bellman ยังนำไปใช้กับโปรแกรมแบบไดนามิกได้อีกด้วย ดูหัวข้อ สมการของ Bellman ใน Wikipedia

BERT (Bidirectional Encoder Representations from Transformers)

#language

สถาปัตยกรรมโมเดลสําหรับการนําเสนอข้อความ โมเดล BERT ที่ผ่านการฝึกอบรมจะทําหน้าที่เป็นโมเดลขนาดใหญ่ขึ้นสําหรับการจัดประเภทข้อความหรืองาน ML อื่นๆ ได้

BERT มีลักษณะต่อไปนี้

ตัวแปรของ BERT มีดังนี้

  • ALBERT ซึ่งเป็นอักษรย่อของ A Light BERT
  • LaBSE

ดูภาพรวมของ BERT ได้ที่การเผยแพร่ BERT แบบโอเพนซอร์ส: การฝึกล่วงหน้าที่ล้ำสมัยสำหรับการประมวลผลภาษาธรรมชาติ

อคติ (จริยธรรม/ความเป็นธรรม)

#fairness
#fundamentals

1. การเหมารวม อคติ หรือการเลือกปฏิบัติต่อบางสิ่ง บุคคล หรือกลุ่มคนมากกว่ากลุ่มอื่น ความลำเอียงเหล่านี้อาจส่งผลต่อการรวบรวมและการตีความข้อมูล การออกแบบระบบ และวิธีที่ผู้ใช้โต้ตอบกับระบบ รูปแบบของอคติประเภทนี้ ได้แก่

2. ข้อผิดพลาดเชิงระบบที่เกิดจากขั้นตอนการสุ่มตัวอย่างหรือการรายงาน รูปแบบของอคติประเภทนี้ ได้แก่

โปรดอย่าสับสนกับคำที่เป็นอคติในโมเดลแมชชีนเลิร์นนิงหรืออคติในการคาดการณ์

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อคติ (คณิตศาสตร์) หรือคําอคติ

#fundamentals

การขัดจังหวะหรือการเลื่อนจากต้นทาง ความลำเอียงคือพารามิเตอร์ในโมเดลแมชชีนเลิร์นนิง ซึ่งแสดงด้วยสัญลักษณ์ต่อไปนี้

  • b
  • w0

เช่น อคติคือ b ในสูตรต่อไปนี้

y=b+w1x1+w2x2+wnxn

ในเส้น 2 มิติธรรมดา ความลำเอียงหมายถึง "ค่าตัดแกน y" เช่น ความลำเอียงของเส้นในภาพประกอบต่อไปนี้คือ 2

ผังเส้นที่มีความชัน 0.5 และค่าเบี่ยงเบน (จุดตัด Y) เท่ากับ 2

ความลำเอียงเกิดขึ้นเนื่องจากโมเดลบางรุ่นไม่ได้เริ่มต้นจากจุดเริ่มต้น (0,0) ตัวอย่างเช่น สมมติว่าสวนสนุกมีราคาค่าเข้า 20 บาทและคิดเพิ่มอีก 5 บาทต่อทุกๆ ชั่วโมงที่ลูกค้าเข้าชม ดังนั้น โมเดลที่จับคู่ต้นทุนทั้งหมดจึงมีอคติ 2 เนื่องจากต้นทุนต่ำสุดคือ 2 ยูโร

โปรดอย่าสับสนระหว่างอคติกับอคติด้านจริยธรรมและความยุติธรรมหรืออคติในการคาดการณ์

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้นในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

แบบ 2 ทิศทาง

#language

คําที่ใช้อธิบายระบบที่ประเมินข้อความทั้งในส่วนที่อยู่ก่อนและอยู่หลังส่วนของข้อความเป้าหมาย ในทางตรงกันข้าม ระบบแบบทิศทางเดียวจะประเมินเฉพาะข้อความที่อยู่ก่อนส่วนข้อความเป้าหมาย

ตัวอย่างเช่น ลองพิจารณาโมเดลภาษาที่มีการปกปิดซึ่งต้องระบุความน่าจะเป็นของคำที่แสดงขีดล่างในคำถามต่อไปนี้

_____ กับคุณเป็นอย่างไรบ้าง

โมเดลภาษาแบบทิศทางเดียวจะต้องอิงความน่าจะเป็นตามบริบทที่ได้จากคําว่า "อะไร" "คือ" และ "ที่" เท่านั้น ในทางตรงกันข้าม โมเดลภาษาแบบ 2 ทิศทางอาจได้รับบริบทจาก "กับ" และ "คุณ" ด้วย ซึ่งอาจช่วยให้โมเดลคาดการณ์ได้ดีขึ้น

โมเดลภาษาแบบ 2 ทาง

#language

โมเดลภาษาที่กําหนดความน่าจะเป็นที่โทเค็นหนึ่งๆ จะปรากฏในตําแหน่งหนึ่งๆ ของข้อความที่ตัดตอนมาโดยอิงตามข้อความก่อนหน้าและถัดจาก

Bigram

#seq
#language

N-gram โดยที่ N=2

การจัดประเภทแบบไบนารี

#fundamentals

งานการจัดประเภทประเภทหนึ่งที่คาดการณ์คลาสใดคลาสหนึ่งจาก 2 คลาสที่ไม่เกี่ยวข้องกัน

ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิง 2 รายการต่อไปนี้จะทําการจัดประเภทแบบ 2 กลุ่ม

  • โมเดลที่ระบุว่าข้อความอีเมลเป็นสแปม (คลาสบวก) หรือไม่ใช่สแปม (คลาสลบ)
  • โมเดลที่ประเมินอาการทางการแพทย์เพื่อระบุว่าบุคคลมีโรคหนึ่งๆ (คลาสบวก) หรือไม่ (คลาสลบ)

ตรงข้ามกับการจัดประเภทแบบหลายคลาส

ดูข้อมูลเพิ่มเติมได้ที่โลจิสติกรีเกรชัน และเกณฑ์การจัดประเภท

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภทในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เงื่อนไขไบนารี

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้เพียง 2 รายการ ซึ่งโดยทั่วไปคือใช่หรือไม่ ตัวอย่างเงื่อนไขแบบไบนารีมีดังนี้

temperature >= 100

ตรงข้ามกับเงื่อนไขแบบไม่ไบนารี

ดูข้อมูลเพิ่มเติมได้ในประเภทเงื่อนไขในหลักสูตรป่าการตัดสินใจ

การแยกกลุ่ม

คำพ้องความหมายของการแบ่งกลุ่ม

BLEU (Bilingual Evaluation Understudy)

#language

เมตริกระหว่าง 0.0 ถึง 1.0 สําหรับประเมินการแปลด้วยคอมพิวเตอร์ เช่น จากภาษาสเปนเป็นภาษาญี่ปุ่น

โดยปกติแล้ว BLEU จะคำนวณคะแนนโดยการเปรียบเทียบคำแปลของโมเดล ML (ข้อความที่สร้างขึ้น) กับคำแปลของผู้เชี่ยวชาญที่เป็นมนุษย์ (ข้อความอ้างอิง) ระดับที่ N-grams ในข้อความที่สร้างขึ้นและข้อความอ้างอิงตรงกันเป็นตัวกำหนดคะแนน BLEU

เอกสารต้นฉบับเกี่ยวกับเมตริกนี้คือ BLEU: วิธีการประเมินการแปลด้วยคอมพิวเตอร์โดยอัตโนมัติ

โปรดดูBLEURT ด้วย

BLEURT (Bilingual Evaluation Understudy from Transformers)

#language

เมตริกสำหรับประเมินการแปลด้วยคอมพิวเตอร์จากภาษาหนึ่งเป็นภาษาอื่น โดยเฉพาะจากและไปยังภาษาอังกฤษ

สำหรับคำแปลจากและไปยังภาษาอังกฤษ BLEURT จะสอดคล้องกับคะแนนที่มนุษย์ให้ไว้มากกว่า BLEU BLEURT เน้นความคล้ายคลึงทางความหมาย (ความหมาย) และรองรับการถอดความ ซึ่งแตกต่างจาก BLEU

BLEURT ใช้โมเดลภาษาขนาดใหญ่ที่ผ่านการฝึกล่วงหน้า (หรือก็คือ BERT) ซึ่งได้รับการปรับแต่งอย่างละเอียดจากข้อความที่นักแปลมนุษย์แปล

เอกสารต้นฉบับเกี่ยวกับเมตริกนี้คือ BLEURT: Learning Robust Metrics for Text Generation

การเพิ่ม

เทคนิคแมชชีนเลิร์นนิงที่รวมชุดตัวแยกประเภทที่เรียบง่ายและไม่แม่นยำมาก (เรียกว่าตัวแยกประเภท "อ่อน") เข้าด้วยกันซ้ำๆ เพื่อสร้างตัวแยกประเภทที่มีความแม่นยำสูง (ตัวแยกประเภท "แรง") โดยเพิ่มน้ำหนักตัวอย่างที่โมเดลกำลังแยกประเภทไม่ถูกต้อง

ดูข้อมูลเพิ่มเติมได้ในหลักสูตรป่าการตัดสินใจเกี่ยวกับต้นไม้การตัดสินใจที่มีการเพิ่มประสิทธิภาพด้วย Gradient

กรอบล้อมรอบ

#image

ในรูปภาพ พิกัด (x, y) ของสี่เหลี่ยมผืนผ้ารอบๆ พื้นที่ที่น่าสนใจ เช่น สุนัขในรูปภาพด้านล่าง

รูปถ่ายสุนัขนั่งบนโซฟา กล่องขอบสีเขียวที่มีพิกัดด้านซ้ายบน (275, 1271) และพิกัดด้านขวาล่าง (2954, 2761) ล้อมรอบร่างกายของสุนัข

การออกอากาศ

การขยายรูปร่างของออพอเรนดในการดำเนินการทางคณิตศาสตร์ของเมทริกซ์เป็นมิติข้อมูลที่เข้ากันได้สําหรับการดำเนินการนั้น เช่น พีชคณิตเชิงเส้นกำหนดให้โอเปอเรนด์ 2 รายการในการดำเนินการบวกเมทริกซ์ต้องมีมิติข้อมูลเดียวกัน คุณจึงเพิ่มเมทริกซ์ที่มีรูปร่าง (m, n) ลงในเวกเตอร์ที่มีความยาว n ไม่ได้ การกระจายช่วยให้ดำเนินการนี้ได้โดยการขยายเวกเตอร์ที่มีความยาว n เป็นเมทริกซ์ที่มีรูปร่าง (m, n) โดยทำซ้ำค่าเดียวกันในแต่ละคอลัมน์

เมื่อพิจารณาคําจํากัดความของ A และ B ต่อไปนี้ คณิตศาสตร์เชิงเส้นไม่อนุญาตให้ใช้ A+B เนื่องจาก A และ B มีมิติข้อมูลต่างกัน

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

อย่างไรก็ตาม การออกอากาศช่วยให้ดำเนินการ A+B ได้โดยการขยาย B ไปยังรายการต่อไปนี้เสมือนจริง

 [[2, 2, 2],
  [2, 2, 2]]

ดังนั้น A+B จึงเป็นการดําเนินการที่ถูกต้อง

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

ดูรายละเอียดเพิ่มเติมได้ในคำอธิบายต่อไปนี้เกี่ยวกับการออกอากาศใน NumPy

การแบ่งกลุ่ม

#fundamentals

การเปลี่ยนฟีเจอร์รายการเดียวให้เป็นฟีเจอร์ไบนารีหลายรายการ ซึ่งเรียกว่าที่เก็บหรือกลุ่ม โดยปกติจะอิงตามช่วงค่า โดยปกติแล้วองค์ประกอบที่ตัดออกจะเป็นองค์ประกอบต่อเนื่อง

เช่น แทนที่จะแสดงอุณหภูมิเป็นฟีเจอร์ทศนิยมต่อเนื่องรายการเดียว คุณอาจแบ่งช่วงอุณหภูมิออกเป็นกลุ่มๆ เช่น

  • <= 10 องศาเซลเซียสจะเป็นกลุ่ม "หนาวเย็น"
  • 11 - 24 องศาเซลเซียสจะอยู่ในหมวดหมู่ "อบอุ่น"
  • อุณหภูมิ >= 25 องศาเซลเซียสจะอยู่ในกลุ่ม "อบอุ่น"

โมเดลจะถือว่าค่าทุกค่าในที่เก็บเดียวกันเหมือนกัน เช่น ค่า 13 และ 22 อยู่ในที่เก็บข้อมูลแบบอบอุ่นทั้งคู่ ดังนั้นโมเดลจะถือว่าค่าทั้งสองเหมือนกัน

หากคุณแสดงอุณหภูมิเป็นฟีเจอร์ต่อเนื่อง โมเดลจะถือว่าอุณหภูมิเป็นฟีเจอร์เดียว หากคุณแสดงอุณหภูมิเป็นกลุ่ม 3 กลุ่ม โมเดลจะถือว่าแต่ละกลุ่มเป็นฟีเจอร์แยกกัน กล่าวคือ โมเดลจะเรียนรู้ความสัมพันธ์แยกกันของที่เก็บข้อมูลแต่ละรายการกับป้ายกํากับ ตัวอย่างเช่น โมเดลการถดถอยเชิงเส้นสามารถเรียนรู้น้ำหนักแยกกันสําหรับแต่ละที่เก็บข้อมูล

การเพิ่มจำนวนที่เก็บข้อมูลจะทำให้โมเดลมีความซับซ้อนมากขึ้นเนื่องจากมีความสัมพันธ์ที่โมเดลต้องเรียนรู้มากขึ้น เช่น กลุ่มที่เย็น ปานกลาง และร้อน เป็นหลักคือฟีเจอร์ 3 รายการแยกกันสำหรับโมเดลของคุณในการฝึก หากตัดสินใจเพิ่มอีก 2 กลุ่ม เช่น หนาวจัดและร้อนจัด โมเดลของคุณจะต้องฝึกด้วยฟีเจอร์แยกกัน 5 รายการ

คุณทราบได้อย่างไรว่าควรสร้างที่เก็บข้อมูลกี่รายการ หรือช่วงของที่เก็บข้อมูลแต่ละรายการควรเป็นเท่าใด โดยทั่วไปแล้วคําตอบต้องอาศัยการทดสอบพอสมควร


ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การแบ่งกลุ่มในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

C

เลเยอร์การปรับเทียบ

การปรับหลังการคาดการณ์ ซึ่งมักจะพิจารณาถึงความลำเอียงในการคาดการณ์ การคาดการณ์และความน่าจะเป็นที่ปรับแล้วควรตรงกับการกระจายของชุดป้ายกำกับที่สังเกตได้

การสร้างผู้สมัคร

#recsystems

ชุดคําแนะนําเริ่มต้นที่ระบบการแนะนําเลือก ตัวอย่างเช่น ลองพิจารณาร้านหนังสือที่มีหนังสือ 100,000 เล่ม ระยะการสร้างผู้สมัครจะสร้างรายการหนังสือที่เหมาะสมสำหรับผู้ใช้บางรายจำนวนน้อยลง เช่น 500 เล่ม แต่แม้กระทั่ง 500 เล่มก็ยังถือว่ามีจำนวนมากเกินไปที่จะแนะนำแก่ผู้ใช้ ระยะถัดไปของระบบการแนะนำที่แพงกว่า (เช่น การให้คะแนนและการจัดอันดับใหม่) จะลดจำนวนวิดีโอ 500 รายการนั้นให้เหลือชุดคำแนะนำที่มีประโยชน์มากกว่าและจำนวนน้อยลงมาก

ดูข้อมูลเพิ่มเติมได้ในภาพรวมการสร้างผู้สมัครในหลักสูตรระบบการแนะนำ

การสุ่มตัวอย่างผู้สมัคร

การเพิ่มประสิทธิภาพขณะฝึกที่คำนวณความน่าจะเป็นสำหรับป้ายกำกับบวกทั้งหมด เช่น ใช้ Softmax แต่ใช้กับตัวอย่างป้ายกำกับเชิงลบแบบสุ่มเท่านั้น ตัวอย่างเช่น เมื่อพิจารณาตัวอย่างที่มีป้ายกำกับเป็น beagle และ dog การสุ่มตัวอย่างผู้สมัครจะคํานวณความน่าจะเป็นที่คาดการณ์และเงื่อนไขการสูญเสียที่เกี่ยวข้องสําหรับ

  • beagle
  • dog
  • ชุดย่อยแบบสุ่มของคลาสเชิงลบที่เหลือ (เช่น cat, lollipop, fence)

แนวคิดคือ คลาสเชิงลบสามารถเรียนรู้จากการเสริมแรงเชิงลบที่พบไม่บ่อยนัก ตราบใดที่คลาสเชิงบวกได้รับการเสริมแรงเชิงบวกที่เหมาะสมเสมอ และนี่เป็นสิ่งที่สังเกตได้จากการทดสอบจริง

การสุ่มตัวอย่างผู้สมัครมีประสิทธิภาพในการประมวลผลมากกว่าอัลกอริทึมการฝึกที่ประมวลผลการคาดการณ์สำหรับคลาสเชิงลบทั้งหมด โดยเฉพาะอย่างยิ่งเมื่อจํานวนคลาสเชิงลบมีจํานวนมาก

ข้อมูลเชิงหมวดหมู่

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ที่เฉพาะเจาะจง ตัวอย่างเช่น ให้พิจารณาฟีเจอร์เชิงหมวดหมู่ชื่อ traffic-light-state ซึ่งมีได้เพียงค่าใดค่าหนึ่งต่อไปนี้

  • red
  • yellow
  • green

การนําเสนอ traffic-light-state เป็นฟีเจอร์เชิงหมวดหมู่จะช่วยให้โมเดลเรียนรู้ผลกระทบที่แตกต่างกันของ red, green และ yellow ต่อพฤติกรรมของผู้ขับขี่

บางครั้งฟีเจอร์เชิงหมวดหมู่เรียกว่าฟีเจอร์แบบไม่ต่อเนื่อง

ตรงข้ามกับข้อมูลตัวเลข

ดูข้อมูลเพิ่มเติมที่หัวข้อการทํางานกับข้อมูลเชิงหมวดหมู่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โมเดลภาษาเชิงสาเหตุ

#language

คำพ้องความหมายของโมเดลภาษาแบบทิศทางเดียว

ดูโมเดลภาษาแบบ 2 ทิศทางเพื่อเปรียบเทียบแนวทางแบบต่างๆ ในการประมาณภาษา

เซนทรอยด์

#clustering

ศูนย์กลางของคลัสเตอร์ที่อัลกอริทึม K-means หรือ K-median ระบุ เช่น หาก k = 3 อัลกอริทึม K-means หรือ K-median จะค้นหาจุดศูนย์กลาง 3 จุด

ดูข้อมูลเพิ่มเติมได้ในอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม

การคลัสเตอร์ตามเซนทรอยด์

#clustering

หมวดหมู่ของอัลกอริทึมการจัดกลุ่มที่จัดระเบียบข้อมูลเป็นคลัสเตอร์ที่ไม่มีลําดับชั้น K-means เป็นอัลกอริทึมการจัดกลุ่มตามจุดศูนย์กลางที่ใช้กันอย่างแพร่หลายที่สุด

เปรียบเทียบกับอัลกอริทึมการจัดกลุ่มตามลําดับชั้น

ดูข้อมูลเพิ่มเติมได้ในอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม

การช่วยสร้างลำดับความคิด

#language
#generativeAI

เทคนิคการสร้างพรอมต์ที่กระตุ้นโมเดลภาษาขนาดใหญ่ (LLM) ให้อธิบายเหตุผลทีละขั้นตอน ตัวอย่างเช่น ลองดูพรอมต์ต่อไปนี้ โดยให้ความสนใจเป็นพิเศษกับประโยคที่ 2

ผู้ขับขี่จะรู้สึกถึงแรง g เท่าใดในรถที่เร่งจาก 0 เป็น 60 ไมล์ต่อชั่วโมงใน 7 วินาที แสดงการคํานวณที่เกี่ยวข้องทั้งหมดในคําตอบ

คำตอบของ LLM มีแนวโน้มที่จะมีลักษณะดังนี้

  • แสดงลำดับสูตรฟิสิกส์ โดยใส่ค่า 0, 60 และ 7 ในตำแหน่งที่เหมาะสม
  • อธิบายเหตุผลที่เลือกสูตรเหล่านั้น และความหมายของตัวแปรต่างๆ

การแจ้งเตือนแบบเป็นลำดับความคิดจะบังคับให้ LLM ทำการคํานวณทั้งหมด ซึ่งอาจทําให้ได้คําตอบที่ถูกต้องมากขึ้น นอกจากนี้ ข้อความแจ้งแบบเป็นลำดับความคิดยังช่วยให้ผู้ใช้ตรวจสอบขั้นตอนของ LLM เพื่อดูว่าคำตอบนั้นสมเหตุสมผลหรือไม่

แชท

#language
#generativeAI

เนื้อหาของบทสนทนาแบบโต้ตอบกับระบบ ML ซึ่งโดยทั่วไปแล้วจะเป็นโมเดลภาษาขนาดใหญ่ การโต้ตอบก่อนหน้านี้ในแชท (สิ่งที่คุณพิมพ์และวิธีที่โมเดลภาษาขนาดใหญ่ตอบกลับ) จะกลายเป็นบริบทสําหรับส่วนถัดไปของแชท

แชทบ็อตคือแอปพลิเคชันของโมเดลภาษาขนาดใหญ่

จุดตรวจ

ข้อมูลที่บันทึกสถานะของพารามิเตอร์ของโมเดลระหว่างการฝึกหรือหลังจากการฝึกเสร็จสมบูรณ์ ตัวอย่างเช่น ในระหว่างการฝึกอบรม คุณจะทำสิ่งต่อไปนี้ได้

  1. หยุดการฝึก ซึ่งอาจเป็นเพราะตั้งใจหรือเกิดจากข้อผิดพลาดบางอย่าง
  2. บันทึกจุดตรวจสอบ
  3. โหลดจุดตรวจสอบอีกครั้งในภายหลัง ซึ่งอาจทำในฮาร์ดแวร์เครื่องอื่น
  4. เริ่มการฝึกอีกครั้ง

คลาส

#fundamentals

หมวดหมู่ที่ป้ายกํากับสามารถอยู่ได้ เช่น

โมเดลการจัดประเภทจะคาดการณ์คลาส ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์ตัวเลขแทนที่จะคาดการณ์คลาส

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภทในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โมเดลการจัดประเภท

#fundamentals

โมเดลที่การคาดการณ์คือคลาส ตัวอย่างเช่น รูปแบบการจัดประเภททั้งหมดมีดังนี้

  • โมเดลที่คาดการณ์ภาษาของประโยคอินพุต (ฝรั่งเศสใช่ไหม สเปน อิตาลี)
  • โมเดลที่คาดการณ์ชนิดต้นไม้ (เมเปิลใช่ไหม โอ๊ก เบาบับใช่ไหม)
  • โมเดลที่คาดการณ์คลาสที่เป็นบวกหรือลบสำหรับภาวะทางการแพทย์หนึ่งๆ

ในทางตรงกันข้าม โมเดลการเกิดปัญหาซ้ำจะคาดการณ์ตัวเลขแทนคลาส

โมเดลการจัดประเภทที่พบได้ทั่วไป 2 ประเภท ได้แก่

เกณฑ์การจัดประเภท

#fundamentals

ในการจัดประเภทแบบไบนารี ตัวเลขระหว่าง 0 ถึง 1 ที่แปลงเอาต์พุตดิบของโมเดลโลจิสติกรีเกรชันเป็นการคาดการณ์คลาสเชิงบวกหรือคลาสเชิงลบ โปรดทราบว่าเกณฑ์การแยกประเภทคือค่าที่มนุษย์เลือก ไม่ใช่ค่าที่การฝึกโมเดลเลือก

โมเดลการถดถอยเชิงเส้นโลจิสติกจะแสดงผลค่าดิบระหว่าง 0 ถึง 1 จากนั้นให้ทำดังนี้

  • หากค่าดิบนี้มากกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสเชิงบวก
  • หากค่าดิบนี้น้อยกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสเชิงลบ

ตัวอย่างเช่น สมมติว่าเกณฑ์การแยกประเภทคือ 0.8 หากค่าดิบคือ 0.9 แสดงว่าโมเดลคาดการณ์คลาสเชิงบวก หากค่าดิบคือ 0.7 แสดงว่าโมเดลคาดการณ์คลาสเชิงลบ

การเลือกเกณฑ์การจัดประเภทจะมีผลอย่างมากต่อจํานวนผลบวกลวงและผลลบลวง

เมื่อโมเดลหรือชุดข้อมูลพัฒนาขึ้น บางครั้งวิศวกรก็เปลี่ยนเกณฑ์การจัดประเภทด้วย เมื่อเกณฑ์การจัดประเภทเปลี่ยนแปลงไป การคาดการณ์คลาสเชิงบวกอาจกลายเป็นคลาสเชิงลบอย่างฉับพลัน และในทางกลับกัน

เช่น พิจารณาโมเดลการคาดการณ์โรคแบบการจัดประเภทแบบไบนารี สมมติว่าเมื่อระบบทํางานในปีแรก

  • ค่าดิบของผู้ป่วยรายหนึ่งคือ 0.95
  • เกณฑ์การจัดประเภทคือ 0.94

ดังนั้นระบบจึงวินิจฉัยว่าเป็นคลาสที่เป็นบวก (ผู้ป่วยตกใจแล้วพูดว่า "โอ๊ะ ฉันไม่สบาย")

1 ปีต่อมา ค่าต่างๆ อาจมีลักษณะดังนี้

  • ค่าดิบของผู้ป่วยรายเดิมยังคงอยู่ที่ 0.95
  • เกณฑ์การจัดประเภทจะเปลี่ยนเป็น 0.97

ดังนั้นตอนนี้ระบบจึงจัดผู้ป่วยรายนั้นใหม่เป็นกลุ่มลบ ("สุขสันต์วันเกิด ฉันไม่ได้ป่วย") ผู้ป่วยรายเดียวกัน การวินิจฉัยอื่น


ดูข้อมูลเพิ่มเติมเกี่ยวกับเกณฑ์และตารางความสับสนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ตัวแยกประเภท

#fundamentals

คําเรียกสั้นๆ สําหรับโมเดลการจัดประเภท

ชุดข้อมูลที่มีจำนวนของคลาสไม่สมดุล

#fundamentals

ชุดข้อมูลสําหรับปัญหาการจัดประเภทซึ่งมีจํานวนป้ายกํากับทั้งหมดของแต่ละคลาสแตกต่างกันอย่างมาก ตัวอย่างเช่น พิจารณาชุดข้อมูลการจัดประเภทแบบไบนารีที่มีป้ายกำกับ 2 รายการซึ่งแบ่งออกเป็นดังนี้

  • ป้ายกำกับเชิงลบ 1,000,000 รายการ
  • ป้ายกำกับเชิงบวก 10 รายการ

อัตราส่วนของป้ายกำกับเชิงลบต่อเชิงบวกคือ 100,000 ต่อ 1 ดังนั้นชุดข้อมูลนี้จึงเป็นชุดข้อมูลที่ไม่สมดุลของคลาส

ในทางตรงกันข้าม ชุดข้อมูลต่อไปนี้ไม่มีความไม่สมดุลของคลาส เนื่องจากอัตราส่วนของป้ายกำกับเชิงลบต่อป้ายกำกับเชิงบวกค่อนข้างใกล้เคียงกับ 1

  • ป้ายกำกับเชิงลบ 517 รายการ
  • ป้ายกำกับเชิงบวก 483 รายการ

ชุดข้อมูลหลายคลาสอาจไม่สมดุลตามคลาสได้เช่นกัน ตัวอย่างเช่น ชุดข้อมูลการจัดประเภทแบบหลายคลาสต่อไปนี้ยังมีความไม่สมดุลของคลาสด้วยเนื่องจากป้ายกำกับหนึ่งมีตัวอย่างมากกว่าอีก 2 ป้ายกำกับ

  • ป้ายกำกับ 1,000,000 รายการที่มีคลาส "green"
  • ป้ายกำกับ 200 รายการที่มีคลาส "purple"
  • ป้ายกำกับ 350 รายการที่มีคลาส "orange"

ดูข้อมูลเพิ่มเติมได้ที่เอนโทรปี คลาสส่วนใหญ่ และคลาสส่วนน้อย

การตัด

#fundamentals

เทคนิคการจัดการค่าผิดปกติโดยทําอย่างใดอย่างหนึ่งหรือทั้ง 2 อย่างต่อไปนี้

  • ลดค่าฟีเจอร์ที่มากกว่าเกณฑ์สูงสุดให้เหลือเท่ากับเกณฑ์สูงสุด
  • การเพิ่มค่าฟีเจอร์ที่น้อยกว่าเกณฑ์ขั้นต่ำให้เท่ากับเกณฑ์ขั้นต่ำ

ตัวอย่างเช่น สมมติว่าค่าของฟีเจอร์หนึ่งๆ น้อยกว่า 0.5% อยู่นอกช่วง 40-60 ในกรณีนี้ คุณจะทำสิ่งต่อไปนี้ได้

  • ตัดค่าทั้งหมดที่มากกว่า 60 (เกณฑ์สูงสุด) ให้เท่ากับ 60
  • ตัดค่าทั้งหมดที่ต่ำกว่า 40 (เกณฑ์ขั้นต่ำ) ให้เท่ากับ 40

ค่าที่ผิดปกติอาจทําให้โมเดลเสียหาย และบางครั้งอาจทําให้น้ำหนัก overflow ในระหว่างการฝึก ค่าที่ผิดปกติบางรายการยังอาจทําให้เมตริกต่างๆ เช่น ความแม่นยํา เสียไปอย่างมากด้วย การตัดเป็นเทคนิคทั่วไปในการจำกัดความเสียหาย

การตัดเฉือนของเส้นลาดจะบังคับให้ค่าเส้นลาดอยู่ในช่วงที่กำหนดระหว่างการฝึก

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การปรับมาตรฐานในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Cloud TPU

#TensorFlow
#GoogleCloud

ตัวเร่งฮาร์ดแวร์เฉพาะที่ออกแบบมาเพื่อเร่งความเร็วของภาระงานแมชชีนเลิร์นนิงใน Google Cloud

การคลัสเตอร์

#clustering

จัดกลุ่มตัวอย่างที่เกี่ยวข้อง โดยเฉพาะในระหว่างการเรียนรู้แบบไม่มีการควบคุมดูแล เมื่อจัดกลุ่มตัวอย่างทั้งหมดแล้ว เจ้าหน้าที่จะระบุความหมายให้กับแต่ละคลัสเตอร์ได้ (ไม่บังคับ)

อัลกอริทึมการจัดกลุ่มมีอยู่หลายประเภท เช่น อัลกอริทึม k-means จะจัดกลุ่มตัวอย่างตามระดับความใกล้เคียงกับจุดศูนย์กลาง ดังในแผนภาพต่อไปนี้

กราฟ 2 มิติที่แกน X มีป้ายกำกับว่า &quot;ความกว้างของต้นไม้&quot; และแกน Y มีป้ายกำกับว่า &quot;ความสูงของต้นไม้&quot; กราฟมีจุดศูนย์กลาง 2 จุดและจุดข้อมูลหลายสิบจุด ระบบจะจัดหมวดหมู่จุดข้อมูลตามระดับความใกล้เคียง กล่าวคือ จุดข้อมูลที่ใกล้กับจุดศูนย์กลางจุดหนึ่งจะจัดอยู่ในคลัสเตอร์ 1 ส่วนจุดข้อมูลที่ใกล้กับจุดศูนย์กลางอีกจุดหนึ่งจะจัดอยู่ในคลัสเตอร์ 2

จากนั้นนักวิจัยจะตรวจสอบคลัสเตอร์และติดป้ายกำกับคลัสเตอร์ 1 เป็น "ต้นไม้แคระ" และคลัสเตอร์ 2 เป็น "ต้นไม้ขนาดเต็ม" ได้

อีกตัวอย่างหนึ่งคืออัลกอริทึมการจัดกลุ่มที่อิงตามระยะห่างจากจุดศูนย์กลางของตัวอย่างดังที่แสดงต่อไปนี้

จุดข้อมูลหลายสิบจุดจะจัดเรียงเป็นวงกลมศูนย์กลางคล้ายกับรูรอบๆ ศูนย์กลางของกระดานปาเป้า วงในสุดของจุดข้อมูลจะจัดอยู่ในคลัสเตอร์ 1 วงกลางจัดอยู่ในคลัสเตอร์ 2 และวงนอกสุดจัดอยู่ในคลัสเตอร์ 3

ดูข้อมูลเพิ่มเติมได้ที่หลักสูตรการคลัสเตอร์

การปรับตัวร่วมกัน

เมื่อเซลล์ประสาทคาดการณ์รูปแบบในข้อมูลการฝึกโดยอาศัยเอาต์พุตของเซลล์ประสาทอื่นๆ ที่เฉพาะเจาะจงเกือบทั้งหมดแทนที่จะอาศัยลักษณะการทํางานของเครือข่ายโดยรวม เมื่อรูปแบบที่ทําให้เกิดการปรับตัวร่วมกันไม่อยู่ในข้อมูลที่ใช้ตรวจสอบ การปรับตัวร่วมกันจะทําให้เกิดการพอดีมากเกินไป การปรับให้เหมาะสมแบบ Dropout จะลดการปรับตัวร่วมกันเนื่องจาก Dropout ช่วยให้มั่นใจว่าเซลล์ประสาทจะไม่สามารถอาศัยเซลล์ประสาทอื่นๆ บางเซลล์เพียงอย่างเดียว

การกรองแบบรวม

#recsystems

การทำการคาดการณ์เกี่ยวกับความสนใจของผู้ใช้รายหนึ่งโดยอิงตามความสนใจของผู้ใช้รายอื่นๆ จำนวนมาก กรองตามข้อมูลกลุ่มมักใช้ในระบบการแนะนำ

ดูข้อมูลเพิ่มเติมได้ในการกรองแบบร่วมมือในหลักสูตรระบบการแนะนำ

การเปลี่ยนแปลงของแนวคิด

การเปลี่ยนแปลงความสัมพันธ์ระหว่างฟีเจอร์กับค่ายเพลง เมื่อเวลาผ่านไป การเปลี่ยนแปลงของแนวคิดจะลดคุณภาพของโมเดล

ในระหว่างการฝึก โมเดลจะเรียนรู้ความสัมพันธ์ระหว่างฟีเจอร์กับป้ายกำกับในชุดข้อมูลการฝึก หากป้ายกำกับในชุดการฝึกเป็นตัวแทนที่ดีสำหรับโลกแห่งความเป็นจริง โมเดลก็ควรทำนายได้ดีในโลกแห่งความเป็นจริง อย่างไรก็ตาม เนื่องจากการเลื่อนลอยของแนวคิด การคาดการณ์ของโมเดลมีแนวโน้มที่จะลดลงเมื่อเวลาผ่านไป

ตัวอย่างเช่น พิจารณาโมเดลการจัดประเภทแบบไบนารีที่คาดการณ์ว่ารถรุ่นหนึ่งๆ "ประหยัดน้ำมัน" หรือไม่ กล่าวคือ ฟีเจอร์ดังกล่าวอาจเป็นสิ่งต่อไปนี้

  • น้ำหนักรถ
  • การบีบอัดเครื่องยนต์
  • ประเภทการส่งผ่าน

ขณะที่ป้ายกำกับเป็นอย่างใดอย่างหนึ่งต่อไปนี้

  • ประหยัดเชื้อเพลิง
  • ไม่ประหยัดเชื้อเพลิง

อย่างไรก็ตาม แนวคิด "รถประหยัดเชื้อเพลิง" นั้นเปลี่ยนแปลงอยู่เสมอ รุ่นรถที่ติดป้ายกํากับว่าประหยัดเชื้อเพลิงในปี 1994 เกือบจะแน่นอนว่าจะติดป้ายกํากับว่าไม่ประหยัดเชื้อเพลิงในปี 2024 โมเดลที่ประสบปัญหาความผันผวนของแนวคิดมีแนวโน้มที่จะทําการคาดการณ์ที่มีประโยชน์น้อยลงเรื่อยๆ

เปรียบเทียบกับความไม่คงที่

ในการชดเชยความเปลี่ยนแปลงของแนวคิด ให้ฝึกโมเดลใหม่เร็วกว่าอัตราความเปลี่ยนแปลงของแนวคิด เช่น หากความเปลี่ยนแปลงของแนวคิดทําให้โมเดลมีความแม่นยําลดลงอย่างมากทุก 2 เดือน ให้ฝึกโมเดลบ่อยขึ้นกว่าทุก 2 เดือน


เงื่อนไข

#df

ในแผนภูมิการตัดสินใจ โหนดใดก็ตามที่ประเมินนิพจน์ ตัวอย่างเช่น ส่วนต่อไปนี้ของแผนภูมิการตัดสินใจมี 2 เงื่อนไข

แผนภูมิการตัดสินใจที่มี 2 เงื่อนไข ได้แก่ (x > 0) และ (y > 0)

เงื่อนไขเรียกอีกอย่างว่าการแยกกลุ่มหรือการทดสอบ

เงื่อนไขคอนทราสต์กับ leaf

และดู:

ดูข้อมูลเพิ่มเติมได้ในประเภทเงื่อนไขในหลักสูตรป่าการตัดสินใจ

การสมมติ

#language

คำพ้องความหมายของอาการหลอน

การสมมติอาจใช้แทนคำว่าภาพหลอนได้อย่างถูกต้องกว่าในแง่เทคนิค แต่ภาพหลอนได้รับความนิยมก่อน

การกำหนดค่า

กระบวนการกําหนดค่าพร็อพเพอร์ตี้เริ่มต้นที่ใช้ฝึกโมเดล ซึ่งรวมถึง

ในโปรเจ็กต์แมชชีนเลิร์นนิง คุณสามารถกําหนดค่าผ่านไฟล์การกําหนดค่าพิเศษหรือใช้ไลบรารีการกําหนดค่า เช่น ต่อไปนี้

อคติในการยืนยันความคิดตัวเอง

#fairness

แนวโน้มในการค้นหา ตีความ ชื่นชอบ และระลึกถึงข้อมูลในลักษณะที่ยืนยันความเชื่อหรือสมมติฐานที่มีอยู่ นักพัฒนาซอฟต์แวร์แมชชีนเลิร์นนิงอาจรวบรวมหรือติดป้ายกำกับข้อมูลโดยไม่ตั้งใจในลักษณะที่ส่งผลต่อผลลัพธ์ซึ่งสนับสนุนความเชื่อที่มีอยู่ อคติยืนยันความคิดตัวเองเป็นรูปแบบหนึ่งของอคติที่ไม่ตั้งใจ

อคติของผู้ทดสอบคือรูปแบบหนึ่งของอคติในการยืนยัน ซึ่งผู้ทดสอบจะฝึกโมเดลต่อไปจนกว่าจะมีการยืนยันสมมติฐานที่มีอยู่ก่อน

เมตริกความสับสน

#fundamentals

ตาราง NxN ที่สรุปจํานวนการคาดการณ์ที่ถูกต้องและไม่ถูกต้องซึ่งโมเดลการจัดประเภททํา ตัวอย่างเช่น ลองดูเมทริกซ์ความสับสนต่อไปนี้สําหรับโมเดลการจัดประเภทแบบไบนารี

เนื้องอก (คาดการณ์) ไม่ใช่เนื้องอก (คาดการณ์)
เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 18 (TP) 1 (FN)
ไม่ใช่เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 6 (FP) 452 (TN)

เมตริกความสับสนข้างต้นแสดงข้อมูลต่อไปนี้

  • ในการคาดการณ์ 19 รายการที่ข้อมูลจริงคือเนื้องอก โมเดลจัดประเภทได้อย่างถูกต้อง 18 รายการ และจัดประเภทไม่ถูกต้อง 1 รายการ
  • จากการคาดการณ์ 458 รายการที่ข้อมูลจริงคือ "ไม่ใช่เนื้องอก" โมเดลจัดประเภทได้อย่างถูกต้อง 452 รายการ และจัดประเภทอย่างไม่ถูกต้อง 6 รายการ

เมทริกซ์ความสับสนสําหรับปัญหาการจัดประเภทหลายคลาสจะช่วยคุณระบุรูปแบบของข้อผิดพลาดได้ ตัวอย่างเช่น ลองดูตารางความสับสนต่อไปนี้สําหรับโมเดลการจัดประเภทแบบหลายคลาส 3 คลาสที่จัดหมวดหมู่ม่านตา 3 ประเภทที่แตกต่างกัน (Virginica, Versicolor และ Setosa) เมื่อข้อมูลจริงคือ Virginica เมทริกซ์ความสับสนแสดงให้เห็นว่าโมเดลมีแนวโน้มที่จะคาดการณ์ Versicolor ผิดพลาดมากกว่า Setosa อย่างมาก

  Setosa (คาดการณ์) Versicolor (คาดการณ์) Virginica (คาดการณ์)
Setosa (ข้อมูลจากการสังเกตการณ์โดยตรง) 88 12 0
Versicolor (ข้อมูลจากการสังเกตการณ์โดยตรง) 6 141 7
Virginica (ข้อมูลจากการสังเกตการณ์โดยตรง) 2 27 109

อีกตัวอย่างหนึ่งคือ ตารางความสับสนอาจแสดงให้เห็นว่าโมเดลที่ฝึกให้จดจําตัวเลขที่เขียนด้วยลายมือมีแนวโน้มที่จะคาดคะเน 9 แทน 4 หรือคาดคะเน 1 แทน 7

ตารางความสับสนมีข้อมูลที่เพียงพอในการคํานวณเมตริกประสิทธิภาพที่หลากหลาย ซึ่งรวมถึงความแม่นยําและความครอบคลุม

การวิเคราะห์เขตเลือกตั้ง

#language

การแบ่งประโยคออกเป็นโครงสร้างทางไวยากรณ์ที่เล็กลง ("องค์ประกอบ") ส่วนต่อมาของระบบ ML เช่น โมเดลความเข้าใจภาษาธรรมชาติ จะแยกวิเคราะห์องค์ประกอบต่างๆ ได้ง่ายกว่าประโยคต้นฉบับ ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

เพื่อนของฉันรับแมวมาเลี้ยง 2 ตัว

โปรแกรมแยกองค์ประกอบสามารถแบ่งประโยคนี้ออกเป็นองค์ประกอบ 2 รายการต่อไปนี้

  • เพื่อนของฉันคือวลีนาม
  • รับเลี้ยงแมว 2 ตัวเป็นวลีที่มีคํากริยา

องค์ประกอบเหล่านี้สามารถแบ่งย่อยออกเป็นองค์ประกอบขนาดเล็กๆ เพิ่มเติมได้ เช่น วลีที่มีคํากริยา

อุปการะแมว 2 ตัว

อาจแบ่งย่อยออกเป็น

  • adopted เป็นกริยา
  • two cats เป็นวลีนามอีกวลีหนึ่ง

การฝังภาษาตามบริบท

#language
#generativeAI

การฝังที่ใกล้เคียงกับ "การทำความเข้าใจ" คำและวลีในลักษณะที่มนุษย์พูดได้อย่างคล่องแคล่ว ข้อมูลเชิงลึกของภาษาตามบริบทจะเข้าใจไวยากรณ์ ความหมาย และบริบทที่ซับซ้อน

เช่น ลองพิจารณาการฝังคําภาษาอังกฤษว่า cow รูปแบบการฝังข้อมูลรุ่นเก่า เช่น word2vec สามารถแสดงคำภาษาอังกฤษได้ เช่น ระยะทางในพื้นที่การฝังข้อมูลจากวัวถึงวัวกระทิงจะคล้ายกับระยะทางจากแม่แพะ (แพะตัวเมีย) ถึงแพะตัวผู้ หรือจากหญิงถึงชาย การป้อนข้อมูลภาษาตามบริบทสามารถดำเนินการต่อได้โดยตระหนักว่าบางครั้งผู้พูดภาษาอังกฤษใช้คำว่า cow ในความหมายว่าวัวหรือวัวตัวผู้ก็ได้

กรอบเวลาบริบท

#language
#generativeAI

จำนวนโทเค็นที่โมเดลประมวลผลได้ในพรอมต์หนึ่งๆ ยิ่งหน้าต่างบริบทมีขนาดใหญ่เท่าใด โมเดลก็จะใช้ข้อมูลได้มากขึ้นเพื่อตอบกลับพรอมต์อย่างสอดคล้องและต่อเนื่อง

ฟีเจอร์ต่อเนื่อง

#fundamentals

ฟีเจอร์ทศนิยมที่มีค่าที่เป็นไปได้ในขอบเขตอนันต์ เช่น อุณหภูมิหรือน้ำหนัก

ตรงข้ามกับองค์ประกอบแบบไม่ต่อเนื่อง

การสุ่มตัวอย่างแบบตามสะดวก

การใช้ชุดข้อมูลที่รวบรวมมาอย่างไม่เป็นวิทยาศาสตร์เพื่อทำการทดสอบอย่างรวดเร็ว หลังจากนั้น คุณควรเปลี่ยนไปใช้ชุดข้อมูลที่รวบรวมอย่างเป็นวิทยาศาสตร์

การบรรจบ

#fundamentals

สถานะที่พบเมื่อค่า loss เปลี่ยนแปลงเพียงเล็กน้อยหรือไม่เปลี่ยนแปลงเลยในแต่ละรอบ ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้แสดงให้เห็นการบรรจบกันเมื่อประมาณ 700 รอบ

ผังพิกัดคาร์ทีเซียน แกน X หายไป แกน Y คือจํานวนการทำซ้ำการฝึก การสูญเสียสูงมากในช่วง 2-3 Iteration แรก แต่ลดลงอย่างรวดเร็ว หลังจากประมาณ 100 รอบ อัตราสูญเสียจะยังคงลดลงแต่ลดลงอย่างช้าๆ หลังจากทำซ้ำประมาณ 700 ครั้งแล้ว ผลลัพธ์ของการสูญเสียจะคงที่

โมเดลจะบรรลุความสอดคล้องเมื่อการฝึกเพิ่มเติมไม่ช่วยปรับปรุงโมเดล

ในการเรียนรู้เชิงลึก บางครั้งค่าการสูญเสียจะคงที่หรือเกือบคงที่ตลอดการวนซ้ำหลายครั้งก่อนที่จะลดลงในที่สุด ในช่วงที่มีมูลค่าการสูญเสียคงที่เป็นเวลานาน คุณอาจรู้สึกว่ามีการบรรจบกันชั่วคราว

โปรดดูการหยุดก่อนกำหนดด้วย

ดูข้อมูลเพิ่มเติมที่เส้นโค้งการบรรจบของโมเดลและเส้นโค้งการสูญเสียในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟังก์ชันโคเวกซ์

ฟังก์ชันที่บริเวณเหนือกราฟของฟังก์ชันเป็นเซตเว้า ฟังก์ชันโค้งมนตามแบบฉบับมีรูปร่างคล้ายตัวอักษร U ตัวอย่างเช่น ฟังก์ชันต่อไปนี้ล้วนเป็นฟังก์ชันโค้งมน

เส้นโค้งรูปตัวยู โดยแต่ละเส้นจะมีจุดต่ำสุดเพียงจุดเดียว

ในทางตรงกันข้าม ฟังก์ชันต่อไปนี้ไม่ใช่ฟังก์ชันที่โค้งออก สังเกตว่าบริเวณเหนือกราฟไม่ใช่เซตที่Convex

เส้นโค้งรูปตัว W ที่มีจุดต่ำสุดในพื้นที่ 2 จุด

ฟังก์ชันที่นูนไปทางเดียวจะมีจุดต่ำสุดเฉพาะที่เพียงจุดเดียว ซึ่งเป็นจุดต่ำสุดทั้งระบบด้วย ฟังก์ชันรูปตัวยูแบบคลาสสิกเป็นฟังก์ชันที่นูนไปข้างหน้าอย่างสมบูรณ์ อย่างไรก็ตาม ฟังก์ชันโค้งมนบางรายการ (เช่น เส้นตรง) ไม่ได้เป็นรูปตัวยู

ฟังก์ชันการสูญเสียทั่วไปจํานวนมาก รวมถึงฟังก์ชันต่อไปนี้เป็นฟังก์ชันโค้งออก

การลดค่าความชันรูปแบบต่างๆ รับประกันว่าจะพบจุดที่อยู่ใกล้กับค่าต่ำสุดของฟังก์ชันที่โค้งออกอย่างชัดแจ้ง ในทํานองเดียวกัน การลดเชิงลาดแบบสุ่มรูปแบบต่างๆ มีโอกาสสูง (แต่ไม่ใช่การรับประกัน) ที่จะพบจุดที่อยู่ใกล้กับค่าต่ำสุดของฟังก์ชันที่โค้งออกด้านนอกอย่างเคร่งครัด

ผลรวมของฟังก์ชันโคเวกซ์ 2 รายการ (เช่น ขั้นตอนการสูญเสีย L2 + การปรับ L1) เป็นฟังก์ชันโคเวกซ์

โมเดลเชิงลึกไม่ใช่ฟังก์ชันที่โค้งออก สิ่งที่น่าทึ่งคืออัลกอริทึมที่ออกแบบมาเพื่อการเพิ่มประสิทธิภาพแบบโคเวกซ์มักจะพบวิธีแก้ปัญหาที่ค่อนข้างดีในเครือข่ายเชิงลึก แม้ว่าจะไม่มีการรับประกันว่าวิธีแก้ปัญหาเหล่านั้นจะเป็นค่าต่ำสุดทั่วโลก


ดูข้อมูลเพิ่มเติมได้ที่ฟังก์ชันที่บรรจบและฟังก์ชันโค้งมนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเพิ่มประสิทธิภาพแบบโค้งมน

กระบวนการใช้เทคนิคทางคณิตศาสตร์ เช่น การลดเชิงลาดเพื่อค้นหาค่าต่ำสุดของฟังก์ชันโค้งมน งานวิจัยส่วนใหญ่เกี่ยวกับแมชชีนเลิร์นนิงมุ่งเน้นที่การกําหนดปัญหาต่างๆ เป็นปัญหาการเพิ่มประสิทธิภาพแบบโคเวกซ์ และการแก้ปัญหาเหล่านั้นอย่างมีประสิทธิภาพมากขึ้น

ดูรายละเอียดทั้งหมดได้ที่ Boyd and Vandenberghe, Convex Optimization

ชุดแบบนูน

ชุดย่อยของพื้นที่เชิงยูคลิดซึ่งเส้นที่ลากระหว่างจุด 2 จุดใดก็ได้ในชุดย่อยจะยังคงอยู่ในชุดย่อยนั้นโดยสมบูรณ์ ตัวอย่างเช่น รูปทรง 2 รูปต่อไปนี้เป็นเซตที่Convex

ภาพสี่เหลี่ยมผืนผ้า 1 ภาพ ภาพวงรีอีกภาพหนึ่ง

ในทางตรงกันข้าม รูปทรง 2 รูปต่อไปนี้ไม่ใช่ชุดรูปทรงเว้า

ภาพแผนภูมิวงกลม 1 ภาพที่ไม่มีส่วน
          ภาพอีกภาพหนึ่งของรูปหลายเหลี่ยมที่ผิดปกติอย่างมาก

การฟัซชัน

#image

ในคณิตศาสตร์ หมายถึงการผสมผสานฟังก์ชัน 2 รายการ ในแมชชีนเลิร์นนิง การฟัซซิชันจะผสมฟิลเตอร์ฟัซซิชันเข้ากับเมทริกซ์อินพุตเพื่อฝึกน้ำหนัก

คําว่า "Conv" ในแมชชีนเลิร์นนิงมักเป็นวิธีเรียกสั้นๆ ของการดำเนินการ Conv หรือเลเยอร์ Conv

หากไม่มีการดำเนินการฟิวชัน อัลกอริทึมของแมชชีนเลิร์นนิงจะต้องเรียนรู้น้ำหนักแยกกันสำหรับทุกเซลล์ใน เทนเซอร์ขนาดใหญ่ ตัวอย่างเช่น การฝึกอัลกอริทึมแมชชีนเลิร์นนิงด้วยรูปภาพขนาด 2K x 2K จะบังคับให้ต้องหาน้ำหนักแยกกัน 4 ล้านรายการ การใช้การกรองแบบ Convolution ทำให้อัลกอริทึมของแมชชีนเลิร์นนิงต้องค้นหาน้ำหนักสำหรับทุกเซลล์ในฟิลเตอร์แบบ Convolution เท่านั้น ซึ่งจะช่วยลดหน่วยความจําที่จําเป็นในการฝึกโมเดลได้อย่างมาก เมื่อใช้ตัวกรองแบบ Convolutional ระบบจะทําซ้ำตัวกรองนี้ในเซลล์ต่างๆ เพื่อให้แต่ละเซลล์คูณด้วยตัวกรอง

ดูข้อมูลเพิ่มเติมได้ที่การนําเสนอเครือข่ายประสาทแบบConvolutiveในหลักสูตรการแยกประเภทรูปภาพ

ฟิลเตอร์แบบ Convolution

#image

หนึ่งใน 2 องค์ประกอบในการดำเนินการแบบ Convolution (ตัวแปรอื่นคือส่วนหนึ่งของเมทริกซ์อินพุต) ฟิลเตอร์แบบ Convolution คือเมทริกซ์ที่มีอันดับเหมือนกับเมทริกซ์อินพุต แต่มีรูปร่างที่เล็กกว่า เช่น เมื่อใช้เมทริกซ์อินพุต 28x28 ตัวกรองอาจเป็นเมทริกซ์ 2 มิติที่เล็กกว่า 28x28

ในการจัดการภาพ โดยทั่วไปแล้วเซลล์ทั้งหมดในตัวกรองแบบ Convolution จะมีการกําหนดให้เป็นรูปแบบ 1 และ 0 คงที่ ในแมชชีนเลิร์นนิง โดยทั่วไปแล้วตัวกรองแบบ Convolution จะได้รับการสร้างด้วยตัวเลขสุ่ม จากนั้นเครือข่ายจะฝึกค่าที่เหมาะสม

ดูข้อมูลเพิ่มเติมที่การกรองข้อมูลในหลักสูตรการจัดประเภทรูปภาพ

เลเยอร์ Conv

#image

เลเยอร์ของโครงข่ายประสาทแบบลึก ซึ่งฟิลเตอร์แบบ Convolution ส่งผ่านเมทริกซ์อินพุต ตัวอย่างเช่น ลองพิจารณาตัวกรองแบบ Convolution ขนาด 3x3 ต่อไปนี้

เมทริกซ์ 3x3 ที่มีค่าต่อไปนี้ [[0,1,0], [1,0,1], [0,1,0]]

ภาพเคลื่อนไหวต่อไปนี้แสดงชั้น ConvNet ประกอบด้วยการดำเนินการ ConvNet 9 รายการที่เกี่ยวข้องกับเมทริกซ์อินพุต 5x5 โปรดทราบว่าการดำเนินการเชิงกรวยแต่ละรายการจะทำงานกับส่วน 3x3 ที่ต่างกันของเมทริกซ์อินพุต เมทริกซ์ 3x3 ที่ได้ (ทางด้านขวา) ประกอบด้วยผลลัพธ์ของการดำเนินการฟีเจอร์แมป 9 รายการดังนี้

ภาพเคลื่อนไหวแสดงเมทริกซ์ 2 รายการ เมทริกซ์แรกคือเมทริกซ์ 5x5 ดังนี้ [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]
          เมทริกซ์ที่ 2 คือเมทริกซ์ 3x3 ดังนี้
          [[181,303,618], [115,338,605], [169,351,560]]
          แมทริกซ์ที่ 2 คำนวณโดยใช้ตัวกรองการแปลงคอนโวลูชัน [[0, 1, 0], [1, 0, 1], [0, 1, 0]] ในชุดย่อย 3x3 ที่ต่างกันของเมทริกซ์ 5x5

ดูข้อมูลเพิ่มเติมได้ในเลเยอร์แบบ Fully Connected ในหลักสูตรการแยกประเภทรูปภาพ

โครงข่ายประสาทแบบ Convolutive

#image

เครือข่ายประสาทเทียมที่มีชั้นเป็นชั้น Conv อย่างน้อย 1 ชั้น โดยทั่วไปแล้ว เครือข่ายประสาทแบบ Convolutive จะประกอบด้วยชั้นต่อไปนี้

เครือข่ายประสาทแบบใช้ตัวคูณ (Convolutional Neural Network) ประสบความสําเร็จอย่างมากกับปัญหาบางประเภท เช่น การจดจํารูปภาพ

การดำเนินการแบบ Convolution

#image

การดำเนินการทางคณิตศาสตร์แบบ 2 ขั้นตอนต่อไปนี้

  1. การคูณตามองค์ประกอบของฟิลเตอร์คอนเววลูชันและส่วนของเมทริกซ์อินพุต (ส่วนของเมทริกซ์อินพุตมีลําดับและขนาดเดียวกับตัวกรองแบบ Convolution)
  2. การรวมค่าทั้งหมดในเมทริกซ์ผลิตภัณฑ์ที่ได้

ตัวอย่างเช่น ลองพิจารณาเมทริกซ์อินพุต 5x5 ต่อไปนี้

เมทริกซ์ 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]

ลองจินตนาการถึงตัวกรองคอนเวโลชัน 2x2 ต่อไปนี้

เมทริกซ์ 2x2: [[1, 0], [0, 1]]

การดำเนินการแบบกรวย 1 รายการเกี่ยวข้องกับส่วน 2x2 เดียวของเมทริกซ์อินพุต เช่น สมมติว่าเราใช้ส่วน 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุต ดังนั้น การดำเนินการฟิวชันกับส่วนนี้จึงมีลักษณะดังนี้

การใช้ตัวกรองแบบ Convolution [[1, 0], [0, 1]] กับส่วน 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุต ซึ่งก็คือ [[128,97], [35,22]]
          ตัวกรองคอนเวโลชันจะคงค่า 128 และ 22 ไว้ แต่ทำให้ค่า 97 และ 35 เป็น 0 ดังนั้น การดำเนินการฟิวชันจึงให้ค่า 150 (128+22)

ชั้น Conv ประกอบด้วยชุดการดำเนินการ Conv โดยแต่ละรายการจะดำเนินการกับส่วนต่างๆ ของเมทริกซ์อินพุต

ต้นทุน

#Metric

คำพ้องความหมายของ loss

การฝึกอบรมร่วม

แนวทางการเรียนรู้แบบควบคุมบางส่วนมีประโยชน์อย่างยิ่งเมื่อเงื่อนไขต่อไปนี้ทั้งหมดเป็นจริง

การฝึกร่วมจะขยายสัญญาณอิสระให้กลายเป็นสัญญาณที่แรงขึ้น ตัวอย่างเช่น พิจารณาโมเดลการจัดประเภทที่จัดหมวดหมู่รถมือสองแต่ละคันเป็นดีหรือไม่ดี ฟีเจอร์การคาดการณ์ชุดหนึ่งอาจมุ่งเน้นที่ลักษณะโดยรวม เช่น ปี ยี่ห้อ และรุ่นของรถ ส่วนฟีเจอร์การคาดการณ์อีกชุดหนึ่งอาจมุ่งเน้นที่ประวัติการขับขี่ของผู้เป็นเจ้าของคนก่อนและประวัติการบำรุงรักษาของรถ

บทความสําคัญเกี่ยวกับการฝึกร่วมคือการรวมข้อมูลที่มีป้ายกํากับและไม่มีป้ายกํากับด้วยการฝึกร่วมโดย Blum และ Mitchell

ความเป็นธรรมแบบเทียบเคียง

#fairness
#Metric

เมตริกความเป็นธรรมที่ตรวจสอบว่าโมเดลการจัดประเภทให้ผลลัพธ์เหมือนกันสำหรับบุคคลหนึ่งกับบุคคลอื่นที่เหมือนกันกับบุคคลแรกหรือไม่ ยกเว้นในกรณีที่เกี่ยวข้องกับแอตทริบิวต์ที่มีความละเอียดอ่อนอย่างน้อย 1 รายการ การประเมินโมเดลการจัดประเภทเพื่อหาความยุติธรรมตามเงื่อนไขสมมติเป็นวิธีหนึ่งในการค้นหาแหล่งที่มาที่อาจทำให้เกิดอคติในโมเดล

โปรดดูข้อมูลเพิ่มเติมที่หัวข้อต่อไปนี้

อคติในการรายงาน

#fairness

ดูการเลือกแบบลำเอียง

ดอกซากุระ

#language

ประโยคหรือวลีที่มีความหมายคลุมเครือ ข้อความที่แสดงผลไม่ถูกต้องเป็นปัญหาที่สำคัญในความเข้าใจภาษาธรรมชาติ ตัวอย่างเช่น บรรทัดแรก Red Tape Holds Up Skyscraper เป็นตัวอย่างของ Crash Blossom เนื่องจากโมเดล NLU อาจตีความบรรทัดแรกตามตัวอักษรหรือตามความหมาย

ขอชี้แจงพาดหัวลึกลับนี้นิดนึง
  • กฎระเบียบอาจหมายถึงอย่างใดอย่างหนึ่งต่อไปนี้
    • กาว
    • ขั้นตอนที่ยุ่งยากมากเกินไป
  • ถือได้อาจหมายถึงอย่างใดอย่างหนึ่งต่อไปนี้
    • การสนับสนุนโครงสร้าง
    • ความล่าช้า

นักวิจารณ์

#rl

คำพ้องความหมายของ Deep Q-Network

เอนโทรปีครอส

#Metric

การทั่วไปของ Log Loss ไปใช้กับปัญหาการจัดประเภทหลายคลาส การเข้ารหัสไขว้จะวัดความแตกต่างระหว่างการแจกแจงความน่าจะเป็น 2 รายการ โปรดดูความสับสนด้วย

การทดสอบครอสตรวจสอบ

กลไกในการประมาณว่าโมเดลจะทํางานกับข้อมูลใหม่ได้ดีเพียงใด โดยทดสอบโมเดลกับชุดข้อมูลย่อยที่ไม่มีการทับซ้อนกันอย่างน้อย 1 ชุดซึ่งเก็บไว้จากชุดข้อมูลการฝึก

ฟังก์ชันการแจกแจงสะสม (CDF)

#Metric

ฟังก์ชันที่กําหนดความถี่ของตัวอย่างที่น้อยกว่าหรือเท่ากับค่าเป้าหมาย ตัวอย่างเช่น ลองพิจารณาการแจกแจงปกติของค่าต่อเนื่อง CDF บอกคุณว่าตัวอย่างประมาณ 50% ควรน้อยกว่าหรือเท่ากับค่ามัธยฐาน และตัวอย่างประมาณ 84% ควรน้อยกว่าหรือเท่ากับค่าเบี่ยงเบนมาตรฐาน 1 เท่าเหนือค่ามัธยฐาน

D

การวิเคราะห์ข้อมูล

ทําความเข้าใจข้อมูลโดยพิจารณาจากตัวอย่าง การวัด และการแสดงข้อมูลเป็นภาพ การวิเคราะห์ข้อมูลจะมีประโยชน์อย่างยิ่งเมื่อได้รับชุดข้อมูลเป็นครั้งแรก ก่อนที่จะสร้างรูปแบบแรก นอกจากนี้ ยังมีความสำคัญอย่างยิ่งในการทําความเข้าใจการทดสอบและการแก้ไขข้อบกพร่องของระบบ

การเสริมข้อมูล

#image

การเพิ่มช่วงและจํานวนตัวอย่างการฝึกด้วยการเปลี่ยนรูปแบบตัวอย่างที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติม ตัวอย่างเช่น สมมติว่ารูปภาพเป็นหนึ่งในฟีเจอร์ แต่ชุดข้อมูลของคุณไม่มีตัวอย่างรูปภาพเพียงพอที่จะช่วยให้โมเดลเรียนรู้การเชื่อมโยงที่เป็นประโยชน์ โดยหลักการแล้ว คุณควรเพิ่มรูปภาพที่ติดป้ายกำกับลงในชุดข้อมูลให้เพียงพอเพื่อให้โมเดลได้รับการฝึกอย่างเหมาะสม หากทำไม่ได้ การขยายข้อมูลจะหมุน ยืด และสะท้อนแต่ละรูปภาพเพื่อสร้างรูปภาพต้นฉบับหลายรูปแบบ ซึ่งอาจให้ข้อมูลที่ติดป้ายกำกับเพียงพอสำหรับการทําการฝึกที่ยอดเยี่ยม

DataFrame

#fundamentals

ประเภทข้อมูล pandas ที่ได้รับความนิยมสําหรับแสดงชุดข้อมูลในหน่วยความจํา

กรอบข้อมูลจะคล้ายกับตารางหรือสเปรดชีต คอลัมน์แต่ละคอลัมน์ของ DataFrame จะมีชื่อ (ส่วนหัว) และแต่ละแถวจะระบุด้วยหมายเลขที่ไม่ซ้ำกัน

แต่ละคอลัมน์ใน DataFrame มีโครงสร้างเหมือนอาร์เรย์ 2 มิติ ยกเว้นที่แต่ละคอลัมน์สามารถกําหนดประเภทข้อมูลของตัวเองได้

โปรดดูหน้าอ้างอิงอย่างเป็นทางการของ pandas.DataFrame ด้วย

การประมวลผลข้อมูลแบบขนาน

วิธีปรับขนาดการฝึกหรือการอนุมานซึ่งทำซ้ำโมเดลทั้งชุดในอุปกรณ์หลายเครื่อง แล้วส่งชุดย่อยของข้อมูลอินพุตไปยังแต่ละอุปกรณ์ การขนานข้อมูลช่วยให้สามารถฝึกและอนุมานกลุ่มทดสอบขนาดใหญ่ได้ แต่การขนานข้อมูลกำหนดให้โมเดลมีขนาดเล็กพอที่จะติดตั้งในอุปกรณ์ทั้งหมดได้

โดยปกติแล้วการทำงานแบบขนานของข้อมูลจะเร่งการฝึกอบรมและการทำนาย

โปรดดูการทํางานแบบขนานของโมเดลด้วย

Dataset API (tf.data)

#TensorFlow

TensorFlow API ระดับสูงสําหรับการอ่านข้อมูลและการเปลี่ยนรูปแบบข้อมูลให้อยู่ในรูปแบบที่อัลกอริทึมของแมชชีนเลิร์นนิงต้องการ ออบเจ็กต์ tf.data.Dataset แสดงถึงลําดับองค์ประกอบ ซึ่งแต่ละองค์ประกอบมี Tensor อย่างน้อย 1 รายการ ออบเจ็กต์ tf.data.Iterator ให้สิทธิ์เข้าถึงองค์ประกอบของ Dataset

ชุดข้อมูล

#fundamentals

ชุดข้อมูลดิบ ซึ่งมัก (แต่ไม่ใช่ทั้งหมด) จัดระเบียบในรูปแบบใดรูปแบบหนึ่งต่อไปนี้

  • สเปรดชีต
  • ไฟล์ในรูปแบบ CSV (ค่าที่คั่นด้วยคอมมา)

ขอบเขตการตัดสินใจ

ตัวคั่นระหว่างคลาสที่เรียนรู้โดยโมเดลในคลาสแบบไบนารีหรือปัญหาการจัดประเภทแบบหลายคลาส ตัวอย่างเช่น ในรูปภาพต่อไปนี้ซึ่งแสดงปัญหาการจัดประเภทแบบ 2 กลุ่ม ขอบเขตการตัดสินคือเส้นแบ่งระหว่างคลาสสีส้มและคลาสสีน้ำเงิน

ขอบเขตที่ชัดเจนระหว่างชั้นเรียนหนึ่งกับอีกชั้นเรียนหนึ่ง

ป่าการตัดสินใจ

#df

โมเดลที่สร้างจากต้นไม้การตัดสินใจหลายรายการ ป่าการตัดสินใจจะทําการคาดการณ์โดยการรวบรวมการคาดการณ์ของต้นไม้การตัดสินใจ ป่าการตัดสินใจประเภทยอดนิยม ได้แก่ ป่าแบบสุ่มและต้นไม้ที่มีการเพิ่มประสิทธิภาพด้วย Gradient

ดูข้อมูลเพิ่มเติมได้ที่ส่วนป่าการตัดสินใจในหลักสูตรป่าการตัดสินใจ

เกณฑ์การตัดสินใจ

คำพ้องความหมายของเกณฑ์การจัดประเภท

แผนภูมิการตัดสินใจ

#df

โมเดลการเรียนรู้ที่มีการควบคุมดูแลซึ่งประกอบด้วยชุดเงื่อนไขและใบที่จัดระเบียบเป็นลําดับชั้น ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้

แผนภูมิการตัดสินใจที่มีเงื่อนไข 4 รายการที่จัดเรียงตามลําดับชั้น ซึ่งนําไปสู่ใบ 5 ใบ

เครื่องมือถอดรหัส

#language

โดยทั่วไปแล้ว ระบบ ML ใดก็ตามที่แปลงจากการแสดงผลที่ประมวลผลแล้ว หนาแน่น หรือภายในเป็นการแสดงผลที่ดิบ เบาบาง หรือภายนอกมากขึ้น

ตัวถอดรหัสมักเป็นคอมโพเนนต์ของโมเดลขนาดใหญ่ ซึ่งมักจะจับคู่กับโปรแกรมและอุปกรณ์เปลี่ยนไฟล์

ในงานแบบอนุกรมต่ออนุกรม ตัวถอดรหัสจะเริ่มต้นด้วยสถานะภายในที่เอนโค้ดเดอร์สร้างขึ้นเพื่อคาดการณ์ลำดับถัดไป

ดูคำจำกัดความของตัวถอดรหัสภายในสถาปัตยกรรม Transformer ได้ที่ Transformer

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โมเดลเชิงลึก

#fundamentals

เครือข่ายประสาทเทียมที่มีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 เลเยอร์

โมเดลเชิงลึกเรียกอีกอย่างว่าโครงข่ายประสาทแบบลึก

ตรงข้ามกับรูปแบบกว้าง

โครงข่ายประสาทแบบลึก

คำพ้องความหมายของโมเดลเชิงลึก

เครือข่าย Deep Q (DQN)

#rl

ใน การเรียนรู้ด้วย Q-Learning จะมีโครงข่ายประสาทแบบลึกที่คาดคะเนฟังก์ชัน Q

Critic เป็นคําพ้องความหมายของ Deep Q-Network

ความเท่าเทียมตามข้อมูลประชากร

#fairness
#Metric

เมตริกความเป็นธรรมที่เป็นไปตามข้อกำหนดหากผลการจัดประเภทของโมเดลไม่ขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อนที่ระบุ

เช่น หากทั้งชาวลิลลี่ปุตและชาวบราบิงแน็กสมัครเข้ามหาวิทยาลัยกลุบบัดบรีบ ความเป็นธรรมด้านข้อมูลประชากรจะเกิดขึ้นเมื่อเปอร์เซ็นต์ของชาวลิลลี่ปุตที่ได้รับอนุญาตเท่ากับเปอร์เซ็นต์ของชาวบราบิงแน็กที่ได้รับอนุญาต โดยไม่คำนึงว่ากลุ่มหนึ่งมีคุณวุฒิมากกว่าอีกกลุ่มโดยเฉลี่ยหรือไม่

ซึ่งต่างจากโอกาสที่เท่าเทียมและความเสมอภาคของโอกาสที่อนุญาตให้ผลการจัดประเภทโดยรวมขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อน แต่ไม่อนุญาตให้ผลการจัดประเภทสำหรับป้ายกำกับข้อมูลจริงที่ระบุบางรายการขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อน ดูภาพแสดง"การต่อสู้กับการแบ่งแยกด้วยแมชชีนเลิร์นนิงที่ฉลาดขึ้น" เพื่อสำรวจข้อเสียเปรียบเมื่อเพิ่มประสิทธิภาพเพื่อความเป็นธรรมด้านข้อมูลประชากร

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ความเท่าเทียมทางประชากรในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การกรองสัญญาณรบกวน

#language

แนวทางทั่วไปของการเรียนรู้แบบควบคุมตนเอง ซึ่งมีลักษณะดังนี้

  1. เพิ่มสัญญาณรบกวนลงในชุดข้อมูล
  2. โมเดลจะพยายามนำเสียงรบกวนออก

การกรองสัญญาณรบกวนช่วยให้สามารถเรียนรู้จากตัวอย่างที่ไม่มีป้ายกำกับ ชุดข้อมูลเดิมทำหน้าที่เป็นเป้าหมายหรือป้ายกำกับ และข้อมูลที่มีสัญญาณรบกวนเป็นอินพุต

โมเดลภาษาที่มีการปกปิดบางรุ่นใช้การกรองสัญญาณรบกวน ดังนี้

  1. ระบบจะเพิ่มสัญญาณรบกวนลงในประโยคที่ไม่มีป้ายกำกับโดยการปกปิดโทเค็นบางส่วน
  2. โมเดลจะพยายามคาดคะเนโทเค็นต้นฉบับ

องค์ประกอบที่หนาแน่น

#fundamentals

ฟีเจอร์ซึ่งมีค่าส่วนใหญ่หรือทั้งหมดไม่ใช่ 0 ซึ่งโดยปกติแล้วจะเป็น Tensor ของค่าทศนิยม ตัวอย่างเช่น เทนเซอร์ 10 องค์ประกอบต่อไปนี้เป็นแบบหนาแน่นเนื่องจากค่า 9 ค่าไม่ใช่ 0

8 3 7 5 2 4 0 4 9 6

ตรงข้ามกับองค์ประกอบที่กระจัดกระจาย

เลเยอร์แบบหนาแน่น

คำพ้องความหมายของเลเยอร์แบบเชื่อมต่อทั้งหมด

ความลึก

#fundamentals

ผลรวมของรายการต่อไปนี้ในโครงข่ายประสาทเทียม

เช่น เครือข่ายประสาทที่มีเลเยอร์ที่ซ่อนอยู่ 5 ชั้นและเลเยอร์เอาต์พุต 1 ชั้นจะมีระดับความลึก 6

โปรดทราบว่าเลเยอร์อินพุตไม่มีผลต่อความลึก

โครงข่ายประสาทแบบ Convolutive ที่แยกตามมิติความลึกได้ (sepCNN)

#image

สถาปัตยกรรมโครงข่ายประสาทแบบ Convolutiveที่อิงตาม Inception แต่ใช้ Convolutive แบบแยกตามระดับความลึกแทนโมดูล Inception หรือที่เรียกว่า Xception

การกรองเชิงลึกแบบแยกส่วน (หรือเรียกสั้นๆ ว่า "การกรองแบบแยกส่วน") จะแยกการกรอง 3 มิติมาตรฐานออกเป็น 2 การดำเนินการกรองแยกกัน ซึ่งมีประสิทธิภาพในการประมวลผลมากกว่า การดำเนินการแรกคือการกรองเชิงลึกที่มีความลึก 1 (n ✕ n ✕ 1) และการดำเนินการที่ 2 คือการกรองแบบจุดที่มีความกว้างและความยาว 1 (1 ✕ 1 ✕ n)

ดูข้อมูลเพิ่มเติมได้ที่ Xception: Deep Learning with Depthwise Separable Convolutions

ป้ายกำกับที่ดึงข้อมูล

คำพ้องความหมายของป้ายกำกับพร็อกซี

อุปกรณ์

#TensorFlow
#GoogleCloud

คําที่ใช้งานมากเกินไปซึ่งมีคําจํากัดความที่เป็นไปได้ 2 รายการดังนี้

  1. หมวดหมู่ฮาร์ดแวร์ที่เรียกใช้เซสชัน TensorFlow ได้ ซึ่งรวมถึง CPU, GPU และ TPU
  2. เมื่อฝึกโมเดล ML ในชิปเร่งความเร็ว (GPU หรือ TPU) ส่วนที่จัดการเทนเซอร์และการฝังของระบบ อุปกรณ์ทำงานด้วยชิปเร่ง ในทางตรงกันข้าม โฮสต์มักทำงานบน CPU

Differential Privacy

ในแมชชีนเลิร์นนิง แนวทางการลบข้อมูลระบุตัวบุคคลเพื่อปกป้องข้อมูลที่ละเอียดอ่อน (เช่น ข้อมูลส่วนบุคคลของบุคคล) ที่รวมอยู่ในชุดข้อมูลการฝึกของโมเดลไม่ให้ถูกเปิดเผย แนวทางนี้ช่วยให้มั่นใจว่าโมเดลจะไม่เรียนรู้หรือจดจําข้อมูลมากนักเกี่ยวกับบุคคลหนึ่งๆ ซึ่งทำได้โดยการสุ่มตัวอย่างและเพิ่มสัญญาณรบกวนระหว่างการฝึกโมเดลเพื่อบดบังจุดข้อมูลแต่ละจุด ซึ่งจะช่วยลดความเสี่ยงในการเปิดเผยข้อมูลการฝึกอบรมที่มีความละเอียดอ่อน

นอกจากนี้ Differential Privacy ยังใช้นอกเหนือไปจากแมชชีนเลิร์นนิงด้วย ตัวอย่างเช่น บางครั้งนักวิทยาศาสตร์ข้อมูลใช้ Differential Privacy เพื่อปกป้องความเป็นส่วนตัวของบุคคลเมื่อคํานวณสถิติการใช้งานผลิตภัณฑ์สําหรับข้อมูลประชากรที่แตกต่างกัน

การลดมิติข้อมูล

การลดจํานวนมิติข้อมูลที่ใช้ในการแสดงฟีเจอร์หนึ่งๆ ในเวกเตอร์ลักษณะ ซึ่งโดยปกติแล้วจะเป็นการเปลี่ยนเป็นเวกเตอร์การฝัง

ขนาด

คําที่มีความหมายหลายอย่างซึ่งมีคําจํากัดความอย่างใดอย่างหนึ่งต่อไปนี้

  • จำนวนระดับของพิกัดใน Tensor เช่น

    • เวกเตอร์สเกลาร์จะมีมิติข้อมูลเป็น 0 เช่น ["Hello"]
    • เวกเตอร์มีมิติข้อมูลเดียว เช่น [3, 5, 7, 11]
    • เมทริกซ์มี 2 มิติ เช่น [[2, 4, 18], [5, 7, 14]] คุณสามารถระบุเซลล์หนึ่งๆ ในเวกเตอร์ 1 มิติได้อย่างไม่ซ้ำกันด้วยพิกัด 1 รายการ แต่ต้องใช้พิกัด 2 รายการเพื่อระบุเซลล์หนึ่งๆ ในเมทริกซ์ 2 มิติได้อย่างไม่ซ้ำกัน
  • จํานวนรายการในเวกเตอร์องค์ประกอบ

  • จํานวนองค์ประกอบในเลเยอร์การฝัง

การแจ้งเตือนโดยตรง

#language
#generativeAI

คำพ้องความหมายของพรอมต์แบบไม่ใช้ตัวอย่าง

ฟีเจอร์แบบไม่ต่อเนื่อง

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้แบบจำกัด เช่น ฟีเจอร์ที่มีค่าเป็นได้เพียง สัตว์ ผัก หรือแร่เป็นฟีเจอร์แบบไม่ต่อเนื่อง (หรือแบบหมวดหมู่)

ตรงข้ามกับองค์ประกอบต่อเนื่อง

โมเดลการแยกแยะ

โมเดลที่คาดการณ์ป้ายกํากับจากชุดฟีเจอร์อย่างน้อย 1 รายการ กล่าวอย่างเป็นทางการมากขึ้นคือ โมเดลการแยกแยะจะกําหนดความน่าจะเป็นแบบมีเงื่อนไขของเอาต์พุตโดยพิจารณาจากฟีเจอร์และน้ำหนัก ดังนี้

p(output | features, weights)

เช่น โมเดลที่คาดการณ์ว่าอีเมลเป็นสแปมหรือไม่จากฟีเจอร์และน้ำหนักเป็นโมเดลการแยกแยะ

โมเดลการเรียนรู้แบบควบคุมส่วนใหญ่ ซึ่งรวมถึงโมเดลการจัดประเภทและโมเดลการหาค่าประมาณ ล้วนเป็นโมเดลการแยกแยะ

ตรงข้ามกับโมเดล Generative

ตัวแบ่ง

ระบบที่ระบุว่าตัวอย่างเป็นจริงหรือปลอม

หรือจะเป็นระบบย่อยภายในเครือข่าย Generative Adversarial ที่กําหนดว่าตัวอย่างที่สร้างโดยGenerator นั้นจริงหรือเท็จ

ดูข้อมูลเพิ่มเติมได้ที่ตัวแยกแยะในหลักสูตร GAN

ผลกระทบที่แตกต่างกัน

#fairness

การตัดสินใจเกี่ยวกับผู้คนที่ส่งผลกระทบต่อประชากรย่อยกลุ่มต่างๆ อย่างไม่สัดส่วน โดยปกติแล้ว ปัญหานี้หมายถึงสถานการณ์ที่กระบวนการตัดสินใจแบบอัลกอริทึมสร้างความเสียหายหรือให้ประโยชน์แก่กลุ่มย่อยบางกลุ่มมากกว่ากลุ่มอื่นๆ

ตัวอย่างเช่น สมมติว่าอัลกอริทึมที่กําหนดการมีสิทธิ์ของชาวลิลลี่พุตินในการขอสินเชื่อบ้านขนาดเล็กมีแนวโน้มที่จะจัดประเภทชาวลิลลี่พุตินเป็น "ไม่มีสิทธิ์" หากที่อยู่จัดส่งมีรหัสไปรษณีย์ที่เจาะจง หากชาวลิลลี่ปุติที่เขียนเลขฐาน 2 ขึ้นก่อนมีแนวโน้มที่จะมีที่อยู่สำหรับจัดส่งที่มีรหัสไปรษณีย์นี้มากกว่าชาวลิลลี่ปุติที่เขียนเลขฐาน 2 ลงก่อน อัลกอริทึมนี้อาจส่งผลให้เกิดผลกระทบที่แตกต่างกัน

ซึ่งต่างจากการปฏิบัติที่ไม่เท่าเทียมที่มุ่งเน้นที่ความเหลื่อมล้ำที่เกิดขึ้นเมื่อลักษณะของกลุ่มย่อยเป็นอินพุตที่ชัดเจนในกระบวนการตัดสินใจแบบอัลกอริทึม

การปฏิบัติที่แตกต่างกัน

#fairness

พิจารณาแอตทริบิวต์ที่มีความละเอียดอ่อนของบุคคลในกระบวนการตัดสินใจแบบอัลกอริทึมเพื่อให้ระบบจัดการกับกลุ่มย่อยของบุคคลที่แตกต่างกัน

ตัวอย่างเช่น พิจารณาอัลกอริทึมที่กําหนดการมีสิทธิ์ของชาวลิลลี่พุตในการขอสินเชื่อบ้านขนาดเล็กตามข้อมูลที่ระบุไว้ในใบสมัครสินเชื่อ หากอัลกอริทึมใช้การเชื่อมโยงของ Lilliputian เป็น Big-Endian หรือ Little-Endian เป็นอินพุต แสดงว่าอัลกอริทึมกำลังใช้การจัดการที่แตกต่างกันไปตามมิติข้อมูลนั้น

ซึ่งต่างจากผลกระทบที่แตกต่างกันที่มุ่งเน้นที่ความเหลื่อมล้ำของผลกระทบทางสังคมจากการตัดสินใจของอัลกอริทึมที่มีต่อกลุ่มย่อย โดยไม่คำนึงว่ากลุ่มย่อยเหล่านั้นเป็นอินพุตของโมเดลหรือไม่

การกลั่น

#generativeAI

กระบวนการลดขนาดโมเดล 1 รายการ (เรียกว่าโมเดลหลัก) ให้เป็นโมเดลที่เล็กลง (เรียกว่าโมเดลย่อย) ซึ่งจําลองการคาดการณ์ของโมเดลเดิมให้ใกล้เคียงที่สุด การกลั่นมีประโยชน์เนื่องจากโมเดลขนาดเล็กมีข้อดีหลัก 2 ข้อเหนือกว่าโมเดลขนาดใหญ่ (ครู) ดังนี้

  • ใช้เวลาในการอนุมานเร็วขึ้น
  • ลดการใช้หน่วยความจำและพลังงาน

อย่างไรก็ตาม โดยทั่วไปการคาดการณ์ของนักเรียนจะไม่แม่นยำเท่ากับการคาดการณ์ของครู

การกลั่นจะฝึกโมเดลนักเรียนเพื่อลดฟังก์ชันการสูญเสียตามความแตกต่างระหว่างเอาต์พุตของการคาดการณ์ของโมเดลนักเรียนและโมเดลครู

เปรียบเทียบและเปรียบต่างระหว่างการกลั่นกับคำศัพท์ต่อไปนี้

ดูข้อมูลเพิ่มเติมได้ที่LLM: การปรับแต่ง การปรับให้เหมาะสม และการปรับแต่งพรอมต์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเผยแพร่

ความถี่และช่วงของค่าต่างๆ สําหรับฟีเจอร์หรือป้ายกํากับหนึ่งๆ การแจกแจงแสดงถึงแนวโน้มที่ค่าหนึ่งๆ จะปรากฏ

รูปภาพต่อไปนี้แสดงฮิสโตแกรมของการแจกแจง 2 แบบที่แตกต่างกัน

  • ทางด้านซ้ายคือความหนาแน่นของลาภยศตามกฎกำลังสองเทียบกับจํานวนบุคคลที่มีลาภยศนั้น
  • ทางด้านขวาคือความถี่ของส่วนสูงเทียบกับจํานวนคนที่มีความสูงนั้น

ฮิสโตแกรม 2 รายการ ฮิสโตแกรม 1 รายการแสดงการแจกแจงเชิงกำลังที่มีความมั่งคั่งบนแกน x และจํานวนคนที่มีความมั่งคั่งนั้นบนแกน y ผู้คนส่วนใหญ่มีทรัพย์สินน้อยมาก และมีคนเพียงไม่กี่คนที่ร่ำรวยมาก ส่วนฮิสโตแกรมอีกอันแสดงการแจกแจงแบบปกติที่มีความสูงบนแกน X และจำนวนคนที่มีความสูงนั้นบนแกน Y ผู้คนส่วนใหญ่อยู่ใกล้กับค่าเฉลี่ย

การทำความเข้าใจการแจกแจงของฟีเจอร์และป้ายกำกับแต่ละรายการจะช่วยให้คุณกำหนดวิธีทำให้เป็นมาตรฐานค่าและตรวจหาค่าที่ผิดปกติได้

วลีไม่ได้อยู่ในชุดข้อมูลหมายถึงค่าที่ไม่ได้ปรากฏในชุดข้อมูลหรือพบได้น้อยมาก เช่น ระบบจะถือว่ารูปภาพดาวเสาร์อยู่นอกการแจกแจงสำหรับชุดข้อมูลที่มีรูปภาพแมว

การจัดคลัสเตอร์แบบแบ่งกลุ่ม

#clustering

ดูการจัดกลุ่มตามลําดับชั้น

downsampling

#image

คําที่มีความหมายหลายอย่างซึ่งอาจหมายถึงอย่างใดอย่างหนึ่งต่อไปนี้

  • การลดปริมาณข้อมูลในฟีเจอร์เพื่อฝึกโมเดลได้อย่างมีประสิทธิภาพมากขึ้น เช่น การปรับขนาดรูปภาพความละเอียดสูงเป็นรูปแบบความละเอียดต่ำก่อนฝึกโมเดลการจดจำรูปภาพ
  • การฝึกด้วยตัวอย่างคลาสที่มีจำนวนมากเกินไปในเปอร์เซ็นต์ที่ต่ำไม่สมส่วนเพื่อปรับปรุงการฝึกโมเดลในคลาสที่มีจำนวนน้อย เช่น ในชุดข้อมูลที่มีคลาสไม่สมดุล โมเดลมีแนวโน้มที่จะเรียนรู้เกี่ยวกับคลาสส่วนใหญ่มาก แต่เรียนรู้เกี่ยวกับคลาสน้อยไม่เพียงพอ การลดขนาดช่วยปรับสมดุลปริมาณการฝึกในคลาสส่วนใหญ่และคลาสส่วนน้อย

ดูข้อมูลเพิ่มเติมได้ที่ชุดข้อมูล: ชุดข้อมูลที่ไม่สมดุลในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

DQN

#rl

ตัวย่อของ Deep Q-Network

Regularization แบบ Dropout

รูปแบบการปรับให้เหมาะสมที่มีประโยชน์ในการฝึกโครงข่ายระบบประสาทเทียม การปรับให้เหมาะสมแบบ Dropout จะนําหน่วยจํานวนคงที่แบบสุ่มในเลเยอร์เครือข่ายออกสําหรับขั้นตอนเดียวของลําดับชั้น ยิ่งมีหน่วยที่หยุดทำงานมากเท่าใด การทำให้ถูกต้องก็ยิ่งชัดเจนมากขึ้นเท่านั้น ซึ่งคล้ายกับการฝึกเครือข่ายให้จําลองชุดค่าผสมขนาดใหญ่แบบทวีคูณของเครือข่ายขนาดเล็ก ดูรายละเอียดทั้งหมดได้ที่Dropout: วิธีง่ายๆ ในการป้องกันการที่เครือข่ายประสาทมีการประมาณมากเกินไป

ไดนามิก

#fundamentals

สิ่งที่ทำบ่อยครั้งหรือต่อเนื่อง คําว่าแบบไดนามิกและออนไลน์เป็นคําที่มีความหมายเหมือนกันในแมชชีนเลิร์นนิง ต่อไปนี้เป็นการใช้งานแบบไดนามิกและออนไลน์ที่พบบ่อยในแมชชีนเลิร์นนิง

  • โมเดลแบบไดนามิก (หรือโมเดลออนไลน์) คือโมเดลที่ฝึกซ้ำบ่อยครั้งหรืออย่างต่อเนื่อง
  • การฝึกแบบไดนามิก (หรือการฝึกอบรมออนไลน์) คือกระบวนการฝึกอบรมบ่อยครั้งหรืออย่างต่อเนื่อง
  • การอนุมานแบบไดนามิก (หรือการอนุมานออนไลน์) คือกระบวนการสร้างการคาดการณ์ตามคําขอ

โมเดลแบบไดนามิก

#fundamentals

โมเดลที่ได้รับการฝึกใหม่บ่อยครั้ง (หรืออาจฝึกอย่างต่อเนื่อง) รูปแบบแบบไดนามิกคือ "ผู้เรียนรู้ตลอดชีวิต" ที่ปรับตัวให้เข้ากับข้อมูลที่เปลี่ยนแปลงอยู่ตลอดเวลา รูปแบบแบบไดนามิกเรียกอีกอย่างว่ารูปแบบออนไลน์

ตรงข้ามกับโมเดลแบบคงที่

E

การดำเนินการแบบ Eager

#TensorFlow

สภาพแวดล้อมการเขียนโปรแกรม TensorFlow ที่การดำเนินการจะทำงานทันที ในทางตรงกันข้าม การดำเนินการที่เรียกใช้ในการดำเนินการกราฟจะไม่ทำงานจนกว่าจะมีการประเมินอย่างชัดเจน การดำเนินการอย่างเร่งด่วนเป็นอินเทอร์เฟซแบบบังคับ ซึ่งคล้ายกับโค้ดในภาษาโปรแกรมส่วนใหญ่ โดยทั่วไปแล้ว โปรแกรมการดำเนินการแบบ Eager นั้นแก้ไขข้อบกพร่องได้ง่ายกว่าโปรแกรมการดำเนินการแบบกราฟ

การหยุดก่อนกำหนด

#fundamentals

วิธีการการปรับให้เหมาะสมที่เกี่ยวกับการสิ้นสุดการฝึก ก่อนที่การลดลงของการฝึกจะสิ้นสุดลง ในการหยุดกลางคัน คุณจะหยุดฝึกโมเดลโดยตั้งใจเมื่อการสูญเสียในชุดข้อมูลที่ใช้ตรวจสอบเริ่มเพิ่มขึ้น กล่าวคือเมื่อประสิทธิภาพการทั่วไปแย่ลง

การหยุดก่อนกำหนดอาจดูขัดกับสัญชาตญาณ ท้ายที่สุดแล้ว การบอกให้โมเดลหยุดการฝึกอบรมในขณะที่การสูญเสียยังคงลดลงอาจดูเหมือนการบอกเชฟให้หยุดทำอาหารก่อนที่ของหวานจะอบเสร็จ อย่างไรก็ตาม การฝึกโมเดลเป็นเวลานานเกินไปอาจทําให้โมเดลมีการปรับให้พอดีมากเกินไป กล่าวคือ หากคุณฝึกโมเดลนานเกินไป โมเดลอาจปรับให้เข้ากับข้อมูลการฝึกอย่างใกล้ชิดมากจนคาดการณ์ตัวอย่างใหม่ได้ไม่ดี


ระยะทางของรถขุด (EMD)

#Metric

การวัดความคล้ายคลึงสัมพัทธ์ของการแจกแจง 2 รายการ ยิ่งระยะทางของเครื่องจักรขุดดินต่ำ รูปแบบการกระจายก็จะยิ่งคล้ายกัน

แก้ไขระยะทาง

#language
#Metric

การวัดความคล้ายคลึงของสตริงข้อความ 2 รายการ ระยะการแก้ไขมีประโยชน์ในแมชชีนเลิร์นนิงเนื่องจากเหตุผลต่อไปนี้

  • ระยะห่างการแก้ไขคํานวณได้ง่าย
  • ระยะห่างการแก้ไขจะเปรียบเทียบสตริง 2 รายการที่ทราบว่าคล้ายกัน
  • ระยะแก้ไขสามารถระบุระดับความคล้ายคลึงของสตริงต่างๆ กับสตริงหนึ่งๆ

ระยะห่างการแก้ไขมีหลายคำจำกัดความ โดยแต่ละคำจำกัดความจะใช้การดำเนินการสตริงที่แตกต่างกัน ดูตัวอย่างได้ที่ระยะ Levenshtein

นิพจน์ Einsum

รูปแบบการเขียนที่มีประสิทธิภาพในการอธิบายวิธีรวม เทนเซอร์ 2 รายการเข้าด้วยกัน โดยการรวมเทนเซอร์จะคูณองค์ประกอบของเทนเซอร์หนึ่งเข้ากับองค์ประกอบของเทนเซอร์อีกเทนเซอร์หนึ่ง แล้วบวกผลคูณ นิพจน์ Einsum ใช้สัญลักษณ์เพื่อระบุแกนของ Tensor แต่ละรายการ และสัญลักษณ์เดียวกันเหล่านั้นจะได้รับการเรียงลําดับใหม่เพื่อระบุรูปร่างของ Tensor ผลลัพธ์ใหม่

NumPy มีการใช้งาน Einsum ที่พบบ่อย

เลเยอร์การฝัง

#language
#fundamentals

เลเยอร์ที่ซ่อนอยู่พิเศษที่ฝึกด้วยฟีเจอร์เชิงหมวดหมู่มิติสูงเพื่อค่อยๆ เรียนรู้เวกเตอร์การฝังมิติข้อมูลต่ำ เลเยอร์การฝังช่วยให้เครือข่ายประสาทสามารถฝึกได้อย่างมีประสิทธิภาพมากกว่าการฝึกเฉพาะกับฟีเจอร์เชิงหมวดหมู่มิติสูง

ตัวอย่างเช่น ปัจจุบัน Earth รองรับพันธุ์ไม้ประมาณ 73,000 ชนิด สมมติว่าพันธุ์ไม้เป็นฟีเจอร์ในโมเดลของคุณ เลเยอร์อินพุตของโมเดลจึงมีเวกเตอร์แบบฮอตเวิร์กที่มีองค์ประกอบยาว 73,000 รายการ เช่น baobab อาจแสดงเป็นดังนี้

อาร์เรย์ที่มีองค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 รายการแรกมีค่าเป็น 0 องค์ประกอบถัดไปมีค่า 1 องค์ประกอบสุดท้าย 66,767 รายการมีค่าเป็น 0

อาร์เรย์ที่มีองค์ประกอบ 73,000 รายการนั้นยาวมาก หากไม่เพิ่มเลเยอร์การฝังลงในโมเดล การฝึกจะใช้เวลานานมากเนื่องจากการคูณ 0 72,999 ครั้ง สมมติว่าคุณเลือกเลเยอร์การฝังให้มีมิติข้อมูล 12 รายการ เลเยอร์การฝังจึงค่อยๆ เรียนรู้เวกเตอร์การฝังใหม่สําหรับต้นไม้แต่ละสายพันธุ์

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลสำหรับเลเยอร์การฝัง

ดูข้อมูลเพิ่มเติมได้ที่การฝังในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

พื้นที่ฝัง

#language

ปริภูมิเวกเตอร์ 3 มิติที่แมปกับองค์ประกอบจากปริภูมิเวกเตอร์มิติที่สูงกว่า พื้นที่โฆษณาแบบฝังได้รับการฝึกให้จับโครงสร้างที่มีความหมายสําหรับแอปพลิเคชันที่ต้องการ

ผลคูณจุดของข้อมูลเชิงลึก 2 รายการคือตัววัดความคล้ายคลึงกัน

เวกเตอร์การฝัง

#language

กล่าวโดยคร่าวๆ ก็คืออาร์เรย์ของตัวเลขทศนิยมที่มาจากเลเยอร์ใดก็ได้ ที่ซ่อนอยู่ซึ่งอธิบายอินพุตของเลเยอร์ที่ซ่อนอยู่นั้น โดยปกติแล้ว เวกเตอร์การฝังจะเป็นอาร์เรย์ของตัวเลขทศนิยมที่ผ่านการฝึกในเลเยอร์การฝัง ตัวอย่างเช่น สมมติว่าเลเยอร์การฝังต้องเรียนรู้เวกเตอร์การฝังสําหรับต้นไม้แต่ละสายพันธุ์บนโลกซึ่งมีอยู่ 73,000 สายพันธุ์ อาร์เรย์ต่อไปนี้อาจเป็นเวกเตอร์การฝังสำหรับต้นบาวบับ

อาร์เรย์ที่มีองค์ประกอบ 12 รายการ โดยแต่ละรายการมีจำนวนทศนิยมระหว่าง 0.0 ถึง 1.0

เวกเตอร์การฝังไม่ใช่ตัวเลขสุ่ม เลเยอร์การฝังจะกําหนดค่าเหล่านี้ผ่านการฝึก คล้ายกับวิธีที่เครือข่ายประสาทเรียนรู้น้ำหนักอื่นๆ ระหว่างการฝึก องค์ประกอบแต่ละรายการของอาร์เรย์คือคะแนนตามลักษณะบางอย่างของสายพันธุ์ต้นไม้ องค์ประกอบใดแสดงถึงลักษณะของสายพันธุ์ต้นไม้ ซึ่งเป็นสิ่งที่มนุษย์พิจารณาได้ยากมาก

สิ่งที่น่าสนใจทางคณิตศาสตร์ของเวกเตอร์การฝังคือรายการที่คล้ายกันจะมีชุดตัวเลขทศนิยมที่คล้ายกัน เช่น สายพันธุ์ต้นไม้ที่คล้ายกันจะมีชุดตัวเลขทศนิยมที่คล้ายกันมากกว่าสายพันธุ์ต้นไม้ที่ไม่คล้ายกัน ต้นสนซีดาร์และต้นสนสควียีดเป็นต้นไม้สายพันธุ์ที่เกี่ยวข้องกัน ดังนั้นชุดตัวเลขทศนิยมของต้นสนซีดาร์และต้นสนสควียีดจึงมีความคล้ายคลึงกันมากกว่าต้นสนซีดาร์และต้นมะพร้าว ตัวเลขในเวกเตอร์การฝังจะเปลี่ยนแปลงทุกครั้งที่คุณฝึกโมเดลใหม่ แม้ว่าคุณจะฝึกโมเดลใหม่ด้วยอินพุตที่เหมือนกันก็ตาม

ฟังก์ชันการแจกแจงสะสมเชิงประจักษ์ (eCDF หรือ EDF)

#Metric

ฟังก์ชันการแจกแจงสะสมซึ่งอิงตามการวัดผลเชิงประจักษ์จากชุดข้อมูลจริง ค่าของฟังก์ชันที่จุดใดก็ได้บนแกน x คือเศษส่วนของค่าสังเกตในชุดข้อมูลที่มีค่าน้อยกว่าหรือเท่ากับค่าที่ระบุ

การลดความเสี่ยงเชิงประจักษ์ (ERM)

การเลือกฟังก์ชันที่ลดการสูญเสียในชุดข้อมูลการฝึก เปรียบเทียบกับการลดความเสี่ยงเชิงโครงสร้าง

โปรแกรมเปลี่ยนไฟล์

#language

โดยทั่วไปแล้ว ระบบ ML ใดก็ตามที่แปลงจากการแสดงผลแบบดิบ เบาบาง หรือภายนอกเป็นการแสดงผลที่ประมวลผลแล้ว หนาแน่นขึ้น หรือภายในมากขึ้น

โดยปกติแล้ว โปรแกรมเข้ารหัสจะเป็นส่วนหนึ่งของโมเดลขนาดใหญ่ ซึ่งมักจะจับคู่กับโปรแกรมถอดรหัส Transformer บางตัวจะจับคู่โปรแกรมเปลี่ยนไฟล์กับโปรแกรมถอดรหัส แต่ Transformer อื่นๆ ใช้เฉพาะโปรแกรมเปลี่ยนไฟล์หรือเฉพาะโปรแกรมถอดรหัส

ระบบบางระบบใช้เอาต์พุตของโปรแกรมเข้ารหัสเป็นอินพุตของเครือข่ายการจัดประเภทหรือการถดถอย

ในงานแบบอนุกรมต่ออนุกรม ตัวเข้ารหัสจะรับลำดับอินพุตและแสดงผลสถานะภายใน (เวกเตอร์) จากนั้น ตัวถอดรหัสจะใช้สถานะภายในนั้นเพื่อคาดการณ์ลำดับถัดไป

ดูคำจำกัดความของตัวเข้ารหัสในสถาปัตยกรรม Transformer ได้ที่ Transformer

ดูข้อมูลเพิ่มเติมได้ที่LLM: โมเดลภาษาขนาดใหญ่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

วงดนตรี

ชุดโมเดลที่ฝึกแยกกันซึ่งการคาดการณ์จะได้รับการหาค่าเฉลี่ยหรือรวบรวม ในหลายกรณี การรวมกลุ่มจะให้การคาดการณ์ที่ดีกว่าโมเดลเดียว เช่น Random Forest คือชุดค่าผสมที่สร้างขึ้นจากDecision Tree หลายรายการ โปรดทราบว่าป่าการตัดสินใจบางรายการไม่ใช่ชุดค่าผสม

ดูข้อมูลเพิ่มเติมได้ที่Random Forest ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เอนโทรปี

#df
#Metric

ใน ทฤษฎีสารสนเทศ หมายถึงคำอธิบายความคาดเดาไม่ได้ของรูปแบบความน่าจะเป็น หรืออาจหมายถึงปริมาณข้อมูลที่มีอยู่ในตัวอย่างแต่ละรายการ การแจกแจงข้อมูลจะมีเอนโทรปีสูงสุดเมื่อค่าทั้งหมดของตัวแปรแบบสุ่มมีแนวโน้มเท่าๆ กัน

เอนโทรปีของชุดที่มีค่าที่เป็นไปได้ 2 ค่า ได้แก่ "0" และ "1" (เช่น ป้ายกำกับในปัญหาการจัดประเภทแบบไบนารี) มีสูตรดังนี้

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

where:

  • H คือเอนโทรปี
  • p คือเศษส่วนของตัวอย่าง "1"
  • q คือเศษส่วนของตัวอย่าง "0" โปรดทราบว่า q = (1 - p)
  • log โดยทั่วไปคือ log2 ในกรณีนี้ หน่วยของข้อมูลเชิงซ้อนคือบิต

ตัวอย่างเช่น สมมติว่า

  • ตัวอย่าง 100 รายการมีค่าเป็น "1"
  • ตัวอย่าง 300 รายการมีค่าเป็น "0"

ดังนั้น ค่าเอนโทรปีคือ

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 บิตต่อตัวอย่าง

ชุดข้อมูลที่สมดุลกันโดยสมบูรณ์ (เช่น "0" 200 ตัวและ "1" 200 ตัว) จะมีเอนโทรปี 1.0 บิตต่อตัวอย่าง เมื่อชุดข้อมูลมีความไม่สมดุลมากขึ้น เอนโทรปีของชุดข้อมูลจะเข้าใกล้ 0.0

ในต้นไม้การตัดสินใจ เอนโทรปีช่วยสร้างการได้ข้อมูลเพื่อช่วยตัวแยกเลือกเงื่อนไขขณะที่ต้นไม้การตัดสินใจการจัดประเภทเติบโต

เปรียบเทียบเอนโทรปีกับข้อมูลต่อไปนี้

บางครั้งจะเรียกเอนโทรปีว่าเอนโทรปีของ Shannon

ดูข้อมูลเพิ่มเติมได้ในตัวแยกที่ตรงกันทั้งหมดสำหรับการแยกประเภทแบบ 2 กลุ่มด้วยฟีเจอร์ที่เป็นตัวเลขในหลักสูตรป่าการตัดสินใจ

สภาพแวดล้อม

#rl

ในการเรียนรู้ด้วยการทำซ้ำ โลกคือสิ่งที่มีเอเจนต์ และช่วยให้เอเจนต์สังเกตสถานะของโลกนั้นได้ เช่น โลกที่แสดงอาจเป็นเกมอย่างหมากรุก หรือโลกแห่งความเป็นจริงอย่างเขาวงกต เมื่อตัวแทนใช้การดำเนินการกับสภาพแวดล้อมแล้ว สภาพแวดล้อมจะเปลี่ยนสถานะไปมา

ตอน

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ตัวแทนจะพยายามเรียนรู้สภาพแวดล้อมซ้ำๆ แต่ละครั้ง

Epoch

#fundamentals

การฝึกแบบเต็มจะทํางานกับชุดข้อมูลการฝึกทั้งหมดเพื่อให้ระบบประมวลผลตัวอย่างแต่ละรายการ 1 ครั้ง

Epoch แสดงจำนวนรอบการฝึก N/ขนาดกลุ่ม โดยที่ N คือจํานวนตัวอย่างทั้งหมด

ตัวอย่างเช่น สมมติว่า

  • ชุดข้อมูลประกอบด้วยตัวอย่าง 1,000 รายการ
  • ขนาดกลุ่มคือ 50 ตัวอย่าง

ดังนั้น 1 ยุคจึงต้องมีการทําซ้ำ 20 ครั้ง

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: ตัวแปรพหุนามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

นโยบายการค้นหาแบบ epsilon greedy

#rl

ในการเรียนรู้ด้วยการทำซ้ำ นโยบายที่เป็นไปตามนโยบายแบบสุ่มที่มีความน่าจะเป็น epsilon หรือนโยบายแบบโลภ เช่น หาก epsilon มีค่า 0.9 นโยบายจะเป็นไปตามนโยบายแบบสุ่ม 90% ของเวลา และนโยบายแบบโลภ 10% ของเวลา

อัลกอริทึมจะลดค่าของ epsilon ในแต่ละรอบเพื่อเปลี่ยนจากการปฏิบัติตามนโยบายแบบสุ่มเป็นการปฏิบัติตามนโยบายแบบโลภ การเปลี่ยนนโยบายจะทำให้เอเจนต์สุ่มสำรวจสภาพแวดล้อมก่อน จากนั้นจึงใช้ประโยชน์จากผลการสุ่มสำรวจอย่างเต็มรูปแบบ

โอกาสที่เท่าเทียมกัน

#fairness
#Metric

เมตริกความเป็นธรรมเพื่อประเมินว่าโมเดลคาดการณ์ผลลัพธ์ที่ต้องการได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่มีความละเอียดอ่อนหรือไม่ กล่าวคือ หากผลลัพธ์ที่ต้องการสำหรับโมเดลคือคลาสที่เป็นบวก เป้าหมายคืออัตราผลบวกจริงจะเหมือนกันสำหรับทุกกลุ่ม

โอกาสที่เท่าเทียมเกี่ยวข้องกับความน่าจะเป็นที่เท่าเทียม ซึ่งกำหนดว่าทั้งอัตราผลบวกจริงและอัตราผลบวกลวงต้องเหมือนกันสำหรับทุกกลุ่ม

สมมติว่ามหาวิทยาลัย Glubbdubdrib รับทั้งชาวลิลลี่ปุตและชาวบราบิงแน็กเรียนหลักสูตรคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมของชาวลิลลี่ปุตติมีหลักสูตรคณิตศาสตร์ที่เข้มข้น และนักเรียนส่วนใหญ่มีสิทธิ์เข้าเรียนในมหาวิทยาลัย โรงเรียนมัธยมของชาวบราบิงกันไม่ได้เปิดสอนวิชาคณิตศาสตร์เลย ส่งผลให้นักเรียนมีจำนวนน้อยกว่ามากที่มีคุณสมบัติตรงตามข้อกำหนด โอกาสที่เท่าเทียมกันเป็นไปตามป้ายกำกับที่ต้องการว่า "ได้รับอนุญาต" เกี่ยวกับสัญชาติ (Lilliputian หรือ Brobdingnagian) หากนักเรียนที่มีสิทธิ์มีโอกาสเท่าๆ กันที่จะได้รับการอนุญาต ไม่ว่านักเรียนจะเป็น Lilliputian หรือ Brobdingnagian

ตัวอย่างเช่น สมมติว่าชาวลิลลี่ปุต 100 คนและชาวบราบิงแน็ก 100 คนสมัครเข้ามหาวิทยาลัยกลุบบัดบรีบ และผลการตัดสินการรับสมัครมีดังนี้

ตารางที่ 1 ผู้สมัคร Lilliputian (90% มีสิทธิ์)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 45 3
ถูกปฏิเสธ 45 7
รวม 90 10
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับค่าเล่าเรียน: 45/90 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับค่าเล่าเรียน: 7/10 = 70%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Lilliputian ที่ได้รับค่าเล่าเรียน: (45+3)/100 = 48%

 

ตารางที่ 2 ผู้สมัครระดับ Brobdingnagian (10% มีคุณสมบัติตรงตามเกณฑ์)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 5 9
ถูกปฏิเสธ 5 81
รวม 10 90
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 5/10 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 81/90 = 90%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Brobdingnagian ที่ได้รับอนุญาตให้เข้าเรียน: (5+9)/100 = 14%

ตัวอย่างข้างต้นเป็นไปตามความเท่าเทียมของโอกาสในการรับนักเรียนที่มีสิทธิ์ เนื่องจากทั้งชาวลิลลี่ปุตและชาวบราบิงแนกันที่มีสิทธิ์มีโอกาส 50% ที่จะได้รับการยอมรับ

แม้ว่าจะเป็นไปตามหลักความเท่าเทียมกันของโอกาส แต่เมตริกความเท่าเทียม 2 รายการต่อไปนี้ไม่เป็นไปตามหลักดังกล่าว

  • ความเท่าเทียมทางประชากร: นักเรียนจาก Lilliputians และ Brobdingnagians ได้รับอนุญาตให้เข้ามหาวิทยาลัยในอัตราที่แตกต่างกัน โดยนักเรียนจาก Lilliputians ได้รับอนุญาตให้เข้ามหาวิทยาลัย 48% แต่นักเรียนจาก Brobdingnagians ได้รับอนุญาตให้เข้ามหาวิทยาลัยเพียง 14%
  • โอกาสที่เท่าเทียม: แม้ว่านักเรียน Lilliputian และ Brobdingnagian ที่มีสิทธิ์จะมีสิทธิ์ได้รับการยอมรับเท่าๆ กัน แต่ข้อจำกัดเพิ่มเติมที่ว่านักเรียน Lilliputian และ Brobdingnagian ที่ไม่มีสิทธิ์จะมีสิทธิ์ถูกปฏิเสธเท่าๆ กันนั้นไม่ได้รับการยอมรับ ผู้ที่มีคุณสมบัติไม่ตรงตามเกณฑ์ของ Lilliputians มีอัตราการถูกปฏิเสธ 70% ส่วนผู้ที่มีคุณสมบัติไม่ตรงตามเกณฑ์ของ Brobdingnagians มีอัตราการถูกปฏิเสธ 90%

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ความเท่าเทียมของโอกาสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อัตราต่อรองที่เท่ากัน

#fairness
#Metric

เมตริกความเท่าเทียมเพื่อประเมินว่าโมเดลคาดการณ์ผลลัพธ์ได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่มีความละเอียดอ่อนทั้งในแง่ของคลาสบวกและคลาสลบ ไม่ใช่แค่คลาสใดคลาสหนึ่งโดยเฉพาะ กล่าวคือ ทั้งอัตราผลบวกจริงและอัตราผลลบเท็จควรเหมือนกันสำหรับทุกกลุ่ม

อัตราต่อรองที่เท่ากันเกี่ยวข้องกับความเท่าเทียมของโอกาส ซึ่งมุ่งเน้นที่อัตราข้อผิดพลาดของคลาสเดียวเท่านั้น (บวกหรือลบ)

ตัวอย่างเช่น สมมติว่ามหาวิทยาลัย Glubbdubdrib ยอมรับทั้งชาวลิลลี่ปุตและชาวบราบิงแน็กเรียนหลักสูตรคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมของชาวลิลลี่ปุตติมีหลักสูตรคณิตศาสตร์ที่เข้มข้น และนักเรียนส่วนใหญ่มีสิทธิ์เข้าเรียนในมหาวิทยาลัย โรงเรียนมัธยมของชาวบราบิงกันไม่ได้เปิดสอนวิชาคณิตศาสตร์เลย ส่งผลให้นักเรียนมีจำนวนน้อยกว่ามากที่มีคุณสมบัติตรงตามข้อกำหนด โอกาสที่เท่าเทียมกันจะเป็นไปตามข้อกำหนดไม่ว่าผู้สมัครจะตัวเล็กหรือตัวใหญ่ หากมีคุณสมบัติตรงตามเกณฑ์ ก็มีโอกาสเท่าๆ กันที่จะได้รับการยอมรับเข้าโปรแกรม และหากไม่มีคุณสมบัติตรงตามเกณฑ์ ก็มีโอกาสเท่าๆ กันที่จะถูกปฏิเสธ

สมมติว่าชาวลิลลี่ปุต 100 คนและชาวบราบิงแน็ก 100 คนสมัครเข้ามหาวิทยาลัยกลุบบัดดริบ และผลการตัดสินการรับสมัครมีดังนี้

ตารางที่ 3 ผู้สมัคร Lilliputian (90% มีสิทธิ์)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 45 2
ถูกปฏิเสธ 45 8
รวม 90 10
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 45/90 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 8/10 = 80%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Lilliputian ได้รับอนุญาตให้เข้าเรียน: (45+2)/100 = 47%

 

ตารางที่ 4 ผู้สมัครระดับ Brobdingnagian (10% มีคุณสมบัติตรงตามเกณฑ์)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 5 18
ถูกปฏิเสธ 5 72
รวม 10 90
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 5/10 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 72/90 = 80%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Brobdingnagian ที่ได้รับอนุญาตให้เข้าเรียน: (5+18)/100 = 23%

เงื่อนไขความน่าจะเป็นที่เท่ากันเป็นไปตามเกณฑ์เนื่องจากทั้งนักเรียน Lilliputian และ Brobdingnagian ที่มีสิทธิ์มีโอกาส 50% ที่จะได้รับการยอมรับ และนักเรียน Lilliputian และ Brobdingnagian ที่ไม่มีสิทธิ์มีโอกาส 80% ที่จะถูกปฏิเสธ

โอกาสที่เท่าเทียมกันได้รับการกําหนดอย่างเป็นทางการใน"ความเท่าเทียมของโอกาสในการเรียนรู้แบบควบคุม" ดังนี้ "ตัวพยากรณ์ Ŷ เป็นไปตามความเท่าเทียมของโอกาสในส่วนที่เกี่ยวกับแอตทริบิวต์ที่ได้รับการคุ้มครอง A และผลลัพธ์ Y หาก Ŷ และ A เป็นอิสระต่อกันโดยขึ้นกับ Y"

Estimator

#TensorFlow

TensorFlow API ที่เลิกใช้งานแล้ว ใช้ tf.keras แทน Estimators

evals

#language
#generativeAI
#Metric

ใช้เป็นหลักเป็นตัวย่อของการประเมิน LLM evals ย่อมาจากการประเมินทุกรูปแบบ

การประเมิน

#language
#generativeAI
#Metric

กระบวนการวัดคุณภาพของรูปแบบหรือการเปรียบเทียบรูปแบบต่างๆ กับรูปแบบอื่นๆ

หากต้องการประเมินโมเดลแมชชีนเลิร์นนิงที่มีการควบคุมดูแล คุณมักจะประเมินโมเดลนั้นเทียบกับชุดการตรวจสอบและชุดทดสอบ การประเมิน LLMมักเกี่ยวข้องกับการประเมินคุณภาพและความปลอดภัยในวงกว้าง

ตัวอย่าง

#fundamentals

ค่าของฟีเจอร์ 1 แถวและป้ายกํากับ (ไม่บังคับ) ตัวอย่างในการเรียนรู้แบบควบคุมแบ่งออกเป็น 2 หมวดหมู่ทั่วไป ดังนี้

  • ตัวอย่างที่มีป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ระบบจะใช้ตัวอย่างที่ติดป้ายกำกับในระหว่างการฝึก
  • ตัวอย่างที่ไม่มีป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการแต่ไม่มีป้ายกำกับ ระบบจะใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการอนุมาน

ตัวอย่างเช่น สมมติว่าคุณกําลังฝึกโมเดลเพื่อระบุอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตัวอย่างที่มีป้ายกำกับ 3 รายการมีดังนี้

ฟีเจอร์ ป้ายกำกับ
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 ดี
19 34 1020 ดีมาก
18 92 1012 แย่

ตัวอย่างที่ไม่มีป้ายกำกับ 3 รายการมีดังนี้

อุณหภูมิ ความชื้น ความกดอากาศ  
12 62 1014  
21 47 1017  
19 41 1021  

แถวของชุดข้อมูลมักเป็นแหล่งข้อมูลดิบสําหรับตัวอย่าง กล่าวคือ ตัวอย่างมักจะประกอบด้วยชุดย่อยของคอลัมน์ในชุดข้อมูล นอกจากนี้ ฟีเจอร์ในตัวอย่างยังอาจรวมถึงฟีเจอร์สังเคราะห์ เช่น การครอสฟีเจอร์

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบควบคุมดูแลในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

เล่นซ้ำ

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เทคนิค DQN ใช้เพื่อลดความเกี่ยวข้องตามช่วงเวลาในข้อมูลการฝึก Agentจะจัดเก็บการเปลี่ยนสถานะในบัฟเฟอร์การบันทึก จากนั้นจะสุ่มตัวอย่างการเปลี่ยนสถานะจากบัฟเฟอร์การบันทึกเพื่อสร้างข้อมูลการฝึก

อคติของผู้ทดสอบ

#fairness

ดูอคติยืนยันความคิดตัวเอง

ปัญหาการไล่ระดับที่เพิ่มขึ้น

#seq

แนวโน้มที่เส้นลาดในโครงข่ายประสาทแบบลึก (โดยเฉพาะโครงข่ายประสาทแบบซ้ำ) จะชัน (สูง) อย่างน่าประหลาดใจ เส้นลาดชันชันมักจะทําให้เกิดการอัปเดตน้ำหนักของโหนดแต่ละโหนดในเครือข่ายประสาทเทียมลึกอย่างมาก

โมเดลที่มีปัญหาเกี่ยวกับ Gradient Explosion จะฝึกได้ยากหรือเป็นไปไม่ได้ การตัดเฉดสีจะช่วยบรรเทาปัญหานี้ได้

เปรียบเทียบกับปัญหาการลดทอนความชัน

F

F1

#Metric

เมตริกการจัดประเภทแบบ 2 กลุ่ม "แบบรวม" ซึ่งอาศัยทั้งความแม่นยำและความแม่นยำในการเรียกคืน สูตรมีดังนี้

F1=2 * precision * recallprecision + recall

สมมติว่าความแม่นยำและการจดจํามีค่าดังต่อไปนี้

  • precision = 0.6
  • recall = 0.4

คุณคํานวณ F1 ดังนี้

F1=2 * 0.6 * 0.40.6 + 0.4=0.48

เมื่อความแม่นยำและความแม่นยำในการจดจำค่อนข้างคล้ายกัน (เช่น ในตัวอย่างก่อนหน้านี้) F1 จะใกล้เคียงกับค่าเฉลี่ย เมื่อความแม่นยำและการเรียกคืนแตกต่างกันอย่างมาก F1 จะใกล้เคียงกับค่าที่ต่ำลง เช่น

  • precision = 0.9
  • recall = 0.1
F1=2 * 0.9 * 0.10.9 + 0.1=0.18

ข้อเท็จจริง

#generativeAI

ในแวดวง ML พร็อพเพอร์ตี้ที่อธิบายโมเดลซึ่งเอาต์พุตอิงตามความเป็นจริง ความเป็นข้อเท็จจริงเป็นแนวคิด ไม่ใช่เมตริก ตัวอย่างเช่น สมมติว่าคุณส่งพรอมต์ต่อไปนี้ไปยังโมเดลภาษาขนาดใหญ่

สูตรเคมีของเกลือแกงคืออะไร

โมเดลที่เพิ่มประสิทธิภาพความถูกต้องจะตอบกลับดังนี้

NaCl

เราอาจจําเป็นต้องสมมติว่าโมเดลทั้งหมดควรอิงตามข้อเท็จจริง อย่างไรก็ตาม พรอมต์บางรายการ เช่น พรอมต์ต่อไปนี้ ควรทําให้โมเดล Generative AI เพิ่มประสิทธิภาพความคิดสร้างสรรค์แทนความถูกต้อง

เล่ากลอนสั้นๆ เกี่ยวกับนักบินอวกาศและหนอนผีเสื้อให้ฟังหน่อย

กลอนสั้นๆ ที่ออกมาจึงไม่น่าอิงตามความเป็นจริง

ตรงข้ามกับความมีเหตุมีผล

ข้อจำกัดด้านความยุติธรรม

#fairness
การใช้ข้อจำกัดกับอัลกอริทึมเพื่อให้เป็นไปตามคําจํากัดความของความยุติธรรมอย่างน้อย 1 ข้อ ตัวอย่างข้อจำกัดด้านความยุติธรรม ได้แก่

เมตริกความยุติธรรม

#fairness
#Metric

คําจํากัดความทางคณิตศาสตร์ของ "ความเป็นธรรม" ที่วัดผลได้ เมตริกความเป็นธรรมที่ใช้กันโดยทั่วไป ได้แก่

เมตริกความเป็นธรรมหลายรายการใช้ร่วมกันไม่ได้ โปรดดูความเข้ากันไม่ได้ของเมตริกความเป็นธรรม

ผลลบลวง (FN)

#fundamentals
#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบอย่างไม่ถูกต้อง ตัวอย่างเช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ ไม่ใช่สแปม (คลาสเชิงลบ) แต่ข้อความอีเมลนั้นเป็นจดหมายขยะจริงๆ

อัตราผลลบลวง

#Metric

สัดส่วนของตัวอย่างเชิงบวกจริงที่โมเดลคาดการณ์คลาสเชิงลบอย่างไม่ถูกต้อง สูตรต่อไปนี้จะคํานวณอัตราเชิงลบที่เป็นเท็จ

false negative rate=false negativesfalse negatives+true positives

ดูข้อมูลเพิ่มเติมเกี่ยวกับเกณฑ์และตารางความสับสนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ผลบวกลวง (FP)

#fundamentals
#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสบวกอย่างไม่ถูกต้อง เช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ (คลาสเชิงบวก) แต่ข้อความอีเมลนั้นไม่ใช่จดหมายขยะจริงๆ

ดูข้อมูลเพิ่มเติมเกี่ยวกับเกณฑ์และตารางความสับสนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อัตราผลบวกลวง (FPR)

#fundamentals
#Metric

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลคาดการณ์คลาสที่เป็นบวกอย่างไม่ถูกต้อง สูตรต่อไปนี้จะคํานวณอัตราผลบวกลวง

false positive rate=false positivesfalse positives+true negatives

อัตราผลบวกลวงคือแกน x ในกราฟ ROC

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟีเจอร์

#fundamentals

ตัวแปรอินพุตของโมเดลแมชชีนเลิร์นนิง ตัวอย่างประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ ตัวอย่างเช่น สมมติว่าคุณกําลังฝึกรูปแบบเพื่อระบุอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตารางต่อไปนี้แสดงตัวอย่าง 3 รายการ โดยแต่ละรายการมีฟีเจอร์ 3 รายการและป้ายกำกับ 1 รายการ

ฟีเจอร์ ป้ายกำกับ
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 92
19 34 1020 84
18 92 1012 87

คอนทราสต์กับป้ายกำกับ

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบควบคุมในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

การครอสฟีเจอร์

#fundamentals

ฟีเจอร์สังเคราะห์ที่เกิดจากการ "ครอส" ฟีเจอร์เชิงหมวดหมู่หรือฟีเจอร์ที่มีการแบ่งกลุ่ม

ตัวอย่างเช่น ลองพิจารณาโมเดล "การคาดการณ์อารมณ์" ที่แสดงอุณหภูมิในหนึ่งในกลุ่ม 4 กลุ่มต่อไปนี้

  • freezing
  • chilly
  • temperate
  • warm

และแสดงความเร็วลมในหมวดหมู่ใดหมวดหมู่หนึ่งต่อไปนี้

  • still
  • light
  • windy

หากไม่มีการครอสฟีเจอร์ รูปแบบเชิงเส้นจะฝึกแยกกันในแต่ละกลุ่มที่ต่างกัน 7 กลุ่มก่อนหน้า ดังนั้น โมเดลจะฝึกจากตัวอย่าง เช่น freezing โดยไม่เกี่ยวข้องกับการฝึกจากตัวอย่าง เช่น windy

หรือจะสร้างฟีเจอร์ครอสของอุณหภูมิและความเร็วลมก็ได้ ฟีเจอร์สังเคราะห์นี้จะมีค่าที่เป็นไปได้ 12 ค่าต่อไปนี้

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

การครอสฟีเจอร์ช่วยให้โมเดลเรียนรู้ความแตกต่างของอารมณ์ระหว่างfreezing-windyวันกับfreezing-stillวัน

หากคุณสร้างฟีเจอร์สังเคราะห์จากฟีเจอร์ 2 รายการที่แต่ละรายการมีที่เก็บข้อมูลที่แตกต่างกันจํานวนมาก การรวมฟีเจอร์ที่ได้จะมีชุดค่าผสมที่เป็นไปได้จํานวนมหาศาล เช่น หากฟีเจอร์หนึ่งมีที่เก็บข้อมูล 1,000 รายการ และอีกฟีเจอร์หนึ่งมีที่เก็บข้อมูล 2,000 รายการ การครอสฟีเจอร์ที่ได้จะมีที่เก็บข้อมูล 2,000,000 รายการ

ครอสเป็นผลคูณคาร์ทีเซียน

การครอสฟีเจอร์มักใช้กับโมเดลเชิงเส้นและไม่ค่อยใช้กับเครือข่ายประสาท

ดูข้อมูลเพิ่มเติมที่ข้อมูลเชิงหมวดหมู่: ฟีเจอร์ครอสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Feature Engineering

#fundamentals
#TensorFlow

กระบวนการที่มีขั้นตอนต่อไปนี้

  1. พิจารณาว่าฟีเจอร์ใดบ้างที่อาจมีประโยชน์ในการเทรนโมเดล
  2. แปลงข้อมูลดิบจากชุดข้อมูลเป็นฟีเจอร์เหล่านั้นในเวอร์ชันที่มีประสิทธิภาพ

เช่น คุณอาจพิจารณาว่า temperature อาจเป็นฟีเจอร์ที่มีประโยชน์ จากนั้น คุณอาจลองใช้การแบ่งกลุ่มเพื่อเพิ่มประสิทธิภาพสิ่งที่โมเดลสามารถเรียนรู้จากช่วง temperature ที่ต่างกัน

บางครั้งเราเรียกวิศวกรรมด้านฟีเจอร์ว่าการดึงข้อมูลฟีเจอร์หรือการสร้างฟีเจอร์

ใน TensorFlow การสร้างองค์ประกอบของฟีเจอร์มักหมายถึงการแปลงรายการไฟล์บันทึกดิบเป็นบัฟเฟอร์โปรโตคอล tf.Example โปรดดูหัวข้อ tf.Transform ด้วย


ดูข้อมูลเพิ่มเติมที่ข้อมูลตัวเลข: วิธีที่โมเดลนำเข้าข้อมูลโดยใช้เวกเตอร์ฟีเจอร์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การคํานวณองค์ประกอบ

คําที่มีความหมายหลายอย่างซึ่งมีคําจํากัดความอย่างใดอย่างหนึ่งต่อไปนี้

ความสำคัญของฟีเจอร์

#df
#Metric

คำพ้องความหมายของความสำคัญของตัวแปร

ชุดฟีเจอร์

#fundamentals

กลุ่มฟีเจอร์ที่โมเดลแมชชีนเลิร์นนิงของคุณใช้ฝึก เช่น ชุดฟีเจอร์ง่ายๆ สําหรับโมเดลที่คาดการณ์ราคาบ้านอาจประกอบด้วยรหัสไปรษณีย์ ขนาดที่พัก และสภาพที่พัก

ข้อมูลจำเพาะของฟีเจอร์

#TensorFlow

อธิบายข้อมูลที่จำเป็นในการดึงข้อมูลฟีเจอร์จากบัฟเฟอร์โปรโตคอล tf.Example เนื่องจากบัฟเฟอร์โปรโตคอล tf.Example เป็นเพียงคอนเทนเนอร์สำหรับข้อมูล คุณจึงต้องระบุข้อมูลต่อไปนี้

  • ข้อมูลที่จะดึง (นั่นคือ คีย์สําหรับฟีเจอร์)
  • ประเภทข้อมูล (เช่น float หรือ int)
  • ความยาว (คงที่หรือผันแปร)

เวกเตอร์องค์ประกอบ

#fundamentals

อาร์เรย์ของค่า feature ที่ประกอบไปด้วยตัวอย่าง เวกเตอร์ลักษณะจะป้อนระหว่างการฝึกและระหว่างการอนุมาน ตัวอย่างเช่น เวกเตอร์ลักษณะสําหรับโมเดลที่มี 2 ลักษณะที่แยกกันอาจมีลักษณะดังนี้

[0.92, 0.56]

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์
          เลเยอร์อินพุตมีโหนด 2 โหนด โดยโหนดหนึ่งมีค่า 0.92 และอีกโหนดมีค่า 0.56

ตัวอย่างแต่ละรายการระบุค่าที่แตกต่างกันสำหรับเวกเตอร์ลักษณะ ดังนั้นเวกเตอร์ลักษณะของตัวอย่างถัดไปจึงอาจเป็นดังนี้

[0.73, 0.49]

วิศวกรรมด้านฟีเจอร์จะกําหนดวิธีแสดงฟีเจอร์ในเวกเตอร์ฟีเจอร์ เช่น ฟีเจอร์เชิงหมวดหมู่แบบไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าอาจแสดงด้วยการเข้ารหัส One-Hot ในกรณีนี้ ส่วนของเวกเตอร์ลักษณะสำหรับตัวอย่างหนึ่งๆ จะประกอบด้วย 0 4 ตัวและ 1.0 1 ตัวในตำแหน่งที่ 3 ดังนี้

[0.0, 0.0, 1.0, 0.0, 0.0]

อีกตัวอย่างหนึ่งคือสมมติว่าโมเดลของคุณประกอบด้วยฟีเจอร์ 3 รายการ ได้แก่

  • ฟีเจอร์เชิงหมวดหมู่แบบไบนารีซึ่งมีค่าที่เป็นไปได้ 5 ค่าที่แสดงด้วยการเข้ารหัสแบบฮอตเดียว เช่น [0.0, 1.0, 0.0, 0.0, 0.0]
  • ฟีเจอร์เชิงหมวดหมู่แบบไบนารีอีกรายการที่มีค่าที่เป็นไปได้3 ค่าซึ่งแสดงด้วยการเข้ารหัสแบบฮอตเดียว เช่น [0.0, 0.0, 1.0]
  • ฟีเจอร์จุดลอยตัว เช่น 8.3

ในกรณีนี้ เวกเตอร์ฟีเจอร์ของตัวอย่างแต่ละรายการจะแสดงด้วยค่า 9 ค่า เมื่อพิจารณาจากค่าตัวอย่างในรายการก่อนหน้า เวกเตอร์ลักษณะจะเป็นดังนี้

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

ดูข้อมูลเพิ่มเติมที่ข้อมูลตัวเลข: วิธีที่โมเดลนำเข้าข้อมูลโดยใช้เวกเตอร์ฟีเจอร์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การสร้างฟีเจอร์

กระบวนการดึงข้อมูลองค์ประกอบจากแหล่งที่มาของอินพุต เช่น เอกสารหรือวิดีโอ และการแมปองค์ประกอบเหล่านั้นเป็นเวกเตอร์องค์ประกอบ

ผู้เชี่ยวชาญด้าน ML บางรายใช้การสร้างฟีเจอร์เป็นคำพ้องกับการปรับแต่งฟีเจอร์หรือการดึงข้อมูลฟีเจอร์

การเรียนรู้แบบสมาพันธ์

แนวทางแมชชีนเลิร์นนิงแบบกระจายที่ฝึกโมเดลแมชชีนเลิร์นนิงโดยใช้ตัวอย่างแบบกระจายศูนย์ที่อยู่ในอุปกรณ์ต่างๆ เช่น สมาร์ทโฟน ในการเรียนรู้แบบรวมศูนย์ อุปกรณ์บางส่วนจะดาวน์โหลดโมเดลปัจจุบันจากเซิร์ฟเวอร์ประสานงานส่วนกลาง อุปกรณ์จะใช้ตัวอย่างที่เก็บไว้ในอุปกรณ์เพื่อปรับปรุงโมเดล จากนั้นอุปกรณ์จะอัปโหลดการปรับปรุงโมเดล (แต่ไม่รวมตัวอย่างการฝึก) ไปยังเซิร์ฟเวอร์ประสานงาน ซึ่งจะรวบรวมการปรับปรุงเหล่านี้เข้ากับการอัปเดตอื่นๆ เพื่อให้ได้โมเดลทั่วโลกที่ปรับปรุงแล้ว หลังจากการรวมแล้ว อัปเดตโมเดลที่คำนวณโดยอุปกรณ์จะไม่จำเป็นต้องใช้อีกต่อไปและสามารถทิ้งได้

เนื่องจากไม่มีการอัปโหลดตัวอย่างการฝึก การเรียนรู้แบบรวมศูนย์จึงเป็นไปตามหลักการด้านความเป็นส่วนตัวของการเก็บรวบรวมข้อมูลที่มุ่งเน้นและการเก็บรักษาข้อมูลให้น้อยที่สุด

ดูรายละเอียดเพิ่มเติมได้ที่การ์ตูนเกี่ยวกับการเรียนรู้แบบรวมศูนย์ (ใช่ การ์ตูน)

รายงานความคิดเห็น

#fundamentals

ในแมชชีนเลิร์นนิง สถานการณ์ที่การคาดการณ์ของโมเดลส่งผลต่อข้อมูลการฝึกของโมเดลเดียวกันหรือโมเดลอื่น เช่น โมเดลที่แนะนำภาพยนตร์จะส่งผลต่อภาพยนตร์ที่ผู้ใช้เห็น ซึ่งก็จะส่งผลต่อโมเดลการแนะนำภาพยนตร์ในลำดับถัดไป

ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML เวอร์ชันที่ใช้งานจริง: คำถามที่ควรถามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โครงข่ายประสาทแบบ Feedforward (FFN)

เครือข่ายประสาทที่ไม่มีการเชื่อมต่อแบบวนซ้ำหรือแบบย้อนกลับ ตัวอย่างเช่น โครงข่ายประสาทแบบลึกแบบดั้งเดิมเป็นโครงข่ายประสาทแบบ Feedforward ซึ่งต่างจากเครือข่ายประสาทแบบซ้ำซึ่งเป็นแบบวนซ้ำ

การเรียนรู้แบบตัวอย่างน้อย

แนวทางแมชชีนเลิร์นนิงที่ใช้กันบ่อยสําหรับการจัดประเภทวัตถุ ซึ่งออกแบบมาเพื่อฝึกโมเดลการจัดประเภทที่มีประสิทธิภาพจากตัวอย่างการฝึกเพียงไม่กี่ตัวอย่าง

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบครั้งเดียวและการเรียนรู้แบบไม่ใช้ตัวอย่าง

Few-Shot Prompting

#language
#generativeAI

พรอมต์ที่มีตัวอย่างมากกว่า 1 รายการ ("2-3" รายการ) ซึ่งแสดงวิธีที่โมเดลภาษาขนาดใหญ่ควรตอบ ตัวอย่างเช่น พรอมต์แบบยาวต่อไปนี้มีตัวอย่าง 2 รายการที่แสดงวิธีตอบคำถามของโมเดลภาษาขนาดใหญ่

ส่วนต่างๆ ของพรอมต์ 1 รายการ หมายเหตุ
สกุลเงินทางการของประเทศที่ระบุคืออะไร คำถามที่คุณต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR ตัวอย่างหนึ่ง
สหราชอาณาจักร: GBP อีกตัวอย่างหนึ่ง
อินเดีย: คําค้นหาจริง

โดยทั่วไปแล้วพรอมต์แบบไม่กี่ช็อตจะให้ผลลัพธ์ที่ต้องการมากกว่าพรอมต์แบบไม่มีช็อตและพรอมต์แบบช็อตเดียว แต่การพรอมต์แบบไม่กี่คำต้องใช้พรอมต์ที่ยาวกว่า

พรอมต์แบบไม่กี่คำเป็นรูปแบบการเรียนรู้แบบไม่กี่คำที่ใช้กับการเรียนรู้ตามพรอมต์

ดูข้อมูลเพิ่มเติมได้ที่การวิศวกรรมพรอมต์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟิดเดิล

#language

ไลบรารีการกําหนดค่าที่ใช้ Python เป็นภาษาหลัก ซึ่งจะกําหนดค่าของฟังก์ชันและคลาสโดยไม่ต้องใช้โค้ดหรือโครงสร้างพื้นฐานที่แทรกแซง ในกรณีของ Pax และโค้ดเบส ML อื่นๆ ฟังก์ชันและคลาสเหล่านี้แสดงถึงโมเดลและการฝึก ไฮเปอร์พารามิเตอร์

Fiddle จะถือว่าโค้ดเบสแมชชีนเลิร์นนิงมักจะแบ่งออกเป็น 3 ส่วนดังนี้

  • โค้ดไลบรารีซึ่งกําหนดเลเยอร์และเครื่องมือเพิ่มประสิทธิภาพ
  • โค้ด "กาว" ของชุดข้อมูล ซึ่งเรียกใช้ไลบรารีและเชื่อมต่อทุกอย่างเข้าด้วยกัน

Fiddle จะบันทึกโครงสร้างการเรียกของโค้ดกาวในรูปแบบที่ยังไม่ได้ประเมินและเปลี่ยนแปลงได้

การปรับแต่ง

#language
#image
#generativeAI

การฝึกครั้งที่ 2 สำหรับงานเฉพาะที่ดำเนินการกับโมเดลที่ฝึกล่วงหน้าเพื่อปรับแต่งพารามิเตอร์สำหรับกรณีการใช้งานที่เฉพาะเจาะจง ตัวอย่างเช่น ลำดับการฝึกแบบเต็มสำหรับโมเดลภาษาขนาดใหญ่บางรายการมีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลภาษาขนาดใหญ่ด้วยชุดข้อมูลทั่วไปขนาดใหญ่ เช่น หน้า Wikipedia ภาษาอังกฤษทั้งหมด
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกไว้ล่วงหน้าให้ทํางานที่เฉพาะเจาะจง เช่น การตอบคําค้นหาทางการแพทย์ โดยปกติการปรับแต่งแบบละเอียดจะเกี่ยวข้องกับตัวอย่างหลายร้อยหรือหลายพันรายการที่มุ่งเน้นไปที่งานหนึ่งๆ

อีกตัวอย่างหนึ่งคือลําดับการฝึกแบบเต็มสําหรับโมเดลรูปภาพขนาดใหญ่มีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลรูปภาพขนาดใหญ่ในชุดข้อมูลรูปภาพทั่วไปขนาดใหญ่ เช่น รูปภาพทั้งหมดใน Wikimedia Commons
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกไว้ล่วงหน้าให้ทํางานเฉพาะ เช่น สร้างรูปภาพโลมาน้ำจืด

การปรับแต่งอาจใช้กลยุทธ์ต่อไปนี้ร่วมกัน

  • การแก้ไขพารามิเตอร์ที่มีอยู่ทั้งหมดของโมเดลที่ผ่านการฝึกอบรมไว้ล่วงหน้า บางครั้งเรียกว่าการปรับแต่งอย่างละเอียด
  • การแก้ไขพารามิเตอร์ที่มีอยู่บางส่วนของโมเดลที่ผ่านการฝึกอบรมล่วงหน้า (โดยปกติแล้วคือเลเยอร์ที่อยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด) โดยไม่เปลี่ยนแปลงพารามิเตอร์อื่นๆ ที่มีอยู่ (โดยปกติแล้วคือเลเยอร์ที่อยู่ใกล้กับเลเยอร์อินพุตมากที่สุด) ดูการปรับแต่งที่มีประสิทธิภาพในแง่พารามิเตอร์
  • การเพิ่มเลเยอร์ โดยปกติจะวางไว้บนเลเยอร์ที่มีอยู่ซึ่งอยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด

การปรับแต่งเป็นรูปแบบหนึ่งของการเรียนรู้แบบโอน ดังนั้นการปรับแต่งอาจใช้ Loss Function หรือโมเดลประเภทอื่นที่แตกต่างจากที่ใช้ฝึกโมเดลที่ผ่านการฝึกอบรมไว้ล่วงหน้า เช่น คุณอาจปรับแต่งโมเดลรูปภาพขนาดใหญ่ที่ฝึกไว้ล่วงหน้าเพื่อสร้างโมเดลการถดถอยซึ่งจะแสดงจํานวนนกในรูปภาพอินพุต

เปรียบเทียบการปรับแต่งกับคําต่อไปนี้

ดูข้อมูลเพิ่มเติมได้ที่การปรับแต่งในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เหลืองแฟลกซ์

#language

ไลบรารีโอเพนซอร์สที่มีประสิทธิภาพสูงสําหรับการเรียนรู้เชิงลึกซึ่งสร้างขึ้นจาก JAX Flax มีฟังก์ชันสำหรับการฝึก เครือข่ายประสาทเทียม รวมถึงวิธีการประเมินประสิทธิภาพของเครือข่าย

Flaxformer

#language

ไลบรารี Transformer แบบโอเพนซอร์สที่สร้างขึ้นจาก Flax ซึ่งออกแบบมาเพื่อประมวลผลภาษาธรรมชาติและการวิจัยแบบหลายมิติเป็นหลัก

ลืมประตูรั้ว

#seq

ส่วนหนึ่งของเซลล์ความจำระยะสั้นระยะยาวที่ควบคุมการไหลของข้อมูลผ่านเซลล์ เกต Forget จะรักษาบริบทโดยเลือกข้อมูลที่จะทิ้งออกจากสถานะของเซลล์

เศษส่วนของความสําเร็จ

#generativeAI
#Metric

เมตริกสําหรับประเมินข้อความที่สร้างขึ้นของโมเดล ML ส่วนที่เป็นความสำเร็จคือจํานวนเอาต์พุตข้อความที่ "สําเร็จ" หารด้วยจํานวนเอาต์พุตข้อความทั้งหมดที่สร้างขึ้น ตัวอย่างเช่น หากโมเดลภาษาขนาดใหญ่สร้างโค้ด 10 บล็อก โดย 5 บล็อกทำงานสำเร็จ เศษส่วนของความสําเร็จจะเท่ากับ 50%

แม้ว่าเศษส่วนของความสําเร็จจะมีประโยชน์อย่างกว้างๆ ในสถิติ แต่ภายใน ML เมตริกนี้มีประโยชน์สําหรับการวัดงานที่ตรวจสอบได้เป็นหลัก เช่น การสร้างโค้ดหรือโจทย์คณิตศาสตร์

Softmax แบบเต็ม

คำพ้องความหมายของ softmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

ดูข้อมูลเพิ่มเติมได้ที่เครือข่ายประสาท: การแยกประเภทหลายคลาสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เลเยอร์แบบ Fully Connected

เลเยอร์ที่ซ่อนอยู่ ซึ่งโหนดแต่ละโหนดจะเชื่อมต่อกับทุกโหนดในเลเยอร์ที่ซ่อนอยู่ลำดับถัดไป

เลเยอร์แบบ Fully Connected เรียกอีกอย่างว่าเลเยอร์แบบหนาแน่น

การเปลี่ยนรูปแบบฟังก์ชัน

ฟังก์ชันที่ใช้ฟังก์ชันเป็นอินพุตและแสดงผลฟังก์ชันที่เปลี่ยนรูปแบบเป็นเอาต์พุต JAX ใช้การเปลี่ยนรูปแบบฟังก์ชัน

G

GAN

ตัวย่อของ Generative Adversarial Network

Gemini

#language
#image
#generativeAI

ระบบนิเวศที่ประกอบด้วย AI ที่ล้ำหน้าที่สุดของ Google องค์ประกอบของระบบนิเวศนี้ได้แก่

  • โมเดล Gemini ต่างๆ
  • อินเทอร์เฟซการสนทนาแบบอินเทอร์แอกทีฟกับโมเดล Gemini ผู้ใช้พิมพ์พรอมต์และ Gemini จะตอบกลับพรอมต์เหล่านั้น
  • Gemini API ต่างๆ
  • ผลิตภัณฑ์ทางธุรกิจต่างๆ ที่อิงตามโมเดล Gemini เช่น Gemini สำหรับ Google Cloud

โมเดล Gemini

#language
#image
#generativeAI

โมเดลมัลติโมดที่อิงตาม Transformer ที่ทันสมัยของ Google โมเดล Gemini ออกแบบมาเพื่อผสานรวมกับตัวแทนโดยเฉพาะ

ผู้ใช้โต้ตอบกับโมเดล Gemini ได้หลายวิธี เช่น ผ่านอินเทอร์เฟซการสนทนาแบบอินเทอร์แอกทีฟและผ่าน SDK

การทั่วไป

#fundamentals

ความสามารถของโมเดลในการคาดการณ์ที่ถูกต้องเกี่ยวกับข้อมูลใหม่ซึ่งไม่เคยเห็นมาก่อน โมเดลที่ทํานายได้ทั่วไปจะตรงข้ามกับโมเดลที่ปรับให้พอดีมากเกินไป

คุณฝึกโมเดลด้วยตัวอย่างในชุดการฝึก ด้วยเหตุนี้ โมเดลจึงเรียนรู้ความผิดปกติของข้อมูลในชุดการฝึก การทํานายทั่วไปคือการถามว่าโมเดลของคุณทําการคาดการณ์ที่ดีกับตัวอย่างที่ไม่ได้อยู่ในชุดข้อมูลการฝึกได้หรือไม่

การปรับให้เหมาะสมจะช่วยโมเดลในการฝึกให้น้อยลงตรงกับความผิดปกติของข้อมูลในชุดการฝึก เพื่อส่งเสริมให้เกิดการทั่วไป


ดูข้อมูลเพิ่มเติมได้ที่การทั่วไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เส้นโค้งทั่วไป

#fundamentals

ผังทั้งการลดลงของการฝึกและการลดลงของการตรวจสอบตามจำนวนการทำซ้ำ

เส้นโค้งทั่วไปจะช่วยคุณตรวจหาการประมาณที่มากเกินไปที่อาจเกิดขึ้น ตัวอย่างเช่น เส้นโค้งทั่วไปต่อไปนี้บ่งชี้ว่ามีการจับคู่ที่มากเกินไปเนื่องจากความสูญเสียในการตรวจสอบจะสูงกว่าความสูญเสียในการฝึกอย่างมาก

กราฟคาร์ทีเซียนที่แกน Y มีป้ายกำกับว่า &quot;การสูญเสีย&quot; และแกน X มีป้ายกำกับว่า &quot;การทำซ้ำ&quot; ผัง 2 รายการจะปรากฏขึ้น แผนภูมิหนึ่งแสดงการสูญเสียในการฝึกอบรมและอีกแผนภูมิหนึ่งแสดงการสูญเสียในการทดสอบ
          แผนภูมิ 2 แผนภูมินี้เริ่มต้นในลักษณะคล้ายกัน แต่ในที่สุดแล้ว Loss ของการฝึกก็ลดลงต่ำกว่า Loss ของการตรวจสอบ

ดูข้อมูลเพิ่มเติมได้ที่การทั่วไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

รูปแบบเชิงเส้นทั่วไป

การทั่วไปของการประมาณด้วยค่าสัมประสิทธิ์ถ่วงน้ำหนักน้อยที่สุด โมเดล ซึ่งอิงตามสัญญาณรบกวนแบบกaussian ไปยังรูปแบบอื่นๆ ของโมเดลที่อิงตามสัญญาณรบกวนประเภทอื่นๆ เช่น สัญญาณรบกวนแบบ Poisson หรือสัญญาณรบกวนเชิงหมวดหมู่ ตัวอย่างโมเดลเชิงเส้นทั่วไป ได้แก่

พารามิเตอร์ของโมเดลเชิงเส้นทั่วไปจะพบได้ผ่านการเพิ่มประสิทธิภาพแบบโคเวกซ์

โมเดลเชิงเส้นทั่วไปมีคุณสมบัติดังต่อไปนี้

  • การคาดการณ์ค่าเฉลี่ยของโมเดลการถดถอยแบบกำลังสองน้อยที่สุดที่ดีที่สุดจะเท่ากับป้ายกำกับค่าเฉลี่ยในข้อมูลการฝึก
  • ความน่าจะเป็นโดยเฉลี่ยที่โมเดลการถดถอยเชิงโลจิสติกแบบเพิ่มประสิทธิภาพสูงสุดคาดการณ์ได้เท่ากับป้ายกำกับโดยเฉลี่ยในข้อมูลการฝึก

ประสิทธิภาพของโมเดลเชิงเส้นทั่วไปถูกจํากัดด้วยฟีเจอร์ โมเดลเชิงเส้นทั่วไปไม่สามารถ "เรียนรู้ฟีเจอร์ใหม่" ได้ ต่างจากโมเดลเชิงลึก

ข้อความที่สร้างขึ้น

#language
#generativeAI

โดยทั่วไปคือข้อความที่โมเดล ML แสดงผล เมื่อประเมินโมเดลภาษาขนาดใหญ่ เมตริกบางรายการจะเปรียบเทียบข้อความที่สร้างขึ้นกับข้อความอ้างอิง ตัวอย่างเช่น สมมติว่าคุณพยายามประเมินประสิทธิภาพการแปลจากภาษาฝรั่งเศสเป็นภาษาดัตช์ของโมเดล ML ในกรณีนี้

  • ข้อความที่สร้างขึ้นคือคำแปลภาษาดัตช์ที่โมเดล ML แสดงผล
  • ข้อความอ้างอิงคือคำแปลภาษาดัตช์ที่นักแปล (หรือซอฟต์แวร์) สร้างขึ้น

โปรดทราบว่ากลยุทธ์การประเมินบางกลยุทธ์ไม่มีข้อความอ้างอิง

เครือข่าย Generative Adversarial (GAN)

ระบบสร้างข้อมูลใหม่ซึ่งตัวสร้างจะสร้างข้อมูล และตัวแยกจะระบุว่าข้อมูลที่สร้างขึ้นนั้นถูกต้องหรือไม่

ดูข้อมูลเพิ่มเติมในหลักสูตร Generative Adversarial Networks

Generative AI

#language
#image
#generativeAI

ช่องการเปลี่ยนแปลงที่เกิดขึ้นใหม่ซึ่งไม่มีคำจำกัดความอย่างเป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่ยอมรับว่าโมเดล Generative AI สามารถสร้าง ("สร้าง") เนื้อหาที่มีลักษณะต่อไปนี้

  • ซับซ้อน
  • สอดคล้องกัน
  • เดิม

เช่น โมเดล Generative AI สามารถสร้างเรียงความหรือรูปภาพที่ซับซ้อน

เทคโนโลยีรุ่นก่อนหน้าบางรายการ เช่น LSTM และ RNN สามารถสร้างเนื้อหาต้นฉบับที่สอดคล้องกันได้ด้วย ผู้เชี่ยวชาญบางรายมองว่าเทคโนโลยียุคแรกๆ เหล่านี้เป็น Generative AI ขณะที่ผู้เชี่ยวชาญอีกกลุ่มหนึ่งเชื่อว่า Generative AI ที่แท้จริงต้องใช้เอาต์พุตที่ซับซ้อนกว่าเทคโนโลยียุคแรกๆ เหล่านั้นจะผลิตได้

ตรงข้ามกับ ML เชิงคาดการณ์

โมเดล Generative

ในทางปฏิบัติ โมเดลที่มีลักษณะอย่างใดอย่างหนึ่งต่อไปนี้

  • สร้าง (สร้าง) ตัวอย่างใหม่จากชุดข้อมูลการฝึก เช่น โมเดล Generative อาจสร้างบทกวีได้หลังจากฝึกกับชุดข้อมูลบทกวี Generator เป็นส่วนหนึ่งของGenerative Adversarial Network ซึ่งจัดอยู่ในหมวดหมู่นี้
  • พิจารณาความเป็นไปได้ว่าตัวอย่างใหม่มาจากชุดการฝึกหรือสร้างขึ้นจากกลไกเดียวกับที่สร้างชุดการฝึก ตัวอย่างเช่น หลังจากฝึกกับชุดข้อมูลที่เป็นประโยคภาษาอังกฤษ โมเดล Generative อาจระบุความน่าจะเป็นที่อินพุตใหม่จะเป็นประโยคภาษาอังกฤษที่ถูกต้อง

ในทางทฤษฎีแล้ว โมเดล Generative สามารถแยกแยะการแจกแจงตัวอย่างหรือฟีเจอร์ที่เฉพาะเจาะจงในชุดข้อมูลได้ โดยการ

p(examples)

โมเดลการเรียนรู้ที่ไม่มีการควบคุมดูแลเป็นแบบ Generative

ตรงข้ามกับโมเดลการแยกแยะ

โปรแกรมสร้างแผนผังไซต์

ระบบย่อยภายในเครือข่าย Generative Adversarial ที่สร้างตัวอย่างใหม่

ตรงข้ามกับรูปแบบการระบุแหล่งที่มาแบบเจาะจง

ความไม่บริสุทธิ์ของจีนี

#df
#Metric

เมตริกที่คล้ายกับเอนโทรปี ตัวแยกใช้ค่าที่มาจากความไม่บริสุทธิ์ของ Gini หรือเอนโทรปีเพื่อสร้างเงื่อนไขสําหรับการจัดประเภทต้นไม้การตัดสินใจ การได้ข้อมูลมาจากเอนโทรปี ไม่มีคําที่เทียบเท่าซึ่งยอมรับกันทั่วโลกสําหรับเมตริกที่มาจากความไม่บริสุทธิ์ของ Gini แต่เมตริกที่ไม่มีชื่อนี้สําคัญพอๆ กับข้อมูลที่ได้รับ

ความไม่เป็นระเบียบของจีนีเรียกอีกอย่างว่าดัชนีจีนี หรือเรียกสั้นๆ ว่าจีนี

ความไม่เป็นระเบียบของ Gini คือความน่าจะเป็นที่จะจัดประเภทข้อมูลใหม่ไม่ถูกต้องซึ่งนำมาจากการแจกแจงเดียวกัน ความไม่เป็นระเบียบของ Gini ของชุดที่มีค่าที่เป็นไปได้ 2 ค่า ได้แก่ "0" และ "1" (เช่น ป้ายกำกับในปัญหาการจัดประเภทแบบ 2 กลุ่ม) จะคํานวณจากสูตรต่อไปนี้

   I = 1 - (p2 + q2) = 1 - (p2 + (1-p)2)

where:

  • I คือความไม่บริสุทธิ์ของ Gini
  • p คือเศษส่วนของตัวอย่าง "1"
  • q คือเศษส่วนของตัวอย่าง "0" โปรดทราบว่า q = 1-p

ตัวอย่างเช่น ลองพิจารณาชุดข้อมูลต่อไปนี้

  • ป้ายกำกับ 100 รายการ (0.25 ของชุดข้อมูล) มีค่า "1"
  • ป้ายกำกับ 300 รายการ (0.75 ของชุดข้อมูล) มีค่าเป็น "0"

ดังนั้น ความบริสุทธิ์ของ Gini คือ

  • p = 0.25
  • q = 0.75
  • I = 1 - (0.252 + 0.752) = 0.375

ดังนั้น ป้ายกำกับแบบสุ่มจากชุดข้อมูลเดียวกันจึงมีโอกาส 37.5% ที่จะจัดประเภทไม่ถูกต้อง และมีโอกาส 62.5% ที่จะจัดประเภทอย่างถูกต้อง

ป้ายกำกับที่สมดุลอย่างสมบูรณ์ (เช่น "0" 200 ตัวและ "1" 200 ตัว) จะมีค่าความไม่บริสุทธิ์ของจินี 0.5 ป้ายกำกับที่ไม่สมดุลอย่างมากจะมีค่าความไม่บริสุทธิ์ของจินีใกล้เคียงกับ 0.0


ชุดข้อมูลโกลเด้น

ชุดข้อมูลที่ดูแลจัดการด้วยตนเองซึ่งบันทึกข้อมูลจริง ทีมสามารถใช้ชุดข้อมูลโกลด์อย่างน้อย 1 ชุดเพื่อประเมินคุณภาพของโมเดล

ชุดข้อมูลโกลด์บางชุดจะจับภาพโดเมนย่อยที่แตกต่างกันของข้อมูลจริง เช่น ข้อมูลชุดทองสำหรับการแยกประเภทรูปภาพอาจจับภาพสภาพแสงและความละเอียดของรูปภาพ

คำตอบที่ยอดเยี่ยม

#language
#generativeAI

คำตอบที่ทราบว่าดี ตัวอย่างเช่น เมื่อมีพรอมต์ต่อไปนี้

2 + 2

คำตอบที่สมบูรณ์แบบควรมีลักษณะดังนี้

4

เมตริกการประเมินบางรายการ เช่น ROUGE จะเปรียบเทียบข้อความอ้างอิงกับข้อความที่สร้างขึ้นของโมเดล เมื่อคำตอบที่ถูกต้องสำหรับพรอมต์มีเพียงคำตอบเดียว คำตอบที่ยอดเยี่ยมมักจะใช้เป็นข้อความอ้างอิง

พรอมต์บางรายการไม่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว เช่น พรอมต์สรุปเอกสารนี้มีแนวโน้มที่จะมีคำตอบที่ถูกต้องหลายคำตอบ สําหรับพรอมต์ดังกล่าว ข้อความอ้างอิงมักไม่เหมาะสําหรับใช้งานเนื่องจากโมเดลสามารถสร้างสรุปที่เป็นไปได้ได้หลากหลายมาก อย่างไรก็ตาม คําตอบมาตรฐานอาจมีประโยชน์ในสถานการณ์นี้ ตัวอย่างเช่น คําตอบที่เป็นคำตอบมาตรฐานซึ่งมีข้อมูลสรุปเอกสารที่ดีจะช่วยฝึกเครื่องมือประเมินอัตโนมัติให้ค้นพบรูปแบบของข้อมูลสรุปเอกสารที่ดี


GPT (Generative Pre-trained Transformer)

#language

ตระกูลโมเดลภาษาขนาดใหญ่ที่อิงตาม Transformer ซึ่งพัฒนาโดย OpenAI

รูปแบบ GPT สามารถใช้กับรูปแบบต่างๆ ได้ ซึ่งรวมถึง

  • การสร้างรูปภาพ (เช่น ImageGPT)
  • การสร้างรูปภาพจากข้อความ (เช่น DALL-E)

ไล่ระดับ

เวกเตอร์ของอนุพันธ์บางส่วนเทียบกับตัวแปรอิสระทั้งหมด ในแมชชีนเลิร์นนิง อนุพันธ์เชิงกรเดียนคือเวกเตอร์ของอนุพันธ์ย่อยของฟังก์ชันโมเดล เส้นลาดจะชี้ไปในทิศทางของการขึ้นที่ชันที่สุด

การสะสมของเส้นลาด

เทคนิคBackpropagation ที่อัปเดตพารามิเตอร์เพียงครั้งเดียวต่อยุคแทนที่จะอัปเดตครั้งเดียวต่อการวนซ้ำ หลังจากประมวลผลมินิแบตช์แต่ละรายการแล้ว การสะสมของอนุพันธ์จะอัปเดตยอดรวมของอนุพันธ์ จากนั้นหลังจากประมวลผลมินิแบทช์สุดท้ายในยุคแล้ว ระบบจะอัปเดตพารามิเตอร์ตามการเปลี่ยนแปลงของ Gradient ทั้งหมด

การสะสม Gradient จะมีประโยชน์เมื่อขนาดกลุ่มมีขนาดใหญ่มากเมื่อเทียบกับปริมาณหน่วยความจําที่ใช้ได้สําหรับการฝึก เมื่อหน่วยความจําเป็นปัญหา แนวโน้มโดยปกติคือลดขนาดกลุ่ม อย่างไรก็ตาม การลดขนาดกลุ่มใน Backpropagation ปกติจะเพิ่มจำนวนการอัปเดตพารามิเตอร์ การสะสม Gradient ช่วยให้โมเดลหลีกเลี่ยงปัญหาเกี่ยวกับหน่วยความจําได้ แต่ก็ยังคงฝึกได้อย่างมีประสิทธิภาพ

ต้นไม้ (การตัดสินใจ) ที่เพิ่มประสิทธิภาพด้วย Gradient (GBT)

#df

ป่าการตัดสินใจประเภทหนึ่งซึ่งมีลักษณะดังนี้

ดูข้อมูลเพิ่มเติมเกี่ยวกับต้นไม้การตัดสินใจที่มีการเพิ่มประสิทธิภาพด้วย Gradient ในหลักสูตรป่าการตัดสินใจ

การบูสต์ด้วย Gradient

#df

อัลกอริทึมการฝึกที่ฝึกโมเดลที่มีประสิทธิภาพต่ำเพื่อปรับปรุงคุณภาพ (ลดการสูญเสีย) ของโมเดลที่มีประสิทธิภาพสูงซ้ำๆ เช่น รูปแบบที่มีประสิทธิภาพต่ำอาจเป็นรูปแบบต้นไม้การตัดสินใจเชิงเส้นหรือขนาดเล็ก โมเดลที่มีประสิทธิภาพจะกลายเป็นผลรวมของโมเดลที่มีประสิทธิภาพต่ำทั้งหมดที่เคยฝึกไว้ก่อนหน้านี้

ในรูปแบบที่ง่ายที่สุดของการเพิ่มประสิทธิภาพด้วย Gradient Boosting จะมีการนําโมเดลที่มีประสิทธิภาพต่ำไปฝึกในแต่ละรอบเพื่อคาดการณ์ Gradient ของการสูญเสียของโมเดลที่มีประสิทธิภาพสูง จากนั้นระบบจะอัปเดตเอาต์พุตของโมเดลที่มีประสิทธิภาพโดยลบอนุพันธ์ที่คาดการณ์ไว้ ซึ่งคล้ายกับการลดอนุพันธ์

F0=0
Fi+1=Fiξfi

where:

  • F0 คือโมเดลเริ่มต้นที่มีประสิทธิภาพ
  • Fi+1 คือโมเดลที่มีประสิทธิภาพสูงสุดถัดไป
  • Fi คือโมเดลที่มีประสิทธิภาพในปัจจุบัน
  • ξ คือค่าระหว่าง 0.0 ถึง 1.0 ที่เรียกว่าการหดตัว ซึ่งคล้ายกับอัตราการเรียนรู้ในการลดค่าของอนุพันธ์
  • fi คือโมเดลที่มีประสิทธิภาพต่ำซึ่งได้รับการฝึกให้คาดการณ์อนุพันธ์ของ Loss ของ Fi

รูปแบบสมัยใหม่ของการเพิ่มประสิทธิภาพด้วย Gradient Boosting ยังรวมอนุพันธ์ที่ 2 (Hessian) ของการสูญเสียไว้ในการคำนวณด้วย

แผนผังการตัดสินใจมักใช้เป็นโมเดลที่มีประสิทธิภาพต่ำใน Gradient Boosting ดูต้นไม้ (การตัดสินใจ) ที่เพิ่มประสิทธิภาพด้วย Gradient

การครอบตัดการไล่ระดับสี

#seq

กลไกที่ใช้กันโดยทั่วไปเพื่อบรรเทาปัญหาการเพิ่มขึ้นของ Gradient คือการจํากัด (การตัด) ค่าสูงสุดของ Gradient โดยใช้การลด Gradient เพื่อฝึกโมเดล

การลดค่าของ Gradient

#fundamentals

เทคนิคทางคณิตศาสตร์เพื่อลดการสูญเสีย วิธีการนี้ปรับน้ำหนักและค่ากําหนดล่วงหน้าซ้ำๆ เพื่อค้นหาการผสมผสานที่ดีที่สุดเพื่อลดการสูญเสีย

การลดเชิงลาดมีอายุเก่ากว่าแมชชีนเลิร์นนิงมาก

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: การลดลงของลาดในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

กราฟ

#TensorFlow

ใน TensorFlow ข้อมูลจำเพาะการประมวลผล โหนดในกราฟแสดงถึงการดำเนินการ ขอบมีทิศทางและแสดงการนําส่งผลลัพธ์ของการดำเนินการ (Tensor) ไปยังการดำเนินการอื่น ใช้ TensorBoard เพื่อแสดงภาพกราฟ

การดำเนินการของกราฟ

#TensorFlow

สภาพแวดล้อมการเขียนโปรแกรม TensorFlow ที่โปรแกรมจะสร้างกราฟก่อน จากนั้นจึงเรียกใช้กราฟทั้งหมดหรือบางส่วน การดำเนินการของกราฟคือโหมดการดำเนินการเริ่มต้นใน TensorFlow 1.x

ตรงข้ามกับการดำเนินการแบบรอดำเนินการ

นโยบายการแสวงหาประโยชน์

#rl

ในการเรียนรู้ด้วยการทำซ้ำ นโยบายที่เลือกการดำเนินการที่มีผลตอบแทนที่คาดไว้สูงสุดเสมอ

การมีพื้นฐาน

พร็อพเพอร์ตี้ของโมเดลที่เอาต์พุตอิงตาม (คือ "อิงตาม") เนื้อหาต้นทางที่เฉพาะเจาะจง ตัวอย่างเช่น สมมติว่าคุณป้อนตำราฟิสิกส์ทั้งเล่มเป็นอินพุต ("บริบท") ให้กับโมเดลภาษาขนาดใหญ่ จากนั้นคุณป้อนคำถามฟิสิกส์ให้โมเดลภาษาขนาดใหญ่ หากคำตอบของโมเดลแสดงถึงข้อมูลในตำราเรียนนั้น แสดงว่าโมเดลนั้นอิงตามตำราเรียนนั้น

โปรดทราบว่าโมเดลที่อิงตามหลักฐานไม่ใช่โมเดลที่เป็นข้อเท็จจริงเสมอไป เช่น ตำราฟิสิกส์ที่ส่งมาอาจมีข้อผิดพลาด

ข้อมูลจากการสังเกตการณ์โดยตรง

#fundamentals

ความจริง

สิ่งที่เกิดขึ้นจริง

ตัวอย่างเช่น ลองพิจารณาโมเดลการจัดประเภทแบบ 2 กลุ่มที่คาดการณ์ว่านักเรียนปีแรกของมหาวิทยาลัยจะสำเร็จการศึกษาภายใน 6 ปีหรือไม่ ข้อมูลจากการสังเกตการณ์โดยตรงสําหรับโมเดลนี้คือนักเรียนคนนั้นจบการศึกษาภายใน 6 ปีจริงหรือไม่

เราประเมินคุณภาพโมเดลเทียบกับข้อมูลจากการสังเกตการณ์โดยตรง อย่างไรก็ตาม ข้อมูลความจริงอาจไม่ได้เป็นความจริงอย่างสมบูรณ์เสมอไป ตัวอย่างเช่น โปรดดูตัวอย่างข้อบกพร่องที่อาจเกิดขึ้นในข้อมูลจริงต่อไปนี้

  • ในตัวอย่างการสำเร็จการศึกษา เรามั่นใจว่าบันทึกการสำเร็จการศึกษาของนักเรียนแต่ละคนถูกต้องเสมอใช่ไหม การเก็บรักษาบันทึกของมหาวิทยาลัยเป็นไปอย่างราบรื่นหรือไม่
  • สมมติว่าป้ายกํากับคือค่าทศนิยมที่วัดโดยเครื่องมือ (เช่น บารอมิเตอร์) เราจะแน่ใจได้อย่างไรว่าเครื่องมือแต่ละชิ้นได้รับการปรับเทียบเหมือนกัน หรือว่าค่าที่อ่านได้แต่ละค่านั้นได้มาภายใต้สถานการณ์เดียวกัน
  • หากป้ายกำกับเป็นเรื่องของความคิดเห็นของมนุษย์ เราจะแน่ใจได้อย่างไรว่าผู้ให้คะแนนแต่ละคนประเมินเหตุการณ์ในลักษณะเดียวกัน บางครั้งเจ้าหน้าที่ผู้ประเมินที่เชี่ยวชาญจะแทรกแซงเพื่อปรับปรุงความสอดคล้อง

อคติในการระบุแหล่งที่มาของกลุ่ม

#fairness

สมมติว่าสิ่งที่เป็นจริงสำหรับบุคคลหนึ่งเป็นจริงสำหรับทุกคนในกลุ่มนั้นด้วย ผลกระทบของอคติการระบุแหล่งที่มาของกลุ่มอาจรุนแรงขึ้นหากใช้การสุ่มตัวอย่างตามความสะดวกในการรวบรวมข้อมูล ในตัวอย่างที่ไม่ได้เป็นตัวแทน อาจมีการระบุแหล่งที่มาที่ไม่ตรงกับความเป็นจริง

ดูอคติความเหมือนกันของกลุ่มนอกและอคติของกลุ่มในด้วย นอกจากนี้ โปรดดูข้อมูลเพิ่มเติมจากหัวข้อความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

H

อาการหลอน

#language

การสร้างเอาต์พุตที่ดูน่าเชื่อถือแต่ข้อเท็จจริงไม่ถูกต้องโดยโมเดล Generative AI ที่อ้างว่ากำลังกล่าวอ้างเกี่ยวกับโลกแห่งความเป็นจริง เช่น โมเดล Generative AI ที่ระบุว่าบารัก โอบามาเสียชีวิตในปี 1865 เป็นการเพ้อเจ้อ

การแฮช

ในแมชชีนเลิร์นนิง กลไกการจัดกลุ่มข้อมูลเชิงหมวดหมู่ โดยเฉพาะอย่างยิ่งเมื่อจํานวนหมวดหมู่มีมาก แต่จํานวนหมวดหมู่ที่ปรากฏในชุดข้อมูลมีน้อย

ตัวอย่างเช่น โลกเป็นที่อยู่อาศัยของต้นไม้ประมาณ 73,000 สายพันธุ์ คุณอาจแสดงสายพันธุ์ต้นไม้แต่ละสายพันธุ์ 73,000 สายพันธุ์ในที่เก็บข้อมูลเชิงหมวดหมู่แยกกัน 73,000 รายการ หรือหากมีเพียง 200 สายพันธุ์ของต้นไม้ที่ปรากฏในชุดข้อมูล คุณอาจใช้การแฮชเพื่อแบ่งสายพันธุ์ต้นไม้ออกเป็นที่เก็บข้อมูลประมาณ 500 รายการ

ถังเดียวอาจมีต้นไม้หลายสายพันธุ์ เช่น การแฮชอาจจัดให้ต้นบาโอบาและต้นเมเปิลสีแดง ซึ่งเป็น 2 สายพันธุ์ที่แตกต่างกันทางพันธุกรรมไว้ในที่เก็บข้อมูลเดียวกัน อย่างไรก็ตาม แฮชยังคงเป็นวิธีที่ยอดเยี่ยมในการแมปชุดหมวดหมู่ขนาดใหญ่ลงในที่เก็บข้อมูลจํานวนหนึ่งที่เลือก การแฮชจะเปลี่ยนฟีเจอร์เชิงหมวดหมู่ซึ่งมีค่าที่เป็นไปได้จํานวนมากให้มีค่าจํานวนน้อยลงมากโดยการจัดกลุ่มค่าในลักษณะที่แน่นอน

ดูข้อมูลเพิ่มเติมได้ในข้อมูลเชิงหมวดหมู่: พจนานุกรมและการเข้ารหัสแบบฮอตเวิร์กในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การคาดคะเน

โซลูชันที่ใช้งานง่ายและรวดเร็วในการแก้ปัญหา เช่น "เรามีความแม่นยำ 86% เมื่อใช้วิธีการเฮิวริสติก เมื่อเปลี่ยนไปใช้เครือข่ายประสาทเทียม ความแม่นยำก็เพิ่มขึ้นเป็น 98%"

เลเยอร์ที่ซ่อนอยู่

#fundamentals

เลเยอร์ในเครือข่ายประสาทเทียมระหว่างเลเยอร์อินพุต (ฟีเจอร์) กับเลเยอร์เอาต์พุต (การคาดการณ์) แต่ละชั้นที่ซ่อนอยู่ประกอบด้วยเซลล์ประสาทอย่างน้อย 1 เซลล์ ตัวอย่างเช่น เครือข่ายประสาทต่อไปนี้มีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ โดยเลเยอร์แรกมีเซลล์ประสาท 3 เซลล์ และเลเยอร์ที่ 2 มีเซลล์ประสาท 2 เซลล์

4 เลเยอร์ เลเยอร์แรกคือเลเยอร์อินพุตที่มีองค์ประกอบ 2 รายการ เลเยอร์ที่ 2 เป็นเลเยอร์ที่ซ่อนอยู่ซึ่งมีนิวรอน 3 ตัว ชั้นที่ 3 เป็นชั้นที่ซ่อนอยู่ซึ่งมีเซลล์ประสาท 2 เซลล์ เลเยอร์ที่ 4 คือเลเยอร์เอาต์พุต แต่ละองค์ประกอบมีขอบ 3 เส้น โดยแต่ละเส้นจะชี้ไปยังเซลล์ประสาทที่แตกต่างกันในชั้นที่ 2 เซลล์ประสาทแต่ละเซลล์ในชั้นที่ 2 จะมีขอบ 2 เส้น โดยแต่ละเส้นจะชี้ไปยังเซลล์ประสาทอื่นในชั้นที่ 3 เซลล์ประสาทแต่ละเซลล์ในชั้นที่ 3 จะมีขอบ 1 เส้นซึ่งชี้ไปยังชั้นเอาต์พุต

โครงข่ายประสาทแบบลึกมีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 เลเยอร์ ตัวอย่างเช่น ภาพด้านบนคือเครือข่ายประสาทเทียม (Deep Neural Network) เนื่องจากโมเดลมีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์

ดูข้อมูลเพิ่มเติมได้ที่โครงข่ายประสาท: โหนดและเลเยอร์ที่ซ่อนอยู่ในบทแนะนำเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

การจัดกลุ่มตามลําดับชั้น

#clustering

หมวดหมู่อัลกอริทึมการจัดกลุ่มที่สร้างลําดับชั้นของคลัสเตอร์ การจัดกลุ่มตามลําดับชั้นเหมาะสําหรับข้อมูลลําดับชั้น เช่น การจัดหมวดหมู่ทางพฤกษศาสตร์ อัลกอริทึมการจัดกลุ่มตามลําดับชั้นมี 2 ประเภท ได้แก่

  • การคลัสเตอร์แบบรวมกลุ่มจะกำหนดตัวอย่างทั้งหมดไปยังคลัสเตอร์ของตัวเองก่อน จากนั้นจะผสานคลัสเตอร์ที่ใกล้เคียงที่สุดซ้ำๆ เพื่อสร้างต้นไม้ตามลําดับชั้น
  • คลัสเตอร์แบบแยกจะจัดกลุ่มตัวอย่างทั้งหมดเป็นคลัสเตอร์เดียวก่อน จากนั้นจึงแบ่งคลัสเตอร์ออกเป็นต้นไม้ตามลําดับชั้นซ้ำๆ

ตรงข้ามกับการจัดกลุ่มตามจุดศูนย์กลางมวล

ดูข้อมูลเพิ่มเติมเกี่ยวกับอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม

การปีนเขา

อัลกอริทึมสำหรับการปรับปรุงแบบซ้ำ ("การเดินขึ้นเนิน") โมเดล ML จนกว่าโมเดลจะหยุดปรับปรุง ("ถึงยอดเนิน") รูปแบบทั่วไปของอัลกอริทึมมีดังนี้

  1. สร้างโมเดลเริ่มต้น
  2. สร้างโมเดลผู้สมัครใหม่โดยปรับเปลี่ยนวิธีการฝึกหรือปรับแต่งเล็กน้อย ซึ่งอาจเกี่ยวข้องกับชุดข้อมูลการฝึกหรือไฮเปอร์พารามิเตอร์ที่ต่างกันเล็กน้อย
  3. ประเมินรูปแบบผู้สมัครใหม่ แล้วดําเนินการอย่างใดอย่างหนึ่งต่อไปนี้
    • หากโมเดลที่คาดหวังมีประสิทธิภาพดีกว่าโมเดลเริ่มต้น โมเดลที่คาดหวังนั้นจะกลายเป็นโมเดลเริ่มต้นใหม่ ในกรณีนี้ ให้ทำขั้นตอนที่ 1, 2 และ 3 ซ้ำ
    • หากไม่มีโมเดลใดมีประสิทธิภาพดีกว่าโมเดลเริ่มต้น แสดงว่าคุณถึงจุดสูงสุดแล้วและควรหยุดทำซ้ำ

ดูคำแนะนำเกี่ยวกับการปรับแต่งไฮเปอร์พารามิเตอร์ได้ที่คู่มือการปรับแต่งการเรียนรู้เชิงลึก ดูคำแนะนำเกี่ยวกับการสร้างฟีเจอร์ได้ที่ข้อบังคับของข้อมูลในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

บานพับขาด

#Metric

ตระกูลฟังก์ชันการสูญเสียสําหรับการจัดประเภทที่ออกแบบมาเพื่อค้นหาขอบเขตการตัดสินให้อยู่ห่างจากตัวอย่างการฝึกแต่ละรายการมากที่สุด ด้วยเหตุนี้จึงเพิ่มระยะห่างระหว่างตัวอย่างกับขอบเขตให้มากที่สุด KSVM ใช้การสูญเสียแบบ hinge (หรือฟังก์ชันที่เกี่ยวข้อง เช่น การสูญเสียแบบ hinge ยกกำลัง 2) สําหรับการจัดประเภทแบบไบนารี ฟังก์ชันการสูญเสียแบบ hinge จะกําหนดดังนี้

loss=max(0,1(yy))

โดยที่ y คือป้ายกำกับจริง ซึ่งอาจเป็น -1 หรือ +1 และ y' คือเอาต์พุตดิบของโมเดลการจัดประเภท

y=b+w1x1+w2x2+wnxn

ดังนั้น ผังความสูญเสียของ hinge เทียบกับ (y * y') จะมีลักษณะดังนี้

ผังพิกัดคาร์ทีเซียนซึ่งประกอบด้วยส่วนของเส้น 2 เส้นที่เชื่อมต่อกัน ส่วนของเส้นแรกเริ่มต้นที่ (-3, 4) และสิ้นสุดที่ (1, 0) ส่วนเส้นที่ 2 เริ่มต้นที่ (1, 0) และต่อเนื่องไปอย่างไม่มีที่สิ้นสุดด้วยความชัน 0

อคติจากข้อมูลที่ผ่านมา

#fairness

อคติประเภทหนึ่งที่พบได้ในโลกและได้เข้ามาอยู่ในชุดข้อมูล ความลำเอียงเหล่านี้มีแนวโน้มที่จะแสดงภาพเหมารวมทางวัฒนธรรมที่มีอยู่ ความไม่เท่าเทียมทางข้อมูลประชากร และอคติต่อกลุ่มทางสังคมบางกลุ่ม

ตัวอย่างเช่น พิจารณาโมเดลการจัดประเภทที่คาดการณ์ว่าผู้สมัครสินเชื่อจะผิดนัดชำระหนี้หรือไม่ ซึ่งได้รับการฝึกจากข้อมูลการผิดนัดชำระหนี้สินเชื่อย้อนหลังในช่วงปี 1980 จากธนาคารท้องถิ่นในชุมชน 2 แห่ง หากผู้สมัครที่ผ่านมาจากชุมชน ก มีแนวโน้มที่จะผิดนัดชำระหนี้มากกว่าผู้สมัครจากชุมชน ข 6 เท่า โมเดลอาจเรียนรู้อคติที่ผ่านมา ซึ่งส่งผลให้โมเดลมีแนวโน้มที่จะอนุมัติสินเชื่อในชุมชน ก น้อยลง แม้ว่าเงื่อนไขที่ผ่านมาซึ่งส่งผลให้ชุมชนดังกล่าวมีอัตราหนี้เสียสูงกว่าจะไม่มีความเกี่ยวข้องอีกต่อไป

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ข้อมูลกลุ่มควบคุม

ตัวอย่างที่ไม่ได้ตั้งใจนำมาใช้ ("เก็บไว้") ในระหว่างการฝึก ชุดข้อมูลที่ใช้ตรวจสอบและชุดข้อมูลทดสอบเป็นตัวอย่างของข้อมูลทดสอบ ข้อมูลทดสอบช่วยประเมินความสามารถของโมเดลในการทํานายข้อมูลอื่นๆ นอกเหนือจากข้อมูลที่ใช้ในการฝึก ค่าการสูญเสียในชุดทดสอบจะให้ค่าประมาณการสูญเสียในชุดข้อมูลที่ไม่เคยเห็นได้ดีกว่าค่าการสูญเสียในชุดฝึก

ผู้จัด

#TensorFlow
#GoogleCloud

เมื่อฝึกโมเดล ML ในชิปเร่งความเร็ว (GPU หรือ TPU) ส่วนของระบบที่ควบคุมทั้ง 2 รายการต่อไปนี้

  • ขั้นตอนโดยรวมของโค้ด
  • การดึงข้อมูลและการเปลี่ยนรูปแบบไปป์ไลน์อินพุต

โดยปกติแล้ว โฮสต์จะทำงานบน CPU ไม่ใช่ชิปเร่งความเร็ว ส่วนอุปกรณ์จะจัดการเทนเซอร์ในชิปเร่งความเร็ว

การประเมินโดยเจ้าหน้าที่

#language
#generativeAI

กระบวนการที่ผู้คนตัดสินคุณภาพของเอาต์พุตของโมเดล ML เช่น การให้ผู้ที่พูดได้ 2 ภาษาตัดสินคุณภาพของโมเดลการแปลด้วย ML การประเมินโดยเจ้าหน้าที่มีประโยชน์อย่างยิ่งในการพิจารณาโมเดลที่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว

ตรงข้ามกับการประเมินอัตโนมัติ และการประเมินโดยเครื่องมือประเมินอัตโนมัติ

มนุษย์ในวงรอบ (HITL)

#generativeAI

สำนวนที่มีคำจำกัดความแบบหลวมๆ ซึ่งอาจหมายถึงอย่างใดอย่างหนึ่งต่อไปนี้

  • นโยบายในการดูผลลัพธ์ของ Generative AI อย่างมีวิจารณญาณหรือสงสัย ตัวอย่างเช่น มนุษย์ที่เขียนอภิธานศัพท์ ML นี้ต่างก็ทึ่งกับสิ่งที่โมเดลภาษาขนาดใหญ่ทำได้ แต่ก็ตระหนักถึงข้อผิดพลาดที่โมเดลภาษาขนาดใหญ่อาจทำ
  • กลยุทธ์หรือระบบที่ช่วยให้ผู้ใช้ช่วยกำหนด ประเมิน และปรับแต่งลักษณะการทํางานของโมเดล การทำให้มนุษย์ทราบข้อมูลอยู่เสมอจะช่วยให้ AI ได้รับประโยชน์จากทั้งปัญญาประดิษฐ์และปัญญาของมนุษย์ ตัวอย่างเช่น ระบบที่ AI สร้างขึ้นโค้ดซึ่งวิศวกรซอฟต์แวร์จะตรวจสอบเป็นระบบที่มีมนุษย์เข้ามาเกี่ยวข้อง

ไฮเปอร์พารามิเตอร์

#fundamentals

ตัวแปรที่คุณหรือบริการการปรับแต่งไฮเปอร์พารามิเตอร์ ปรับในระหว่างการเรียกใช้การฝึกโมเดลอย่างต่อเนื่อง ตัวอย่างเช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์ คุณสามารถตั้งค่าอัตราการเรียนรู้เป็น 0.01 ก่อนเซสชันการฝึกอบรม 1 รายการ หากพิจารณาแล้วว่า 0.01 สูงเกินไป คุณอาจตั้งอัตราการเรียนรู้เป็น 0.003 สำหรับเซสชันการฝึกอบรมถัดไป

ในทางตรงกันข้าม พารามิเตอร์คือน้ำหนักและค่ากําหนดต่างๆ ที่โมเดลเรียนรู้ระหว่างการฝึก

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: ตัวแปรพหุนามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ไฮเปอร์เพลน

ขอบเขตที่แบ่งพื้นที่ออกเป็น 2 พื้นที่ย่อย เช่น เส้นเป็นไฮเปอร์ระนาบใน 2 มิติ และระนาบเป็นไฮเปอร์ระนาบใน 3 มิติ ในแมชชีนเลิร์นนิง โดยทั่วไปแล้ว ฮิปเพอร์เพลนคือขอบเขตที่แยกพื้นที่สูงมิติ Kernel Support Vector Machine ใช้ Hyperplane เพื่อแยกคลาสเชิงบวกออกจากคลาสเชิงลบ ซึ่งมักจะอยู่ในพื้นที่มิติสูง

I

i.i.d.

ตัวย่อของการแจกแจงแบบอิสระและเหมือนกัน

การรู้จำรูปภาพ

#image

กระบวนการจัดประเภทวัตถุ รูปแบบ หรือแนวคิดในรูปภาพ การจดจํารูปภาพเรียกอีกอย่างว่าการจัดประเภทรูปภาพ

ดูข้อมูลเพิ่มเติมได้ที่การฝึกปฏิบัติ ML: การแยกประเภทรูปภาพ

ดูข้อมูลเพิ่มเติมได้ที่หลักสูตร ML Practicum: การแยกประเภทรูปภาพ

ชุดข้อมูลที่ไม่สมดุล

คำพ้องความหมายของชุดข้อมูลที่มีกลุ่มไม่สมดุล

อคติโดยไม่รู้ตัว

#fairness

การเชื่อมโยงหรือคาดเดาโดยอัตโนมัติตามรูปแบบและความทรงจำในใจ อคติที่ไม่ตั้งใจอาจส่งผลต่อสิ่งต่อไปนี้

  • วิธีรวบรวมและจัดประเภทข้อมูล
  • การออกแบบและการพัฒนาระบบแมชชีนเลิร์นนิง

เช่น เมื่อสร้างโมเดลการจัดประเภทเพื่อระบุรูปภาพงานแต่งงาน วิศวกรอาจใช้การปรากฏของชุดแต่งงานสีขาวในรูปภาพเป็นฟีเจอร์ อย่างไรก็ตาม ชุดแต่งงานสีขาวเป็นธรรมเนียมเฉพาะในยุคสมัยและวัฒนธรรมบางยุคเท่านั้น

โปรดดูอคติยืนยันความคิดตัวเองด้วย

การระบุ

รูปแบบย่อของการประมาณค่า

ความไม่เข้ากันได้ของเมตริกความยุติธรรม

#fairness
#Metric

แนวคิดที่ว่าแนวคิดบางอย่างเกี่ยวกับความยุติธรรมนั้นใช้ร่วมกันไม่ได้และไม่สามารถบรรลุพร้อมกัน ด้วยเหตุนี้ จึงไม่มีเมตริกที่เป็นสากลเพียงเมตริกเดียวสำหรับวัดความเป็นธรรมซึ่งนําไปใช้กับปัญหา ML ทั้งหมดได้

แม้ว่าเรื่องนี้อาจฟังดูท้อแท้ แต่การที่เมตริกความยุติธรรมใช้ร่วมกันไม่ได้ไม่ได้หมายความว่าความพยายามด้านความยุติธรรมจะไร้ผล แต่แนะนําว่าต้องกําหนดความยุติธรรมตามบริบทสําหรับปัญหา ML หนึ่งๆ โดยมีเป้าหมายเพื่อป้องกันอันตรายที่เฉพาะเจาะจงสําหรับ Use Case นั้นๆ

ดูการพูดคุยเรื่องความเข้ากันไม่ได้ของเมตริกความเป็นธรรมอย่างละเอียดได้ที่"On the (im)possibility of fairness"

การเรียนรู้ในบริบท

#language
#generativeAI

คำพ้องความหมายของ Few-Shot Prompting

กระจายอย่างอิสระและเหมือนกัน (i.i.d)

#fundamentals

ข้อมูลที่ดึงมาจากการแจกแจงที่ไม่เปลี่ยนแปลง และค่าแต่ละค่าที่ดึงมานั้นไม่ขึ้นอยู่กับค่าที่ดึงมาก่อนหน้านี้ ข้อมูลอิสระเป็นก๊าซอุดมคติของแมชชีนเลิร์นนิง ซึ่งเป็นโครงสร้างทางคณิตศาสตร์ที่มีประโยชน์แต่แทบจะไม่พบในชีวิตจริง เช่น การแจกแจงผู้เข้าชมหน้าเว็บอาจเป็นแบบ i.i.d. ในช่วงเวลาสั้นๆ กล่าวคือ การแจกแจงไม่เปลี่ยนแปลงในช่วงเวลาสั้นๆ นั้น และโดยทั่วไปการเข้าชมของบุคคลหนึ่งจะไม่เกี่ยวข้องกับการเข้าชมของบุคคลอื่น อย่างไรก็ตาม หากคุณขยายกรอบเวลาดังกล่าว ความแตกต่างตามฤดูกาลของผู้เข้าชมหน้าเว็บอาจปรากฏขึ้น

โปรดดูความไม่เป็นเชิงเส้นด้วย

ความยุติธรรมต่อบุคคล

#fairness
#Metric

เมตริกความยุติธรรมที่ตรวจสอบว่าระบบจัดประเภทบุคคลที่คล้ายกันคล้ายกันหรือไม่ ตัวอย่างเช่น Brobdingnagian Academy อาจต้องการสร้างความเป็นธรรมให้กับบุคคล โดยตรวจสอบว่านักเรียน 2 คนที่มีคะแนนเหมือนกันและคะแนนสอบมาตรฐานมีแนวโน้มที่จะได้รับการยอมรับเท่าๆ กัน

โปรดทราบว่าความยุติธรรมของแต่ละบุคคลขึ้นอยู่กับวิธีที่คุณกำหนด "ความคล้ายคลึง" ทั้งหมด (ในกรณีนี้คือคะแนนและคะแนนสอบ) และคุณอาจเสี่ยงที่จะทำให้เกิดปัญหาความยุติธรรมใหม่ๆ หากเมตริกความคล้ายคลึงของคุณขาดข้อมูลสำคัญ (เช่น ความยากของหลักสูตรของนักเรียน)

ดูการพูดคุยเรื่องความยุติธรรมของแต่ละบุคคลอย่างละเอียดได้ที่"ความยุติธรรมผ่านความรู้"

การให้เหตุผล

#fundamentals

ในแมชชีนเลิร์นนิง กระบวนการทำนายโดยใช้โมเดลที่ผ่านการฝึกกับตัวอย่างที่ไม่มีป้ายกำกับ

ข้อมูลอนุมานมีความหมายที่แตกต่างออกไปในสถิติ ดูรายละเอียดได้ในบทความ บทความใน Wikipedia เกี่ยวกับการอนุมานทางสถิติ

ดูการเรียนรู้ที่มีการควบคุมดูแลในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับ ML เพื่อดูบทบาทของการอนุมานในระบบการเรียนรู้ที่มีการควบคุมดูแล

เส้นทางการอนุมาน

#df

ในแผนผังการตัดสินใจ ระหว่างการอนุมาน เส้นทางที่ตัวอย่างหนึ่งๆ ใช้ในการไปยังรูทไปยังเงื่อนไขอื่นๆ จะสิ้นสุดที่ใบ ตัวอย่างเช่น ในแผนผังการตัดสินใจต่อไปนี้ ศรที่หนาขึ้นแสดงเส้นทางการอนุมานสําหรับตัวอย่างที่มีค่าฟีเจอร์ดังต่อไปนี้

  • x = 7
  • y = 12
  • z = -3

เส้นทางการอนุมานในภาพประกอบต่อไปนี้จะผ่านเงื่อนไข 3 รายการก่อนที่จะไปถึงใบ (Zeta)

แผนภูมิการตัดสินใจที่มีเงื่อนไข 4 รายการและใบ 5 ใบ
          เงื่อนไขรูทคือ (x > 0) เนื่องจากคำตอบคือ &quot;ใช่&quot; เส้นทางการอนุมานจึงเดินทางจากรูทไปยังเงื่อนไขถัดไป (y > 0)
          เนื่องจากคำตอบคือ &quot;ใช่&quot; เส้นทางการอนุมานจึงไปยังเงื่อนไขถัดไป (z > 0) เนื่องจากคำตอบคือ &quot;ไม่&quot; เส้นทางการอนุมานจึงไปยังโหนดปลายซึ่งเป็นใบ (Zeta)

ลูกศรหนา 3 เส้นแสดงเส้นทางการอนุมาน

ดูข้อมูลเพิ่มเติมเกี่ยวกับแผนผังการตัดสินใจในหลักสูตรป่าการตัดสินใจ

ข้อมูลที่ได้รับ

#df
#Metric

ในป่าการตัดสินใจ ความแตกต่างระหว่างเอนโทรปีของโหนดกับผลรวมของเอนโทรปีของโหนดย่อยที่มีน้ำหนัก (ตามจำนวนตัวอย่าง) เอนโทรปีของโหนดคือเอนโทรปีของตัวอย่างในโหนดนั้น

ตัวอย่างเช่น ลองพิจารณาค่าเอนโทรปีต่อไปนี้

  • เอนโทรปีของโหนดหลัก = 0.6
  • เอนโทรปีของโหนดย่อย 1 รายการที่มีตัวอย่างที่เกี่ยวข้อง 16 รายการ = 0.2
  • เอนโทรปีของโหนดย่อยอีกโหนดหนึ่งซึ่งมีตัวอย่างที่เกี่ยวข้อง 24 รายการ = 0.1

ดังนั้น 40% ของตัวอย่างจะอยู่ในโหนดย่อยโหนดหนึ่ง และ 60% จะอยู่ในโหนดย่อยอีกโหนดหนึ่ง ดังนั้น

  • ผลรวมของเอนโทรปีถ่วงน้ำหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

ดังนั้น ข้อมูลที่ได้รับคือ

  • อัตราข้อมูลที่ได้รับ = เอนโทรปีของโหนดหลัก - ผลรวมของเอนโทรปีที่ถ่วงน้ำหนักของโหนดย่อย
  • ข้อมูลที่ได้รับ = 0.6 - 0.14 = 0.46

ตัวแยกส่วนใหญ่พยายามสร้างเงื่อนไขเพื่อเพิ่มปริมาณข้อมูลที่ได้สูงสุด

อคติต่อกลุ่มใน

#fairness

การลำเอียงเข้าข้างกลุ่มหรือลักษณะของตนเอง หากผู้ทดสอบหรือผู้ให้คะแนนเป็นเพื่อน ครอบครัว หรือเพื่อนร่วมงานของนักพัฒนาซอฟต์แวร์แมชชีนเลิร์นนิง ความลำเอียงในกลุ่มอาจทำให้การทดสอบผลิตภัณฑ์หรือชุดข้อมูลเป็นโมฆะ

ความลำเอียงภายในกลุ่มเป็นรูปแบบของความลำเอียงในการระบุแหล่งที่มาของกลุ่ม โปรดดูอคติความเหมือนกันของกลุ่มนอกด้วย

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เครื่องมือสร้างอินพุต

กลไกในการโหลดข้อมูลลงในโครงข่ายระบบประสาทเทียม

อินพุตเจนเนเรเตอร์อาจถือได้ว่าเป็นคอมโพเนนต์ที่รับผิดชอบการประมวลผลข้อมูลดิบเป็นเทนเซอร์ ซึ่งจะวนซ้ำเพื่อสร้างกลุ่มสําหรับการฝึกอบรม การประเมิน และการอนุมาน

เลเยอร์อินพุต

#fundamentals

เลเยอร์ของเครือข่ายประสาทเทียมที่มีเวกเตอร์องค์ประกอบ กล่าวคือ เลเยอร์อินพุตจะแสดงตัวอย่างสําหรับการฝึกหรือการอนุมาน ตัวอย่างเช่น เลเยอร์อินพุตในเครือข่ายประสาทต่อไปนี้ประกอบด้วยฟีเจอร์ 2 รายการ

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

เงื่อนไขในชุด

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขที่ทดสอบการมีอยู่ของรายการหนึ่งๆ ในชุดรายการ ตัวอย่างเช่น เงื่อนไขในชุดคำสั่งต่อไปนี้

  house-style in [tudor, colonial, cape]

ในระหว่างการอนุมาน หากค่าของฟีเจอร์สไตล์บ้านคือ tudor หรือ colonial หรือ cape เงื่อนไขนี้จะประเมินเป็น "ใช่" หากค่าของฟีเจอร์สไตล์บ้านเป็นค่าอื่น (เช่น ranch) เงื่อนไขนี้จะประเมินผลเป็น "ไม่"

โดยทั่วไปแล้ว เงื่อนไขในชุดมักจะทําให้ต้นไม้การตัดสินใจมีประสิทธิภาพมากกว่าเงื่อนไขที่ทดสอบฟีเจอร์ที่เข้ารหัสแบบฮอตเวิร์ก

อินสแตนซ์

คำพ้องความหมายของ example

การปรับแต่งวิธีการ

#generativeAI

รูปแบบการปรับแต่งแบบละเอียดที่ช่วยปรับปรุงความสามารถของโมเดล Generative AI ในการทําตามคําสั่ง การปรับแต่งคำสั่งเกี่ยวข้องกับการฝึกโมเดลด้วยชุดพรอมต์คำสั่ง ซึ่งมักจะครอบคลุมงานต่างๆ มากมาย โมเดลที่ปรับตามคำสั่งที่ได้จึงมีแนวโน้มที่จะสร้างคำตอบที่เป็นประโยชน์สำหรับพรอมต์แบบไม่ใช้ตัวอย่างในงานต่างๆ

เปรียบเทียบและเปรียบเทียบกับ

ความสามารถในการตีความ

#fundamentals

ความสามารถในการอธิบายหรือนำเสนอเหตุผลของโมเดล ML โดยใช้คำศัพท์ที่มนุษย์เข้าใจได้

ตัวอย่างเช่น โมเดลการถดถอยเชิงเส้นส่วนใหญ่มีความหมายสูง (คุณเพียงต้องดูน้ำหนักที่ผ่านการฝึกสำหรับแต่ละฟีเจอร์) ป่าการตัดสินใจยังตีความได้สูงด้วย อย่างไรก็ตาม บางรูปแบบต้องใช้การแสดงภาพที่ซับซ้อนเพื่อให้ตีความได้

คุณสามารถใช้เครื่องมือการตีความการเรียนรู้ (LIT)เพื่อตีความโมเดล ML

ความสอดคล้องกันระหว่างผู้ประเมิน

#Metric

การวัดความถี่ที่ผู้ประเมินที่เป็นมนุษย์เห็นด้วยเมื่อทำภารกิจ หากผู้ประเมินไม่เห็นด้วย คุณอาจต้องปรับปรุงวิธีการของงาน บางครั้งอาจเรียกว่าความสอดคล้องกันของผู้กำกับดูแลหรือความน่าเชื่อถือของผู้ประเมิน ดูข้อมูลเพิ่มเติมได้ที่ค่าkappa ของ Cohen ซึ่งเป็นวิธีวัดความสอดคล้องกันระหว่างผู้ประเมินที่ได้รับความนิยมมากที่สุดวิธีหนึ่ง

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงหมวดหมู่: ปัญหาที่พบบ่อยในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Intersection over Union (IoU)

#image

ส่วนตัดกันของ 2 ชุดหารด้วยผลรวมของชุด ในภารกิจการตรวจจับภาพด้วยแมชชีนเลิร์นนิง ระบบจะใช้ IoU เพื่อวัดความแม่นยำของกรอบขอบเขตที่คาดการณ์ไว้ของโมเดลเทียบกับกรอบขอบเขตข้อมูลจากการสังเกตการณ์โดยตรง ในกรณีนี้ IoU สำหรับกรอบ 2 กล่องคืออัตราส่วนระหว่างพื้นที่ที่ทับซ้อนกันและพื้นที่ทั้งหมด และค่าของ IoU จะอยู่ระหว่าง 0 (กรอบขอบเขตที่คาดการณ์ไว้และกรอบขอบเขตข้อมูลจากการสังเกตการณ์โดยตรงไม่ทับซ้อนกัน) ถึง 1 (กรอบขอบเขตที่คาดการณ์ไว้และกรอบขอบเขตข้อมูลจากการสังเกตการณ์โดยตรงมีพิกัดตำแหน่งเดียวกันทุกประการ)

ตัวอย่างเช่น ในรูปภาพด้านล่าง

  • กรอบขอบเขตที่คาดการณ์ (พิกัดที่กําหนดขอบเขตตําแหน่งที่โมเดลคาดการณ์ว่าโต๊ะข้างเตียงในภาพวาดอยู่) จะแสดงเป็นเส้นขอบสีม่วง
  • กล่องขอบเขตของข้อมูลจริง (พิกัดที่กําหนดขอบเขตตําแหน่งที่ตั้งของโต๊ะกลางในภาพวาดจริง) จะวาดเส้นขอบสีเขียว

ภาพวาดห้องนอนของวินเซนต์ แวน โก๊ะในอาร์ล โดยมีกล่องขอบเขต 2 กล่องที่แตกต่างกันรอบๆ โต๊ะข้างเตียงข้างเตียง กรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรง (สีเขียว) ล้อมรอบโต๊ะข้างเตียงอย่างสมบูรณ์ กล่องขอบเขตที่คาดการณ์ (สีม่วง) เลื่อนลงและไปทางขวา 50% ของกล่องขอบเขตที่เป็นข้อมูลจริง โดยครอบคลุมส่วนสี่เหลี่ยมจัตุรัสด้านขวาล่างของโต๊ะกลางคืน แต่ไม่ได้ครอบคลุมส่วนที่เหลือของโต๊ะ

ในที่นี้ จุดตัดของกรอบขอบเขตสำหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างซ้าย) คือ 1 และสหภาพของกรอบขอบเขตสำหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างขวา) คือ 7 ดังนั้น IoU จึงเป็น 17

รูปภาพเดียวกันกับด้านบน แต่แบ่งกรอบล้อมรอบแต่ละกรอบออกเป็น 4 ส่วน โดยรวมมีทั้งหมด 7 จตุภาค เนื่องจากจตุภาคด้านขวาล่างของกรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรงและจตุภาคด้านซ้ายบนของกรอบล้อมรอบที่คาดการณ์ไว้ซ้อนทับกัน ส่วนทับซ้อนนี้ (ไฮไลต์ด้วยสีเขียว) แสดงถึงจุดตัดและมีพื้นที่เท่ากับ 1 รูปภาพเดียวกันกับด้านบน แต่แบ่งกรอบล้อมรอบแต่ละกรอบออกเป็น 4 ส่วน โดยรวมมีทั้งหมด 7 จตุภาค เนื่องจากจตุภาคด้านขวาล่างของกรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรงและจตุภาคด้านซ้ายบนของกรอบล้อมรอบที่คาดการณ์ไว้ซ้อนทับกัน
          พื้นที่ภายในทั้งหมดที่ล้อมรอบด้วยกรอบขอบทั้ง 2 รูป (ไฮไลต์ด้วยสีเขียว) แสดงถึงสหพันธ์ และมีเนื้อที่ 7

IoU

ตัวย่อของ intersection over union

เมทริกซ์รายการ

#recsystems

ในระบบการแนะนำ หมายถึง เวกเตอร์การฝังที่สร้างขึ้นจากการแยกองค์ประกอบของเมทริกซ์ซึ่งเก็บสัญญาณแฝงเกี่ยวกับรายการแต่ละรายการ แต่ละแถวของเมทริกซ์รายการจะมีค่าขององค์ประกอบแฝงเดียวสําหรับสินค้าทั้งหมด ตัวอย่างเช่น ลองพิจารณาระบบการแนะนำภาพยนตร์ แต่ละคอลัมน์ในเมทริกซ์รายการแสดงภาพยนตร์ 1 เรื่อง สัญญาณแฝงอาจแสดงถึงประเภท หรืออาจเป็นสัญญาณที่ตีความได้ยากกว่าซึ่งเกี่ยวข้องกับการโต้ตอบที่ซับซ้อนระหว่างประเภท ดารา ยุคสมัยของภาพยนตร์ หรือปัจจัยอื่นๆ

เมทริกซ์รายการมีจํานวนคอลัมน์เท่ากับเมทริกซ์เป้าหมายที่แยกตัวประกอบ ตัวอย่างเช่น ระบบแนะนำภาพยนตร์ที่ประเมินภาพยนตร์ 10,000 เรื่อง จะมีเมทริกซ์รายการ 10,000 คอลัมน์

รายการ

#recsystems

ในระบบการแนะนำ หมายถึงเอนทิตีที่ระบบแนะนำ เช่น วิดีโอคือสินค้าที่ร้านวิดีโอแนะนำ ส่วนหนังสือคือสินค้าที่ร้านหนังสือแนะนำ

การทำซ้ำ

#fundamentals

การอัปเดตพารามิเตอร์ของโมเดลครั้งเดียว ซึ่งก็คือน้ำหนักและความลำเอียงของโมเดลในระหว่างการฝึก ขนาดกลุ่มจะกําหนดจํานวนตัวอย่างที่โมเดลจะประมวลผลในการวนซ้ำ 1 ครั้ง เช่น หากขนาดกลุ่มเป็น 20 โมเดลจะประมวลผลตัวอย่าง 20 รายการก่อนปรับพารามิเตอร์

เมื่อฝึกโครงข่ายระบบประสาทเทียม การทำซ้ำ 1 ครั้งจะเกี่ยวข้องกับ 2 ขั้นตอนต่อไปนี้

  1. การส่งต่อเพื่อประเมินการสูญเสียในบATCH เดียว
  2. การส่งผ่านย้อนกลับ (Backpropagation) เพื่อปรับพารามิเตอร์ของโมเดลตามการสูญเสียและอัตราการเรียนรู้

ดูข้อมูลเพิ่มเติมได้ที่การลดการลาดชันในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

J

JAX

ไลบรารีการประมวลผลอาร์เรย์ที่รวม XLA (Accelerated Linear Algebra) เข้ากับอนุพันธ์อัตโนมัติเพื่อใช้การประมวลผลตัวเลขที่มีประสิทธิภาพสูง JAX มี API ที่เรียบง่ายและมีประสิทธิภาพสําหรับการเขียนโค้ดตัวเลขที่เร่งความเร็วด้วยการเปลี่ยนรูปแบบที่คอมโพสิเบิล JAX มีฟีเจอร์ต่างๆ เช่น

  • grad (การแยกแยะอัตโนมัติ)
  • jit (การคอมไพล์แบบทันท่วงที)
  • vmap (การเปลี่ยนเป็นเวกเตอร์หรือการจัดกลุ่มอัตโนมัติ)
  • pmap (การขนานการทำงาน)

JAX เป็นภาษาสําหรับแสดงและประกอบการเปลี่ยนรูปแบบของโค้ดเชิงตัวเลข ซึ่งคล้ายกับไลบรารี NumPy ของ Python แต่มีขอบเขตกว้างกว่ามาก (อันที่จริงแล้ว ไลบรารี .numpy ใน JAX มีฟังก์ชันการทำงานเทียบเท่า แต่เขียนใหม่ทั้งหมดจากไลบรารี NumPy ของ Python)

JAX เหมาะอย่างยิ่งในการเร่งงานแมชชีนเลิร์นนิงจำนวนมากโดยเปลี่ยนรูปแบบโมเดลและข้อมูลให้เหมาะกับการทำงานแบบขนานใน GPU และชิปเร่งความเร็ว TPU

ไลบรารี Flax, Optax, Pax และอื่นๆ อีกมากมายสร้างขึ้นบนโครงสร้างพื้นฐาน JAX

K

Keras

Python Machine Learning API ที่ได้รับความนิยม Keras ทำงานบนเฟรมเวิร์กการเรียนรู้เชิงลึกหลายเฟรมเวิร์ก รวมถึง TensorFlow ซึ่งจะพร้อมใช้งานเป็น tf.keras

แมชชีนการเรียนรู้ด้วยเวกเตอร์สนับสนุนของเคิร์น (KSVM)

อัลกอริทึมการจัดประเภทที่พยายามเพิ่มระยะห่างระหว่างคลาสเชิงบวกและคลาสเชิงลบให้มากที่สุดโดยการแมปเวกเตอร์ข้อมูลอินพุตไปยังพื้นที่เชิงมิติที่สูงกว่า ตัวอย่างเช่น พิจารณาปัญหาการจัดประเภทที่ชุดข้อมูลอินพุตมีฟีเจอร์ 100 รายการ KSVM สามารถแมปองค์ประกอบเหล่านั้นภายในเป็นพื้นที่ 1 ล้านมิติข้อมูลเพื่อเพิ่มระยะห่างระหว่างคลาสเชิงบวกและเชิงลบให้มากที่สุด KSVM ใช้ฟังก์ชันการสูญเสียที่เรียกว่าการสูญเสียแบบ hinge

ประเด็นสำคัญ

#image

พิกัดขององค์ประกอบบางอย่างในรูปภาพ เช่น สำหรับโมเดลการจดจำรูปภาพที่แยกแยะพันธุ์ดอกไม้ จุดสังเกตอาจเป็นจุดศูนย์กลางของกลีบแต่ละกลีบ ลำต้น เกสร และอื่นๆ

การทดสอบไขว้แบบ k-fold

อัลกอริทึมสำหรับการคาดการณ์ความสามารถของโมเดลในการทั่วไปกับข้อมูลใหม่ k ใน k-fold หมายถึงจํานวนกลุ่มที่เท่าๆ กันซึ่งคุณแบ่งตัวอย่างของชุดข้อมูลออกเป็นกลุ่มๆ กล่าวคือ คุณฝึกและทดสอบโมเดล k ครั้ง ในแต่ละรอบของการฝึกและทดสอบ จะมีกลุ่มอื่นเป็นชุดทดสอบ และกลุ่มที่เหลือทั้งหมดจะเป็นชุดการฝึก หลังจากการฝึกและการทดสอบ k รอบแล้ว ให้คํานวณค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของเมตริกการทดสอบที่เลือก

ตัวอย่างเช่น สมมติว่าชุดข้อมูลของคุณประกอบด้วยตัวอย่าง 120 รายการ สมมติต่อไปว่าคุณตัดสินใจที่จะตั้งค่า k เป็น 4 ดังนั้นหลังจากสับตัวอย่างแล้ว ให้แบ่งชุดข้อมูลออกเป็น 4 กลุ่มเท่าๆ กันโดยแต่ละกลุ่มมี 30 ตัวอย่าง แล้วทำการฝึกและทดสอบ 4 รอบ ดังนี้

ชุดข้อมูลที่แบ่งออกเป็นกลุ่มตัวอย่าง 4 กลุ่มเท่าๆ กัน ในรอบที่ 1 ระบบจะใช้ 3 กลุ่มแรกสำหรับการฝึกอบรมและกลุ่มสุดท้ายสำหรับทดสอบ ในรอบที่ 2 จะมีการใช้กลุ่มแรก 2 กลุ่มและกลุ่มสุดท้ายเพื่อการฝึกอบรม ส่วนกลุ่มที่ 3 จะใช้เพื่อทดสอบ ในรอบที่ 3 กลุ่มแรกและ 2 กลุ่มสุดท้ายจะใช้สำหรับการฝึกอบรม ส่วนกลุ่มที่ 2 จะใช้สำหรับทดสอบ
          ในรอบที่ 4 กลุ่มแรกจะใช้สําหรับการทดสอบ ส่วนกลุ่มสุดท้าย 3 กลุ่มจะใช้สําหรับการฝึก

เช่น ความคลาดเคลื่อนเฉลี่ยกำลังสอง (MSE) อาจเป็นแหล่งข้อมูลที่มีความหมายมากที่สุดสําหรับโมเดลการถดถอยเชิงเส้น คุณจึงจะพบค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของ MSE ใน 4 รอบ

K-means

#clustering

อัลกอริทึมการจัดกลุ่มยอดนิยมที่จัดกลุ่มตัวอย่างในการเรียนรู้ที่ไม่มีการควบคุมดูแล โดยพื้นฐานแล้ว อัลกอริทึม K-means จะทําสิ่งต่อไปนี้

  • กำหนดจุดศูนย์กลาง k จุดที่ดีที่สุด (เรียกว่าจุดศูนย์กลางมวล) ซ้ำๆ
  • กําหนดตัวอย่างแต่ละรายการให้กับจุดศูนย์กลางที่ใกล้ที่สุด ตัวอย่างที่อยู่ใกล้กับจุดศูนย์กลางเดียวกันจะอยู่ในกลุ่มเดียวกัน

อัลกอริทึม K-Means จะเลือกตำแหน่งจุดศูนย์กลางเพื่อลดค่าสะสมของสี่เหลี่ยมจัตุรัสของระยะทางจากตัวอย่างแต่ละรายการไปยังจุดศูนย์กลางที่ใกล้ที่สุด

ตัวอย่างเช่น ลองดูผังความสูงของสุนัขเทียบกับความกว้างของสุนัขต่อไปนี้

ผังพิกัดคาร์ทีเซียนที่มีจุดข้อมูลหลายสิบจุด

หาก k=3 อัลกอริทึม K-means จะกำหนดจุดศูนย์กลาง 3 จุด ระบบจะกําหนดตัวอย่างแต่ละรายการให้กับจุดศูนย์กลางที่ใกล้ที่สุด ซึ่งจะให้กลุ่ม 3 กลุ่มดังนี้

ผังพิกัดคาร์ทีเซียนเดียวกับในภาพก่อนหน้า ยกเว้นว่ามีการเพิ่มจุดศูนย์กลาง 3 จุด
          ระบบจะจัดกลุ่มจุดข้อมูลก่อนหน้าออกเป็น 3 กลุ่มที่แยกกัน โดยแต่ละกลุ่มแสดงจุดข้อมูลที่ใกล้กับจุดศูนย์กลางหนึ่งๆ มากที่สุด

สมมติว่าผู้ผลิตต้องการกำหนดขนาดที่เหมาะสมสำหรับเสื้อสเวตเตอร์ขนาดเล็ก กลาง และใหญ่สำหรับสุนัข ศูนย์กลาง 3 จุดจะระบุความสูงและค่าเฉลี่ยความกว้างของสุนัขแต่ละตัวในคลัสเตอร์นั้น ดังนั้น ผู้ผลิตจึงควรกำหนดขนาดเสื้อสเวตเตอร์ตามจุดศูนย์กลางมวล 3 จุดดังกล่าว โปรดทราบว่าโดยปกติแล้ว จุดศูนย์กลางของคลัสเตอร์ไม่ใช่ตัวอย่างในคลัสเตอร์

ภาพประกอบก่อนหน้านี้แสดง K-Means สำหรับตัวอย่างที่มีเพียง 2 องค์ประกอบ (ความสูงและความกว้าง) โปรดทราบว่า K-Means สามารถจัดกลุ่มตัวอย่างจากฟีเจอร์หลายรายการ

ดูข้อมูลเพิ่มเติมที่คลัสเตอร์แบบ K-means คืออะไรในหลักสูตรคลัสเตอร์

ค่ามัธยฐานแบบ K

#clustering

อัลกอริทึมการจัดกลุ่มที่เกี่ยวข้องกับ K-means อย่างใกล้ชิด ความแตกต่างที่เห็นได้ชัดระหว่าง 2 รูปแบบมีดังนี้

  • ใน k-means ระบบจะกำหนดจุดศูนย์กลางโดยการลดผลรวมของกำลังสองของระยะทางระหว่างจุดศูนย์กลางที่เป็นไปได้กับตัวอย่างแต่ละรายการ
  • ใน K-เมเดียน ระบบจะกำหนดจุดศูนย์กลางโดยการลดผลรวมของระยะทางระหว่างจุดศูนย์กลางที่เป็นไปได้กับตัวอย่างแต่ละรายการ

โปรดทราบว่าคำจำกัดความของระยะทางก็แตกต่างกันด้วย

  • K-means ใช้ระยะทางแบบยูคลิดจากจุดศูนย์กลางไปยังตัวอย่าง (ใน 2 มิติ ระยะทางแบบยูคลิดหมายถึงการใช้ทฤษฎีบทพีทาโกรัสเพื่อคํานวณด้านตรงข้ามมุมฉาก) เช่น ระยะทาง K-Means ระหว่าง (2,2) กับ (5,-2) จะเท่ากับ
Euclidean distance=(25)2+(22)2=5
  • ส่วนค่ามัธยฐานแบบ k จะใช้ ระยะทางแมนฮัตตันจากจุดศูนย์กลางไปยังตัวอย่าง ระยะทางนี้คือผลรวมของค่าสัมบูรณ์ของ Delta ในแต่ละมิติข้อมูล เช่น ระยะทางของเมเดียน k ระหว่าง (2,2) กับ (5,-2) จะเท่ากับ
Manhattan distance=|25|+|22|=7

L

Regularization แบบ L0

#fundamentals

การถ่วงน้ำหนักประเภทหนึ่งที่ลงโทษจํานวนทั้งหมดของน้ำหนักที่ไม่ใช่ 0 ในโมเดล เช่น โมเดลที่มีน้ำหนักที่ไม่ใช่ 0 จำนวน 11 รายการจะได้รับค่าปรับมากกว่าโมเดลที่คล้ายกันซึ่งมีน้ำหนักที่ไม่ใช่ 0 จำนวน 10 รายการ

บางครั้งการถ่วงน้ำหนัก L0 เรียกว่าการถ่วงน้ำหนักตาม L0-norm

โดยทั่วไปแล้ว การปรับ L0 จะใช้ไม่ได้กับโมเดลขนาดใหญ่ เนื่องจากการปรับ L0 จะเปลี่ยนการฝึกให้เป็นปัญหาการเพิ่มประสิทธิภาพแบบConvex


แพ้ L1

#fundamentals
#Metric

ฟังก์ชันการสูญเสียที่คำนวณค่าสัมบูรณ์ของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น ต่อไปนี้คือการคํานวณการสูญเสีย L1 สําหรับกลุ่มตัวอย่าง 5 รายการ

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ของโมเดล ค่าสัมบูรณ์ของเดลต้า
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = แพ้ L1

ผลต่าง L1 ไวต่อค่าผิดปกติน้อยกว่าผลต่าง L2

ค่าเฉลี่ยความผิดพลาดสัมบูรณ์คือค่าเฉลี่ยของการสูญเสีย L1 ต่อตัวอย่าง

L1loss=i=0n|yiy^i|

where:
  • n คือจํานวนตัวอย่าง
  • y คือค่าจริงของป้ายกํากับ
  • y^ คือค่าที่โมเดลคาดการณ์สำหรับ y

ดูข้อมูลเพิ่มเติมได้ในหัวข้อการหาค่าสัมประสิทธ์เชิงเส้น: ค่าการสูญเสียในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Regularization แบบ L1

#fundamentals

การทำให้สม่ำเสมอประเภทหนึ่งที่ลงโทษน้ำหนักตามสัดส่วนกับผลรวมของค่าสัมบูรณ์ของน้ำหนัก การปรับ L1 ช่วยเพิ่มน้ำหนักของฟีเจอร์ที่ไม่เกี่ยวข้องหรือเกี่ยวข้องเพียงเล็กน้อยเป็น 0 ระบบจะนําฟีเจอร์ที่มีน้ำหนัก 0 ออกจากโมเดล

ตรงข้ามกับ Regularization แบบ L2

อัตราสูญเสีย L2

#fundamentals
#Metric

ฟังก์ชันการสูญเสียที่คำนวณผลคูณของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น นี่คือการคำนวณการสูญเสีย L2 สำหรับกลุ่มตัวอย่าง 5 รายการ

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ของโมเดล ตารางของเดลต้า
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = แพ้ L2

เนื่องจากการยกกำลัง 2 จะทำให้ความสูญเสีย L2 ขยายอิทธิพลของค่าผิดปกติ กล่าวคือ ผลลัพธ์ L2 จะตอบสนองต่อการคาดการณ์ที่ไม่ดีมากกว่าผลลัพธ์ L1 เช่น อัตราสูญเสีย L1 ของกลุ่มก่อนหน้าจะเป็น 8 ไม่ใช่ 16 โปรดทราบว่าค่าที่ผิดปกติรายการเดียวคิดเป็น 9 จาก 16

โมเดลการหาค่าสัมพัทธ์มักใช้การสูญเสีย L2 เป็นฟังก์ชันการสูญเสีย

ความคลาดเคลื่อนกำลังสองเฉลี่ยคือค่าเฉลี่ยของการสูญเสีย L2 ต่อตัวอย่าง ความสูญเสียแบบยกกำลังสองเป็นชื่อเรียกอีกอย่างของความสูญเสีย L2

L2loss=i=0n(yiy^i)2

where:
  • n คือจํานวนตัวอย่าง
  • y คือค่าจริงของป้ายกํากับ
  • y^ คือค่าที่โมเดลคาดการณ์สำหรับ y

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้นโลจิสติก: การสูญเสียและการควบคุมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Regularization แบบ L2

#fundamentals

การทำให้สม่ำเสมอประเภทหนึ่งที่ลงโทษน้ำหนักตามสัดส่วนกับผลรวมของค่ายกกำลังสองของน้ำหนัก การปรับ L2 ช่วยเพิ่มน้ำหนักของค่าผิดปกติ (ค่าบวกสูงหรือค่าลบต่ำ) ให้ใกล้กับ 0 แต่ไม่เท่ากับ 0 ฟีเจอร์ที่มีค่าใกล้เคียงกับ 0 จะยังคงอยู่ในโมเดล แต่จะไม่ส่งผลต่อการคาดการณ์ของโมเดลมากนัก

การปรับ L2 จะช่วยปรับปรุงการทั่วไปในโมเดลเชิงเส้นเสมอ

ตรงข้ามกับ Regularization แบบ L1

ดูข้อมูลเพิ่มเติมได้ที่การประมาณที่มากเกินไป: การปรับL2ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ป้ายกำกับ

#fundamentals

ในแมชชีนเลิร์นนิงที่ควบคุมดูแล ส่วน "คำตอบ" หรือ "ผลลัพธ์" ของตัวอย่าง

ตัวอย่างที่ติดป้ายกำกับแต่ละรายการประกอบด้วยองค์ประกอบอย่างน้อย 1 รายการและป้ายกำกับ เช่น ในชุดข้อมูลการตรวจจับสแปม ป้ายกํากับอาจเป็น "สแปม" หรือ "ไม่ใช่สแปม" ในชุดข้อมูลปริมาณน้ำฝน ป้ายกํากับอาจเป็นปริมาณฝนที่ตกลงมาในช่วงระยะเวลาหนึ่ง

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบควบคุมดูแลในข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

ตัวอย่างที่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่างที่มีป้ายกำกับ 3 รายการจากโมเดลการประเมินมูลค่าบ้าน โดยแต่ละรายการมีฟีเจอร์ 3 รายการและป้ายกำกับ 1 รายการ

จำนวนห้องนอน จำนวนห้องน้ำ อายุของบ้าน ราคาบ้าน (ป้ายกำกับ)
3 2 15 $345,000
2 1 72 $179,000
4 2 34 $392,000

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล รูปแบบจะฝึกจากตัวอย่างที่ติดป้ายกำกับและทำการคาดการณ์จากตัวอย่างที่ไม่มีป้ายกำกับ

เปรียบเทียบตัวอย่างที่มีป้ายกำกับกับตัวอย่างที่ไม่มีป้ายกำกับ

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบควบคุมดูแลในข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

การเปิดเผยข้อมูลป้ายกํากับ

ข้อบกพร่องในการออกแบบโมเดลที่ฟีเจอร์เป็นพร็อกซีสําหรับป้ายกํากับ ตัวอย่างเช่น ลองพิจารณารูปแบบการจัดประเภทแบบ 2 กลุ่มซึ่งคาดการณ์ว่าผู้มีโอกาสเป็นลูกค้าจะซื้อผลิตภัณฑ์หนึ่งๆ หรือไม่ สมมติว่าฟีเจอร์หนึ่งของโมเดลคือบูลีนที่มีชื่อว่า SpokeToCustomerAgent สมมติเพิ่มเติมว่าตัวแทนลูกค้าจะได้รับการมอบหมายหลังจากผู้มีโอกาสเป็นลูกค้าซื้อผลิตภัณฑ์จริงๆ เท่านั้น ในระหว่างการฝึก โมเดลจะเรียนรู้การเชื่อมโยงระหว่าง SpokeToCustomerAgent กับป้ายกำกับอย่างรวดเร็ว

ดูข้อมูลเพิ่มเติมได้ที่การตรวจสอบไปป์ไลน์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

lambda

#fundamentals

คำพ้องความหมายของอัตราปกติ

Lambda เป็นคําที่ใช้งานมากเกินไป ในที่นี้เราจะมุ่งเน้นที่คำจำกัดความของคำนี้ในการปรับให้เป็นไปตามข้อกำหนด

LaMDA (โมเดลภาษาสำหรับแอปพลิเคชันด้านการโต้ตอบ หรือ Language Model for Dialog Applications)

#language

โมเดลภาษาขนาดใหญ่ที่อิงตาม Transformer ซึ่งพัฒนาโดย Google และได้รับการฝึกจากชุดข้อมูลการสนทนาขนาดใหญ่ที่สามารถสร้างคำตอบแบบการสนทนาที่สมจริง

LaMDA: เทคโนโลยีการสนทนาที่ก้าวล้ำให้ภาพรวม

จุดสังเกต

#image

คำพ้องความหมายของประเด็นสำคัญ

โมเดลภาษา

#language

โมเดลที่ประมาณความน่าจะเป็นของโทเค็นหรือลำดับโทเค็นที่ปรากฏในลำดับโทเค็นที่ยาวขึ้น

แม้ว่าจะขัดกับความรู้สึก แต่โมเดลจํานวนมากที่ประเมินข้อความไม่ใช่โมเดลภาษา เช่น โมเดลการจัดประเภทข้อความและโมเดลการวิเคราะห์ความรู้สึกไม่ใช่โมเดลภาษา


ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาคืออะไรในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โมเดลภาษาขนาดใหญ่

#language

เป็นโมเดลภาษาที่มีพารามิเตอร์จํานวนมากเป็นอย่างน้อย หรือพูดให้เข้าใจง่ายคือ โมเดลภาษาที่อิงตาม Transformer เช่น Gemini หรือ GPT

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ (LLM) ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

พื้นที่เชิงซ้อน

#language

คำพ้องความหมายของพื้นที่การฝัง

เลเยอร์

#fundamentals

ชุดเซลล์ประสาทในโครงข่ายประสาทเทียม เลเยอร์ 3 ประเภทที่ใช้กันทั่วไปมีดังนี้

ตัวอย่างเช่น ภาพต่อไปนี้แสดงเครือข่ายประสาทที่มีเลเยอร์อินพุต 1 เลเยอร์ เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์

เครือข่ายประสาทที่มีชั้นอินพุต 1 ชั้น ชั้นที่ซ่อนอยู่ 2 ชั้น และชั้นเอาต์พุต 1 ชั้น เลเยอร์อินพุตประกอบด้วยองค์ประกอบ 2 อย่าง เลเยอร์ซ่อนแรกประกอบด้วยนิวรอน 3 ตัว และเลเยอร์ซ่อนที่สองประกอบด้วยนิวรอน 2 ตัว เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

ใน TensorFlow เลเยอร์ยังเป็นฟังก์ชัน Python ที่รับเทนเซอร์และตัวเลือกการกําหนดค่าเป็นอินพุต และสร้างเทนเซอร์อื่นๆ เป็นเอาต์พุต

Layers API (tf.layers)

#TensorFlow

TensorFlow API สำหรับการสร้างเครือข่ายประสาท ลึก โดยการประกอบเลเยอร์ Layers API ช่วยให้คุณสร้างเลเยอร์ประเภทต่างๆ ได้ เช่น

Layers API เป็นไปตามรูปแบบ API ของเลเยอร์ Keras กล่าวคือ นอกเหนือจากคำนำหน้าที่แตกต่างกันแล้ว ฟังก์ชันทั้งหมดใน Layers API จะมีชื่อและลายเซ็นเหมือนกับฟังก์ชันใน Keras Layers API

ใบไม้

#df

จุดสิ้นสุดใดก็ได้ในแผนภูมิการตัดสินใจ ลีฟจะไม่ทําการทดสอบ ซึ่งต่างจากเงื่อนไข แต่ใบไม้เป็นค่าคาดการณ์ที่เป็นไปได้ ใบไม้ยังเป็นโหนดปลายทางของเส้นทางการอนุมานด้วย

ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้มีใบ 3 ใบ

แผนผังการตัดสินใจที่มีเงื่อนไข 2 รายการซึ่งนําไปสู่ใบ 3 ใบ

ดูข้อมูลเพิ่มเติมเกี่ยวกับแผนผังการตัดสินใจในหลักสูตรป่าการตัดสินใจ

เครื่องมือความสามารถในการตีความการเรียนรู้ (LIT)

เครื่องมือแสดงข้อมูลผ่านภาพและการทำความเข้าใจรูปแบบแบบอินเทอร์แอกทีฟ

คุณสามารถใช้ LIT แบบโอเพนซอร์สเพื่อตีความโมเดล หรือแสดงภาพข้อความ รูปภาพ และข้อมูลตาราง

อัตราการเรียนรู้

#fundamentals

จํานวนทศนิยมที่บอกอัลกอริทึม Gradient Descent ว่าควรปรับน้ำหนักและค่ากําหนดของแต่ละรอบอย่างไร เช่น อัตราการเรียนรู้ 0.3 จะปรับน้ำหนักและค่ากําหนดให้มีประสิทธิภาพมากกว่าอัตราการเรียนรู้ 0.1 ถึง 3 เท่า

อัตราการเรียนรู้เป็นไฮเปอร์พารามิเตอร์ที่สําคัญ หากคุณตั้งค่าอัตราการเรียนรู้ต่ำเกินไป การฝึกจะใช้เวลานานเกินไป หากตั้งค่าอัตราการเรียนรู้สูงเกินไป บ่อยครั้งที่การลดเชิงลาดจะประสบปัญหาในการบรรจบ

ในระหว่างการวนซ้ำแต่ละครั้ง อัลกอริทึมการลดเชิงลาดจะคูณอัตราการเรียนรู้ด้วยเชิงลาด ผลลัพธ์ที่ได้เรียกว่าขั้นตอนของเส้นลาด


ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: ตัวแปรพหุนามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การถดถอยแบบกำลังสองน้อยที่สุด

โมเดลการถดถอยเชิงเส้นที่ผ่านการฝึกโดยการลดการสูญเสีย L2

ระยะ Levenshtein

#language
#metric

เมตริกระยะแก้ไขที่คำนวณการดำเนินการลบ แทรก และแทนที่น้อยที่สุดที่จำเป็นต่อการเปลี่ยนคำหนึ่งเป็นคำอื่น เช่น ระยะ Levenshtein ระหว่างคําว่า "heart" กับ "darts" มีค่าเป็น 3 เนื่องจากการแก้ไข 3 ครั้งต่อไปนี้เป็นการเปลี่ยนแปลงที่น้อยที่สุดในการเปลี่ยนคําหนึ่งเป็นคําอื่น

  1. heart → deart (แทนที่ "h" ด้วย "d")
  2. deart → dart (ลบ "e")
  3. dart → darts (แทรก "s")

โปรดทราบว่าลำดับก่อนหน้าไม่ใช่เส้นทางเดียวของการแก้ไข 3 ครั้ง

เชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่แสดงได้ด้วยการบวกและคูณเท่านั้น

ผังความสัมพันธ์เชิงเส้นคือเส้น

ตรงข้ามกับnonlinear

รูปแบบเชิงเส้น

#fundamentals

โมเดลที่กําหนดน้ำหนัก 1 รายการต่อฟีเจอร์เพื่อทําการคาดการณ์ (รูปแบบเชิงเส้นยังมีความลำเอียงด้วย) ในทางตรงกันข้าม ความสัมพันธ์ระหว่างฟีเจอร์กับการคาดการณ์ในโมเดลเชิงลึกมักไม่เป็นเชิงเส้น

โดยทั่วไปแล้ว โมเดลเชิงเส้นจะฝึกได้ง่ายกว่าและตีความได้มากกว่าโมเดลเชิงลึก อย่างไรก็ตาม รูปแบบเชิงลึกสามารถเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างฟีเจอร์

การถดถอยเชิงเส้นและการถดถอยเชิงลอจิสติกเป็นโมเดลเชิงเส้น 2 ประเภท

รูปแบบเชิงเส้นเป็นไปตามสูตรนี้

y=b+w1x1+w2x2+wnxn
where:
  • y' คือการคาดการณ์ดิบ (ในบางประเภทของโมเดลเชิงเส้น ระบบจะแก้ไขการคาดการณ์ดิบนี้เพิ่มเติม ตัวอย่างเช่น โปรดดูการถดถอยแบบโลจิสติก)
  • b คือค่ากําหนด
  • w คือน้ำหนัก ดังนั้น w1 คือน้ำหนักของฟีเจอร์แรก w2 คือน้ำหนักของฟีเจอร์ที่ 2 และอื่นๆ
  • x คือฟีเจอร์ ดังนั้น x1 คือค่าของฟีเจอร์แรก x2 คือค่าของฟีเจอร์ที่ 2 และอื่นๆ
ตัวอย่างเช่น สมมติว่าโมเดลเชิงเส้นสำหรับฟีเจอร์ 3 รายการเรียนรู้ค่าอคติและน้ำหนักต่อไปนี้
  • b = 7
  • w1 = -2.5
  • w2 = -1.2
  • w3 = 1.4
ดังนั้น เมื่อพิจารณาถึงฟีเจอร์ 3 รายการ (x1, x2 และ x3) รูปแบบเชิงเส้นจะใช้สมการต่อไปนี้เพื่อสร้างการคาดการณ์แต่ละรายการ
y' = 7 + (-2.5)(x1) + (-1.2)(x2) + (1.4)(x3)

สมมติว่าตัวอย่างหนึ่งๆ มีค่าต่อไปนี้

  • x1 = 4
  • x2 = -10
  • x3 = 5
การป้อนค่าเหล่านั้นลงในสูตรจะให้การคาดการณ์สำหรับตัวอย่างนี้
y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

แบบจําลองเชิงเส้นไม่เพียงรวมถึงแบบจําลองที่ใช้สมการเชิงเส้นเท่านั้นในการสร้างการคาดการณ์ แต่ยังรวมถึงชุดแบบจําลองที่กว้างขึ้นซึ่งใช้สมการเชิงเส้นเป็นองค์ประกอบเพียงอย่างเดียวของสูตรที่สร้างการคาดการณ์ เช่น ขั้นตอนหลังการประมวลผลของ Logistic Regression จะประมวลผลการคาดการณ์ดิบ (y') เพื่อสร้างค่าการคาดการณ์สุดท้ายระหว่าง 0 ถึง 1 เท่านั้น


การถดถอยเชิงเส้น

#fundamentals

โมเดลแมชชีนเลิร์นนิงประเภทหนึ่งที่มีลักษณะตรงตามทั้ง 2 ข้อต่อไปนี้

เปรียบเทียบการถดถอยเชิงเส้นกับการถดถอยแบบโลจิสติก นอกจากนี้ ให้เปรียบเทียบการถดถอยกับการจัดประเภท

ดูข้อมูลเพิ่มเติมได้ที่การหาค่าสัมประสิทธ์เชิงเส้นในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

LIT

ตัวย่อของเครื่องมือการตีความการเรียนรู้ (LIT) ซึ่งก่อนหน้านี้เรียกว่าเครื่องมือการตีความภาษา

LLM

#language
#generativeAI

ตัวย่อของโมเดลภาษาขนาดใหญ่

การประเมิน LLM (evals)

#language
#generativeAI
#Metric

ชุดเมตริกและการเปรียบเทียบเพื่อประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) การประเมิน LLM ในระดับสูงมีดังนี้

  • ช่วยให้นักวิจัยระบุด้านที่ LLM จำเป็นต้องปรับปรุง
  • มีประโยชน์ในการเปรียบเทียบ LLM ต่างๆ และระบุ LLM ที่ดีที่สุดสําหรับงานหนึ่งๆ
  • ช่วยให้มั่นใจว่า LLM นั้นปลอดภัยและใช้งานได้อย่างมีจริยธรรม

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ (LLM) ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การถดถอยแบบโลจิสติก

#fundamentals

โมเดลการถดถอยประเภทหนึ่งที่คาดการณ์ความน่าจะเป็น โมเดลการถดถอยเชิงโลจิสติกมีลักษณะดังนี้

  • ป้ายกำกับคือเชิงหมวดหมู่ คําว่า "การถดถอยเชิงโลจิสติก" มักหมายถึงการถดถอยเชิงโลจิสติกแบบไบนารี ซึ่งก็คือโมเดลที่คํานวณความน่าจะเป็นสําหรับป้ายกํากับที่มีค่าที่เป็นไปได้ 2 ค่า ตัวแปรที่พบไม่บ่อยนักคือการถดถอยเชิงเส้นโลจิสติกแบบหลายตัวแปร ซึ่งจะคํานวณความน่าจะเป็นสําหรับป้ายกํากับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า
  • ฟังก์ชันการสูญเสียระหว่างการฝึกคือ Log Loss (คุณสามารถวางหน่วยการสูญเสียข้อมูลบันทึกได้หลายหน่วยพร้อมกันสําหรับป้ายกํากับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า)
  • โมเดลนี้มีสถาปัตยกรรมแบบเชิงเส้น ไม่ใช่เครือข่ายประสาทเทียม อย่างไรก็ตาม ส่วนที่เหลือของคําจํากัดความนี้ยังมีผลกับโมเดลเชิงลึกที่คาดการณ์ความน่าจะเป็นสําหรับป้ายกํากับเชิงหมวดหมู่ด้วย

ตัวอย่างเช่น ลองพิจารณาโมเดลการถดถอยเชิงโลจิสติกส์ที่คำนวณความน่าจะเป็นที่อีเมลอินพุตจะเป็นสแปมหรือไม่สแปม ในระหว่างการอนุมาน สมมติว่าโมเดลคาดการณ์ 0.72 ดังนั้น รูปแบบจะประมาณค่าต่อไปนี้

  • มีโอกาส 72% ที่อีเมลจะเป็นสแปม
  • มีโอกาส 28% ที่อีเมลไม่ใช่จดหมายขยะ

โมเดลการถดถอยเชิงเส้นใช้สถาปัตยกรรมแบบ 2 ขั้นตอนต่อไปนี้

  1. โมเดลจะสร้างการคาดการณ์ดิบ (y') โดยใช้ฟังก์ชันเชิงเส้นของฟีเจอร์อินพุต
  2. โดยโมเดลจะใช้การคาดการณ์ดิบเป็นอินพุตให้กับฟังก์ชัน sigmoid ซึ่งจะแปลงการคาดการณ์ดิบเป็นค่าระหว่าง 0 ถึง 1

เช่นเดียวกับโมเดลการถดถอยอื่นๆ โมเดลการถดถอยแบบโลจิสติกจะคาดการณ์ตัวเลข อย่างไรก็ตาม โดยทั่วไปแล้วตัวเลขนี้จะเป็นส่วนหนึ่งของโมเดลการจัดประเภทแบบไบนารี ดังนี้

  • หากตัวเลขที่คาดการณ์มากกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสที่เป็นบวก
  • หากตัวเลขที่คาดการณ์ได้น้อยกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสเชิงลบ

ดูข้อมูลเพิ่มเติมได้ที่โลจิสติกส์รีเกรชันในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ลอจิสติกส์

เวกเตอร์ของการคาดการณ์ดิบ (ไม่ใช่แบบมาตรฐาน) ที่โมเดลการจัดประเภทสร้างขึ้น ซึ่งปกติแล้วระบบจะส่งต่อไปยังฟังก์ชันการปรับมาตรฐาน หากโมเดลกำลังแก้ปัญหาการจัดประเภทหลายคลาส โดยทั่วไปแล้ว ลอจิทจะกลายเป็นอินพุตของฟังก์ชันSoftmax จากนั้นฟังก์ชัน Softmax จะสร้างเวกเตอร์ของความน่าจะเป็น (ที่ปรับมาตรฐานแล้ว) ที่มีค่า 1 ค่าสําหรับแต่ละคลาสที่เป็นไปได้

การสูญหายของบันทึก

#fundamentals

ฟังก์ชันการสูญเสียที่ใช้ในการถดถอยเชิงเส้นโลจิสติกแบบไบนารี

สูตรต่อไปนี้จะคํานวณ Log Loss

Log Loss=(x,y)Dylog(y)(1y)log(1y)
where:
  • (x,y)D คือชุดข้อมูลที่มีตัวอย่างที่มีป้ายกำกับจำนวนมาก ซึ่งก็คือ (x,y) คู่
  • y คือป้ายกำกับในตัวอย่างที่มีป้ายกำกับ เนื่องจากเป็นแบบเรียลจีสทีรีย y ทุกค่าต้องเป็น 0 หรือ 1
  • y คือค่าที่คาดการณ์ (อยู่ระหว่าง 0 ถึง 1 โดยยกเว้น 0 และ 1) จากชุดฟีเจอร์ใน x

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้นโลจิสติก: การสูญเสียและการปรับให้เหมาะสมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อัตราส่วนแบบลอการิทึม

#fundamentals

ลอการิทึมของอัตราต่อรองของเหตุการณ์บางอย่าง

หากเหตุการณ์เป็นเหตุการณ์ที่มีความน่าจะเป็นแบบ 2 ค่า โอกาสหมายถึงอัตราส่วนของความน่าจะเป็นที่จะประสบความสําเร็จ (p) กับความน่าจะเป็นที่จะประสบความสําเร็จ (1-p) ตัวอย่างเช่น สมมติว่าเหตุการณ์หนึ่งๆ มีความน่าจะเป็นที่จะประสบความสําเร็จ 90% และความน่าจะเป็นที่จะประสบความสําเร็จ 10% ในกรณีนี้ ระบบจะคำนวณโอกาสดังนี้

odds=p(1-p)=.9.1=9

ลอการิทึมความน่าจะเป็นคือลอการิทึมของอัตราต่อรอง ตามธรรมเนียมแล้ว "ลอการิทึม" หมายถึงลอการิทึมธรรมชาติ แต่จริงๆ แล้วลอการิทึมอาจเป็นฐานใดก็ได้ที่มากกว่า 1 ดังนั้น ลอการิทึมความน่าจะเป็นของตัวอย่างตามแบบแผนจึงมีดังนี้

log-odds=ln(9) =2.2

ฟังก์ชันลอการิทึมอัตราต่อรองเป็นฟังก์ชันผกผันของฟังก์ชัน Sigmoid


Long Short-Term Memory (LSTM)

#seq

เซลล์ประเภทหนึ่งในเครือข่ายประสาทแบบซ้ำที่ใช้ประมวลผลลำดับข้อมูลในแอปพลิเคชันต่างๆ เช่น การจดจำลายมือ การแปลด้วยคอมพิวเตอร์ และการใส่คำบรรยายแทนเสียงแทนเสียงในรูปภาพ LSTM ช่วยแก้ปัญหาการลดลงของ Gradient ที่จะเกิดขึ้นเมื่อฝึก RNN เนื่องจากลําดับข้อมูลยาว โดยเก็บประวัติไว้ในสถานะหน่วยความจําภายในตามอินพุตและบริบทใหม่จากเซลล์ก่อนหน้าใน RNN

LoRA

#language
#generativeAI

ตัวย่อของ Low-Rank Adaptability

แพ้

#fundamentals
#Metric

ในระหว่างการฝึกโมเดลที่มีการควบคุมดูแล เป็นการวัดระยะห่างระหว่างการคาดการณ์ของโมเดลกับป้ายกำกับ

ฟังก์ชันการสูญเสียจะคํานวณการสูญเสีย

ดูข้อมูลเพิ่มเติมได้ที่การหาค่าสัมประสิทธ์เชิงเส้น: ค่าการสูญเสียในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ผู้รวบรวมข้อมูลการสูญเสีย

อัลกอริทึมแมชชีนเลิร์นนิงประเภทหนึ่งที่ปรับปรุงประสิทธิภาพของโมเดลด้วยการรวมการคาดการณ์ของโมเดลหลายรายการเข้าด้วยกันและใช้การคาดการณ์เหล่านั้นเพื่อทำนายเพียงครั้งเดียว ด้วยเหตุนี้ เครื่องมือรวบรวมการสูญเสียจึงช่วยลดความแปรปรวนของการคาดการณ์และปรับปรุงความแม่นยำของการคาดการณ์ได้

เส้นโค้งการสูญเสีย

#fundamentals

ผังการสูญเสียตามจำนวนรอบการฝึก ผังต่อไปนี้แสดงเส้นโค้งการสูญเสียทั่วไป

กราฟคาร์ทีเซียนแสดงการสูญเสียเทียบกับจำนวนรอบการฝึก ซึ่งแสดงให้เห็นการสูญเสียที่ลดลงอย่างรวดเร็วในรอบแรกๆ ตามด้วยการลดลงอย่างช้าๆ และเส้นลาดชันที่ราบเรียบในช่วงรอบสุดท้าย

เส้นโค้งการสูญเสียจะช่วยคุณระบุได้ว่าเมื่อใดที่โมเดลกำลังเข้าใกล้ค่าที่ถูกต้องหรือกำลังปรับให้พอดีมากเกินไป

เส้นโค้งการสูญเสียสามารถแสดงการสูญเสียประเภทต่อไปนี้ทั้งหมด

โปรดดูเส้นโค้งทั่วไปด้วย

ดูข้อมูลเพิ่มเติมได้ที่การประมาณที่มากเกินไป: การตีความเส้นโค้งการสูญเสียในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟังก์ชันการสูญเสีย

#fundamentals
#Metric

ในระหว่างการฝึกหรือทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่คำนวณการสูญเสียในกลุ่มตัวอย่าง ฟังก์ชันการสูญเสียจะแสดงผลลัพธ์การสูญเสียที่ต่ำลงสำหรับโมเดลที่ทําการคาดการณ์ได้ดี เมื่อเทียบกับโมเดลที่ทําการคาดการณ์ไม่ดี

โดยทั่วไป เป้าหมายของการฝึกคือลดการสูญเสียที่ฟังก์ชันการสูญเสียแสดง

ฟังก์ชันการสูญเสียมีหลายประเภท เลือกฟังก์ชันการสูญเสียที่เหมาะสมสำหรับประเภทโมเดลที่คุณกําลังสร้าง เช่น

พื้นผิวการสูญเสีย

กราฟน้ำหนักเทียบกับน้ำหนักที่หายไป การลดเชิงลาดมีจุดมุ่งหมายเพื่อค้นหาน้ำหนักที่ทำให้พื้นผิวการสูญเสียอยู่ในระดับต่ำสุดในพื้นที่

Low-Rank Adaptability (LoRA)

#language
#generativeAI

เทคนิคการใช้พารามิเตอร์อย่างมีประสิทธิภาพสําหรับการปรับแต่งแบบละเอียดที่จะ "ตรึง" น้ำหนักที่ผ่านการฝึกล่วงหน้าของโมเดล (เพื่อไม่ให้แก้ไขได้อีก) จากนั้นแทรกชุดน้ำหนักขนาดเล็กที่ฝึกได้ลงในโมเดล ชุดน้ำหนักที่ฝึกได้นี้ (หรือที่เรียกว่า "เมทริกซ์การอัปเดต") มีขนาดน้อยกว่าโมเดลฐานมาก จึงฝึกได้เร็วกว่ามาก

LoRA มีข้อดีดังต่อไปนี้

  • ปรับปรุงคุณภาพการคาดการณ์ของโมเดลสําหรับโดเมนที่ใช้การปรับแต่ง
  • ปรับแต่งได้เร็วกว่าเทคนิคที่ต้องปรับแต่งพารามิเตอร์ทั้งหมดของโมเดล
  • ลดต้นทุนการประมวลผลของการอนุมานด้วยการเปิดใช้การเรียกใช้โมเดลเฉพาะหลายรายการพร้อมกันซึ่งใช้โมเดลพื้นฐานเดียวกัน
เมทริกซ์การอัปเดตที่ใช้ใน LoRA ประกอบด้วยเมทริกซ์การแยกองค์ประกอบอันดับ ซึ่งมาจากโมเดลฐานเพื่อช่วยกรองสัญญาณรบกวนออกและมุ่งเน้นการฝึกอบรมเกี่ยวกับฟีเจอร์ที่สําคัญที่สุดของโมเดล

LSTM

#seq

ตัวย่อของ Long Short-Term Memory

M

แมชชีนเลิร์นนิง

#fundamentals

โปรแกรมหรือระบบที่ฝึกโมเดลจากข้อมูลที่ป้อน โมเดลที่ผ่านการฝึกสามารถคาดการณ์ที่เป็นประโยชน์จากข้อมูลใหม่ (ไม่เคยเห็นมาก่อน) ซึ่งดึงมาจากการแจกแจงเดียวกันกับที่ใช้ฝึกโมเดล

แมชชีนเลิร์นนิงยังหมายถึงสาขาการศึกษาที่เกี่ยวข้องกับโปรแกรมหรือระบบเหล่านี้ด้วย

ดูข้อมูลเพิ่มเติมได้ที่หลักสูตรข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

การแปลด้วยคอมพิวเตอร์

#generativeAI

การใช้ซอฟต์แวร์ (โดยทั่วไปคือโมเดลแมชชีนเลิร์นนิง) เพื่อแปลงข้อความจากภาษาหนึ่งไปเป็นอีกภาษาหนึ่ง เช่น จากอังกฤษเป็นญี่ปุ่น

คลาสที่มีเสียงข้างมาก

#fundamentals

ป้ายกำกับที่พบบ่อยกว่าในชุดข้อมูลที่ไม่สมดุลของคลาส ตัวอย่างเช่น หากชุดข้อมูลมีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงลบจะเป็นคลาสส่วนใหญ่

ตรงข้ามกับคลาสของชนกลุ่มน้อย

ดูข้อมูลเพิ่มเติมได้ที่ชุดข้อมูล: ชุดข้อมูลที่ไม่สมดุลในบทแนะนำเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

กระบวนการตัดสินใจแบบ Markov (MDP)

#rl

กราฟที่แสดงรูปแบบการตัดสินใจซึ่งใช้การตัดสินใจ (หรือการดําเนินการ) เพื่อไปยังลําดับของสถานะโดยสมมติว่าสมบัติ Markov มีผล ในการเรียนรู้ด้วยการทำซ้ำ การเปลี่ยนสถานะเหล่านี้จะแสดงผลรางวัลที่เป็นตัวเลข

พร็อพเพอร์ตี้ Markov

#rl

พร็อพเพอร์ตี้ของสภาพแวดล้อมบางรายการ ซึ่งการเปลี่ยนสถานะจะกำหนดโดยข้อมูลโดยนัยในสถานะปัจจุบันและการดำเนินการของเอเจนต์

โมเดลภาษาที่มีการปกปิด

#language

โมเดลภาษาที่คาดการณ์ความน่าจะเป็นของโทเค็นที่เป็นไปได้ที่จะเติมช่องว่างในลำดับ ตัวอย่างเช่น รูปแบบภาษาที่มีการปกปิดสามารถคํานวณความน่าจะเป็นสําหรับคําที่เป็นไปได้เพื่อแทนที่ขีดล่างในประโยคต่อไปนี้

____ ในหมวกกลับมาแล้ว

โดยปกติแล้ว เอกสารประกอบจะใช้สตริง "MASK" แทนขีดล่าง เช่น

"MASK" ในหมวกกลับมาแล้ว

โมเดลภาษาที่มีการปกปิดสมัยใหม่ส่วนใหญ่เป็นแบบแบบ 2 ทิศทาง

matplotlib

ไลบรารีผัง 2 มิติแบบโอเพนซอร์สของ Python matplotlib ช่วยให้คุณแสดงภาพด้านต่างๆ ของแมชชีนเลิร์นนิง

การแยกตัวประกอบเมทริกซ์

#recsystems

ในคณิตศาสตร์ กลไกในการค้นหาเมทริกซ์ที่มีผลคูณจุดใกล้เคียงกับเมทริกซ์เป้าหมาย

ในระบบการแนะนำ มักมีการจัดเก็บการให้คะแนนของผู้ใช้สำหรับรายการในเมทริกซ์เป้าหมาย ตัวอย่างเช่น ตารางเป้าหมายสําหรับระบบการแนะนําภาพยนตร์อาจมีลักษณะดังต่อไปนี้ โดยที่จำนวนเต็มบวกคือคะแนนของผู้ใช้ และ 0 หมายความว่าผู้ใช้ไม่ได้ให้คะแนนภาพยนตร์

  คาสซาบลางกา The Philadelphia Story แบล็ค แพนเธอร์ (Black Panther) Wonder Woman Pulp Fiction
ผู้ใช้ 1 5.0 3.0 0.0 2.0 0.0
ผู้ใช้ 2 4.0 0.0 0.0 1.0 5.0
ผู้ใช้ 3 3.0 1.0 4.0 5.0 0.0

ระบบการแนะนำภาพยนตร์มีเป้าหมายเพื่อคาดคะเนคะแนนของผู้ใช้สำหรับภาพยนตร์ที่ไม่มีการจัดประเภท เช่น ผู้ใช้ 1 จะชอบ Black Panther ไหม

แนวทางหนึ่งสําหรับระบบการแนะนําคือการใช้การแยกแยะเมทริกซ์เพื่อสร้างเมทริกซ์ 2 รายการต่อไปนี้

ตัวอย่างเช่น การใช้การแยกแยะเมทริกซ์กับผู้ใช้ 3 รายและสินค้า 5 รายการอาจให้ผลลัพธ์เป็นเมทริกซ์ผู้ใช้และเมทริกซ์สินค้าดังต่อไปนี้

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

ผลคูณจุดของเมทริกซ์ผู้ใช้และเมทริกซ์รายการจะให้เมทริกซ์การแนะนำที่มีทั้งคะแนนเดิมของผู้ใช้และค่าคาดการณ์สำหรับภาพยนตร์ที่ผู้ใช้แต่ละรายยังไม่ได้ดู ตัวอย่างเช่น คะแนนของผู้ใช้ 1 สำหรับ Casablanca คือ 5.0 ผลคูณจุดที่สอดคล้องกับเซลล์นั้นในเมทริกซ์คําแนะนําควรอยู่ในช่วงประมาณ 5.0 ซึ่งก็คือ

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

ที่สำคัญกว่านั้นคือ ผู้ใช้ 1 จะชอบ Black Panther ไหม ผลคูณจุดที่สอดคล้องกับแถวแรกและคอลัมน์ที่ 3 จะให้คะแนนที่คาดการณ์ไว้ 4.3

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

โดยปกติแล้ว การแยกตัวประกอบเมทริกซ์จะให้เมทริกซ์ผู้ใช้และเมทริกซ์รายการที่รวมกันแล้วมีความกะทัดรัดกว่าเมทริกซ์เป้าหมายอย่างมาก

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ (MAE)

#Metric

การสูญเสียโดยเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย L1 คํานวณค่าเฉลี่ยความผิดพลาดสัมบูรณ์ดังนี้

  1. คำนวณการสูญเสีย L1 ของกลุ่ม
  2. หารความสูญเสีย L1 ด้วยจํานวนตัวอย่างในชุด

Mean Absolute Error=1ni=0n|yiy^i|

where:

  • n คือจํานวนตัวอย่าง
  • y คือค่าจริงของป้ายกํากับ
  • y^ คือค่าที่โมเดลคาดการณ์สำหรับ y

ตัวอย่างเช่น ลองพิจารณาการคำนวณการสูญเสีย L1 ในตัวอย่าง 5 รายการต่อไปนี้

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ของโมเดล การสูญเสีย (ความแตกต่างระหว่างค่าจริงกับค่าที่คาดการณ์)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = แพ้ L1

ดังนั้น ผลลัพธ์ L1 คือ 8 และจำนวนตัวอย่างคือ 5 ดังนั้น ค่าเฉลี่ยความผิดพลาดสัมบูรณ์คือ

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

เปรียบเทียบค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์กับความคลาดเคลื่อนเฉลี่ยกำลังสอง และค่าเฉลี่ยความคลาดเคลื่อนกำลังสองของรูท

ความแม่นยำเฉลี่ยของค่าเฉลี่ยที่ k (mAP@k)

#language
#generativeAI
#Metric

ค่าเฉลี่ยทางสถิติของคะแนนความแม่นยำเฉลี่ยที่ k ทั้งหมดในชุดข้อมูลที่ใช้ตรวจสอบ การใช้ความแม่นยำเฉลี่ยที่ k อย่างหนึ่งคือเพื่อตัดสินคุณภาพของคําแนะนําที่สร้างขึ้นโดยระบบคําแนะนํา

แม้ว่าวลี "ค่าเฉลี่ยถ่วงน้ำหนัก" จะฟังดูซ้ำซ้อน แต่ชื่อเมตริกก็เหมาะสม ท้ายที่สุดแล้ว เมตริกนี้จะหาค่ามัธยฐานของความแม่นยําเฉลี่ยที่ k หลายค่า

สมมติว่าคุณสร้างระบบการแนะนำที่สร้างรายการนวนิยายแนะนำที่ปรับเปลี่ยนในแบบของคุณสำหรับผู้ใช้แต่ละราย คุณคำนวณความแม่นยำเฉลี่ย 5 รายการต่อไปนี้ที่คะแนน k (1 คะแนนต่อผู้ใช้ 1 คน) โดยอิงตามความคิดเห็นจากผู้ใช้ที่เลือก

  • 0.73
  • 0.77
  • 0.67
  • 0.82
  • 0.76

ดังนั้นความแม่นยำเฉลี่ยของค่าเฉลี่ยที่ K จะเท่ากับ

mean =0.73 + 0.77 + 0.67 + 0.82 + 0.765=0.75

ความคลาดเคลื่อนกำลังสองเฉลี่ย (MSE)

#Metric

การสูญเสียโดยเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย L2 คำนวณความคลาดเคลื่อนกำลังสองเฉลี่ยดังนี้

  1. คํานวณการสูญเสีย L2 สําหรับกลุ่ม
  2. หารความสูญเสีย L2 ด้วยจํานวนตัวอย่างในชุด
Mean Squared Error=1ni=0n(yiy^i)2
where:
  • n คือจํานวนตัวอย่าง
  • y คือค่าจริงของป้ายกํากับ
  • y^ คือค่าคาดการณ์ของโมเดลสําหรับ y

ตัวอย่างเช่น ลองพิจารณาการสูญเสียในตัวอย่าง 5 รายการต่อไปนี้

มูลค่าที่แท้จริง การคาดการณ์ของโมเดล แพ้ ผลต่างกำลังสอง
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = แพ้ L2

ดังนั้น ความคลาดเคลื่อนเฉลี่ยกำลังสองคือ

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

ความคลาดเคลื่อนเฉลี่ยกำลังสองเป็นเครื่องมือเพิ่มประสิทธิภาพยอดนิยมในการฝึก โดยเฉพาะสำหรับการถดถอยเชิงเส้น

เปรียบเทียบความคลาดเคลื่อนกำลังสองเฉลี่ยกับค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ และค่าเฉลี่ยความคลาดเคลื่อนกำลังสองของราก

TensorFlow Playground ใช้ Mean Squared Error เพื่อคํานวณค่าการสูญเสีย

ค่าผิดปกติส่งผลต่อความคลาดเคลื่อนกำลังสองเฉลี่ยอย่างมาก เช่น ผลขาดทุน 1 คือผลขาดทุนยกกำลัง 2 เท่ากับ 1 แต่ผลขาดทุน 3 คือผลขาดทุนยกกำลัง 2 เท่ากับ 9 ในตารางก่อนหน้า ตัวอย่างที่มีผลลัพธ์เป็นลบ 3 รายการคิดเป็นสัดส่วนประมาณ 56% ของข้อผิดพลาดผลรวมของสี่เหลี่ยมจัตุรัส ขณะที่ตัวอย่างแต่ละรายการที่มีผลลัพธ์เป็นลบ 1 รายการคิดเป็นสัดส่วนเพียง 6% ของข้อผิดพลาดผลรวมของสี่เหลี่ยมจัตุรัส

ค่าที่ผิดปกติจะไม่ส่งผลต่อค่าเฉลี่ยความผิดพลาดสัมบูรณ์มากเท่ากับความคลาดเคลื่อนกำลังสองเฉลี่ย เช่น บัญชีที่เสียไป 3 บัญชีคิดเป็นเพียงประมาณ 38% ของค่าเฉลี่ยความผิดพลาดสัมบูรณ์

การตัดเป็นวิธีหนึ่งในการป้องกันไม่ให้ค่าที่ผิดปกติอย่างมากส่งผลเสียต่อความสามารถในการคาดการณ์ของโมเดล


Mesh

#TensorFlow
#GoogleCloud

ในโปรแกรมแบบขนานของ ML เป็นคําที่เชื่อมโยงกับการกำหนดข้อมูลและรูปแบบให้กับชิป TPU รวมถึงการกำหนดวิธีแบ่งหรือทำซ้ำค่าเหล่านี้

Mesh เป็นคําที่มีความหมายหลายอย่าง ซึ่งอาจหมายถึงอย่างใดอย่างหนึ่งต่อไปนี้

  • เลย์เอาต์ของชิป TPU จริง
  • โครงสร้างเชิงตรรกะนามธรรมสำหรับการแมปข้อมูลและโมเดลไปยังชิป TPU

ไม่ว่าจะในกรณีใด จะมีการระบุเมชเป็นรูปร่าง

การเรียนรู้เชิงเมตา

#language

ส่วนหนึ่งซึ่งเป็นส่วนหนึ่งของแมชชีนเลิร์นนิงที่ค้นพบหรือปรับปรุงอัลกอริทึมการเรียนรู้ นอกจากนี้ ระบบการเรียนรู้เชิงเมตายังมุ่งฝึกโมเดลให้เรียนรู้งานใหม่ได้อย่างรวดเร็วจากข้อมูลเพียงเล็กน้อยหรือจากประสบการณ์ที่ได้รับจากงานก่อนหน้า โดยทั่วไปแล้ว อัลกอริทึมการเรียนรู้เชิงเมตาจะพยายามบรรลุเป้าหมายต่อไปนี้

  • ปรับปรุงหรือเรียนรู้ฟีเจอร์ที่วิศวกรเขียนขึ้นเอง (เช่น ตัวเริ่มต้นหรือเครื่องมือเพิ่มประสิทธิภาพ)
  • ใช้ข้อมูลและการคำนวณอย่างมีประสิทธิภาพมากขึ้น
  • ปรับปรุงการทั่วไป

การเรียนรู้เชิงเมตาเกี่ยวข้องกับการเรียนรู้แบบดูตัวอย่างน้อย

เมตริก

#TensorFlow
#Metric

สถิติที่คุณสนใจ

วัตถุประสงค์คือเมตริกที่ระบบแมชชีนเลิร์นนิงพยายามเพิ่มประสิทธิภาพ

Metrics API (tf.metrics)

#Metric

TensorFlow API สําหรับการประเมินโมเดล เช่น tf.metrics.accuracy จะกําหนดความถี่ที่การคาดการณ์ของโมเดลตรงกับป้ายกํากับ

มินิแบทช์

#fundamentals

ชุดย่อยขนาดเล็กที่เลือกแบบสุ่มของกลุ่มที่ประมวลผลในรอบเดียว ขนาดกลุ่มของมินิแบตช์มักจะอยู่ระหว่าง 10 ถึง 1,000 ตัวอย่าง

ตัวอย่างเช่น สมมติว่าชุดการฝึกทั้งหมด (กลุ่มแบบเต็ม) ประกอบด้วยตัวอย่าง 1,000 รายการ สมมติว่าคุณตั้งค่าขนาดกลุ่มของมินิกลุ่มแต่ละกลุ่มเป็น 20 ดังนั้น การวนซ้ำแต่ละครั้งจะกำหนดการสูญเสียในตัวอย่าง 20 รายการแบบสุ่มจาก 1,000 รายการ จากนั้นจึงปรับน้ำหนักและความลำเอียงตามความเหมาะสม

การคํานวณการสูญเสียในมินิแบตช์มีประสิทธิภาพมากกว่าการสูญเสียในตัวอย่างทั้งหมดในแบตช์แบบเต็ม

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: ตัวแปรพหุนามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การลดเชิงสถิติแบบกลุ่มย่อย

อัลกอริทึมการลดเชิงลาดที่ใช้กลุ่มย่อย กล่าวคือ วิธีการลดเชิงลาดแบบสุ่มเป็นกลุ่มเล็กๆ จะประมาณค่าลาดตามข้อมูลชุดย่อยเล็กๆ ของข้อมูลการฝึก การลดเชิงลาดแบบสุ่มแบบปกติใช้มินิแบทช์ขนาด 1

ความเสียหายแบบ Minimax

#Metric

ฟังก์ชันการสูญเสียสําหรับGenerative Adversarial Network ซึ่งอิงตาม Cross-Entropy ระหว่างการแจกแจงข้อมูลที่สร้างกับข้อมูลจริง

มีการสูญเสียแบบ Minimax ในบทความแรกเพื่ออธิบาย Generative Adversarial Network

ดูข้อมูลเพิ่มเติมเกี่ยวกับฟังก์ชันการสูญเสียได้ในหลักสูตร Generative Adversarial Networks

คลาสสำหรับชนกลุ่มน้อย

#fundamentals

ป้ายกำกับที่พบน้อยกว่าในชุดข้อมูลที่เกิดความไม่สมดุลของคลาส ตัวอย่างเช่น หากชุดข้อมูลมีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงบวกจะเป็นคลาสส่วนน้อย

เปรียบเทียบกับคลาสส่วนใหญ่

ชุดการฝึกที่มีตัวอย่าง 1 ล้านรายการฟังดูน่าประทับใจ อย่างไรก็ตาม หากมีการแสดงคลาสที่น้อยมากอย่างไม่ถูกต้อง แม้แต่ชุดข้อมูลการฝึกขนาดใหญ่มากก็อาจไม่เพียงพอ ให้ความสำคัญกับจำนวนตัวอย่างทั้งหมดในชุดข้อมูลน้อยลง และให้ความสำคัญกับจำนวนตัวอย่างในคลาสที่น้อยมากกว่า

หากชุดข้อมูลมีตัวอย่างของคลาสที่พบน้อยไม่เพียงพอ ให้ลองใช้downsampling (คำจำกัดความอยู่ในหัวข้อย่อยที่ 2) เพื่อเสริมคลาสที่พบน้อย


ดูข้อมูลเพิ่มเติมได้ที่ชุดข้อมูล: ชุดข้อมูลที่ไม่สมดุลในบทแนะนำเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

ผู้เชี่ยวชาญหลากหลายสาขา

#language
#generativeAI

รูปแบบที่เพิ่มประสิทธิภาพของเครือข่ายประสาทเทียมโดยใช้เฉพาะชุดย่อยของพารามิเตอร์ (เรียกว่าผู้เชี่ยวชาญ) เพื่อประมวลผลโทเค็นอินพุตหรือตัวอย่างที่ระบุ เครือข่ายการกำหนดสิทธิ์จะส่งโทเค็นอินพุตหรือตัวอย่างแต่ละรายการไปยังผู้เชี่ยวชาญที่เหมาะสม

โปรดดูรายละเอียดในเอกสารต่อไปนี้

ML

ตัวย่อของแมชชีนเลิร์นนิง

MMIT

#language
#image
#generativeAI

ตัวย่อของ Multimodal Instruction-Tuned

MNIST

#image

ชุดข้อมูลสาธารณสมบัติที่ LeCun, Cortes และ Burges รวบรวมไว้ซึ่งมีรูปภาพ 60,000 ภาพ โดยแต่ละภาพแสดงวิธีที่มนุษย์เขียนตัวเลข 0-9 ด้วยตนเอง ระบบจะจัดเก็บรูปภาพแต่ละรูปเป็นอาร์เรย์จำนวนเต็มขนาด 28x28 โดยที่จำนวนเต็มแต่ละค่าจะเป็นค่าสีเทาระหว่าง 0 ถึง 255 (รวม)

MNIST เป็นชุดข้อมูล Canonical สําหรับแมชชีนเลิร์นนิง ซึ่งมักใช้ในการทดสอบแนวทางใหม่ๆ ของแมชชีนเลิร์นนิง โปรดดูรายละเอียดที่ ฐานข้อมูล MNIST ของตัวเลขที่เขียนด้วยมือ

รูปแบบ

#language

หมวดหมู่ข้อมูลระดับสูง เช่น ตัวเลข ข้อความ รูปภาพ วิดีโอ และเสียงเป็นรูปแบบที่แตกต่างกัน 5 รูปแบบ

รุ่น

#fundamentals

โดยทั่วไปแล้ว หมายถึงโครงสร้างทางคณิตศาสตร์ที่ประมวลผลข้อมูลอินพุตและแสดงผลลัพธ์ กล่าวอย่างละเอียดคือ โมเดลคือชุดพารามิเตอร์และโครงสร้างที่จําเป็นสําหรับให้ระบบทําการคาดการณ์ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะรับตัวอย่างเป็นอินพุตและอนุมานการคาดการณ์เป็นเอาต์พุต โมเดลในแมชชีนเลิร์นนิงที่มีการควบคุมดูแลจะแตกต่างกันไปบ้าง เช่น

คุณสามารถบันทึก กู้คืน หรือทำสำเนาของรูปแบบได้

แมชชีนเลิร์นนิงที่ไม่มีการกำกับดูแลยังสร้างโมเดลด้วย โดยปกติแล้วจะเป็นฟังก์ชันที่สามารถแมปตัวอย่างอินพุตกับคลัสเตอร์ที่เหมาะสมที่สุด

ฟังก์ชันพีชคณิต เช่น ตัวอย่างต่อไปนี้คือรูปแบบ

  f(x, y) = 3x -5xy + y2 + 17

ฟังก์ชันก่อนหน้าจะจับคู่ค่าอินพุต (x และ y) กับเอาต์พุต

ในทํานองเดียวกัน ฟังก์ชันการเขียนโปรแกรมต่อไปนี้ก็เป็นโมเดลเช่นกัน

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

ผู้เรียกใช้จะส่งอาร์กิวเมนต์ไปยังฟังก์ชัน Python ก่อนหน้า และฟังก์ชัน Python จะสร้างเอาต์พุต (ผ่านคำสั่ง return)

แม้ว่าเครือข่ายประสาทเทียมลึกจะมีโครงสร้างทางคณิตศาสตร์ที่แตกต่างจากฟังก์ชันพีชคณิตหรือการเขียนโปรแกรม แต่เครือข่ายประสาทเทียมลึกจะยังคงรับอินพุต (ตัวอย่าง) และแสดงผลเอาต์พุต (การคาดการณ์)

นักเขียนโปรแกรมจะเขียนโค้ดฟังก์ชันการเขียนโปรแกรมด้วยตนเอง ในทางตรงกันข้าม โมเดลแมชชีนเลิร์นนิงจะค่อยๆ เรียนรู้พารามิเตอร์ที่ดีที่สุดในระหว่างการฝึกอัตโนมัติ


ความจุของโมเดล

#Metric

ความซับซ้อนของปัญหาที่โมเดลสามารถเรียนรู้ ยิ่งโมเดลเรียนรู้ปัญหาที่ซับซ้อนมากเท่าใด ความสามารถของโมเดลก็จะยิ่งสูงขึ้นเท่านั้น โดยปกติแล้ว ความสามารถของโมเดลจะเพิ่มขึ้นตามจำนวนพารามิเตอร์ของโมเดล ดูคำจำกัดความอย่างเป็นทางการของโมเดลการจัดประเภทได้ที่มิติข้อมูล VC

การซ้อนโมเดล

#generativeAI

ระบบที่เลือกโมเดลที่เหมาะสมสําหรับการค้นหาการอนุมานที่เฉพาะเจาะจง

ลองจินตนาการถึงกลุ่มโมเดลที่มีตั้งแต่ขนาดใหญ่มาก (มีพารามิเตอร์จํานวนมาก) ไปจนถึงขนาดเล็กมาก (พารามิเตอร์จํานวนน้อยมาก) โมเดลขนาดใหญ่มากจะใช้ทรัพยากรการประมวลผลมากกว่าเมื่อถึงเวลาการอนุมานเมื่อเทียบกับโมเดลขนาดเล็ก อย่างไรก็ตาม โดยทั่วไปแล้วโมเดลขนาดใหญ่มากจะอนุมานคำขอที่ซับซ้อนกว่าโมเดลขนาดเล็ก การซ้อนโมเดลจะกําหนดความซับซ้อนของคําขออนุมาน จากนั้นจะเลือกโมเดลที่เหมาะสมเพื่อดําเนินการอนุมาน แรงจูงใจหลักของการใช้โมเดลตามลำดับขั้นคือการลดต้นทุนการอนุมานโดยปกติแล้ว ให้เลือกโมเดลขนาดเล็ก และเลือกโมเดลขนาดใหญ่สําหรับการค้นหาที่ซับซ้อนมากขึ้นเท่านั้น

ลองจินตนาการว่าโมเดลขนาดเล็กทํางานบนโทรศัพท์และโมเดลเวอร์ชันที่ใหญ่กว่าทํางานบนเซิร์ฟเวอร์ระยะไกล การเรียงลําดับโมเดลที่ดีจะช่วยลดต้นทุนและเวลาในการตอบสนองโดยทำให้โมเดลขนาดเล็กจัดการคําของ่ายๆ ได้ และเรียกใช้เฉพาะโมเดลระยะไกลเพื่อจัดการคําขอที่ซับซ้อน

โปรดดูเราเตอร์จำลองด้วย

การประมวลผลแบบขนานของโมเดล

#language

วิธีปรับขนาดการฝึกหรือการทำนายที่วางส่วนต่างๆ ของโมเดลหนึ่งไว้ในอุปกรณ์ที่แตกต่างกัน การทำงานแบบขนานของโมเดลทำให้ใช้โมเดลที่มีขนาดใหญ่เกินกว่าที่จะใส่ลงในอุปกรณ์เครื่องเดียวได้

โดยทั่วไปแล้ว ระบบจะใช้การทำงานแบบขนานของโมเดลโดยทำดังนี้

  1. แยก (แบ่ง) โมเดลออกเป็นส่วนเล็กๆ
  2. กระจายการฝึกของชิ้นส่วนขนาดเล็กเหล่านั้นไปยังหลายโปรเซสเซอร์ โปรเซสเซอร์แต่ละตัวจะฝึกโมเดลส่วนของตัวเอง
  3. รวมผลลัพธ์เพื่อสร้างโมเดลเดียว

การทำงานแบบขนานของโมเดลจะทำให้การฝึกช้าลง

โปรดดูการขนานกันของข้อมูลด้วย

เราเตอร์จำลอง

#generativeAI

อัลกอริทึมที่กําหนดโมเดลที่เหมาะสมสําหรับการอนุมานในการจัดเรียงโมเดลตามลําดับชั้น โดยปกติแล้ว ตัวกำหนดเส้นทางโมเดลจะเป็นโมเดลแมชชีนเลิร์นนิงที่ค่อยๆ เรียนรู้วิธีเลือกโมเดลที่ดีที่สุดสําหรับอินพุตหนึ่งๆ อย่างไรก็ตาม ในบางครั้ง รูทเตอร์โมเดลอาจเป็นอัลกอริทึมที่ไม่เกี่ยวข้องกับแมชชีนเลิร์นนิงและเรียบง่ายกว่า

การฝึกโมเดล

กระบวนการระบุรูปแบบที่ดีที่สุด

MOE

#language
#image
#generativeAI

ตัวย่อของ mixture of experts

สร้างกระแส

อัลกอริทึมการลดเชิงลาดที่มีความซับซ้อน ซึ่งขั้นตอนการเรียนรู้จะขึ้นอยู่กับอนุพันธ์ในขั้นตอนปัจจุบันเท่านั้น แต่ยังขึ้นอยู่กับอนุพันธ์ของขั้นตอนก่อนหน้าด้วย โมเมนตัมเกี่ยวข้องกับการคํานวณค่าเฉลี่ยเคลื่อนที่ถ่วงน้ำหนักแบบเอ็กซ์โพเนนเชียลของอนุพันธ์เมื่อเวลาผ่านไป ซึ่งคล้ายกับโมเมนตัมในฟิสิกส์ บางครั้งโมเมนตัมอาจป้องกันไม่ให้การเรียนรู้ติดอยู่ในจุดต่ำสุดในพื้นที่

MT

#generativeAI

อักษรย่อของการแปลด้วยคอมพิวเตอร์

การจัดประเภทแบบหลายคลาส

#fundamentals

ในการเรียนรู้ที่มีการควบคุมดูแล ปัญหาการจัดประเภทซึ่งชุดข้อมูลมีป้ายกำกับคลาสมากกว่า 2 รายการ ตัวอย่างเช่น ป้ายกำกับในชุดข้อมูล Iris ต้องเป็นคลาสใดคลาสหนึ่งต่อไปนี้

  • Iris setosa
  • Iris virginica
  • Iris versicolor

โมเดลที่ฝึกจากชุดข้อมูล Iris ซึ่งคาดการณ์ประเภท Iris จากตัวอย่างใหม่จะทําการจัดประเภทแบบหลายคลาส

ในทางตรงกันข้าม ปัญหาการจัดประเภทที่แยกแยะระหว่างคลาส 2 คลาสเท่านั้นคือโมเดลการจัดประเภทแบบไบนารี เช่น โมเดลอีเมลที่คาดการณ์ว่าสแปมหรือไม่ใช่สแปมเป็นโมเดลการจัดประเภทแบบไบนารี

ในปัญหาการจัดกลุ่ม การจัดประเภทแบบหลายคลาสหมายถึงคลัสเตอร์มากกว่า 2 คลัสเตอร์

ดูข้อมูลเพิ่มเติมได้ที่เครือข่ายประสาท: การแยกประเภทหลายคลาสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การถดถอยแบบโลจิสติกหลายคลาส

การใช้การถดถอยเชิงโลจิสติกในปัญหาการจัดประเภทแบบหลายคลาส

การใส่ใจตนเองแบบหลายหัว

#language

ส่วนขยายของ Self-Attention ที่ใช้กลไก Self-Attention หลายครั้งสําหรับแต่ละตําแหน่งในลําดับอินพุต

Transformer เปิดตัวการใส่ใจตนเองแบบ Multi-Head

ปรับแต่งคำสั่งแบบหลายรูปแบบ

#language

โมเดลที่ปรับตามคำสั่งซึ่งสามารถประมวลผลอินพุตได้นอกเหนือจากข้อความ เช่น รูปภาพ วิดีโอ และเสียง

โมเดลหลายรูปแบบ

#language

โมเดลที่มีอินพุต เอาต์พุต หรือทั้ง 2 อย่างมีรูปแบบมากกว่า 1 รูปแบบ ตัวอย่างเช่น พิจารณาโมเดลที่ใช้ทั้งรูปภาพและคำบรรยายแทนเสียง (โมดาลิตี 2 รูปแบบ) เป็นฟีเจอร์ และแสดงผลคะแนนที่บ่งบอกความเหมาะสมของคำบรรยายแทนเสียงสำหรับรูปภาพ ดังนั้น อินพุตของโมเดลนี้คือแบบหลายโมดัลและเอาต์พุตเป็นแบบโมดัลเดียว

การจัดประเภทแบบหลายตัวแปร

คำพ้องความหมายของการจัดประเภทแบบหลายคลาส

การถดถอยแบบหลายตัวแปร

คำพ้องความหมายของการถดถอยแบบโลจิสติกหลายคลาส

ทำงานหลายอย่างพร้อมกัน

เทคนิคแมชชีนเลิร์นนิงที่ฝึกโมเดลเดียวให้ทํางานหลายอย่าง

โมเดลแบบมัลติทาสก์สร้างขึ้นโดยการฝึกด้วยข้อมูลที่เหมาะกับแต่ละงาน วิธีนี้ช่วยให้โมเดลเรียนรู้ที่จะแชร์ข้อมูลในหลายๆ งาน ซึ่งช่วยให้โมเดลเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้น

โมเดลที่ฝึกสำหรับงานหลายอย่างมักจะมีความสามารถในการสร้างข้อมูลทั่วไปที่ดีขึ้น และจัดการข้อมูลประเภทต่างๆ ได้อย่างมีประสิทธิภาพมากขึ้น

N

กับดัก NaN

เมื่อตัวเลขหนึ่งในโมเดลกลายเป็น NaN ระหว่างการฝึก ซึ่งทําให้ตัวเลขอื่นๆ จำนวนมากหรือทั้งหมดในโมเดลกลายเป็น NaN ในท้ายที่สุด

NaN คือตัวย่อของไม่ใช่ตัวเลข

การประมวลผลภาษาธรรมชาติ

#language
ศาสตร์ด้านการสอนคอมพิวเตอร์ให้ประมวลผลสิ่งที่ผู้ใช้พูดหรือพิมพ์โดยใช้กฎทางภาษา การประมวลผลภาษาธรรมชาติสมัยใหม่เกือบทั้งหมดอาศัยการเรียนรู้ของเครื่อง

ความเข้าใจภาษาธรรมชาติ

#language

กลุ่มย่อยของการประมวลผลภาษาธรรมชาติซึ่งระบุความตั้งใจของสิ่งที่พูดหรือพิมพ์ การทำความเข้าใจภาษาธรรมชาติทำได้มากกว่าการประมวลผลภาษาธรรมชาติ โดยพิจารณาแง่มุมที่ซับซ้อนของภาษา เช่น บริบท การสนทนาเชิงประชด และความรู้สึก

คลาสเชิงลบ

#fundamentals
#Metric

ในการจัดประเภทแบบไบนารี คลาสหนึ่งจะเรียกว่าบวก ส่วนอีกคลาสหนึ่งจะเรียกว่าลบ คลาสที่เป็นบวกคือสิ่งหรือเหตุการณ์ที่โมเดลกำลังทดสอบ และคลาสที่เป็นลบคือความเป็นไปได้อื่นๆ เช่น

  • คลาสเชิงลบในการทดสอบทางการแพทย์อาจเป็น "ไม่ใช่เนื้องอก"
  • คลาสเชิงลบในอีเมลโมเดลการจัดประเภทอาจเป็น "ไม่ใช่สแปม"

ตรงข้ามกับคลาสที่เป็นบวก

การสุ่มตัวอย่างเชิงลบ

ตรงกับการสุ่มตัวอย่างผู้สมัคร

Neural Architecture Search (NAS)

เทคนิคการออกแบบสถาปัตยกรรมของเครือข่ายประสาทเทียมโดยอัตโนมัติ อัลกอริทึมของ NAS สามารถลดเวลาและทรัพยากรที่จําเป็นในการฝึกโครงข่ายประสาทได้

โดยปกติแล้ว NAS จะใช้สิ่งต่อไปนี้

  • ขอบเขตการค้นหา ซึ่งเป็นชุดสถาปัตยกรรมที่เป็นไปได้
  • ฟังก์ชันฟิตเนส ซึ่งเป็นการวัดประสิทธิภาพของสถาปัตยกรรมหนึ่งๆ ในงานที่เฉพาะเจาะจง

อัลกอริทึมของ NAS มักเริ่มต้นด้วยสถาปัตยกรรมที่เป็นไปได้ชุดเล็กๆ และค่อยๆ ขยายขอบเขตการค้นหาเมื่ออัลกอริทึมเรียนรู้เพิ่มเติมเกี่ยวกับสถาปัตยกรรมที่มีประสิทธิภาพ โดยปกติแล้วฟังก์ชันฟิตเนสจะอิงตามประสิทธิภาพของสถาปัตยกรรมในชุดการฝึก และโดยทั่วไปแล้วอัลกอริทึมจะได้รับการเทรนโดยใช้เทคนิคการเรียนรู้ด้วยการทำซ้ำ

อัลกอริทึม NAS พิสูจน์แล้วว่ามีประสิทธิภาพในการค้นหาสถาปัตยกรรมที่มีประสิทธิภาพสูงสําหรับงานต่างๆ ซึ่งรวมถึงการจัดประเภทรูปภาพ การจัดประเภทข้อความ และการแปลด้วยคอมพิวเตอร์

โครงข่ายระบบประสาทเทียม

#fundamentals

โมเดลที่มีเลเยอร์ที่ซ่อนอยู่อย่างน้อย 1 เลเยอร์ โครงข่ายประสาทแบบลึกเป็นโครงข่ายประสาทประเภทหนึ่งที่มีชั้นที่ซ่อนอยู่มากกว่า 1 ชั้น เช่น แผนภาพต่อไปนี้แสดงเครือข่ายประสาทเทียมที่มีชั้นที่ซ่อนอยู่ 2 ชั้น

เครือข่ายประสาทที่มีชั้นอินพุต ชั้นซ่อน 2 ชั้น และชั้นเอาต์พุต

เซลล์ประสาทแต่ละเซลล์ในเครือข่ายประสาทจะเชื่อมต่อกับโหนดทั้งหมดในชั้นถัดไป ตัวอย่างเช่น ในแผนภาพก่อนหน้า โปรดสังเกตว่าเซลล์ประสาททั้ง 3 เซลล์ในเลเยอร์ซ่อนแรกเชื่อมต่อกับเซลล์ประสาททั้ง 2 เซลล์ในเลเยอร์ซ่อนที่สองแยกกัน

บางครั้งเราเรียกโครงข่ายประสาทที่ใช้ในคอมพิวเตอร์ว่าโครงข่ายประสาทเทียมเพื่อแยกความแตกต่างจากโครงข่ายประสาทที่พบในสมองและระบบประสาทอื่นๆ

เครือข่ายประสาทบางประเภทสามารถเลียนแบบความสัมพันธ์ที่ไม่ใช่เชิงเส้นที่ซับซ้อนมากระหว่างฟีเจอร์ต่างๆ กับป้ายกำกับ

ดูข้อมูลเพิ่มเติมได้ที่โครงข่ายประสาทแบบ Convolutive และโครงข่ายประสาทแบบ Recurrent

ดูข้อมูลเพิ่มเติมเกี่ยวกับเครือข่ายประสาทเทียมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เซลล์ประสาท

#fundamentals

ในแมชชีนเลิร์นนิง หมายถึงหน่วยที่แยกต่างหากภายในเลเยอร์ที่ซ่อนอยู่ของเครือข่ายประสาทเทียม เซลล์ประสาทแต่ละเซลล์จะทําการดําเนินการ 2 ขั้นตอนต่อไปนี้

  1. คํานวณผลรวมถ่วงน้ำหนักของค่าอินพุตที่คูณด้วยน้ำหนักที่สอดคล้องกัน
  2. ส่งผลรวมถ่วงน้ำหนักเป็นอินพุตให้กับฟังก์ชันการเปิดใช้งาน

เซลล์ประสาทในชั้นซ่อนแรกจะรับอินพุตจากค่าฟีเจอร์ในชั้นอินพุต เซลล์ประสาทในชั้นซ่อนใดๆ นอกเหนือจากชั้นแรกจะรับอินพุตจากเซลล์ประสาทในชั้นซ่อนก่อนหน้า เช่น เซลล์ประสาทในเลเยอร์ซ่อนที่สองจะรับอินพุตจากเซลล์ประสาทในเลเยอร์ซ่อนแรก

ภาพประกอบต่อไปนี้ไฮไลต์เซลล์ประสาท 2 เซลล์และอินพุตของเซลล์ประสาท

เครือข่ายประสาทที่มีชั้นอินพุต ชั้นซ่อน 2 ชั้น และชั้นเอาต์พุต มีไนรอน 2 ตัวที่ไฮไลต์อยู่ 1 ตัวในเลเยอร์ซ่อนแรกและอีก 1 ตัวในเลเยอร์ซ่อนที่สอง นิวรอนที่ไฮไลต์ในชั้นซ่อนแรกรับอินพุตจากทั้ง 2 ฟีเจอร์ในชั้นอินพุต เซลล์ประสาทที่ไฮไลต์ในชั้นซ่อนที่สองรับอินพุตจากเซลล์ประสาททั้ง 3 เซลล์ในชั้นซ่อนแรก

เซลล์ประสาทในโครงข่ายระบบประสาทเทียมจะเลียนแบบการทำงานของเซลล์ประสาทในสมองและส่วนอื่นๆ ของระบบประสาท

N-gram

#seq
#language

ลําดับคํา N รายการ เช่น truly madly เป็น 2-gram เนื่องจากลำดับคำมีความเกี่ยวข้อง madly truly จึงถือเป็น 2-gram ที่แตกต่างจาก truly madly

N ชื่อของ N-gram ประเภทนี้ ตัวอย่าง
2 Bigram หรือ 2-gram to go, go to, eat lunch, eat dinner
3 3-gram กินมากเกินไป อยู่กันอย่างมีความสุขตลอดไป เสียงระฆังดังก้อง
4 4-gram เดินเล่นในสวนสาธารณะ ฝุ่นในสายลม เด็กชายกินถั่วเลนทิล

โมเดลการทำความเข้าใจภาษาธรรมชาติจํานวนมากใช้ N-gram เพื่อคาดเดาคําถัดไปที่ผู้ใช้จะพิมพ์หรือพูด ตัวอย่างเช่น สมมติว่าผู้ใช้พิมพ์ happily ever โมเดล NLU ที่อิงตามไตรแกรมมีแนวโน้มที่จะคาดเดาว่าผู้ใช้จะพิมพ์คำว่า after เป็นคำถัดไป

เปรียบเทียบ N-gram กับถุงคำ ซึ่งเป็นชุดคำที่ไม่มีลําดับ

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

NLP

#language

ตัวย่อของการประมวลผลภาษาธรรมชาติ

NLU

#language

ตัวย่อของความเข้าใจภาษาธรรมชาติ

โหนด (แผนภูมิการตัดสินใจ)

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขหรือใบ

แผนภูมิการตัดสินใจที่มีเงื่อนไข 2 รายการและใบ 3 ใบ

ดูข้อมูลเพิ่มเติมได้ในแผนผังการตัดสินใจในหลักสูตรป่าการตัดสินใจ

โหนด (โครงข่ายประสาทเทียม)

#fundamentals

เซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่

ดูข้อมูลเพิ่มเติมเกี่ยวกับเครือข่ายประสาทเทียมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โหนด (กราฟ TensorFlow)

#TensorFlow

การดำเนินการในกราฟ TensorFlow

เสียงรบกวน

พูดอย่างกว้างๆ คือ สิ่งใดก็ตามที่ทำให้สัญญาณในชุดข้อมูลไม่ชัดเจน สัญญาณรบกวนอาจเกิดขึ้นในข้อมูลได้หลายวิธี เช่น

  • ผู้ให้คะแนนที่เป็นมนุษย์อาจติดป้ายกำกับผิดพลาด
  • มนุษย์และเครื่องมือบันทึกค่าองค์ประกอบไม่ถูกต้องหรือละเว้นค่าองค์ประกอบ

เงื่อนไขที่ไม่ใช่ไบนารี

#df

เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ ตัวอย่างเช่น เงื่อนไขที่ไม่ใช่แบบ 2 ค่าต่อไปนี้มีผลลัพธ์ที่เป็นไปได้ 3 รายการ

เงื่อนไข (number_of_legs = ?) ที่นําไปสู่ผลลัพธ์ที่เป็นไปได้ 3 รายการ ผลลัพธ์ 1 รายการ (number_of_legs = 8) นำไปสู่ใบไม้ที่มีชื่อว่าแมงมุม ผลลัพธ์ที่ 2 (number_of_legs = 4) นำไปสู่ใบชื่อ dog ผลลัพธ์ที่ 3 (number_of_legs = 2) นำไปสู่ใบไม้ชื่อ penguin

ดูข้อมูลเพิ่มเติมได้ในประเภทเงื่อนไขในหลักสูตรป่าการตัดสินใจ

nonlinear

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่ไม่สามารถแสดงได้โดยการบวกและการคูณเพียงอย่างเดียว ความสัมพันธ์แบบเชิงเส้นจะแสดงเป็นเส้นได้ ส่วนความสัมพันธ์แบบไม่เป็นเชิงเส้นจะแสดงเป็นเส้นไม่ได้ ตัวอย่างเช่น ลองพิจารณาโมเดล 2 รายการที่แต่ละโมเดลเชื่อมโยงฟีเจอร์เดียวกับป้ายกำกับเดียว โมเดลทางด้านซ้ายเป็นโมเดลเชิงเส้น ส่วนโมเดลทางด้านขวาเป็นโมเดลที่ไม่ใช่เชิงเส้น

ผัง 2 ผัง ผัง 1 ผังคือเส้น จึงเป็นความสัมพันธ์เชิงเส้น
          ผังอีกผังเป็นเส้นโค้ง แสดงว่าความสัมพันธ์นี้ไม่ใช่เชิงเส้น

ดูโครงข่ายระบบประสาทเทียม: โหนดและชั้นที่ซ่อนอยู่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อทดลองใช้ฟังก์ชันที่ไม่ใช่เชิงเส้นประเภทต่างๆ

อคติจากการไม่ตอบ

#fairness

ดูการเลือกแบบลำเอียง

ความไม่คงที่

#fundamentals

ฟีเจอร์ที่มีค่าเปลี่ยนแปลงไปตามมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักจะเป็นเวลา ตัวอย่างเช่น ลองดูตัวอย่างความไม่คงที่ต่อไปนี้

  • จำนวนชุดว่ายน้ำที่ขายในร้านค้าหนึ่งๆ จะแตกต่างกันไปตามฤดูกาล
  • จำนวนผลไม้ที่เก็บเกี่ยวในภูมิภาคหนึ่งๆ นั้นมีค่าเป็น 0 ตลอดทั้งปี แต่มีปริมาณมากในช่วงระยะเวลาสั้นๆ
  • อุณหภูมิเฉลี่ยรายปีมีการเปลี่ยนแปลงเนื่องจากการเปลี่ยนแปลงสภาพภูมิอากาศ

ตรงข้ามกับความคงที่

ไม่มีคำตอบที่ถูกต้อง (NORA)

#language
#generativeAI

พรอมต์ที่มีคำตอบที่เหมาะสมหลายรายการ ตัวอย่างเช่น พรอมต์ต่อไปนี้ไม่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว

เล่าเรื่องตลกเกี่ยวกับช้างให้ฟังหน่อย

การประเมินพรอมต์ที่ไม่มีคำตอบที่ถูกต้องอาจเป็นเรื่องยาก

NORA

#language
#generativeAI

ตัวย่อของคำตอบที่ถูกต้องไม่ได้มีเพียงคำตอบเดียว

การแปลงเป็นรูปแบบมาตรฐาน

#fundamentals

กล่าวโดยคร่าวๆ ก็คือ กระบวนการแปลงช่วงค่าจริงของตัวแปรเป็นช่วงค่ามาตรฐาน เช่น

  • -1 ถึง +1
  • 0 ถึง 1
  • คะแนนมาตรฐาน (ประมาณ -3 ถึง +3)

ตัวอย่างเช่น สมมติว่าช่วงค่าจริงของฟีเจอร์หนึ่งๆ คือ 800 ถึง 2,400 ในการปรับแต่งฟีเจอร์ คุณอาจทำให้ค่าจริงเป็นค่ามาตรฐานในขอบเขตมาตรฐาน เช่น -1 ถึง +1

การทำให้เป็นมาตรฐานเป็นงานที่พบได้ทั่วไปในการสร้างฟีเจอร์ โดยทั่วไปแล้ว โมเดลจะฝึกได้เร็วขึ้น (และให้การคาดการณ์ที่ดีขึ้น) เมื่อฟีเจอร์ตัวเลขทั้งหมดในเวกเตอร์ฟีเจอร์มีช่วงใกล้เคียงกัน

ดูข้อมูลเพิ่มเติมได้ที่การปรับมาตรฐานคะแนน z

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การทำให้ค่าเป็นมาตรฐานในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การตรวจหาสิ่งใหม่

กระบวนการพิจารณาว่าตัวอย่างใหม่ (ที่ไม่คุ้นเคย) มาจากชุดข้อมูลเดียวกันกับชุดข้อมูลการฝึกอบรมหรือไม่ กล่าวคือ หลังจากการฝึกชุดข้อมูล การตรวจหาข้อมูลใหม่จะระบุว่าตัวอย่างใหม่ (ระหว่างการอนุมานหรือระหว่างการฝึกเพิ่มเติม) เป็นค่าผิดปกติหรือไม่

ตรงข้ามกับการตรวจหาค่าผิดปกติ

ข้อมูลตัวเลข

#fundamentals

ฟีเจอร์ที่แสดงเป็นจำนวนเต็มหรือจำนวนจริง เช่น โมเดลการประเมินมูลค่าบ้านอาจแสดงขนาดบ้าน (เป็นตารางฟุตหรือตารางเมตร) เป็นข้อมูลตัวเลข การนำเสนอฟีเจอร์เป็นข้อมูลตัวเลขบ่งชี้ว่าค่าของฟีเจอร์มีความสัมพันธ์ทางคณิตศาสตร์กับป้ายกำกับ กล่าวคือ จํานวนตารางเมตรในบ้านอาจมีความสัมพันธ์ทางคณิตศาสตร์กับมูลค่าของบ้าน

ข้อมูลจำนวนเต็มบางรายการไม่ควรแสดงเป็นข้อมูลตัวเลข เช่น รหัสไปรษณีย์ในบางพื้นที่ของโลกเป็นจำนวนเต็ม แต่ไม่ควรแสดงรหัสไปรษณีย์ที่เป็นจำนวนเต็มเป็นข้อมูลตัวเลขในโมเดล นั่นเป็นเพราะรหัสไปรษณีย์ 20000 ไม่ได้มีประสิทธิภาพเป็น 2 เท่า (หรือครึ่งหนึ่ง) ของรหัสไปรษณีย์ 10000 นอกจากนี้ แม้ว่ารหัสไปรษณีย์ต่างๆ จะมีความเกี่ยวข้องกับมูลค่าอสังหาริมทรัพย์ที่แตกต่างกัน แต่เราไม่สามารถสรุปได้ว่ามูลค่าอสังหาริมทรัพย์ในรหัสไปรษณีย์ 20000 มีมูลค่าเป็น 2 เท่าของมูลค่าอสังหาริมทรัพย์ในรหัสไปรษณีย์ 10000 คุณควรแสดงรหัสไปรษณีย์เป็นข้อมูลเชิงหมวดหมู่แทน

บางครั้งเราจะเรียกฟีเจอร์ที่เป็นตัวเลขว่าฟีเจอร์ต่อเนื่อง

ดูข้อมูลเพิ่มเติมที่หัวข้อการทํางานกับข้อมูลตัวเลขในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

NumPy

ไลบรารีคณิตศาสตร์แบบโอเพนซอร์ส ที่ให้บริการการดำเนินการกับอาร์เรย์อย่างมีประสิทธิภาพใน Python pandas สร้างขึ้นจาก NumPy

O

วัตถุประสงค์

#Metric

เมตริกที่อัลกอริทึมพยายามเพิ่มประสิทธิภาพ

ฟังก์ชันวัตถุประสงค์

#Metric

สูตรทางคณิตศาสตร์หรือเมตริกที่โมเดลมีเป้าหมายเพื่อเพิ่มประสิทธิภาพ เช่น ฟังก์ชันวัตถุประสงค์สําหรับการประมาณเชิงเส้นมักจะเป็นความสูญเสียค่าเฉลี่ยสี่เหลี่ยมจัตุรัส ดังนั้น เมื่อฝึกโมเดลการถดถอยเชิงเส้น การฝึกจะมีเป้าหมายเพื่อลดค่าเฉลี่ยของผลต่างของค่าที่สังเกตได้กับค่าที่คาดการณ์ได้ (Mean Squared Loss)

ในบางกรณี เป้าหมายคือเพิ่มฟังก์ชันวัตถุประสงค์ให้มากที่สุด เช่น หากฟังก์ชันวัตถุประสงค์คือความถูกต้อง เป้าหมายคือเพื่อเพิ่มความแม่นยำสูงสุด

โปรดดูloss ด้วย

เงื่อนไขเอียง

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขที่เกี่ยวข้องกับฟีเจอร์มากกว่า 1 รายการ เช่น หากทั้งความสูงและความกว้างเป็นฟีเจอร์ เงื่อนไขแบบเอียงจะเป็นดังนี้

  height > width

ตรงข้ามกับเงื่อนไขที่สอดคล้องกับแกน

ดูข้อมูลเพิ่มเติมได้ในประเภทเงื่อนไขในหลักสูตรป่าการตัดสินใจ

ออฟไลน์

#fundamentals

คำพ้องความหมายของ static

การอนุมานแบบออฟไลน์

#fundamentals

กระบวนการที่โมเดลสร้างการคาดการณ์เป็นกลุ่ม แล้วแคช (บันทึก) การคาดการณ์เหล่านั้น จากนั้นแอปจะเข้าถึงการคาดการณ์ที่อิงตามข้อมูลที่มีอยู่จากแคชได้โดยไม่ต้องเรียกใช้โมเดลอีกครั้ง

ตัวอย่างเช่น พิจารณาโมเดลที่สร้างการพยากรณ์อากาศในพื้นที่ (การคาดการณ์) ทุก 4 ชั่วโมง หลังจากการเรียกใช้แต่ละโมเดล ระบบจะแคชการคาดการณ์สภาพอากาศในพื้นที่ทั้งหมด แอปสภาพอากาศจะดึงข้อมูลพยากรณ์อากาศจากแคช

การคํานวณผลลัพธ์แบบออฟไลน์เรียกอีกอย่างว่าการคํานวณผลลัพธ์แบบคงที่

ตรงข้ามกับการอนุมานออนไลน์

ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML เวอร์ชันที่ใช้งานจริง: การอนุมานแบบคงที่เทียบกับการอนุมานแบบไดนามิกในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเข้ารหัสแบบฮอตเดียว

#fundamentals

การนำเสนอข้อมูลเชิงหมวดหมู่เป็นเวกเตอร์โดยที่

  • องค์ประกอบหนึ่งตั้งค่าเป็น 1
  • ส่วนองค์ประกอบอื่นๆ ทั้งหมดจะตั้งค่าเป็น 0

โดยทั่วไปแล้ว การเข้ารหัสแบบฮอตเดียวจะใช้เพื่อแสดงสตริงหรือตัวระบุที่มีชุดค่าที่เป็นไปได้แบบจํากัด ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ Scandinavia มีค่าที่เป็นไปได้ 5 ค่า ดังนี้

  • "เดนมาร์ก"
  • "สวีเดน"
  • "นอร์เวย์"
  • "ฟินแลนด์"
  • "ไอซ์แลนด์"

การโค้ด One-Hot อาจแสดงค่า 5 ค่าแต่ละค่าดังนี้

country เวกเตอร์
"เดนมาร์ก" 1 0 0 0 0
"สวีเดน" 0 1 0 0 0
"นอร์เวย์" 0 0 1 0 0
"ฟินแลนด์" 0 0 0 1 0
"ไอซ์แลนด์" 0 0 0 0 1

การเข้ารหัสแบบฮอตเวิร์กช่วยให้โมเดลเรียนรู้การเชื่อมต่อต่างๆ ตามแต่ละประเทศทั้ง 5 ประเทศ

การนำเสนอฟีเจอร์เป็นข้อมูลตัวเลขเป็นทางเลือกแทนการเข้ารหัสแบบฮอตเดียว ขออภัย การแสดงประเทศสแกนดิเนเวียด้วยตัวเลขไม่ใช่ตัวเลือกที่ดี ตัวอย่างเช่น ลองพิจารณาการแสดงตัวเลขต่อไปนี้

  • "เดนมาร์ก" คือ 0
  • "สวีเดน" คือ 1
  • "นอร์เวย์" คือ 2
  • "ฟินแลนด์" คือ 3
  • "ไอซ์แลนด์" คือ 4

เมื่อใช้การเข้ารหัสตัวเลข โมเดลจะตีความตัวเลขดิบทางคณิตศาสตร์และพยายามฝึกด้วยตัวเลขเหล่านั้น อย่างไรก็ตาม ไอซ์แลนด์ไม่ได้มีประชากรเป็น 2 เท่า (หรือครึ่งหนึ่งของ) นอร์เวย์ ดังนั้นโมเดลจึงให้ผลสรุปที่แปลกประหลาด

ดูข้อมูลเพิ่มเติมได้ในข้อมูลเชิงหมวดหมู่: พจนานุกรมและการเข้ารหัสแบบฮอตเวิร์กในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเรียนรู้แบบครั้งเดียว

แนวทางแมชชีนเลิร์นนิงที่มักใช้สำหรับการแยกประเภทวัตถุ ซึ่งออกแบบมาเพื่อเรียนรู้โมเดลการจัดประเภทที่มีประสิทธิภาพจากตัวอย่างการฝึกเพียงรายการเดียว

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบตัวอย่างน้อย และการเรียนรู้แบบไม่ใช้ตัวอย่าง

One-Shot Prompting

#language
#generativeAI

พรอมต์ที่มีตัวอย่างรายการเดียวซึ่งแสดงวิธีที่โมเดลภาษาขนาดใหญ่ควรตอบกลับ ตัวอย่างเช่น พรอมต์ต่อไปนี้มีตัวอย่าง 1 รายการที่แสดงวิธีที่โมเดลภาษาขนาดใหญ่ควรตอบคำถาม

ส่วนต่างๆ ของพรอมต์ 1 รายการ หมายเหตุ
สกุลเงินทางการของประเทศที่ระบุคืออะไร คำถามที่คุณต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR ตัวอย่างหนึ่ง
อินเดีย: คําค้นหาจริง

เปรียบเทียบพรอมต์แบบยิงครั้งเดียวกับเงื่อนไขต่อไปนี้

แบบหนึ่งเทียบกับทั้งหมด

#fundamentals

เมื่อพิจารณาปัญหาการจัดประเภทที่มี N คลาส โซลูชันจะประกอบด้วย ตัวแยกประเภทแบบไบนารีแยกกัน N ตัว โดยตัวแยกประเภทแบบไบนารี 1 ตัวสําหรับผลลัพธ์ที่เป็นไปได้แต่ละรายการ ตัวอย่างเช่น เมื่อพิจารณาโมเดลที่จัดประเภทตัวอย่างเป็นสัตว์ ผัก หรือแร่ธาตุ โซลูชันแบบหนึ่งเทียบกับทั้งหมดจะให้ตัวแยกประเภทไบนารีแยกกัน 3 รายการต่อไปนี้

  • สัตว์กับไม่ใช่สัตว์
  • ผักกับไม่ใช่ผัก
  • แร่ธาตุกับไม่ใช่แร่ธาตุ

ออนไลน์

#fundamentals

คำพ้องความหมายของแบบไดนามิก

การให้เหตุผลออนไลน์

#fundamentals

สร้างการคาดการณ์ตามคําขอ ตัวอย่างเช่น สมมติว่าแอปส่งอินพุตไปยังโมเดลและส่งคําขอการคาดการณ์ ระบบที่ใช้การอนุมานออนไลน์จะตอบสนองต่อคําขอด้วยการดำเนินการกับโมเดล (และแสดงการคาดการณ์ไปยังแอป)

ตรงข้ามกับการอนุมานแบบออฟไลน์

ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML เวอร์ชันที่ใช้งานจริง: การอนุมานแบบคงที่เทียบกับการอนุมานแบบไดนามิกในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การดำเนินการ (op)

#TensorFlow

ใน TensorFlow หมายถึงกระบวนการใดๆ ที่สร้าง ดัดแปลง หรือทำลาย Tensor เช่น การคูณเมทริกซ์เป็นการดำเนินการที่ใช้ Tensor 2 รายการเป็นอินพุตและสร้าง Tensor 1 รายการเป็นเอาต์พุต

Optax

ไลบรารีการประมวลผลและการเพิ่มประสิทธิภาพของ Gradient สำหรับ JAX Optax ช่วยให้การวิจัยง่ายขึ้นด้วยองค์ประกอบพื้นฐานที่นำมารวมกันใหม่ได้โดยใช้วิธีที่กำหนดเองเพื่อเพิ่มประสิทธิภาพโมเดลแบบพารามิเตอร์ เช่น เครือข่ายประสาทเทียม เป้าหมายอื่นๆ ได้แก่

  • การติดตั้งใช้งานคอมโพเนนต์หลักที่อ่านง่าย ผ่านการทดสอบอย่างดี และมีประสิทธิภาพ
  • ปรับปรุงประสิทธิภาพการทำงานด้วยความสามารถในการรวมคอมโพเนนต์ระดับล่างเข้าด้วยกันเป็นเครื่องมือเพิ่มประสิทธิภาพที่กำหนดเอง (หรือคอมโพเนนต์การประมวลผลแบบลาดอื่นๆ)
  • เร่งการนำแนวคิดใหม่ๆ มาใช้โดยทำให้ทุกคนมีส่วนร่วมได้อย่างง่ายดาย

เครื่องมือเพิ่มประสิทธิภาพ

การใช้งานอัลกอริทึมการลดเชิงลาดโดยเฉพาะ เครื่องมือเพิ่มประสิทธิภาพยอดนิยม ได้แก่

  • AdaGrad ซึ่งย่อมาจาก ADAptive GRADient descent
  • Adam ซึ่งย่อมาจาก ADAptive with Momentum

อคติความเป็นเอกภาพของกลุ่มนอก

#fairness

แนวโน้มที่จะเห็นว่าสมาชิกนอกกลุ่มมีความคล้ายคลึงกันมากกว่าสมาชิกในกลุ่มเมื่อเปรียบเทียบทัศนคติ ค่านิยม ลักษณะบุคลิก และลักษณะอื่นๆ กลุ่มในหมายถึงคนที่คุณโต้ตอบด้วยเป็นประจำ ส่วนกลุ่มนอกหมายถึงคนที่คุณไม่ได้โต้ตอบด้วยเป็นประจำ หากคุณสร้างชุดข้อมูลโดยขอให้ผู้คนระบุแอตทริบิวต์เกี่ยวกับกลุ่มนอก แอตทริบิวต์เหล่านั้นอาจมีความซับซ้อนน้อยกว่าและเป็นไปตามแบบแผนมากกว่าแอตทริบิวต์ที่ผู้เข้าร่วมระบุสำหรับบุคคลในกลุ่มของตน

เช่น ชาวลิลลี่พูตอาจอธิบายบ้านของชาวลิลลี่พูตคนอื่นๆ อย่างละเอียด โดยกล่าวถึงความแตกต่างเล็กๆ น้อยๆ ในสไตล์สถาปัตยกรรม หน้าต่าง ประตู และขนาด อย่างไรก็ตาม ชาวลิลลี่พูตินคนเดียวกันอาจประกาศว่าชาวบราบิงแน็กทุกคนอาศัยอยู่ในบ้านที่เหมือนกัน

ความลำเอียงด้านความเหมือนกันของกลุ่มนอกเป็นรูปแบบของความลำเอียงในการระบุแหล่งที่มาของกลุ่ม

โปรดดูอคติที่มีต่อคนในกลุ่มด้วย

การตรวจหาค่าผิดปกติ

กระบวนการระบุค่าผิดปกติในชุดข้อมูลการฝึก

ตรงข้ามกับการตรวจหาเนื้อหาใหม่

ค่าผิดปกติ

ค่าที่อยู่ห่างจากค่าอื่นๆ ส่วนใหญ่ ในแมชชีนเลิร์นนิง ค่าต่อไปนี้ถือเป็นค่าผิดปกติ

  • ข้อมูลอินพุตที่มีค่ามากกว่าส่วนเบี่ยงเบนมาตรฐานประมาณ 3 เท่าจากค่าเฉลี่ย
  • น้ำหนักที่มีค่าสัมบูรณ์สูง
  • ค่าที่คาดการณ์ไว้อยู่ห่างจากค่าจริงค่อนข้างมาก

ตัวอย่างเช่น สมมติว่า widget-price เป็นฟีเจอร์ของบางรุ่น สมมติว่าค่าเฉลี่ย widget-price คือ 7 ยูโรและค่าเบี่ยงเบนมาตรฐานคือ 1 ยูโร ตัวอย่างที่มี widget-price เป็น 12 ยูโรหรือ 2 ยูโรจึงจะถือว่าเป็นค่าผิดปกติ เนื่องจากราคาแต่ละรายการดังกล่าวอยู่ห่างจากค่าเฉลี่ย 5 ค่าเบี่ยงเบนมาตรฐาน

ค่าที่ผิดปกติมักเกิดจากการพิมพ์ผิดหรือข้อผิดพลาดอื่นๆ ในการป้อนข้อมูล ในบางกรณี ค่าที่ผิดปกติไม่ใช่ข้อผิดพลาด เนื่องจากค่าที่เบี่ยงเบนมาตรฐาน 5 เท่าจากค่าเฉลี่ยนั้นเกิดขึ้นได้น้อยมาก แต่ก็ไม่ใช่ว่าจะเกิดขึ้นไม่ได้

ค่าที่ผิดปกติมักทำให้เกิดปัญหาในการฝึกโมเดล การตัดเป็นหนึ่งในวิธีจัดการค่าที่ผิดปกติ

ดูข้อมูลเพิ่มเติมที่หัวข้อการทํางานกับข้อมูลตัวเลขในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การประเมินนอกกลุ่ม (การประเมิน OOB)

#df

กลไกในการประเมินคุณภาพของป่าการตัดสินใจโดยทดสอบแผนผังการตัดสินใจแต่ละรายการกับตัวอย่าง ที่ไม่ได้ใช้ระหว่างการฝึกแผนผังการตัดสินใจนั้น ตัวอย่างเช่น ในแผนภาพต่อไปนี้ โปรดสังเกตว่าระบบจะฝึกต้นไม้การตัดสินใจแต่ละต้นโดยใช้ตัวอย่างประมาณ 2 ใน 3 รายการ จากนั้นจะประเมินกับตัวอย่างที่เหลืออีก 1 ใน 3

ป่าการตัดสินใจที่ประกอบด้วยแผนผังการตัดสินใจ 3 แผน
          แผนผังการตัดสินใจ 1 รายการจะฝึกจากตัวอย่าง 2 ใน 3 รายการ แล้วใช้อีก 1 ใน 3 ที่เหลือเพื่อการประเมิน OOB
          แผนผังการตัดสินใจที่ 2 จะฝึกด้วยตัวอย่าง 2 ใน 3 รายการที่แตกต่างจากแผนผังการตัดสินใจก่อนหน้า จากนั้นจะใช้ 1 ใน 3 รายการที่แตกต่างจากแผนผังการตัดสินใจก่อนหน้าสําหรับการประเมิน OOB

การประเมิน Out-of-bag คือการประมาณแบบอนุรักษ์นิยมที่มีประสิทธิภาพในการประมวลผลของกลไกการทดสอบไขว้ ในการทดสอบไขว้ ระบบจะฝึกโมเดล 1 โมเดลในแต่ละรอบการทดสอบไขว้ (เช่น ฝึกโมเดล 10 โมเดลในการทดสอบไขว้ 10 เท่า) เมื่อใช้การประเมินนอกกลุ่ม ระบบจะฝึกโมเดลเดียว เนื่องจากการแบ่งกลุ่มจะเก็บข้อมูลบางส่วนจากต้นไม้แต่ละต้นไว้ในระหว่างการฝึก การประเมิน OOB จึงใช้ข้อมูลดังกล่าวเพื่อประมาณการทดสอบไขว้ได้

ดูข้อมูลเพิ่มเติมที่การประเมินแบบ Out-of-bag ในหลักสูตรป่าการตัดสินใจ

เลเยอร์เอาต์พุต

#fundamentals

เลเยอร์ "สุดท้าย" ของโครงข่ายระบบประสาทเทียม เลเยอร์เอาต์พุตมีการคาดการณ์

ภาพต่อไปนี้แสดงโครงข่ายประสาทแบบลึกขนาดเล็กที่มีชั้นอินพุต ชั้นซ่อน 2 ชั้น และชั้นเอาต์พุต

เครือข่ายประสาทที่มีชั้นอินพุต 1 ชั้น ชั้นที่ซ่อนอยู่ 2 ชั้น และชั้นเอาต์พุต 1 ชั้น เลเยอร์อินพุตประกอบด้วยองค์ประกอบ 2 อย่าง เลเยอร์ซ่อนแรกประกอบด้วยนิวรอน 3 ตัว และเลเยอร์ซ่อนที่สองประกอบด้วยนิวรอน 2 ตัว เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

Overfitting

#fundamentals

การสร้างโมเดลที่ตรงกับข้อมูลการฝึกอย่างใกล้ชิดมากจนโมเดลไม่สามารถคาดการณ์ข้อมูลใหม่ได้อย่างถูกต้อง

การปรับให้เหมาะสมจะช่วยลดการประมาณที่มากเกินไปได้ การฝึกด้วยชุดข้อมูลขนาดใหญ่และหลากหลายยังช่วยลดการจับคู่ที่มากเกินไปได้อีกด้วย

การประมาณที่มากเกินไปก็เหมือนกับการทําตามคําแนะนําจากครูคนโปรดอย่างเคร่งครัด คุณอาจประสบความสำเร็จในชั้นเรียนของครูคนนั้น แต่คุณอาจ "ปรับให้เข้ากับ" แนวคิดของครูมากเกินไปและประสบปัญหาในชั้นเรียนอื่นๆ การฟังคำแนะนำจากครูหลายท่านจะช่วยให้คุณปรับตัวเข้ากับสถานการณ์ใหม่ๆ ได้ดีขึ้น


ดูข้อมูลเพิ่มเติมได้ที่การประมาณมากเกินไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

oversampling

การใช้ตัวอย่างคลาสที่มีจำนวนน้อยซ้ำในชุดข้อมูลที่คลาสไม่สมดุลเพื่อสร้างชุดข้อมูลการฝึกที่สมดุลมากขึ้น

ตัวอย่างเช่น พิจารณาปัญหาการจัดประเภทแบบ 2 กลุ่ม ซึ่งมีอัตราส่วนของคลาสส่วนใหญ่ต่อคลาสส่วนน้อยคือ 5,000:1 หากชุดข้อมูลมีตัวอย่าง 1 ล้านรายการ ชุดข้อมูลจะมีตัวอย่างของคลาสที่น้อยเพียงประมาณ 200 รายการ ซึ่งอาจน้อยเกินไปสำหรับการฝึกที่มีประสิทธิภาพ หากต้องการแก้ปัญหานี้ คุณอาจต้องสุ่มตัวอย่างมากเกินไป (นําตัวอย่างมาใช้ซ้ำ) 200 รายการหลายครั้ง ซึ่งอาจให้ตัวอย่างที่เพียงพอสําหรับการฝึกที่เป็นประโยชน์

คุณต้องระวังการประมาณที่มากเกินไปเมื่อสุ่มตัวอย่างมากเกินไป

ตรงข้ามกับการสุ่มตัวอย่างที่ต่ำ

P

ข้อมูลที่แพ็กไว้

แนวทางการจัดเก็บข้อมูลที่มีประสิทธิภาพมากขึ้น

ข้อมูลที่แพ็กจะจัดเก็บข้อมูลโดยใช้รูปแบบที่บีบอัดหรือด้วยวิธีอื่นๆ ที่ช่วยให้เข้าถึงข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น ข้อมูลที่แพ็กจะลดปริมาณหน่วยความจําและการคํานวณที่จําเป็นในการเข้าถึง ซึ่งทําให้การฝึกเร็วขึ้นและการอนุมานโมเดลมีประสิทธิภาพมากขึ้น

ข้อมูลที่แพ็กมักใช้ร่วมกับเทคนิคอื่นๆ เช่น การเพิ่มข้อมูลและการปรับให้เหมาะสม ซึ่งช่วยปรับปรุงประสิทธิภาพของโมเดลให้ดียิ่งขึ้น

แพนด้า

#fundamentals

API การวิเคราะห์ข้อมูลที่มุ่งเน้นคอลัมน์ซึ่งสร้างขึ้นจาก numpy เฟรมเวิร์กแมชชีนเลิร์นนิงจํานวนมาก รวมถึง TensorFlow รองรับโครงสร้างข้อมูล pandas เป็นอินพุต ดูรายละเอียดได้ในเอกสารประกอบของ pandas

พารามิเตอร์

#fundamentals

น้ำหนักและค่ากําหนดที่โมเดลเรียนรู้ระหว่างการฝึก เช่น ในรูปแบบการถดถอยเชิงเส้น พารามิเตอร์ประกอบด้วยค่าอคติ (b) และน้ำหนักทั้งหมด (w1, w2 และอื่นๆ) ในสูตรต่อไปนี้

y=b+w1x1+w2x2+wnxn

ในทางตรงกันข้าม ไฮเปอร์พารามิเตอร์คือค่าที่คุณ (หรือบริการการปรับแต่งไฮเปอร์พารามิเตอร์) ระบุให้กับโมเดล เช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์

การปรับแต่งที่มีประสิทธิภาพในแง่พารามิเตอร์

#language
#generativeAI

ชุดเทคนิคในการปรับแต่งโมเดลภาษาที่ผ่านการฝึกล่วงหน้า (PLM) ขนาดใหญ่อย่างมีประสิทธิภาพมากกว่าการปรับแต่งแบบเต็ม การปรับแต่งแบบประหยัดพารามิเตอร์มักจะปรับแต่งพารามิเตอร์น้อยกว่าการปรับแต่งแบบเต็ม แต่โดยทั่วไปจะสร้างโมเดลภาษาขนาดใหญ่ที่มีประสิทธิภาพดี (หรือเกือบจะดีเท่า) กับโมเดลภาษาขนาดใหญ่ที่สร้างจากการปรับแต่งแบบเต็ม

เปรียบเทียบการปรับแต่งแบบมีประสิทธิภาพของพารามิเตอร์กับสิ่งต่อไปนี้

การปรับแต่งที่มีประสิทธิภาพของพารามิเตอร์เรียกอีกอย่างว่าการปรับแต่งอย่างละเอียดที่มีประสิทธิภาพของพารามิเตอร์

เซิร์ฟเวอร์พารามิเตอร์ (PS)

#TensorFlow

งานที่จะติดตามพารามิเตอร์ของโมเดลในสภาพแวดล้อมแบบกระจาย

การอัปเดตพารามิเตอร์

การดำเนินการปรับพารามิเตอร์ของโมเดลระหว่างการฝึก โดยปกติจะอยู่ในรอบเดียวของการลดเชิงลาด

อนุพันธ์ย่อย

อนุพันธ์ที่ถือว่าตัวแปรทั้งหมดยกเว้น 1 รายการเป็นค่าคงที่ เช่น อนุพันธ์บางส่วนของ f(x, y) เทียบกับ x คืออนุพันธ์ของ f ที่พิจารณาว่าเป็นฟังก์ชันของ x เพียงอย่างเดียว (นั่นคือ รักษา y ให้คงที่) ส่วนต่างย่อยของ f เทียบกับ x จะมุ่งเน้นที่การเปลี่ยนแปลงของ x เท่านั้น และละเว้นตัวแปรอื่นๆ ทั้งหมดในสมการ

อคติในการเข้าร่วม

#fairness

ตรงกับคําว่าอคติที่ไม่ตอบ ดูการเลือกแบบลำเอียง

กลยุทธ์การแบ่งพาร์ติชัน

อัลกอริทึมที่ใช้แบ่งตัวแปรในเซิร์ฟเวอร์พารามิเตอร์

ผ่านที่ k (pass@k)

#Metric

เมตริกสำหรับพิจารณาคุณภาพของโค้ด (เช่น Python) ที่โมเดลภาษาขนาดใหญ่สร้างขึ้น กล่าวอย่างเจาะจงคือ "ผ่านที่ k" จะบอกความเป็นไปได้ที่บล็อกโค้ดที่สร้างขึ้นอย่างน้อย 1 บล็อกจากบล็อกโค้ดที่สร้างขึ้น k บล็อกจะผ่านการทดสอบ 1 หน่วยทั้งหมด

โมเดลภาษาขนาดใหญ่มักสร้างโค้ดที่ดีสำหรับปัญหาการเขียนโปรแกรมที่ซับซ้อนได้ยาก วิศวกรซอฟต์แวร์ปรับตัวให้เข้ากับปัญหานี้โดยกระตุ้นให้โมเดลภาษาขนาดใหญ่สร้างโซลูชันหลายรายการ (k) สำหรับปัญหาเดียวกัน จากนั้นวิศวกรซอฟต์แวร์จะทดสอบโซลูชันแต่ละรายการกับการทดสอบ 1 หน่วย การคํานวณการผ่านที่ k ขึ้นอยู่กับผลลัพธ์ของการทดสอบหน่วยดังนี้

  • หากวิธีแก้ปัญหาเหล่านั้นอย่างน้อย 1 วิธีผ่านการทดสอบหน่วย LLM จะผ่านการทดสอบการสร้างโค้ด
  • หากไม่มีโซลูชันใดผ่านการทดสอบยูนิต LLM จะไม่ผ่านภารกิจการสร้างโค้ด

สูตรสําหรับการผ่านที่ k มีดังนี้

pass at k=total number of passestotal number of challenges

โดยทั่วไป ค่า k ที่สูงขึ้นจะให้คะแนนผ่านที่สูงกว่าที่คะแนน k อย่างไรก็ตาม ค่า k ที่สูงขึ้นต้องใช้ทรัพยากรโมเดลภาษาขนาดใหญ่และการทดสอบหน่วยมากขึ้น

สมมติว่าวิศวกรซอฟต์แวร์ขอให้โมเดลภาษาขนาดใหญ่สร้างโซลูชัน k=10 รายการสําหรับปัญหาการเขียนโค้ดที่ยาก n=50 รายการ ผลลัพธ์มีดังนี้

  • บัตร 30 ใบ
  • ไม่ผ่าน 20 ครั้ง

คะแนนผ่านที่ 10 จึงเท่ากับ

pass at 10=3050=0.6

Pax

เฟรมเวิร์กการเขียนโปรแกรมที่ออกแบบมาเพื่อฝึกโมเดลโครงข่ายระบบประสาทเทียมขนาดใหญ่มากจนครอบคลุม TPU ชิปเร่งความเร็ว ส่วน หรือพ็อด หลายรายการ

Pax สร้างขึ้นจาก Flax ซึ่งสร้างขึ้นจาก JAX

แผนภาพแสดงตําแหน่งของ Pax ในกองซอฟต์แวร์
          Pax สร้างขึ้นจาก JAX Pax ประกอบด้วย 3 เลเยอร์ เลเยอร์ด้านล่างประกอบด้วย TensorStore และ Flax
          เลเยอร์กลางประกอบด้วย Optax และ Flaxformer เลเยอร์ด้านบนมีไลบรารีการประมาณของ Praxis Fiddle สร้างขึ้นจาก Pax

เพอร์เซปตรอน

ระบบ (ฮาร์ดแวร์หรือซอฟต์แวร์) ที่ใช้ค่าอินพุตอย่างน้อย 1 ค่า เรียกใช้ฟังก์ชันกับผลรวมถ่วงน้ำหนักของอินพุต และคำนวณค่าเอาต์พุตเดียว ในแมชชีนเลิร์นนิง ฟังก์ชันมักจะไม่เป็นเชิงเส้น เช่น ReLU, sigmoid หรือ tanh ตัวอย่างเช่น เพอร์เซปตรอนต่อไปนี้ใช้ฟังก์ชัน Sigmoid เพื่อประมวลผลค่าอินพุต 3 ค่า

f(x1,x2,x3)=sigmoid(w1x1+w2x2+w3x3)

ในภาพประกอบต่อไปนี้ Perceptron จะรับอินพุต 3 รายการ โดยแต่ละรายการจะได้รับการแก้ไขโดยน้ำหนักก่อนที่จะเข้าสู่ Perceptron

เพอร์เซปตรอนที่รับอินพุต 3 รายการ โดยแต่ละรายการจะคูณด้วยน้ำหนักแยกกัน เพอร์เซปตรอนจะแสดงผลค่าเดียว

เพอร์เซปตรอนคือเซลล์ประสาทในโครงข่ายประสาทเทียม

การแสดง

#Metric

คําที่มีความหมายหลายอย่างดังนี้

  • ความหมายมาตรฐานในวิศวกรรมซอฟต์แวร์ กล่าวคือ ซอฟต์แวร์นี้ทำงานได้เร็ว (หรือมีประสิทธิภาพ) เพียงใด
  • ความหมายในแมชชีนเลิร์นนิง ประสิทธิภาพจะตอบคำถามที่ว่าโมเดลนี้ถูกต้องเพียงใด กล่าวคือ การคาดการณ์ของโมเดลมีประสิทธิภาพเพียงใด

ความสําคัญของตัวแปรการจัดเรียงสับเปลี่ยน

#df
#Metric

ความสำคัญของตัวแปรประเภทหนึ่งที่ประเมินการเพิ่มขึ้นของข้อผิดพลาดในการคาดการณ์ของโมเดลหลังจากการสับเปลี่ยนค่าของฟีเจอร์ ความสำคัญของตัวแปรการสับเปลี่ยนเป็นเมตริกที่ไม่ขึ้นอยู่กับรูปแบบ

ความงงงวย

#Metric

หนึ่งในตัวชี้วัดว่าโมเดลทํางานได้ดีเพียงใด เช่น สมมติว่างานของคุณคืออ่านตัวอักษร 2-3 ตัวแรกของคำที่ผู้ใช้พิมพ์ในแป้นพิมพ์โทรศัพท์ และแสดงรายการคำที่เป็นไปได้ซึ่งเติมเต็มได้ ความสับสน P สําหรับงานนี้คือจํานวนการคาดเดาโดยประมาณที่คุณต้องเสนอเพื่อให้รายการของคุณมีคําที่ผู้ใช้พยายามพิมพ์

ความกำกวมเกี่ยวข้องกับCross-Entropy ดังนี้

P=2cross entropy

ไปป์ไลน์

โครงสร้างพื้นฐานรอบๆ อัลกอริทึมแมชชีนเลิร์นนิง ไปป์ไลน์ประกอบด้วยการเก็บรวบรวมข้อมูล ใส่ข้อมูลลงในไฟล์ข้อมูลการฝึก ฝึกโมเดลอย่างน้อย 1 รายการ และส่งออกโมเดลไปยังเวอร์ชันที่ใช้งานจริง

ดูข้อมูลเพิ่มเติมได้ในไปป์ไลน์ ML ในหลักสูตรการจัดการโปรเจ็กต์ ML

การจัดลําดับ

#language

รูปแบบการทํางานแบบขนานของโมเดล ซึ่งการประมวลผลของโมเดลจะแบ่งออกเป็นระยะๆ ต่อเนื่องกันและแต่ละระยะจะทํางานในอุปกรณ์เครื่องอื่น ขณะที่ระยะหนึ่งกำลังประมวลผลกลุ่มหนึ่ง ระยะก่อนหน้าจะประมวลผลกลุ่มถัดไปได้

โปรดดูการฝึกอบรมแบบเป็นขั้นด้วย

pjit

ฟังก์ชัน JAX ที่แยกโค้ดให้ทำงานในชิปเร่งหลายตัว ผู้ใช้ส่งฟังก์ชันไปยัง pjit ซึ่งจะแสดงผลฟังก์ชันที่มีความหมายที่เทียบเท่า แต่คอมไพล์เป็นการคำนวณ XLA ที่ทำงานในอุปกรณ์หลายเครื่อง (เช่น GPU หรือแกน TPU)

pjit ช่วยให้ผู้ใช้สามารถแยกการประมวลผลได้โดยไม่ต้องเขียนใหม่โดยใช้โปรแกรมแบ่งพาร์ติชัน SPMD

ตั้งแต่เดือนมีนาคม 2023 pjit ได้รวมเข้ากับ jit แล้ว ดูรายละเอียดเพิ่มเติมได้ในหัวข้ออาร์เรย์แบบกระจายและการทำงานแบบขนานอัตโนมัติ

PLM

#language
#generativeAI

ตัวย่อของโมเดลภาษาที่ฝึกล่วงหน้า

pmap

ฟังก์ชัน JAX ที่ดำเนินการกับสำเนาของฟังก์ชันอินพุตในอุปกรณ์ฮาร์ดแวร์ที่เกี่ยวข้องหลายเครื่อง (CPU, GPU หรือ TPU) ที่มีค่าอินพุตต่างกัน pmap อาศัย SPMD

policy

#rl

ในการเรียนรู้ด้วยการทำซ้ำ การแมปแบบมีแนวโน้มของเอเจนต์จากสถานะไปยังการดำเนินการ

การรวม

#image

การลดเมทริกซ์ (หรือเมทริกซ์) ที่สร้างขึ้นโดยชั้น Conv ก่อนหน้าให้เป็นเมทริกซ์ขนาดเล็กลง โดยปกติแล้วการรวมกลุ่มจะเกี่ยวข้องกับการนำค่าสูงสุดหรือค่าเฉลี่ยจากพื้นที่ที่รวม ตัวอย่างเช่น สมมติว่าเรามีเมทริกซ์ 3x3 ต่อไปนี้

เมทริกซ์ 3x3 ของ [[5,3,1], [8,2,5], [9,4,3]]

การดำเนินการรวมกลุ่มจะแบ่งเมทริกซ์ออกเป็นส่วนๆ เช่นเดียวกับการดำเนินการ Conv จากนั้นจะเลื่อนการดำเนินการ Conv นั้นตามระยะ ตัวอย่างเช่น สมมติว่าการดำเนินการการรวมจะแบ่งเมทริกซ์การกรองย่อยออกเป็นส่วนๆ ขนาด 2x2 ที่มีระยะ 1x1 ดังที่แผนภาพต่อไปนี้แสดง การดำเนินการรวมมี 4 รายการ ลองจินตนาการว่าการดำเนินการรวมแต่ละรายการจะเลือกค่าสูงสุดของ 4 รายการในส่วนนั้นๆ

เมทริกซ์อินพุตคือ 3x3 ที่มีค่า [[5,3,1], [8,2,5], [9,4,3]]
          อนุมาตร 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุตคือ [[5,3], [8,2]] ดังนั้นการดำเนินการรวมข้อมูลด้านซ้ายบนจึงให้ค่า 8 (ซึ่งเป็นค่าสูงสุดของ 5, 3, 8 และ 2) อนุมาตร 2x2 ที่ด้านขวาบนของเมทริกซ์อินพุตคือ [[3,1], [2,5]] ดังนั้นการดำเนินการรวมที่ด้านขวาบนจึงให้ค่า 5 อนุมาตรย่อย 2x2 ที่ด้านซ้ายล่างของเมทริกซ์อินพุตคือ [[8,2], [9,4]] ดังนั้นการดำเนินการการรวมข้อมูลด้านซ้ายล่างจึงให้ค่า 9 อนุมาตร 2x2 ที่ด้านขวาล่างของเมทริกซ์อินพุตคือ [[2,5], [4,3]] ดังนั้นการดำเนินการรวมที่ด้านขวาล่างจะให้ค่า 5 โดยสรุปแล้ว การดำเนินการรวมกลุ่มจะให้ผลลัพธ์เป็นเมทริกซ์ 2x2 ดังนี้
          [[8,5], [9,5]]

การรวมกลุ่มช่วยบังคับใช้การคงที่แบบแปลในเมทริกซ์อินพุต

การรวมสำหรับแอปพลิเคชันการมองเห็นเรียกอย่างเป็นทางการว่าการรวมเชิงพื้นที่ แอปพลิเคชันอนุกรมเวลามักจะเรียกการรวมข้อมูลว่าการรวมข้อมูลตามช่วงเวลา Pooling มักเรียกอย่างไม่เป็นทางการว่าการสุ่มตัวอย่างย่อยหรือการสุ่มตัวอย่างลง

ดูการแนะนําโครงข่ายระบบประสาทเทียมแบบ Convolutional ในหลักสูตร ML Practicum: การแยกประเภทรูปภาพ

การเข้ารหัสตำแหน่ง

#language

เทคนิคในการเพิ่มข้อมูลเกี่ยวกับตําแหน่งของโทเค็นในลําดับไปยังการฝังของโทเค็น โมเดล Transformer ใช้การเข้ารหัสตำแหน่งเพื่อทำความเข้าใจความสัมพันธ์ระหว่างส่วนต่างๆ ของลำดับได้ดียิ่งขึ้น

การใช้งานการเข้ารหัสตำแหน่งทั่วไปจะใช้ฟังก์ชันไซน์ (กล่าวอย่างเจาะจงคือ ความถี่และแอมพลิจูดของฟังก์ชันไซน์จะกำหนดโดยตำแหน่งของโทเค็นในลำดับ) เทคนิคนี้ช่วยให้โมเดล Transformer เรียนรู้ที่จะให้ความสำคัญกับส่วนต่างๆ ของลำดับตามตำแหน่งของส่วนนั้นๆ

คลาสที่เป็นบวก

#fundamentals
#Metric

ชั้นเรียนที่คุณทดสอบ

เช่น คลาสที่เป็นบวกในโมเดลโรคมะเร็งอาจเป็น "เนื้องอก" คลาสที่เป็นบวกในโมเดลการจัดประเภทอีเมลอาจเป็น "จดหมายขยะ"

ตรงข้ามกับคลาสที่เป็นลบ

คําว่าคลาสบวกอาจทําให้สับสนเนื่องจากผลลัพธ์ "บวก" ของหลายการทดสอบมักเป็นผลลัพธ์ที่ไม่พึงประสงค์ เช่น คลาสบวกในการตรวจทางการแพทย์หลายรายการจะสอดคล้องกับเนื้องอกหรือโรค โดยทั่วไปแล้ว คุณต้องการให้แพทย์บอกคุณว่า "ยินดีด้วย ผลตรวจของคุณเป็นลบ" อย่างไรก็ตาม คลาสเชิงบวกคือเหตุการณ์ที่การทดสอบพยายามค้นหา

คุณต้องยอมรับว่าคุณกําลังทดสอบทั้งคลาสเชิงบวกและเชิงลบพร้อมกัน


หลังการประมวลผล

#fairness
#fundamentals

การปรับเอาต์พุตของโมเดลหลังจากเรียกใช้โมเดลแล้ว สามารถใช้การประมวลผลหลังเพื่อให้เป็นไปตามข้อจำกัดด้านความยุติธรรมได้โดยไม่ต้องแก้ไขโมเดล

เช่น คุณอาจใช้การประมวลผลหลังการประมวลผลกับตัวแยกประเภทแบบ 2 ค่าโดยการตั้งค่าเกณฑ์การจัดประเภทเพื่อให้โอกาสที่เท่าเทียมสำหรับแอตทริบิวต์บางรายการโดยตรวจสอบว่าอัตราผลบวกจริงเหมือนกันสำหรับค่าทั้งหมดของแอตทริบิวต์นั้น

โมเดลหลังการฝึก

#language
#image
#generativeAI

คําที่กําหนดไว้อย่างหลวมๆ ซึ่งโดยทั่วไปหมายถึงโมเดลที่ผ่านการฝึกล่วงหน้าซึ่งผ่านกระบวนการประมวลผลขั้นสุดท้ายแล้ว เช่น การดำเนินการต่อไปนี้อย่างน้อย 1 อย่าง

PR AUC (พื้นที่ใต้กราฟ PR)

#Metric

พื้นที่ใต้กราฟที่หาค่าเฉลี่ยระหว่างค่าต่างๆ ของกราฟ Precision-Recall ซึ่งหาได้จากการวางจุด (ความแม่นยำ ความแม่นยำ) สำหรับค่าต่างๆ ของเกณฑ์การจัดประเภท

Praxis

คลัง ML หลักที่มีประสิทธิภาพสูงของ Pax Praxis มักเรียกว่า "ไลบรารีเลเยอร์"

Praxis ไม่ได้มีแค่คําจํากัดความของคลาสเลเยอร์ แต่ยังมีคําจํากัดความของคอมโพเนนต์สนับสนุนส่วนใหญ่ด้วย ซึ่งรวมถึง

Praxis ให้คําจํากัดความของคลาส Model

ความแม่นยำ

#Metric

เมตริกสําหรับโมเดลการจัดหมวดหมู่ที่ตอบคำถามต่อไปนี้

เมื่อโมเดลคาดการณ์คลาสเชิงบวก การคาดการณ์ที่ถูกต้องมีเปอร์เซ็นต์เท่าใด

สูตรมีดังนี้

Precision=true positivestrue positives+false positives

where:

  • ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้ถูกต้อง
  • ผลบวกลวงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกโดยไม่ได้ตั้งใจ

ตัวอย่างเช่น สมมติว่าโมเดลทำการคาดการณ์เชิงบวก 200 ครั้ง จากการคาดการณ์เชิงบวก 200 รายการนี้

  • 150 รายการเป็นผลบวกจริง
  • 50 รายการเป็นผลบวกลวง

ในกรณีนี้

Precision=150150+50=0.75

ตรงข้ามกับความแม่นยำและการจดจำ

ดูข้อมูลเพิ่มเติมได้ในการจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้องในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ความแม่นยำที่ k (precision@k)

#language
#Metric

เมตริกสําหรับประเมินรายการที่จัดลําดับ (มีลําดับ) ความแม่นยำที่ k จะระบุส่วนของรายการ k รายการแรกในรายการนั้นซึ่ง "เกี่ยวข้อง" โดยการ

precision at k=relevant items in first k items of the listk

ค่าของ k ต้องน้อยกว่าหรือเท่ากับความยาวของลิสต์ที่แสดงผล โปรดทราบว่าความยาวของรายการที่แสดงผลไม่ได้เป็นส่วนหนึ่งของการคํานวณ

ความเกี่ยวข้องมักเป็นเรื่องส่วนตัว แม้แต่ผู้ประเมินที่เป็นมนุษย์ที่เชี่ยวชาญก็มักไม่เห็นด้วยว่ารายการใดมีความเกี่ยวข้อง

เปรียบเทียบกับ:

สมมติว่าโมเดลภาษาขนาดใหญ่ได้รับคําค้นหาต่อไปนี้

List the 6 funniest movies of all time in order.

และโมเดลภาษาขนาดใหญ่จะแสดงรายการใน 2 คอลัมน์แรกของตารางต่อไปนี้

ตำแหน่ง ภาพยนตร์ เกี่ยวข้องไหม
1 The General ใช่
2 Mean Girls ใช่
3 Platoon ไม่
4 Bridesmaids ใช่
5 Citizen Kane ไม่
6 This is Spinal Tap ใช่

ภาพยนตร์ 2 ใน 3 เรื่องแรกมีความเกี่ยวข้อง ความแม่นยำที่ 3 จึงเท่ากับ

precision at 3=23=0.67

ภาพยนตร์ 4 ใน 5 เรื่องแรกสนุกมาก ความแม่นยำที่ 5 คือ

precision at 5=45=0.8

เส้นโค้ง Precision-Recall

#Metric

กราฟความแม่นยำเทียบกับความแม่นยำในการเรียกคืนที่เกณฑ์การจัดประเภทต่างๆ

การคาดการณ์

#fundamentals

เอาต์พุตของโมเดล เช่น

  • การคาดการณ์ของโมเดลการจัดประเภทแบบไบนารีคือคลาสเชิงบวกหรือคลาสเชิงลบ
  • การคาดการณ์ของโมเดลการจัดประเภทแบบหลายคลาสคือ 1 คลาส
  • การคาดการณ์ของโมเดลการถดถอยเชิงเส้นคือตัวเลข

อคติในการคาดการณ์

#Metric

ค่าที่ระบุระยะห่างระหว่างค่าเฉลี่ยของการคาดการณ์กับค่าเฉลี่ยของป้ายกํากับในชุดข้อมูล

โปรดอย่าสับสนกับคำที่เป็นอคติในโมเดลแมชชีนเลิร์นนิง หรืออคติด้านจริยธรรมและความเป็นธรรม

ML เชิงคาดการณ์

ระบบแมชชีนเลิร์นนิงมาตรฐาน ("คลาสสิก")

คําว่า ML เชิงคาดการณ์ไม่มีคําจํากัดความอย่างเป็นทางการ แต่ใช้เพื่อแยกหมวดหมู่ระบบ ML ที่ไม่ได้อิงตามGenerative AI

ความเท่าเทียมตามการคาดการณ์

#fairness
#Metric

เมตริกความเป็นธรรมที่ตรวจสอบว่าอัตราความแม่นยำของโปรแกรมแยกประเภทหนึ่งๆ เทียบเท่ากันสำหรับกลุ่มย่อยที่พิจารณาหรือไม่

เช่น โมเดลที่คาดการณ์การยอมรับเข้าวิทยาลัยจะต้องเป็นไปตามความเท่าเทียมในการคาดการณ์สำหรับสัญชาติหากอัตราความแม่นยำของโมเดลนั้นเหมือนกันสำหรับชาวลิลลี่ปุตและชาวบราบิงแนก

บางครั้งเราจะเรียกความเท่าเทียมตามการคาดการณ์ว่าความเท่าเทียมตามอัตราที่คาดการณ์

ดูการอภิปรายเรื่องความเท่าเทียมตามการคาดการณ์โดยละเอียดได้ที่"คำอธิบายความเท่าเทียม" (ส่วนที่ 3.2.1)

อัตราที่เท่ากันตามการคาดการณ์

#fairness
#Metric

อีกชื่อหนึ่งของความเท่าเทียมตามการคาดการณ์

การเตรียมข้อมูลล่วงหน้า

#fairness
ประมวลผลข้อมูลก่อนที่จะนำไปใช้ฝึกโมเดล การเตรียมข้อมูลล่วงหน้าอาจทำได้ง่ายๆ เพียงนำคำออกจากชุดข้อความภาษาอังกฤษที่ไม่ได้อยู่ในพจนานุกรมภาษาอังกฤษ หรืออาจซับซ้อนมากถึงขั้นต้องเปลี่ยนรูปแบบจุดข้อมูลใหม่ในลักษณะที่กำจัดแอตทริบิวต์ที่เชื่อมโยงกับแอตทริบิวต์ที่มีความละเอียดอ่อนให้มากที่สุด การเตรียมข้อมูลล่วงหน้าจะช่วยให้เป็นไปตามข้อจำกัดด้านความเป็นธรรม

โมเดลที่ฝึกล่วงหน้า

#language
#image
#generativeAI

โดยปกติแล้วคือโมเดลที่ผ่านการฝึกแล้ว หรืออาจหมายถึงเวกเตอร์การฝังที่ผ่านการฝึกก่อนหน้านี้

คําว่าโมเดลภาษาที่ฝึกล่วงหน้ามักจะหมายถึงโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกมาแล้ว

การฝึกขั้นต้น

#language
#image
#generativeAI

การฝึกโมเดลครั้งแรกในชุดข้อมูลขนาดใหญ่ โมเดลที่ผ่านการฝึกล่วงหน้าบางรุ่นเป็นโมเดลที่ทำงานได้ไม่ดีนัก และมักจะต้องได้รับการปรับแต่งผ่านการฝึกเพิ่มเติม ตัวอย่างเช่น ผู้เชี่ยวชาญด้าน ML อาจฝึกโมเดลภาษาขนาดใหญ่ล่วงหน้าด้วยชุดข้อมูลข้อความขนาดใหญ่ เช่น หน้าภาษาอังกฤษทั้งหมดใน Wikipedia หลังจากการฝึกล่วงหน้าแล้ว โมเดลที่ได้อาจได้รับการปรับแต่งเพิ่มเติมผ่านเทคนิคต่อไปนี้

ความเชื่อก่อนหน้า

สิ่งที่คุณเชื่อเกี่ยวกับข้อมูลก่อนที่จะเริ่มฝึก เช่น การปรับสมดุล 2 อาศัยความเชื่อก่อนหน้านี้ว่าน้ำหนักควรมีขนาดเล็กและกระจายตามปกติรอบๆ 0

โมเดลการถดถอยแบบน่าจะเป็น

โมเดลการถดถอยที่ใช้ไม่เพียงน้ำหนักสำหรับฟีเจอร์แต่ละรายการเท่านั้น แต่ยังใช้ความไม่แน่นอนของน้ำหนักเหล่านั้นด้วย โมเดลการถดถอยแบบน่าจะเป็นจะสร้างการคาดการณ์และความไม่แน่นอนของการคาดการณ์นั้น เช่น โมเดลการถดถอยแบบมีข้อมูลเป็นค่าความน่าจะเป็นอาจให้ค่าคาดการณ์ 325 โดยมีค่าความเบี่ยงเบนมาตรฐาน 12 ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลการถดถอยแบบน่าจะเป็นได้ที่ Colab ใน tensorflow.org

ฟังก์ชันความหนาแน่นของความน่าจะเป็น

#Metric

ฟังก์ชันที่ระบุความถี่ของตัวอย่างข้อมูลที่มีค่าหนึ่งๆ ตรงกันทุกประการ เมื่อค่าของชุดข้อมูลเป็นตัวเลขทศนิยมต่อเนื่อง การจับคู่ที่ตรงกันทั้งหมดจะเกิดขึ้นน้อยมาก อย่างไรก็ตาม การผสานรวมฟังก์ชันความหนาแน่นความน่าจะเป็นจากค่า x ถึงค่า y จะให้ความถี่ที่คาดไว้ของตัวอย่างข้อมูลระหว่าง x ถึง y

ตัวอย่างเช่น พิจารณาการแจกแจงแบบปกติที่มีค่าเฉลี่ย 200 และค่าเบี่ยงเบนมาตรฐาน 30 หากต้องการระบุความถี่ที่คาดไว้ของตัวอย่างข้อมูลที่อยู่ในช่วง 211.4 ถึง 218.7 ให้ผสานฟังก์ชันความหนาแน่นความน่าจะเป็นของการแจกแจงแบบปกติจาก 211.4 ถึง 218.7

พรอมต์

#language
#generativeAI

ข้อความที่ป้อนเป็นอินพุตให้กับโมเดลภาษาขนาดใหญ่เพื่อปรับสภาพโมเดลให้ทำงานในลักษณะหนึ่งๆ พรอมต์อาจเป็นวลีสั้นๆ หรือยาวเท่าใดก็ได้ (เช่น ข้อความทั้งหมดของนวนิยาย) พรอมต์จะแบ่งออกเป็นหลายหมวดหมู่ ซึ่งรวมถึงหมวดหมู่ที่แสดงในตารางต่อไปนี้

หมวดหมู่พรอมต์ ตัวอย่าง หมายเหตุ
คำถาม นกพิราบบินได้เร็วแค่ไหน
โรงเรียนฝึกอบรม เขียนบทกวีตลกๆ เกี่ยวกับอาร์บิทราจ พรอมต์ที่ขอให้โมเดลภาษาขนาดใหญ่ทําบางอย่าง
ตัวอย่าง แปลโค้ด Markdown เป็น HTML เช่น
Markdown: * รายการย่อย
HTML: <ul> <li>รายการย่อย</li> </ul>
ประโยคแรกในพรอมต์ตัวอย่างนี้คือคำสั่ง ส่วนที่เหลือของพรอมต์คือตัวอย่าง
บทบาท อธิบายเหตุผลที่ต้องใช้การลดเชิงลาดในการสอนแมชชีนเลิร์นนิงเพื่อรับปริญญาเอกสาขาฟิสิกส์ ส่วนแรกของประโยคคือคำสั่ง ส่วนวลี "จบปริญญาเอกสาขาฟิสิกส์" คือส่วนของบทบาท
อินพุตบางส่วนเพื่อให้โมเดลทำงานได้ นายกรัฐมนตรีของสหราชอาณาจักรอาศัยอยู่ที่ พรอมต์การป้อนข้อมูลบางส่วนอาจสิ้นสุดอย่างกะทันหัน (เช่น ตัวอย่างนี้) หรือลงท้ายด้วยขีดล่างก็ได้

โมเดล Generative AI สามารถตอบสนองต่อพรอมต์ด้วยข้อความ โค้ด รูปภาพ การฝัง วิดีโอ และแทบทุกสิ่ง

การเรียนรู้ตามพรอมต์

#language
#generativeAI

ความสามารถของโมเดลบางรายการที่ช่วยให้ปรับลักษณะการทํางานเพื่อตอบสนองต่อการป้อนข้อความแบบไม่เจาะจง (พรอมต์) ได้ ในกระบวนทัศน์การเรียนรู้แบบพรอมต์ทั่วไป โมเดลภาษาขนาดใหญ่จะตอบสนองต่อพรอมต์ด้วยการสร้างข้อความ ตัวอย่างเช่น สมมติว่าผู้ใช้ป้อนพรอมต์ต่อไปนี้

สรุปกฎการเคลื่อนที่ข้อที่ 3 ของนิวตัน

โมเดลที่เรียนรู้ตามพรอมต์ไม่ได้ผ่านการฝึกมาเพื่อตอบพรอมต์ก่อนหน้าโดยเฉพาะ แต่โมเดลจะ "รู้" ข้อเท็จจริงมากมายเกี่ยวกับฟิสิกส์ กฎทั่วไปของภาษา และองค์ประกอบต่างๆ ของคำตอบที่เป็นประโยชน์โดยทั่วไป ความรู้ดังกล่าวเพียงพอที่จะให้คำตอบที่เป็นประโยชน์ (หวังว่าจะเป็นเช่นนั้น) ความคิดเห็นเพิ่มเติมจากผู้ใช้ ("คำตอบนั้นซับซ้อนเกินไป" หรือ "Reaction คืออะไร") จะช่วยให้ระบบการเรียนรู้แบบพรอมต์บางระบบปรับปรุงความมีประโยชน์ของคำตอบได้ทีละน้อย

การออกแบบพรอมต์

#language
#generativeAI

คำพ้องความหมายของวิศวกรรมพรอมต์

วิศวกรรมพรอมต์

#language
#generativeAI

ศิลปะในการสร้างพรอมต์ที่ดึงดูดคำตอบที่ต้องการจากโมเดลภาษาขนาดใหญ่ มนุษย์ทำการดัดแปลงพรอมต์ การเขียนพรอมต์ที่มีโครงสร้างดีเป็นส่วนสําคัญในการช่วยให้ได้รับคําตอบที่เป็นประโยชน์จากโมเดลภาษาขนาดใหญ่ การปรับแต่งข้อความแจ้งขึ้นอยู่กับหลายปัจจัย ได้แก่

  • ชุดข้อมูลที่ใช้ฝึกล่วงหน้าและอาจปรับแต่งโมเดลภาษาขนาดใหญ่
  • temperature และพารามิเตอร์การถอดรหัสอื่นๆ ที่โมเดลใช้ในการสร้างคำตอบ

การออกแบบพรอมต์เป็นคําพ้องกับวิศวกรรมพรอมต์

ดูรายละเอียดเพิ่มเติมเกี่ยวกับการเขียนพรอมต์ที่เป็นประโยชน์ได้ในส่วนข้อมูลเบื้องต้นเกี่ยวกับการออกแบบพรอมต์

การปรับแต่งพรอมต์

#language
#generativeAI

กลไกการปรับพารามิเตอร์อย่างมีประสิทธิภาพซึ่งจะเรียนรู้ "คำนำหน้า" ที่ระบบจะใส่ไว้ก่อนพรอมต์จริง

การปรับพรอมต์รูปแบบหนึ่ง ซึ่งบางครั้งเรียกว่าการปรับคำนำหน้าคือการใส่คำนำหน้าไว้ที่ทุกเลเยอร์ ในทางตรงกันข้าม การปรับแต่งพรอมต์ส่วนใหญ่จะเพิ่มเฉพาะคำนำหน้าในเลเยอร์อินพุต

สําหรับการปรับแต่งพรอมต์ "คำนำหน้า" (หรือที่เรียกว่า "พรอมต์แบบอ่อน") คือเวกเตอร์เฉพาะงานที่เรียนรู้มาจำนวนหนึ่งซึ่งอยู่หน้าการฝังโทเค็นข้อความจากพรอมต์จริง ระบบจะเรียนรู้พรอมต์แบบอ่อนโดยตรึงพารามิเตอร์รูปแบบอื่นๆ ทั้งหมดและปรับแต่งงานหนึ่งๆ ให้ละเอียด


proxy (แอตทริบิวต์ที่ละเอียดอ่อน)

#fairness
แอตทริบิวต์ที่ใช้แทนแอตทริบิวต์ที่มีความละเอียดอ่อน เช่น ระบบอาจใช้รหัสไปรษณีย์ของบุคคลเป็นพร็อกซีสําหรับรายได้ เชื้อชาติ หรือชาติพันธุ์

ป้ายกํากับพร็อกซี

#fundamentals

ข้อมูลที่ใช้ประมาณป้ายกำกับซึ่งไม่พร้อมใช้งานในชุดข้อมูลโดยตรง

ตัวอย่างเช่น สมมติว่าคุณต้องฝึกโมเดลเพื่อคาดการณ์ระดับความเครียดของพนักงาน ชุดข้อมูลของคุณมีฟีเจอร์การคาดการณ์จำนวนมาก แต่ไม่มีป้ายกำกับชื่อระดับความเครียด คุณเลือก "อุบัติเหตุที่ทำงาน" เป็นป้ายกำกับแทนระดับความเครียด ท้ายที่สุดแล้ว พนักงานที่เครียดมากจะประสบอุบัติเหตุมากกว่าพนักงานที่ใจเย็น หรือมี อุบัติเหตุที่เกิดขึ้นในที่ทํางานอาจเพิ่มขึ้นและลดลงด้วยเหตุผลหลายประการ

ตัวอย่างที่ 2 สมมติว่าคุณต้องการให้ is it raining? เป็นป้ายกำกับบูลีนสำหรับชุดข้อมูล แต่ชุดข้อมูลไม่มีข้อมูลฝน หากมีรูปภาพ คุณอาจสร้างรูปภาพผู้คนที่ถือร่มเป็นป้ายกำกับพร็อกซีสำหรับฝนตกไหม ป้ายกำกับพร็อกซีนี้ดีไหม เป็นไปได้ แต่ผู้คนในบางวัฒนธรรมอาจถือร่มเพื่อป้องกันแดดมากกว่าฝน

ป้ายกํากับพร็อกซีมักไม่สมบูรณ์ เลือกป้ายกำกับจริงแทนป้ายกำกับพร็อกซีเมื่อเป็นไปได้ อย่างไรก็ตาม เมื่อไม่มีป้ายกำกับจริง ให้เลือกป้ายกำกับพร็อกซีอย่างระมัดระวัง โดยเลือกป้ายกำกับพร็อกซีที่ไม่น่ากลัวที่สุด

ดูข้อมูลเพิ่มเติมที่ชุดข้อมูล: ป้ายกำกับในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟังก์ชันบริสุทธิ์

ฟังก์ชันที่มีเอาต์พุตอิงตามอินพุตเท่านั้นและไม่มีผลข้างเคียง กล่าวโดยละเอียดคือ ฟังก์ชันบริสุทธิ์จะไม่ใช้หรือเปลี่ยนแปลงสถานะส่วนกลาง เช่น เนื้อหาของไฟล์หรือค่าของตัวแปรที่อยู่นอกฟังก์ชัน

ฟังก์ชัน Pure สามารถใช้เพื่อสร้างโค้ดที่ปลอดภัยสำหรับเธรด ซึ่งมีประโยชน์เมื่อมีการแยกส่วนโค้ด โมเดลในชิปเร่งความเร็วหลายตัว

วิธีการเปลี่ยนรูปแบบฟังก์ชันของ JAX กำหนดให้ฟังก์ชันอินพุตต้องเป็นฟังก์ชันบริสุทธิ์

Q

ฟังก์ชัน Q

#rl

ในการเรียนรู้ด้วยการเพิ่มแรงเสริม ฟังก์ชันที่คาดการณ์ผลตอบแทนที่คาดไว้จากการดำเนินการในสถานะ จากนั้นทำตามนโยบายที่ระบุ

ฟังก์ชัน Q เรียกอีกอย่างว่าฟังก์ชันค่าสถานะการดําเนินการ

การเรียนรู้แบบ Q

#rl

ในการเรียนรู้ด้วยการทำซ้ำ อัลกอริทึมที่อนุญาตให้เอเจนต์เรียนรู้ฟังก์ชัน Q ที่ดีที่สุดของกระบวนการตัดสินใจแบบ Markov โดยใช้สมการ Bellman กระบวนการตัดสินใจแบบ Markov เป็นแบบจำลองสภาพแวดล้อม

ควอร์ไทล์

ที่เก็บข้อมูลแต่ละรายการในการแบ่งกลุ่มข้อมูลตามควอร์ไทล์

การแบ่งกลุ่มข้อมูลตามควอร์ไทล์

การแจกแจงค่าของฟีเจอร์เป็นกลุ่มเพื่อให้แต่ละกลุ่มมีตัวอย่างจำนวนเท่ากัน (หรือเกือบเท่ากัน) ตัวอย่างเช่น รูปภาพต่อไปนี้แบ่ง 44 จุดออกเป็น 4 กลุ่ม โดยแต่ละกลุ่มมี 11 จุด เพื่อให้แต่ละที่เก็บข้อมูลในรูปภาพมีจุดจํานวนเท่ากัน ที่เก็บข้อมูลบางรายการจึงมีช่วงค่า x ที่แตกต่างกัน

จุดข้อมูล 44 จุดแบ่งออกเป็น 4 กลุ่มๆ ละ 11 จุด
          แม้ว่าแต่ละที่เก็บข้อมูลจะมีจุดข้อมูลเท่ากัน แต่ที่เก็บข้อมูลบางแห่งอาจมีค่าฟีเจอร์ที่หลากหลายกว่าที่เก็บข้อมูลอื่นๆ

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การแบ่งกลุ่มในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การแปลงเป็นจำนวนเต็ม

คําที่รับค่าหลายค่าซึ่งอาจใช้ด้วยวิธีใดก็ได้ต่อไปนี้

  • การใช้การแบ่งกลุ่มข้อมูลตามควอร์ไทล์ในฟีเจอร์หนึ่งๆ
  • การเปลี่ยนข้อมูลให้เป็น 0 และ 1 เพื่อการจัดเก็บ การฝึก และอนุมานที่เร็วขึ้น เนื่องจากข้อมูลบูลีนมีความทนทานต่อสัญญาณรบกวนและข้อผิดพลาดมากกว่ารูปแบบอื่นๆ การแปลงเป็นจำนวนเต็มจึงช่วยเพิ่มความถูกต้องของโมเดลได้ เทคนิคการแปลงค่าเป็นจำนวนเต็ม ได้แก่ การปัดเศษ การลบทศนิยม และการจัดกลุ่ม
  • การลดจํานวนบิตที่ใช้จัดเก็บพารามิเตอร์ของโมเดล ตัวอย่างเช่น สมมติว่าพารามิเตอร์ของโมเดลได้รับการจัดเก็บเป็นจํานวนจุดลอยตัว 32 บิต การแปลงเชิงปริมาณจะแปลงพารามิเตอร์เหล่านั้นจาก 32 บิตเป็น 4, 8 หรือ 16 บิต การแปลงค่าจำนวนช่วยลดสิ่งต่อไปนี้

    • การใช้งานระบบประมวลผล หน่วยความจำ ดิสก์ และเครือข่าย
    • เวลาในการอนุมานการคาดการณ์
    • การใช้พลังงาน

    อย่างไรก็ตาม บางครั้งการแปลงเป็นจำนวนเต็มอาจทำให้การคาดการณ์ของโมเดลมีความแม่นยำน้อยลง

คิว

#TensorFlow

การดำเนินการของ TensorFlow ที่ใช้โครงสร้างข้อมูลคิว มักใช้ใน I/O

R

RAG

#fundamentals

ตัวย่อของ Generation ที่เพิ่มการดึงข้อมูล

Random Forest

#df

ชุดค่าผสมของต้นไม้การตัดสินใจ ซึ่งต้นไม้การตัดสินใจแต่ละต้นได้รับการฝึกด้วยสัญญาณรบกวนแบบสุ่มที่เฉพาะเจาะจง เช่น การแบ่งกลุ่ม

ป่าแบบสุ่มเป็นป่าการตัดสินใจประเภทหนึ่ง

ดูข้อมูลเพิ่มเติมในRandom Forest ในหลักสูตร Decision Forest

นโยบายแบบสุ่ม

#rl

ในการเรียนรู้ด้วยการทำซ้ำ นโยบายที่เลือกการดำเนินการแบบสุ่ม

ลําดับ (ลําดับชั้น)

ตำแหน่งตามลําดับของคลาสในปัญหาแมชชีนเลิร์นนิงที่จัดหมวดหมู่คลาสจากสูงสุดไปต่ำสุด เช่น ระบบการจัดอันดับพฤติกรรมอาจจัดอันดับรางวัลของสุนัขจากสูงสุด (สเต็ก) ไปจนถึงต่ำสุด (ผักคะน้าเหี่ยว)

rank (Tensor)

#TensorFlow

จํานวนมิติข้อมูลใน Tensor เช่น เวกเตอร์มีลําดับ 1, เมทริกซ์มีลําดับ 2 และจำนวนจริงมีลําดับ 0

โปรดอย่าสับสนกับลําดับ (ลําดับชั้น)

การจัดอันดับ

การเรียนรู้ที่มีการควบคุมดูแลประเภทหนึ่งที่มีวัตถุประสงค์เพื่อจัดลําดับรายการ

ผู้ให้คะแนน

#fundamentals

บุคคลที่ระบุป้ายกำกับสำหรับตัวอย่าง "ผู้กำกับเนื้อหา" เป็นชื่อเรียกผู้ให้คะแนนอีกชื่อหนึ่ง

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงหมวดหมู่: ปัญหาที่พบบ่อยในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเรียกคืน

#Metric

เมตริกสําหรับโมเดลการจัดหมวดหมู่ที่ตอบคำถามต่อไปนี้

เมื่อข้อมูลจริงเป็นคลาสที่เป็นบวก เปอร์เซ็นต์การคาดการณ์ที่โมเดลระบุอย่างถูกต้องว่าเป็นคลาสที่เป็นบวกคือเท่าใด

สูตรมีดังนี้

Recall=true positivestrue positives+false negatives

where:

  • ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้ถูกต้อง
  • ผลลบลวงหมายความว่าโมเดลคาดการณ์ผิดพลาดว่าคลาสเชิงลบ

ตัวอย่างเช่น สมมติว่าโมเดลของคุณทำการคาดการณ์ 200 ครั้งในตัวอย่างที่มีข้อมูลพื้นความจริงเป็นคลาสที่เป็นบวก จากการคาดการณ์ 200 รายการนี้

  • 180 รายการเป็นผลบวกจริง
  • 20 รายการเป็นผลลบลวง

ในกรณีนี้

Recall=180180+20=0.9

ค่าการเรียกคืนมีประโยชน์อย่างยิ่งในการระบุความสามารถในการคาดการณ์ของโมเดลการจัดประเภทซึ่งมีคลาสที่เป็นบวกน้อย ตัวอย่างเช่น พิจารณาชุดข้อมูลที่ไม่สมดุลของคลาส ซึ่งคลาสบวกสำหรับโรคหนึ่งๆ เกิดขึ้นในผู้ป่วยเพียง 10 คนจาก 1 ล้านคน สมมติว่าโมเดลของคุณทำการคาดการณ์ 5 ล้านรายการซึ่งให้ผลลัพธ์ต่อไปนี้

  • ผลบวกจริง 30 รายการ
  • ผลลบลวง 20 รายการ
  • ผลลบจริง 4,999,000 รายการ
  • ผลบวกลวง 950 รายการ

ดังนั้นการเรียกคืนรุ่นนี้จึงมีดังนี้

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
ในทางตรงกันข้าม ความแม่นยำของโมเดลนี้คือ
accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

ค่าความถูกต้องที่สูงนั้นดูน่าประทับใจ แต่ไม่มีความหมายในทางปฏิบัติ ความแม่นยำเป็นเมตริกที่มีประโยชน์มากกว่าความแม่นยำสำหรับชุดข้อมูลที่ไม่สมดุลของคลาส


ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้อง

การจําที่ k (recall@k)

#language
#Metric

เมตริกสําหรับประเมินระบบที่แสดงรายการที่จัดอันดับ (เรียงลําดับ) การเรียกคืนที่ k จะระบุเศษส่วนของรายการที่เกี่ยวข้องในรายการ k รายการแรกในรายการนั้นจากจํานวนรายการที่เกี่ยวข้องทั้งหมดที่แสดง

recall at k=relevant items in first k items of the listtotal number of relevant items in the list

เปรียบเทียบกับความแม่นยำที่ k

สมมติว่าโมเดลภาษาขนาดใหญ่ได้รับคําค้นหาต่อไปนี้

List the 10 funniest movies of all time in order.

และโมเดลภาษาขนาดใหญ่จะแสดงรายการใน 2 คอลัมน์แรกดังนี้

ตำแหน่ง ภาพยนตร์ เกี่ยวข้องไหม
1 The General ใช่
2 Mean Girls ใช่
3 Platoon ไม่
4 Bridesmaids ใช่
5 This is Spinal Tap ใช่
6 เครื่องบิน ใช่
7 Groundhog Day ใช่
8 Monty Python and the Holy Grailใช่
9 Oppenheimer ไม่
10 ไม่รู้ ใช่

ภาพยนตร์ 8 เรื่องในรายการก่อนหน้านี้ตลกมาก จึงถือเป็น "รายการที่เกี่ยวข้องในรายการ" ดังนั้น 8 จะเป็นตัวส่วนในการคํานวณการจําที่ k ทั้งหมด แล้วส่วนนําล่ะ รายการแรก 4 รายการมีความเกี่ยวข้อง 3 รายการ ดังนั้นการเรียกคืนที่ 4 คือ

recall at 4=38=0.375

ภาพยนตร์ 7 ใน 8 เรื่องแรกเป็นเรื่องตลกมาก ดังนั้นการจําที่ 8 คือ

recall at 8=78=0.875

ระบบการแนะนำ

#recsystems

ระบบที่เลือกรายการที่ต้องการจำนวนไม่มากนักจากชุดข้อความขนาดใหญ่ให้กับผู้ใช้แต่ละราย ตัวอย่างเช่น ระบบการแนะนำวิดีโออาจแนะนำวิดีโอ 2 รายการจากคลังวิดีโอ 100,000 รายการ โดยเลือกCasablanca และThe Philadelphia Story สำหรับผู้ใช้รายหนึ่ง และWonder Woman และBlack Panther สำหรับอีกรายหนึ่ง ระบบการแนะนำวิดีโออาจใช้ปัจจัยต่อไปนี้เป็นพื้นฐานในการแนะนำ

  • ภาพยนตร์ที่ผู้ใช้ที่มีโปรไฟล์คล้ายกันให้คะแนนหรือดู
  • ประเภท ผู้กำกับ นักแสดง ข้อมูลประชากรเป้าหมาย...

ดูข้อมูลเพิ่มเติมได้ที่หลักสูตรระบบการแนะนำ

Rectified Linear Unit (ReLU)

#fundamentals

ฟังก์ชันการเปิดใช้งานที่มีลักษณะการทำงานดังต่อไปนี้

  • หากอินพุตเป็นลบหรือ 0 เอาต์พุตจะเป็น 0
  • หากอินพุตเป็นค่าบวก เอาต์พุตจะเท่ากับอินพุต

เช่น

  • หากอินพุตคือ -3 เอาต์พุตจะเป็น 0
  • หากอินพุตคือ +3 เอาต์พุตจะเป็น 3.0

นี่คือผัง ReLU

ผังพิกัดคาร์ทีเซียนของเส้น 2 เส้น บรรทัดแรกมีค่า y คงที่ที่ 0 ซึ่งวิ่งไปตามแกน x จาก -infinity,0 ถึง 0,-0
          บรรทัดที่สองเริ่มต้นที่ 0,0 เส้นนี้มีความชัน +1 ดังนั้นจึงวิ่งจาก 0,0 ถึง +infinity,+infinity

ReLU เป็นฟังก์ชันการเปิดใช้งานที่ได้รับความนิยมมาก แม้จะมีการทำงานที่เรียบง่าย แต่ ReLU ยังคงช่วยให้เครือข่ายประสาทสามารถเรียนรู้ความสัมพันธ์ที่ไม่ใช่เชิงเส้นระหว่างฟีเจอร์กับป้ายกำกับ

โครงข่ายประสาทแบบซ้ำ

#seq

เครือข่ายประสาทเทียมที่ตั้งใจให้ทํางานหลายครั้ง โดยที่ส่วนหนึ่งของการทํางานแต่ละครั้งจะป้อนข้อมูลไปยังการทํางานครั้งถัดไป กล่าวโดยละเอียดคือ เลเยอร์ที่ซ่อนอยู่จากการเรียกใช้ก่อนหน้านี้จะส่งข้อมูลส่วนหนึ่งไปยังเลเยอร์ที่ซ่อนเดียวกันในการเรียกใช้ครั้งถัดไป เครือข่ายประสาทแบบซ้ำมีประโยชน์อย่างยิ่งในการประเมินลำดับ เพื่อให้ชั้นที่ซ่อนอยู่สามารถเรียนรู้จากการเรียกใช้เครือข่ายประสาทก่อนหน้านี้ในส่วนก่อนหน้าของลำดับ

เช่น รูปภาพต่อไปนี้แสดงเครือข่ายประสาทแบบซ้ำที่ทํางาน 4 ครั้ง โปรดทราบว่าค่าที่เรียนรู้ในชั้นที่ซ่อนจากการทำงานครั้งแรกจะกลายเป็นส่วนหนึ่งของอินพุตสําหรับชั้นที่ซ่อนเดียวกันในการทํางานครั้งที่ 2 ในทํานองเดียวกัน ค่าที่เรียนรู้ในชั้นซ่อนในการเรียกใช้ครั้งที่ 2 จะกลายเป็นส่วนหนึ่งของอินพุตสําหรับชั้นซ่อนเดียวกันในการเรียกใช้ครั้งที่ 3 วิธีนี้ช่วยให้เครือข่ายประสาทแบบซ้ำๆ ค่อยๆ ฝึกและคาดการณ์ความหมายของทั้งลำดับแทนที่จะคาดการณ์ความหมายของคำแต่ละคำ

RNN ที่ทํางาน 4 ครั้งเพื่อประมวลผลคําที่ป้อน 4 คํา

ข้อความอ้างอิง

#language
#generativeAI

คำตอบของผู้เชี่ยวชาญต่อพรอมต์ ตัวอย่างเช่น จากพรอมต์ต่อไปนี้

แปลคำถาม "คุณชื่ออะไร" จากภาษาอังกฤษเป็นภาษาฝรั่งเศส

คำตอบของผู้เชี่ยวชาญอาจเป็นดังนี้

Comment vous appelez-vous?

เมตริกต่างๆ (เช่น ROUGE) จะวัดระดับที่ข้อความอ้างอิงตรงกับข้อความที่สร้างขึ้นของโมเดล ML

โมเดลการเกิดปัญหาซ้ำ

#fundamentals

โมเดลที่สร้างการคาดการณ์ที่เป็นตัวเลข (ในทางตรงกันข้าม โมเดลการจัดประเภทจะสร้างการคาดการณ์ระดับชั้น) ตัวอย่างเช่น รูปแบบการหาค่าสัมประสิทธิ์ถดถอยทั้งหมดมีดังนี้

  • โมเดลที่คาดการณ์มูลค่าของบ้านหลังหนึ่งเป็นสกุลเงินยูโร เช่น 423,000
  • โมเดลที่คาดการณ์อายุคาดเฉลี่ยของต้นไม้บางต้นเป็นปี เช่น 23.2
  • โมเดลที่คาดการณ์ปริมาณน้ำฝนเป็นนิ้วที่จะตกในบางเมืองในช่วง 6 ชั่วโมงข้างหน้า เช่น 0.18

โมเดลการถดถอยที่พบได้ทั่วไป 2 ประเภท ได้แก่

โมเดลที่แสดงผลลัพธ์การคาดการณ์ที่เป็นตัวเลขไม่ใช่โมเดลการถดถอยเสมอไป ในบางกรณี การคาดการณ์ตัวเลขเป็นเพียงโมเดลการจัดประเภทที่มีชื่อคลาสเป็นตัวเลข เช่น โมเดลที่คาดการณ์รหัสไปรษณีย์ที่เป็นตัวเลขเป็นโมเดลการจัดประเภท ไม่ใช่โมเดลการถดถอย

Regularization

#fundamentals

กลไกใดๆ ที่ช่วยลดการจับคู่ที่มากเกินไป ประเภทของการทำให้เป็นปกติที่ได้รับความนิยม ได้แก่

การปรับให้เหมาะสมยังหมายถึงการลดโทษความซับซ้อนของโมเดลได้ด้วย

การปรับให้สม่ำเสมอขัดกับความรู้สึก การเพิ่มการถ่วงน้ำหนักมักจะเพิ่มการสูญเสียระหว่างการฝึก ซึ่งอาจสร้างความสับสนเนื่องจากเป้าหมายคือลดการสูญเสียระหว่างการฝึก

ไม่ เป้าหมายไม่ใช่การลดการลดลงของการฝึก โดยมีเป้าหมายเพื่อคาดการณ์ได้อย่างยอดเยี่ยมจากตัวอย่างในชีวิตจริง สิ่งที่น่าทึ่งคือแม้ว่าการเพิ่มความถี่ของการปรับให้เหมาะสมจะเพิ่ม Loss ของการฝึก แต่มักจะช่วยให้โมเดลคาดการณ์ตัวอย่างในชีวิตจริงได้ดีขึ้น


ดูข้อมูลเพิ่มเติมได้ที่การประมาณมากเกินไป: ความซับซ้อนของโมเดลในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อัตราการจัดระเบียบ

#fundamentals

จํานวนที่จะระบุความสําคัญแบบสัมพัทธ์ของการปรับให้เหมาะสมระหว่างการฝึก การเพิ่มอัตราการควบคุมช่วยลดการจับคู่ที่มากเกินไป แต่อาจลดความสามารถในการคาดการณ์ของโมเดล ในทางกลับกัน การลดหรือละเว้นอัตราการปรับให้เหมาะสมจะทําให้เกิดการพอดีมากเกินไป

โดยปกติอัตราการปรับค่าใช้จ่ายจะแสดงเป็นตัวอักษรกรีก λ สมการการสูญเสียแบบง่ายต่อไปนี้แสดงอิทธิพลของ λ

minimize(loss function + λ(regularization))

โดยที่การปรับให้เป็นระเบียบคือกลไกการปรับให้เป็นระเบียบ ซึ่งรวมถึง


ดูข้อมูลเพิ่มเติมได้ที่การประมาณที่มากเกินไป: การปรับL2ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเรียนรู้แบบเสริมกำลัง (RL)

#rl

ตระกูลอัลกอริทึมที่เรียนรู้นโยบายที่เหมาะสมที่สุด โดยมีเป้าหมายเพื่อเพิ่มผลตอบแทนสูงสุดเมื่อโต้ตอบกับสภาพแวดล้อม เช่น รางวัลสูงสุดของเกมส่วนใหญ่คือการได้รับชัยชนะ ระบบการเรียนรู้ด้วยการทำซ้ำจะกลายเป็นผู้เชี่ยวชาญในการเล่นเกมที่ซับซ้อนได้โดยการประเมินลำดับของการเคลื่อนไหวในเกมก่อนหน้านี้ซึ่งนำไปสู่ชัยชนะและลำดับที่นำไปสู่การแพ้

การเรียนรู้แบบเสริมกำลังจากความคิดเห็นของมนุษย์ (RLHF)

#generativeAI
#rl

ใช้ความคิดเห็นจากผู้ให้คะแนนที่เป็นมนุษย์เพื่อปรับปรุงคุณภาพของคำตอบของโมเดล เช่น กลไก RLHF อาจขอให้ผู้ใช้ให้คะแนนคุณภาพของคำตอบของโมเดลด้วยอีโมจิ 👍 หรือ 👎 จากนั้นระบบจะปรับการตอบกลับในอนาคตโดยอิงตามความคิดเห็นนั้น

ReLU

#fundamentals

ตัวย่อของ Rectified Linear Unit

บัฟเฟอร์การเล่นซ้ำ

#rl

ในอัลกอริทึมประเภท DQN หน่วยความจําที่เอเจนต์ใช้เพื่อจัดเก็บการเปลี่ยนสถานะเพื่อใช้ในการทําซ้ำประสบการณ์

ตัวจำลอง

สำเนาชุดข้อมูลการฝึกหรือโมเดล ซึ่งมักจะอยู่ในเครื่องอื่น ตัวอย่างเช่น ระบบอาจใช้กลยุทธ์ต่อไปนี้ในการใช้การขนานกันของข้อมูล

  1. วางแบบจำลองของโมเดลที่มีอยู่ไว้ในเครื่องหลายเครื่อง
  2. ส่งชุดย่อยที่แตกต่างกันของชุดการฝึกไปยังสําเนาแต่ละรายการ
  3. รวมการอัปเดตพารามิเตอร์

อคติในการรายงาน

#fairness

ความจริงที่ว่าความถี่ที่ผู้คนเขียนเกี่ยวกับการกระทำ ผลลัพธ์ หรือที่พักไม่ได้แสดงถึงความถี่ในชีวิตจริงหรือระดับที่ที่พักมีลักษณะเฉพาะของกลุ่มบุคคล ความลำเอียงในการรายงานอาจส่งผลต่อองค์ประกอบของข้อมูลที่ระบบแมชชีนเลิร์นนิงเรียนรู้

เช่น ในหนังสือ คำว่า laughed พบบ่อยกว่าbreathed โมเดลแมชชีนเลิร์นนิงที่ประมาณความถี่สัมพัทธ์ของการหัวเราะและการหายใจจากคลังหนังสืออาจพิจารณาว่าการหัวเราะพบบ่อยกว่าการหายใจ

ดูข้อมูลเพิ่มเติมได้ในความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การนำเสนอ

กระบวนการแมปข้อมูลกับฟีเจอร์ที่มีประโยชน์

การจัดอันดับใหม่

#recsystems

ระยะสุดท้ายของระบบการแนะนำ ซึ่งระบบอาจให้คะแนนรายการที่ได้รับคะแนนแล้วอีกครั้งตามอัลกอริทึมอื่นๆ (โดยทั่วไปไม่ใช่ ML) การจัดอันดับใหม่จะประเมินรายการที่สร้างขึ้นจากระยะการให้คะแนน โดยดำเนินการต่างๆ เช่น

  • การนำรายการที่ผู้ใช้ซื้อไปแล้วออก
  • เพิ่มคะแนนของรายการที่ใหม่กว่า

ดูข้อมูลเพิ่มเติมได้ในการจัดอันดับใหม่ในหลักสูตรระบบการแนะนำ

การสร้างที่เพิ่มการดึงข้อมูล (RAG)

#fundamentals

เทคนิคในการปรับปรุงคุณภาพของเอาต์พุตจากโมเดลภาษาขนาดใหญ่ (LLM) โดยอิงตามแหล่งความรู้ที่ดึงข้อมูลมาหลังจากฝึกโมเดลแล้ว RAG ช่วยเพิ่มความแม่นยำของคำตอบ LLM โดยการอนุญาตให้ LLM ที่ผ่านการฝึกอบรมเข้าถึงข้อมูลที่ดึงมาจากฐานความรู้หรือเอกสารที่เชื่อถือได้

แรงจูงใจทั่วไปในการใช้การสร้างที่เพิ่มการดึงข้อมูล ได้แก่

  • เพิ่มความแม่นยำของข้อเท็จจริงของคำตอบที่โมเดลสร้างขึ้น
  • การให้สิทธิ์เข้าถึงความรู้ที่โมเดลไม่ได้ฝึก
  • การเปลี่ยนความรู้ที่โมเดลใช้
  • การเปิดใช้โมเดลเพื่ออ้างอิงแหล่งที่มา

ตัวอย่างเช่น สมมติว่าแอปเคมีใช้ PaLM API เพื่อสร้างข้อมูลสรุปที่เกี่ยวข้องกับการค้นหาของผู้ใช้ เมื่อแบ็กเอนด์ของแอปได้รับการค้นหา แบ็กเอนด์จะดำเนินการดังนี้

  1. ค้นหา ("ดึงข้อมูล") ข้อมูลที่เกี่ยวข้องกับคําค้นหาของผู้ใช้
  2. ต่อท้าย ("เสริม") ข้อมูลเคมีที่เกี่ยวข้องลงในข้อความค้นหาของผู้ใช้
  3. สั่งให้ LLM สร้างข้อมูลสรุปตามข้อมูลที่ต่อท้าย

รีเทิร์น

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เมื่อพิจารณาจากนโยบายและสถานะหนึ่งๆ ผลตอบแทนคือผลรวมของรางวัลทั้งหมดที่เอเจนต์คาดหวังว่าจะได้รับเมื่อทำตามนโยบายจากสถานะจนถึงสิ้นสุดตอน ตัวแทนจะพิจารณาถึงลักษณะที่ล่าช้าของรางวัลที่คาดไว้โดยการหักรางวัลตามการเปลี่ยนสถานะที่จำเป็นต่อการรับรางวัล

ดังนั้น หากปัจจัยส่วนลดคือ γและ r0,,rNบ่งบอกถึงรางวัลจนกว่าจะจบตอน การคำนวณผลตอบแทนจะมีลักษณะดังนี้

Return=r0+γr1+γ2r2++γN1rN1

รางวัล

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ผลลัพธ์ที่เป็นตัวเลขของการทำการดำเนินการในสถานะตามที่ระบุโดยสภาพแวดล้อม

การปรับแนวสัน

คำพ้องความหมายของ Regularization แบบ 2 คําว่าการปรับยอดใช้ในบริบทสถิติล้วนๆ บ่อยกว่า ส่วนการปรับยอด 2 ใช้ในแมชชีนเลิร์นนิงบ่อยกว่า

RNN

#seq

ตัวย่อของ โครงข่ายประสาทแบบย้อนกลับ

เส้นโค้ง ROC (Receiver Operating Characteristic)

#fundamentals
#Metric

กราฟของอัตราผลบวกจริงเทียบกับอัตราผลบวกลวงสําหรับเกณฑ์การจัดประเภทแบบต่างๆ ในการจัดประเภทแบบไบนารี

รูปร่างของเส้นโค้ง ROC บ่งบอกถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ ตัวอย่างเช่น สมมติว่าโมเดลการจัดประเภทแบบไบนารีแยกคลาสเชิงลบทั้งหมดออกจากคลาสเชิงบวกทั้งหมดได้อย่างสมบูรณ์

เส้นจำนวนที่มีตัวอย่างบวก 8 รายการทางด้านขวาและตัวอย่างลบ 7 รายการทางด้านซ้าย

เส้นโค้ง ROC ของโมเดลก่อนหน้ามีลักษณะดังนี้

เส้นโค้ง ROC โดยแกน X คืออัตราผลบวกลวงและแกน Y คืออัตราผลบวกจริง เส้นโค้งมีรูปร่างคล้ายตัว L กลับหัว เส้นโค้งจะเริ่มต้นที่ (0.0,0.0) และขึ้นตรงๆ ไปที่ (0.0,1.0) จากนั้นเส้นโค้งจะเปลี่ยนจาก (0.0,1.0) เป็น (1.0,1.0)

ในทางตรงกันข้าม ภาพประกอบต่อไปนี้แสดงกราฟค่าการถดถอยเชิงลอจิสติกส์ดิบสําหรับโมเดลที่ทํางานได้แย่มากซึ่งแยกคลาสเชิงลบออกจากคลาสเชิงบวกไม่ได้เลย

เส้นจำนวนที่มีตัวอย่างที่เป็นบวกและคลาสเชิงลบปะปนกัน

เส้นโค้ง ROC ของรูปแบบนี้จะมีลักษณะดังนี้

เส้นโค้ง ROC ซึ่งจริงๆ แล้วคือเส้นตรงจาก (0.0,0.0) ไป (1.0,1.0)

ในทางกลับกัน โมเดลการจัดประเภทแบบไบนารีส่วนใหญ่จะแยกคลาสที่เป็นบวกและลบในระดับหนึ่ง แต่มักจะไม่แยกได้อย่างสมบูรณ์ ดังนั้น กราฟ ROC ทั่วไปจึงอยู่ตรงกลางระหว่าง 2 ค่าสุดขั้วนี้

เส้นโค้ง ROC โดยแกน X คืออัตราผลบวกลวงและแกน Y คืออัตราผลบวกจริง เส้นโค้ง ROC แสดงเป็นเส้นโค้งที่ผันผวนซึ่งลากผ่านจุดต่างๆ ของเข็มทิศจากตะวันตกไปเหนือ

จุดบนเส้นโค้ง ROC ที่ใกล้กับ (0.0,1.0) มากที่สุดจะระบุเกณฑ์การแยกประเภทที่เหมาะสมในทางทฤษฎี อย่างไรก็ตาม ปัญหาอื่นๆ ที่เกิดขึ้นจริงหลายประการส่งผลต่อการเลือกเกณฑ์การจัดประเภทที่เหมาะสม ตัวอย่างเช่น ผลลบเท็จอาจทำให้เกิดปัญหามากกว่าผลบวกเท็จ

เมตริกตัวเลขที่เรียกว่า AUC จะสรุปเส้นโค้ง ROC เป็นค่าทศนิยมเดียว

การแจ้งเตือนบทบาท

#language
#generativeAI

ส่วนที่ไม่บังคับของพรอมต์ที่ระบุกลุ่มเป้าหมายสําหรับคําตอบของโมเดล Generative AI หากไม่มีพรอมต์บทบาท โมเดลภาษาขนาดใหญ่จะให้คำตอบที่อาจเป็นประโยชน์หรือไม่เป็นประโยชน์ก็ได้สําหรับผู้ถาม เมื่อใช้พรอมต์บทบาท โมเดลภาษาขนาดใหญ่จะตอบคำถามในลักษณะที่เหมาะสมและเป็นประโยชน์มากขึ้นสําหรับกลุ่มเป้าหมายที่เฉพาะเจาะจง ตัวอย่างเช่น ส่วนพรอมต์บทบาทของพรอมต์ต่อไปนี้จะเป็นตัวหนา

  • สรุปเอกสารนี้สำหรับปริญญาเอกสาขาเศรษฐศาสตร์
  • อธิบายวิธีการทำงานของน้ำขึ้นน้ำลงสำหรับเด็กอายุ 10 ปี
  • อธิบายวิกฤตการเงินปี 2008 พูดเหมือนพูดกับเด็กเล็กหรือสุนัขพันธุ์โกลเด้นรีทรีฟเวอร์

รูท

#df

โหนดเริ่มต้น (เงื่อนไขแรก) ในแผนภูมิการตัดสินใจ ตามธรรมเนียมแล้ว แผนภาพจะวางรูทไว้ที่ด้านบนของแผนภูมิการตัดสินใจ เช่น

แผนภูมิการตัดสินใจที่มีเงื่อนไข 2 รายการและใบ 3 ใบ เงื่อนไขเริ่มต้น (x > 2) คือรูท

ไดเรกทอรีรูท

#TensorFlow

ไดเรกทอรีที่คุณระบุสำหรับการโฮสต์ไดเรกทอรีย่อยของไฟล์เช็กพอยต์และเหตุการณ์ TensorFlow ของโมเดลหลายรายการ

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)

#fundamentals
#Metric

รากที่สองของความคลาดเคลื่อนกำลังสองเฉลี่ย

ความไม่แปรปรวนตามการหมุน

#image

ในปัญหาการจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพให้สำเร็จแม้ว่าการวางแนวของรูปภาพจะเปลี่ยนไป เช่น อัลกอริทึมจะยังคงระบุไม้เทนนิสได้ไม่ว่าจะชี้ขึ้น ข้างๆ หรือลง โปรดทราบว่าการคงที่ในการหมุนไม่ใช่สิ่งที่ต้องการเสมอไป เช่น ไม่ควรจัดประเภท 9 กลับหัวเป็น 9

ดูข้อมูลเพิ่มเติมได้ที่การคงที่แบบแปลภาษาและการคงที่ของขนาด

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language
#Metric

กลุ่มเมตริกที่ประเมินการสรุปอัตโนมัติและรูปแบบการแปลด้วยคอมพิวเตอร์ เมตริก ROUGE จะระบุระดับที่ข้อความอ้างอิงซ้อนทับกับข้อความที่สร้างขึ้นของโมเดล ML แต่ละสมาชิกของครอบครัว ROUGE จะวัดผลการซ้อนทับกันด้วยวิธีที่แตกต่างกัน คะแนน ROUGE ที่สูงขึ้นบ่งชี้ว่าข้อความอ้างอิงกับข้อความที่สร้างขึ้นมีความคล้ายคลึงกันมากกว่าคะแนน ROUGE ที่ต่ำ

โดยปกติแล้วสมาชิกในครอบครัว ROUGE แต่ละคนจะสร้างเมตริกต่อไปนี้

  • ความแม่นยำ
  • การจดจำ
  • F1

ดูรายละเอียดและตัวอย่างได้ที่

ROUGE-L

#language
#Metric

สมาชิกของตระกูล ROUGE ที่มุ่งเน้นที่ความยาวของอนุกรมย่อยที่พบร่วมกันยาวที่สุดในข้อความอ้างอิงและข้อความที่สร้างขึ้น สูตรต่อไปนี้จะคํานวณการเรียกคืนและความแม่นยําสําหรับ ROUGE-L

ROUGE-L recall=longest common sequencenumber of words in the reference text
ROUGE-L precision=longest common sequencenumber of words in the generated text

จากนั้นคุณสามารถใช้ F1 เพื่อรวมการเรียกคืน ROUGE-L และแม่นยำของ ROUGE-L ไว้ในเมตริกเดียว ดังนี้

ROUGE-L F1=2ROUGE-L recallROUGE-L precisionROUGE-L recall+ROUGE-L precision
พิจารณาข้อความอ้างอิงและข้อความที่สร้างขึ้นต่อไปนี้
หมวดหมู่ ใครเป็นโปรดิวเซอร์ ข้อความ
ข้อความอ้างอิง นักแปล ฉันต้องการทำความเข้าใจสิ่งต่างๆ มากมาย
ข้อความที่สร้างขึ้น โมเดล ML ฉันอยากเรียนรู้สิ่งต่างๆ มากมาย
ดังนั้น
  • อนุกรมย่อยที่พบร่วมกันซึ่งมีความยาวที่สุดคือ 5 (I want to of things)
  • จำนวนคำในข้อความอ้างอิงคือ 9
  • จำนวนคำในข้อความที่สร้างขึ้นคือ 7
ดังนั้น
ROUGE-L recall=59=0.56
ROUGE-L precision=57=0.71
ROUGE-L F1=20.560.710.56+0.71=0.63

ROUGE-L ไม่สนใจการขึ้นบรรทัดใหม่ในข้อความอ้างอิงและข้อความที่สร้างขึ้น ดังนั้นอนุกรมย่อยที่พบร่วมกันยาวที่สุดอาจข้ามหลายประโยค เมื่อข้อความอ้างอิงและข้อความที่สร้างขึ้นมีประโยคหลายประโยค โดยทั่วไปแล้ว รูปแบบของ ROUGE-L ที่ชื่อ ROUGE-Lsum จะถือเป็นเมตริกที่ดีกว่า ROUGE-Lsum จะระบุอนุกรมย่อยที่พบร่วมกันยาวที่สุดสำหรับประโยคแต่ละประโยคในย่อหน้า จากนั้นจะคํานวณค่าเฉลี่ยของอนุกรมย่อยที่พบร่วมกันยาวที่สุดเหล่านั้น

พิจารณาข้อความอ้างอิงและข้อความที่สร้างขึ้นต่อไปนี้
หมวดหมู่ ใครเป็นโปรดิวเซอร์ ข้อความ
ข้อความอ้างอิง นักแปล พื้นผิวของดาวอังคารแห้ง น้ำเกือบทั้งหมดอยู่ใต้ดิน
ข้อความที่สร้างขึ้น โมเดล ML ดาวอังคารมีพื้นผิวแห้ง แต่น้ำส่วนใหญ่อยู่ใต้ดิน
ดังนั้น
ประโยคแรก ประโยคที่ 2
ลำดับที่พบร่วมกันยาวที่สุด2 (แห้งแบบดาวอังคาร) 3 (น้ำอยู่ใต้ดิน)
ความยาวของประโยคในข้อความอ้างอิง 6 7
ความยาวของประโยคในข้อความที่สร้างขึ้น 5 8
ด้วยเหตุนี้
recall of first sentence=26=0.33
recall of second sentence=37=0.43
ROUGE-Lsum recall=0.33+0.432=0.38
precision of first sentence=25=0.4
precision of second sentence=38=0.38
ROUGE-Lsum precision=0.4+0.382=0.39
ROUGE-Lsum F1=20.380.390.38+0.39=0.38

ROUGE-N

#language
#Metric

ชุดเมตริกภายในตระกูล ROUGE ที่เปรียบเทียบ N-gram ที่แชร์ซึ่งมีขนาดที่แน่นอนในข้อความอ้างอิงและข้อความที่สร้างขึ้น เช่น

  • ROUGE-1 จะวัดจํานวนโทเค็นที่แชร์ในข้อความอ้างอิงและข้อความที่สร้างขึ้น
  • ROUGE-2 จะวัดจํานวน Bigram (2-gram) ที่แชร์ในข้อความอ้างอิงและข้อความที่สร้างขึ้น
  • ROUGE-3 จะวัดจํานวน Trigram (3-gram) ที่แชร์ในข้อความอ้างอิงและข้อความที่สร้างขึ้น

คุณสามารถใช้สูตรต่อไปนี้เพื่อคํานวณการเรียกคืนและแม่นยําของ ROUGE-N สําหรับสมาชิกของครอบครัว ROUGE-N

ROUGE-N recall=number of matching N-gramsnumber of N-grams in the reference text
ROUGE-N precision=number of matching N-gramsnumber of N-grams in the generated text

จากนั้นคุณสามารถใช้ F1 เพื่อรวมการเรียกคืน ROUGE-N และแม่นยำของ ROUGE-N ไว้ในเมตริกเดียว ดังนี้

ROUGE-N F1=2ROUGE-N recallROUGE-N precisionROUGE-N recall+ROUGE-N precision
สมมติว่าคุณตัดสินใจใช้ ROUGE-2 เพื่อวัดประสิทธิภาพของคำแปลจากโมเดล ML เทียบกับคำแปลจากนักแปลที่เป็นมนุษย์
หมวดหมู่ ใครเป็นโปรดิวเซอร์ ข้อความ Bigram
ข้อความอ้างอิง นักแปล ฉันต้องการทำความเข้าใจสิ่งต่างๆ มากมาย ฉันต้องการ ทำความเข้าใจ ทำความเข้าใจ หลากหลาย หลากหลาย หลากหลาย
ข้อความที่สร้างขึ้น โมเดล ML ฉันอยากเรียนรู้สิ่งต่างๆ มากมาย ฉันอยาก, อยากที่จะ, เรียนรู้, เรียนรู้สิ่งต่างๆ มากมาย
ดังนั้น
  • จํานวน 2-gram ที่ตรงกันคือ 3 (I want, want to และof things)
  • จำนวน 2-gram ในข้อความอ้างอิงคือ 8
  • จำนวน 2-gram ในข้อความที่สร้างขึ้นคือ 6
ดังนั้น
ROUGE-2 recall=38=0.375
ROUGE-2 precision=36=0.5
ROUGE-2 F1=20.3750.50.375+0.5=0.43

ROUGE-S

#language
#Metric

รูปแบบที่ยืดหยุ่นของ ROUGE-N ที่เปิดใช้การจับคู่ Skip-gram กล่าวคือ ROUGE-N จะนับเฉพาะ N-gram ที่ตรงกันทั้งหมด แต่ ROUGE-S จะนับ N-gram ที่แยกกันด้วยคำอย่างน้อย 1 คำด้วย เช่น โปรดคำนึงถึงสิ่งต่อไปนี้

เมื่อคํานวณ ROUGE-N 2-gram White clouds จะไม่ตรงกับ White billowing clouds อย่างไรก็ตาม เมื่อคำนวณ ROUGE-S คำว่าเมฆสีขาวจะตรงกับเมฆสีขาวที่ลอยอยู่

R-squared

#Metric

เมตริกการถดถอยที่ระบุความแปรปรวนของป้ายกํากับที่เกิดจากฟีเจอร์แต่ละรายการหรือชุดฟีเจอร์ ค่า R-squared คือค่าระหว่าง 0 ถึง 1 ซึ่งคุณตีความได้ดังนี้

  • ค่า R-squared เท่ากับ 0 หมายความว่าความแปรปรวนของป้ายกำกับไม่ได้เกิดจากชุดฟีเจอร์
  • ค่า R-squared เท่ากับ 1 หมายความว่าความแปรปรวนทั้งหมดของป้ายกํากับเกิดจากชุดฟีเจอร์
  • ค่า R-squared ระหว่าง 0 ถึง 1 บ่งบอกถึงระดับที่ความหลากหลายของป้ายกำกับสามารถคาดการณ์ได้จากฟีเจอร์หนึ่งๆ หรือชุดฟีเจอร์ เช่น ค่า R ยกกำลังสอง 0.10 หมายความว่าความแปรปรวน 10 เปอร์เซ็นต์ในป้ายกำกับเกิดจากชุดฟีเจอร์ ค่า R ยกกำลังสอง 0.20 หมายความว่า 20 เปอร์เซ็นต์เกิดจากชุดฟีเจอร์ และอื่นๆ

ค่า R ยกกำลังสองคือค่ากำลังสองของสัมประสิทธิ์สหสัมพันธ์ของ Pearson ระหว่างค่าที่โมเดลคาดการณ์ไว้กับข้อมูลจากการสังเกตการณ์โดยตรง

S

อคติในการสุ่มตัวอย่าง

#fairness

ดูการเลือกแบบลำเอียง

การสุ่มตัวอย่างแบบสุ่มตัวอย่างแทนที่

#df

วิธีการเลือกรายการจากชุดรายการที่เป็นไปได้ ซึ่งสามารถเลือกรายการเดียวกันได้หลายครั้ง วลี "แบบสุ่มแทนที่" หมายความว่าหลังจากเลือกแต่ละรายการแล้ว ระบบจะส่งรายการที่เลือกกลับไปยังกลุ่มรายการที่เป็นไปได้ วิธีการแบบย้อนกลับคือการสุ่มตัวอย่างแบบไม่แทนที่ ซึ่งหมายความว่าจะเลือกรายการที่ตรงตามเกณฑ์ได้เพียงครั้งเดียว

ตัวอย่างเช่น ลองพิจารณาชุดผลไม้ต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

สมมติว่าระบบสุ่มเลือก fig เป็นรายการแรก หากใช้การสุ่มตัวอย่างแบบแทนที่ ระบบจะเลือกรายการที่ 2 จากชุดต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

ใช่ ชุดค่าผสมนั้นเหมือนกับชุดค่าผสมก่อนหน้านี้ ระบบจึงอาจเลือก fig อีกครั้ง

หากใช้การสุ่มตัวอย่างแบบไม่แทนที่ เมื่อเลือกตัวอย่างแล้ว คุณจะเลือกตัวอย่างนั้นไม่ได้อีก ตัวอย่างเช่น หากระบบสุ่มเลือก fig เป็นตัวอย่างแรก ระบบจะไม่เลือก fig อีกครั้ง ดังนั้น ระบบจะเลือกตัวอย่างที่ 2 จากชุด (ที่ลดลง) ต่อไปนี้

fruit = {kiwi, apple, pear, cherry, lime, mango}

คําว่าการสุ่มตัวอย่างแทนที่ในการสุ่มตัวอย่างแทนที่ทําให้ผู้คนจำนวนมากสับสน replacement ในภาษาอังกฤษหมายถึง "substitution" อย่างไรก็ตาม การสุ่มตัวอย่างแบบสุ่มตัวอย่างแทนใช้คําจํากัดความของreplacement ในภาษาฝรั่งเศส ซึ่งหมายถึง "การใส่สิ่งของกลับเข้าไป"

คําภาษาอังกฤษว่า replacement แปลเป็นคําภาษาฝรั่งเศสว่า remplacement


SavedModel

#TensorFlow

รูปแบบที่แนะนําสําหรับการบันทึกและการกู้คืนโมเดล TensorFlow SavedModel เป็นรูปแบบการทำให้เป็นอนุกรมที่กู้คืนได้ซึ่งไม่ขึ้นอยู่กับภาษา ซึ่งช่วยให้ระบบและเครื่องมือระดับสูงขึ้นสร้าง ใช้ และเปลี่ยนรูปแบบโมเดล TensorFlow ได้

ดูรายละเอียดทั้งหมดได้ที่ส่วนการบันทึกและการกู้คืนในคู่มือโปรแกรมเมอร์ TensorFlow

ประหยัด

#TensorFlow

ออบเจ็กต์ TensorFlow ที่มีหน้าที่บันทึกจุดตรวจสอบของโมเดล

สเกลาร์

ตัวเลขเดี่ยวหรือสตริงเดี่ยวที่แสดงเป็นเทนเซอร์อันดับ 0 ได้ ตัวอย่างเช่น บรรทัดโค้ดต่อไปนี้จะสร้างสเกลาร์ 1 รายการใน TensorFlow

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

การปรับขนาด

การเปลี่ยนรูปแบบทางคณิตศาสตร์หรือเทคนิคใดๆ ที่เปลี่ยนช่วงของป้ายกำกับ ค่าฟีเจอร์ หรือทั้ง 2 อย่าง การแปลงรูปแบบบางอย่างมีประโยชน์มากสําหรับการเปลี่ยนรูปแบบ เช่น การปรับให้เป็นมาตรฐาน

รูปแบบการปรับขนาดทั่วไปที่มีประโยชน์ในแมชชีนเลิร์นนิง ได้แก่

  • การแปลงเชิงเส้น ซึ่งโดยทั่วไปจะใช้การลบและการหารร่วมกันเพื่อแทนที่ค่าเดิมด้วยตัวเลขระหว่าง -1 ถึง +1 หรือระหว่าง 0 ถึง 1
  • การปรับขนาดแบบลอการิทึม ซึ่งแทนที่ค่าเดิมด้วยลอการิทึมของค่านั้น
  • การปรับให้เป็นมาตรฐานตามคะแนน z ซึ่งแทนที่ค่าเดิมด้วยค่าทศนิยมที่แสดงจํานวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของฟีเจอร์นั้น

scikit-learn

แพลตฟอร์มแมชชีนเลิร์นนิงแบบโอเพนซอร์สยอดนิยม ดูข้อมูลได้ที่ scikit-learn.org

การให้คะแนน

#recsystems
#Metric

ส่วนหนึ่งของระบบการแนะนำที่ให้ค่าหรือการจัดอันดับสำหรับรายการแต่ละรายการที่สร้างขึ้นจากระยะการสร้างผู้สมัคร

อคติในการเลือก

#fairness

ข้อผิดพลาดในการสรุปที่ได้จากข้อมูลตัวอย่างเนื่องจากกระบวนการเลือกที่ทำให้เกิดความแตกต่างอย่างเป็นระบบระหว่างตัวอย่างที่สังเกตได้ในข้อมูลและตัวอย่างที่ไม่ได้สังเกต ความลำเอียงในการเลือกมีอยู่ในรูปแบบต่อไปนี้

  • อคติด้านความครอบคลุม: ประชากรที่แสดงในชุดข้อมูลไม่ตรงกับประชากรที่โมเดลแมชชีนเลิร์นนิงทำการคาดการณ์
  • การเลือกตัวอย่างแบบลำเอียง: ไม่ได้รวบรวมข้อมูลจากกลุ่มเป้าหมายแบบสุ่ม
  • อคติที่ไม่ตอบ (หรือที่เรียกว่าอคติในการเข้าร่วม): ผู้ใช้จากกลุ่มหนึ่งเลือกไม่ตอบแบบสํารวจในอัตราที่แตกต่างจากผู้ใช้จากกลุ่มอื่น

ตัวอย่างเช่น สมมติว่าคุณกำลังสร้างโมเดลแมชชีนเลิร์นนิงที่คาดการณ์ความพึงพอใจของผู้คนที่มีต่อภาพยนตร์ หากต้องการรวบรวมข้อมูลสำหรับการฝึกอบรม คุณอาจแจกแบบสํารวจให้ทุกคนในแถวหน้าของโรงภาพยนตร์ที่ฉายภาพยนตร์ ฟังดูแล้วอาจดูเหมือนเป็นวิธีที่สมเหตุสมผลในการรวบรวมชุดข้อมูล แต่การเก็บรวบรวมข้อมูลในรูปแบบนี้อาจทำให้เกิดการเลือกแบบลำเอียงในรูปแบบต่อไปนี้

  • ความลำเอียงด้านความครอบคลุม: การสุ่มตัวอย่างจากประชากรที่เลือกดูภาพยนตร์อาจทําให้การคาดการณ์ของโมเดลไม่สามารถนําไปใช้กับผู้ที่ไม่ได้แสดงความสนใจระดับนั้นในภาพยนตร์
  • ความลำเอียงในการสุ่มตัวอย่าง: คุณสุ่มตัวอย่างเฉพาะผู้ที่นั่งแถวหน้าแทนที่จะสุ่มตัวอย่างจากประชากรเป้าหมาย (ทุกคนที่ดูภาพยนตร์) เป็นไปได้ว่าผู้ที่นั่งแถวหน้าสนใจภาพยนตร์มากกว่าผู้ที่นั่งแถวอื่น
  • ความลำเอียงจากการไม่ตอบ: โดยทั่วไปแล้ว ผู้ที่ยึดมั่นในความคิดเห็นของตนมีแนวโน้มที่จะตอบแบบสํารวจที่ไม่บังคับบ่อยกว่าผู้ที่ยึดมั่นในความคิดเห็นของตนไม่มากนัก เนื่องจากแบบสํารวจภาพยนตร์เป็นแบบไม่บังคับ คำตอบจึงมีแนวโน้มที่จะเป็นแบบกระจาย 2 กลุ่มมากกว่าแบบกระจายปกติ (รูประฆัง)

การใส่ใจตนเอง (หรือที่เรียกว่าเลเยอร์การใส่ใจตนเอง)

#language

เลเยอร์เครือข่ายประสาทที่เปลี่ยนลําดับของ Embdedding (เช่น Embdedding โทเค็น) เป็นลําดับ Embdedding อื่น แต่ละการฝังในลำดับเอาต์พุตสร้างขึ้นโดยการรวมข้อมูลจากองค์ประกอบของลำดับอินพุตผ่านกลไกการใส่ใจ

ส่วน self ของ self-attention หมายถึงลำดับที่สนใจตัวมันเอง ไม่ใช่บริบทอื่น การใส่ใจตนเองเป็นหนึ่งในองค์ประกอบหลักของ Transformer และใช้คำศัพท์การค้นหาพจนานุกรม เช่น "การค้นหา" "คีย์" และ "ค่า"

เลเยอร์ Self-Attention เริ่มต้นด้วยลําดับของการแสดงข้อมูลอินพุต 1 รายการสําหรับแต่ละคํา การนําเสนออินพุตสําหรับคําอาจเป็นการฝังข้อมูลแบบง่าย สําหรับคําแต่ละคําในลําดับอินพุต เครือข่ายจะประเมินความเกี่ยวข้องของคํานั้นกับองค์ประกอบทุกรายการในลําดับคําทั้งหมด คะแนนความเกี่ยวข้องจะกําหนดว่าการแสดงผลสุดท้ายของคํารวมเอาการแสดงผลของคําอื่นๆ มากน้อยเพียงใด

ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

สัตว์ไม่ข้ามถนนเพราะเหนื่อยเกินไป

ภาพประกอบต่อไปนี้ (จาก Transformer: A Novel Neural Network Architecture for Language Understanding) แสดงรูปแบบการให้ความสำคัญกับเลเยอร์การให้ความสำคัญกับตนเองสำหรับคำสรรพนาม it โดยความเข้มของเส้นแต่ละเส้นจะบ่งบอกถึงระดับที่แต่ละคำมีส่วนร่วมในการแสดงแทน

ประโยคต่อไปนี้ปรากฏขึ้น 2 ครั้ง: สัตว์ไม่ข้ามถนนเนื่องจากเหนื่อยเกินไป เส้นเชื่อมต่อคำสรรพนาม it ในประโยคหนึ่งกับโทเค็น 5 รายการ (The, animal, street, it และ period) ในประโยคอื่น เส้นแบ่งระหว่างคำสรรพนาม it และคำว่า animal ชัดเจนที่สุด

เลเยอร์การใส่ใจตนเองจะไฮไลต์คำที่เกี่ยวข้องกับ "it" ในกรณีนี้ เลเยอร์ความสนใจได้เรียนรู้ที่จะไฮไลต์คำที่มันอาจอ้างอิงถึง โดยกำหนดน้ำหนักสูงสุดให้กับสัตว์

สําหรับลําดับ โทเค็น n รายการ การใส่ใจตนเองจะเปลี่ยนลําดับของเอ็มเบ็ดดิ้ง n ครั้งแยกกัน โดยเปลี่ยนทีละครั้งในแต่ละตําแหน่งในลําดับ

โปรดดูการใส่ใจและการใส่ใจตนเองแบบ Multi-Head ด้วย

การเรียนรู้แบบควบคุมดูแลด้วยตนเอง

กลุ่มเทคนิคในการแปลงปัญหาแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลเป็นปัญหาแมชชีนเลิร์นนิงที่มีการควบคุมดูแลด้วยการสร้างป้ายกำกับแทนจากตัวอย่างที่ไม่มีป้ายกำกับ

โมเดลที่อิงตาม Transformer บางรุ่น เช่น BERT ใช้การเรียนรู้แบบควบคุมดูแลตนเอง

การฝึกแบบควบคุมดูแลตนเองเป็นแนวทางการเรียนรู้แบบควบคุมดูแลบางส่วน

การฝึกอบรมด้วยตนเอง

รูปแบบหนึ่งของการเรียนรู้แบบควบคุมตนเองที่มีประโยชน์อย่างยิ่งเมื่อเงื่อนไขต่อไปนี้ทั้งหมดเป็นจริง

การฝึกด้วยตนเองจะทํางานโดยการทําซ้ำ 2 ขั้นตอนต่อไปนี้จนกว่าโมเดลจะหยุดปรับปรุง

  1. ใช้แมชชีนเลิร์นนิงที่มีการควบคุมดูแลเพื่อฝึกโมเดลด้วยตัวอย่างที่ติดป้ายกำกับ
  2. ใช้โมเดลที่สร้างในขั้นตอนที่ 1 เพื่อสร้างการคาดการณ์ (ป้ายกํากับ) ในตัวอย่างที่ไม่มีป้ายกํากับ โดยย้ายตัวอย่างที่มีความเชื่อมั่นสูงไปยังตัวอย่างที่มีป้ายกํากับซึ่งมีป้ายกํากับที่คาดการณ์

โปรดทราบว่าแต่ละรอบของขั้นตอนที่ 2 จะเพิ่มตัวอย่างที่มีป้ายกำกับมากขึ้นเพื่อให้ขั้นตอนที่ 1 ใช้ฝึก

การเรียนรู้แบบควบคุมดูแลบางส่วน

การฝึกโมเดลด้วยข้อมูลที่มีตัวอย่างการฝึกบางส่วนมีป้ายกำกับ แต่ตัวอย่างอื่นๆ ไม่มี เทคนิคอย่างหนึ่งของการเรียนรู้แบบควบคุมดูแลบางส่วนคือการอนุมานป้ายกำกับสำหรับตัวอย่างที่ไม่มีป้ายกำกับ จากนั้นฝึกป้ายกำกับที่อนุมานเพื่อสร้างโมเดลใหม่ การเรียนรู้ที่มีการควบคุมดูแลบางส่วนจะมีประโยชน์ในกรณีที่การหาป้ายกำกับมีค่าใช้จ่ายสูงแต่มีตัวอย่างที่ไม่มีป้ายกำกับจำนวนมาก

การฝึกด้วยตนเองเป็นเทคนิคหนึ่งของการเรียนรู้แบบควบคุมบางส่วน

แอตทริบิวต์ที่มีความละเอียดอ่อน

#fairness
แอตทริบิวต์ของมนุษย์ที่อาจได้รับการพิจารณาเป็นพิเศษเนื่องจากเหตุผลทางกฎหมาย ทางจริยธรรม ทางสังคม หรือส่วนบุคคล

การวิเคราะห์ความเห็น

#language

การใช้อัลกอริทึมสถิติหรือแมชชีนเลิร์นนิงเพื่อพิจารณาทัศนคติโดยรวมของกลุ่ม (เชิงบวกหรือเชิงลบ) ต่อบริการ ผลิตภัณฑ์ องค์กร หรือหัวข้อ เช่น เมื่อใช้ความเข้าใจภาษาธรรมชาติ อัลกอริทึมอาจทำการวิเคราะห์ความรู้สึกในความคิดเห็นที่เป็นข้อความจากหลักสูตรของมหาวิทยาลัยเพื่อพิจารณาระดับที่นักเรียนชอบหรือไม่ชอบหลักสูตรโดยทั่วไป

ดูข้อมูลเพิ่มเติมได้ที่คู่มือการจัดประเภทข้อความ

รูปแบบลําดับ

#seq

โมเดลที่อินพุตมีความเกี่ยวข้องตามลำดับ เช่น การคาดคะเนวิดีโอถัดไปที่จะรับชมจากลําดับวิดีโอที่ดูก่อนหน้านี้

งานแบบอนุกรมต่ออนุกรม

#language

งานที่จะแปลงลำดับอินพุตของโทเค็นเป็นลำดับเอาต์พุตของโทเค็น ตัวอย่างเช่น งานประเภทอนุกรมต่ออนุกรมที่ได้รับความนิยม 2 ประเภท ได้แก่

  • ผู้แปล
    • ตัวอย่างลำดับอินพุต: "ฉันรักคุณ"
    • ตัวอย่างลำดับเอาต์พุต: "Je t'aime."
  • การตอบคําถาม
    • ตัวอย่างลำดับอินพุต: "Do I need my car in New York City?" (ฉันต้องใช้รถในนิวยอร์กซิตี้ไหม)
    • ตัวอย่างลำดับเอาต์พุต: "ไม่ โปรดจอดรถไว้ที่บ้าน"

หน่วยบริโภค

กระบวนการทําให้โมเดลที่ผ่านการฝึกพร้อมใช้งานเพื่อคาดการณ์ผ่านการอนุมานออนไลน์หรือการอนุมานแบบออฟไลน์

รูปร่าง (Tensor)

จํานวนองค์ประกอบในมิติข้อมูลแต่ละรายการของเทนเซอร์ รูปร่างจะแสดงเป็นรายการจำนวนเต็ม ตัวอย่างเช่น เทนเซอร์ 2 มิติต่อไปนี้มีรูปร่างเป็น [3,4]

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow ใช้รูปแบบแถวหลัก (สไตล์ C) เพื่อแสดงลําดับของมิติข้อมูล ด้วยเหตุนี้รูปร่างใน TensorFlow จึงต้องเป็น [3,4] ไม่ใช่ [4,3] กล่าวคือ ใน Tensor ของ TensorFlow แบบ 2 มิติ รูปร่างจะคือ [จํานวนแถว จํานวนคอลัมน์]

รูปร่างแบบคงที่คือรูปร่างของเทมพอร์ที่ทราบ ณ เวลาที่คอมไพล์

รูปร่างแบบไดนามิกไม่รู้จักในเวลาคอมไพล์ จึงขึ้นอยู่กับข้อมูลรันไทม์ เทนเซอร์นี้อาจแสดงด้วยมิติข้อมูลตัวยึดตําแหน่งใน TensorFlow ดังใน [3, ?]

ชาร์ด

#TensorFlow
#GoogleCloud

การแบ่งชุดข้อมูลการฝึกหรือโมเดลอย่างมีเหตุผล โดยทั่วไป กระบวนการบางอย่างจะสร้างกลุ่มย่อยโดยการแบ่งตัวอย่างหรือพารามิเตอร์ออกเป็นกลุ่มที่มีขนาดเท่าๆ กัน (โดยปกติ) จากนั้นระบบจะกำหนดแต่ละกลุ่มให้กับเครื่องที่แตกต่างกัน

การแยกกลุ่มโมเดลเรียกว่าการทํางานแบบขนานของโมเดล ส่วนการแยกกลุ่มข้อมูลเรียกว่าการทํางานแบบขนานของข้อมูล

การลดลง

#df

ไฮเปอร์พารามิเตอร์ในการเพิ่มประสิทธิภาพด้วยการเพิ่มการลาดชันที่ควบคุมการประมาณที่มากเกินไป การลดลงในการเพิ่มประสิทธิภาพด้วยการเพิ่มการลาดชันจะคล้ายกับอัตราการเรียนรู้ในการลดการลาดชัน การหดตัวคือค่าทศนิยมระหว่าง 0.0 ถึง 1.0 ค่าการหดตัวที่ต่ำลงจะช่วยลดการพอดีมากเกินไปได้มากกว่าค่าการหดตัวที่สูง

ฟังก์ชัน Sigmoid

#fundamentals

ฟังก์ชันทางคณิตศาสตร์ที่ "บีบอัด" ค่าอินพุตให้อยู่ในช่วงที่จํากัด ซึ่งโดยทั่วไปคือ 0 ถึง 1 หรือ -1 ถึง +1 กล่าวคือ คุณสามารถส่งตัวเลขใดก็ได้ (2 ล้าน ลบ 1,000 ล้าน หรืออะไรก็ตาม) ไปยัง Sigmoid และเอาต์พุตจะยังคงอยู่ในช่วงที่จํากัด ผังฟังก์ชันการเปิดใช้งาน Sigmoid มีลักษณะดังนี้

ผังโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมนจาก -infinity ถึง +positive ส่วนค่า y ครอบคลุมช่วงเกือบ 0 ถึงเกือบ 1 เมื่อ x เป็น 0, y เป็น 0.5 ความชันของเส้นโค้งเป็นค่าบวกเสมอ โดยมีค่าสูงสุดที่ 0,0.5 และค่อยๆ ลดลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ฟังก์ชัน Sigmoid มีประโยชน์หลายอย่างในแมชชีนเลิร์นนิง ดังนี้

ฟังก์ชัน Sigmoid ของจำนวนอินพุต x มีสูตรดังนี้

sigmoid(x)=11+ex

ในแมชชีนเลิร์นนิง โดยทั่วไป x จะเป็นผลรวมถ่วงน้ำหนัก


การวัดความคล้ายคลึง

#clustering
#Metric

ในอัลกอริทึมการจัดกลุ่ม เมตริกที่ใช้เพื่อระบุความคล้ายคลึงกัน (ความคล้ายกัน) ของตัวอย่าง 2 รายการ

โปรแกรมเดียว / ข้อมูลหลายรายการ (SPMD)

เทคนิคการทำงานแบบขนานที่ดำเนินการคํานวณเดียวกันกับข้อมูลอินพุตที่แตกต่างกันในอุปกรณ์ต่างๆ พร้อมกัน เป้าหมายของ SPMD คือเพื่อให้ได้ผลลัพธ์เร็วขึ้น ซึ่งเป็นรูปแบบการเขียนโปรแกรมแบบขนานที่พบบ่อยที่สุด

ความไม่เปลี่ยนแปลงตามขนาด

#image

ในปัญหาการจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพให้สำเร็จแม้ว่าขนาดของรูปภาพจะเปลี่ยนแปลงไป ตัวอย่างเช่น อัลกอริทึมจะยังคงระบุแมวได้ไม่ว่าจะใช้พิกเซล 2 ล้านพิกเซลหรือ 200,000 พิกเซล โปรดทราบว่าอัลกอริทึมการจัดประเภทรูปภาพที่ดีที่สุดก็ยังมีข้อจำกัดด้านขนาดที่คงที่ ตัวอย่างเช่น อัลกอริทึม (หรือมนุษย์) ไม่สามารถจัดประเภทรูปภาพแมวที่มีขนาดเพียง 20 พิกเซลได้อย่างถูกต้อง

ดูข้อมูลเพิ่มเติมได้ที่การคงที่แบบแปลและการคงที่แบบหมุน

ดูข้อมูลเพิ่มเติมได้ที่หลักสูตรการคลัสเตอร์

การสเก็ตช์ภาพ

#clustering

ในแมชชีนเลิร์นนิงที่ไม่มีการกำกับดูแล ซึ่งเป็นหมวดหมู่อัลกอริทึมที่ทําการวิเคราะห์ความคล้ายคลึงเบื้องต้นในตัวอย่าง อัลกอริทึมการร่างภาพใช้ ฟังก์ชันแฮชที่คำนึงถึงตำแหน่งเพื่อระบุจุดที่มีแนวโน้มจะคล้ายกัน จากนั้นจึงจัดกลุ่มจุดเหล่านั้นเป็นกลุ่ม

การร่างภาพจะลดการประมวลผลที่จําเป็นสําหรับการคํานวณความคล้ายคลึงในชุดข้อมูลขนาดใหญ่ เราจะคำนวณความคล้ายคลึงสำหรับคู่ตัวอย่างแต่ละคู่ภายในแต่ละที่เก็บเท่านั้น แทนที่จะคำนวณความคล้ายคลึงสำหรับคู่ตัวอย่างทุกคู่ในชุดข้อมูล

Skip-gram

#language

N-gram ซึ่งอาจละเว้น (หรือ "ข้าม") คําจากบริบทเดิม ซึ่งหมายความว่าคํา N คําอาจไม่ได้อยู่ติดกันตั้งแต่แรก กล่าวอย่างละเอียดคือ "k-skip-n-gram" คือ n-gram ที่อาจมีการข้ามคำได้สูงสุด k คำ

เช่น "the quick brown fox" มี 2-gram ที่เป็นไปได้ดังต่อไปนี้

  • "the quick"
  • "quick brown"
  • "หมาป่าสีน้ำตาล"

"1-skip-2-gram" คือคู่คำที่มีคำคั่นระหว่างกันไม่เกิน 1 คำ ดังนั้น "the quick brown fox" จึงมี 2-gram แบบข้าม 1 รายการดังต่อไปนี้

  • "the brown"
  • "quick fox"

นอกจากนี้ 2-gram ทั้งหมดยังเป็น 1-skip-2-gram ด้วย เนื่องจากอาจข้ามได้น้อยกว่า 1 คำ

Skip-gram มีประโยชน์ในการทําความเข้าใจบริบทรอบๆ คํามากขึ้น ในตัวอย่างนี้ "fox" เชื่อมโยงโดยตรงกับ "quick" ในชุด 1-skip-2-gram แต่ไม่ได้อยู่ในชุด 2-gram

Skip-gram ช่วยฝึกโมเดลการฝังคำ

Softmax

#fundamentals

ฟังก์ชันที่กําหนดความน่าจะเป็นสําหรับแต่ละคลาสที่เป็นไปได้ในโมเดลการจัดประเภทแบบหลายคลาส ความน่าจะเป็นทั้งหมดจะเท่ากับ 1.0 เช่น ตารางต่อไปนี้แสดงวิธีที่ Softmax แจกแจงความน่าจะเป็นต่างๆ

รูปภาพเป็น... Probability
สุนัข .85
แมว .13
ม้า .02

Softmax เรียกอีกอย่างว่า Full Softmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

สมการ Softmax มีดังนี้

σi=ezij=1j=Kezj
where:
  • σi คือเวกเตอร์เอาต์พุต องค์ประกอบแต่ละรายการของเวกเตอร์เอาต์พุตจะระบุความน่าจะเป็นขององค์ประกอบนี้ ผลรวมขององค์ประกอบทั้งหมดในเวกเตอร์เอาต์พุตคือ 1.0 เวกเตอร์เอาต์พุตมีจำนวนองค์ประกอบเท่ากับเวกเตอร์อินพุต z
  • z คือเวกเตอร์อินพุต องค์ประกอบแต่ละรายการของเวกเตอร์อินพุตจะมีค่าทศนิยม
  • K คือจํานวนองค์ประกอบในเวกเตอร์อินพุต (และเวกเตอร์เอาต์พุต)

เช่น สมมติว่าเวกเตอร์อินพุตคือ

[1.2, 2.5, 1.8]

ดังนั้น Softmax จะคํานวณตัวหารดังนี้

denominator=e1.2+e2.5+e1.8=21.552

ดังนั้นความน่าจะเป็นแบบ Softmax ขององค์ประกอบแต่ละรายการจึงเท่ากับ

σ1=e1.221.552=0.154
σ2=e2.521.552=0.565
σ1=e1.821.552=0.281

ดังนั้นเวกเตอร์เอาต์พุตจึงมีดังนี้

σ=[0.154,0.565,0.281]

ผลรวมขององค์ประกอบ 3 รายการใน σ คือ 1.0 ในที่สุด


ดูข้อมูลเพิ่มเติมได้ที่เครือข่ายประสาท: การแยกประเภทหลายคลาสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การปรับแต่งพรอมต์แบบนุ่ม

#language
#generativeAI

เทคนิคการปรับโมเดลภาษาขนาดใหญ่สำหรับงานหนึ่งๆ โดยไม่ต้องปรับแต่งอย่างละเอียดซึ่งต้องใช้ทรัพยากรมาก การปรับพรอมต์แบบนุ่มนวลจะปรับพรอมต์โดยอัตโนมัติเพื่อให้บรรลุเป้าหมายเดียวกันแทนที่จะฝึกน้ำหนักทั้งหมดในโมเดลใหม่

เมื่อได้รับพรอมต์ที่เป็นข้อความ การปรับพรอมต์แบบ Soft มักจะเพิ่มการฝังโทเค็นเพิ่มเติมลงในพรอมต์ และใช้ Backpropagation เพื่อเพิ่มประสิทธิภาพอินพุต

พรอมต์ "แบบแข็ง" จะมีโทเค็นจริงแทนการฝังโทเค็น

องค์ประกอบที่กระจัดกระจาย

#language
#fundamentals

ฟีเจอร์ที่มีค่าเป็น 0 หรือว่างเปล่าเป็นส่วนใหญ่ เช่น ฟีเจอร์ที่มีค่า 1 รายการเดียวและค่า 0 1 ล้านรายการจะมีความกระจัดกระจาย ในทางตรงกันข้าม ฟีเจอร์แบบหนาแน่นมีค่าที่ส่วนใหญ่ไม่ใช่ 0 หรือว่าง

ในแมชชีนเลิร์นนิง ฟีเจอร์จำนวนมากเป็นฟีเจอร์ที่กระจัดกระจาย ฟีเจอร์เชิงหมวดหมู่มักจะเป็นฟีเจอร์ที่กระจัดกระจาย เช่น จากต้นไม้ 300 สายพันธุ์ที่เป็นไปได้ในป่า ตัวอย่างเดียวอาจระบุได้แค่ต้นเมเปิล หรือจากวิดีโอที่เป็นไปได้หลายล้านรายการในคลังวิดีโอ ตัวอย่างเพียงรายการเดียวอาจระบุแค่ "Casablanca"

ในโมเดล โดยทั่วไปคุณแสดงฟีเจอร์แบบเบาบางด้วยการเข้ารหัสแบบฮอตเวิร์ก หากการเข้ารหัสแบบฮอตเวิร์กมีขนาดใหญ่ คุณอาจใส่เลเยอร์การฝังไว้ด้านบนการเข้ารหัสแบบฮอตเวิร์กเพื่อให้มีประสิทธิภาพมากขึ้น

การนําเสนอแบบเบาบาง

#language
#fundamentals

การจัดเก็บเฉพาะตําแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์แบบเบาบาง

ตัวอย่างเช่น สมมติว่าองค์ประกอบเชิงหมวดหมู่ชื่อ species ระบุสายพันธุ์ต้นไม้ 36 ชนิดในป่าแห่งหนึ่ง และสมมติเพิ่มเติมว่า ตัวอย่างแต่ละรายการระบุเพียงสปีชีส์เดียว

คุณสามารถใช้เวกเตอร์แบบฮอตเวิร์ก 1 รายการเพื่อแสดงสายพันธุ์ต้นไม้ในแต่ละตัวอย่าง เวกเตอร์แบบฮอตเวิร์กเดียวจะมี 1 รายการเดียว (เพื่อแสดงถึงพันธุ์ไม้บางชนิดในตัวอย่างนั้น) และ 0 35 รายการ (เพื่อแสดงถึงพันธุ์ไม้ 35 ชนิดที่ไม่อยู่ในตัวอย่างนั้น) ดังนั้นการนําเสนอแบบฮอตเวิร์ดของ maple จึงอาจมีลักษณะดังนี้

เวกเตอร์ที่ตําแหน่ง 0 ถึง 23 มีค่าเป็น 0 ตําแหน่ง 24 มีค่าเป็น 1 และตําแหน่ง 25 ถึง 35 มีค่าเป็น 0

หรือการแสดงแบบเบาบางจะระบุตำแหน่งของพันธุ์นั้นๆ เท่านั้น หาก maple อยู่ที่ตําแหน่ง 24 การแสดงแบบเบาบางของ maple จะเป็นดังนี้

24

โปรดสังเกตว่าการนําเสนอแบบเบาบางมีความกะทัดรัดกว่าการนําเสนอแบบฮอตเวิร์ก

สมมติว่าตัวอย่างแต่ละรายการในโมเดลต้องแสดงคำ (แต่ไม่แสดงลําดับของคําเหล่านั้น) ในประโยคภาษาอังกฤษ ภาษาอังกฤษประกอบด้วยคำประมาณ 170,000 คำ ดังนั้นภาษาอังกฤษจึงเป็นฟีเจอร์เชิงหมวดหมู่ที่มีองค์ประกอบประมาณ 170,000 รายการ ประโยคภาษาอังกฤษส่วนใหญ่ใช้คำเพียงส่วนน้อยมากของคำ 170,000 คำดังกล่าว ชุดคำในตัวอย่างเดียวจึงมีแนวโน้มสูงที่จะกลายเป็นข้อมูลเบาบาง

ลองพิจารณาประโยคต่อไปนี้

My dog is a great dog

คุณอาจใช้ตัวแปรของเวกเตอร์แบบฮอตเวิร์กเพื่อแสดงคําในประโยคนี้ได้ ในตัวแปรนี้ เซลล์หลายเซลล์ในเวกเตอร์อาจมีค่าที่ไม่ใช่ 0 นอกจากนี้ ในตัวแปรนี้ เซลล์อาจมีจำนวนเต็มอื่นที่ไม่ใช่ 1 แม้ว่าคำว่า "my", "is", "a" และ "great" จะปรากฏเพียงครั้งเดียวในประโยค แต่คำว่า "dog" ปรากฏ 2 ครั้ง การใช้เวกเตอร์ One-Hot รูปแบบนี้เพื่อแสดงคําในประโยคนี้จะให้เวกเตอร์องค์ประกอบ 170,000 รายการดังต่อไปนี้

เวกเตอร์จำนวนเต็ม 170,000 รายการ ตัวเลข 1 อยู่ที่ตำแหน่งเวกเตอร์ 0, 45770, 58906 และ 91520 ตัวเลข 2 อยู่ตําแหน่ง 26,100
          ตำแหน่งที่เหลือ 169,996 ตำแหน่งจะเป็นเลข 0

การแสดงประโยคเดียวกันแบบเบาบางจะเป็นดังนี้

0: 1
26100: 2
45770: 1
58906: 1
91520: 1

คําว่า "การนําเสนอแบบเบาบาง" ทําให้ผู้คนจำนวนมากสับสน เนื่องจากการนําเสนอแบบเบาบางไม่ใช่เวกเตอร์แบบเบาบาง แต่การแสดงผลแบบเบาบางคือการแสดงผลแบบหนาแน่นของเวกเตอร์แบบเบาบาง คำพ้องความหมายอย่างการนําเสนอดัชนีมีความชัดเจนกว่า "การนําเสนอแบบเบาบาง" เล็กน้อย


ดูข้อมูลเพิ่มเติมที่หัวข้อการทํางานกับข้อมูลเชิงหมวดหมู่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เวกเตอร์แบบเบาบาง

#fundamentals

เวกเตอร์ที่มีค่าเป็น 0 ส่วนใหญ่ โปรดดูฟีเจอร์แบบเบาบางและความเบาบางด้วย

การขาดแคลนข้อมูล

#Metric

จํานวนองค์ประกอบที่ตั้งค่าเป็น 0 (หรือ Null) ในเวกเตอร์หรือเมทริกซ์หารด้วยจํานวนรายการทั้งหมดในเวกเตอร์หรือเมทริกซ์นั้น ตัวอย่างเช่น ลองพิจารณาเมทริกซ์ที่มีองค์ประกอบ 100 รายการ ซึ่ง 98 เซลล์มีค่าเป็น 0 การคำนวณความถี่ต่ำมีดังนี้

sparsity=98100=0.98

ความถี่ต่ำของฟีเจอร์หมายถึงความถี่ต่ำของเวกเตอร์ฟีเจอร์ ส่วนความถี่ต่ำของโมเดลหมายถึงความถี่ต่ำของน้ำหนักโมเดล

การรวมข้อมูลเชิงพื้นที่

#image

ดูการรวม

แยก

#df

ในแผนภูมิการตัดสินใจ ชื่อเรียกอีกอย่างของเงื่อนไข

ตัวแยก

#df

ขณะฝึกแผนผังการตัดสินใจ รูทีน (และอัลกอริทึม) จะมีหน้าที่ค้นหาเงื่อนไขที่ดีที่สุดในแต่ละโหนด

SPMD

ตัวย่อของโปรแกรมเดียว / ข้อมูลหลายรายการ

ผลรวมของการสูญเสียบานพับกำลังสอง

#Metric

ผลคูณของ การสูญเสียจากการเปิด/ปิด ผลรวมของการสูญเสียแบบสี่เหลี่ยมจัตุรัสจะลงโทษค่าที่ผิดปกติรุนแรงกว่าผลรวมของการสูญเสียแบบปกติ

ผลรวมของข้อผิดพลาดกำลังสอง

#fundamentals
#Metric

คำพ้องความหมายของการสูญเสีย L2

การฝึกแบบเป็นขั้น

#language

กลยุทธ์การฝึกโมเดลตามลำดับขั้นตอนที่แยกกัน เป้าหมายอาจเป็นการเร่งกระบวนการฝึกอบรมหรือเพื่อให้ได้โมเดลที่มีคุณภาพดีขึ้น

ภาพแสดงแนวทางการซ้อนแบบเป็นขั้นๆ มีดังนี้

  • ระยะที่ 1 มีเลเยอร์ที่ซ่อนอยู่ 3 เลเยอร์ ระยะที่ 2 มีเลเยอร์ที่ซ่อนอยู่ 6 เลเยอร์ และระยะที่ 3 มีเลเยอร์ที่ซ่อนอยู่ 12 เลเยอร์
  • ระยะที่ 2 จะเริ่มการฝึกด้วยน้ำหนักที่เรียนรู้ในเลเยอร์ที่ซ่อนอยู่ 3 เลเยอร์ของระยะที่ 1 ระยะที่ 3 จะเริ่มการฝึกด้วยน้ำหนักที่เรียนรู้ในเลเยอร์ที่ซ่อนอยู่ 6 เลเยอร์ของระยะที่ 2

3 ระยะ ซึ่งมีการติดป้ายกำกับไว้ว่าระยะที่ 1, ระยะที่ 2 และระยะที่ 3
          แต่ละระยะมีจำนวนเลเยอร์แตกต่างกัน โดยระยะที่ 1 มี 3 เลเยอร์ ระยะที่ 2 มี 6 เลเยอร์ และระยะที่ 3 มี 12 เลเยอร์
          เลเยอร์ 3 ชั้นจากระยะที่ 1 จะกลายเป็นเลเยอร์ 3 ชั้นแรกของระยะที่ 2
          ในทํานองเดียวกัน เลเยอร์ 6 ชั้นจากระยะที่ 2 จะกลายเป็นเลเยอร์ 6 ชั้นแรกของระยะที่ 3

โปรดดูการไปป์ไลน์ด้วย

รัฐ

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ค่าพารามิเตอร์ที่อธิบายการกำหนดค่าปัจจุบันของสภาพแวดล้อม ซึ่งเอเจนต์ใช้เพื่อเลือกการดำเนินการ

ฟังก์ชันค่าสถานะ-การดำเนินการ

#rl

คำพ้องความหมายของ ฟังก์ชัน Q

คงที่

#fundamentals

การดำเนินการแบบครั้งเดียวแทนที่จะเป็นการดำเนินการอย่างต่อเนื่อง คําว่าคงที่และออฟไลน์เป็นคําพ้องความหมาย ต่อไปนี้เป็นการใช้งานทั่วไปของแบบคงที่และออฟไลน์ในแมชชีนเลิร์นนิง

  • โมเดลแบบคงที่ (หรือโมเดลออฟไลน์) คือโมเดลที่ฝึกเพียงครั้งเดียวแล้วนําไปใช้เป็นระยะเวลาหนึ่ง
  • การฝึกแบบคงที่ (หรือการฝึกแบบออฟไลน์) คือกระบวนการฝึกโมเดลแบบคงที่
  • การอนุมานแบบคงที่ (หรือการอนุมานแบบออฟไลน์) เป็นกระบวนการที่โมเดลสร้างการคาดการณ์หลายรายการพร้อมกัน

ตรงข้ามกับแบบไดนามิก

การให้เหตุผลแบบคงที่

#fundamentals

คำพ้องความหมายของการอนุมานแบบออฟไลน์

ความเป็นสถานี

#fundamentals

ฟีเจอร์ที่มีค่าไม่เปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักจะเป็นเวลา เช่น ฟีเจอร์ที่มีค่าใกล้เคียงกันในปี 2021 และ 2023 แสดงถึงความคงที่

ในสถานการณ์จริง ฟีเจอร์มีสถานะคงที่เพียงไม่กี่รายการ แม้แต่องค์ประกอบที่สื่อถึงความมั่นคง (เช่น ระดับน้ำทะเล) ก็เปลี่ยนแปลงไปตามกาลเวลา

ตรงข้ามกับความไม่เป็นเชิงเส้น

ขั้นตอน

การส่งต่อและการส่งกลับกลุ่ม 1 กลุ่ม

ดูข้อมูลเพิ่มเติมเกี่ยวกับการส่งผ่านไปข้างหน้าและการส่งผ่านกลับได้ที่Backpropagation

ขนาดของขั้น

คำพ้องความหมายของอัตราการเรียนรู้

การลดเชิงสุ่มตามลาดชัน (SGD)

#fundamentals

อัลกอริทึมการลดเชิงลาดซึ่งมีขนาดกลุ่มเท่ากับ 1 กล่าวคือ SGD จะฝึกจากตัวอย่างเดียวที่เลือกแบบสุ่มอย่างสม่ำเสมอจากชุดข้อมูลการฝึก

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: ไฮเปอร์พารามิเตอร์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ระยะก้าว

#image

ในการดำเนินการแบบ Convolution หรือ Pooling เดลต้าในแต่ละมิติข้อมูลของชุดข้อมูลถัดไป ตัวอย่างเช่น ภาพเคลื่อนไหวต่อไปนี้แสดงระยะ (1,1) ระหว่างการดำเนินการ Conv ดังนั้น ข้อมูลโค้ดถัดไปจึงเริ่มต้นที่ตำแหน่งด้านขวาของข้อมูลโค้ดก่อนหน้า 1 ตำแหน่ง เมื่อการดำเนินการถึงขอบขวาแล้ว ส่วนของภาพถัดไปจะเลื่อนไปทางซ้ายสุดแต่ลง 1 ตำแหน่ง

เมทริกซ์อินพุต 5x5 และตัวกรองการแปลง 3x3 เนื่องจากระยะการเลื่อนคือ (1,1) ระบบจะใช้ตัวกรองแบบ Convolution 9 ครั้ง ส่วนการแปลงคอนโวลูชันแรกจะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านซ้ายบนของเมทริกซ์อินพุต ส่วนที่สองจะประเมินเมทริกซ์ย่อย 3x3 ตรงกลางด้านบน ส่วนโคนฟิวชันที่ 3 จะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านขวาบน ส่วนตัดที่ 4 จะประเมินเมทริกซ์ย่อย 3x3 ทางด้านซ้ายตรงกลาง
     ส่วนที่หกที่ 5 จะประเมินเมทริกซ์ย่อยขนาด 3x3 ตรงกลาง ส่วนที่หกที่ประเมินคือเมทริกซ์ย่อย 3x3 ตรงกลางด้านขวา ส่วนตัดที่ 7 จะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านซ้ายล่าง ส่วนที่เป็นส่วนที่ 8 จะประเมินเมทริกซ์ย่อย 3x3 ที่ตรงกลางด้านล่าง ส่วนที่สิบจะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านขวาล่าง

ตัวอย่างก่อนหน้านี้แสดงการก้าว 2 มิติ หากเมทริกซ์อินพุตเป็นแบบ 3 มิติ ระยะห่างจะเป็นแบบ 3 มิติด้วย

การลดความเสี่ยงทางโครงสร้าง (SRM)

อัลกอริทึมที่ปรับสมดุลเป้าหมาย 2 อย่าง ได้แก่

  • ความจำเป็นในการสร้างโมเดลการคาดการณ์มากที่สุด (เช่น ความเสียหายต่ำสุด)
  • ความจำเป็นในการรักษาโมเดลให้เรียบง่ายที่สุด (เช่น การปรับให้เหมาะสมอย่างเข้มงวด)

เช่น ฟังก์ชันที่ลดการสูญเสีย+การปรับให้เหมาะสมในชุดข้อมูลการฝึกอบรมคืออัลกอริทึมการลดความเสี่ยงเชิงโครงสร้าง

ตรงข้ามกับการลดความเสี่ยงเชิงประจักษ์

การสุ่มตัวอย่างย่อย

#image

ดูการรวม

โทเค็นคำย่อย

#language

ในโมเดลภาษา โทเค็นคือสตริงย่อยของคํา ซึ่งอาจเป็นทั้งคํา

เช่น คําอย่าง "แจกแจง" อาจแบ่งออกเป็น "รายการ" (รากคํา) และ "แจกแจง" (ส่วนต่อท้าย) ซึ่งแต่ละรายการจะแสดงด้วยโทเค็นของตัวเอง การแยกคำที่ไม่พบบ่อยออกเป็นส่วนๆ ที่เรียกว่าคำย่อยจะช่วยให้โมเดลภาษาทำงานกับองค์ประกอบที่พบบ่อยกว่าของคำได้ เช่น คำนำหน้าและคำต่อท้าย

ในทางกลับกัน คําทั่วไปอย่าง "going" อาจไม่แบ่งออกเป็นส่วนๆ และอาจแสดงด้วยโทเค็นเดียว

สรุป

#TensorFlow

ใน TensorFlow ค่าหรือชุดค่าที่คํานวณในขั้นตอนหนึ่งๆ ซึ่งมักใช้ติดตามเมตริกของโมเดลระหว่างการฝึก

แมชชีนเลิร์นนิงที่มีการควบคุมดูแล

#fundamentals

การฝึกโมเดลจากฟีเจอร์และป้ายกำกับที่เกี่ยวข้อง แมชชีนเลิร์นนิงที่มีการควบคุมนั้นคล้ายกับการได้เรียนรู้เรื่องหนึ่งๆ โดยการศึกษาชุดคําถามและคําตอบที่เกี่ยวข้อง หลังจากเชี่ยวชาญการเชื่อมโยงระหว่างคำถามกับคำตอบแล้ว นักเรียนจะตอบคำถามใหม่ (ที่ไม่เคยเห็นมาก่อน) ในหัวข้อเดียวกันได้

เปรียบเทียบกับแมชชีนเลิร์นนิงแบบไม่ควบคุมดูแล

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบควบคุมในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับ ML

องค์ประกอบสังเคราะห์

#fundamentals

องค์ประกอบที่ไม่มีอยู่ในองค์ประกอบอินพุต แต่ประกอบขึ้นจากองค์ประกอบอย่างน้อย 1 รายการ วิธีการสร้างฟีเจอร์ที่ผ่านการสังเคราะห์มีดังนี้

  • การจัดกลุ่มองค์ประกอบแบบต่อเนื่องลงในที่เก็บข้อมูลช่วง
  • การสร้างการครอสฟีเจอร์
  • การคูณ (หรือหาร) ค่าฟีเจอร์หนึ่งด้วยค่าฟีเจอร์อื่นๆ หรือคูณด้วยค่าของฟีเจอร์นั้นเอง ตัวอย่างเช่น หาก a และ b เป็นฟีเจอร์อินพุต ตัวอย่างฟีเจอร์สังเคราะห์มีดังนี้
    • ab
    • a2
  • การใช้ฟังก์ชันที่ไม่ใช่ตรีโกณมิติกับค่าองค์ประกอบ เช่น หาก c เป็นฟีเจอร์อินพุต ตัวอย่างฟีเจอร์สังเคราะห์มีดังนี้
    • sin(c)
    • ln(c)

ฟีเจอร์ที่สร้างขึ้นโดยการการปรับให้เป็นมาตรฐานหรือการปรับขนาดเพียงอย่างเดียวไม่ถือเป็นฟีเจอร์สังเคราะห์

T

T5

#language

โมเดลการเรียนรู้แบบโอนจากข้อความหนึ่งไปยังอีกข้อความหนึ่งซึ่ง AI ของ Google เปิดตัวในปี 2020 T5 เป็นโมเดลโปรแกรมเปลี่ยนไฟล์-โปรแกรมถอดรหัสที่อิงตามสถาปัตยกรรม Transformer ซึ่งได้รับการฝึกด้วยชุดข้อมูลขนาดใหญ่มาก โมเดลนี้มีประสิทธิภาพในงานการประมวลผลภาษาธรรมชาติที่หลากหลาย เช่น การสร้างข้อความ แปลภาษา และการตอบคำถามในลักษณะการสนทนา

T5 มาจาก T 5 ตัวใน "Text-to-Text Transfer Transformer"

T5X

#language

เฟรมเวิร์กแมชชีนเลิร์นนิงแบบโอเพนซอร์สที่ออกแบบมาเพื่อสร้างและฝึกโมเดลการประมวลผลภาษาธรรมชาติ (NLP) ขนาดใหญ่ T5 ติดตั้งใช้งานบนโค้ดเบส T5X (ซึ่งสร้างขึ้นจาก JAX และ Flax)

การเรียนรู้ด้วย Q แบบตาราง

#rl

ในการเรียนรู้แบบเสริมกำลัง การใช้การเรียนรู้ด้วย Q-Learning โดยใช้ตารางเพื่อจัดเก็บฟังก์ชัน Q สําหรับชุดค่าผสมของสถานะและการดําเนินการ ทั้งหมด

เป้าหมาย

คำพ้องความหมายของ label

เครือข่ายเป้าหมาย

#rl

ใน Deep Q-learning โครงข่ายประสาทเป็นค่าประมาณที่เสถียรของโครงข่ายประสาทหลัก ซึ่งโครงข่ายประสาทหลักใช้ ฟังก์ชัน Q หรือนโยบาย จากนั้นคุณสามารถฝึกเครือข่ายหลักด้วยค่า Q ที่เครือข่ายเป้าหมายคาดการณ์ได้ ดังนั้น คุณจึงป้องกันลูปความคิดเห็นที่เกิดขึ้นเมื่อเครือข่ายหลักฝึกด้วยค่า Q ที่คาดการณ์ด้วยตนเอง การหลีกเลี่ยงการแสดงผลความคิดเห็นนี้จะช่วยเพิ่มความเสถียรของการฝึก

งาน

ปัญหาที่แก้ไขได้โดยใช้เทคนิคแมชชีนเลิร์นนิง เช่น

อุณหภูมิ

#language
#image
#generativeAI

ไฮเปอร์พารามิเตอร์ที่ควบคุมระดับความสุ่มของเอาต์พุตของโมเดล อุณหภูมิที่สูงขึ้นจะทำให้เอาต์พุตเป็นแบบสุ่มมากขึ้น ส่วนอุณหภูมิที่ต่ำลงจะทำให้เอาต์พุตเป็นแบบสุ่มน้อยลง

การเลือกอุณหภูมิที่เหมาะสมที่สุดขึ้นอยู่กับแอปพลิเคชันเฉพาะและพร็อพเพอร์ตี้ที่ต้องการของเอาต์พุตของโมเดล เช่น คุณอาจเพิ่มอุณหภูมิเมื่อสร้างแอปพลิเคชันที่สร้างเอาต์พุตครีเอทีฟโฆษณา ในทางกลับกัน คุณอาจลดอุณหภูมิเมื่อสร้างโมเดลที่จัดประเภทรูปภาพหรือข้อความเพื่อปรับปรุงความแม่นยำและความสอดคล้องของโมเดล

อุณหภูมิมักใช้ร่วมกับ softmax

ข้อมูลตามช่วงเวลา

ข้อมูลที่บันทึกไว้ในช่วงเวลาต่างๆ เช่น ยอดขายเสื้อโค้ทฤดูหนาวที่บันทึกไว้ในแต่ละวันของปีจะเป็นข้อมูลตามช่วงเวลา

Tensor

#TensorFlow

โครงสร้างข้อมูลหลักในโปรแกรม TensorFlow เทนเซอร์เป็นโครงสร้างข้อมูล N มิติ (โดยที่ N อาจมีค่ามาก) ซึ่งมักเป็นจำนวนจริง เวกเตอร์ หรือเมทริกซ์ องค์ประกอบของ Tensor สามารถเก็บค่าจำนวนเต็ม ทศนิยม หรือสตริงได้

TensorBoard

#TensorFlow

แดชบอร์ดที่แสดงข้อมูลสรุปที่บันทึกไว้ระหว่างการเรียกใช้โปรแกรม TensorFlow อย่างน้อย 1 รายการ

TensorFlow

#TensorFlow

แพลตฟอร์มแมชชีนเลิร์นนิงแบบกระจายศูนย์ขนาดใหญ่ นอกจากนี้ คำว่า "เทสลา" ยังหมายถึงเลเยอร์ API พื้นฐานในสแต็ก TensorFlow ซึ่งรองรับการคํานวณทั่วไปในกราฟการไหลของข้อมูล

แม้ว่า TensorFlow จะใช้สําหรับแมชชีนเลิร์นนิงเป็นหลัก แต่คุณก็ใช้ TensorFlow สําหรับงานที่ไม่ใช่ ML ซึ่งต้องใช้การคํานวณตัวเลขได้โดยใช้กราฟการไหลของข้อมูล

TensorFlow Playground

#TensorFlow

โปรแกรมที่แสดงภาพว่าไฮเปอร์พารามิเตอร์ต่างๆ ส่งผลต่อการฝึกโมเดล (โดยเฉพาะอย่างยิ่งการฝึกโครงข่ายประสาท) อย่างไร ไปที่ http://playground.tensorflow.org เพื่อทดลองใช้ TensorFlow Playground

TensorFlow Serving

#TensorFlow

แพลตฟอร์มสำหรับทำให้โมเดลที่ฝึกแล้วใช้งานได้จริง

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

วงจรรวมเฉพาะแอปพลิเคชัน (ASIC) ที่เพิ่มประสิทธิภาพของปริมาณงานแมชชีนเลิร์นนิง ASIC เหล่านี้จะติดตั้งใช้งานเป็นชิป TPU หลายตัวในอุปกรณ์ TPU

อันดับ Tensor

#TensorFlow

ดูrank (Tensor)

รูปร่างของ Tensor

#TensorFlow

จํานวนองค์ประกอบที่ Tensor มีในมิติข้อมูลต่างๆ เช่น [5, 10] Tensor มีรูปร่างเป็น 5 ในมิติข้อมูลหนึ่งและ 10 ในอีกมิติข้อมูลหนึ่ง

ขนาด Tensor

#TensorFlow

จํานวนทั้งหมดของ Scalar ที่ Tensor มี เช่น เทนเซอร์ [5, 10] มีขนาดใหญ่ 50

TensorStore

ไลบรารีสําหรับการอ่านและเขียนอาร์เรย์มิติหลายรายการขนาดใหญ่อย่างมีประสิทธิภาพ

เงื่อนไขการสิ้นสุด

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เงื่อนไขที่ระบุว่าตอนจะสิ้นสุดเมื่อใด เช่น เมื่อตัวแทนถึงสถานะหนึ่งๆ หรือมีการเปลี่ยนสถานะเกินจำนวนเกณฑ์ เช่น ในเกมตีฉิ่ง (หรือเรียกอีกอย่างว่าเกมหมากฮอต) เกมจะจบลงเมื่อผู้เล่นทำเครื่องหมายช่องติดต่อกัน 3 ช่องหรือเมื่อทำเครื่องหมายทุกช่องแล้ว

ทดสอบ

#df

ในแผนภูมิการตัดสินใจ ชื่อเรียกอีกอย่างของเงื่อนไข

การสูญเสียในการทดสอบ

#fundamentals
#Metric

เมตริกที่แสดงถึงการสูญเสียของโมเดลเทียบกับชุดทดสอบ เมื่อสร้างโมเดล คุณมักจะพยายามลดการสูญเสียในการทดสอบ เนื่องจากค่าทดสอบที่ต่ำเป็นสัญญาณคุณภาพที่ชัดเจนกว่าค่าสูญเสียในการฝึกที่ต่ำหรือค่าสูญเสียในการทดสอบที่ต่ำ

บางครั้งช่องว่างระหว่างการสูญเสียในชุดทดสอบกับการสูญเสียในชุดฝึกหรือชุดตรวจสอบที่มากอาจบ่งบอกว่าคุณต้องเพิ่มอัตราการปรับสมดุล

ชุดทดสอบ

ชุดย่อยของชุดข้อมูลที่สงวนไว้สําหรับการทดสอบโมเดลที่ผ่านการฝึก

โดยทั่วไปแล้ว คุณจะต้องแบ่งตัวอย่างในชุดข้อมูลออกเป็นชุดย่อย 3 ชุดที่แตกต่างกัน ดังนี้

ตัวอย่างแต่ละรายการในชุดข้อมูลควรอยู่ในชุดย่อยก่อนหน้าเพียงชุดเดียว เช่น ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดการฝึกและชุดทดสอบ

ชุดการฝึกและชุดตรวจสอบมีความเชื่อมโยงกับการฝึกโมเดลอย่างใกล้ชิด เนื่องจากชุดทดสอบเชื่อมโยงกับการฝึกแบบอ้อมเท่านั้น การสูญเสียในชุดทดสอบจึงเป็นเมตริกที่มีคุณภาพสูงกว่าและมีความลำเอียงน้อยกว่าการสูญเสียในชุดฝึกหรือการสูญเสียในชุดตรวจสอบ

ดูข้อมูลเพิ่มเติมที่ชุดข้อมูล: การแบ่งชุดข้อมูลเดิมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ช่วงข้อความ

#language

ช่วงที่ระบุอาร์เรย์ที่เชื่อมโยงกับส่วนย่อยที่เฉพาะเจาะจงของสตริงข้อความ เช่น คำว่า good ในสตริง Python s="Be good now" ครอบครองช่วงข้อความที่ 3 ถึง 6

tf.Example

#TensorFlow

มาตรฐาน บัฟเฟอร์โปรโตคอล สําหรับอธิบายข้อมูลอินพุตสําหรับการฝึกหรืออนุมานโมเดลแมชชีนเลิร์นนิง

tf.keras

#TensorFlow

การใช้งาน Keras ที่ผสานรวมกับ TensorFlow

เกณฑ์ (สําหรับแผนภูมิการตัดสินใจ)

#df

ในเงื่อนไขที่สอดคล้องกับแกน ค่าที่องค์ประกอบจะเปรียบเทียบด้วย ตัวอย่างเช่น 75 คือค่าเกณฑ์ในเงื่อนไขต่อไปนี้

grade >= 75

ดูข้อมูลเพิ่มเติมได้ในตัวแยกที่แน่นอนสำหรับการแยกประเภทแบบ 2 กลุ่มที่มีฟีเจอร์ตัวเลขในหลักสูตรป่าการตัดสินใจ

การวิเคราะห์อนุกรมเวลา

#clustering

สาขาย่อยของแมชชีนเลิร์นนิงและสถิติที่วิเคราะห์ข้อมูลเชิงเวลา ปัญหาแมชชีนเลิร์นนิงหลายประเภทต้องใช้การวิเคราะห์อนุกรมเวลา ซึ่งรวมถึงการจัดประเภท การคลัสเตอร์ การคาดการณ์ และการตรวจหาความผิดปกติ เช่น คุณอาจใช้การวิเคราะห์อนุกรมเวลาเพื่อคาดการณ์ยอดขายเสื้อโค้ทฤดูหนาวในอนาคตตามเดือนโดยอิงตามข้อมูลยอดขายที่ผ่านมา

ช่วงเวลา

#seq

เซลล์ "แบบไม่ได้ม้วน" 1 เซลล์ภายในเครือข่ายประสาทแบบซ้ำ ตัวอย่างเช่น รูปภาพต่อไปนี้แสดงช่วงเวลา 3 ช่วงเวลา (ติดป้ายกำกับด้วยอนุพันธ์ย่อย t-1, t และ t+1)

ช่วงเวลา 3 ช่วงเวลาในโครงข่ายประสาทแบบซ้ำ เอาต์พุตของช่วงเวลาแรกจะกลายเป็นอินพุตของช่วงเวลาที่ 2 เอาต์พุตของช่วงเวลาที่ 2 จะกลายเป็นอินพุตของช่วงเวลาที่ 3

โทเค็น

#language

ในโมเดลภาษา หน่วยพื้นฐานที่โมเดลใช้ฝึกและทำการคาดการณ์ โดยปกติแล้ว โทเค็นจะเป็นอย่างใดอย่างหนึ่งต่อไปนี้

  • คํา เช่น วลี "สุนัขชอบแมว" ประกอบด้วยโทเค็นคํา 3 รายการ ได้แก่ "สุนัข" "ชอบ" และ "แมว"
  • อักขระ เช่น วลี "ปลาปั่นจักรยาน" ประกอบด้วยโทเค็นอักขระ 9 ตัว (โปรดทราบว่าช่องว่างจะนับเป็นหนึ่งในโทเค็น)
  • วลีย่อย ซึ่งคำเดียวอาจเป็นโทเค็นเดียวหรือหลายโทเค็นก็ได้ คำย่อยประกอบด้วยคำหลัก คำนำหน้า หรือคำต่อท้าย ตัวอย่างเช่น โมเดลภาษาที่ใช้คำย่อยเป็นโทเค็นอาจมองว่าคำว่า "dogs" เป็นโทเค็น 2 รายการ (คำราก "dog" และส่วนต่อท้าย "s" ที่แสดงพหูพจน์) โมเดลภาษาเดียวกันนี้อาจมองว่าคําเดียวอย่าง "สูงกว่า" เป็นคําย่อย 2 คํา (คําหลัก "สูง" และส่วนต่อท้าย "กว่า")

ในโดเมนนอกโมเดลภาษา โทเค็นอาจแสดงหน่วยพื้นฐานประเภทอื่นๆ เช่น ในคอมพิวเตอร์วิทัศน์ โทเค็นอาจเป็นชุดย่อยของรูปภาพ

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ความแม่นยำของ Top-K

#language
#Metric

เปอร์เซ็นต์ของเวลาที่ "ป้ายกำกับเป้าหมาย" ปรากฏในตำแหน่ง k แรกๆ ของรายการที่สร้างขึ้น รายการอาจเป็นคําแนะนําที่ปรับเปลี่ยนในแบบของคุณ หรือรายการสินค้าที่จัดเรียงตาม softmax

ความแม่นยำของ Top-k เรียกอีกอย่างว่าความแม่นยำที่ k

ลองพิจารณาระบบแมชชีนเลิร์นนิงที่ใช้ Softmax เพื่อระบุความน่าจะเป็นของต้นไม้ตามรูปภาพใบไม้ ตารางต่อไปนี้แสดงรายการเอาต์พุตที่สร้างขึ้นจากรูปภาพต้นไม้อินพุต 5 รูป แต่ละแถวมีป้ายกำกับเป้าหมายและต้นไม้ที่เป็นไปได้มากที่สุด 5 ต้น ตัวอย่างเช่น เมื่อป้ายกำกับเป้าหมายคือmaple โมเดลแมชชีนเลิร์นนิงจะระบุelm เป็นต้นไม้ที่มีแนวโน้มมากที่สุด oak เป็นต้นไม้ที่มีแนวโน้มมากที่สุดเป็นอันดับ 2 และอื่นๆ

ป้ายกํากับเป้าหมาย 1 2 3 4 5
เมเปิล เอล์ม โอ๊ก maple บีช พอปลาร์
ด็อกวู้ด โอ๊ก dogwood พอปลาร์ Hickory เมเปิล
โอ๊ก oak ไม้เบิร์ช ตั๊กแตน เอลเดอร์ Linden
Linden เมเปิล paw-paw โอ๊ก ไม้เบิร์ช พอปลาร์
โอ๊ก ตั๊กแตน Linden oak เมเปิล paw-paw

ป้ายกํากับเป้าหมายปรากฏในตําแหน่งแรกเพียงครั้งเดียว ความแม่นยําของ Top-1 จึงเท่ากับ

top-1 accuracy=15=0.2

ป้ายกํากับเป้าหมายปรากฏในตําแหน่งใดตําแหน่งหนึ่งใน 3 อันดับแรก 4 ครั้ง ดังนั้นความแม่นยําของ 3 อันดับแรกจึงเท่ากับ

top-1 accuracy=45=0.8

หอคอย

องค์ประกอบของโครงข่ายประสาทแบบลึกที่เป็นโครงข่ายประสาทแบบลึก ในบางกรณี แต่ละหอคอยจะอ่านข้อมูลจากแหล่งข้อมูลอิสระ และหอคอยเหล่านั้นจะยังคงทำงานแยกกันจนกว่าระบบจะรวมเอาเอาต์พุตของหอคอยเหล่านั้นไว้ในเลเยอร์สุดท้าย ในกรณีอื่นๆ (เช่น ในหอคอยตัวเข้ารหัสและตัวถอดรหัสของ Transformer หลายตัว) หอคอยจะเชื่อมต่อกัน

ความเชื่อผิดๆ

#language
#Metric

ระดับที่เนื้อหาเป็นการละเมิด ข่มขู่ หรือทำให้เกิดความไม่พอใจ โมเดลแมชชีนเลิร์นนิงจำนวนมากสามารถระบุและวัดระดับความเป็นพิษได้ โมเดลส่วนใหญ่เหล่านี้จะระบุความเป็นพิษตามพารามิเตอร์หลายรายการ เช่น ระดับภาษาที่ไม่เหมาะสมและระดับภาษาที่เป็นภัย

TPU

#TensorFlow
#GoogleCloud

ตัวย่อของ Tensor Processing Unit

ชิป TPU

#TensorFlow
#GoogleCloud

ตัวเร่งการอัลเจบราเชิงเส้นแบบโปรแกรมได้พร้อมหน่วยความจำแบนด์วิดท์สูงบนชิปที่เพิ่มประสิทธิภาพสำหรับภาระงานแมชชีนเลิร์นนิง มีการติดตั้งใช้งานชิป TPU หลายตัวในอุปกรณ์ TPU

อุปกรณ์ TPU

#TensorFlow
#GoogleCloud

แผงวงจรพิมพ์ (PCB) ที่มีชิป TPU หลายตัว อินเทอร์เฟซเครือข่ายที่มีแบนด์วิดท์สูง และฮาร์ดแวร์ระบายความร้อนของระบบ

โหนด TPU

#TensorFlow
#GoogleCloud

ทรัพยากร TPU ใน Google Cloud ที่มีประเภท TPU ที่เฉพาะเจาะจง นอต TPU จะเชื่อมต่อกับเครือข่าย VPC จากเครือข่าย VPC แบบเพียร์ โหนด TPU เป็นทรัพยากรที่กําหนดไว้ใน Cloud TPU API

พ็อด TPU

#TensorFlow
#GoogleCloud

การกําหนดค่าที่เฉพาะเจาะจงของอุปกรณ์ TPU ในศูนย์ข้อมูลของ Google อุปกรณ์ทั้งหมดในพ็อด TPU จะเชื่อมต่อกันผ่านเครือข่ายความเร็วสูงโดยเฉพาะ พ็อด TPU เป็นการกำหนดค่าอุปกรณ์ TPU ขนาดใหญ่ที่สุดที่ใช้ได้กับ TPU เวอร์ชันหนึ่งๆ

ทรัพยากร TPU

#TensorFlow
#GoogleCloud

เอนทิตี TPU ใน Google Cloud ที่คุณสร้าง จัดการ หรือใช้งาน เช่น โหนด TPU และประเภท TPU เป็นทรัพยากร TPU

ส่วนของ TPU

#TensorFlow
#GoogleCloud

ส่วน TPU คือส่วนของอุปกรณ์ TPU ในพ็อด TPU อุปกรณ์ทั้งหมดในเสี้ยว TPU จะเชื่อมต่อกันผ่านเครือข่ายความเร็วสูงเฉพาะ

ประเภท TPU

#TensorFlow
#GoogleCloud

การกําหนดค่าอุปกรณ์ TPU อย่างน้อย 1 เครื่องที่มีฮาร์ดแวร์ TPU เวอร์ชันที่เฉพาะเจาะจง คุณเลือกประเภท TPU เมื่อสร้างโหนด TPU ใน Google Cloud เช่น v2-8 ประเภท TPU คืออุปกรณ์ TPU v2 เดี่ยวที่มี 8 คอร์ TPU ประเภท v3-2048 มีอุปกรณ์ TPU v3 แบบใช้เครือข่าย 256 เครื่องและมีแกนทั้งหมด 2,048 แกน ประเภท TPU เป็นทรัพยากรที่ระบุไว้ใน Cloud TPU API

TPU Worker

#TensorFlow
#GoogleCloud

กระบวนการที่ทำงานบนเครื่องโฮสต์และเรียกใช้โปรแกรมแมชชีนเลิร์นนิงในอุปกรณ์ TPU

การฝึกอบรม

#fundamentals

กระบวนการกำหนดพารามิเตอร์ (น้ำหนักและค่ากําหนด) ที่เหมาะสมซึ่งประกอบกันเป็นโมเดล ในระหว่างการฝึก ระบบจะอ่านตัวอย่างและค่อยๆ ปรับพารามิเตอร์ การฝึกอบรมใช้ตัวอย่างแต่ละรายการตั้งแต่ 2-3 ครั้งไปจนถึงหลายพันล้านครั้ง

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบควบคุมในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับ ML

การสูญเสียจากการฝึก

#fundamentals
#Metric

เมตริกที่แสดงถึงการสูญเสียของโมเดลระหว่างการทำซ้ำการฝึกหนึ่งๆ เช่น สมมติว่าฟังก์ชันการสูญเสียคือ ความคลาดเคลื่อนกำลังสองเฉลี่ย ตัวอย่างเช่น การสูญเสียของการฝึก (ข้อผิดพลาดค่าเฉลี่ยสี่เหลี่ยมจัตุรัส) ของการทำซ้ำครั้งที่ 10 คือ 2.2 และการสูญเสียของการฝึกของการทำซ้ำครั้งที่ 100 คือ 1.9

เส้นโค้งการสูญเสียจะแสดงการลดลงของการฝึกเทียบกับจํานวนการวนซ้ำ เส้นโค้งการสูญเสียจะให้คำแนะนำต่อไปนี้เกี่ยวกับการฝึก

  • เส้นที่ลาดลงหมายความว่าโมเดลมีประสิทธิภาพดีขึ้น
  • เส้นลาดขึ้นหมายความว่าโมเดลมีประสิทธิภาพแย่ลง
  • เส้นลาดชันที่ราบเรียบหมายความว่าโมเดลบรรลุการบรรจบแล้ว

ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้ซึ่งค่อนข้างเป็นอุดมคติจะแสดงข้อมูลต่อไปนี้

  • เส้นที่ลาดลงอย่างรวดเร็วระหว่างการทำซ้ำครั้งแรก ซึ่งหมายความว่าโมเดลได้รับการปรับปรุงอย่างรวดเร็ว
  • เส้นลาดชันที่ค่อยๆ ราบลง (แต่ยังคงลดลง) จนใกล้ถึงช่วงสิ้นสุดการฝึก ซึ่งหมายความว่ามีการปรับปรุงโมเดลอย่างต่อเนื่องในอัตราที่ช้ากว่าในช่วงการทำซ้ำครั้งแรก
  • เส้นลาดชันที่ราบเรียบในช่วงท้ายของการฝึก ซึ่งบ่งบอกถึงการบรรจบ

ผังของการสูญเสียของการฝึกเทียบกับจำนวนรอบ เส้นโค้งการสูญเสียนี้เริ่มต้นด้วยเส้นลาดชันชันลง ความชันจะค่อยๆ ลดลงจนกว่าจะมีค่าเป็น 0

แม้ว่าการสูญเสียระหว่างการฝึกจะมีความสำคัญ แต่โปรดดูการทั่วไปด้วย

ความคลาดเคลื่อนระหว่างการฝึกและการให้บริการ

#fundamentals

ความแตกต่างระหว่างประสิทธิภาพของโมเดลระหว่างการฝึกกับประสิทธิภาพของโมเดลเดียวกันระหว่างการทํางาน

ชุดการฝึก

#fundamentals

ชุดย่อยของชุดข้อมูลที่ใช้ฝึกโมเดล

โดยทั่วไปแล้ว ตัวอย่างในชุดข้อมูลจะแบ่งออกเป็นชุดย่อยที่แตกต่างกัน 3 ชุดต่อไปนี้

โดยตัวอย่างแต่ละรายการในชุดข้อมูลควรอยู่ในชุดย่อยก่อนหน้าเพียงชุดเดียว เช่น ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดการฝึกและชุดทดสอบ

ดูข้อมูลเพิ่มเติมที่ชุดข้อมูล: การแบ่งชุดข้อมูลเดิมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เส้นทาง

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ลำดับของ tuple ที่แสดงถึงลำดับการเปลี่ยนสถานะของเอเจนต์ โดยที่แต่ละ tuple สอดคล้องกับสถานะ การดำเนินการ รางวัล และสถานะถัดไปสำหรับการเปลี่ยนสถานะหนึ่งๆ

การเรียนรู้แบบโอน

การโอนข้อมูลจากงานแมชชีนเลิร์นนิงงานหนึ่งไปยังอีกงานหนึ่ง ตัวอย่างเช่น ในการเรียนรู้แบบหลายงาน โมเดลเดียวจะแก้ปัญหาได้หลายอย่าง เช่น โมเดลเชิงลึกที่มีโหนดเอาต์พุตที่แตกต่างกันสำหรับงานต่างๆ การเรียนรู้แบบโอนอาจเกี่ยวข้องกับการโอนความรู้จากวิธีแก้ปัญหาของงานที่ง่ายกว่าไปยังงานที่ซับซ้อนกว่า หรือเกี่ยวข้องกับการโอนความรู้จากงานที่ข้อมูลมากกว่าไปยังงานที่ข้อมูลน้อยกว่า

ระบบแมชชีนเลิร์นนิงส่วนใหญ่จะแก้ปัญหารายการเดียว การเรียนรู้แบบโอนเป็นก้าวแรกสู่ปัญญาประดิษฐ์ (AI) ที่โปรแกรมเดียวสามารถแก้ปัญหาหลายอย่างได้

Transformer

#language

สถาปัตยกรรมโครงข่ายประสาทที่พัฒนาขึ้นโดย Google ซึ่งอาศัยกลไกการใส่ใจตนเองเพื่อเปลี่ยนลำดับของข้อมูลเชิงลึกอินพุตให้เป็นลำดับของข้อมูลเชิงลึกเอาต์พุตโดยไม่ต้องใช้การกรองข้อมูลหรือโครงข่ายประสาทแบบซ้ำ Transformer เปรียบเสมือนกองเลเยอร์ Self-Attention

Transformer อาจมีสิ่งต่อไปนี้

โปรแกรมเปลี่ยนไฟล์จะเปลี่ยนลําดับขององค์ประกอบเป็นลําดับใหม่ที่มีความยาวเท่ากัน ตัวเข้ารหัสประกอบด้วยเลเยอร์ N เลเยอร์ซึ่งเหมือนกัน โดยแต่ละเลเยอร์จะมีเลเยอร์ย่อย 2 เลเยอร์ ระบบจะใช้เลเยอร์ย่อย 2 เลเยอร์นี้ในแต่ละตําแหน่งของลําดับการฝังอินพุต ซึ่งจะเปลี่ยนองค์ประกอบแต่ละรายการของลําดับเป็นการฝังใหม่ เลเยอร์ย่อยของตัวเข้ารหัสแรกจะรวบรวมข้อมูลจากลำดับอินพุตต่างๆ เลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ที่ 2 จะเปลี่ยนข้อมูลที่รวบรวมเป็นข้อมูลฝังเอาต์พุต

ตัวถอดรหัสจะเปลี่ยนรูปแบบของลําดับการฝังอินพุตเป็นลําดับการฝังเอาต์พุต ซึ่งอาจมีความยาวต่างกัน ตัวถอดรหัสยังมีเลเยอร์ที่เหมือนกัน N ชั้นที่มีเลเยอร์ย่อย 3 ชั้น โดย 2 ชั้นนั้นคล้ายกับเลเยอร์ย่อยของตัวเข้ารหัส เลเยอร์ย่อยตัวถอดรหัสที่ 3 จะนำเอาเอาต์พุตของตัวเข้ารหัสไปใช้กับกลไกการใส่ใจตนเองเพื่อรวบรวมข้อมูลจากเอาต์พุตดังกล่าว

บล็อกโพสต์เรื่อง Transformer: สถาปัตยกรรมโครงข่ายระบบประสาทเทียมรูปแบบใหม่สำหรับการทําความเข้าใจภาษาเป็นข้อมูลเบื้องต้นที่ดีมากเกี่ยวกับ Transformer

ดูข้อมูลเพิ่มเติมได้ที่LLM: โมเดลภาษาขนาดใหญ่คืออะไรในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเปลี่ยนรูปแบบ

#image

ในปัญหาการจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพให้สำเร็จแม้ว่าตำแหน่งของวัตถุภายในรูปภาพจะเปลี่ยนไป ตัวอย่างเช่น อัลกอริทึมจะยังคงระบุสุนัขได้ ไม่ว่าจะอยู่ตรงกลางเฟรมหรือที่ด้านซ้ายสุดของเฟรม

ดูข้อมูลเพิ่มเติมได้ที่การคงขนาดและการคงการหมุน

ไตรกรม

#seq
#language

N-gram โดยที่ N=3

ผลลบจริง (TN)

#fundamentals
#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบได้อย่างถูกต้อง ตัวอย่างเช่น โมเดลอนุมานว่าข้อความอีเมลหนึ่งๆ ไม่ใช่จดหมายขยะ และข้อความอีเมลนั้นไม่ใช่จดหมายขยะจริงๆ

ผลบวกจริง (TP)

#fundamentals
#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสที่เป็นบวกอย่างถูกต้อง เช่น โมเดลอนุมานว่าข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ และข้อความอีเมลนั้นจริงๆ แล้วเป็นจดหมายขยะ

อัตราผลบวกจริง (TPR)

#fundamentals
#Metric

คำพ้องความหมายของ recall โดยการ

true positive rate=true positivestrue positives+false negatives

อัตราผลบวกจริงคือแกน y ในกราฟ ROC

U

ไม่รู้ตัว (เกี่ยวกับแอตทริบิวต์ที่มีความละเอียดอ่อน)

#fairness

สถานการณ์ที่มีแอตทริบิวต์ที่มีความละเอียดอ่อน แต่ไม่ได้รวมอยู่ในข้อมูลการฝึก เนื่องจากแอตทริบิวต์ที่ละเอียดอ่อนมักมีความสัมพันธ์กับแอตทริบิวต์อื่นๆ ของข้อมูลบุคคล โมเดลที่ผ่านการฝึกอบรมโดยไม่รู้เกี่ยวกับแอตทริบิวต์ที่ละเอียดอ่อนจึงอาจยังคงมีผลลัพธ์ที่แตกต่างกันในแอตทริบิวต์นั้น หรือละเมิดข้อจำกัดด้านความยุติธรรมอื่นๆ

Underfitting

#fundamentals

การสร้างโมเดลที่คาดการณ์ได้ไม่ดีเนื่องจากโมเดลไม่ได้จับความซับซ้อนของข้อมูลการฝึกอย่างเต็มรูปแบบ ปัญหาหลายอย่างอาจทําให้เกิดการประมาณที่น้อยเกินไปได้ ดังนี้

ดูข้อมูลเพิ่มเติมได้ที่การประมาณมากเกินไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การสุ่มตัวอย่างที่ต่ำ

การนำตัวอย่างออกจากคลาสที่มีจำนวนมากกว่าในชุดข้อมูลที่คลาสไม่สมดุลเพื่อสร้างชุดข้อมูลการฝึกที่สมดุลมากขึ้น

ตัวอย่างเช่น พิจารณาชุดข้อมูลที่มีอัตราส่วนของคลาสส่วนใหญ่ต่อคลาสส่วนน้อยคือ 20:1 หากต้องการลดความไม่สมดุลของคลาสนี้ คุณอาจสร้างชุดการฝึกที่มีตัวอย่างของคลาสที่มีจำนวนน้อยทั้งหมด แต่มีตัวอย่างของคลาสที่มีจำนวนมากเพียงหนึ่งในสิบ ซึ่งจะสร้างสัดส่วนคลาสของชุดการฝึกเป็น 2:1 การลดการสุ่มตัวอย่างทำให้ชุดข้อมูลการฝึกที่สมดุลมากขึ้นนี้อาจสร้างโมเดลที่ดีขึ้น หรือชุดการฝึกที่สมดุลมากขึ้นนี้อาจมีตัวอย่างไม่เพียงพอที่จะฝึกโมเดลที่มีประสิทธิภาพ

ตรงข้ามกับoversampling

ทิศทางเดียว

#language

ระบบที่ประเมินเฉพาะข้อความที่อยู่ก่อนส่วนข้อความเป้าหมาย ในทางตรงกันข้าม ระบบแบบ 2 ทิศทางจะประเมินทั้งข้อความที่อยู่ก่อนและอยู่หลังส่วนของข้อความเป้าหมาย ดูรายละเอียดเพิ่มเติมได้ที่แบบ 2 ทิศทาง

โมเดลภาษาแบบทิศทางเดียว

#language

โมเดลภาษาที่อิงความน่าจะเป็นตามโทเค็นที่ปรากฏก่อนโทเค็นเป้าหมายเท่านั้น ไม่ใช่หลัง เปรียบเทียบกับโมเดลภาษาแบบ 2 ทิศทาง

ตัวอย่างที่ไม่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์แต่ไม่มีป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่าง 3 รายการที่ไม่มีป้ายกำกับจากโมเดลการประเมินมูลค่าบ้าน โดยแต่ละรายการมี 3 ฟีเจอร์ แต่ไม่มีมูลค่าบ้าน

จำนวนห้องนอน จำนวนห้องน้ำ อายุของบ้าน
3 2 15
2 1 72
4 2 34

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล รูปแบบจะฝึกจากตัวอย่างที่ติดป้ายกำกับและทำการคาดการณ์จากตัวอย่างที่ไม่มีป้ายกำกับ

ในการเรียนรู้แบบควบคุมดูแลบางส่วนและไม่มีการควบคุมดูแล ระบบจะใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการฝึก

เปรียบเทียบตัวอย่างที่ไม่มีป้ายกำกับกับตัวอย่างที่มีป้ายกำกับ

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

#clustering
#fundamentals

การฝึกโมเดลเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งมักจะเป็นชุดข้อมูลที่ไม่มีป้ายกำกับ

การใช้งานแมชชีนเลิร์นนิงแบบไม่ควบคุมที่พบบ่อยที่สุดคือการจัดกลุ่มข้อมูลเป็นกลุ่มตัวอย่างที่คล้ายกัน เช่น อัลกอริทึมแมชชีนเลิร์นนิงแบบไม่ควบคุมดูแลจะจัดกลุ่มเพลงตามคุณสมบัติต่างๆ ของเพลงได้ กลุ่มที่ได้อาจเป็นอินพุตสําหรับอัลกอริทึมของแมชชีนเลิร์นนิงอื่นๆ (เช่น บริการแนะนําเพลง) การจัดกลุ่มจะมีประโยชน์เมื่อป้ายกำกับที่มีประโยชน์มีไม่มากหรือไม่มีเลย ตัวอย่างเช่น ในโดเมนต่างๆ เช่น การป้องกันการละเมิดและการประพฤติมิชอบ กลุ่มจะช่วยมนุษย์เข้าใจข้อมูลได้ดีขึ้น

ตรงข้ามกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล

ตัวอย่างแมชชีนเลิร์นนิงที่ไม่มีการควบคุมอีกอย่างหนึ่งคือการวิเคราะห์องค์ประกอบหลัก (PCA) เช่น การใช้ PCA ในชุดข้อมูลที่มีเนื้อหาของรถเข็นช็อปปิ้งหลายล้านคันอาจแสดงให้เห็นว่ารถเข็นช็อปปิ้งที่มีมะนาวมักจะมียาลดกรดด้วย


ดูข้อมูลเพิ่มเติมได้ที่แมชชีนเลิร์นนิงคืออะไรในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับ ML

การประมาณการเพิ่มขึ้น

เทคนิคการประมาณที่ใช้กันโดยทั่วไปทางการตลาด ซึ่งประมาณ "ผลเชิงสาเหตุ" (หรือที่เรียกว่า "ผลที่เพิ่มขึ้น") ของ "การรักษา" ต่อ "บุคคล" ต่อไปนี้เป็นตัวอย่างสองตัวอย่าง:

  • แพทย์อาจใช้การประมาณการเพิ่มขึ้นเพื่อคาดการณ์การลดลงของอัตราการเสียชีวิต (ผลเชิงสาเหตุ) ของกระบวนการทางการแพทย์ (การรักษา) โดยขึ้นอยู่กับอายุและประวัติทางการแพทย์ของผู้ป่วย (บุคคล)
  • นักการตลาดอาจใช้การประมาณการเพิ่มขึ้นเพื่อคาดการณ์ความน่าจะเป็นที่เพิ่มขึ้นในการซื้อ (ผลเชิงสาเหตุ) เนื่องจากโฆษณา (กลุ่มทดสอบ) กับบุคคล (บุคคล)

โมเดลการเพิ่มขึ้นแตกต่างจากการจัดประเภทหรือการถดถอยตรงที่โมเดลการเพิ่มขึ้นจะไม่มีป้ายกำกับบางรายการ (เช่น ครึ่งหนึ่งของป้ายกำกับในการรักษาแบบไบนารี) เสมอ ตัวอย่างเช่น ผู้ป่วยอาจได้รับการรักษาหรือไม่ได้รับการรักษาก็ได้ เราจึงสังเกตได้เพียงว่าผู้ป่วยจะหายหรือไม่หายในสถานการณ์ใดสถานการณ์หนึ่งเท่านั้น (แต่ไม่สามารถสังเกตได้ทั้งสองสถานการณ์) ข้อได้เปรียบหลักของรูปแบบการเพิ่มขึ้นคือสามารถสร้างการคาดการณ์สําหรับสถานการณ์ที่สังเกตไม่ได้ (สิ่งที่ขัดแย้งกับความจริงที่ตั้งขึ้น) และใช้เพื่อคํานวณผลที่เกิดจากสาเหตุ

การเพิ่มน้ำหนัก

การใช้น้ำหนักกับคลาสที่ลดขนาดเท่ากับปัจจัยที่คุณลดขนาด

เมทริกซ์ผู้ใช้

#recsystems

ในระบบการแนะนำ เวกเตอร์การฝังที่สร้างขึ้นโดยการแยกองค์ประกอบเมทริกซ์ซึ่งเก็บสัญญาณแฝงเกี่ยวกับค่ากําหนดของผู้ใช้ แต่ละแถวของเมทริกซ์ผู้ใช้มีข้อมูลเกี่ยวกับความแรงสัมพัทธ์ของสัญญาณแฝงต่างๆ สําหรับผู้ใช้รายเดียว ตัวอย่างเช่น ลองพิจารณาระบบการแนะนำภาพยนตร์ ในระบบนี้ สัญญาณแฝงในเมทริกซ์ผู้ใช้อาจแสดงถึงความสนใจของผู้ใช้แต่ละรายในประเภทที่เฉพาะเจาะจง หรืออาจเป็นสัญญาณที่ตีความได้ยากซึ่งเกี่ยวข้องกับการโต้ตอบที่ซับซ้อนในหลายปัจจัย

เมทริกซ์ผู้ใช้มีคอลัมน์สำหรับองค์ประกอบแฝงแต่ละรายการและแถวสำหรับผู้ใช้แต่ละราย กล่าวคือ เมทริกซ์ผู้ใช้มีจํานวนแถวเท่ากับเมทริกซ์เป้าหมายที่แยกปัจจัย ตัวอย่างเช่น ระบบแนะนำภาพยนตร์สำหรับผู้ใช้ 1,000,000 คนจะมีเมทริกซ์ผู้ใช้ 1,000,000 แถว

V

การตรวจสอบความถูกต้อง

#fundamentals

การประเมินคุณภาพโมเดลเบื้องต้น การตรวจสอบจะตรวจสอบคุณภาพของการคาดการณ์ของโมเดลเทียบกับชุดข้อมูลที่ใช้ตรวจสอบ

เนื่องจากชุดที่ใช้ตรวจสอบแตกต่างจากชุดข้อมูลการฝึก การทดสอบจึงช่วยป้องกันการประมาณค่ามากเกินไป

คุณอาจคิดว่าการประเมินโมเดลกับชุดข้อมูลการตรวจสอบเป็นการทดสอบรอบแรก และการประเมินโมเดลกับชุดทดสอบเป็นการทดสอบรอบที่ 2

การสูญเสียการตรวจสอบ

#fundamentals
#Metric

เมตริกที่แสดงถึงความสูญเสียของโมเดลในชุดทดสอบระหว่างการทำซ้ำการฝึกหนึ่งๆ

โปรดดูเส้นโค้งทั่วไปด้วย

ชุดการตรวจสอบ

#fundamentals

ชุดย่อยของชุดข้อมูลที่ทําการประเมินเบื้องต้นกับโมเดลที่ผ่านการฝึก โดยปกติแล้ว คุณจะต้องประเมินโมเดลที่ผ่านการฝึกอบรมกับชุดข้อมูลที่ใช้ตรวจสอบหลายครั้งก่อนที่จะประเมินโมเดลกับชุดทดสอบ

โดยทั่วไปแล้ว คุณจะต้องแบ่งตัวอย่างในชุดข้อมูลออกเป็นชุดย่อย 3 ชุดที่แยกกัน ดังนี้

โดยตัวอย่างแต่ละรายการในชุดข้อมูลควรอยู่ในชุดย่อยก่อนหน้าเพียงชุดเดียว เช่น ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดการฝึกและชุดทดสอบ

ดูข้อมูลเพิ่มเติมที่ชุดข้อมูล: การแบ่งชุดข้อมูลเดิมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การประมาณค่า

กระบวนการแทนที่ค่าที่ขาดหายไปด้วยค่าทดแทนที่ยอมรับได้ เมื่อไม่มีค่า คุณอาจทิ้งทั้งตัวอย่างหรือใช้การประมาณค่าเพื่อกู้คืนตัวอย่างก็ได้

ตัวอย่างเช่น พิจารณาชุดข้อมูลที่มีฟีเจอร์ temperature ที่ควรจะบันทึกทุกชั่วโมง อย่างไรก็ตาม ค่าอุณหภูมิที่อ่านได้ไม่พร้อมใช้งานในช่วงเวลาหนึ่งๆ ต่อไปนี้คือส่วนหนึ่งของชุดข้อมูล

การประทับเวลา อุณหภูมิ
1680561000 10
1680564600 12
1680568200 ขาดหายไป
1680571800 20
1680575400 21
1680579000 21

ระบบอาจลบตัวอย่างที่ขาดหายไปหรือทดแทนอุณหภูมิที่ขาดหายไปเป็น 12, 16, 18 หรือ 20 ทั้งนี้ขึ้นอยู่กับอัลกอริทึมการทดแทน

ปัญหาการลดลงของ Gradient

#seq

แนวโน้มที่ความลาดชันของเลเยอร์ที่ซ่อนอยู่ในช่วงต้นของเครือข่ายประสาทเทียมลึกบางรายการจะกลายเป็นแนวราบ (ต่ำ) อย่างน่าประหลาดใจ การที่ Gradient ลดลงเรื่อยๆ จะทําให้การเปลี่ยนแปลงน้ำหนักของโหนดในโครงข่ายประสาทแบบลึกมีขนาดเล็กลงเรื่อยๆ ซึ่งทําให้การเรียนรู้น้อยหรือไม่มีเลย โมเดลที่มีปัญหาเรื่องลู่ลาดที่ลดลงจะฝึกได้ยากหรือเป็นไปไม่ได้ เซลล์ Long Short-Term Memory ช่วยแก้ปัญหานี้ได้

เปรียบเทียบกับปัญหาการเพิ่มขึ้นของ Gradient

ความสำคัญของตัวแปร

#df
#Metric

ชุดคะแนนที่ระบุความสำคัญแบบสัมพัทธ์ของฟีเจอร์แต่ละรายการต่อโมเดล

เช่น ลองพิจารณาแผนภูมิการตัดสินใจซึ่งประเมินราคาบ้าน สมมติว่าแผนผังการตัดสินใจนี้ใช้ฟีเจอร์ 3 อย่าง ได้แก่ ขนาด อายุ และสไตล์ หากชุดความสำคัญของตัวแปรสำหรับฟีเจอร์ 3 รายการคำนวณออกมาเป็น {size=5.8, age=2.5, style=4.7} แสดงว่าขนาดมีความสําคัญต่อต้นไม้การตัดสินใจมากกว่าอายุหรือสไตล์

เมตริกความสำคัญของตัวแปรต่างๆ มีอยู่ ซึ่งสามารถให้ข้อมูลแก่ผู้เชี่ยวชาญด้าน ML เกี่ยวกับแง่มุมต่างๆ ของโมเดล

ตัวแปรอัตโนมัติ (VAE)

#language

Autoencoder ประเภทหนึ่งที่ใช้ประโยชน์จากความคลาดเคลื่อนระหว่างอินพุตและเอาต์พุตเพื่อสร้างอินพุตเวอร์ชันที่แก้ไขแล้ว ตัวแปร Autoencoder มีประโยชน์สําหรับ Generative AI

VAEs อิงตามการอนุมานแบบผันแปร ซึ่งเป็นเทคนิคในการประมาณพารามิเตอร์ของโมเดลความน่าจะเป็น

เวกเตอร์

คําที่มีความหมายแตกต่างกันไปมากในสาขาคณิตศาสตร์และวิทยาศาสตร์ ในแมชชีนเลิร์นนิง เวกเตอร์จะมีพร็อพเพอร์ตี้ 2 อย่าง ได้แก่

  • ประเภทข้อมูล: เวกเตอร์ในแมชชีนเลิร์นนิงมักจะเก็บตัวเลขทศนิยม
  • จํานวนองค์ประกอบ: คือความยาวหรือมิติข้อมูลของเวกเตอร์

ตัวอย่างเช่น พิจารณาเวกเตอร์ลักษณะที่มีตัวเลขทศนิยม 8 รายการ เวกเตอร์องค์ประกอบนี้มีความยาวหรือมิติข้อมูล 8 โปรดทราบว่าเวกเตอร์แมชชีนเลิร์นนิงมักจะมีหลายมิติข้อมูล

คุณแสดงข้อมูลประเภทต่างๆ จำนวนมากเป็นเวกเตอร์ได้ เช่น

  • ตำแหน่งใดๆ บนพื้นผิวโลกสามารถแสดงเป็นเวกเตอร์ 2 มิติได้ โดยมิติข้อมูลหนึ่งคือละติจูดและอีกมิติหนึ่งคือลองจิจูด
  • ราคาปัจจุบันของหุ้นแต่ละตัว 500 ตัวจะแสดงเป็นเวกเตอร์ 500 มิติ
  • การแจกแจงความน่าจะเป็นในคลาสจํานวนจำกัดสามารถแสดงเป็นเวกเตอร์ เช่น ระบบการจัดประเภทหลายคลาสที่คาดการณ์สีเอาต์พุต 1 ใน 3 สี (แดง เขียว หรือเหลือง) อาจแสดงผลเวกเตอร์ (0.3, 0.2, 0.5) เพื่อหมายถึง P[red]=0.3, P[green]=0.2, P[yellow]=0.5

เวกเตอร์สามารถต่อเชื่อมกันได้ ดังนั้นสื่อต่างๆ จึงแสดงเป็นเวกเตอร์เดียวได้ บางโมเดลจะดำเนินการกับการเชื่อมต่อการเข้ารหัสแบบฮอตเวิร์กหลายรายการโดยตรง

โปรเซสเซอร์เฉพาะ เช่น TPU ได้รับการเพิ่มประสิทธิภาพให้ดำเนินการทางคณิตศาสตร์กับเวกเตอร์

เวกเตอร์คือเทนเซอร์ที่มีลําดับ 1

W

การสูญเสีย Wasserstein

#Metric

ฟังก์ชันการสูญเสียอย่างหนึ่งที่ใช้กันโดยทั่วไปในเครือข่าย Generative Adversarial ซึ่งอิงตามระยะทาง Earth Mover's Distance ระหว่างการแจกแจงข้อมูลที่สร้างและข้อมูลจริง

น้ำหนัก

#fundamentals

ค่าที่โมเดลคูณด้วยค่าอื่น การฝึกคือกระบวนการกำหนดน้ำหนักที่เหมาะสมของโมเดล ส่วนการอนุมานคือกระบวนการใช้น้ำหนักที่เรียนรู้มาเพื่อคาดการณ์

ลองจินตนาการถึงรูปแบบเชิงเส้นที่มี 2 ฟีเจอร์ สมมติว่าการฝึกอบรมกำหนดน้ำหนัก (และค่ากําหนด) ต่อไปนี้

  • ค่าอคติ b มีค่า 2.2
  • น้ำหนัก w1 ที่เชื่อมโยงกับฟีเจอร์หนึ่งคือ 1.5
  • น้ำหนัก w2 ที่เชื่อมโยงกับฟีเจอร์อื่นคือ 0.4

ลองจินตนาการถึงตัวอย่างที่มีค่าฟีเจอร์ต่อไปนี้

  • ค่าขององค์ประกอบ x1 คือ 6
  • ค่าของฟีเจอร์อื่น x2 คือ 10

แบบจําลองเชิงเส้นนี้ใช้สูตรต่อไปนี้ในการสร้างการคาดการณ์ "y"

y=b+w1x1+w2x2

ดังนั้นการคาดการณ์คือ

y=2.2+(1.5)(6)+(0.4)(10)=15.2

หากน้ำหนักเป็น 0 แสดงว่าฟีเจอร์ที่เกี่ยวข้องไม่ได้มีส่วนช่วยในการสร้างโมเดล เช่น หาก w1 เป็น 0 ค่าของ x1 จะถือว่าไม่เกี่ยวข้อง


ดูข้อมูลเพิ่มเติมได้ที่การหาค่าสัมประสิทธ์เชิงเส้นในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

วิธีการถ่วงน้ำหนักแบบสลับขั้นต่ำ (WALS)

#recsystems

อัลกอริทึมสำหรับการลดฟังก์ชันวัตถุประสงค์ในระหว่างการแยกองค์ประกอบเมทริกซ์ในระบบการแนะนำ ซึ่งช่วยให้สามารถลดน้ำหนักตัวอย่างที่ขาดหายไปได้ WALS จะลดค่าความคลาดเคลื่อนกำลังสองที่มีน้ำหนักระหว่างเมทริกซ์ต้นฉบับกับการสร้างใหม่โดยสลับกันระหว่างการแก้ไขการแยกตัวประกอบแถวและการแยกตัวประกอบคอลัมน์ การเพิ่มประสิทธิภาพแต่ละรายการเหล่านี้สามารถคลี่คลายได้ด้วยวิธีหาค่าประมาณเชิงเส้นน้อย การเพิ่มประสิทธิภาพแบบโคเวกซ์ โปรดดูรายละเอียดที่หลักสูตรระบบการแนะนำ

ผลรวมถ่วงน้ำหนัก

#fundamentals

ผลรวมของค่าอินพุตที่เกี่ยวข้องทั้งหมดที่คูณด้วยน้ำหนักที่สอดคล้องกัน ตัวอย่างเช่น สมมติว่าอินพุตที่เกี่ยวข้องประกอบด้วยข้อมูลต่อไปนี้

ค่าอินพุต น้ำหนักอินพุต
2 -1.3
-1 0.6
3 0.4

ดังนั้นผลรวมถ่วงน้ำหนักจึงเท่ากับ

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

ผลรวมถ่วงน้ำหนักคืออาร์กิวเมนต์อินพุตของฟังก์ชันการเปิดใช้งาน

โมเดลแบบกว้าง

โมเดลเชิงเส้นที่มักจะมีฟีเจอร์อินพุตแบบเบาบางจำนวนมาก เราเรียกโมเดลนี้ว่า "กว้าง" เนื่องจากเป็นเครือข่ายประสาทเทียมประเภทพิเศษที่มีอินพุตจํานวนมากซึ่งเชื่อมต่อกับโหนดเอาต์พุตโดยตรง โมเดลแบบกว้างมักจะแก้ไขข้อบกพร่องและตรวจสอบได้ง่ายกว่าโมเดลเชิงลึก แม้ว่าโมเดลแบบกว้างจะไม่สามารถแสดงลักษณะที่ไม่ใช่เชิงเส้นผ่านเลเยอร์ที่ซ่อนอยู่ แต่ก็สามารถใช้การเปลี่ยนรูปแบบ เช่น การครอสฟีเจอร์ และการแบ่งกลุ่มเพื่อประมาณลักษณะที่ไม่ใช่เชิงเส้นในลักษณะต่างๆ

ตรงข้ามกับโมเดลเชิงลึก

ความกว้าง

จํานวนนิวรอนในเลเยอร์ที่เฉพาะเจาะจงของเครือข่ายประสาทเทียม

ภูมิปัญญาของมวลชน

#df

แนวคิดที่ว่าค่าเฉลี่ยของความคิดเห็นหรือการประมาณของกลุ่มคนจํานวนมาก ("ฝูงชน") มักให้ผลลัพธ์ที่ดีมากจนน่าประหลาดใจ เช่น ลองนึกถึงเกมที่ผู้คนต้องเดาจำนวนถั่วเยลลี่ที่บรรจุในโถขนาดใหญ่ แม้ว่าการคาดเดาของแต่ละคนส่วนใหญ่จะไม่ถูกต้อง แต่ค่าเฉลี่ยของการคาดเดาทั้งหมดได้รับการพิสูจน์แล้วว่าใกล้เคียงกับจำนวนเยลลี่บีนจริงในโถอย่างน่าประหลาดใจ

ชุดค่าผสมเป็นซอฟต์แวร์ที่ทำงานคล้ายกับภูมิปัญญาของมวลชน แม้ว่าโมเดลแต่ละรายการจะคาดการณ์อย่างไม่ถูกต้อง แต่การหาค่าเฉลี่ยของการคาดการณ์ของโมเดลหลายรายการมักจะให้ผลการคาดการณ์ที่แม่นยำอย่างน่าประหลาดใจ ตัวอย่างเช่น แม้ว่าต้นไม้การตัดสินใจแต่ละต้นอาจทําการคาดการณ์ได้ไม่ดี แต่ป่าการตัดสินใจมักจะทําการคาดการณ์ได้ดีมาก

Word Embedding

#language

การนำเสนอคําแต่ละคำในชุดคำภายในเวกเตอร์การฝัง กล่าวคือ การนำเสนอคําแต่ละคำเป็นเวกเตอร์ของค่าตัวเลขทศนิยมระหว่าง 0.0 ถึง 1.0 คําที่มีความหมายคล้ายกันจะมีการแสดงผลที่คล้ายกันมากกว่าคําที่มีความหมายต่างกัน ตัวอย่างเช่น แครอท ขึ้นฉ่าย และแตงกวาล้วนมีการแสดงผลที่คล้ายกัน ซึ่งจะแตกต่างจากการแสดงผลของเครื่องบิน แว่นกันแดด และยาสีฟัน

X

XLA (พีชคณิตเชิงเส้นแบบเร่ง)

คอมไพเลอร์แมชชีนเลิร์นนิงแบบโอเพนซอร์สสําหรับ GPU, CPU และโปรแกรมเร่งความเร็ว ML

คอมไพเลอร์ XLA จะนําโมเดลจากเฟรมเวิร์ก ML ที่ได้รับความนิยม เช่น PyTorch, TensorFlow และ JAX มาเพิ่มประสิทธิภาพเพื่อการทำงานที่มีประสิทธิภาพสูงในแพลตฟอร์มฮาร์ดแวร์ต่างๆ ซึ่งรวมถึง GPU, CPU และโปรแกรมเร่งความเร็ว ML

Z

การเรียนรู้แบบไม่ใช้ข้อมูลตัวอย่าง

การฝึกแมชชีนเลิร์นนิงประเภทหนึ่งที่โมเดลอนุมานการคาดการณ์สําหรับงานที่ยังไม่ได้ฝึกมาโดยเฉพาะ กล่าวคือ โมเดลไม่ได้รับตัวอย่างการฝึกเฉพาะงานเลย แต่ได้รับคำสั่งให้อนุมานงานนั้น

การแจ้งเตือนแบบไม่แสดงตัวอย่าง

#language
#generativeAI

พรอมต์ที่ไม่ได้แสดงตัวอย่างวิธีที่คุณต้องการให้โมเดลภาษาขนาดใหญ่ตอบกลับ เช่น

ส่วนต่างๆ ของพรอมต์ 1 รายการ หมายเหตุ
สกุลเงินทางการของประเทศที่ระบุคืออะไร คำถามที่คุณต้องการให้ LLM ตอบ
อินเดีย: คําค้นหาจริง

โมเดลภาษาขนาดใหญ่อาจตอบกลับด้วยสิ่งต่อไปนี้

  • รูปี
  • INR
  • รูปีอินเดีย
  • รูปี
  • รูปีอินเดีย

คำตอบทั้งหมดถูกต้อง แต่คุณอาจต้องการรูปแบบที่เฉพาะเจาะจง

เปรียบเทียบพรอมต์แบบไม่ใช้ตัวอย่างกับคำศัพท์ต่อไปนี้

การแปลงข้อมูลเป็นรูปแบบมาตรฐาน Z-Score

#fundamentals

เทคนิคการปรับขนาดที่ใช้แทนที่ค่า ฟีเจอร์ดิบด้วยค่าทศนิยมที่แสดงจํานวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของฟีเจอร์นั้น ตัวอย่างเช่น พิจารณาฟีเจอร์ที่มีค่าเฉลี่ย 800 และค่าความเบี่ยงเบนมาตรฐาน 100 ตารางต่อไปนี้แสดงวิธีที่การหาค่า Z-Score มาตรฐานจะจับคู่ค่าดิบกับ Z-Score

ค่าดิบ คะแนนมาตรฐาน (Z-Score)
800 0
950 +1.5
575 -2.25

จากนั้นโมเดลแมชชีนเลิร์นนิงจะฝึกด้วยคะแนน Z ของฟีเจอร์นั้นแทนค่าดิบ

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การทำให้ค่าเป็นมาตรฐานในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง