อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง

อภิธานศัพท์นี้อธิบายคําศัพท์เกี่ยวกับแมชชีนเลิร์นนิง

A

การผ่าตัด

เทคนิคในการประเมินความสำคัญของฟีเจอร์หรือคอมโพเนนต์โดยนำออกจากโมเดลชั่วคราว จากนั้นคุณก็ฝึกโมเดลใหม่โดยไม่มีฟีเจอร์หรือคอมโพเนนต์นั้น และหากโมเดลที่ฝึกใหม่มีประสิทธิภาพแย่ลงอย่างมาก แสดงว่าฟีเจอร์หรือคอมโพเนนต์ที่นําออกนั้นมีความสําคัญ

ตัวอย่างเช่น สมมติว่าคุณฝึกโมเดลการจัดประเภทด้วยฟีเจอร์ 10 รายการและได้ความแม่นยำ 88% ในชุดทดสอบ หากต้องการตรวจสอบความสำคัญของฟีเจอร์แรก คุณสามารถฝึกโมเดลใหม่โดยใช้เพียงฟีเจอร์อื่นๆ อีก 9 รายการ หากโมเดลที่ผ่านการฝึกใหม่มีประสิทธิภาพแย่ลงอย่างมาก (เช่น ความแม่นยำ 55%) แสดงว่าฟีเจอร์ที่นําออกอาจมีความสำคัญ ในทางกลับกัน หากรูปแบบที่ฝึกใหม่มีประสิทธิภาพดีเท่าเดิม แสดงว่าฟีเจอร์นั้นอาจไม่สำคัญมากนัก

การลบออกยังช่วยระบุความสำคัญของสิ่งต่อไปนี้ได้ด้วย

  • คอมโพเนนต์ขนาดใหญ่ เช่น ระบบย่อยทั้งหมดของระบบ ML ขนาดใหญ่
  • กระบวนการหรือเทคนิค เช่น ขั้นตอนเตรียมข้อมูลล่วงหน้า

ไม่ว่าในกรณีใด คุณจะต้องสังเกตว่าประสิทธิภาพของระบบเปลี่ยนแปลง (หรือไม่เปลี่ยนแปลง) อย่างไรหลังจากที่นำคอมโพเนนต์ออก

การทดสอบ A/B

วิธีทางสถิติในการเปรียบเทียบเทคนิค 2 (หรือมากกว่า) อย่าง ได้แก่ A และ B โดยปกติแล้ว A คือเทคนิคที่มีอยู่ และ B คือเทคนิคใหม่ การทดสอบ A/B ไม่เพียงแต่จะระบุว่าเทคนิคใดมีประสิทธิภาพดีกว่าเท่านั้น แต่ยังระบุว่าความแตกต่างนั้นสำคัญทางสถิติหรือไม่ด้วย

การทดสอบ A/B มักจะเปรียบเทียบเมตริกเดียวใน 2 เทคนิค เช่น ความแม่นยำของโมเดลเป็นอย่างไรเมื่อเปรียบเทียบ 2 เทคนิค อย่างไรก็ตาม การทดสอบ A/B ยังเปรียบเทียบเมตริกจํานวนจำกัดได้ด้วย

ชิปตัวเร่ง

#GoogleCloud

หมวดหมู่ของคอมโพเนนต์ฮาร์ดแวร์เฉพาะที่ออกแบบมาเพื่อดำเนินการประมวลผลที่สําคัญซึ่งจําเป็นสําหรับอัลกอริทึมการเรียนรู้เชิงลึก

ชิปเร่งความเร็ว (หรือเรียกสั้นๆ ว่าตัวเร่งความเร็ว) สามารถเพิ่มความเร็วและประสิทธิภาพของงานการฝึกและการทำนายได้อย่างมากเมื่อเทียบกับ CPU ทั่วไป ซึ่งเหมาะสําหรับการฝึกอบรมเครือข่ายประสาทเทียมและงานที่มีการคำนวณอย่างหนักคล้ายกัน

ตัวอย่างชิปเร่ง ได้แก่

  • Tensor Processing Unit (TPU) ของ Google ที่มีฮาร์ดแวร์เฉพาะสําหรับการเรียนรู้เชิงลึก
  • GPU ของ NVIDIA แม้ว่าจะออกแบบมาเพื่อประมวลผลกราฟิกในตอนแรก แต่ก็ออกแบบมาให้ประมวลผลแบบขนานได้ ซึ่งจะเพิ่มความเร็วในการประมวลผลได้อย่างมาก

ความแม่นยำ

#fundamentals
#Metric

จํานวนการคาดการณ์การจัดประเภทที่ถูกต้องหารด้วยจํานวนการคาดการณ์ทั้งหมด โดยการ

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

ตัวอย่างเช่น โมเดลที่ทําการคาดการณ์ที่ถูกต้อง 40 ครั้งและการคาดการณ์ที่ไม่ถูกต้อง 10 ครั้งจะมีความแม่นยําเท่ากับ

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

การจัดประเภทแบบไบนารีจะตั้งชื่อเฉพาะสำหรับการคาดการณ์ที่ถูกต้องและการคาดการณ์ที่ไม่ถูกต้องในหมวดหมู่ต่างๆ ดังนั้น สูตรความแม่นยำสำหรับการจัดประเภทแบบไบนารีจึงมีดังนี้

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

where:

  • TP คือจํานวนผลบวกจริง (การคาดการณ์ที่ถูกต้อง)
  • TN คือจํานวนผลลบจริง (การคาดการณ์ที่ถูกต้อง)
  • FP คือจํานวนผลบวกลวง (การคาดการณ์ที่ไม่ถูกต้อง)
  • FN คือจํานวนผลลบเท็จ (การคาดการณ์ที่ไม่ถูกต้อง)

เปรียบเทียบความถูกต้องกับความแม่นยำและความแม่นยำในการจดจำ

ดูข้อมูลเพิ่มเติมได้ในการจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้องในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การดำเนินการ

#rl

ในการเรียนรู้ด้วยการทำซ้ำ กลไกที่เอเจนต์เปลี่ยนระหว่างสถานะของสภาพแวดล้อม โดยตัวแทนจะเลือกการดำเนินการโดยใช้นโยบาย

ฟังก์ชันการเปิดใช้งาน

#fundamentals

ฟังก์ชันที่ช่วยให้เครือข่ายประสาทเทียมเรียนรู้ความสัมพันธ์ที่ไม่ใช่เชิงเส้น (ซับซ้อน) ระหว่างฟีเจอร์กับป้ายกำกับ

ฟังก์ชันการเปิดใช้งานยอดนิยมมีดังนี้

ผังฟังก์ชันการเปิดใช้งานจะไม่ได้เป็นเส้นตรงเส้นเดียว เช่น ผังฟังก์ชันการเปิดใช้งาน ReLU ประกอบด้วยเส้นตรง 2 เส้น ดังนี้

ผังพิกัดคาร์ทีเซียนของ 2 เส้น บรรทัดแรกมีค่า y คงที่ที่ 0 ซึ่งวิ่งไปตามแกน x จาก -infinity,0 ถึง 0,-0
          บรรทัดที่สองเริ่มต้นที่ 0,0 เส้นนี้มีความชัน +1 ดังนั้นจึงวิ่งจาก 0,0 ถึง +infinity,+infinity

ผังฟังก์ชันการเปิดใช้งาน Sigmoid มีลักษณะดังนี้

ผังโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมนจาก -infinity ถึง +positive ส่วนค่า y ครอบคลุมช่วงเกือบ 0 ถึงเกือบ 1 เมื่อ x เป็น 0, y จะเท่ากับ 0.5 ความชันของเส้นโค้งจะเป็นค่าบวกเสมอ โดยมีค่าสูงสุดที่ 0,0.5 และค่อยๆ ลดลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ดูข้อมูลเพิ่มเติมได้ที่เครือข่ายประสาท: ฟังก์ชันการเปิดใช้งานในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเรียนรู้แบบลงมือปฏิบัติ

แนวทางการฝึกที่อัลกอริทึมเลือกข้อมูลบางส่วนที่จะเรียนรู้ การเรียนรู้แบบมีส่วนร่วมจะมีประโยชน์อย่างยิ่งเมื่อตัวอย่างที่มีป้ายกำกับมีไม่มากหรือหาได้ยาก อัลกอริทึมการเรียนรู้แบบมีส่วนร่วมจะเลือกหาตัวอย่างที่หลากหลายตามที่ต้องการเพื่อการเรียนรู้ แทนที่จะค้นหาตัวอย่างที่ติดป้ายกำกับอย่างไร้จุดหมาย

AdaGrad

อัลกอริทึมการลดเชิงลาดขั้นสูงที่ปรับขนาดเชิงลาดของพารามิเตอร์แต่ละรายการใหม่ ซึ่งช่วยให้พารามิเตอร์แต่ละรายการมีอัตราการเรียนรู้อิสระ ดูคำอธิบายแบบเต็มได้ที่หัวข้อวิธีการ Subgradient แบบปรับเปลี่ยนได้สำหรับการเรียนรู้ออนไลน์และการเพิ่มประสิทธิภาพแบบสุ่ม

ตัวแทน

#rl

ในการเรียนรู้เพื่อเสริมแรง บุคคลที่ใช้นโยบายเพื่อเพิ่มผลตอบแทนที่คาดหวังสูงสุดจากการเปลี่ยนระหว่างสถานะของสภาพแวดล้อม

โดยทั่วไปแล้ว ตัวแทนคือซอฟต์แวร์ที่วางแผนและดําเนินการชุดหนึ่งๆ เพื่อบรรลุเป้าหมายอย่างอิสระ โดยสามารถปรับตัวตามการเปลี่ยนแปลงในสภาพแวดล้อม เช่น ตัวแทนที่อิงตาม LLM อาจใช้ LLM เพื่อสร้างแผน แทนที่จะใช้นโยบายการเรียนรู้ด้วยการทำซ้ำ

การแบ่งกลุ่มแบบรวมกลุ่ม

#clustering

ดูการจัดกลุ่มตามลําดับชั้น

การตรวจจับความผิดปกติ

กระบวนการระบุค่าผิดปกติ ตัวอย่างเช่น หากค่าเฉลี่ยของฟีเจอร์หนึ่งๆ คือ 100 ส่วนเบี่ยงเบนมาตรฐานคือ 10 การตรวจหาความผิดปกติควรแจ้งว่าค่า 200 เป็นค่าที่น่าสงสัย

AR

คำย่อของ Augmented Reality

พื้นที่ใต้กราฟ PR

#Metric

ดูPR AUC (พื้นที่ใต้กราฟ PR)

พื้นที่ใต้เส้นโค้ง ROC

#Metric

ดู AUC (พื้นที่ใต้กราฟ ROC)

ปัญญาประดิษฐ์ทั่วไป

กลไกที่ไม่ใช่มนุษย์ซึ่งแสดงให้เห็นถึงหลากหลายวิธีแก้ปัญหา ความคิดสร้างสรรค์ และความสามารถในการปรับตัว เช่น โปรแกรมที่แสดงให้เห็นถึงปัญญาประดิษฐ์ทั่วไปสามารถแปลข้อความ แต่งซิมโฟนี และเล่นเกมที่ยังไม่มีคนคิดค้นได้

ปัญญาประดิษฐ์ (AI)

#fundamentals

โปรแกรมหรือโมเดลที่ไม่ใช่มนุษย์ซึ่งสามารถแก้ปัญหาที่ซับซ้อน ตัวอย่างเช่น โปรแกรมหรือโมเดลที่แปลข้อความ หรือโปรแกรมหรือโมเดลที่ระบุโรคจากภาพรังสีวิทยา ต่างก็แสดงถึงปัญญาประดิษฐ์

แมชชีนเลิร์นนิงเป็นสาขาย่อยของปัญญาประดิษฐ์ (AI) อย่างไรก็ตาม ในช่วงไม่กี่ปีที่ผ่านมา องค์กรบางแห่งเริ่มใช้คำว่าปัญญาประดิษฐ์และแมชชีนเลิร์นนิงแทนกันได้

โปรดทราบ

#language

กลไกที่ใช้ในเครือข่ายประสาทเทียมซึ่งระบุความสำคัญของคําหนึ่งๆ หรือส่วนหนึ่งของคํา การใส่ใจจะบีบอัดปริมาณข้อมูลที่จำเป็นต่อโมเดลในการคาดคะเนโทเค็น/คำถัดไป กลไกการให้ความสำคัญทั่วไปอาจประกอบด้วยผลรวมถ่วงน้ำหนักของชุดอินพุต โดยที่น้ำหนักของอินพุตแต่ละรายการจะคํานวณโดยส่วนอื่นของเครือข่ายประสาท

โปรดดูการใส่ใจตนเองและการใส่ใจตนเองแบบหลายส่วน ซึ่งเป็นองค์ประกอบพื้นฐานของ Transformer

ดูข้อมูลเพิ่มเติมเกี่ยวกับการให้ความสนใจตนเองได้ที่หัวข้อ LLM: โมเดลภาษาขนาดใหญ่คืออะไรในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

แอตทริบิวต์

#fairness

คำพ้องความหมายของ feature

ในแง่ความยุติธรรมของแมชชีนเลิร์นนิง แอตทริบิวต์มักหมายถึงลักษณะที่เกี่ยวข้องกับบุคคล

การสุ่มตัวอย่างแอตทริบิวต์

#df

กลยุทธ์สำหรับการฝึกป่าการตัดสินใจ ซึ่งต้นไม้การตัดสินใจแต่ละต้นจะพิจารณาเฉพาะชุดย่อยแบบสุ่มของฟีเจอร์ที่เป็นไปได้เมื่อเรียนรู้เงื่อนไข โดยทั่วไป ระบบจะสุ่มตัวอย่างชุดย่อยของฟีเจอร์ที่แตกต่างกันสําหรับแต่ละโหนด ในทางตรงกันข้าม เมื่อฝึกต้นไม้การตัดสินใจโดยไม่มีการสุ่มตัวอย่างแอตทริบิวต์ ระบบจะพิจารณาฟีเจอร์ที่เป็นไปได้ทั้งหมดสำหรับแต่ละโหนด

AUC (พื้นที่ใต้เส้นโค้ง ROC)

#fundamentals
#Metric

ตัวเลขระหว่าง 0.0 ถึง 1.0 ที่แสดงถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ ยิ่ง AUC ใกล้เคียงกับ 1.0 มากเท่าใด ความสามารถในการแยกคลาสออกจากกันของโมเดลก็จะยิ่งดีขึ้นเท่านั้น

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโมเดลการจัดประเภทที่แยกคลาสที่เป็นบวก (รูปไข่สีเขียว) ออกจากคลาสที่เป็นลบ (สี่เหลี่ยมผืนผ้าสีม่วง) อย่างสมบูรณ์ โมเดลที่สมบูรณ์แบบเกินจริงนี้มีค่า AUC เท่ากับ 1.0

เส้นจำนวนที่มีตัวอย่างบวก 8 รายการด้านหนึ่ง และตัวอย่างลบ 9 รายการอีกด้านหนึ่ง

ในทางกลับกัน ภาพต่อไปนี้แสดงผลลัพธ์ของโมเดลการจัดประเภทที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มีค่า AUC เท่ากับ 0.5

เส้นจำนวนที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลําดับของตัวอย่างคือ บวก ลบ บวก ลบ บวก ลบ บวก ลบ บวก ลบ

ใช่ โมเดลก่อนหน้ามี AUC เท่ากับ 0.5 ไม่ใช่ 0.0

โมเดลส่วนใหญ่อยู่ตรงกลางระหว่าง 2 รูปแบบข้างต้น ตัวอย่างเช่น โมเดลต่อไปนี้แยกรายการเชิงบวกออกจากรายการเชิงลบได้บ้าง จึงมี AUC อยู่ระหว่าง 0.5 ถึง 1.0

เส้นจำนวนที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลําดับของตัวอย่างคือ เชิงลบ เชิงลบ เชิงลบ เชิงลบ เชิงบวก เชิงลบ เชิงบวก เชิงบวก เชิงลบ เชิงบวก เชิงบวก เชิงบวก

AUC จะไม่สนใจค่าที่คุณตั้งไว้สําหรับเกณฑ์การจัดประเภท แต่ AUC จะพิจารณาเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมดแทน

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Augmented Reality

#image

เทคโนโลยีที่วางซ้อนภาพที่สร้างโดยคอมพิวเตอร์บนมุมมองของผู้ใช้เกี่ยวกับโลกแห่งความเป็นจริง จึงให้มุมมองแบบผสม

ตัวเข้ารหัสอัตโนมัติ

#language
#image

ระบบที่เรียนรู้วิธีดึงข้อมูลที่สำคัญที่สุดจากอินพุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นชุดค่าผสมของโปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัส โปรแกรมเข้ารหัสอัตโนมัติใช้กระบวนการ 2 ขั้นตอนต่อไปนี้

  1. ตัวเข้ารหัสจะแมปอินพุตเป็นรูปแบบ (โดยปกติ) ที่มีการสูญเสียในมิติข้อมูลต่ำ (ระดับกลาง)
  2. ตัวถอดรหัสจะสร้างอินพุตต้นฉบับเวอร์ชันที่สูญเสียคุณภาพโดยการแมปรูปแบบมิติข้อมูลต่ำกับรูปแบบอินพุตมิติข้อมูลสูงเดิม

ระบบจะฝึก Autoencoder ตั้งแต่ต้นจนจบโดยให้ตัวถอดรหัสพยายามสร้างอินพุตเดิมขึ้นมาใหม่จากรูปแบบกลางของตัวเข้ารหัสให้ใกล้เคียงกับต้นฉบับมากที่สุด เนื่องจากรูปแบบกลางมีขนาดเล็กกว่า (มิติข้อมูลต่ำกว่า) รูปแบบเดิม ระบบจึงบังคับให้ตัวเข้ารหัสอัตโนมัติต้องเรียนรู้ว่าข้อมูลใดในอินพุตมีความสําคัญ และเอาต์พุตจะไม่เหมือนกับอินพุตอย่างสมบูรณ์

เช่น

  • หากข้อมูลอินพุตเป็นกราฟิก สำเนาที่ไม่ใช่สำเนาที่ตรงกันทั้งหมดจะคล้ายกับกราฟิกต้นฉบับ แต่มีการแก้ไขเล็กน้อย อาจเป็นเพราะสำเนาที่ไม่ใช่สำเนาที่ตรงกันทั้งหมดได้นำสัญญาณรบกวนออกจากกราฟิกต้นฉบับหรือเติมพิกเซลที่ขาดหายไป
  • หากข้อมูลอินพุตเป็นข้อความ ตัวเข้ารหัสอัตโนมัติจะสร้างข้อความใหม่ที่เลียนแบบ (แต่ไม่เหมือนกับ) ข้อความต้นฉบับ

ดูข้อมูลเพิ่มเติมได้ที่ตัวแปร Autoencoder

การประเมินอัตโนมัติ

#language
#generativeAI

การใช้ซอฟต์แวร์เพื่อตัดสินคุณภาพของเอาต์พุตของโมเดล

เมื่อเอาต์พุตของโมเดลค่อนข้างตรงไปตรงมา สคริปต์หรือโปรแกรมจะเปรียบเทียบเอาต์พุตของโมเดลกับคำตอบที่ถูกต้องได้ บางครั้งเราเรียกการประเมินอัตโนมัติประเภทนี้ว่าการประเมินแบบเป็นโปรแกรม เมตริก เช่น ROUGE หรือBLEU มักมีประโยชน์สําหรับการประเมินแบบเป็นโปรแกรม

เมื่อเอาต์พุตของโมเดลมีความซับซ้อนหรือมีคำตอบที่ถูกต้องเพียงคำตอบเดียว บางครั้งโปรแกรม ML แยกต่างหากที่เรียกว่าโปรแกรมประเมินอัตโนมัติจะดำเนินการประเมินโดยอัตโนมัติ

ตรงข้ามกับการประเมินโดยเจ้าหน้าที่

อคติการทำงานอัตโนมัติ

#fairness

เมื่อผู้ตัดสินใจที่เป็นมนุษย์ให้ความสำคัญกับคําแนะนําที่ได้จากระบบการตัดสินอัตโนมัติมากกว่าข้อมูลที่ได้จากระบบที่ไม่ใช้การทำงานอัตโนมัติ แม้ว่าระบบการตัดสินอัตโนมัติจะทําผิดพลาดก็ตาม

ดูข้อมูลเพิ่มเติมได้ในความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

AutoML

กระบวนการอัตโนมัติในการสร้างโมเดลแมชชีนเลิร์นนิง AutoML ทํางานต่างๆ โดยอัตโนมัติได้ เช่น

AutoML มีประโยชน์สําหรับนักวิทยาศาสตร์ข้อมูลเนื่องจากช่วยประหยัดเวลาและความพยายามในการพัฒนาไปป์ไลน์แมชชีนเลิร์นนิงและปรับปรุงความแม่นยําในการคาดการณ์ นอกจากนี้ เครื่องมือนี้ยังเป็นประโยชน์ต่อผู้ที่ไม่ใช่ผู้เชี่ยวชาญด้วย เนื่องจากช่วยให้งานแมชชีนเลิร์นนิงที่ซับซ้อนเข้าถึงได้ง่ายขึ้น

ดูข้อมูลเพิ่มเติมได้ที่แมชชีนเลิร์นนิงอัตโนมัติ (AutoML) ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การประเมินโดยโปรแกรมอัตโนมัติ

#language
#generativeAI
กลไกแบบผสมผสานสำหรับตัดสินคุณภาพของเอาต์พุตจากโมเดล Generative AI ซึ่งรวมการประเมินโดยเจ้าหน้าที่เข้ากับการประเมินอัตโนมัติ โปรแกรมให้คะแนนอัตโนมัติคือโมเดล ML ที่ฝึกด้วยข้อมูลที่สร้างขึ้นจากการประเมินโดยมนุษย์ ในทางทฤษฎีแล้ว โปรแกรมประเมินอัตโนมัติจะเรียนรู้ที่จะเลียนแบบผู้ประเมินที่เป็นมนุษย์

เครื่องมือประเมินอัตโนมัติที่สร้างไว้ล่วงหน้ามีให้ใช้งาน แต่เครื่องมือประเมินอัตโนมัติที่ดีที่สุดคือเครื่องมือที่ปรับแต่งมาเพื่องานที่คุณประเมินโดยเฉพาะ

โมเดลการถดถอยอัตโนมัติ

#language
#image
#generativeAI

โมเดลที่อนุมานการคาดการณ์ตามการคาดการณ์ก่อนหน้าของตนเอง ตัวอย่างเช่น โมเดลภาษาแบบย้อนกลับอัตโนมัติจะคาดการณ์โทเค็นถัดไปโดยอิงตามโทเค็นที่คาดการณ์ไว้ก่อนหน้านี้ โมเดลภาษาขนาดใหญ่ทั้งหมดที่อิงตาม Transformer จะเป็นแบบย้อนกลับอัตโนมัติ

ในทางตรงกันข้าม โมเดลรูปภาพที่อิงตาม GAN มักจะไม่ได้เป็นโมเดลที่ถดถอยอัตโนมัติ เนื่องจากสร้างรูปภาพในขั้นตอนเดียวแบบเดินหน้าและไม่ทําซ้ำในขั้นตอนต่างๆ อย่างไรก็ตาม โมเดลการสร้างรูปภาพบางรุ่นเป็นแบบถดถอยอัตโนมัติเนื่องจากสร้างรูปภาพเป็นขั้นตอน

การสลายพลังงาน

ฟังก์ชันการสูญเสียที่ใช้ร่วมกับฟังก์ชันการสูญเสียหลักของโมเดลเครือข่ายประสาทเทียม ซึ่งช่วยเร่งการฝึกในช่วงเริ่มต้นซ้ำๆ เมื่อมีการเริ่มต้นน้ำหนักแบบสุ่ม

ฟังก์ชันการสูญเสียเสริมจะส่งอนุพันธ์ที่มีประสิทธิภาพไปยังเลเยอร์ก่อนหน้า ซึ่งจะทําให้บรรลุข้อตกลงได้ในระหว่างการฝึกด้วยการต่อสู้กับปัญหาการลดลงของ Gradient

ความแม่นยำเฉลี่ยที่ k

#language
#Metric

เมตริกสำหรับสรุปประสิทธิภาพของโมเดลในพรอมต์เดียวซึ่งจะสร้างผลลัพธ์ที่จัดอันดับ เช่น รายการคำแนะนำหนังสือที่มีหมายเลข ความแม่นยำเฉลี่ยที่ k คือค่าเฉลี่ยของค่าความแม่นยำที่ k สำหรับผลการค้นหาที่เกี่ยวข้องแต่ละรายการ ดังนั้น สูตรความแม่นยำเฉลี่ยที่ k จึงจะเป็นดังนี้

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

where:

  • \(n\) คือจํานวนรายการที่เกี่ยวข้องในรายการ

เปรียบเทียบกับ recall at k

เงื่อนไขที่สอดคล้องกับแกน

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขที่เกี่ยวข้องกับฟีเจอร์เพียงรายการเดียว ตัวอย่างเช่น หาก area เป็นฟีเจอร์ เงื่อนไขที่สอดคล้องกับแกนจะเป็นดังนี้

area > 200

ตรงข้ามกับเงื่อนไขเอียง

B

การย้อนกลับ

#fundamentals

อัลกอริทึมที่นําการลดเชิงลาดไปใช้ในโครงข่ายประสาทเทียม

การฝึกโครงข่ายระบบประสาทเทียมเกี่ยวข้องกับiterationsหลายรอบของวงจรแบบ 2 รอบต่อไปนี้

  1. ในระหว่างการส่งผ่านไปข้างหน้า ระบบจะประมวลผลกลุ่มตัวอย่างเพื่อให้ได้การคาดการณ์ ระบบจะเปรียบเทียบการคาดการณ์แต่ละรายการกับค่าป้ายกำกับแต่ละค่า ส่วนต่างระหว่างการคาดการณ์และค่าป้ายกำกับคือการสูญเสียสำหรับตัวอย่างนั้น ระบบจะรวบรวมการสูญเสียของตัวอย่างทั้งหมดเพื่อคํานวณการสูญเสียทั้งหมดของกลุ่มปัจจุบัน
  2. ในระหว่างการส่งผ่านย้อนกลับ (Backpropagation) ระบบจะลดการสูญเสียด้วยการปรับน้ำหนักของนิวรอนทั้งหมดในเลเยอร์ที่ซ่อนอยู่

เครือข่ายประสาทมักจะมีเซลล์ประสาทหลายเซลล์ในหลายเลเยอร์ที่ซ่อนอยู่ เซลล์ประสาทแต่ละเซลล์มีส่วนทำให้เกิดความสูญเสียโดยรวมในลักษณะที่แตกต่างกัน การย้อนกลับจะกำหนดว่าจะเพิ่มหรือลดน้ำหนักที่ใช้กับเซลล์ประสาทบางเซลล์

อัตราการเรียนรู้คือตัวคูณที่ควบคุมระดับที่การย้อนกลับแต่ละครั้งจะเพิ่มหรือลดน้ำหนักแต่ละรายการ อัตราการเรียนรู้ที่สูงจะเพิ่มหรือลดน้ำหนักแต่ละรายการมากกว่าอัตราการเรียนรู้ที่ต่ำ

ในแง่แคลคูลัส การแสดงผลย้อนกลับจะใช้กฎเชนจากแคลคูลัส กล่าวคือ การแสดงผลย้อนกลับจะคํานวณอนุพันธ์บางส่วนของข้อผิดพลาดเทียบกับพารามิเตอร์แต่ละรายการ

เมื่อหลายปีก่อน ผู้ปฏิบัติงานด้าน ML ต้องเขียนโค้ดเพื่อใช้ Backpropagation ตอนนี้ API ML สมัยใหม่อย่าง Keras ใช้ Backpropagation ให้คุณแล้ว ในที่สุด

ดูข้อมูลเพิ่มเติมเกี่ยวกับเครือข่ายประสาทเทียมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ถุง

#df

วิธีฝึกชุดค่าผสม โดยโมเดลแต่ละรายการที่ประกอบกันจะฝึกจากชุดย่อยแบบสุ่มของตัวอย่างการฝึกที่ดึงตัวอย่างแบบสุ่มแทนที่ เช่น Random Forest คือชุดของDecision Tree ที่ผ่านการฝึกด้วย bagging

คําว่า bagging ย่อมาจาก bootstrap aggregating

ดูข้อมูลเพิ่มเติมเกี่ยวกับป่าแบบสุ่มในหลักสูตรป่าการตัดสินใจ

ถุงคำ

#language

การนําเสนอคําในวลีหรือข้อความโดยไม่คํานึงถึงลําดับ เช่น ถุงคำจะแสดงวลี 3 วลีต่อไปนี้ในลักษณะเดียวกัน

  • สุนัขกระโดด
  • กระโดดใส่สุนัข
  • สุนัขกระโดด

ระบบจะจับคู่แต่ละคำกับดัชนีในเวกเตอร์แบบเบาบาง โดยเวกเตอร์จะมีดัชนีสําหรับคําทุกคำในคําศัพท์ ตัวอย่างเช่น วลี the dog jumps จะแมปกับเวกเตอร์ลักษณะที่มีค่าที่ไม่ใช่ 0 ที่ดัชนี 3 รายการซึ่งสอดคล้องกับคําว่า the, dog และ jumps ค่าที่ไม่ใช่ 0 อาจเป็นค่าใดค่าหนึ่งต่อไปนี้

  • 1 เพื่อระบุการมีอยู่ของคำ
  • จำนวนครั้งที่คำหนึ่งๆ ปรากฏในถุง เช่น หากวลีคือ สุนัขสีน้ำตาลแดงเป็นสุนัขที่มีขนสีน้ำตาลแดง ทั้ง สีน้ำตาลแดงและสุนัขจะแสดงเป็น 2 ส่วนคําอื่นๆ จะแสดงเป็น 1
  • ค่าอื่นๆ เช่น ลอการิทึมของจํานวนครั้งที่คําปรากฏในถุง

พื้นฐาน

#Metric

โมเดลที่ใช้เป็นจุดอ้างอิงเพื่อเปรียบเทียบประสิทธิภาพของโมเดลอื่น (โดยทั่วไปคือโมเดลที่ซับซ้อนกว่า) เช่น โมเดลการถดถอยเชิงโลจิสติกอาจใช้เป็นบรรทัดฐานที่ดีสําหรับโมเดลเชิงลึก

สําหรับปัญหาหนึ่งๆ เกณฑ์พื้นฐานจะช่วยให้นักพัฒนาโมเดลระบุประสิทธิภาพขั้นต่ำที่คาดหวังซึ่งโมเดลใหม่ต้องบรรลุเพื่อให้โมเดลใหม่มีประโยชน์

กลุ่ม

#fundamentals

ชุดตัวอย่างที่ใช้ในการฝึก 1 ครั้งซ้ำ ขนาดกลุ่มจะกําหนดจํานวนตัวอย่างในกลุ่ม

ดูคำอธิบายว่ากลุ่มเกี่ยวข้องกับยุคสมัยอย่างไรได้ที่ยุคสมัย

ดูข้อมูลเพิ่มเติมได้ที่การหาค่าสัมประสิทธ์เชิงเส้น: ตัวแปรพหุนามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การอนุมานแบบกลุ่ม

#TensorFlow
#GoogleCloud

กระบวนการอนุมานการคาดการณ์จากตัวอย่างที่ไม่มีป้ายกำกับหลายรายการ ซึ่งแบ่งออกเป็นชุดย่อยขนาดเล็ก ("กลุ่ม")

การอนุมานแบบเป็นกลุ่มใช้ประโยชน์จากฟีเจอร์การขนานของชิปเร่งความเร็วได้ กล่าวคือ ตัวเร่งหลายตัวสามารถอนุมานการคาดการณ์ในชุดตัวอย่างที่ไม่มีป้ายกำกับหลายชุดพร้อมกัน ซึ่งจะเพิ่มจำนวนการอนุมานต่อวินาทีได้อย่างมาก

ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML สําหรับใช้งานจริง: การอนุมานแบบคงที่เทียบกับแบบไดนามิกในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การแปลงเป็นรูปแบบมาตรฐานกลุ่ม

การปรับค่าอินพุตหรือเอาต์พุตของฟังก์ชันการเปิดใช้งานในเลเยอร์ที่ซ่อนอยู่ การปรับมาตรฐานกลุ่มมีข้อดีดังนี้

ขนาดกลุ่ม

#fundamentals

จํานวนตัวอย่างในกลุ่ม เช่น หากขนาดกลุ่มเป็น 100 โมเดลจะประมวลผลตัวอย่าง 100 รายการต่อรอบ

กลยุทธ์ขนาดกลุ่มที่ได้รับความนิยมมีดังนี้

  • Stochastic Gradient Descent (SGD) ซึ่งมีขนาดกลุ่มเป็น 1
  • กลุ่มแบบเต็ม ซึ่งขนาดกลุ่มคือจํานวนตัวอย่างในชุดการฝึกทั้งหมด เช่น หากชุดข้อมูลการฝึกมีตัวอย่าง 1 ล้านรายการ ขนาดกลุ่มจะเป็น 1 ล้านตัวอย่าง โดยปกติแล้ว การใช้กลุ่มเต็มเป็นกลยุทธ์ที่ไม่มีประสิทธิภาพ
  • มินิแบทช์ ซึ่งโดยปกติแล้วขนาดของกลุ่มจะอยู่ระหว่าง 10 ถึง 1,000 โดยปกติแล้ว การส่งกลุ่มย่อยเป็นกลยุทธ์ที่มีประสิทธิภาพมากที่สุด

โปรดดูข้อมูลเพิ่มเติมที่ด้านล่าง

โครงข่ายประสาทเทียมแบบ Bayesian

เครือข่ายประสาทเทียมแบบน่าจะเป็นที่พิจารณาถึงความไม่แน่นอนในน้ำหนักและเอาต์พุต โดยทั่วไปแล้ว รูปแบบการถดถอยของเครือข่ายประสาทมาตรฐานจะคาดการณ์ค่าสเกลาร์ เช่น รูปแบบมาตรฐานคาดการณ์ราคาบ้านที่ 853,000 ในทางตรงกันข้าม เครือข่ายประสาทแบบ Bayesian จะคาดการณ์การแจกแจงค่า เช่น แบบจำลอง Bayesian จะคาดการณ์ราคาบ้านที่ 853,000 บาทโดยมีส่วนเบี่ยงเบนมาตรฐาน 67,200 บาท

เครือข่ายประสาทแบบเบย์เซียนใช้ ทฤษฎีของเบย์เพื่อคํานวณความไม่แน่นอนของน้ำหนักและการคาดการณ์ เครือข่ายประสาทแบบเบย์อาจมีประโยชน์เมื่อจำเป็นต้องวัดความไม่แน่นอน เช่น ในโมเดลที่เกี่ยวข้องกับยา เครือข่ายประสาทแบบเบย์ยังช่วยป้องกันการจับคู่ที่มากเกินไปได้ด้วย

การเพิ่มประสิทธิภาพ Bayesian

เทคนิคโมเดลการถดถอยแบบมีข้อมูลเป็นค่าความน่าจะเป็นเพื่อเพิ่มประสิทธิภาพฟังก์ชันวัตถุประสงค์ที่ต้องใช้การประมวลผลมาก โดยการเพิ่มประสิทธิภาพตัวแทนแทน ซึ่งจะวัดความไม่แน่นอนโดยใช้เทคนิคการเรียนรู้แบบเบย์เซียน เนื่องจากการเพิ่มประสิทธิภาพแบบเบย์เซียนมีค่าใช้จ่ายสูงมาก จึงมักใช้เพื่อเพิ่มประสิทธิภาพงานที่ประเมินได้ยากซึ่งมีพารามิเตอร์จํานวนน้อย เช่น การเลือกไฮเปอร์พารามิเตอร์

สมการของ Bellman

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ฟังก์ชัน Q ที่ดีที่สุดจะเป็นไปตามเอกลักษณ์ต่อไปนี้

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

อัลกอริทึมของการเรียนรู้เพื่อเสริมแรงจะใช้ข้อมูลประจําตัวนี้เพื่อสร้างการเรียนรู้แบบ Q โดยใช้กฎการอัปเดตต่อไปนี้

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

นอกเหนือจากการเรียนรู้ด้วยการทำซ้ำแล้ว สมการของ Bellman ยังนำไปใช้กับโปรแกรมแบบไดนามิกได้อีกด้วย ดูหัวข้อ สมการของ Bellman ใน Wikipedia

BERT (Bidirectional Encoder Representations from Transformers)

#language

สถาปัตยกรรมโมเดลสําหรับการนําเสนอข้อความ โมเดล BERT ที่ผ่านการฝึกอบรมจะทําหน้าที่เป็นโมเดลขนาดใหญ่ขึ้นสําหรับการจัดประเภทข้อความหรืองาน ML อื่นๆ ได้

BERT มีลักษณะดังนี้

รูปแบบของ BERT มีดังนี้

  • ALBERT ซึ่งเป็นอักษรย่อของ A Light BERT
  • LaBSE

ดูภาพรวมของ BERT ได้ที่การเผยแพร่ BERT แบบโอเพนซอร์ส: การฝึกล่วงหน้าที่ล้ำสมัยสำหรับการประมวลผลภาษาธรรมชาติ

อคติ (จริยธรรม/ความเป็นธรรม)

#fairness
#fundamentals

1. การเหมารวม อคติ หรือการเลือกปฏิบัติต่อบางสิ่ง บุคคล หรือกลุ่มคนมากกว่ากลุ่มอื่น ความลำเอียงเหล่านี้อาจส่งผลต่อการรวบรวมและการตีความข้อมูล การออกแบบระบบ และวิธีที่ผู้ใช้โต้ตอบกับระบบ รูปแบบของอคติประเภทนี้ ได้แก่

2. ข้อผิดพลาดเชิงระบบที่เกิดจากขั้นตอนการสุ่มตัวอย่างหรือการรายงาน รูปแบบของอคติประเภทนี้ ได้แก่

โปรดอย่าสับสนกับคำที่เป็นอคติในโมเดลแมชชีนเลิร์นนิงหรืออคติในการคาดการณ์

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อคติ (คณิตศาสตร์) หรือคําอคติ

#fundamentals

การขัดจังหวะหรือการเลื่อนจากต้นทาง ความลำเอียงคือพารามิเตอร์ในโมเดลแมชชีนเลิร์นนิง ซึ่งแสดงด้วยสัญลักษณ์ต่อไปนี้

  • b
  • w0

เช่น ความลำเอียงคือ b ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในเส้น 2 มิติธรรมดา ความลำเอียงหมายถึง "ค่าตัดแกน y" เช่น ความลำเอียงของเส้นในภาพประกอบต่อไปนี้คือ 2

ผังเส้นที่มีความชัน 0.5 และค่าเบี่ยงเบน (จุดตัด Y) เท่ากับ 2

ความลำเอียงเกิดขึ้นเนื่องจากโมเดลบางรุ่นไม่ได้เริ่มต้นจากจุดเริ่มต้น (0,0) ตัวอย่างเช่น สมมติว่าสวนสนุกมีราคาค่าเข้า 20 บาทและคิดเพิ่มอีก 5 บาทต่อทุกๆ ชั่วโมงที่ลูกค้าเข้าชม ดังนั้น โมเดลที่จับคู่ต้นทุนทั้งหมดจึงมีอคติ 2 เนื่องจากต้นทุนต่ำสุดคือ 2 ยูโร

โปรดอย่าสับสนระหว่างอคติกับอคติด้านจริยธรรมและความยุติธรรมหรืออคติในการคาดการณ์

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้นในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

แบบ 2 ทิศทาง

#language

คําที่ใช้อธิบายระบบที่ประเมินข้อความทั้งในส่วนที่อยู่ก่อนและอยู่หลังส่วนของข้อความเป้าหมาย ในทางตรงกันข้าม ระบบแบบทิศทางเดียวจะประเมินเฉพาะข้อความที่อยู่ก่อนส่วนข้อความเป้าหมาย

ตัวอย่างเช่น ลองพิจารณาโมเดลภาษาที่มีการปกปิดซึ่งต้องระบุความน่าจะเป็นของคำที่แสดงขีดล่างในคำถามต่อไปนี้

_____ กับคุณเป็นอย่างไรบ้าง

โมเดลภาษาแบบทิศทางเดียวจะต้องอิงความน่าจะเป็นตามบริบทที่ได้จากคําว่า "อะไร" "คือ" และ "ที่" เท่านั้น ในทางตรงกันข้าม โมเดลภาษาแบบ 2 ทิศทางอาจได้รับบริบทจาก "กับ" และ "คุณ" ด้วย ซึ่งอาจช่วยให้โมเดลสร้างการคาดการณ์ที่ดีขึ้น

โมเดลภาษาแบบ 2 ทาง

#language

โมเดลภาษาที่กําหนดความน่าจะเป็นที่โทเค็นหนึ่งๆ จะปรากฏในตําแหน่งหนึ่งๆ ของข้อความที่ตัดตอนมาโดยอิงตามข้อความก่อนหน้าและถัดจาก

Bigram

#seq
#language

N-gram โดยที่ N=2

การจัดประเภทแบบไบนารี

#fundamentals

งานการจัดประเภทประเภทหนึ่งที่คาดการณ์คลาสใดคลาสหนึ่งจาก 2 คลาสที่ไม่เกี่ยวข้องกัน

ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิง 2 รายการต่อไปนี้จะทําการจัดประเภทแบบ 2 กลุ่ม

  • โมเดลที่ระบุว่าข้อความอีเมลเป็นสแปม (คลาสบวก) หรือไม่ใช่สแปม (คลาสลบ)
  • โมเดลที่ประเมินอาการทางการแพทย์เพื่อระบุว่าบุคคลมีโรคหนึ่งๆ (คลาสบวก) หรือไม่ (คลาสลบ)

ตรงข้ามกับการจัดประเภทแบบหลายคลาส

ดูข้อมูลเพิ่มเติมได้ที่โลจิสติกรีเกรชัน และเกณฑ์การจัดประเภท

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภทในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เงื่อนไขไบนารี

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้เพียง 2 รายการ ซึ่งโดยทั่วไปคือใช่หรือไม่ ตัวอย่างเงื่อนไขแบบไบนารีมีดังนี้

temperature >= 100

ตรงข้ามกับเงื่อนไขแบบไม่ไบนารี

ดูข้อมูลเพิ่มเติมได้ในประเภทเงื่อนไขในหลักสูตรป่าการตัดสินใจ

การแยกกลุ่ม

คำพ้องความหมายของการแบ่งกลุ่ม

BLEU (Bilingual Evaluation Understudy)

#language

เมตริกระหว่าง 0.0 ถึง 1.0 สําหรับประเมินการแปลด้วยคอมพิวเตอร์ เช่น จากภาษาสเปนเป็นภาษาญี่ปุ่น

โดยปกติแล้ว BLEU จะคำนวณคะแนนโดยการเปรียบเทียบคำแปลของโมเดล ML (ข้อความที่สร้างขึ้น) กับคำแปลของผู้เชี่ยวชาญที่เป็นมนุษย์ (ข้อความอ้างอิง) ระดับที่ N-grams ในข้อความที่สร้างขึ้นและข้อความอ้างอิงตรงกันเป็นตัวกำหนดคะแนน BLEU

เอกสารต้นฉบับเกี่ยวกับเมตริกนี้คือ BLEU: วิธีการประเมินการแปลด้วยคอมพิวเตอร์โดยอัตโนมัติ

โปรดดูBLEURT ด้วย

BLEURT (Bilingual Evaluation Understudy from Transformers)

#language

เมตริกสําหรับประเมินการแปลด้วยคอมพิวเตอร์จากภาษาหนึ่งเป็นภาษาอื่น โดยเฉพาะจากและไปยังภาษาอังกฤษ

สำหรับคำแปลจากและไปยังภาษาอังกฤษ BLEURT จะสอดคล้องกับคะแนนที่มนุษย์ให้ไว้มากกว่า BLEU BLEURT เน้นความคล้ายคลึงทางความหมาย (ความหมาย) และรองรับการถอดความ ซึ่งแตกต่างจาก BLEU

BLEURT ใช้โมเดลภาษาขนาดใหญ่ที่ผ่านการฝึกล่วงหน้า (หรือก็คือ BERT) ซึ่งได้รับการปรับแต่งอย่างละเอียดจากข้อความที่นักแปลมนุษย์แปล

เอกสารต้นฉบับเกี่ยวกับเมตริกนี้คือ BLEURT: Learning Robust Metrics for Text Generation

การเพิ่ม

เทคนิคแมชชีนเลิร์นนิงที่รวมชุดตัวแยกประเภทที่เรียบง่ายและไม่แม่นยำมาก (เรียกว่าตัวแยกประเภท "อ่อน") เข้าด้วยกันซ้ำๆ เพื่อสร้างตัวแยกประเภทที่มีความแม่นยำสูง (ตัวแยกประเภท "แรง") โดยเพิ่มน้ำหนักตัวอย่างที่โมเดลกำลังแยกประเภทไม่ถูกต้อง

ดูข้อมูลเพิ่มเติมในหลักสูตรป่าการตัดสินใจเกี่ยวกับต้นไม้การตัดสินใจที่มีการเพิ่มประสิทธิภาพด้วย Gradient

กรอบล้อมรอบ

#image

ในรูปภาพ พิกัด (x, y) ของสี่เหลี่ยมผืนผ้ารอบๆ พื้นที่ที่น่าสนใจ เช่น สุนัขในรูปภาพด้านล่าง

รูปถ่ายสุนัขนั่งบนโซฟา กล่องขอบสีเขียวที่มีพิกัดด้านซ้ายบน (275, 1271) และพิกัดด้านขวาล่าง (2954, 2761) ล้อมรอบร่างกายของสุนัข

การออกอากาศ

การขยายรูปร่างของออพเพอร์แรนด์ในการดําเนินการทางคณิตศาสตร์เมทริกซ์เป็นมิติข้อมูลที่เข้ากันได้สําหรับการดำเนินการดังกล่าว เช่น พีชคณิตเชิงเส้นกำหนดให้โอเปอเรนด์ 2 รายการในการดำเนินการบวกเมทริกซ์ต้องมีมิติข้อมูลเดียวกัน คุณจึงเพิ่มเมทริกซ์ที่มีรูปร่าง (m, n) ลงในเวกเตอร์ที่มีความยาว n ไม่ได้ การกระจายช่วยให้ดำเนินการนี้ได้โดยการขยายเวกเตอร์ที่มีความยาว n เป็นเมทริกซ์ที่มีรูปร่าง (m, n) โดยทำซ้ำค่าเดียวกันในแต่ละคอลัมน์

ดูรายละเอียดเพิ่มเติมได้ในคำอธิบายต่อไปนี้เกี่ยวกับการออกอากาศใน NumPy

การแบ่งกลุ่ม

#fundamentals

การเปลี่ยนฟีเจอร์รายการเดียวให้เป็นฟีเจอร์ไบนารีหลายรายการ ซึ่งเรียกว่าที่เก็บหรือกลุ่ม โดยปกติจะอิงตามช่วงค่า โดยปกติแล้วองค์ประกอบที่ตัดออกจะเป็นองค์ประกอบต่อเนื่อง

เช่น แทนที่จะแสดงอุณหภูมิเป็นฟีเจอร์ทศนิยมต่อเนื่องรายการเดียว คุณอาจแบ่งช่วงอุณหภูมิออกเป็นกลุ่มแบบไม่ต่อเนื่อง เช่น

  • <= 10 องศาเซลเซียสจะเป็นกลุ่ม "หนาวเย็น"
  • 11 - 24 องศาเซลเซียสจะอยู่ในหมวดหมู่ "อบอุ่น"
  • อุณหภูมิ >= 25 องศาเซลเซียสจะอยู่ในกลุ่ม "อบอุ่น"

โมเดลจะถือว่าค่าทุกค่าในที่เก็บเดียวกันเหมือนกัน เช่น ค่า 13 และ 22 อยู่ในที่เก็บข้อมูลแบบอบอุ่นทั้งคู่ ดังนั้นโมเดลจะถือว่าค่าทั้งสองเหมือนกัน

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การแบ่งกลุ่มในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

C

เลเยอร์การปรับเทียบ

การปรับหลังการคาดการณ์ ซึ่งมักจะพิจารณาถึงความลำเอียงในการคาดการณ์ การคาดการณ์และความน่าจะเป็นที่ปรับแล้วควรตรงกับการกระจายของชุดป้ายกำกับที่สังเกตได้

การสร้างผู้สมัคร

#recsystems

ชุดคำแนะนำเริ่มต้นที่ระบบการแนะนำเลือก ตัวอย่างเช่น ลองพิจารณาร้านหนังสือที่มีหนังสือ 100,000 เล่ม ระยะการสร้างผู้สมัครจะสร้างรายการหนังสือที่เหมาะสมสำหรับผู้ใช้บางรายจำนวนน้อยกว่ามาก เช่น 500 เล่ม แต่แม้กระทั่ง 500 เล่มก็ยังถือว่ามีจำนวนมากเกินไปที่จะแนะนำแก่ผู้ใช้ ขั้นตอนถัดไปของระบบการแนะนำที่แพงกว่า (เช่น การให้คะแนนและการจัดอันดับใหม่) จะลดจำนวนวิดีโอ 500 รายการนั้นให้เหลือชุดคำแนะนำที่มีประโยชน์มากกว่าและจำนวนน้อยลงมาก

ดูข้อมูลเพิ่มเติมได้ในภาพรวมการสร้างผู้สมัครในหลักสูตรระบบการแนะนำ

การสุ่มตัวอย่างผู้สมัคร

การเพิ่มประสิทธิภาพขณะฝึกที่คำนวณความน่าจะเป็นสำหรับป้ายกำกับบวกทั้งหมด เช่น ใช้ Softmax แต่ใช้กับตัวอย่างป้ายกำกับเชิงลบแบบสุ่มเท่านั้น ตัวอย่างเช่น เมื่อพิจารณาตัวอย่างที่มีป้ายกำกับว่าบีเกิ้ลและสุนัข การสุ่มตัวอย่างผู้สมัครจะคํานวณความน่าจะเป็นที่คาดการณ์ไว้และเงื่อนไขการสูญเสียที่เกี่ยวข้องสําหรับ

  • beagle
  • dog
  • ชุดย่อยแบบสุ่มของคลาสเชิงลบที่เหลือ (เช่น cat, lollipop, fence)

แนวคิดคือ คลาสเชิงลบสามารถเรียนรู้จากการเสริมแรงเชิงลบที่พบไม่บ่อยนัก ตราบใดที่คลาสเชิงบวกได้รับการเสริมแรงเชิงบวกที่เหมาะสมเสมอ และนี่เป็นสิ่งที่สังเกตได้จากการทดสอบจริง

การสุ่มตัวอย่างผู้สมัครมีประสิทธิภาพในการประมวลผลมากกว่าอัลกอริทึมการฝึกที่ประมวลผลการคาดการณ์สำหรับคลาสเชิงลบทั้งหมด โดยเฉพาะอย่างยิ่งเมื่อจํานวนคลาสเชิงลบมีจํานวนมาก

ข้อมูลเชิงหมวดหมู่

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ที่เฉพาะเจาะจง ตัวอย่างเช่น ให้พิจารณาฟีเจอร์เชิงหมวดหมู่ชื่อ traffic-light-state ซึ่งอาจมีค่าใดค่าหนึ่งต่อไปนี้เท่านั้น

  • red
  • yellow
  • green

การนําเสนอ traffic-light-state เป็นฟีเจอร์เชิงหมวดหมู่จะช่วยให้โมเดลเรียนรู้ผลกระทบที่แตกต่างกันของ red, green และ yellow ต่อพฤติกรรมของผู้ขับขี่

บางครั้งฟีเจอร์เชิงหมวดหมู่เรียกว่าฟีเจอร์แบบไม่ต่อเนื่อง

ตรงข้ามกับข้อมูลตัวเลข

ดูข้อมูลเพิ่มเติมที่หัวข้อการทํางานกับข้อมูลเชิงหมวดหมู่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โมเดลภาษาเชิงสาเหตุ

#language

คำพ้องความหมายของโมเดลภาษาแบบทิศทางเดียว

ดูโมเดลภาษาแบบ 2 ทิศทางเพื่อเปรียบเทียบแนวทางแบบต่างๆ ในการประมาณภาษา

เซนทรอยด์

#clustering

ศูนย์กลางของคลัสเตอร์ที่ระบุโดยอัลกอริทึม K-means หรือ K-median เช่น หาก k = 3 อัลกอริทึม K-means หรือ K-median จะค้นหาจุดศูนย์กลาง 3 จุด

ดูข้อมูลเพิ่มเติมได้ในอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม

การคลัสเตอร์ตามเซนทรอยด์

#clustering

หมวดหมู่ของอัลกอริทึมการจัดกลุ่มที่จัดระเบียบข้อมูลเป็นคลัสเตอร์ที่ไม่มีลําดับชั้น K-means เป็นอัลกอริทึมการจัดกลุ่มตามจุดศูนย์กลางที่ใช้กันอย่างแพร่หลายที่สุด

เปรียบเทียบกับอัลกอริทึมการจัดกลุ่มตามลําดับชั้น

ดูข้อมูลเพิ่มเติมได้ในอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม

การช่วยสร้างลำดับความคิด

#language
#generativeAI

เทคนิคการสร้างพรอมต์ที่กระตุ้นโมเดลภาษาขนาดใหญ่ (LLM) ให้อธิบายเหตุผลทีละขั้นตอน ตัวอย่างเช่น ลองดูพรอมต์ต่อไปนี้ โดยให้ความสนใจเป็นพิเศษกับประโยคที่ 2

ผู้ขับขี่จะรู้สึกถึงแรง g เท่าใดในรถที่เร่งจาก 0 เป็น 60 ไมล์ต่อชั่วโมงใน 7 วินาที แสดงการคํานวณที่เกี่ยวข้องทั้งหมดในคําตอบ

คำตอบของ LLM มีแนวโน้มที่จะมีลักษณะดังนี้

  • แสดงลำดับสูตรฟิสิกส์ โดยใส่ค่า 0, 60 และ 7 ในตำแหน่งที่เหมาะสม
  • อธิบายเหตุผลที่เลือกสูตรเหล่านั้น และความหมายของตัวแปรต่างๆ

การแจ้งเตือนแบบเชื่อมโยงความคิดจะบังคับให้ LLM ทำการคํานวณทั้งหมด ซึ่งอาจทําให้ได้คําตอบที่ถูกต้องมากขึ้น นอกจากนี้ ข้อความแจ้งแบบเป็นลำดับความคิดยังช่วยให้ผู้ใช้ตรวจสอบขั้นตอนของ LLM เพื่อพิจารณาว่าคำตอบนั้นสมเหตุสมผลหรือไม่

แชท

#language
#generativeAI

เนื้อหาของบทสนทนาแบบโต้ตอบกับระบบ ML ซึ่งโดยทั่วไปแล้วจะเป็นโมเดลภาษาขนาดใหญ่ การโต้ตอบก่อนหน้านี้ในแชท (สิ่งที่คุณพิมพ์และวิธีที่โมเดลภาษาขนาดใหญ่ตอบกลับ) จะกลายเป็นบริบทสําหรับส่วนถัดไปของแชท

แชทบ็อตคือแอปพลิเคชันของโมเดลภาษาขนาดใหญ่

จุดตรวจ

ข้อมูลที่บันทึกสถานะของพารามิเตอร์ของโมเดลระหว่างการฝึกหรือหลังจากการฝึกเสร็จสิ้น ตัวอย่างเช่น ในระหว่างการฝึกอบรม คุณจะทำสิ่งต่อไปนี้ได้

  1. หยุดการฝึก อาจตั้งใจหรือเป็นเพราะข้อผิดพลาดบางอย่าง
  2. บันทึกจุดตรวจสอบ
  3. โหลดจุดตรวจสอบอีกครั้งในภายหลัง ซึ่งอาจทำในฮาร์ดแวร์เครื่องอื่น
  4. เริ่มการฝึกใหม่

คลาส

#fundamentals

หมวดหมู่ที่ป้ายกํากับสามารถอยู่ได้ เช่น

โมเดลการจัดประเภทจะคาดการณ์คลาส ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์ตัวเลขแทนที่จะคาดการณ์คลาส

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภทในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โมเดลการจัดประเภท

#fundamentals

โมเดลที่การคาดการณ์คือคลาส ตัวอย่างเช่น รูปแบบการจัดประเภททั้งหมดมีดังนี้

  • โมเดลที่คาดการณ์ภาษาของประโยคอินพุต (ฝรั่งเศสใช่ไหม สเปน อิตาลี)
  • โมเดลที่คาดการณ์ชนิดต้นไม้ (เมเปิลใช่ไหม โอ๊ก เบาบับใช่ไหม)
  • โมเดลที่คาดการณ์คลาสเชิงบวกหรือเชิงลบสำหรับภาวะทางการแพทย์หนึ่งๆ

ในทางตรงกันข้าม โมเดลการเกิดปัญหาซ้ำจะคาดการณ์ตัวเลขแทนคลาส

โมเดลการจัดประเภทที่พบได้ทั่วไป 2 ประเภท ได้แก่

เกณฑ์การจัดประเภท

#fundamentals

ในการจัดประเภทแบบไบนารี ตัวเลขระหว่าง 0 ถึง 1 ที่แปลงเอาต์พุตดิบของโมเดลโลจิสติกรีเกรชันเป็นการคาดการณ์คลาสเชิงบวกหรือคลาสเชิงลบ โปรดทราบว่าเกณฑ์การจัดประเภทคือค่าที่มนุษย์เลือก ไม่ใช่ค่าที่การฝึกโมเดลเลือก

โมเดลการถดถอยเชิงเส้นโลจิสติกจะแสดงผลค่าดิบระหว่าง 0 ถึง 1 จากนั้นให้ทำดังนี้

  • หากค่าดิบนี้มากกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสเชิงบวก
  • หากค่าดิบนี้น้อยกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสเชิงลบ

เช่น สมมติว่าเกณฑ์การแยกประเภทคือ 0.8 หากค่าดิบคือ 0.9 แสดงว่าโมเดลคาดการณ์คลาสเชิงบวก หากค่าดิบคือ 0.7 แสดงว่าโมเดลคาดการณ์คลาสเชิงลบ

การเลือกเกณฑ์การจัดประเภทจะมีผลอย่างมากต่อจํานวนผลบวกลวงและผลลบลวง

ดูข้อมูลเพิ่มเติมเกี่ยวกับเกณฑ์และตารางความสับสนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ชุดข้อมูลที่มีจำนวนของคลาสไม่สมดุล

#fundamentals

ชุดข้อมูลสําหรับปัญหาการจัดประเภทซึ่งมีจํานวนป้ายกํากับทั้งหมดของแต่ละคลาสแตกต่างกันอย่างมาก ตัวอย่างเช่น พิจารณาชุดข้อมูลการจัดประเภทแบบไบนารีที่มีป้ายกำกับ 2 รายการซึ่งแบ่งออกเป็นดังนี้

  • ป้ายกำกับเชิงลบ 1,000,000 รายการ
  • ป้ายกำกับเชิงบวก 10 รายการ

อัตราส่วนของป้ายกำกับเชิงลบต่อเชิงบวกคือ 100,000 ต่อ 1 ดังนั้นชุดข้อมูลนี้จึงเป็นชุดข้อมูลที่ไม่สมดุลของคลาส

ในทางตรงกันข้าม ชุดข้อมูลต่อไปนี้ไม่มีความไม่สมดุลของคลาส เนื่องจากอัตราส่วนของป้ายกำกับเชิงลบต่อป้ายกำกับเชิงบวกค่อนข้างใกล้เคียงกับ 1

  • ป้ายกำกับเชิงลบ 517 รายการ
  • ป้ายกำกับเชิงบวก 483 รายการ

ชุดข้อมูลหลายคลาสอาจไม่สมดุลตามคลาสได้เช่นกัน ตัวอย่างเช่น ชุดข้อมูลการจัดประเภทแบบหลายคลาสต่อไปนี้ยังมีความไม่สมดุลของคลาสด้วยเนื่องจากป้ายกำกับหนึ่งมีตัวอย่างมากกว่าอีก 2 ป้ายกำกับ

  • ป้ายกำกับ 1,000,000 รายการที่มีคลาส "green"
  • ป้ายกำกับ 200 รายการที่มีคลาส "purple"
  • ป้ายกำกับ 350 รายการที่มีคลาส "orange"

ดูข้อมูลเพิ่มเติมได้ที่เอนโทรปี คลาสส่วนใหญ่ และคลาสส่วนน้อย

การตัด

#fundamentals

เทคนิคการจัดการค่าผิดปกติโดยทําอย่างใดอย่างหนึ่งหรือทั้ง 2 อย่างต่อไปนี้

  • ลดค่าฟีเจอร์ที่มากกว่าเกณฑ์สูงสุดให้เหลือเท่ากับเกณฑ์สูงสุด
  • การเพิ่มค่าฟีเจอร์ที่น้อยกว่าเกณฑ์ขั้นต่ำให้เท่ากับเกณฑ์ขั้นต่ำ

ตัวอย่างเช่น สมมติว่าค่าของฟีเจอร์หนึ่งๆ น้อยกว่า 0.5% อยู่นอกช่วง 40-60 ในกรณีนี้ คุณจะทำสิ่งต่อไปนี้ได้

  • ตัดค่าทั้งหมดที่มากกว่า 60 (เกณฑ์สูงสุด) ให้เท่ากับ 60
  • ตัดค่าทั้งหมดที่ต่ำกว่า 40 (เกณฑ์ขั้นต่ำ) ให้เท่ากับ 40

ค่าผิดปกติอาจทําให้โมเดลเสียหาย และบางครั้งอาจทําให้น้ำหนัก overflow ในระหว่างการฝึก ค่าที่ผิดปกติบางรายการยังอาจทําให้เมตริกต่างๆ เช่น ความแม่นยํา เสียไปอย่างมาก การตัดเสียงเป็นเทคนิคทั่วไปในการจำกัดความเสียหาย

การปัดเศษ Gradient จะบังคับให้ค่า Gradient อยู่ในช่วงที่กำหนดระหว่างการฝึก

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การปรับมาตรฐานในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Cloud TPU

#TensorFlow
#GoogleCloud

ตัวเร่งฮาร์ดแวร์เฉพาะที่ออกแบบมาเพื่อเร่งความเร็วของภาระงานแมชชีนเลิร์นนิงใน Google Cloud

การคลัสเตอร์

#clustering

จัดกลุ่มตัวอย่างที่เกี่ยวข้อง โดยเฉพาะในระหว่างการเรียนรู้แบบไม่มีการควบคุมดูแล เมื่อจัดกลุ่มตัวอย่างทั้งหมดแล้ว เจ้าหน้าที่จะระบุความหมายให้กับแต่ละคลัสเตอร์ได้ (ไม่บังคับ)

อัลกอริทึมการจัดกลุ่มมีอยู่หลายประเภท เช่น อัลกอริทึม k-means จะจัดกลุ่มตัวอย่างตามระดับความใกล้เคียงกับจุดศูนย์กลาง ดังในแผนภาพต่อไปนี้

กราฟ 2 มิติที่แกน X มีป้ายกำกับว่า &quot;ความกว้างของต้นไม้&quot; และแกน Y มีป้ายกำกับว่า &quot;ความสูงของต้นไม้&quot; กราฟมีจุดศูนย์กลาง 2 จุดและจุดข้อมูลหลายสิบจุด ระบบจะจัดหมวดหมู่จุดข้อมูลตามระดับความใกล้เคียง กล่าวคือ จุดข้อมูลที่ใกล้กับจุดศูนย์กลางจุดหนึ่งจะจัดอยู่ในคลัสเตอร์ 1 ส่วนจุดข้อมูลที่ใกล้กับจุดศูนย์กลางอีกจุดหนึ่งจะจัดอยู่ในคลัสเตอร์ 2

จากนั้นนักวิจัยจะตรวจสอบคลัสเตอร์และติดป้ายกำกับคลัสเตอร์ 1 เป็น "ต้นไม้แคระ" และคลัสเตอร์ 2 เป็น "ต้นไม้ขนาดเต็ม" ได้

อีกตัวอย่างหนึ่งคืออัลกอริทึมการจัดกลุ่มที่อิงตามระยะห่างจากจุดศูนย์กลางของตัวอย่างดังที่แสดงต่อไปนี้

จุดข้อมูลหลายสิบจุดจะจัดเรียงเป็นวงกลมศูนย์กลางคล้ายกับรูรอบๆ ศูนย์กลางของกระดานปาเป้า วงในสุดของจุดข้อมูลจะจัดอยู่ในคลัสเตอร์ 1 วงกลางจัดอยู่ในคลัสเตอร์ 2 และวงนอกสุดจัดอยู่ในคลัสเตอร์ 3

ดูข้อมูลเพิ่มเติมได้ที่หลักสูตรการคลัสเตอร์

การปรับตัวร่วมกัน

เมื่อนิวรอนคาดการณ์รูปแบบในข้อมูลการฝึกโดยอาศัยเอาต์พุตของนิวรอนอื่นๆ ที่เฉพาะเจาะจงเกือบทั้งหมดแทนที่จะอาศัยลักษณะการทํางานของเครือข่ายโดยรวม เมื่อรูปแบบที่ทําให้เกิดการปรับตัวร่วมกันไม่อยู่ในข้อมูลที่ใช้ตรวจสอบ การปรับตัวร่วมกันจะทําให้เกิดการพอดีมากเกินไป การปรับให้เหมาะสมแบบ Dropout จะลดการปรับตัวร่วมกันเนื่องจาก Dropout ช่วยให้มั่นใจว่าเซลล์ประสาทจะไม่สามารถอาศัยเซลล์ประสาทอื่นๆ บางเซลล์เพียงอย่างเดียว

การกรองแบบรวม

#recsystems

การทำการคาดการณ์เกี่ยวกับความสนใจของผู้ใช้รายหนึ่งโดยอิงตามความสนใจของผู้ใช้รายอื่นๆ จำนวนมาก กรองตามข้อมูลกลุ่มมักใช้ในระบบการแนะนำ

ดูข้อมูลเพิ่มเติมได้ในการกรองแบบร่วมมือในหลักสูตรระบบการแนะนำ

การเปลี่ยนแปลงของแนวคิด

การเปลี่ยนแปลงความสัมพันธ์ระหว่างฟีเจอร์กับค่ายเพลง เมื่อเวลาผ่านไป การเปลี่ยนแปลงของแนวคิดจะลดคุณภาพของโมเดล

ในระหว่างการฝึก โมเดลจะเรียนรู้ความสัมพันธ์ระหว่างฟีเจอร์กับป้ายกำกับในชุดข้อมูลการฝึก หากป้ายกำกับในชุดการฝึกเป็นตัวแทนที่ดีสำหรับโลกแห่งความเป็นจริง โมเดลก็ควรทำนายได้ดีในโลกแห่งความเป็นจริง อย่างไรก็ตาม เนื่องจากการเลื่อนลอยของแนวคิด การคาดการณ์ของโมเดลมีแนวโน้มที่จะลดลงเมื่อเวลาผ่านไป

ตัวอย่างเช่น พิจารณาโมเดลการจัดประเภทแบบไบนารีที่คาดการณ์ว่ารถรุ่นหนึ่งๆ "ประหยัดน้ำมัน" หรือไม่ กล่าวคือ ฟีเจอร์ดังกล่าวอาจเป็นสิ่งต่อไปนี้

  • น้ำหนักรถ
  • การบีบอัดเครื่องยนต์
  • ประเภทการส่งผ่าน

ขณะที่ป้ายกำกับเป็นอย่างใดอย่างหนึ่งต่อไปนี้

  • ประหยัดเชื้อเพลิง
  • ไม่ประหยัดเชื้อเพลิง

อย่างไรก็ตาม แนวคิด "รถประหยัดเชื้อเพลิง" นั้นเปลี่ยนแปลงอยู่เสมอ รุ่นรถที่ติดป้ายกํากับว่าประหยัดเชื้อเพลิงในปี 1994 เกือบจะแน่นอนว่าจะติดป้ายกํากับว่าไม่ประหยัดเชื้อเพลิงในปี 2024 โมเดลที่ประสบปัญหาความผันผวนของแนวคิดมีแนวโน้มที่จะทําการคาดการณ์ที่มีประโยชน์น้อยลงเมื่อเวลาผ่านไป

เปรียบเทียบกับความไม่คงที่

เงื่อนไข

#df

ในแผนภูมิการตัดสินใจ โหนดใดก็ตามที่ประเมินนิพจน์ ตัวอย่างเช่น ส่วนต่อไปนี้ของแผนภูมิการตัดสินใจมี 2 เงื่อนไข

แผนภูมิการตัดสินใจที่มี 2 เงื่อนไข ได้แก่ (x > 0) และ (y > 0)

เงื่อนไขเรียกอีกอย่างว่าการแยกกลุ่มหรือการทดสอบ

เงื่อนไขคอนทราสต์กับ leaf

และดู:

ดูข้อมูลเพิ่มเติมได้ในประเภทเงื่อนไขในหลักสูตรป่าการตัดสินใจ

การสมมติ

#language

คำพ้องความหมายของอาการหลอน

การสมมติอาจใช้แทนคำว่าภาพหลอนได้อย่างถูกต้องกว่าในแง่เทคนิค แต่ภาพหลอนได้รับความนิยมก่อน

การกำหนดค่า

กระบวนการกําหนดค่าพร็อพเพอร์ตี้เริ่มต้นที่ใช้ฝึกโมเดล ซึ่งรวมถึง

ในโปรเจ็กต์แมชชีนเลิร์นนิง คุณสามารถกําหนดค่าผ่านไฟล์การกําหนดค่าพิเศษหรือใช้ไลบรารีการกําหนดค่า เช่น ต่อไปนี้

อคติในการยืนยันความคิดตัวเอง

#fairness

แนวโน้มในการค้นหา ตีความ ชื่นชอบ และระลึกถึงข้อมูลในลักษณะที่ยืนยันความเชื่อหรือสมมติฐานที่มีอยู่ นักพัฒนาซอฟต์แวร์แมชชีนเลิร์นนิงอาจรวบรวมหรือติดป้ายกำกับข้อมูลโดยไม่ตั้งใจในลักษณะที่ส่งผลต่อผลลัพธ์ซึ่งสนับสนุนความเชื่อที่มีอยู่ อคติยืนยันความคิดตัวเองเป็นรูปแบบหนึ่งของอคติที่ไม่ตั้งใจ

อคติของผู้ทดสอบคือรูปแบบหนึ่งของอคติในการยืนยัน ซึ่งผู้ทดสอบจะฝึกโมเดลต่อไปจนกว่าจะมีการยืนยันสมมติฐานที่มีอยู่ก่อน

เมตริกความสับสน

#fundamentals

ตาราง NxN ที่สรุปจํานวนการคาดการณ์ที่ถูกต้องและไม่ถูกต้องซึ่งโมเดลการจัดประเภททํา ตัวอย่างเช่น ลองดูเมทริกซ์ความสับสนต่อไปนี้สําหรับโมเดลการจัดประเภทแบบไบนารี

เนื้องอก (คาดการณ์) ไม่ใช่เนื้องอก (คาดการณ์)
เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 18 (TP) 1 (FN)
ไม่ใช่เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 6 (FP) 452 (TN)

เมตริกความสับสนข้างต้นแสดงข้อมูลต่อไปนี้

  • ในการคาดการณ์ 19 รายการที่ข้อมูลจริงคือเนื้องอก โมเดลจัดประเภทได้อย่างถูกต้อง 18 รายการ และจัดประเภทไม่ถูกต้อง 1 รายการ
  • จากการคาดการณ์ 458 รายการที่ข้อมูลจริงคือ "ไม่ใช่เนื้องอก" โมเดลจัดประเภทได้อย่างถูกต้อง 452 รายการ และจัดประเภทอย่างไม่ถูกต้อง 6 รายการ

เมทริกซ์ความสับสนสําหรับปัญหาการจัดประเภทหลายคลาสจะช่วยคุณระบุรูปแบบของข้อผิดพลาด ตัวอย่างเช่น ลองดูตารางความสับสนต่อไปนี้สําหรับโมเดลการจัดประเภทแบบหลายคลาส 3 คลาสที่จัดหมวดหมู่ม่านตา 3 ประเภทที่แตกต่างกัน (Virginica, Versicolor และ Setosa) เมื่อข้อมูลจริงคือ Virginica เมทริกซ์ความสับสนแสดงให้เห็นว่าโมเดลมีแนวโน้มที่จะคาดการณ์ Versicolor ผิดพลาดมากกว่า Setosa อย่างมาก

  Setosa (คาดการณ์) Versicolor (คาดการณ์) Virginica (คาดการณ์)
Setosa (ข้อมูลจากการสังเกตการณ์โดยตรง) 88 12 0
Versicolor (ข้อมูลจากการสังเกตการณ์โดยตรง) 6 141 7
Virginica (ข้อมูลจากการสังเกตการณ์โดยตรง) 2 27 109

อีกตัวอย่างหนึ่งคือ ตารางความสับสนอาจแสดงให้เห็นว่าโมเดลที่ฝึกให้จดจําตัวเลขที่เขียนด้วยลายมือมีแนวโน้มที่จะคาดคะเน 9 แทน 4 หรือคาดคะเน 1 แทน 7

ตารางความสับสนมีข้อมูลที่เพียงพอในการคํานวณเมตริกประสิทธิภาพที่หลากหลาย ซึ่งรวมถึงความแม่นยําและความครอบคลุม

การแยกวิเคราะห์เขตเลือกตั้ง

#language

การแบ่งประโยคออกเป็นโครงสร้างทางไวยากรณ์ที่เล็กลง ("องค์ประกอบ") ส่วนต่อมาของระบบ ML เช่น โมเดลความเข้าใจภาษาธรรมชาติ จะแยกวิเคราะห์องค์ประกอบต่างๆ ได้ง่ายกว่าประโยคต้นฉบับ ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

เพื่อนของฉันรับแมวมาเลี้ยง 2 ตัว

โปรแกรมแยกองค์ประกอบสามารถแบ่งประโยคนี้ออกเป็นองค์ประกอบ 2 รายการต่อไปนี้

  • เพื่อนของฉันคือวลีนาม
  • รับเลี้ยงแมว 2 ตัวเป็นวลีที่มีคํากริยา

องค์ประกอบเหล่านี้สามารถแบ่งย่อยออกเป็นองค์ประกอบขนาดเล็กๆ เพิ่มเติมได้ เช่น วลีที่มีคํากริยา

อุปการะแมว 2 ตัว

อาจแบ่งย่อยออกเป็น

  • adopted เป็นกริยา
  • two cats เป็นวลีนามอีกวลีหนึ่ง

การฝังภาษาตามบริบท

#language
#generativeAI

การฝังที่ใกล้เคียงกับ "การทำความเข้าใจ" คำและวลีในลักษณะที่มนุษย์พูดได้อย่างคล่องแคล่ว ข้อมูลเชิงลึกของภาษาตามบริบทจะเข้าใจไวยากรณ์ ความหมาย และบริบทที่ซับซ้อน

เช่น ลองพิจารณาการฝังคําภาษาอังกฤษว่า cow รูปแบบการฝังข้อมูลรุ่นเก่า เช่น word2vec สามารถแสดงคำภาษาอังกฤษได้ เช่น ระยะทางในพื้นที่การฝังข้อมูลจากวัวถึงวัวกระทิงจะคล้ายกับระยะทางจากแม่แพะ (แพะตัวเมีย) ถึงแพะตัวผู้ หรือจากหญิงถึงชาย การป้อนข้อมูลภาษาตามบริบทสามารถดำเนินการต่อได้โดยตระหนักว่าบางครั้งผู้พูดภาษาอังกฤษใช้คำว่า cow ในความหมายว่าวัวหรือวัวตัวผู้

กรอบเวลาบริบท

#language
#generativeAI

จำนวนโทเค็นที่โมเดลประมวลผลได้ในพรอมต์หนึ่งๆ ยิ่งหน้าต่างบริบทมีขนาดใหญ่เท่าใด โมเดลก็จะใช้ข้อมูลได้มากขึ้นเพื่อตอบกลับพรอมต์อย่างสอดคล้องและสมเหตุสมผล

ฟีเจอร์ต่อเนื่อง

#fundamentals

ฟีเจอร์ทศนิยมที่มีค่าที่เป็นไปได้ในขอบเขตอนันต์ เช่น อุณหภูมิหรือน้ำหนัก

ตรงข้ามกับองค์ประกอบแบบไม่ต่อเนื่อง

การสุ่มตัวอย่างแบบตามสะดวก

การใช้ชุดข้อมูลที่รวบรวมมาอย่างไม่เป็นวิทยาศาสตร์เพื่อทำการทดสอบอย่างรวดเร็ว หลังจากนั้น คุณควรเปลี่ยนไปใช้ชุดข้อมูลที่รวบรวมอย่างเป็นวิทยาศาสตร์

การบรรจบ

#fundamentals

สถานะที่พบเมื่อค่า loss เปลี่ยนแปลงเพียงเล็กน้อยหรือไม่เปลี่ยนแปลงเลยในแต่ละรอบ ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้แสดงให้เห็นการบรรจบกันเมื่อประมาณ 700 รอบ

ผังพิกัดคาร์ทีเซียน แกน X หายไป แกน Y คือจํานวนการทำซ้ำการฝึก การสูญเสียสูงมากในช่วง 2-3 Iteration แรก แต่ลดลงอย่างรวดเร็ว หลังจากทำซ้ำประมาณ 100 ครั้ง ความสูญเสียจะยังคงลดลงแต่ลดลงอย่างช้าๆ หลังจากการทำซ้ำประมาณ 700 ครั้งแล้ว ผลลัพธ์จะคงที่

โมเดลจะบรรลุความสอดคล้องเมื่อการฝึกเพิ่มเติมไม่ช่วยปรับปรุงโมเดล

ในการเรียนรู้เชิงลึก บางครั้งค่าการสูญเสียจะคงที่หรือเกือบคงที่ตลอดการวนซ้ำหลายครั้งก่อนที่จะลดลงในที่สุด ในช่วงที่มีมูลค่าการสูญเสียคงที่เป็นเวลานาน คุณอาจรู้สึกว่ามีการบรรจบกันชั่วคราว

โปรดดูการหยุดก่อนกำหนดด้วย

ดูข้อมูลเพิ่มเติมที่เส้นโค้งการบรรจบของโมเดลและเส้นโค้งการสูญเสียในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟังก์ชันโคเวกซ์

ฟังก์ชันที่บริเวณเหนือกราฟของฟังก์ชันเป็นเซตเว้า ฟังก์ชันโค้งมนตามแบบฉบับมีรูปร่างคล้ายตัวอักษร U ตัวอย่างเช่น ฟังก์ชันต่อไปนี้ล้วนเป็นฟังก์ชันโค้งมน

เส้นโค้งรูปตัวยู โดยแต่ละเส้นจะมีจุดต่ำสุดเพียงจุดเดียว

ในทางตรงกันข้าม ฟังก์ชันต่อไปนี้ไม่ใช่ฟังก์ชันที่โค้งออก สังเกตว่าบริเวณเหนือกราฟไม่ใช่ชุดรูปโค้งมน

เส้นโค้งรูปตัว W ที่มีจุดต่ำสุดในพื้นที่ 2 จุดที่แตกต่างกัน

ฟังก์ชันที่นูนไปทางเดียวจะมีจุดต่ำสุดเฉพาะที่เพียงจุดเดียว ซึ่งเป็นจุดต่ำสุดส่วนกลางด้วย ฟังก์ชันรูปตัวยูแบบคลาสสิกเป็นฟังก์ชันที่นูนไปข้างหน้าอย่างสมบูรณ์ อย่างไรก็ตาม ฟังก์ชันโค้งมนบางรายการ (เช่น เส้นตรง) ไม่ได้เป็นรูปตัวยู

ดูข้อมูลเพิ่มเติมได้ที่ฟังก์ชันที่บรรจบและฟังก์ชันโค้งมนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเพิ่มประสิทธิภาพแบบโค้งมน

กระบวนการใช้เทคนิคทางคณิตศาสตร์ เช่น การลดเชิงลาดเพื่อค้นหาค่าต่ำสุดของฟังก์ชันโค้งมน งานวิจัยส่วนใหญ่เกี่ยวกับแมชชีนเลิร์นนิงมุ่งเน้นที่การกําหนดปัญหาต่างๆ เป็นปัญหาการเพิ่มประสิทธิภาพแบบโคเวกซ์ และการแก้ปัญหาเหล่านั้นอย่างมีประสิทธิภาพมากขึ้น

ดูรายละเอียดทั้งหมดได้ที่ Boyd and Vandenberghe, Convex Optimization

ชุดแบบนูน

ชุดย่อยของพื้นที่เชิงยูคลิดซึ่งเส้นที่ลากระหว่างจุด 2 จุดใดก็ได้ในชุดย่อยจะยังคงอยู่ในชุดย่อยนั้นโดยสมบูรณ์ ตัวอย่างเช่น รูปทรง 2 รูปต่อไปนี้เป็นเซตที่Convex

ภาพสี่เหลี่ยมผืนผ้า 1 ภาพ ภาพวงรีอีกภาพหนึ่ง

ในทางตรงกันข้าม รูปทรง 2 รูปต่อไปนี้ไม่ใช่ชุดรูปทรงเว้า

ภาพแผนภูมิวงกลม 1 ภาพที่ไม่มีส่วน
          ภาพอีกภาพหนึ่งของรูปหลายเหลี่ยมที่ผิดปกติอย่างมาก

การฟัซชัน

#image

ในคณิตศาสตร์ หมายถึงการผสมผสานของฟังก์ชัน 2 รายการ ในแมชชีนเลิร์นนิง การฟัซซิชันจะผสมฟิลเตอร์ฟัซซิชันเข้ากับเมทริกซ์อินพุตเพื่อฝึกน้ำหนัก

คําว่า "Conv" ในแมชชีนเลิร์นนิงมักเป็นวิธีเรียกสั้นๆ ของการดำเนินการ Conv หรือเลเยอร์ Conv

หากไม่มีการดำเนินการฟิวชัน อัลกอริทึมของแมชชีนเลิร์นนิงจะต้องเรียนรู้น้ำหนักแยกกันสำหรับทุกเซลล์ใน เทนเซอร์ขนาดใหญ่ ตัวอย่างเช่น การฝึกอัลกอริทึมแมชชีนเลิร์นนิงด้วยรูปภาพขนาด 2K x 2K จะบังคับให้ต้องหาน้ำหนักแยกกัน 4 ล้านรายการ การใช้การกรองแบบ Convolution ทำให้อัลกอริทึมของแมชชีนเลิร์นนิงต้องค้นหาเฉพาะน้ำหนักของทุกเซลล์ในฟิลเตอร์แบบ Convolution ซึ่งจะช่วยลดหน่วยความจําที่จําเป็นในการฝึกโมเดลได้อย่างมาก เมื่อใช้ตัวกรองแบบ Convolutional ระบบจะทําซ้ำตัวกรองนี้ในเซลล์ต่างๆ เพื่อให้แต่ละเซลล์คูณด้วยตัวกรอง

ดูข้อมูลเพิ่มเติมได้ที่การนําเสนอเครือข่ายประสาทแบบConvolutiveในหลักสูตรการจัดประเภทรูปภาพ

ฟิลเตอร์แบบ Convolutional

#image

หนึ่งใน 2 องค์ประกอบในการดำเนินการแบบ Convolution (ตัวแปรอื่นๆ คือส่วนย่อยของเมทริกซ์อินพุต) ฟิลเตอร์แบบ Convolution คือเมทริกซ์ที่มีอันดับเหมือนกับเมทริกซ์อินพุต แต่มีรูปร่างที่เล็กกว่า เช่น เมื่อใช้เมทริกซ์อินพุต 28x28 ตัวกรองอาจเป็นเมทริกซ์ 2 มิติที่เล็กกว่า 28x28

ในการจัดการกับรูปภาพ โดยทั่วไปแล้วเซลล์ทั้งหมดในตัวกรองแบบ Convolution จะมีการกําหนดให้เป็นรูปแบบ 1 และ 0 คงที่ ในแมชชีนเลิร์นนิง โดยทั่วไปแล้วตัวกรองแบบ Convolution จะได้รับการกำหนดค่าเริ่มต้นด้วยตัวเลขสุ่ม จากนั้นเครือข่ายจะฝึกค่าที่เหมาะสม

ดูข้อมูลเพิ่มเติมที่Convolution ในหลักสูตรการแยกประเภทรูปภาพ

เลเยอร์ Conv

#image

เลเยอร์ของโครงข่ายประสาทแบบลึก ซึ่งฟิลเตอร์แบบ Convolution ส่งผ่านเมทริกซ์อินพุต ตัวอย่างเช่น ลองพิจารณาตัวกรองแบบ Convolution ขนาด 3x3 ต่อไปนี้

เมทริกซ์ 3x3 ที่มีค่าต่อไปนี้ [[0,1,0], [1,0,1], [0,1,0]]

ภาพเคลื่อนไหวต่อไปนี้แสดงชั้น ConvNet ประกอบด้วยการดำเนินการ ConvNet 9 รายการที่เกี่ยวข้องกับเมทริกซ์อินพุต 5x5 โปรดทราบว่าการดำเนินการเปลี่ยนรูปแบบแต่ละรายการจะทำงานกับส่วน 3x3 ที่ต่างกันของเมทริกซ์อินพุต เมทริกซ์ 3x3 ที่ได้ (ทางด้านขวา) ประกอบด้วยผลลัพธ์ของการดำเนินการฟีเจอร์แมป 9 รายการดังนี้

ภาพเคลื่อนไหวแสดงเมทริกซ์ 2 รายการ เมทริกซ์แรกคือเมทริกซ์ 5x5 ดังนี้ [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]
          เมทริกซ์ที่ 2 คือเมทริกซ์ 3x3 ดังนี้
          [[181,303,618], [115,338,605], [169,351,560]]
          แมทริกซ์ที่ 2 คำนวณโดยใช้ตัวกรองการแปลงคอนโวลูชัน [[0, 1, 0], [1, 0, 1], [0, 1, 0]] ในชุดย่อย 3x3 ที่แตกต่างกันของเมทริกซ์ 5x5

ดูข้อมูลเพิ่มเติมได้ในเลเยอร์แบบ Fully Connected ในหลักสูตรการแยกประเภทรูปภาพ

โครงข่ายประสาทแบบ Convolutive

#image

เครือข่ายประสาทเทียมที่มีชั้นเป็นชั้น Conv อย่างน้อย 1 ชั้น โดยทั่วไปแล้ว เครือข่ายประสาทแบบ ConvNet จะประกอบด้วยชั้นต่อไปนี้

เครือข่ายประสาทแบบใช้ตัวคูณ (Convolutional Neural Network) ประสบความสําเร็จอย่างมากกับปัญหาบางประเภท เช่น การจดจํารูปภาพ

การดำเนินการแบบ Convolution

#image

การดำเนินการทางคณิตศาสตร์แบบ 2 ขั้นตอนต่อไปนี้

  1. การคูณทีละองค์ประกอบของฟิลเตอร์คอนเววลูชันกับส่วนของเมทริกซ์อินพุต (ส่วนของเมทริกซ์อินพุตมีลําดับและขนาดเดียวกับตัวกรองแบบ Convolution)
  2. การรวมค่าทั้งหมดในเมทริกซ์ผลิตภัณฑ์ที่ได้

ตัวอย่างเช่น ลองพิจารณาเมทริกซ์อินพุต 5x5 ต่อไปนี้

เมทริกซ์ 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]

ลองจินตนาการถึงตัวกรองคอนเวโลชัน 2x2 ต่อไปนี้

เมทริกซ์ 2x2: [[1, 0], [0, 1]]

การดำเนินการแบบกรวย 1 รายการเกี่ยวข้องกับส่วน 2x2 เดียวของเมทริกซ์อินพุต ตัวอย่างเช่น สมมติว่าเราใช้ส่วน 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุต ดังนั้น การดำเนินการฟิวชันกับส่วนนี้จึงมีลักษณะดังนี้

การใช้ตัวกรองแบบ Convolutional [[1, 0], [0, 1]] กับส่วน 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุต ซึ่งก็คือ [[128,97], [35,22]]
          ตัวกรองคอนเวโลชันจะคงค่า 128 และ 22 ไว้ แต่ทำให้ค่า 97 และ 35 เป็น 0 ดังนั้น การดำเนินการฟิวชันจึงให้ค่า 150 (128+22)

ชั้น Conv ประกอบด้วยชุดการดำเนินการ Conv โดยแต่ละรายการจะดำเนินการกับส่วนต่างๆ ของเมทริกซ์อินพุต

ต้นทุน

#Metric

คำพ้องความหมายของ loss

การฝึกอบรมร่วม

แนวทางการเรียนรู้แบบควบคุมบางส่วนมีประโยชน์อย่างยิ่งเมื่อเงื่อนไขต่อไปนี้ทั้งหมดเป็นจริง

การฝึกร่วมจะขยายสัญญาณอิสระให้กลายเป็นสัญญาณที่แรงขึ้น ตัวอย่างเช่น พิจารณาโมเดลการจัดประเภทที่จัดหมวดหมู่รถมือสองแต่ละคันเป็นดีหรือไม่ดี ฟีเจอร์การคาดการณ์ชุดหนึ่งอาจมุ่งเน้นที่ลักษณะโดยรวม เช่น ปี ยี่ห้อ และรุ่นของรถ ส่วนฟีเจอร์การคาดการณ์อีกชุดหนึ่งอาจมุ่งเน้นที่ประวัติการขับขี่ของผู้เป็นเจ้าของคนก่อนและประวัติการบำรุงรักษาของรถ

บทความสําคัญเกี่ยวกับการฝึกร่วมคือการรวมข้อมูลที่มีป้ายกํากับและไม่มีป้ายกํากับด้วยการฝึกร่วมโดย Blum และ Mitchell

ความเป็นธรรมแบบเทียบกับกลุ่มควบคุม

#fairness
#Metric

เมตริกความเป็นธรรมที่ตรวจสอบว่าตัวจัดประเภทให้ผลลัพธ์เหมือนกันสำหรับบุคคลหนึ่งกับอีกคนหนึ่งที่เหมือนกันทุกประการ ยกเว้นแอตทริบิวต์ที่มีความละเอียดอ่อนอย่างน้อย 1 รายการหรือไม่ การประเมินตัวแยกประเภทเพื่อหาความยุติธรรมแบบเทียบเท่าสมมติฐานเป็นวิธีหนึ่งในการค้นหาแหล่งที่มาที่อาจทำให้เกิดอคติในโมเดล

โปรดดูข้อมูลเพิ่มเติมที่หัวข้อต่อไปนี้

อคติในการรายงาน

#fairness

ดูการเลือกแบบลำเอียง

ดอกซากุระ

#language

ประโยคหรือวลีที่มีความหมายคลุมเครือ ข้อความที่แสดงข้อผิดพลาดเป็นปัญหาที่สำคัญในความเข้าใจภาษาธรรมชาติ ตัวอย่างเช่น บรรทัดแรก Red Tape Holds Up Skyscraper เป็นตัวอย่างของ Crash Blossom เนื่องจากโมเดล NLU อาจตีความบรรทัดแรกตามตัวอักษรหรือตามความหมาย

นักวิจารณ์

#rl

คำพ้องความหมายของ Deep Q-Network

เอนโทรปีครอส

#Metric

การทั่วไปของ Log Loss ไปใช้กับปัญหาการจัดประเภทหลายคลาส การเข้ารหัสไขว้จะวัดความแตกต่างระหว่างการแจกแจงความน่าจะเป็น 2 รายการ โปรดดูความสับสนด้วย

การทดสอบครอสตรวจสอบ

กลไกในการประมาณว่าโมเดลจะทํางานกับข้อมูลใหม่ได้ดีเพียงใด โดยทดสอบโมเดลกับชุดข้อมูลย่อยที่ไม่มีการทับซ้อนกันอย่างน้อย 1 ชุดซึ่งเก็บไว้จากชุดข้อมูลการฝึก

ฟังก์ชันการแจกแจงสะสม (CDF)

#Metric

ฟังก์ชันที่กําหนดความถี่ของตัวอย่างที่น้อยกว่าหรือเท่ากับค่าเป้าหมาย ตัวอย่างเช่น ลองพิจารณาการแจกแจงปกติของค่าต่อเนื่อง CDF บอกคุณว่าตัวอย่างประมาณ 50% ควรน้อยกว่าหรือเท่ากับค่ามัธยฐาน และตัวอย่างประมาณ 84% ควรน้อยกว่าหรือเท่ากับค่าเบี่ยงเบนมาตรฐาน 1 เท่าเหนือค่ามัธยฐาน

D

การวิเคราะห์ข้อมูล

ทําความเข้าใจข้อมูลโดยพิจารณาจากตัวอย่าง การวัด และการแสดงข้อมูลเป็นภาพ การวิเคราะห์ข้อมูลจะมีประโยชน์อย่างยิ่งเมื่อได้รับชุดข้อมูลเป็นครั้งแรก ก่อนที่จะสร้างรูปแบบแรก นอกจากนี้ ยังมีความสำคัญอย่างยิ่งในการทําความเข้าใจการทดสอบและการแก้ไขข้อบกพร่องของระบบ

การเสริมข้อมูล

#image

การเพิ่มช่วงและจํานวนตัวอย่างการฝึกด้วยการเปลี่ยนรูปแบบตัวอย่างที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติม ตัวอย่างเช่น สมมติว่ารูปภาพเป็นหนึ่งในฟีเจอร์ แต่ชุดข้อมูลของคุณไม่มีตัวอย่างรูปภาพเพียงพอที่จะช่วยให้โมเดลเรียนรู้การเชื่อมโยงที่เป็นประโยชน์ โดยหลักการแล้ว คุณควรเพิ่มรูปภาพที่ติดป้ายกำกับลงในชุดข้อมูลให้เพียงพอเพื่อให้โมเดลได้รับการฝึกอย่างเหมาะสม หากทำไม่ได้ การขยายข้อมูลจะหมุน ยืด และสะท้อนรูปภาพแต่ละรูปเพื่อสร้างรูปภาพต้นฉบับหลายรูปแบบ ซึ่งอาจให้ข้อมูลที่ติดป้ายกำกับเพียงพอสำหรับการทําการฝึกที่ยอดเยี่ยม

DataFrame

#fundamentals

ประเภทข้อมูล pandas ที่ได้รับความนิยมสําหรับแสดงชุดข้อมูลในหน่วยความจํา

กรอบข้อมูลจะคล้ายกับตารางหรือสเปรดชีต คอลัมน์แต่ละคอลัมน์ของ DataFrame จะมีชื่อ (ส่วนหัว) และแต่ละแถวจะระบุด้วยหมายเลขที่ไม่ซ้ำกัน

แต่ละคอลัมน์ใน DataFrame มีโครงสร้างเหมือนอาร์เรย์ 2 มิติ ยกเว้นที่แต่ละคอลัมน์สามารถกําหนดประเภทข้อมูลของตัวเองได้

โปรดดูหน้าอ้างอิงอย่างเป็นทางการของ pandas.DataFrame ด้วย

การประมวลผลข้อมูลแบบขนาน

วิธีปรับขนาดการฝึกหรือการอนุมานซึ่งทำซ้ำโมเดลทั้งชุดในอุปกรณ์หลายเครื่อง แล้วส่งชุดย่อยของข้อมูลอินพุตไปยังแต่ละอุปกรณ์ การขนานข้อมูลช่วยให้สามารถฝึกและอนุมานกลุ่มตัวอย่างขนาดใหญ่ได้ แต่การขนานข้อมูลกำหนดให้โมเดลมีขนาดเล็กพอที่จะติดตั้งในอุปกรณ์ทุกเครื่อง

โดยปกติแล้วการขนานข้อมูลจะเพิ่มความเร็วในการฝึกและการทำนาย

โปรดดูการทํางานแบบขนานของโมเดลด้วย

Dataset API (tf.data)

#TensorFlow

TensorFlow API ระดับสูงสําหรับการอ่านข้อมูลและการเปลี่ยนรูปแบบข้อมูลให้อยู่ในรูปแบบที่อัลกอริทึมของแมชชีนเลิร์นนิงต้องการ ออบเจ็กต์ tf.data.Dataset แสดงถึงลําดับองค์ประกอบ ซึ่งแต่ละองค์ประกอบมี Tensor อย่างน้อย 1 รายการ ออบเจ็กต์ tf.data.Iterator ให้สิทธิ์เข้าถึงองค์ประกอบของ Dataset

ชุดข้อมูล

#fundamentals

ชุดข้อมูลดิบ ซึ่งมัก (แต่ไม่ใช่ทั้งหมด) จัดระเบียบในรูปแบบใดรูปแบบหนึ่งต่อไปนี้

  • สเปรดชีต
  • ไฟล์ในรูปแบบ CSV (ค่าที่คั่นด้วยคอมมา)

ขอบเขตการตัดสิน

ตัวคั่นระหว่างคลาสที่เรียนรู้โดยโมเดลในคลาสแบบไบนารีหรือปัญหาการจัดประเภทแบบหลายคลาส ตัวอย่างเช่น ในรูปภาพต่อไปนี้ซึ่งแสดงปัญหาการจัดประเภทแบบ 2 กลุ่ม ขอบเขตการตัดสินคือเส้นแบ่งระหว่างคลาสสีส้มและคลาสสีน้ำเงิน

ขอบเขตที่ชัดเจนระหว่างชั้นเรียนหนึ่งกับอีกชั้นเรียนหนึ่ง

ป่าการตัดสินใจ

#df

โมเดลที่สร้างจากต้นไม้การตัดสินใจหลายรายการ ป่าการตัดสินใจจะทําการคาดการณ์โดยการรวบรวมการคาดการณ์ของต้นไม้การตัดสินใจ ป่าการตัดสินใจประเภทยอดนิยม ได้แก่ ป่าแบบสุ่มและต้นไม้ที่มีการเพิ่มประสิทธิภาพด้วย Gradient

ดูข้อมูลเพิ่มเติมได้ที่ส่วนป่าการตัดสินใจในหลักสูตรป่าการตัดสินใจ

เกณฑ์การตัดสินใจ

คำพ้องความหมายของเกณฑ์การจัดประเภท

แผนภูมิการตัดสินใจ

#df

โมเดลการเรียนรู้แบบควบคุมดูแลที่ประกอบด้วยชุดเงื่อนไขและใบที่จัดระเบียบเป็นลําดับชั้น ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้

แผนผังการตัดสินใจที่มีเงื่อนไข 4 รายการที่จัดเรียงตามลําดับชั้น ซึ่งนําไปสู่ใบ 5 ใบ

เครื่องมือถอดรหัส

#language

โดยทั่วไปแล้ว ระบบ ML ใดก็ตามที่แปลงจากการแสดงผลที่ประมวลผลแล้ว หนาแน่น หรือภายในเป็นการแสดงผลที่ดิบ เบาบาง หรือภายนอกมากขึ้น

ตัวถอดรหัสมักเป็นคอมโพเนนต์ของโมเดลขนาดใหญ่ ซึ่งมักจะจับคู่กับโปรแกรมและอุปกรณ์เปลี่ยนไฟล์

ในงานแบบอนุกรมต่ออนุกรม ตัวถอดรหัสจะเริ่มต้นด้วยสถานะภายในที่เอนโค้ดเดอร์สร้างขึ้นเพื่อคาดการณ์ลำดับถัดไป

ดูคำจำกัดความของตัวถอดรหัสภายในสถาปัตยกรรม Transformer ได้ที่ Transformer

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โมเดลเชิงลึก

#fundamentals

เครือข่ายประสาทเทียมที่มีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 เลเยอร์

โมเดลเชิงลึกเรียกอีกอย่างว่าโครงข่ายประสาทแบบลึก

ตรงข้ามกับรูปแบบกว้าง

โครงข่ายประสาทแบบลึก

คำพ้องความหมายของโมเดลเชิงลึก

เครือข่าย Deep Q (DQN)

#rl

ใน การเรียนรู้ด้วย Q-Learning จะมีโครงข่ายประสาทแบบลึกที่คาดคะเนฟังก์ชัน Q

Critic เป็นคําพ้องความหมายของ Deep Q-Network

ความเท่าเทียมด้านข้อมูลประชากร

#fairness
#Metric

เมตริกความเป็นธรรมที่เป็นไปตามข้อกำหนดหากผลการจัดประเภทของโมเดลไม่ขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อนที่ระบุ

ตัวอย่างเช่น หากทั้งชาวลิลลี่ปุตและชาวบราบิงแน็กสมัครเข้ามหาวิทยาลัยกลุบบัดบรีบ ความเป็นธรรมด้านข้อมูลประชากรจะเกิดขึ้นเมื่อเปอร์เซ็นต์ของชาวลิลลี่ปุตที่ได้รับอนุญาตให้เข้าศึกษาเท่ากับเปอร์เซ็นต์ของชาวบราบิงแน็กที่ได้รับอนุญาตให้เข้าศึกษา โดยไม่คำนึงว่ากลุ่มหนึ่งมีคุณวุฒิมากกว่าอีกกลุ่มโดยเฉลี่ยหรือไม่

ซึ่งต่างจากโอกาสที่เท่าเทียมและความเสมอภาคของโอกาสที่อนุญาตให้ผลการจัดประเภทโดยรวมขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อน แต่ไม่อนุญาตให้ผลการจัดประเภทสำหรับป้ายกำกับข้อมูลจริงที่ระบุบางรายการขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อน ดูภาพแสดงการประนีประนอมเมื่อเพิ่มประสิทธิภาพเพื่อลดความเหลื่อมล้ำทางข้อมูลประชากรได้ที่"การต่อสู้กับการแบ่งแยกด้วยแมชชีนเลิร์นนิงที่ฉลาดขึ้น"

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ความเท่าเทียมทางประชากรในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การกรองสัญญาณรบกวน

#language

แนวทางทั่วไปของการเรียนรู้แบบควบคุมตนเอง ซึ่งมีลักษณะดังนี้

  1. เพิ่มสัญญาณรบกวนลงในชุดข้อมูล
  2. โมเดลจะพยายามนำเสียงรบกวนออก

การกรองสัญญาณรบกวนช่วยให้เรียนรู้จากตัวอย่างที่ไม่มีป้ายกำกับได้ ชุดข้อมูลเดิมทำหน้าที่เป็นเป้าหมายหรือป้ายกำกับ และข้อมูลที่มีสัญญาณรบกวนเป็นอินพุต

โมเดลภาษาที่มีการปกปิดบางรุ่นใช้การกรองสัญญาณรบกวน ดังนี้

  1. ระบบจะเพิ่มสัญญาณรบกวนลงในประโยคที่ไม่มีป้ายกำกับโดยการปกปิดโทเค็นบางส่วน
  2. โมเดลจะพยายามคาดคะเนโทเค็นต้นฉบับ

องค์ประกอบที่หนาแน่น

#fundamentals

ฟีเจอร์ซึ่งมีค่าส่วนใหญ่หรือทั้งหมดไม่ใช่ 0 ซึ่งโดยปกติแล้วจะเป็น Tensor ของค่าทศนิยม ตัวอย่างเช่น เทนเซอร์ 10 องค์ประกอบต่อไปนี้เป็นแบบหนาแน่นเนื่องจากค่า 9 ค่าไม่ใช่ 0

8 3 7 5 2 4 0 4 9 6

ตรงข้ามกับองค์ประกอบที่กระจัดกระจาย

เลเยอร์แบบหนาแน่น

คำพ้องความหมายของเลเยอร์แบบเชื่อมต่อทั้งหมด

ความลึก

#fundamentals

ผลรวมของรายการต่อไปนี้ในโครงข่ายประสาทเทียม

เช่น เครือข่ายประสาทที่มีเลเยอร์ที่ซ่อนอยู่ 5 ชั้นและเลเยอร์เอาต์พุต 1 ชั้นจะมีระดับความลึก 6

โปรดทราบว่าเลเยอร์อินพุตไม่มีผลต่อความลึก

โครงข่ายประสาทแบบ Convolutive ที่แยกตามมิติความลึกได้ (sepCNN)

#image

สถาปัตยกรรมโครงข่ายประสาทแบบ Convolutiveที่อิงตาม Inception แต่ใช้ Convolutive แบบแยกตามระดับความลึกแทนโมดูล Inception หรือที่เรียกว่า Xception

การกรองเชิงลึกแบบแยกส่วน (หรือเรียกสั้นๆ ว่า "การกรองแบบแยกส่วน") จะแยกการกรอง 3 มิติมาตรฐานออกเป็น 2 การดำเนินการกรองแยกกัน ซึ่งมีประสิทธิภาพในการประมวลผลมากกว่า การดำเนินการแรกคือการกรองเชิงลึกที่มีความลึก 1 (n ✕ n ✕ 1) และการดำเนินการที่ 2 คือการกรองแบบจุดที่มีความกว้างและความยาว 1 (1 ✕ 1 ✕ n)

ดูข้อมูลเพิ่มเติมได้ที่ Xception: Deep Learning with Depthwise Separable Convolutions

ป้ายกำกับที่ดึงข้อมูล

คำพ้องความหมายของป้ายกำกับพร็อกซี

อุปกรณ์

#TensorFlow
#GoogleCloud

คําที่ใช้งานมากเกินไปซึ่งมีคําจํากัดความที่เป็นไปได้ 2 รายการดังนี้

  1. หมวดหมู่ฮาร์ดแวร์ที่เรียกใช้เซสชัน TensorFlow ได้ ซึ่งรวมถึง CPU, GPU และ TPU
  2. เมื่อฝึกโมเดล ML ในชิปเร่งความเร็ว (GPU หรือ TPU) ส่วนที่จัดการเทนเซอร์และการฝังของระบบ อุปกรณ์ทำงานด้วยชิปเร่ง ในทางตรงกันข้าม โฮสต์มักทำงานบน CPU

Differential Privacy

ในแมชชีนเลิร์นนิง แนวทางการลบข้อมูลระบุตัวบุคคลเพื่อปกป้องข้อมูลที่ละเอียดอ่อน (เช่น ข้อมูลส่วนบุคคลของบุคคล) ที่รวมอยู่ในชุดข้อมูลการฝึกของโมเดลไม่ให้ถูกเปิดเผย แนวทางนี้ช่วยให้มั่นใจว่าโมเดลจะไม่เรียนรู้หรือจดจําข้อมูลมากนักเกี่ยวกับบุคคลหนึ่งๆ ซึ่งทำได้โดยการสุ่มตัวอย่างและเพิ่มสัญญาณรบกวนระหว่างการฝึกโมเดลเพื่อบดบังจุดข้อมูลแต่ละจุด ซึ่งจะช่วยลดความเสี่ยงในการเปิดเผยข้อมูลการฝึกอบรมที่มีความละเอียดอ่อน

นอกจากนี้ Differential Privacy ยังใช้นอกเหนือไปจากแมชชีนเลิร์นนิงด้วย ตัวอย่างเช่น บางครั้งนักวิทยาศาสตร์ข้อมูลใช้ Differential Privacy เพื่อปกป้องความเป็นส่วนตัวของบุคคลเมื่อคํานวณสถิติการใช้งานผลิตภัณฑ์สําหรับข้อมูลประชากรที่แตกต่างกัน

การลดมิติข้อมูล

การลดจํานวนมิติข้อมูลที่ใช้ในการแสดงฟีเจอร์หนึ่งๆ ในเวกเตอร์ลักษณะ ซึ่งโดยปกติแล้วจะเป็นการเปลี่ยนเป็นเวกเตอร์การฝัง

ขนาด

คําที่มีความหมายหลายอย่างซึ่งมีคําจํากัดความอย่างใดอย่างหนึ่งต่อไปนี้

  • จำนวนระดับของพิกัดใน Tensor เช่น

    • เวกเตอร์สเกลาร์จะมีมิติข้อมูลเป็น 0 เช่น ["Hello"]
    • เวกเตอร์มีมิติข้อมูลเดียว เช่น [3, 5, 7, 11]
    • เมทริกซ์มี 2 มิติ เช่น [[2, 4, 18], [5, 7, 14]] คุณสามารถระบุเซลล์หนึ่งๆ ในเวกเตอร์ 1 มิติได้อย่างไม่ซ้ำกันด้วยพิกัด 1 รายการ แต่ต้องใช้พิกัด 2 รายการเพื่อระบุเซลล์หนึ่งๆ ในเมทริกซ์ 2 มิติได้อย่างไม่ซ้ำกัน
  • จํานวนรายการในเวกเตอร์องค์ประกอบ

  • จํานวนองค์ประกอบในเลเยอร์การฝัง

การแจ้งเตือนโดยตรง

#language
#generativeAI

คำพ้องความหมายของพรอมต์แบบไม่ใช้ตัวอย่าง

ฟีเจอร์แบบไม่ต่อเนื่อง

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้แบบจำกัด เช่น ฟีเจอร์ที่มีค่าเป็นได้เพียง สัตว์ ผัก หรือแร่เป็นฟีเจอร์แบบไม่ต่อเนื่อง (หรือแบบหมวดหมู่)

ตรงข้ามกับองค์ประกอบต่อเนื่อง

โมเดลการแยกแยะ

โมเดลที่คาดการณ์ป้ายกํากับจากชุดฟีเจอร์อย่างน้อย 1 รายการ ในทางที่เป็นทางการมากขึ้น โมเดลการแยกแยะจะกําหนดความน่าจะเป็นแบบมีเงื่อนไขของเอาต์พุตโดยพิจารณาจากฟีเจอร์และน้ำหนัก ดังนี้

p(output | features, weights)

เช่น โมเดลที่คาดการณ์ว่าอีเมลเป็นสแปมหรือไม่จากฟีเจอร์และน้ำหนักเป็นโมเดลการแยกแยะ

โมเดลการเรียนรู้แบบควบคุมส่วนใหญ่ ซึ่งรวมถึงโมเดลการจัดประเภทและโมเดลการหาค่าประมาณ ล้วนเป็นโมเดลการแยกแยะ

ตรงข้ามกับโมเดล Generative

ตัวแบ่ง

ระบบที่ระบุว่าตัวอย่างเป็นจริงหรือปลอม

หรือจะเป็นระบบย่อยภายในเครือข่าย Generative Adversarial ที่กําหนดว่าตัวอย่างที่สร้างโดยGenerator นั้นจริงหรือเท็จ

ดูข้อมูลเพิ่มเติมได้ที่ตัวแยกแยะในหลักสูตร GAN

ผลกระทบที่แตกต่างกัน

#fairness

การตัดสินใจเกี่ยวกับผู้คนที่ส่งผลกระทบต่อประชากรย่อยกลุ่มต่างๆ อย่างไม่สัดส่วน โดยปกติแล้ว ปัญหานี้หมายถึงสถานการณ์ที่กระบวนการตัดสินใจแบบอัลกอริทึมส่งผลเสียหรือให้ประโยชน์แก่กลุ่มย่อยบางกลุ่มมากกว่ากลุ่มอื่นๆ

ตัวอย่างเช่น สมมติว่าอัลกอริทึมที่กําหนดการมีสิทธิ์ของชาวลิลลี่พุตินในการขอสินเชื่อบ้านขนาดเล็กมีแนวโน้มที่จะจัดประเภทชาวลิลลี่พุตินเป็น "ไม่มีสิทธิ์" หากที่อยู่จัดส่งมีรหัสไปรษณีย์ที่เจาะจง หากชาวลิลลี่ปุติที่เขียนเลขฐาน 2 ขึ้นก่อนมีแนวโน้มที่จะมีที่อยู่สำหรับจัดส่งที่มีรหัสไปรษณีย์นี้มากกว่าชาวลิลลี่ปุติที่เขียนเลขฐาน 2 ลงก่อน อัลกอริทึมนี้อาจส่งผลให้เกิดผลกระทบที่แตกต่างกัน

ซึ่งต่างจากการปฏิบัติที่ไม่เท่าเทียมที่มุ่งเน้นที่ความเหลื่อมล้ำที่เกิดขึ้นเมื่อลักษณะของกลุ่มย่อยเป็นอินพุตที่ชัดเจนในกระบวนการตัดสินใจแบบอัลกอริทึม

การปฏิบัติที่แตกต่างกัน

#fairness

พิจารณาแอตทริบิวต์ที่มีความละเอียดอ่อนของบุคคลในกระบวนการตัดสินใจแบบอัลกอริทึมเพื่อให้ระบบจัดการกับกลุ่มย่อยของบุคคลที่แตกต่างกัน

ตัวอย่างเช่น พิจารณาอัลกอริทึมที่กําหนดการมีสิทธิ์ของชาวลิลลี่พุตในการขอสินเชื่อบ้านขนาดเล็กตามข้อมูลที่ระบุไว้ในใบสมัครสินเชื่อ หากอัลกอริทึมใช้การเชื่อมโยงของ Lilliputian เป็น Big-Endian หรือ Little-Endian เป็นอินพุต แสดงว่าอัลกอริทึมกำลังใช้การจัดการที่แตกต่างกันไปตามมิติข้อมูลนั้น

ซึ่งต่างจากผลกระทบที่แตกต่างกันที่มุ่งเน้นที่ความเหลื่อมล้ำของผลกระทบทางสังคมจากการตัดสินใจของอัลกอริทึมที่มีต่อกลุ่มย่อย โดยไม่คำนึงว่ากลุ่มย่อยเหล่านั้นเป็นอินพุตของโมเดลหรือไม่

การกลั่น

#generativeAI

กระบวนการลดขนาดโมเดล 1 รายการ (เรียกว่าโมเดลหลัก) ให้เป็นโมเดลที่เล็กลง (เรียกว่าโมเดลย่อย) ซึ่งจําลองการคาดการณ์ของโมเดลเดิมให้ใกล้เคียงที่สุด การกลั่นมีประโยชน์เนื่องจากโมเดลขนาดเล็กมีข้อดีหลัก 2 ข้อเหนือกว่าโมเดลขนาดใหญ่ (ครู) ดังนี้

  • ใช้เวลาในการอนุมานเร็วขึ้น
  • ลดการใช้หน่วยความจำและพลังงาน

อย่างไรก็ตาม โดยทั่วไปการคาดการณ์ของนักเรียนจะไม่แม่นยำเท่ากับการคาดการณ์ของครู

การกลั่นจะฝึกโมเดลนักเรียนเพื่อลดฟังก์ชันการสูญเสียตามความแตกต่างระหว่างเอาต์พุตของการคาดการณ์ของโมเดลนักเรียนและโมเดลครู

เปรียบเทียบและเปรียบต่างระหว่างการกลั่นกับคำศัพท์ต่อไปนี้

ดูข้อมูลเพิ่มเติมได้ที่LLM: การปรับแต่ง การปรับให้เหมาะสม และการปรับแต่งพรอมต์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเผยแพร่

ความถี่และช่วงของค่าต่างๆ สําหรับฟีเจอร์หรือป้ายกํากับหนึ่งๆ การแจกแจงแสดงถึงแนวโน้มที่ค่าหนึ่งๆ จะปรากฏ

รูปภาพต่อไปนี้แสดงฮิสโตแกรมของการแจกแจง 2 แบบที่แตกต่างกัน

  • ทางด้านซ้ายคือความหนาแน่นของลาภยศตามกฎกำลังสองเทียบกับจํานวนบุคคลที่มีลาภยศนั้น
  • ทางด้านขวาคือความถี่ของส่วนสูงเทียบกับจํานวนคนที่มีความสูงนั้น

ฮิสโตแกรม 2 รายการ ฮิสโตแกรม 1 รายการแสดงการแจกแจงเชิงกำลังที่มีความมั่งคั่งบนแกน x และจํานวนคนที่มีความมั่งคั่งนั้นบนแกน y ผู้คนส่วนใหญ่มีทรัพย์สินน้อยมาก และมีคนเพียงไม่กี่คนที่ร่ำรวยมาก ส่วนฮิสโตแกรมอีกอันแสดงการแจกแจงแบบปกติที่มีความสูงบนแกน X และจำนวนคนที่มีความสูงนั้นบนแกน Y ผู้คนส่วนใหญ่จะกระจุกตัวอยู่ใกล้ค่าเฉลี่ย

การทำความเข้าใจการแจกแจงของฟีเจอร์และป้ายกำกับแต่ละรายการจะช่วยให้คุณกำหนดวิธีทำให้เป็นมาตรฐานค่าและตรวจหาค่าที่ผิดปกติได้

วลีไม่ได้อยู่ในชุดข้อมูลหมายถึงค่าที่ไม่ได้ปรากฏในชุดข้อมูลหรือพบได้น้อยมาก เช่น ระบบจะถือว่ารูปภาพดาวเสาร์อยู่นอกการแจกแจงสำหรับชุดข้อมูลที่มีรูปภาพแมว

การจัดคลัสเตอร์แบบแบ่งกลุ่ม

#clustering

ดูการจัดกลุ่มตามลําดับชั้น

downsampling

#image

คําที่มีความหมายหลายอย่างซึ่งอาจหมายถึงอย่างใดอย่างหนึ่งต่อไปนี้

  • การลดปริมาณข้อมูลในฟีเจอร์เพื่อฝึกโมเดลได้อย่างมีประสิทธิภาพมากขึ้น เช่น การปรับขนาดรูปภาพความละเอียดสูงเป็นรูปแบบความละเอียดต่ำก่อนฝึกโมเดลการจดจำรูปภาพ
  • การฝึกด้วยตัวอย่างคลาสที่มีจำนวนมากเกินไปในเปอร์เซ็นต์ที่ต่ำไม่สมส่วนเพื่อปรับปรุงการฝึกโมเดลในคลาสที่มีจำนวนน้อย เช่น ในชุดข้อมูลที่มีคลาสไม่สมดุล โมเดลมีแนวโน้มที่จะเรียนรู้เกี่ยวกับคลาสส่วนใหญ่มาก แต่เรียนรู้เกี่ยวกับคลาสน้อยไม่เพียงพอ การลดขนาดช่วยปรับสมดุลปริมาณการฝึกในคลาสส่วนใหญ่และคลาสส่วนน้อย

ดูข้อมูลเพิ่มเติมได้ที่ชุดข้อมูล: ชุดข้อมูลที่ไม่สมดุลในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

DQN

#rl

ตัวย่อของ Deep Q-Network

Regularization แบบ Dropout

รูปแบบการปรับให้เหมาะสมที่มีประโยชน์ในการฝึกโครงข่ายระบบประสาทเทียม การปรับให้เหมาะสมแบบ Dropout จะนําหน่วยจํานวนคงที่แบบสุ่มในเลเยอร์เครือข่ายออกสําหรับขั้นตอนเดียวของลําดับชั้น ยิ่งมีหน่วยที่หยุดทำงานมากเท่าใด การทำให้ถูกต้องก็ยิ่งชัดเจนมากขึ้นเท่านั้น ซึ่งคล้ายกับการฝึกเครือข่ายให้จําลองกลุ่มเครือข่ายขนาดเล็กจํานวนมาก ดูรายละเอียดทั้งหมดได้ที่Dropout: วิธีง่ายๆ ในการป้องกันการที่เครือข่ายประสาทมีการประมาณมากเกินไป

ไดนามิก

#fundamentals

กิจกรรมที่ทำบ่อยหรือต่อเนื่อง คําว่าแบบไดนามิกและออนไลน์เป็นคําพ้องกันในแมชชีนเลิร์นนิง ต่อไปนี้เป็นการใช้งานแบบไดนามิกและออนไลน์ที่พบบ่อยในแมชชีนเลิร์นนิง

  • โมเดลแบบไดนามิก (หรือโมเดลออนไลน์) คือโมเดลที่ฝึกซ้ำบ่อยครั้งหรืออย่างต่อเนื่อง
  • การฝึกแบบไดนามิก (หรือการฝึกอบรมออนไลน์) คือกระบวนการฝึกอบรมบ่อยครั้งหรืออย่างต่อเนื่อง
  • การอนุมานแบบไดนามิก (หรือการอนุมานออนไลน์) คือกระบวนการสร้างการคาดการณ์ตามคําขอ

โมเดลแบบไดนามิก

#fundamentals

โมเดลที่ได้รับการฝึกใหม่บ่อยครั้ง (หรืออาจฝึกอย่างต่อเนื่อง) รูปแบบแบบไดนามิกคือ "ผู้เรียนรู้ตลอดชีวิต" ที่ปรับตัวให้เข้ากับข้อมูลที่เปลี่ยนแปลงอยู่ตลอดเวลา รูปแบบแบบไดนามิกเรียกอีกอย่างว่ารูปแบบออนไลน์

ตรงข้ามกับโมเดลแบบคงที่

E

การดำเนินการแบบ Eager

#TensorFlow

สภาพแวดล้อมการเขียนโปรแกรม TensorFlow ที่การดำเนินการจะทำงานทันที ในทางตรงกันข้าม การดำเนินการที่เรียกใช้ในการดำเนินการกราฟจะไม่ทำงานจนกว่าจะมีการประเมินอย่างชัดเจน การดำเนินการอย่างเร่งด่วนเป็นอินเทอร์เฟซแบบบังคับ ซึ่งคล้ายกับโค้ดในภาษาโปรแกรมส่วนใหญ่ โดยทั่วไปแล้ว โปรแกรมการดำเนินการแบบ Eager นั้นแก้ไขข้อบกพร่องได้ง่ายกว่าโปรแกรมการดำเนินการแบบกราฟ

การหยุดก่อนกำหนด

#fundamentals

วิธีการการปรับให้เหมาะสมที่เกี่ยวกับการสิ้นสุดการฝึก ก่อนที่การลดลงของการฝึกจะสิ้นสุดลง ในการหยุดกลางคัน คุณจะหยุดฝึกโมเดลโดยตั้งใจเมื่อการสูญเสียในชุดข้อมูลที่ใช้ตรวจสอบเริ่มเพิ่มขึ้น กล่าวคือเมื่อประสิทธิภาพการทั่วไปแย่ลง

ระยะทางของรถขุด (EMD)

#Metric

การวัดความคล้ายคลึงสัมพัทธ์ของการแจกแจง 2 รายการ ยิ่งระยะทางของเครื่องจักรขุดดินต่ำ รูปแบบการกระจายก็จะยิ่งคล้ายกัน

แก้ไขระยะทาง

#language
#Metric

การวัดความคล้ายคลึงของสตริงข้อความ 2 รายการ ระยะการแก้ไขมีประโยชน์ในแมชชีนเลิร์นนิงเนื่องจากเหตุผลต่อไปนี้

  • ระยะห่างการแก้ไขคํานวณได้ง่าย
  • ระยะห่างการแก้ไขจะเปรียบเทียบสตริง 2 รายการที่ทราบว่าคล้ายกัน
  • ระยะแก้ไขสามารถระบุระดับที่สตริงต่างๆ คล้ายกับสตริงหนึ่งๆ

ระยะห่างการแก้ไขมีหลายคำจำกัดความ โดยแต่ละคำจำกัดความจะใช้การดำเนินการสตริงที่แตกต่างกัน ดูตัวอย่างได้ที่ระยะ Levenshtein

นิพจน์ Einsum

รูปแบบการเขียนที่มีประสิทธิภาพในการอธิบายวิธีรวม เทนเซอร์ 2 รายการเข้าด้วยกัน โดยการรวมเทนเซอร์จะคูณองค์ประกอบของเทนเซอร์หนึ่งเข้ากับองค์ประกอบของเทนเซอร์อีกอันหนึ่ง แล้วบวกผลคูณ นิพจน์ Einsum ใช้สัญลักษณ์เพื่อระบุแกนของ Tensor แต่ละรายการ และสัญลักษณ์เดียวกันเหล่านั้นจะได้รับการเรียงลําดับใหม่เพื่อระบุรูปร่างของ Tensor ผลลัพธ์ใหม่

NumPy มีการใช้งาน Einsum ที่พบบ่อย

เลเยอร์การฝัง

#language
#fundamentals

เลเยอร์ที่ซ่อนอยู่พิเศษที่ฝึกด้วยฟีเจอร์เชิงหมวดหมู่มิติสูงเพื่อค่อยๆ เรียนรู้เวกเตอร์การฝังมิติข้อมูลต่ำ เลเยอร์การฝังช่วยให้เครือข่ายประสาทสามารถฝึกได้อย่างมีประสิทธิภาพมากกว่าการฝึกเฉพาะกับฟีเจอร์เชิงหมวดหมู่มิติสูง

ตัวอย่างเช่น ปัจจุบัน Earth รองรับพันธุ์ไม้ประมาณ 73,000 ชนิด สมมติว่าพันธุ์ไม้เป็นฟีเจอร์ในโมเดลของคุณ เลเยอร์อินพุตของโมเดลจึงมีเวกเตอร์แบบฮอตเวิร์กที่มีองค์ประกอบยาว 73,000 รายการ เช่น baobab อาจแสดงเป็นดังนี้

อาร์เรย์ที่มีองค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 รายการแรกมีค่าเป็น 0 องค์ประกอบถัดไปมีค่า 1 องค์ประกอบสุดท้าย 66,767 รายการมีค่าเป็น 0

อาร์เรย์ที่มีองค์ประกอบ 73,000 รายการนั้นยาวมาก หากไม่เพิ่มเลเยอร์การฝังลงในโมเดล การฝึกจะใช้เวลานานมากเนื่องจากการคูณ 0 72,999 ครั้ง สมมติว่าคุณเลือกเลเยอร์การฝังให้มีมิติข้อมูล 12 รายการ เลเยอร์การฝังจึงค่อยๆ เรียนรู้เวกเตอร์การฝังใหม่สำหรับต้นไม้แต่ละสายพันธุ์

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลแทนเลเยอร์การฝัง

ดูข้อมูลเพิ่มเติมได้ที่การฝังในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

พื้นที่ฝัง

#language

ปริภูมิเวกเตอร์ 3 มิติที่แมปกับองค์ประกอบจากปริภูมิเวกเตอร์มิติที่สูงกว่า พื้นที่โฆษณาแบบฝังได้รับการฝึกให้จับโครงสร้างที่มีความหมายสําหรับแอปพลิเคชันที่ต้องการ

ผลคูณจุดของข้อมูลเชิงลึก 2 รายการคือตัววัดความคล้ายคลึงกัน

เวกเตอร์การฝัง

#language

กล่าวโดยคร่าวๆ ก็คืออาร์เรย์ของตัวเลขทศนิยมที่มาจากเลเยอร์ใดก็ได้ ที่ซ่อนอยู่ซึ่งอธิบายอินพุตของเลเยอร์ที่ซ่อนอยู่นั้น โดยปกติแล้ว เวกเตอร์การฝังจะเป็นอาร์เรย์ของตัวเลขทศนิยมที่ผ่านการฝึกในเลเยอร์การฝัง ตัวอย่างเช่น สมมติว่าเลเยอร์การฝังต้องเรียนรู้เวกเตอร์การฝังสําหรับต้นไม้แต่ละสายพันธุ์บนโลกซึ่งมีอยู่ 73,000 สายพันธุ์ อาร์เรย์ต่อไปนี้อาจเป็นเวกเตอร์การฝังสำหรับต้นบาวบับ

อาร์เรย์ที่มีองค์ประกอบ 12 รายการ โดยแต่ละรายการมีจำนวนทศนิยมระหว่าง 0.0 ถึง 1.0

เวกเตอร์การฝังไม่ใช่ตัวเลขสุ่ม เลเยอร์การฝังจะกําหนดค่าเหล่านี้ผ่านการฝึก คล้ายกับวิธีที่เครือข่ายประสาทเรียนรู้น้ำหนักอื่นๆ ระหว่างการฝึก องค์ประกอบแต่ละรายการของอาร์เรย์คือคะแนนตามลักษณะบางอย่างของสายพันธุ์ต้นไม้ องค์ประกอบใดแสดงถึงลักษณะของสายพันธุ์ต้นไม้ ซึ่งเป็นสิ่งที่มนุษย์ตัดสินได้ยากมาก

สิ่งที่น่าสนใจทางคณิตศาสตร์ของเวกเตอร์การฝังคือรายการที่คล้ายกันจะมีชุดตัวเลขทศนิยมที่คล้ายกัน เช่น สายพันธุ์ต้นไม้ที่คล้ายกันจะมีชุดตัวเลขทศนิยมที่คล้ายกันมากกว่าสายพันธุ์ต้นไม้ที่แตกต่างกัน ต้นสนซีดาร์และต้นสนสควอยเอียเป็นต้นไม้สายพันธุ์ที่เกี่ยวข้องกัน ดังนั้นชุดตัวเลขทศนิยมของต้นสนซีดาร์และต้นสนสควอยเอียจึงมีความคล้ายคลึงกันมากกว่าต้นสนซีดาร์กับต้นมะพร้าว ตัวเลขในเวกเตอร์การฝังจะเปลี่ยนแปลงทุกครั้งที่คุณฝึกโมเดลใหม่ แม้ว่าคุณจะฝึกโมเดลใหม่ด้วยอินพุตที่เหมือนกันก็ตาม

ฟังก์ชันการแจกแจงสะสมเชิงประจักษ์ (eCDF หรือ EDF)

#Metric

ฟังก์ชันการแจกแจงสะสมซึ่งอิงตามการวัดผลเชิงประจักษ์จากชุดข้อมูลจริง ค่าของฟังก์ชันที่จุดใดก็ได้บนแกน x คือเศษส่วนของค่าสังเกตในชุดข้อมูลที่มีค่าน้อยกว่าหรือเท่ากับค่าที่ระบุ

การลดความเสี่ยงเชิงประจักษ์ (ERM)

การเลือกฟังก์ชันที่ลดการสูญเสียในชุดข้อมูลการฝึก เปรียบเทียบกับการลดความเสี่ยงเชิงโครงสร้าง

โปรแกรมเปลี่ยนไฟล์

#language

โดยทั่วไปแล้ว ระบบ ML ใดก็ตามที่แปลงจากการแสดงผลแบบดิบ เบาบาง หรือภายนอกเป็นการแสดงผลที่ประมวลผลแล้ว หนาแน่นขึ้น หรือภายในมากขึ้น

โดยปกติแล้ว โปรแกรมเข้ารหัสจะเป็นส่วนหนึ่งของโมเดลขนาดใหญ่ ซึ่งมักจะจับคู่กับโปรแกรมถอดรหัส Transformer บางตัวจะจับคู่โปรแกรมเปลี่ยนไฟล์กับโปรแกรมถอดรหัส แต่ Transformer อื่นๆ ใช้เฉพาะโปรแกรมเปลี่ยนไฟล์หรือเฉพาะโปรแกรมถอดรหัส

ระบบบางระบบใช้เอาต์พุตของโปรแกรมเข้ารหัสเป็นอินพุตของเครือข่ายการจัดประเภทหรือการถดถอย

ในงานแบบอนุกรมต่ออนุกรม ตัวเข้ารหัสจะรับลำดับอินพุตและแสดงผลสถานะภายใน (เวกเตอร์) จากนั้น ตัวถอดรหัสจะใช้สถานะภายในนั้นเพื่อคาดการณ์ลำดับถัดไป

ดูคำจำกัดความของตัวเข้ารหัสในสถาปัตยกรรม Transformer ได้ที่ Transformer

ดูข้อมูลเพิ่มเติมได้ที่LLM: โมเดลภาษาขนาดใหญ่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

วงดนตรี

ชุดโมเดลที่ฝึกแยกกันซึ่งการคาดการณ์จะได้รับการหาค่าเฉลี่ยหรือรวบรวม ในหลายกรณี การรวมกลุ่มจะให้การคาดการณ์ที่ดีกว่าโมเดลเดียว เช่น Random Forest คือชุดค่าผสมที่สร้างขึ้นจากต้นไม้การตัดสินใจหลายต้น โปรดทราบว่าป่าการตัดสินใจบางรายการไม่ใช่ชุดค่าผสม

ดูข้อมูลเพิ่มเติมได้ที่Random Forest ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เอนโทรปี

#df
#Metric

ใน ทฤษฎีสารสนเทศ หมายถึงคำอธิบายความคาดเดาไม่ได้ของรูปแบบความน่าจะเป็น หรืออาจหมายถึงปริมาณข้อมูลที่มีอยู่ในตัวอย่างแต่ละรายการ การแจกแจงข้อมูลจะมีเอนโทรปีสูงสุดเมื่อค่าทั้งหมดของตัวแปรแบบสุ่มมีแนวโน้มเท่าๆ กัน

เอนโทรปีของชุดที่มีค่าที่เป็นไปได้ 2 ค่า ได้แก่ "0" และ "1" (เช่น ป้ายกำกับในปัญหาการจัดประเภทแบบไบนารี) มีสูตรดังนี้

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

where:

  • H คือเอนโทรปี
  • p คือเศษส่วนของตัวอย่าง "1"
  • q คือเศษส่วนของตัวอย่าง "0" โปรดทราบว่า q = (1 - p)
  • log โดยทั่วไปคือ log2 ในกรณีนี้ หน่วยของข้อมูลเชิงซ้อนคือบิต

ตัวอย่างเช่น สมมติว่า

  • ตัวอย่าง 100 รายการมีค่าเป็น "1"
  • ตัวอย่าง 300 รายการมีค่าเป็น "0"

ดังนั้น ค่าเอนโทรปีคือ

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 บิตต่อตัวอย่าง

ชุดข้อมูลที่สมดุลกันโดยสมบูรณ์ (เช่น "0" 200 ตัวและ "1" 200 ตัว) จะมีเอนโทรปี 1.0 บิตต่อตัวอย่าง เมื่อชุดข้อมูลมีความไม่สมดุลมากขึ้น เอนโทรปีของชุดข้อมูลจะเข้าใกล้ 0.0

ในต้นไม้การตัดสินใจ เอนโทรปีช่วยสร้างการได้ข้อมูลเพื่อช่วยตัวแยกเลือกเงื่อนไขขณะที่ต้นไม้การตัดสินใจการจัดประเภทเติบโต

เปรียบเทียบเอนโทรปีกับข้อมูลต่อไปนี้

บางครั้งจะเรียกเอนโทรปีว่าเอนโทรปีของ Shannon

ดูข้อมูลเพิ่มเติมได้ในตัวแยกที่ตรงกันทั้งหมดสำหรับการแยกประเภทแบบ 2 กลุ่มด้วยฟีเจอร์ที่เป็นตัวเลขในหลักสูตรป่าการตัดสินใจ

สภาพแวดล้อม

#rl

ในการเรียนรู้ด้วยการทำซ้ำ โลกคือสิ่งที่มีเอเจนต์ และช่วยให้เอเจนต์สังเกตสถานะของโลกนั้นได้ เช่น โลกที่แสดงอาจเป็นเกมอย่างหมากรุก หรือโลกแห่งความเป็นจริงอย่างเขาวงกต เมื่อตัวแทนใช้การดำเนินการกับสภาพแวดล้อม สภาพแวดล้อมจะเปลี่ยนสถานะไปมา

ตอน

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ตัวแทนจะพยายามเรียนรู้สภาพแวดล้อมซ้ำๆ แต่ละครั้ง

Epoch

#fundamentals

การฝึกแบบเต็มจะทํางานกับชุดข้อมูลการฝึกทั้งหมดเพื่อให้ระบบประมวลผลตัวอย่างแต่ละรายการ 1 ครั้ง

Epoch แสดงจำนวนรอบการฝึก N/ขนาดกลุ่ม โดยที่ N คือจํานวนตัวอย่างทั้งหมด

ตัวอย่างเช่น สมมติว่า

  • ชุดข้อมูลประกอบด้วยตัวอย่าง 1,000 รายการ
  • ขนาดกลุ่มคือ 50 ตัวอย่าง

ดังนั้น 1 ยุคจึงต้องมีการทําซ้ำ 20 ครั้ง

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

ดูข้อมูลเพิ่มเติมได้ที่การหาค่าสัมประสิทธ์เชิงเส้น: ตัวแปรพหุนามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

นโยบายการค้นหาแบบ epsilon greedy

#rl

ในการเรียนรู้ด้วยการทำซ้ำ นโยบายที่เป็นไปตามนโยบายแบบสุ่มที่มีความน่าจะเป็น epsilon หรือนโยบายแบบโลภ เช่น หาก epsilon มีค่า 0.9 นโยบายจะเป็นไปตามนโยบายแบบสุ่ม 90% ของเวลา และนโยบายแบบโลภ 10% ของเวลา

อัลกอริทึมจะลดค่าของ epsilon ในแต่ละรอบเพื่อเปลี่ยนจากการปฏิบัติตามนโยบายแบบสุ่มเป็นการปฏิบัติตามนโยบายแบบโลภ การเปลี่ยนนโยบายจะทำให้เอเจนต์สุ่มสำรวจสภาพแวดล้อมก่อน จากนั้นจึงใช้ประโยชน์จากผลการสุ่มสำรวจอย่างเต็มรูปแบบ

โอกาสที่เท่าเทียมกัน

#fairness
#Metric

เมตริกความเป็นธรรมเพื่อประเมินว่าโมเดลคาดการณ์ผลลัพธ์ที่ต้องการได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่มีความละเอียดอ่อนหรือไม่ กล่าวคือ หากผลลัพธ์ที่ต้องการสำหรับโมเดลคือคลาสที่เป็นบวก เป้าหมายคืออัตราผลบวกจริงจะเหมือนกันสำหรับทุกกลุ่ม

โอกาสที่เท่าเทียมเกี่ยวข้องกับอัตราต่อรองที่เท่าเทียม ซึ่งกำหนดว่าทั้งอัตราผลบวกจริงและอัตราผลบวกลวงต้องเหมือนกันสำหรับทุกกลุ่ม

สมมติว่ามหาวิทยาลัย Glubbdubdrib รับทั้งชาวลิลลี่ปุตและชาวบราบิงแน็กเรียนหลักสูตรคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมของชาวลิลลี่ปุตตินำเสนอหลักสูตรคณิตศาสตร์ที่มีประสิทธิภาพ และนักเรียนส่วนใหญ่มีสิทธิ์เข้าเรียนในมหาวิทยาลัย โรงเรียนมัธยมของชาวบราบิงกันไม่ได้เปิดสอนวิชาคณิตศาสตร์เลย ส่งผลให้นักเรียนมีจำนวนน้อยกว่ามากที่มีคุณสมบัติตรงตามข้อกำหนด โอกาสที่เท่าเทียมกันเป็นไปตามป้ายกำกับที่ต้องการว่า "ได้รับอนุญาต" เกี่ยวกับสัญชาติ (Lilliputian หรือ Brobdingnagian) หากนักเรียนที่มีสิทธิ์มีโอกาสเท่าๆ กันที่จะได้รับการอนุญาต ไม่ว่านักเรียนจะเป็น Lilliputian หรือ Brobdingnagian

ตัวอย่างเช่น สมมติว่าชาวลิลลี่ปุต 100 คนและชาวบราบิงแน็ก 100 คนสมัครเข้ามหาวิทยาลัยกลุบบัดบรีบ และผลการตัดสินการรับสมัครมีดังนี้

ตารางที่ 1 ผู้สมัคร Lilliputian (90% มีสิทธิ์)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 45 3
ถูกปฏิเสธ 45 7
รวม 90 10
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับค่าเล่าเรียน: 45/90 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับค่าเล่าเรียน: 7/10 = 70%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Lilliputian ที่ได้รับค่าเล่าเรียน: (45+3)/100 = 48%

 

ตารางที่ 2 ผู้สมัครที่มีคุณสมบัติตรงตามเกณฑ์ (10%)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 5 9
ถูกปฏิเสธ 5 81
รวม 10 90
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 5/10 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 81/90 = 90%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Brobdingnagian ที่ได้รับอนุญาตให้เข้าเรียน: (5+9)/100 = 14%

ตัวอย่างข้างต้นเป็นไปตามความเท่าเทียมของโอกาสในการรับนักเรียนที่มีสิทธิ์ เนื่องจากทั้งชาวลิลลี่ปุตและชาวบราบิงแนกันที่มีสิทธิ์มีโอกาส 50% ที่จะได้รับการยอมรับ

แม้ว่าจะเป็นไปตามหลักความเท่าเทียมกันของโอกาส แต่เมตริกความเท่าเทียม 2 รายการต่อไปนี้ไม่เป็นไปตามหลักดังกล่าว

  • ความเท่าเทียมทางประชากร: นักเรียนชาวลิลลี่ปุตและชาวบราบิงแนกได้รับอนุญาตให้เข้ามหาวิทยาลัยในอัตราที่แตกต่างกัน โดยนักเรียนชาวลิลลี่ปุตได้รับอนุญาตให้เข้ามหาวิทยาลัย 48% แต่นักเรียนชาวบราบิงแนกได้รับอนุญาตให้เข้ามหาวิทยาลัยเพียง 14%
  • โอกาสที่เท่าเทียม: แม้ว่านักเรียน Lilliputian และ Brobdingnagian ที่มีสิทธิ์จะมีสิทธิ์ได้รับการยอมรับเท่าๆ กัน แต่ข้อจำกัดเพิ่มเติมที่ว่านักเรียน Lilliputian และ Brobdingnagian ที่ไม่มีสิทธิ์จะมีสิทธิ์ถูกปฏิเสธเท่าๆ กันนั้นไม่ได้รับการยอมรับ ผู้ที่มีคุณสมบัติไม่ตรงตามเกณฑ์ของ Lilliputians มีอัตราการถูกปฏิเสธ 70% ส่วนผู้ที่มีคุณสมบัติไม่ตรงตามเกณฑ์ของ Brobdingnagians มีอัตราการถูกปฏิเสธ 90%

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ความเท่าเทียมของโอกาสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โอกาสที่เท่ากัน

#fairness
#Metric

เมตริกความเท่าเทียมเพื่อประเมินว่าโมเดลคาดการณ์ผลลัพธ์ได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่มีความละเอียดอ่อนทั้งในแง่ของคลาสบวกและคลาสลบ ไม่ใช่แค่คลาสใดคลาสหนึ่งโดยเฉพาะ กล่าวคือ ทั้งอัตราผลบวกจริงและอัตราผลลบเท็จควรเหมือนกันสำหรับทุกกลุ่ม

อัตราต่อรองที่เท่ากันเกี่ยวข้องกับความเท่าเทียมของโอกาส ซึ่งมุ่งเน้นที่อัตราข้อผิดพลาดของคลาสเดียวเท่านั้น (บวกหรือลบ)

ตัวอย่างเช่น สมมติว่ามหาวิทยาลัย Glubbdubdrib ยอมรับทั้งชาวลิลลี่ปุตและชาวบราบิงแนกเรียนหลักสูตรคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมของชาวลิลลี่ปุตติมีหลักสูตรคณิตศาสตร์ที่เข้มข้น และนักเรียนส่วนใหญ่มีสิทธิ์เข้าเรียนในมหาวิทยาลัย โรงเรียนมัธยมของชาวบราบิงกันไม่ได้เปิดสอนวิชาคณิตศาสตร์เลย ส่งผลให้นักเรียนมีจำนวนน้อยกว่ามากที่มีคุณสมบัติตรงตามข้อกำหนด โอกาสที่เท่าเทียมกันจะเป็นไปตามข้อกำหนดไม่ว่าผู้สมัครจะมีสิทธิ์หรือไม่ก็ตาม หากมีสิทธิ์ ก็มีโอกาสเท่าๆ กันที่จะได้รับการยอมรับเข้าโปรแกรม และหากไม่มีสิทธิ์ ก็มีโอกาสเท่าๆ กันที่จะถูกปฏิเสธ

สมมติว่าชาวลิลลี่ปุต 100 คนและชาวบราบิงแน็ก 100 คนสมัครเข้ามหาวิทยาลัยกลุบบัดดริบ และผลการตัดสินการรับสมัครมีดังนี้

ตารางที่ 3 ผู้สมัคร Lilliputian (90% มีสิทธิ์)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 45 2
ถูกปฏิเสธ 45 8
รวม 90 10
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 45/90 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 8/10 = 80%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Lilliputian ได้รับอนุญาตให้เข้าเรียน: (45+2)/100 = 47%

 

ตารางที่ 4 ผู้สมัครที่มีคุณสมบัติตรงตามเกณฑ์ (10%)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 5 18
ถูกปฏิเสธ 5 72
รวม 10 90
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 5/10 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 72/90 = 80%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Brobdingnagian ที่ได้รับอนุญาตให้เข้าเรียน: (5+18)/100 = 23%

เงื่อนไขความน่าจะเป็นที่เท่ากันเป็นไปตามเกณฑ์เนื่องจากทั้งนักเรียน Lilliputian และ Brobdingnagian ที่มีสิทธิ์มีโอกาส 50% ที่จะได้รับการยอมรับ และนักเรียน Lilliputian และ Brobdingnagian ที่ไม่มีสิทธิ์มีโอกาส 80% ที่จะถูกปฏิเสธ

โอกาสที่เท่าเทียมกันได้รับการกําหนดอย่างเป็นทางการใน"ความเท่าเทียมของโอกาสในการเรียนรู้แบบควบคุม" ดังนี้ "ตัวทำนาย Ŷ เป็นไปตามความเท่าเทียมของโอกาสในแง่ของแอตทริบิวต์ที่ได้รับการคุ้มครอง A และผลลัพธ์ Y หาก Ŷ และ A เป็นอิสระต่อกันโดยขึ้นกับ Y"

Estimator

#TensorFlow

TensorFlow API ที่เลิกใช้งานแล้ว ใช้ tf.keras แทน Estimator

evals

#language
#generativeAI
#Metric

ใช้เป็นหลักเป็นตัวย่อของการประเมิน LLM evals ย่อมาจากการประเมินทุกรูปแบบ

การประเมิน

#language
#generativeAI
#Metric

กระบวนการวัดคุณภาพของรูปแบบหรือการเปรียบเทียบรูปแบบต่างๆ

หากต้องการประเมินโมเดลแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โดยทั่วไปคุณจะต้องประเมินโมเดลนั้นเทียบกับชุดการตรวจสอบและชุดทดสอบ การประเมิน LLMมักเกี่ยวข้องกับการประเมินคุณภาพและความปลอดภัยในวงกว้าง

ตัวอย่าง

#fundamentals

ค่าของฟีเจอร์ 1 แถวและป้ายกำกับ (ไม่บังคับ) ตัวอย่างในการเรียนรู้แบบควบคุมจะแบ่งออกเป็น 2 หมวดหมู่ทั่วไป ดังนี้

  • ตัวอย่างที่มีป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ระบบจะใช้ตัวอย่างที่มีป้ายกำกับในระหว่างการฝึก
  • ตัวอย่างที่ไม่มีป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการแต่ไม่มีป้ายกำกับ ระบบจะใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการอนุมาน

ตัวอย่างเช่น สมมติว่าคุณกําลังฝึกโมเดลเพื่อระบุอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตัวอย่างที่มีป้ายกำกับ 3 รายการมีดังนี้

ฟีเจอร์ ป้ายกำกับ
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 ดี
19 34 1020 ดีมาก
18 92 1012 แย่

ตัวอย่างที่ไม่มีป้ายกำกับ 3 รายการมีดังนี้

อุณหภูมิ ความชื้น ความกดอากาศ  
12 62 1014  
21 47 1017  
19 41 1021  

แถวของชุดข้อมูลมักเป็นแหล่งข้อมูลดิบสําหรับตัวอย่าง กล่าวคือ ตัวอย่างมักจะประกอบด้วยชุดย่อยของคอลัมน์ในชุดข้อมูล นอกจากนี้ ฟีเจอร์ในตัวอย่างยังอาจรวมถึงฟีเจอร์สังเคราะห์ เช่น การครอสฟีเจอร์

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบควบคุมดูแลในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

เล่นซ้ำ

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เทคนิค DQN ใช้เพื่อลดความเกี่ยวข้องตามช่วงเวลาในข้อมูลการฝึก Agentจะจัดเก็บการเปลี่ยนสถานะในบัฟเฟอร์การบันทึก จากนั้นจะสุ่มตัวอย่างการเปลี่ยนสถานะจากบัฟเฟอร์การบันทึกเพื่อสร้างข้อมูลการฝึก

อคติของผู้ทดสอบ

#fairness

ดูอคติยืนยันความคิดตัวเอง

ปัญหาการไล่ระดับที่เพิ่มขึ้น

#seq

แนวโน้มที่เส้นลาดในโครงข่ายประสาทแบบลึก (โดยเฉพาะโครงข่ายประสาทแบบซ้ำ) จะชัน (สูง) อย่างน่าประหลาดใจ เส้นลาดชันชันมักจะทําให้เกิดการอัปเดตน้ำหนักของโหนดแต่ละโหนดในเครือข่ายประสาทเทียมลึกอย่างมาก

โมเดลที่มีปัญหาเกี่ยวกับ Gradient Explosion จะฝึกได้ยากหรือเป็นไปไม่ได้ การตัดเฉดสีจะช่วยบรรเทาปัญหานี้ได้

เปรียบเทียบกับปัญหาการลดทอนความชัน

F

F1

#Metric

เมตริกการจัดประเภทแบบ 2 กลุ่ม "แบบรวม" ที่อาศัยทั้งความแม่นยำและความแม่นยำในการจดจำ สูตรมีดังนี้

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

ข้อเท็จจริง

#generativeAI

ในแวดวง ML พร็อพเพอร์ตี้ที่อธิบายโมเดลซึ่งเอาต์พุตอิงตามความเป็นจริง ความเป็นข้อเท็จจริงเป็นแนวคิด ไม่ใช่เมตริก ตัวอย่างเช่น สมมติว่าคุณส่งพรอมต์ต่อไปนี้ไปยังโมเดลภาษาขนาดใหญ่

สูตรเคมีของเกลือแกงคืออะไร

โมเดลที่เพิ่มประสิทธิภาพความถูกต้องจะตอบกลับดังนี้

NaCl

เราอาจจําเป็นต้องสมมติว่าโมเดลทั้งหมดควรอิงตามข้อเท็จจริง อย่างไรก็ตาม พรอมต์บางรายการ เช่น พรอมต์ต่อไปนี้ ควรทําให้โมเดล Generative AI เพิ่มประสิทธิภาพความคิดสร้างสรรค์แทนความถูกต้อง

เล่ากลอนสั้นๆ เกี่ยวกับนักบินอวกาศและหนอนผีเสื้อให้ฟังหน่อย

กลอนสั้นๆ ที่ออกมาจึงไม่น่าอิงตามความเป็นจริง

ตรงข้ามกับการยึดมั่นในความเป็นจริง

ข้อจำกัดด้านความยุติธรรม

#fairness
การใช้ข้อจำกัดกับอัลกอริทึมเพื่อให้เป็นไปตามคําจํากัดความของความยุติธรรมอย่างน้อย 1 ข้อ ตัวอย่างข้อจำกัดด้านความยุติธรรม ได้แก่

เมตริกความยุติธรรม

#fairness
#Metric

คําจํากัดความทางคณิตศาสตร์ของ "ความเป็นธรรม" ที่วัดผลได้ เมตริกความเป็นธรรมที่ใช้กันโดยทั่วไป ได้แก่

เมตริกความยุติธรรมหลายรายการใช้ร่วมกันไม่ได้ โปรดดูความเข้ากันไม่ได้ของเมตริกความยุติธรรม

ผลลบลวง (FN)

#fundamentals
#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบอย่างไม่ถูกต้อง เช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ ไม่ใช่สแปม (คลาสเชิงลบ) แต่ข้อความอีเมลนั้นเป็นจดหมายขยะจริงๆ

อัตราผลลบลวง

#Metric

สัดส่วนของตัวอย่างเชิงบวกจริงที่โมเดลคาดการณ์คลาสเชิงลบอย่างไม่ถูกต้อง สูตรต่อไปนี้จะคํานวณอัตราเชิงลบที่ไม่ถูกต้อง

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

ดูข้อมูลเพิ่มเติมเกี่ยวกับเกณฑ์และตารางความสับสนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ผลบวกลวง (FP)

#fundamentals
#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสบวกอย่างไม่ถูกต้อง เช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ (คลาสเชิงบวก) แต่ข้อความอีเมลนั้นไม่ใช่จดหมายขยะจริงๆ

ดูข้อมูลเพิ่มเติมเกี่ยวกับเกณฑ์และตารางความสับสนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อัตราผลบวกลวง (FPR)

#fundamentals
#Metric

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลคาดการณ์คลาสที่เป็นบวกอย่างไม่ถูกต้อง สูตรต่อไปนี้จะคํานวณอัตราผลบวกลวง

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

อัตราผลบวกลวงคือแกน x ในกราฟ ROC

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟีเจอร์

#fundamentals

ตัวแปรอินพุตของโมเดลแมชชีนเลิร์นนิง ตัวอย่างประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ ตัวอย่างเช่น สมมติว่าคุณกําลังฝึกรูปแบบเพื่อระบุอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตารางต่อไปนี้แสดงตัวอย่าง 3 รายการ โดยแต่ละรายการมีฟีเจอร์ 3 รายการและป้ายกำกับ 1 รายการ

ฟีเจอร์ ป้ายกำกับ
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 92
19 34 1020 84
18 92 1012 87

คอนทราสต์กับป้ายกำกับ

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบควบคุมในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

การครอสฟีเจอร์

#fundamentals

ฟีเจอร์สังเคราะห์ที่เกิดจากการ "ครอส" ฟีเจอร์เชิงหมวดหมู่หรือฟีเจอร์ที่มีการแบ่งกลุ่ม

ตัวอย่างเช่น ลองพิจารณาโมเดล "การคาดการณ์อารมณ์" ที่แสดงอุณหภูมิในหนึ่งในกลุ่ม 4 กลุ่มต่อไปนี้

  • freezing
  • chilly
  • temperate
  • warm

และแสดงความเร็วลมในหมวดหมู่ใดหมวดหมู่หนึ่งต่อไปนี้

  • still
  • light
  • windy

หากไม่มีการครอสฟีเจอร์ รูปแบบเชิงเส้นจะฝึกแยกกันในแต่ละกลุ่มที่ต่างกัน 7 กลุ่มก่อนหน้า ดังนั้น โมเดลจะฝึกจากตัวอย่าง เช่น freezing โดยไม่เกี่ยวข้องกับการฝึกจากตัวอย่าง เช่น windy

หรือจะสร้างฟีเจอร์ครอสของอุณหภูมิและความเร็วลมก็ได้ ฟีเจอร์สังเคราะห์นี้จะมีค่าที่เป็นไปได้ 12 ค่าต่อไปนี้

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

การครอสฟีเจอร์ช่วยให้โมเดลเรียนรู้ความแตกต่างของอารมณ์ระหว่างfreezing-windyวันกับfreezing-stillวัน

หากคุณสร้างฟีเจอร์สังเคราะห์จากฟีเจอร์ 2 รายการที่แต่ละรายการมีที่เก็บข้อมูลที่แตกต่างกันจํานวนมาก การรวมฟีเจอร์ที่ได้จะมีชุดค่าผสมที่เป็นไปได้จํานวนมหาศาล เช่น หากฟีเจอร์หนึ่งมีที่เก็บข้อมูล 1,000 รายการ และอีกฟีเจอร์หนึ่งมีที่เก็บข้อมูล 2,000 รายการ การครอสฟีเจอร์ที่ได้จะมีที่เก็บข้อมูล 2,000,000 รายการ

ครอสเป็นผลคูณคาร์ทีเซียน

การครอสฟีเจอร์มักใช้กับโมเดลเชิงเส้นและไม่ค่อยใช้กับเครือข่ายประสาท

ดูข้อมูลเพิ่มเติมที่ข้อมูลเชิงหมวดหมู่: ฟีเจอร์ครอสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Feature Engineering

#fundamentals
#TensorFlow

กระบวนการที่มีขั้นตอนต่อไปนี้

  1. พิจารณาว่าฟีเจอร์ใดบ้างที่อาจมีประโยชน์ในการเทรนโมเดล
  2. แปลงข้อมูลดิบจากชุดข้อมูลเป็นฟีเจอร์เหล่านั้นในเวอร์ชันที่มีประสิทธิภาพ

เช่น คุณอาจพิจารณาว่า temperature อาจเป็นฟีเจอร์ที่มีประโยชน์ จากนั้น คุณอาจลองใช้การแบ่งกลุ่มเพื่อเพิ่มประสิทธิภาพสิ่งที่โมเดลสามารถเรียนรู้จากช่วง temperature ที่ต่างกัน

บางครั้งเราเรียกวิศวกรรมด้านฟีเจอร์ว่าการดึงข้อมูลฟีเจอร์หรือการสร้างฟีเจอร์

ดูข้อมูลเพิ่มเติมที่ข้อมูลตัวเลข: วิธีที่โมเดลนำเข้าข้อมูลโดยใช้เวกเตอร์ฟีเจอร์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การคํานวณองค์ประกอบ

คําที่มีความหมายหลายอย่างซึ่งมีคําจํากัดความอย่างใดอย่างหนึ่งต่อไปนี้

ความสำคัญของฟีเจอร์

#df
#Metric

คำพ้องความหมายของความสำคัญของตัวแปร

ชุดฟีเจอร์

#fundamentals

กลุ่มฟีเจอร์ที่โมเดลแมชชีนเลิร์นนิงใช้ฝึก เช่น ชุดฟีเจอร์ง่ายๆ สําหรับโมเดลที่คาดการณ์ราคาบ้านอาจประกอบด้วยรหัสไปรษณีย์ ขนาดที่พัก และสภาพที่พัก

ข้อมูลจำเพาะของฟีเจอร์

#TensorFlow

อธิบายข้อมูลที่จำเป็นในการดึงข้อมูลฟีเจอร์จากบัฟเฟอร์โปรโตคอล tf.Example เนื่องจากบัฟเฟอร์โปรโตคอล tf.Example เป็นเพียงคอนเทนเนอร์สำหรับข้อมูล คุณจึงต้องระบุข้อมูลต่อไปนี้

  • ข้อมูลที่จะดึง (นั่นคือคีย์สําหรับฟีเจอร์)
  • ประเภทข้อมูล (เช่น float หรือ int)
  • ความยาว (คงที่หรือผันแปร)

เวกเตอร์องค์ประกอบ

#fundamentals

อาร์เรย์ของค่า feature ที่ประกอบไปด้วยตัวอย่าง เวกเตอร์ลักษณะจะป้อนระหว่างการฝึกและระหว่างการอนุมาน ตัวอย่างเช่น เวกเตอร์ลักษณะสําหรับโมเดลที่มี 2 ลักษณะที่แยกกันอาจมีลักษณะดังนี้

[0.92, 0.56]

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์
          เลเยอร์อินพุตมีโหนด 2 โหนด โดยโหนดหนึ่งมีค่า 0.92 และอีกโหนดมีค่า 0.56

ตัวอย่างแต่ละรายการระบุค่าที่แตกต่างกันสำหรับเวกเตอร์ลักษณะ ดังนั้นเวกเตอร์ลักษณะของตัวอย่างถัดไปจึงอาจเป็นดังนี้

[0.73, 0.49]

วิศวกรรมด้านฟีเจอร์จะกําหนดวิธีแสดงฟีเจอร์ในเวกเตอร์ฟีเจอร์ เช่น ฟีเจอร์เชิงหมวดหมู่แบบไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าอาจแสดงด้วยการเข้ารหัส One-Hot ในกรณีนี้ ส่วนของเวกเตอร์ลักษณะสำหรับตัวอย่างหนึ่งๆ จะประกอบด้วย 0 4 ตัวและ 1.0 1 ตัวในตำแหน่งที่ 3 ดังนี้

[0.0, 0.0, 1.0, 0.0, 0.0]

อีกตัวอย่างหนึ่งคือสมมติว่าโมเดลของคุณประกอบด้วยฟีเจอร์ 3 รายการ ได้แก่

  • ฟีเจอร์เชิงหมวดหมู่แบบไบนารีซึ่งมีค่าที่เป็นไปได้5 ค่าที่แสดงด้วยการเข้ารหัสแบบฮอตเดียว เช่น [0.0, 1.0, 0.0, 0.0, 0.0]
  • ฟีเจอร์เชิงหมวดหมู่แบบไบนารีอีกรายการที่มีค่าที่เป็นไปได้3 ค่าซึ่งแสดงด้วยการเข้ารหัสแบบฮอตเดียว เช่น [0.0, 0.0, 1.0]
  • ฟีเจอร์จุดลอยตัว เช่น 8.3

ในกรณีนี้ เวกเตอร์ฟีเจอร์ของตัวอย่างแต่ละรายการจะแสดงด้วยค่า 9 ค่า เมื่อพิจารณาจากค่าตัวอย่างในรายการก่อนหน้า เวกเตอร์ลักษณะจะเป็นดังนี้

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

ดูข้อมูลเพิ่มเติมที่ข้อมูลตัวเลข: วิธีที่โมเดลนำเข้าข้อมูลโดยใช้เวกเตอร์ฟีเจอร์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การสร้างฟีเจอร์

กระบวนการดึงข้อมูลองค์ประกอบจากแหล่งที่มาของอินพุต เช่น เอกสารหรือวิดีโอ และการแมปองค์ประกอบเหล่านั้นเป็นเวกเตอร์องค์ประกอบ

ผู้เชี่ยวชาญด้าน ML บางรายใช้การสร้างฟีเจอร์เป็นคำพ้องกับการปรับแต่งฟีเจอร์หรือการดึงข้อมูลฟีเจอร์

การเรียนรู้แบบสมาพันธ์

แนวทางแมชชีนเลิร์นนิงแบบกระจายที่ฝึกโมเดลแมชชีนเลิร์นนิงโดยใช้ตัวอย่างแบบกระจายศูนย์ที่อยู่ในอุปกรณ์ต่างๆ เช่น สมาร์ทโฟน ในการเรียนรู้แบบรวมศูนย์ อุปกรณ์บางส่วนจะดาวน์โหลดโมเดลปัจจุบันจากเซิร์ฟเวอร์ประสานงานส่วนกลาง อุปกรณ์จะใช้ตัวอย่างที่เก็บไว้ในอุปกรณ์เพื่อปรับปรุงโมเดล จากนั้นอุปกรณ์จะอัปโหลดการปรับปรุงโมเดล (แต่ไม่รวมตัวอย่างการฝึก) ไปยังเซิร์ฟเวอร์ประสานงาน ซึ่งจะรวบรวมการปรับปรุงเหล่านี้เข้ากับการอัปเดตอื่นๆ เพื่อให้ได้โมเดลทั่วโลกที่ปรับปรุงแล้ว หลังจากการรวมแล้ว อัปเดตโมเดลที่คำนวณโดยอุปกรณ์จะไม่จำเป็นต้องใช้อีกต่อไปและสามารถทิ้งได้

เนื่องจากไม่มีการอัปโหลดตัวอย่างการฝึก การเรียนรู้แบบรวมศูนย์จึงเป็นไปตามหลักการด้านความเป็นส่วนตัวของการเก็บรวบรวมข้อมูลที่มุ่งเน้นและการเก็บรักษาข้อมูลให้น้อยที่สุด

ดูรายละเอียดเพิ่มเติมได้ที่การ์ตูนเกี่ยวกับการเรียนรู้แบบรวมศูนย์ (ใช่ การ์ตูน)

รายงานความคิดเห็น

#fundamentals

ในแมชชีนเลิร์นนิง สถานการณ์ที่การคาดการณ์ของโมเดลส่งผลต่อข้อมูลการฝึกของโมเดลเดียวกันหรือโมเดลอื่น ตัวอย่างเช่น โมเดลที่แนะนำภาพยนตร์จะส่งผลต่อภาพยนตร์ที่ผู้ใช้เห็น ซึ่งก็จะส่งผลต่อโมเดลการแนะนำภาพยนตร์ในลำดับถัดไป

ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML เวอร์ชันที่ใช้งานจริง: คำถามที่ควรถามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โครงข่ายประสาทแบบ Feedforward (FFN)

เครือข่ายประสาทที่ไม่มีการเชื่อมต่อแบบวนซ้ำหรือแบบย้อนกลับ ตัวอย่างเช่น โครงข่ายประสาทแบบลึกแบบดั้งเดิมเป็นโครงข่ายประสาทแบบ Feedforward ซึ่งต่างจากเครือข่ายประสาทแบบซ้ำซึ่งเป็นแบบวนซ้ำ

การเรียนรู้แบบตัวอย่างน้อย

แนวทางแมชชีนเลิร์นนิงที่มักใช้สำหรับการแยกประเภทวัตถุ ซึ่งออกแบบมาเพื่อฝึกตัวแยกประเภทที่มีประสิทธิภาพจากตัวอย่างการฝึกเพียงไม่กี่ตัวอย่าง

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบครั้งเดียวและการเรียนรู้แบบไม่ใช้ตัวอย่าง

Few-Shot Prompting

#language
#generativeAI

พรอมต์ที่มีตัวอย่างมากกว่า 1 รายการ ("2-3" รายการ) ที่แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ควรตอบกลับอย่างไร ตัวอย่างเช่น พรอมต์ที่ยาวต่อไปนี้มีตัวอย่าง 2 รายการที่แสดงวิธีตอบคำถามของโมเดลภาษาขนาดใหญ่

ส่วนต่างๆ ของพรอมต์ 1 รายการ หมายเหตุ
สกุลเงินทางการของประเทศที่ระบุคืออะไร คำถามที่คุณต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR ตัวอย่างหนึ่ง
สหราชอาณาจักร: GBP อีกตัวอย่างหนึ่ง
อินเดีย: คําค้นหาจริง

โดยทั่วไปแล้วพรอมต์แบบไม่กี่ช็อตจะให้ผลลัพธ์ที่ต้องการมากกว่าพรอมต์แบบไม่มีตัวอย่างและพรอมต์แบบตัวอย่างเดียว แต่การพรอมต์แบบไม่กี่คำต้องใช้พรอมต์ที่ยาวกว่า

พรอมต์แบบไม่กี่คำเป็นรูปแบบการเรียนรู้แบบไม่กี่คำที่ใช้กับการเรียนรู้ตามพรอมต์

ดูข้อมูลเพิ่มเติมได้ที่การวิศวกรรมพรอมต์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟิดเดิล

#language

ไลบรารีการกําหนดค่าที่ใช้ Python เป็นภาษาหลัก ซึ่งจะกําหนดค่าของฟังก์ชันและคลาสโดยไม่ต้องใช้โค้ดหรือโครงสร้างพื้นฐานที่แทรกแซง ในกรณีของ Pax และโค้ดเบส ML อื่นๆ ฟังก์ชันและคลาสเหล่านี้แสดงถึงโมเดลและการฝึก ไฮเปอร์พารามิเตอร์

Fiddle จะถือว่าโค้ดเบสแมชชีนเลิร์นนิงมักจะแบ่งออกเป็น 3 ส่วนดังนี้

  • โค้ดไลบรารีซึ่งกําหนดเลเยอร์และเครื่องมือเพิ่มประสิทธิภาพ
  • โค้ด "กาว" ของชุดข้อมูล ซึ่งเรียกใช้ไลบรารีและเชื่อมต่อทุกอย่างเข้าด้วยกัน

Fiddle จะบันทึกโครงสร้างการเรียกของโค้ดกาวในรูปแบบที่ยังไม่ได้ประเมินและเปลี่ยนแปลงได้

การปรับแต่ง

#language
#image
#generativeAI

การฝึกครั้งที่ 2 สำหรับงานเฉพาะที่ดำเนินการกับโมเดลที่ฝึกล่วงหน้าเพื่อปรับแต่งพารามิเตอร์สำหรับกรณีการใช้งานที่เฉพาะเจาะจง ตัวอย่างเช่น ลำดับการฝึกแบบเต็มสำหรับโมเดลภาษาขนาดใหญ่บางรายการมีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลภาษาขนาดใหญ่ด้วยชุดข้อมูลทั่วไปขนาดใหญ่ เช่น หน้า Wikipedia ภาษาอังกฤษทั้งหมด
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกไว้ล่วงหน้าให้ทํางานที่เฉพาะเจาะจง เช่น การตอบคําถามทางการแพทย์ โดยปกติการปรับแต่งแบบละเอียดจะเกี่ยวข้องกับตัวอย่างหลายร้อยหรือหลายพันรายการที่มุ่งเน้นไปที่งานหนึ่งๆ

อีกตัวอย่างหนึ่งคือลําดับการฝึกแบบเต็มสําหรับโมเดลรูปภาพขนาดใหญ่มีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลรูปภาพขนาดใหญ่ในชุดข้อมูลรูปภาพทั่วไปขนาดใหญ่ เช่น รูปภาพทั้งหมดใน Wikimedia Commons
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกไว้ล่วงหน้าให้ทํางานเฉพาะ เช่น สร้างรูปภาพโลมาน้ำจืด

การปรับแต่งอาจใช้กลยุทธ์ต่อไปนี้ร่วมกัน

  • การแก้ไขพารามิเตอร์ที่มีอยู่ทั้งหมดของโมเดลที่ผ่านการฝึกอบรมไว้ล่วงหน้า บางครั้งเรียกว่าการปรับแต่งอย่างละเอียด
  • การแก้ไขพารามิเตอร์ที่มีอยู่บางส่วนของโมเดลที่ผ่านการฝึกอบรมล่วงหน้า (โดยปกติแล้วคือชั้นที่อยู่ใกล้กับชั้นเอาต์พุตมากที่สุด) โดยไม่เปลี่ยนแปลงพารามิเตอร์อื่นๆ ที่มีอยู่ (โดยปกติแล้วคือชั้นที่อยู่ใกล้กับชั้นอินพุตมากที่สุด) ดูการปรับแต่งที่มีประสิทธิภาพในแง่พารามิเตอร์
  • การเพิ่มเลเยอร์ โดยปกติจะวางไว้บนเลเยอร์ที่มีอยู่ซึ่งอยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด

การปรับแต่งเป็นรูปแบบหนึ่งของการเรียนรู้แบบโอน ดังนั้นการปรับแต่งอาจใช้ฟังก์ชันการสูญเสียหรือโมเดลประเภทอื่นที่แตกต่างจากที่ใช้ฝึกโมเดลที่ผ่านการฝึกอบรมไว้ล่วงหน้า เช่น คุณอาจปรับแต่งโมเดลรูปภาพขนาดใหญ่ที่ฝึกไว้ล่วงหน้าเพื่อสร้างโมเดลการถดถอยซึ่งจะแสดงจํานวนนกในรูปภาพอินพุต

เปรียบเทียบการปรับแต่งกับคําต่อไปนี้

ดูข้อมูลเพิ่มเติมได้ที่การปรับแต่งในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เหลืองแฟลกซ์

#language

ไลบรารีโอเพนซอร์สที่มีประสิทธิภาพสูงสําหรับการเรียนรู้เชิงลึกซึ่งสร้างขึ้นจาก JAX Flax มีฟังก์ชันสำหรับการฝึก เครือข่ายประสาทเทียม รวมถึงวิธีการประเมินประสิทธิภาพของเครือข่าย

Flaxformer

#language

ไลบรารี Transformer แบบโอเพนซอร์สที่สร้างขึ้นจาก Flax ซึ่งออกแบบมาเพื่อประมวลผลภาษาธรรมชาติและการวิจัยแบบหลายมิติเป็นหลัก

ลืมประตูรั้ว

#seq

ส่วนหนึ่งของเซลล์ความจำระยะสั้นระยะยาวที่ควบคุมการไหลของข้อมูลผ่านเซลล์ เกต Forget จะรักษาบริบทโดยเลือกข้อมูลที่จะทิ้งจากสถานะของเซลล์

เศษส่วนของความสําเร็จ

#generativeAI
#Metric

เมตริกสําหรับประเมินข้อความที่สร้างขึ้นของโมเดล ML ส่วนที่เป็นความสำเร็จคือจํานวนเอาต์พุตข้อความที่ "สําเร็จ" หารด้วยจํานวนเอาต์พุตข้อความทั้งหมดที่สร้างขึ้น ตัวอย่างเช่น หากโมเดลภาษาขนาดใหญ่สร้างโค้ด 10 บล็อก โดย 5 บล็อกทำงานสำเร็จ เศษส่วนของความสําเร็จจะเท่ากับ 50%

แม้ว่าเศษส่วนของความสําเร็จจะมีประโยชน์อย่างกว้างๆ ในสถิติ แต่ภายใน ML เมตริกนี้มีประโยชน์สําหรับการวัดงานที่ตรวจสอบได้เป็นหลัก เช่น การสร้างโค้ดหรือโจทย์คณิตศาสตร์

Softmax แบบเต็ม

คำพ้องความหมายของ softmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

ดูข้อมูลเพิ่มเติมได้ที่เครือข่ายประสาท: การแยกประเภทหลายคลาสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เลเยอร์แบบ Fully Connected

เลเยอร์ที่ซ่อนอยู่ ซึ่งโหนดแต่ละโหนดจะเชื่อมต่อกับทุกโหนดในเลเยอร์ที่ซ่อนอยู่ลำดับถัดไป

เลเยอร์แบบ Fully Connected เรียกอีกอย่างว่าเลเยอร์แบบหนาแน่น

การเปลี่ยนรูปแบบฟังก์ชัน

ฟังก์ชันที่ใช้ฟังก์ชันเป็นอินพุตและแสดงผลฟังก์ชันที่เปลี่ยนรูปแบบเป็นเอาต์พุต JAX ใช้การเปลี่ยนรูปแบบฟังก์ชัน

G

GAN

ตัวย่อของ Generative Adversarial Network

Gemini

#language
#image
#generativeAI

ระบบนิเวศที่ประกอบด้วย AI ที่ล้ำหน้าที่สุดของ Google องค์ประกอบของระบบนิเวศนี้ได้แก่

  • โมเดล Gemini ต่างๆ
  • อินเทอร์เฟซการสนทนาแบบอินเทอร์แอกทีฟกับโมเดล Gemini ผู้ใช้พิมพ์พรอมต์และ Gemini จะตอบกลับพรอมต์เหล่านั้น
  • Gemini API ต่างๆ
  • ผลิตภัณฑ์ทางธุรกิจต่างๆ ที่อิงตามโมเดล Gemini เช่น Gemini สำหรับ Google Cloud

รูปแบบของ Gemini

#language
#image
#generativeAI

โมเดลมัลติโมดที่อิงตาม Transformer ที่ทันสมัยของ Google โมเดล Gemini ได้รับการออกแบบมาโดยเฉพาะเพื่อผสานรวมกับตัวแทน

ผู้ใช้โต้ตอบกับโมเดล Gemini ได้หลายวิธี เช่น ผ่านอินเทอร์เฟซการสนทนาแบบอินเทอร์แอกทีฟและผ่าน SDK

การทั่วไป

#fundamentals

ความสามารถของโมเดลในการทําการคาดการณ์ที่ถูกต้องเกี่ยวกับข้อมูลใหม่ซึ่งไม่เคยเห็นมาก่อน โมเดลที่ทํานายได้ทั่วไปจะตรงข้ามกับโมเดลที่ปรับให้พอดีมากเกินไป

ดูข้อมูลเพิ่มเติมได้ที่การทั่วไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เส้นโค้งการทั่วไป

#fundamentals

ผังทั้งการลดลงของการฝึกและการลดลงของการตรวจสอบตามจำนวนการทำซ้ำ

เส้นโค้งทั่วไปจะช่วยคุณตรวจหาการประมาณที่มากเกินไปที่อาจเกิดขึ้น ตัวอย่างเช่น เส้นโค้งทั่วไปต่อไปนี้บ่งชี้ว่ามีการจับคู่ที่มากเกินไปเนื่องจากความสูญเสียในการตรวจสอบจะสูงกว่าความสูญเสียในการฝึกอย่างมากในท้ายที่สุด

กราฟคาร์ทีเซียนที่แกน Y มีป้ายกำกับว่า &quot;การสูญเสีย&quot; และแกน X มีป้ายกำกับว่า &quot;การทำซ้ำ&quot; ผัง 2 รายการจะปรากฏขึ้น ผังหนึ่งแสดงการสูญเสียในการฝึกอบรมและอีกผังหนึ่งแสดงการสูญเสียในการทดสอบ
          แผนภูมิ 2 แผนภูมินี้เริ่มต้นในลักษณะคล้ายกัน แต่ในที่สุดแล้ว Loss ของการฝึกก็ลดลงต่ำกว่า Loss ของการตรวจสอบ

ดูข้อมูลเพิ่มเติมได้ที่การทั่วไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

รูปแบบเชิงเส้นทั่วไป

การทั่วไปของการถดถอยด้วยค่าสัมบูรณ์น้อยที่สุด โมเดล ซึ่งอิงตามสัญญาณรบกวนแบบกaussian ไปยังรูปแบบอื่นๆ ของโมเดลที่อิงตามสัญญาณรบกวนประเภทอื่นๆ เช่น สัญญาณรบกวนแบบ Poisson หรือสัญญาณรบกวนเชิงหมวดหมู่ ตัวอย่างของโมเดลเชิงเส้นทั่วไป ได้แก่

พารามิเตอร์ของโมเดลเชิงเส้นทั่วไปจะพบได้ผ่านการเพิ่มประสิทธิภาพแบบโคเวกซ์

โมเดลเชิงเส้นทั่วไปมีคุณสมบัติดังต่อไปนี้

  • การคาดการณ์ค่าเฉลี่ยของโมเดลการถดถอยแบบกำลังสองน้อยที่สุดที่ดีที่สุดจะเท่ากับป้ายกำกับค่าเฉลี่ยในข้อมูลการฝึก
  • ความน่าจะเป็นโดยเฉลี่ยที่โมเดลการถดถอยเชิงโลจิสติกแบบเพิ่มประสิทธิภาพสูงสุดคาดการณ์ได้เท่ากับป้ายกำกับโดยเฉลี่ยในข้อมูลการฝึก

ประสิทธิภาพของโมเดลเชิงเส้นทั่วไปถูกจํากัดด้วยฟีเจอร์ โมเดลเชิงเส้นทั่วไปไม่สามารถ "เรียนรู้ฟีเจอร์ใหม่" ได้ ต่างจากโมเดลเชิงลึก

ข้อความที่สร้างขึ้น

#language
#generativeAI

โดยทั่วไปคือข้อความที่โมเดล ML แสดงผล เมื่อประเมินโมเดลภาษาขนาดใหญ่ เมตริกบางรายการจะเปรียบเทียบข้อความที่สร้างขึ้นกับข้อความอ้างอิง ตัวอย่างเช่น สมมติว่าคุณพยายามประเมินประสิทธิภาพการแปลจากภาษาฝรั่งเศสเป็นภาษาดัตช์ของโมเดล ML ในกรณีนี้

  • ข้อความที่สร้างขึ้นคือคำแปลภาษาดัตช์ที่โมเดล ML แสดงผล
  • ข้อความอ้างอิงคือคำแปลภาษาดัตช์ที่นักแปล (หรือซอฟต์แวร์) สร้างขึ้น

โปรดทราบว่ากลยุทธ์การประเมินบางกลยุทธ์ไม่มีข้อความอ้างอิง

เครือข่าย Generative Adversarial (GAN)

ระบบสร้างข้อมูลใหม่ซึ่งตัวสร้างจะสร้างข้อมูล และตัวแยกจะระบุว่าข้อมูลที่สร้างขึ้นนั้นถูกต้องหรือไม่

ดูข้อมูลเพิ่มเติมในหลักสูตร Generative Adversarial Networks

Generative AI

#language
#image
#generativeAI

ช่องการเปลี่ยนแปลงที่เกิดขึ้นใหม่ซึ่งไม่มีคำจำกัดความอย่างเป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่ยอมรับว่าโมเดล Generative AI สามารถสร้าง ("สร้าง") เนื้อหาที่มีลักษณะต่อไปนี้

  • ซับซ้อน
  • สอดคล้องกัน
  • เดิม

เช่น โมเดล Generative AI สามารถสร้างเรียงความหรือรูปภาพที่ซับซ้อน

เทคโนโลยีรุ่นก่อนหน้าบางรายการ เช่น LSTM และ RNN สามารถสร้างเนื้อหาต้นฉบับที่สอดคล้องกันได้ด้วย ผู้เชี่ยวชาญบางรายมองว่าเทคโนโลยียุคแรกๆ เหล่านี้เป็น Generative AI ขณะที่ผู้เชี่ยวชาญอีกกลุ่มหนึ่งเชื่อว่า Generative AI ที่แท้จริงต้องสร้างเอาต์พุตที่ซับซ้อนกว่าเทคโนโลยียุคแรกๆ เหล่านั้น

ตรงข้ามกับ ML เชิงคาดการณ์

โมเดล Generative

ในทางปฏิบัติ โมเดลที่มีลักษณะอย่างใดอย่างหนึ่งต่อไปนี้

  • สร้าง (สร้าง) ตัวอย่างใหม่จากชุดข้อมูลการฝึก เช่น โมเดล Generative อาจสร้างบทกวีได้หลังจากฝึกกับชุดข้อมูลบทกวี Generator เป็นส่วนหนึ่งของGenerative Adversarial Network ซึ่งจัดอยู่ในหมวดหมู่นี้
  • พิจารณาความน่าจะเป็นว่าตัวอย่างใหม่มาจากชุดฝึกหรือสร้างขึ้นจากกลไกเดียวกับที่สร้างชุดฝึก ตัวอย่างเช่น หลังจากฝึกชุดข้อมูลที่มีประโยคภาษาอังกฤษ โมเดล Generative จะระบุความน่าจะเป็นที่อินพุตใหม่จะเป็นประโยคภาษาอังกฤษที่ถูกต้องได้

ในทางทฤษฎีแล้ว โมเดล Generative สามารถแยกแยะการแจกแจงตัวอย่างหรือฟีเจอร์ที่เฉพาะเจาะจงในชุดข้อมูลได้ โดยการ

p(examples)

โมเดลการเรียนรู้แบบไม่ควบคุมดูแลเป็นแบบ Generative

ตรงข้ามกับโมเดลที่เลือกสรร

โปรแกรมสร้างแผนผังไซต์

ระบบย่อยภายในเครือข่าย Generative Adversarial ที่สร้างตัวอย่างใหม่

ตรงข้ามกับรูปแบบการระบุแหล่งที่มาแบบเจาะจง

ความไม่บริสุทธิ์ของจีนี

#df
#Metric

เมตริกที่คล้ายกับเอนโทรปี ตัวแยกใช้ค่าที่มาจากความไม่บริสุทธิ์ของ Gini หรือเอนโทรปีเพื่อสร้างเงื่อนไขสําหรับการจัดประเภทต้นไม้การตัดสินใจ การได้ข้อมูลมาจากเอนโทรปี ไม่มีคําที่เทียบเท่าซึ่งยอมรับกันทั่วโลกสําหรับเมตริกที่มาจากความไม่บริสุทธิ์ของ Gini แต่เมตริกที่ไม่มีชื่อนี้สําคัญพอๆ กับข้อมูลที่ได้รับ

ความไม่เป็นระเบียบของจีนีเรียกอีกอย่างว่าดัชนีจีนี หรือเรียกสั้นๆ ว่าจีนี

ชุดข้อมูลโกลเด้น

ชุดข้อมูลที่ดูแลจัดการด้วยตนเองซึ่งบันทึกข้อมูลจริง ทีมสามารถใช้ชุดข้อมูลโกลด์อย่างน้อย 1 ชุดเพื่อประเมินคุณภาพของโมเดล

ชุดข้อมูลโกลด์บางชุดจะจับภาพโดเมนย่อยที่แตกต่างกันของข้อมูลจริง เช่น ข้อมูลชุดทองสำหรับการแยกประเภทรูปภาพอาจบันทึกสภาพแสงและความละเอียดของรูปภาพ

คำตอบที่ยอดเยี่ยม

#language
#generativeAI

คำตอบที่ทราบว่าดี ตัวอย่างเช่น เมื่อมีพรอมต์ต่อไปนี้

2 + 2

คำตอบที่เหมาะที่สุดคือ

4

GPT (Generative Pre-trained Transformer)

#language

ตระกูลโมเดลภาษาขนาดใหญ่ที่อิงตาม Transformer ซึ่งพัฒนาโดย OpenAI

ตัวแปร GPT สามารถใช้กับรูปแบบได้หลายรูปแบบ ได้แก่

  • การสร้างรูปภาพ (เช่น ImageGPT)
  • การสร้างรูปภาพจากข้อความ (เช่น DALL-E)

ไล่ระดับ

เวกเตอร์ของอนุพันธ์บางส่วนเทียบกับตัวแปรอิสระทั้งหมด ในแมชชีนเลิร์นนิง อนุพันธ์เชิงกรเดียนคือเวกเตอร์ของอนุพันธ์ย่อยของฟังก์ชันโมเดล เส้นลาดจะชี้ไปในทิศทางของการขึ้นที่ชันที่สุด

การสะสมของเส้นลาด

เทคนิคBackpropagation ที่อัปเดตพารามิเตอร์เพียงครั้งเดียวต่อยุคแทนที่จะอัปเดตครั้งเดียวต่อการวนซ้ำ หลังจากประมวลผลมินิแบตช์แต่ละรายการแล้ว การสะสมของอนุพันธ์จะอัปเดตยอดรวมของอนุพันธ์ จากนั้นหลังจากประมวลผลมินิแบทช์สุดท้ายในยุคแล้ว ระบบจะอัปเดตพารามิเตอร์ตามการเปลี่ยนแปลงของ Gradient ทั้งหมด

การสะสม Gradient จะมีประโยชน์เมื่อขนาดกลุ่มมีขนาดใหญ่มากเมื่อเทียบกับปริมาณหน่วยความจําที่ใช้ได้สําหรับการฝึก เมื่อหน่วยความจําเป็นปัญหา แนวโน้มโดยปกติคือการลดขนาดกลุ่ม อย่างไรก็ตาม การลดขนาดกลุ่มใน Backpropagation ปกติจะเพิ่มจำนวนการอัปเดตพารามิเตอร์ การสะสม Gradient ช่วยให้โมเดลหลีกเลี่ยงปัญหาเกี่ยวกับหน่วยความจําได้ แต่ก็ยังคงฝึกได้อย่างมีประสิทธิภาพ

ต้นไม้ (การตัดสินใจ) ที่เพิ่มประสิทธิภาพด้วย Gradient (GBT)

#df

ป่าการตัดสินใจประเภทหนึ่งซึ่งมีลักษณะดังนี้

ดูข้อมูลเพิ่มเติมเกี่ยวกับต้นไม้การตัดสินใจที่มีการเพิ่มประสิทธิภาพด้วย Gradient ในหลักสูตรป่าการตัดสินใจ

การบูสต์ด้วย Gradient

#df

อัลกอริทึมการฝึกที่ฝึกโมเดลที่มีประสิทธิภาพต่ำเพื่อปรับปรุงคุณภาพ (ลดการสูญเสีย) ของโมเดลที่มีประสิทธิภาพสูงซ้ำๆ เช่น รูปแบบที่มีประสิทธิภาพต่ำอาจเป็นรูปแบบต้นไม้การตัดสินใจเชิงเส้นหรือขนาดเล็ก โมเดลที่มีประสิทธิภาพจะกลายเป็นผลรวมของโมเดลที่มีประสิทธิภาพต่ำทั้งหมดที่เคยฝึกไว้ก่อนหน้านี้

ในรูปแบบที่ง่ายที่สุดของการเพิ่มประสิทธิภาพด้วย Gradient Boosting แต่ละรอบจะมีการฝึกโมเดลที่มีประสิทธิภาพต่ำให้คาดการณ์ Gradient ของการสูญเสียของโมเดลที่มีประสิทธิภาพสูง จากนั้นระบบจะอัปเดตเอาต์พุตของโมเดลที่มีประสิทธิภาพสูงโดยการลบอนุพันธ์ที่คาดการณ์ไว้ ซึ่งคล้ายกับการลดอนุพันธ์

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

where:

  • $F_{0}$ คือโมเดลเริ่มต้นที่มีประสิทธิภาพ
  • $F_{i+1}$ คือโมเดลที่มีประสิทธิภาพสูงสุดถัดไป
  • $F_{i}$ คือโมเดลที่มีประสิทธิภาพในปัจจุบัน
  • $\xi$ คือค่าระหว่าง 0.0 ถึง 1.0 ที่เรียกว่าการหดตัว ซึ่งคล้ายกับอัตราการเรียนรู้ในการลดค่าของลาด
  • $f_{i}$ คือโมเดลที่มีประสิทธิภาพต่ำซึ่งได้รับการฝึกให้คาดการณ์อนุพันธ์ของ Loss ของ $F_{i}$

รูปแบบสมัยใหม่ของการเพิ่มประสิทธิภาพด้วย Gradient Boosting ยังรวมอนุพันธ์ที่ 2 (Hessian) ของการสูญเสียไว้ในการคำนวณด้วย

แผนผังการตัดสินใจมักใช้เป็นโมเดลที่มีประสิทธิภาพต่ำใน Gradient Boosting ดูต้นไม้ (การตัดสินใจ) ที่เพิ่มประสิทธิภาพด้วย Gradient

การตัดเฉือนการไล่ระดับสี

#seq

กลไกที่ใช้กันโดยทั่วไปเพื่อบรรเทาปัญหาการเพิ่มขึ้นของ Gradient คือการจำกัด (การตัด) ค่าสูงสุดของ Gradient โดยใช้การลด Gradient เพื่อฝึกโมเดล

การลดค่าของ Gradient

#fundamentals

เทคนิคทางคณิตศาสตร์เพื่อลดการสูญเสีย วิธีการลดเชิงลาดจะปรับน้ำหนักและค่ากําหนดล่วงหน้าซ้ำๆ เพื่อค้นหาการผสมผสานที่ดีที่สุดเพื่อลดการสูญเสีย

การลดเชิงลาดมีอายุเก่ากว่าแมชชีนเลิร์นนิงมาก

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: การลดลงของลาดในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

กราฟ

#TensorFlow

ใน TensorFlow ข้อมูลจำเพาะการประมวลผล โหนดในกราฟแสดงถึงการดำเนินการ ขอบมีทิศทางและแสดงการนําส่งผลลัพธ์ของการดำเนินการ (Tensor) ไปยังการดำเนินการอื่น ใช้ TensorBoard เพื่อแสดงภาพกราฟ

การดำเนินการของกราฟ

#TensorFlow

สภาพแวดล้อมการเขียนโปรแกรม TensorFlow ที่โปรแกรมจะสร้างกราฟก่อน จากนั้นจึงเรียกใช้กราฟทั้งหมดหรือบางส่วน การดำเนินการของกราฟคือโหมดการดำเนินการเริ่มต้นใน TensorFlow 1.x

ตรงข้ามกับการดำเนินการแบบรอดำเนินการ

นโยบายการแสวงหาประโยชน์

#rl

ในการเรียนรู้ด้วยการทำซ้ำ นโยบายที่เลือกการดำเนินการที่มีผลตอบแทนที่คาดไว้สูงสุดเสมอ

การมีพื้นฐาน

พร็อพเพอร์ตี้ของโมเดลที่เอาต์พุตอิงตาม (คือ "อิงตาม") เนื้อหาต้นทางที่เฉพาะเจาะจง ตัวอย่างเช่น สมมติว่าคุณป้อนตำราฟิสิกส์ทั้งเล่มเป็นอินพุต ("บริบท") ให้กับโมเดลภาษาขนาดใหญ่ จากนั้นคุณป้อนคำถามฟิสิกส์ให้โมเดลภาษาขนาดใหญ่ หากคำตอบของโมเดลแสดงถึงข้อมูลในตำราเรียนนั้น แสดงว่าโมเดลนั้นอิงตามตำราเรียนนั้น

โปรดทราบว่าโมเดลที่อิงตามหลักฐานไม่ใช่โมเดลที่เป็นข้อเท็จจริงเสมอไป เช่น ตำราฟิสิกส์ที่ส่งมาอาจมีข้อผิดพลาด

ข้อมูลจากการสังเกตการณ์โดยตรง

#fundamentals

ความจริง

สิ่งที่เกิดขึ้นจริง

ตัวอย่างเช่น ลองพิจารณาโมเดลการจัดประเภทแบบ 2 กลุ่มที่คาดการณ์ว่านักเรียนปีแรกของมหาวิทยาลัยจะสำเร็จการศึกษาภายใน 6 ปีหรือไม่ ข้อมูลจากการสังเกตการณ์โดยตรงสําหรับโมเดลนี้คือนักเรียนคนนั้นจบการศึกษาภายใน 6 ปีจริงหรือไม่

อคติในการระบุแหล่งที่มาของกลุ่ม

#fairness

สมมติว่าสิ่งที่เป็นจริงสำหรับบุคคลหนึ่งเป็นจริงสำหรับทุกคนในกลุ่มนั้นด้วย ผลกระทบของอคติการระบุแหล่งที่มาของกลุ่มอาจรุนแรงขึ้นหากใช้การสุ่มตัวอย่างตามความสะดวกในการรวบรวมข้อมูล ในตัวอย่างที่ไม่เป็นไปตามสัดส่วน อาจมีการระบุแหล่งที่มาที่ไม่ตรงกับความเป็นจริง

ดูอคติความเหมือนกันของกลุ่มนอกและอคติของกลุ่มในด้วย นอกจากนี้ โปรดดูข้อมูลเพิ่มเติมจากหัวข้อความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

H

อาการหลอน

#language

การสร้างเอาต์พุตที่ดูน่าเชื่อถือแต่ข้อเท็จจริงไม่ถูกต้องโดยโมเดล Generative AI ที่อ้างว่ากำลังกล่าวอ้างเกี่ยวกับโลกแห่งความเป็นจริง เช่น โมเดล Generative AI ที่อ้างว่า Barack Obama เสียชีวิตในปี 1865 เป็นการหลอน

การแฮช

ในแมชชีนเลิร์นนิง กลไกการจัดกลุ่มข้อมูลเชิงหมวดหมู่ โดยเฉพาะอย่างยิ่งเมื่อจํานวนหมวดหมู่มีมาก แต่จํานวนหมวดหมู่ที่ปรากฏในชุดข้อมูลมีน้อย

ตัวอย่างเช่น โลกเป็นที่อยู่อาศัยของต้นไม้ประมาณ 73,000 สายพันธุ์ คุณอาจแสดงสายพันธุ์ต้นไม้แต่ละสายพันธุ์ 73,000 สายพันธุ์ในที่เก็บข้อมูลเชิงหมวดหมู่แยกกัน 73,000 รายการ หรือหากมีเพียง 200 สายพันธุ์ของต้นไม้ที่ปรากฏในชุดข้อมูล คุณอาจใช้การแฮชเพื่อแบ่งสายพันธุ์ต้นไม้ออกเป็นที่เก็บข้อมูลประมาณ 500 รายการ

ถังเดียวอาจมีต้นไม้หลายสายพันธุ์ เช่น การแฮชอาจจัดให้ต้นบาโอบาบและต้นเมเปิลสีแดง ซึ่งเป็น 2 สายพันธุ์ที่แตกต่างกันทางพันธุกรรมไว้ในที่เก็บข้อมูลเดียวกัน อย่างไรก็ตาม แฮชยังคงเป็นวิธีที่ยอดเยี่ยมในการแมปชุดหมวดหมู่ขนาดใหญ่ลงในที่เก็บข้อมูลจํานวนหนึ่งที่เลือก การแฮชจะเปลี่ยนฟีเจอร์เชิงหมวดหมู่ซึ่งมีค่าที่เป็นไปได้จํานวนมากให้มีค่าจํานวนน้อยลงมากโดยการจัดกลุ่มค่าในลักษณะที่แน่นอน

ดูข้อมูลเพิ่มเติมในข้อมูลเชิงหมวดหมู่: พจนานุกรมและการเข้ารหัสแบบฮอตเวิร์กในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การคาดคะเน

โซลูชันที่ใช้งานง่ายและรวดเร็วในการแก้ปัญหา เช่น "เรามีความแม่นยำ 86% เมื่อใช้วิธีการเฮิวริสติก เมื่อเปลี่ยนไปใช้เครือข่ายประสาทเทียม ความแม่นยำก็เพิ่มขึ้นเป็น 98%"

เลเยอร์ที่ซ่อนอยู่

#fundamentals

เลเยอร์ในเครือข่ายประสาทเทียมระหว่างเลเยอร์อินพุต (ฟีเจอร์) กับเลเยอร์เอาต์พุต (การคาดการณ์) แต่ละชั้นที่ซ่อนอยู่ประกอบด้วยเซลล์ประสาทอย่างน้อย 1 เซลล์ ตัวอย่างเช่น เครือข่ายประสาทต่อไปนี้มีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ โดยเลเยอร์แรกมีเซลล์ประสาท 3 เซลล์ และเลเยอร์ที่ 2 มีเซลล์ประสาท 2 เซลล์

4 เลเยอร์ เลเยอร์แรกคือเลเยอร์อินพุตที่มีองค์ประกอบ 2 รายการ เลเยอร์ที่ 2 เป็นเลเยอร์ที่ซ่อนอยู่ซึ่งมีนิวรอน 3 ตัว ชั้นที่ 3 เป็นชั้นที่ซ่อนอยู่ซึ่งมีเซลล์ประสาท 2 เซลล์ เลเยอร์ที่ 4 คือเลเยอร์เอาต์พุต แต่ละองค์ประกอบมีขอบ 3 เส้น ซึ่งแต่ละเส้นจะชี้ไปยังเซลล์ประสาทที่แตกต่างกันในชั้นที่ 2 เซลล์ประสาทแต่ละเซลล์ในชั้นที่ 2 จะมีขอบ 2 เส้น โดยแต่ละเส้นจะชี้ไปยังเซลล์ประสาทอื่นในชั้นที่ 3 เซลล์ประสาทแต่ละเซลล์ในชั้นที่ 3 จะมีขอบ 1 เส้น ซึ่งแต่ละเส้นจะชี้ไปยังชั้นเอาต์พุต

โครงข่ายประสาทแบบลึกมีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 เลเยอร์ ตัวอย่างเช่น ภาพด้านบนคือเครือข่ายประสาทเทียม (Deep Neural Network) เนื่องจากโมเดลมีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์

ดูข้อมูลเพิ่มเติมได้ที่โครงข่ายประสาท: โหนดและเลเยอร์ที่ซ่อนอยู่ในบทแนะนำสั้นๆ เกี่ยวกับแมชชีนเลิร์นนิง

การจัดกลุ่มตามลําดับชั้น

#clustering

หมวดหมู่อัลกอริทึมการจัดกลุ่มที่สร้างลําดับชั้นของคลัสเตอร์ การจัดกลุ่มตามลําดับชั้นเหมาะสําหรับข้อมูลลําดับชั้น เช่น การจัดหมวดหมู่ทางพฤกษศาสตร์ อัลกอริทึมการจัดกลุ่มตามลําดับชั้นมี 2 ประเภท ได้แก่

  • การคลัสเตอร์แบบรวมกลุ่มจะกำหนดตัวอย่างทั้งหมดไปยังคลัสเตอร์ของตัวเองก่อน จากนั้นจะผสานคลัสเตอร์ที่ใกล้เคียงที่สุดซ้ำๆ เพื่อสร้างต้นไม้ตามลําดับชั้น
  • คลัสเตอร์แบบแยกจะจัดกลุ่มตัวอย่างทั้งหมดเป็นคลัสเตอร์เดียวก่อน จากนั้นจึงแบ่งคลัสเตอร์ออกเป็นต้นไม้ตามลําดับชั้นซ้ำๆ

ตรงข้ามกับการจัดกลุ่มตามจุดศูนย์กลางมวล

ดูข้อมูลเพิ่มเติมเกี่ยวกับอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม

การปีนเขา

อัลกอริทึมสำหรับการปรับปรุงแบบซ้ำ ("การเดินขึ้นเนิน") โมเดล ML จนกว่าโมเดลจะหยุดปรับปรุง ("ถึงยอดเนิน") รูปแบบทั่วไปของอัลกอริทึมมีดังนี้

  1. สร้างโมเดลเริ่มต้น
  2. สร้างโมเดลผู้สมัครใหม่โดยปรับเปลี่ยนวิธีการฝึกหรือปรับแต่งเล็กน้อย ซึ่งอาจเกี่ยวข้องกับชุดข้อมูลการฝึกหรือไฮเปอร์พารามิเตอร์ที่ต่างกันเล็กน้อย
  3. ประเมินรูปแบบผู้สมัครใหม่ แล้วดําเนินการอย่างใดอย่างหนึ่งต่อไปนี้
    • หากโมเดลที่คาดหวังมีประสิทธิภาพดีกว่าโมเดลเริ่มต้น โมเดลที่คาดหวังนั้นจะกลายเป็นโมเดลเริ่มต้นใหม่ ในกรณีนี้ ให้ทำขั้นตอนที่ 1, 2 และ 3 ซ้ำ
    • หากไม่มีโมเดลใดมีประสิทธิภาพดีกว่าโมเดลเริ่มต้น แสดงว่าคุณถึงจุดสูงสุดแล้วและควรหยุดทำซ้ำ

ดูคำแนะนำเกี่ยวกับการปรับแต่งไฮเปอร์พารามิเตอร์ได้ที่คู่มือการปรับแต่งการเรียนรู้เชิงลึก ดูคำแนะนำเกี่ยวกับการสร้างฟีเจอร์ได้ที่ข้อบังคับของข้อมูลในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

บานพับขาด

#Metric

ตระกูลฟังก์ชันการสูญเสียสําหรับการจัดประเภทที่ออกแบบมาเพื่อค้นหาขอบเขตการตัดสินให้อยู่ห่างจากตัวอย่างการฝึกแต่ละรายการมากที่สุด ด้วยเหตุนี้จึงเพิ่มระยะห่างระหว่างตัวอย่างกับขอบเขตให้มากที่สุด KSVM ใช้การสูญเสียแบบ hinge (หรือฟังก์ชันที่เกี่ยวข้อง เช่น การสูญเสียแบบ hinge ยกกำลัง 2) สําหรับการจัดประเภทแบบไบนารี ฟังก์ชันการสูญเสียแบบ hinge จะกําหนดดังนี้

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

โดยที่ y คือป้ายกำกับจริง ซึ่งอาจเป็น -1 หรือ +1 และ y' คือเอาต์พุตดิบของโมเดลการจัดประเภท

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ดังนั้น ผังความสูญเสียของ hinge เทียบกับ (y * y') จะมีลักษณะดังนี้

ผังพิกัดคาร์ทีเซียนซึ่งประกอบด้วยส่วนของเส้น 2 เส้นที่เชื่อมต่อกัน ส่วนของเส้นแรกเริ่มต้นที่ (-3, 4) และสิ้นสุดที่ (1, 0) ส่วนเส้นที่ 2 เริ่มต้นที่ (1, 0) และต่อเนื่องไปอย่างไม่มีที่สิ้นสุดด้วยความชัน 0

อคติจากข้อมูลที่ผ่านมา

#fairness

อคติประเภทหนึ่งที่พบได้ในโลกและได้เข้ามาอยู่ในชุดข้อมูล ความลำเอียงเหล่านี้มีแนวโน้มที่จะแสดงภาพเหมารวมทางวัฒนธรรมที่มีอยู่ ความไม่เท่าเทียมทางข้อมูลประชากร และอคติต่อกลุ่มทางสังคมบางกลุ่ม

ตัวอย่างเช่น พิจารณาโมเดลการจัดประเภทที่คาดการณ์ว่าผู้สมัครสินเชื่อจะผิดนัดชำระหนี้หรือไม่ ซึ่งได้รับการฝึกจากข้อมูลการผิดนัดชำระหนี้สินเชื่อย้อนหลังในช่วงปี 1980 จากธนาคารท้องถิ่นในชุมชน 2 แห่ง หากผู้สมัครที่ผ่านมาจากชุมชน ก มีแนวโน้มที่จะผิดนัดชำระหนี้มากกว่าผู้สมัครจากชุมชน ข 6 เท่า โมเดลอาจเรียนรู้อคติที่ผ่านมาซึ่งส่งผลให้โมเดลมีแนวโน้มที่จะอนุมัติสินเชื่อในชุมชน ก น้อยลง แม้ว่าเงื่อนไขที่ผ่านมาซึ่งส่งผลให้ชุมชนดังกล่าวมีอัตราหนี้เสียสูงกว่าจะไม่มีความเกี่ยวข้องอีกต่อไป

ดูข้อมูลเพิ่มเติมได้ในความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ข้อมูลกลุ่มควบคุม

ตัวอย่างที่ไม่ได้ตั้งใจนำมาใช้ ("เก็บไว้") ในระหว่างการฝึก ชุดข้อมูลที่ใช้ตรวจสอบและชุดข้อมูลทดสอบเป็นตัวอย่างของข้อมูลทดสอบ ข้อมูลทดสอบช่วยประเมินความสามารถของโมเดลในการทํานายข้อมูลอื่นๆ นอกเหนือจากข้อมูลที่ใช้ในการฝึก ค่าการสูญเสียในชุดทดสอบจะให้ค่าประมาณการสูญเสียในชุดข้อมูลที่ไม่เคยเห็นได้ดีกว่าค่าการสูญเสียในชุดฝึก

ผู้จัด

#TensorFlow
#GoogleCloud

เมื่อฝึกโมเดล ML ในชิปเร่งความเร็ว (GPU หรือ TPU) ส่วนของระบบที่ควบคุมทั้ง 2 รายการต่อไปนี้

  • ขั้นตอนโดยรวมของโค้ด
  • การสกัดและการเปลี่ยนรูปแบบไปป์ไลน์อินพุต

โดยปกติแล้ว โฮสต์จะทำงานบน CPU ไม่ใช่ชิปเร่งความเร็ว ส่วนอุปกรณ์จะจัดการเทนเซอร์ในชิปเร่งความเร็ว

การประเมินโดยเจ้าหน้าที่

#language
#generativeAI

กระบวนการที่ผู้คนตัดสินคุณภาพของเอาต์พุตของโมเดล ML เช่น การให้ผู้ที่พูดได้ 2 ภาษาตัดสินคุณภาพของโมเดลการแปลด้วย ML การประเมินโดยเจ้าหน้าที่มีประโยชน์อย่างยิ่งในการพิจารณาโมเดลที่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว

ตรงข้ามกับการประเมินอัตโนมัติ และการประเมินโดยเครื่องมือประเมินอัตโนมัติ

มนุษย์ในวงรอบ (HITL)

#generativeAI

สำนวนที่มีคำจำกัดความแบบหลวมๆ ซึ่งอาจหมายถึงอย่างใดอย่างหนึ่งต่อไปนี้

  • นโยบายในการดูเอาต์พุตของ Generative AI อย่างมีวิจารณญาณหรือสงสัย ตัวอย่างเช่น มนุษย์ที่เขียนอภิธานศัพท์ ML นี้ต่างก็ทึ่งกับสิ่งที่โมเดลภาษาขนาดใหญ่สามารถทำได้ แต่ก็ตระหนักถึงข้อผิดพลาดที่โมเดลภาษาขนาดใหญ่อาจทำ
  • กลยุทธ์หรือระบบที่ช่วยให้ผู้ใช้ช่วยกำหนด ประเมิน และปรับแต่งลักษณะการทํางานของโมเดล การทำให้มนุษย์ทราบข้อมูลอยู่เสมอจะช่วยให้ AI ได้รับประโยชน์จากทั้งปัญญาประดิษฐ์และปัญญาของมนุษย์ ตัวอย่างเช่น ระบบที่ AI สร้างขึ้นโค้ดซึ่งวิศวกรซอฟต์แวร์จะตรวจสอบเป็นระบบที่มีมนุษย์เข้ามาเกี่ยวข้อง

ไฮเปอร์พารามิเตอร์

#fundamentals

ตัวแปรที่คุณหรือบริการการปรับแต่งไฮเปอร์พารามิเตอร์ ปรับในระหว่างการเรียกใช้การฝึกโมเดลอย่างต่อเนื่อง ตัวอย่างเช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์ คุณสามารถตั้งค่าอัตราการเรียนรู้เป็น 0.01 ก่อนเซสชันการฝึกอบรม 1 รายการ หากพิจารณาแล้วว่า 0.01 สูงเกินไป คุณอาจตั้งอัตราการเรียนรู้เป็น 0.003 สำหรับเซสชันการฝึกอบรมถัดไป

ในทางตรงกันข้าม พารามิเตอร์คือน้ำหนักและค่ากําหนดต่างๆ ที่โมเดลเรียนรู้ระหว่างการฝึก

ดูข้อมูลเพิ่มเติมได้ที่การหาค่าสัมประสิทธ์เชิงเส้น: ตัวแปรพหุนามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ไฮเปอร์เพลน

ขอบเขตที่แบ่งพื้นที่ออกเป็น 2 พื้นที่ย่อย เช่น เส้นเป็นไฮเปอร์ระนาบใน 2 มิติ และระนาบเป็นไฮเปอร์ระนาบใน 3 มิติ ในแมชชีนเลิร์นนิง โดยทั่วไปแล้ว ฮิปเพอร์เพลนคือขอบเขตที่แยกพื้นที่สูงมิติ Kernel Support Vector Machine ใช้ Hyperplane เพื่อแยกคลาสเชิงบวกออกจากคลาสเชิงลบ ซึ่งมักจะอยู่ในพื้นที่มิติสูง

I

i.i.d.

ตัวย่อของการแจกแจงแบบอิสระและเหมือนกัน

การรู้จำรูปภาพ

#image

กระบวนการจัดประเภทวัตถุ รูปแบบ หรือแนวคิดในรูปภาพ การจดจํารูปภาพเรียกอีกอย่างว่าการจัดประเภทรูปภาพ

ดูข้อมูลเพิ่มเติมได้ที่การฝึกปฏิบัติ ML: การแยกประเภทรูปภาพ

ดูข้อมูลเพิ่มเติมได้ที่หลักสูตร ML Practicum: การแยกประเภทรูปภาพ

ชุดข้อมูลที่ไม่สมดุล

คำพ้องความหมายของชุดข้อมูลที่มีกลุ่มไม่สมดุล

อคติโดยไม่รู้ตัว

#fairness

การเชื่อมโยงหรือคาดเดาโดยอัตโนมัติตามรูปแบบและความทรงจำในใจ อคติที่ไม่ตั้งใจอาจส่งผลต่อสิ่งต่อไปนี้

  • วิธีเก็บรวบรวมและจัดประเภทข้อมูล
  • การออกแบบและการพัฒนาระบบแมชชีนเลิร์นนิง

เช่น เมื่อสร้างตัวแยกประเภทเพื่อระบุรูปภาพงานแต่งงาน วิศวกรอาจใช้ชุดสีขาวในรูปภาพเป็นฟีเจอร์ อย่างไรก็ตาม ชุดแต่งงานสีขาวเป็นธรรมเนียมเฉพาะในบางยุคและบางวัฒนธรรมเท่านั้น

โปรดดูอคติยืนยันความคิดตัวเองด้วย

การระบุ

รูปแบบย่อของการประมาณค่า

ความไม่เข้ากันได้ของเมตริกความยุติธรรม

#fairness
#Metric

แนวคิดที่ว่าแนวคิดบางอย่างเกี่ยวกับความยุติธรรมนั้นใช้ร่วมกันไม่ได้และไม่สามารถบรรลุพร้อมกัน ด้วยเหตุนี้ จึงไม่มีเมตริกที่เป็นสากลเพียงเมตริกเดียวสำหรับวัดความเป็นธรรมซึ่งใช้ได้กับปัญหา ML ทั้งหมด

แม้ว่าเรื่องนี้อาจฟังดูท้อแท้ แต่การที่เมตริกความยุติธรรมใช้ร่วมกันไม่ได้ไม่ได้หมายความว่าความพยายามด้านความยุติธรรมจะไร้ผล แต่แนะนําว่าต้องกําหนดความยุติธรรมตามบริบทสําหรับปัญหา ML หนึ่งๆ โดยมีเป้าหมายเพื่อป้องกันอันตรายที่เฉพาะเจาะจงสําหรับ Use Case นั้นๆ

ดูการพูดคุยเรื่องความเข้ากันไม่ได้ของเมตริกความเป็นธรรมอย่างละเอียดได้ที่"On the (im)possibility of fairness"

การเรียนรู้ในบริบท

#language
#generativeAI

คำพ้องความหมายของ Few-Shot Prompting

กระจายอย่างอิสระและเหมือนกัน (i.i.d)

#fundamentals

ข้อมูลที่ดึงมาจากการแจกแจงที่ไม่เปลี่ยนแปลง และค่าแต่ละค่าที่ดึงมานั้นไม่ขึ้นอยู่กับค่าที่ดึงมาก่อนหน้านี้ ข้อมูลอิสระเป็นก๊าซอุดมคติของการเรียนรู้ของเครื่อง ซึ่งเป็นโครงสร้างทางคณิตศาสตร์ที่มีประโยชน์แต่แทบจะไม่พบในชีวิตจริง เช่น การแจกแจงผู้เข้าชมหน้าเว็บอาจเป็นแบบ i.i.d. ในช่วงเวลาสั้นๆ กล่าวคือ การแจกแจงไม่เปลี่ยนแปลงในช่วงเวลาสั้นๆ นั้น และโดยทั่วไปการเข้าชมของบุคคลหนึ่งจะไม่เกี่ยวข้องกับการเข้าชมของอีกคนหนึ่ง อย่างไรก็ตาม หากคุณขยายกรอบเวลาดังกล่าว ความแตกต่างตามฤดูกาลของผู้เข้าชมหน้าเว็บอาจปรากฏขึ้น

โปรดดูความไม่เป็นเชิงเส้นด้วย

ความยุติธรรมต่อบุคคล

#fairness
#Metric

เมตริกความยุติธรรมที่ตรวจสอบว่าระบบจัดประเภทบุคคลที่คล้ายกันคล้ายกันหรือไม่ ตัวอย่างเช่น Brobdingnagian Academy อาจต้องการสร้างความเป็นธรรมให้กับบุคคล โดยตรวจสอบว่านักเรียน 2 คนที่มีคะแนนเหมือนกันและคะแนนสอบมาตรฐานมีแนวโน้มที่จะได้รับการยอมรับเท่าๆ กัน

โปรดทราบว่าความยุติธรรมของแต่ละบุคคลขึ้นอยู่กับวิธีที่คุณกำหนด "ความคล้ายคลึง" ทั้งหมด (ในกรณีนี้คือคะแนนและคะแนนสอบ) และคุณอาจเสี่ยงที่จะทำให้เกิดปัญหาความยุติธรรมใหม่ๆ หากเมตริกความคล้ายคลึงของคุณขาดข้อมูลสำคัญ (เช่น ความยากของหลักสูตรของนักเรียน)

ดูการพูดคุยเรื่องความยุติธรรมของแต่ละบุคคลอย่างละเอียดได้ที่"ความยุติธรรมผ่านความรู้"

การให้เหตุผล

#fundamentals

ในแมชชีนเลิร์นนิง กระบวนการทำนายโดยใช้โมเดลที่ผ่านการฝึกกับตัวอย่างที่ไม่มีป้ายกำกับ

การคํานวณค่าประมาณมีความหมายที่แตกต่างออกไปในสถิติ ดูรายละเอียดได้ในบทความ บทความใน Wikipedia เกี่ยวกับการอนุมานทางสถิติ

ดูการเรียนรู้ที่มีการควบคุมดูแลในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับ ML เพื่อดูบทบาทของการอนุมานในระบบการเรียนรู้ที่มีการควบคุมดูแล

เส้นทางการอนุมาน

#df

ในแผนผังการตัดสินใจ ระหว่างการอนุมาน เส้นทางที่ตัวอย่างหนึ่งๆ ใช้ในการไปยังรูทไปยังเงื่อนไขอื่นๆ จะสิ้นสุดที่ใบ เช่น ในแผนผังการตัดสินใจต่อไปนี้ ศรที่หนาขึ้นแสดงเส้นทางการอนุมานสําหรับตัวอย่างที่มีค่าฟีเจอร์ดังต่อไปนี้

  • x = 7
  • y = 12
  • z = -3

เส้นทางการอนุมานในภาพประกอบต่อไปนี้จะผ่านเงื่อนไข 3 รายการก่อนที่จะไปถึงใบไม้ (Zeta)

แผนภูมิการตัดสินใจที่มีเงื่อนไข 4 รายการและใบ 5 ใบ
          เงื่อนไขรูทคือ (x > 0) เนื่องจากคำตอบคือ &quot;ใช่&quot; เส้นทางการอนุมานจึงเดินทางจากรูทไปยังเงื่อนไขถัดไป (y > 0)
          เนื่องจากคำตอบคือ &quot;ใช่&quot; เส้นทางการอนุมานจึงไปยังเงื่อนไขถัดไป (z > 0) เนื่องจากคำตอบคือ &quot;ไม่&quot; เส้นทางการอนุมานจึงไปยังโหนดปลายซึ่งเป็นใบ (Zeta)

ลูกศรหนา 3 เส้นแสดงเส้นทางการอนุมาน

ดูข้อมูลเพิ่มเติมเกี่ยวกับแผนผังการตัดสินใจในหลักสูตรป่าการตัดสินใจ

ข้อมูลที่ได้รับ

#df
#Metric

ในป่าการตัดสินใจ ความแตกต่างระหว่างเอนโทรปีของโหนดกับผลรวมของเอนโทรปีของโหนดย่อยที่มีน้ำหนัก (ตามจำนวนตัวอย่าง) เอนโทรปีของโหนดคือเอนโทรปีของตัวอย่างในโหนดนั้น

ตัวอย่างเช่น ลองพิจารณาค่าเอนโทรปีต่อไปนี้

  • เอนโทรปีของโหนดหลัก = 0.6
  • เอนโทรปีของโหนดย่อย 1 รายการที่มีตัวอย่างที่เกี่ยวข้อง 16 รายการ = 0.2
  • เอนโทรปีของโหนดย่อยอีกโหนดหนึ่งซึ่งมีตัวอย่างที่เกี่ยวข้อง 24 รายการ = 0.1

ดังนั้น 40% ของตัวอย่างจะอยู่ในโหนดย่อยโหนดหนึ่ง และ 60% จะอยู่ในโหนดย่อยอีกโหนดหนึ่ง ดังนั้น

  • ผลรวมของเอนโทรปีถ่วงน้ำหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

ดังนั้น ข้อมูลที่ได้รับคือ

  • อัตราข้อมูลที่ได้รับ = เอนโทรปีของโหนดหลัก - ผลรวมของเอนโทรปีที่ถ่วงน้ำหนักของโหนดย่อย
  • ข้อมูลที่ได้รับ = 0.6 - 0.14 = 0.46

ตัวแยกส่วนใหญ่พยายามสร้างเงื่อนไขเพื่อเพิ่มปริมาณข้อมูลที่ได้สูงสุด

อคติต่อกลุ่มใน

#fairness

การลำเอียงเข้าข้างกลุ่มหรือลักษณะของตนเอง หากผู้ทดสอบหรือผู้ให้คะแนนเป็นเพื่อน ครอบครัว หรือเพื่อนร่วมงานของนักพัฒนาซอฟต์แวร์แมชชีนเลิร์นนิง ความลำเอียงในกลุ่มอาจทำให้การทดสอบผลิตภัณฑ์หรือชุดข้อมูลเป็นโมฆะ

ความลำเอียงภายในกลุ่มเป็นรูปแบบของความลำเอียงในการระบุแหล่งที่มาของกลุ่ม โปรดดูอคติความเหมือนกันของกลุ่มนอกด้วย

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เครื่องมือสร้างอินพุต

กลไกในการโหลดข้อมูลลงในโครงข่ายระบบประสาทเทียม

อินพุตเจนเนเรเตอร์อาจถือได้ว่าเป็นคอมโพเนนต์ที่รับผิดชอบการประมวลผลข้อมูลดิบเป็นเทนเซอร์ ซึ่งจะวนซ้ำเพื่อสร้างกลุ่มสําหรับการฝึกอบรม การประเมิน และการอนุมาน

เลเยอร์อินพุต

#fundamentals

เลเยอร์ของเครือข่ายประสาทเทียมที่มีเวกเตอร์องค์ประกอบ กล่าวคือ เลเยอร์อินพุตจะแสดงตัวอย่างสําหรับการฝึกหรือการอนุมาน ตัวอย่างเช่น เลเยอร์อินพุตในเครือข่ายประสาทต่อไปนี้ประกอบด้วยฟีเจอร์ 2 รายการ

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

เงื่อนไขในชุด

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขที่ทดสอบการมีอยู่ของรายการหนึ่งๆ ในชุดรายการ ตัวอย่างเช่น เงื่อนไขในชุดคำสั่งต่อไปนี้

  house-style in [tudor, colonial, cape]

ในระหว่างการอนุมาน หากค่าของฟีเจอร์สไตล์บ้านคือ tudor หรือ colonial หรือ cape เงื่อนไขนี้จะประเมินเป็น "ใช่" หากค่าของฟีเจอร์สไตล์บ้านเป็นค่าอื่น (เช่น ranch) เงื่อนไขนี้จะประเมินผลเป็น "ไม่"

โดยทั่วไปแล้ว เงื่อนไขในชุดมักจะทําให้ต้นไม้การตัดสินใจมีประสิทธิภาพมากกว่าเงื่อนไขที่ทดสอบฟีเจอร์ที่เข้ารหัสแบบฮอตเวิร์ก

อินสแตนซ์

คำพ้องความหมายของ example

การปรับแต่งวิธีการ

#generativeAI

รูปแบบการปรับแต่งแบบละเอียดที่ช่วยปรับปรุงความสามารถของโมเดล Generative AI ในการทําตามคําสั่ง การปรับแต่งคำสั่งเกี่ยวข้องกับการฝึกโมเดลด้วยชุดพรอมต์คำสั่ง ซึ่งมักจะครอบคลุมงานต่างๆ มากมาย โมเดลที่ปรับตามคำสั่งที่ได้จึงมีแนวโน้มที่จะสร้างคำตอบที่เป็นประโยชน์สำหรับพรอมต์แบบไม่ใช้ตัวอย่างในงานต่างๆ

เปรียบเทียบและเปรียบเทียบกับ

ความสามารถในการตีความ

#fundamentals

ความสามารถในการอธิบายหรือนำเสนอเหตุผลของโมเดล ML โดยใช้คำศัพท์ที่มนุษย์เข้าใจได้

ตัวอย่างเช่น โมเดลการถดถอยเชิงเส้นส่วนใหญ่มีความหมายสูง (คุณเพียงต้องดูน้ำหนักที่ผ่านการฝึกสำหรับแต่ละฟีเจอร์) ป่าการตัดสินใจยังตีความได้สูงอีกด้วย อย่างไรก็ตาม บางรูปแบบต้องใช้การแสดงภาพที่ซับซ้อนเพื่อให้ตีความได้

คุณสามารถใช้เครื่องมือการตีความการเรียนรู้ (LIT)เพื่อตีความโมเดล ML

ความสอดคล้องกันระหว่างผู้ประเมิน

#Metric

การวัดความถี่ที่ผู้ประเมินที่เป็นมนุษย์เห็นด้วยเมื่อทำภารกิจ หากผู้ประเมินไม่เห็นด้วย คุณอาจต้องปรับปรุงวิธีการของงาน บางครั้งอาจเรียกว่าความสอดคล้องกันของผู้กำกับดูแลหรือความน่าเชื่อถือของผู้ประเมิน ดูข้อมูลเพิ่มเติมได้ที่ค่า Kappa ของ Cohen ซึ่งเป็นวิธีการวัดความสอดคล้องกันระหว่างผู้ประเมินที่ได้รับความนิยมมากที่สุดวิธีหนึ่ง

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงหมวดหมู่: ปัญหาที่พบได้ทั่วไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Intersection over Union (IoU)

#image

ส่วนตัดกันของ 2 ชุดหารด้วยผลรวมของชุด ในภารกิจการตรวจจับภาพด้วยแมชชีนเลิร์นนิง ระบบจะใช้ IoU เพื่อวัดความแม่นยำของกรอบขอบเขตที่คาดการณ์ไว้ของโมเดลเทียบกับกรอบขอบเขตข้อมูลจากการสังเกตการณ์โดยตรง ในกรณีนี้ IoU สำหรับกล่อง 2 กล่องคืออัตราส่วนระหว่างพื้นที่ที่ทับซ้อนกันและพื้นที่ทั้งหมด และค่าของ IoU จะอยู่ระหว่าง 0 (กรอบขอบเขตที่คาดการณ์ไว้และกรอบขอบเขตข้อมูลจากการสังเกตการณ์โดยตรงไม่ทับซ้อนกัน) ถึง 1 (กรอบขอบเขตที่คาดการณ์ไว้และกรอบขอบเขตข้อมูลจากการสังเกตการณ์โดยตรงมีพิกัดตำแหน่งเดียวกันทุกประการ)

ตัวอย่างเช่น ในรูปภาพด้านล่าง

  • กรอบขอบเขตที่คาดการณ์ (พิกัดที่กําหนดขอบเขตตำแหน่งที่โมเดลคาดการณ์ว่าโต๊ะข้างเตียงในภาพวาดอยู่) จะแสดงเป็นเส้นขอบสีม่วง
  • กล่องขอบเขตของข้อมูลจริง (พิกัดที่กําหนดขอบเขตตําแหน่งของโต๊ะกลางในภาพวาด) จะวาดเส้นขอบสีเขียว

ภาพวาดห้องนอนของวินเซนต์ แวน โก๊ะในอาร์ล ของแวนโก๊ะ โดยมีกล่องขอบเขต 2 กล่องที่แตกต่างกันรอบๆ โต๊ะข้างเตียงข้างเตียง กรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรง (สีเขียว) ล้อมรอบโต๊ะข้างเตียงอย่างสมบูรณ์ กล่องขอบเขตที่คาดการณ์ (สีม่วง) เลื่อนลงและไปทางขวา 50% ของกล่องขอบเขตที่เป็นความจริง ซึ่งล้อมรอบส่วนสี่เหลี่ยมจัตุรัสด้านขวาล่างของโต๊ะกลางคืน แต่ไม่ได้ล้อมรอบส่วนที่เหลือของโต๊ะ

ในที่นี้ จุดตัดของกรอบขอบเขตสำหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างซ้าย) คือ 1 และสหภาพของกรอบขอบเขตสำหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างขวา) คือ 7 ดังนั้น IoU จึงเป็น \(\frac{1}{7}\)

รูปภาพเดียวกันกับด้านบน แต่แบ่งกรอบล้อมรอบแต่ละกรอบออกเป็น 4 ส่วน โดยรวมมีทั้งหมด 7 จตุภาค เนื่องจากจตุภาคด้านขวาล่างของกรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรงและจตุภาคด้านซ้ายบนของกรอบล้อมรอบที่คาดการณ์ไว้ซ้อนทับกัน ส่วนทับซ้อนนี้ (ไฮไลต์ด้วยสีเขียว) แสดงถึงจุดตัดและมีพื้นที่เท่ากับ 1 รูปภาพเดียวกันกับด้านบน แต่แบ่งกรอบล้อมรอบแต่ละกรอบออกเป็น 4 ส่วน โดยรวมมีทั้งหมด 7 จตุภาค เนื่องจากจตุภาคด้านขวาล่างของกรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรงและจตุภาคด้านซ้ายบนของกรอบล้อมรอบที่คาดการณ์ไว้ซ้อนทับกัน
          พื้นที่ภายในทั้งหมดที่ล้อมรอบด้วยกรอบขอบทั้ง 2 รูป (ไฮไลต์ด้วยสีเขียว) แสดงถึงสหพันธ์ และมีเนื้อที่ 7

IoU

ตัวย่อของ intersection over union

เมทริกซ์รายการ

#recsystems

ในระบบการแนะนำ หมายถึงเวกเตอร์การฝังซึ่งเป็นเมทริกซ์ที่สร้างขึ้นจากการแยกองค์ประกอบเมทริกซ์ซึ่งเก็บสัญญาณแฝงเกี่ยวกับรายการแต่ละรายการ แต่ละแถวของเมทริกซ์รายการจะมีค่าขององค์ประกอบแฝงเดียวสําหรับสินค้าทั้งหมด ตัวอย่างเช่น ลองพิจารณาระบบการแนะนำภาพยนตร์ แต่ละคอลัมน์ในเมทริกซ์รายการจะแสดงภาพยนตร์ 1 เรื่อง สัญญาณแฝงอาจแสดงถึงประเภท หรืออาจเป็นสัญญาณที่ตีความได้ยากกว่าซึ่งเกี่ยวข้องกับการโต้ตอบที่ซับซ้อนระหว่างประเภท ดารา ยุคสมัยของภาพยนตร์ หรือปัจจัยอื่นๆ

เมทริกซ์รายการมีจํานวนคอลัมน์เท่ากับเมทริกซ์เป้าหมายที่จะแยกตัวประกอบ ตัวอย่างเช่น ระบบแนะนำภาพยนตร์ที่ประเมินภาพยนตร์ 10,000 เรื่อง จะมีเมทริกซ์รายการ 10,000 คอลัมน์

รายการ

#recsystems

ในระบบการแนะนำ หมายถึงเอนทิตีที่ระบบแนะนำ เช่น วิดีโอคือสินค้าที่ร้านวิดีโอแนะนำ ส่วนหนังสือคือสินค้าที่ร้านหนังสือแนะนำ

การทำซ้ำ

#fundamentals

การอัปเดตพารามิเตอร์ของโมเดลครั้งเดียว ซึ่งก็คือน้ำหนักและความลำเอียงของโมเดลในระหว่างการฝึก ขนาดกลุ่มจะกําหนดจํานวนตัวอย่างที่โมเดลจะประมวลผลในการวนซ้ำ 1 ครั้ง เช่น หากขนาดกลุ่มเป็น 20 โมเดลจะประมวลผลตัวอย่าง 20 รายการก่อนปรับพารามิเตอร์

เมื่อฝึกโครงข่ายระบบประสาทเทียม การทำซ้ำ 1 ครั้งจะเกี่ยวข้องกับ 2 ขั้นตอนต่อไปนี้

  1. การส่งต่อเพื่อประเมินการสูญเสียในบATCH เดียว
  2. การส่งผ่านย้อนกลับ (Backpropagation) เพื่อปรับพารามิเตอร์ของโมเดลตามการสูญเสียและอัตราการเรียนรู้

ดูข้อมูลเพิ่มเติมได้ที่การลดการลาดชันในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

J

JAX

ไลบรารีการประมวลผลอาร์เรย์ที่รวม XLA (Accelerated Linear Algebra) เข้ากับอนุพันธ์อัตโนมัติเพื่อใช้การประมวลผลตัวเลขที่มีประสิทธิภาพสูง JAX มี API ที่เรียบง่ายและมีประสิทธิภาพสําหรับการเขียนโค้ดตัวเลขที่เร่งความเร็วด้วยการเปลี่ยนรูปแบบที่คอมโพสิเบิล JAX มีฟีเจอร์ต่างๆ เช่น

  • grad (การแยกแยะอัตโนมัติ)
  • jit (การคอมไพล์แบบทันท่วงที)
  • vmap (การเปลี่ยนเป็นเวกเตอร์หรือการจัดกลุ่มอัตโนมัติ)
  • pmap (การขนานการทำงาน)

JAX เป็นภาษาสําหรับแสดงและประกอบการเปลี่ยนรูปแบบของโค้ดเชิงตัวเลข ซึ่งคล้ายกับไลบรารี NumPy ของ Python แต่มีขอบเขตกว้างกว่ามาก (อันที่จริงแล้ว ไลบรารี .numpy ใน JAX มีฟังก์ชันการทำงานเทียบเท่า แต่เขียนใหม่ทั้งหมดจากไลบรารี NumPy ของ Python)

JAX เหมาะอย่างยิ่งในการเร่งงานแมชชีนเลิร์นนิงจำนวนมากโดยเปลี่ยนรูปแบบโมเดลและข้อมูลให้เหมาะกับการทำงานแบบขนานใน GPU และชิปเร่งความเร็ว TPU

ไลบรารี Flax, Optax, Pax และอื่นๆ อีกมากมายสร้างขึ้นบนโครงสร้างพื้นฐาน JAX

K

Keras

Python Machine Learning API ที่ได้รับความนิยม Keras ทำงานบนเฟรมเวิร์กการเรียนรู้เชิงลึกหลายเฟรมเวิร์ก รวมถึง TensorFlow ซึ่งจะพร้อมใช้งานเป็น tf.keras

แมชชีนการเรียนรู้ด้วยเวกเตอร์สนับสนุนของเคิร์น (KSVM)

อัลกอริทึมการจัดประเภทที่พยายามเพิ่มระยะห่างระหว่างคลาสเชิงบวกและคลาสเชิงลบให้มากที่สุดโดยการแมปเวกเตอร์ข้อมูลอินพุตไปยังพื้นที่เชิงมิติที่สูงกว่า ตัวอย่างเช่น พิจารณาปัญหาการจัดประเภทที่ชุดข้อมูลอินพุตมีฟีเจอร์ 100 รายการ KSVM สามารถจับคู่องค์ประกอบเหล่านั้นภายในเป็นพื้นที่ 1 ล้านมิติข้อมูลเพื่อเพิ่มระยะห่างระหว่างคลาสเชิงบวกและเชิงลบให้มากที่สุด KSVM ใช้ฟังก์ชันการสูญเสียที่เรียกว่าการสูญเสียแบบ hinge

keypoints

#image

พิกัดขององค์ประกอบบางอย่างในรูปภาพ เช่น สำหรับโมเดลการจดจำรูปภาพที่แยกแยะพันธุ์ดอกไม้ จุดสังเกตอาจเป็นจุดศูนย์กลางของกลีบแต่ละกลีบ ลำต้น เกสร และอื่นๆ

การทดสอบไขว้แบบ k-fold

อัลกอริทึมสำหรับการคาดการณ์ความสามารถของโมเดลในการทั่วไปกับข้อมูลใหม่ k ใน k-fold หมายถึงจํานวนกลุ่มที่เท่าๆ กันซึ่งคุณแบ่งตัวอย่างของชุดข้อมูลออกเป็นกลุ่มๆ กล่าวคือ คุณฝึกและทดสอบโมเดล k ครั้ง ในแต่ละรอบของการฝึกและทดสอบ จะมีกลุ่มอื่นเป็นชุดทดสอบ และกลุ่มที่เหลือทั้งหมดจะเป็นชุดการฝึก หลังจากการฝึกและการทดสอบ 2 รอบ คุณจะต้องคํานวณค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของเมตริกการทดสอบที่เลือก

ตัวอย่างเช่น สมมติว่าชุดข้อมูลของคุณประกอบด้วยตัวอย่าง 120 รายการ สมมติต่อไปว่าคุณตัดสินใจที่จะตั้งค่า k เป็น 4 ดังนั้นหลังจากสับตัวอย่างแล้ว ให้แบ่งชุดข้อมูลออกเป็น 4 กลุ่มเท่าๆ กันโดยแต่ละกลุ่มมี 30 ตัวอย่าง แล้วทำการฝึกและทดสอบ 4 รอบ ดังนี้

ชุดข้อมูลที่แบ่งออกเป็นกลุ่มตัวอย่าง 4 กลุ่มเท่าๆ กัน ในรอบที่ 1 ระบบจะใช้ 3 กลุ่มแรกสำหรับการฝึกอบรมและกลุ่มสุดท้ายสำหรับทดสอบ ในรอบที่ 2 จะมีการใช้กลุ่มแรก 2 กลุ่มและกลุ่มสุดท้ายเพื่อการฝึกอบรม ส่วนกลุ่มที่ 3 จะใช้เพื่อทดสอบ ในรอบที่ 3 กลุ่มแรกและ 2 กลุ่มสุดท้ายจะใช้สำหรับการฝึกอบรม ส่วนกลุ่มที่ 2 จะใช้สำหรับทดสอบ
          ในรอบที่ 4 กลุ่มแรกจะใช้สําหรับการทดสอบ ส่วนกลุ่มสุดท้าย 3 กลุ่มจะใช้สําหรับการฝึก

เช่น ความคลาดเคลื่อนเฉลี่ยกำลังสอง (MSE) อาจเป็นแหล่งข้อมูลที่มีความหมายมากที่สุดสําหรับโมเดลการถดถอยเชิงเส้น คุณจึงจะพบค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของ MSE ใน 4 รอบ

K-means

#clustering

อัลกอริทึมการจัดกลุ่มยอดนิยมที่จัดกลุ่มตัวอย่างในการเรียนรู้แบบไม่ควบคุม โดยพื้นฐานแล้ว อัลกอริทึม K-means จะทําสิ่งต่อไปนี้

  • กำหนดจุดศูนย์กลาง k จุดที่ดีที่สุด (เรียกว่าจุดศูนย์กลางมวล) ซ้ำๆ
  • กําหนดตัวอย่างแต่ละรายการให้กับจุดศูนย์กลางที่ใกล้ที่สุด ตัวอย่างที่อยู่ใกล้กับจุดศูนย์กลางเดียวกันจะอยู่ในกลุ่มเดียวกัน

อัลกอริทึม K-Means จะเลือกตำแหน่งจุดศูนย์กลางเพื่อลดค่าสะสมของสี่เหลี่ยมจัตุรัสของระยะทางจากตัวอย่างแต่ละรายการไปยังจุดศูนย์กลางที่ใกล้ที่สุด

ตัวอย่างเช่น ลองดูผังความสูงของสุนัขเทียบกับความกว้างของสุนัขต่อไปนี้

ผังพิกัดคาร์ทีเซียนที่มีจุดข้อมูลหลายสิบจุด

หาก k=3 อัลกอริทึม K-means จะกำหนดจุดศูนย์กลาง 3 จุด ระบบจะกําหนดตัวอย่างแต่ละรายการให้กับจุดศูนย์กลางที่ใกล้ที่สุด ซึ่งจะให้กลุ่ม 3 กลุ่มดังนี้

ผังพิกัดคาร์ทีเซียนเดียวกับในภาพก่อนหน้า ยกเว้นว่ามีการเพิ่มจุดศูนย์กลาง 3 จุด
          ระบบจะจัดกลุ่มจุดข้อมูลก่อนหน้าออกเป็น 3 กลุ่มที่แยกกัน โดยแต่ละกลุ่มแสดงจุดข้อมูลที่ใกล้กับจุดศูนย์กลางหนึ่งๆ มากที่สุด

สมมติว่าผู้ผลิตต้องการกำหนดขนาดที่เหมาะสมสำหรับเสื้อสเวตเตอร์ขนาดเล็ก กลาง และใหญ่สำหรับสุนัข ศูนย์กลาง 3 จุดจะระบุความสูงและค่าเฉลี่ยความกว้างของสุนัขแต่ละตัวในคลัสเตอร์นั้น ดังนั้น ผู้ผลิตจึงควรกำหนดขนาดเสื้อสเวตเตอร์ตามจุดศูนย์กลางมวล 3 จุดดังกล่าว โปรดทราบว่าโดยปกติแล้ว จุดศูนย์กลางของคลัสเตอร์ไม่ใช่ตัวอย่างในคลัสเตอร์

ภาพประกอบก่อนหน้านี้แสดง K-Means สำหรับตัวอย่างที่มีเพียง 2 องค์ประกอบ (ความสูงและความกว้าง) โปรดทราบว่า K-Means สามารถจัดกลุ่มตัวอย่างจากฟีเจอร์หลายรายการ

ดูข้อมูลเพิ่มเติมที่คลัสเตอร์แบบ K-means คืออะไรในหลักสูตรคลัสเตอร์

ค่ามัธยฐานแบบ K

#clustering

อัลกอริทึมการจัดกลุ่มที่เกี่ยวข้องกับ K-means อย่างใกล้ชิด ความแตกต่างที่เห็นได้ชัดระหว่าง 2 รูปแบบมีดังนี้

  • ใน k-means ระบบจะกำหนดจุดศูนย์กลางโดยการลดผลรวมของกำลังสองของระยะทางระหว่างจุดศูนย์กลางที่เป็นไปได้กับตัวอย่างแต่ละรายการ
  • ใน K-เมเดียน ระบบจะกำหนดจุดศูนย์กลางโดยการลดผลรวมของระยะทางระหว่างจุดศูนย์กลางที่เป็นไปได้กับตัวอย่างแต่ละรายการ

โปรดทราบว่าคำจำกัดความของระยะทางก็แตกต่างกันด้วย

  • K-means ใช้ระยะทางแบบยูคลิดจากจุดศูนย์กลางไปยังตัวอย่าง (ใน 2 มิติ ระยะทางแบบยูคลิดหมายถึงการใช้ทฤษฎีบทพีทาโกรัสเพื่อคํานวณด้านตรงข้ามมุมฉาก) เช่น ระยะทาง K-Means ระหว่าง (2,2) กับ (5,-2) จะเท่ากับ
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • ส่วนค่ามัธยฐาน k จะใช้ ระยะทางแมนฮัตตันจากจุดศูนย์กลางไปยังตัวอย่าง ระยะทางนี้คือผลรวมของค่าสัมบูรณ์ของ Delta ในแต่ละมิติข้อมูล เช่น ระยะทางของเมเดียน k ระหว่าง (2,2) กับ (5,-2) จะเท่ากับ
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularization แบบ L0

#fundamentals

การถ่วงน้ำหนักประเภทหนึ่งที่ลงโทษจํานวนทั้งหมดของน้ำหนักที่ไม่ใช่ 0 ในโมเดล เช่น โมเดลที่มีน้ำหนักที่ไม่ใช่ 0 จำนวน 11 รายการจะได้รับค่าปรับมากกว่าโมเดลที่คล้ายกันซึ่งมีน้ำหนักที่ไม่ใช่ 0 จำนวน 10 รายการ

บางครั้งการถ่วงน้ำหนัก L0 เรียกว่าการถ่วงน้ำหนักตาม L0-norm

แพ้ L1

#fundamentals
#Metric

ฟังก์ชันการสูญเสียที่คำนวณค่าสัมบูรณ์ของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น ต่อไปนี้คือการคํานวณการสูญเสีย L1 สําหรับกลุ่มตัวอย่าง 5 รายการ

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ของโมเดล ค่าสัมบูรณ์ของเดลต้า
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = แพ้ L1

ผลต่าง L1 ไวต่อค่าผิดปกติน้อยกว่าผลต่าง L2

ค่าเฉลี่ยความผิดพลาดสัมบูรณ์คือค่าเฉลี่ยของการสูญเสีย L1 ต่อตัวอย่าง

ดูข้อมูลเพิ่มเติมได้ในหัวข้อการหาค่าสัมประสิทธ์เชิงเส้น: ค่าการสูญเสียในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Regularization แบบ L1

#fundamentals

การทำให้สมดุลประเภทหนึ่งที่ลงโทษน้ำหนักตามสัดส่วนกับผลรวมของค่าสัมบูรณ์ของน้ำหนัก การปรับ L1 ช่วยเพิ่มน้ำหนักของฟีเจอร์ที่ไม่เกี่ยวข้องหรือเกี่ยวข้องเพียงเล็กน้อยเป็น 0 ระบบจะนําฟีเจอร์ที่มีน้ำหนัก 0 ออกจากโมเดล

ตรงข้ามกับ Regularization แบบ L2

อัตราสูญเสีย L2

#fundamentals
#Metric

ฟังก์ชันการสูญเสียที่คำนวณผลคูณของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น นี่คือการคำนวณความสูญเสีย L2 สําหรับกลุ่มตัวอย่าง 5 รายการ

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ของโมเดล ตารางของเดลต้า
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = แพ้ L2

เนื่องจากการยกกำลัง 2 จะทำให้ความสูญเสีย L2 ขยายอิทธิพลของค่าผิดปกติ กล่าวคือ ผลลัพธ์ L2 จะตอบสนองต่อการคาดการณ์ที่ไม่ดีมากกว่าผลลัพธ์ L1 เช่น อัตราสูญเสีย L1 ของกลุ่มก่อนหน้าจะเป็น 8 ไม่ใช่ 16 โปรดทราบว่าค่าที่ผิดปกติรายการเดียวคิดเป็น 9 จาก 16

โมเดลการหาค่าสัมพัทธ์มักใช้การสูญเสีย L2 เป็นฟังก์ชันการสูญเสีย

ความคลาดเคลื่อนกำลังสองเฉลี่ยคือค่าเฉลี่ยของการสูญเสีย L2 ต่อตัวอย่าง ความสูญเสียแบบยกกำลังสองเป็นชื่อเรียกอีกอย่างของความสูญเสีย L2

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้นโลจิสติก: การสูญเสียและการควบคุมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Regularization แบบ L2

#fundamentals

การทำให้สม่ำเสมอประเภทหนึ่งที่ลงโทษน้ำหนักตามสัดส่วนกับผลรวมของค่าสัมบูรณ์ของน้ำหนัก การปรับ L2 ช่วยเพิ่มน้ำหนักของค่าผิดปกติ (ค่าบวกสูงหรือค่าลบต่ำ) ให้ใกล้กับ 0 แต่ไม่เท่ากับ 0 ฟีเจอร์ที่มีค่าใกล้เคียงกับ 0 จะยังคงอยู่ในโมเดล แต่จะไม่ส่งผลต่อการคาดการณ์ของโมเดลมากนัก

การปรับ L2 จะช่วยปรับปรุงการทั่วไปในโมเดลเชิงเส้นเสมอ

ตรงข้ามกับ Regularization แบบ L1

ดูข้อมูลเพิ่มเติมได้ที่การประมาณที่มากเกินไป: การปรับL2ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ป้ายกำกับ

#fundamentals

ในแมชชีนเลิร์นนิงที่ควบคุมดูแล ส่วน "คำตอบ" หรือ "ผลลัพธ์" ของตัวอย่าง

ตัวอย่างที่ติดป้ายกำกับแต่ละรายการประกอบด้วยองค์ประกอบอย่างน้อย 1 รายการและป้ายกำกับ เช่น ในชุดข้อมูลการตรวจจับสแปม ป้ายกํากับอาจเป็น "สแปม" หรือ "ไม่ใช่สแปม" ในชุดข้อมูลปริมาณน้ำฝน ป้ายกํากับอาจเป็นปริมาณฝนที่ตกลงมาในช่วงระยะเวลาหนึ่ง

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบควบคุมดูแลในข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

ตัวอย่างที่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่างที่มีป้ายกำกับ 3 รายการจากโมเดลการประเมินมูลค่าบ้าน โดยแต่ละรายการมีฟีเจอร์ 3 รายการและป้ายกำกับ 1 รายการ

จำนวนห้องนอน จำนวนห้องน้ำ อายุของบ้าน ราคาบ้าน (ป้ายกำกับ)
3 2 15 $345,000
2 1 72 $179,000
4 2 34 $392,000

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล รูปแบบจะฝึกจากตัวอย่างที่ติดป้ายกำกับและทำการคาดการณ์จากตัวอย่างที่ไม่มีป้ายกำกับ

เปรียบเทียบตัวอย่างที่มีป้ายกำกับกับตัวอย่างที่ไม่มีป้ายกำกับ

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบควบคุมดูแลในข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

การเปิดเผยข้อมูลป้ายกํากับ

ข้อบกพร่องในการออกแบบโมเดลที่ฟีเจอร์เป็นพร็อกซีสําหรับป้ายกํากับ ตัวอย่างเช่น ลองพิจารณารูปแบบการจัดประเภทแบบ 2 กลุ่มซึ่งคาดการณ์ว่าผู้มีโอกาสเป็นลูกค้าจะซื้อผลิตภัณฑ์หนึ่งๆ หรือไม่ สมมติว่าฟีเจอร์หนึ่งของโมเดลคือบูลีนที่มีชื่อว่า SpokeToCustomerAgent สมมติเพิ่มเติมว่าตัวแทนลูกค้าจะได้รับการมอบหมายหลังจากผู้มีโอกาสเป็นลูกค้าซื้อผลิตภัณฑ์จริงๆ เท่านั้น ในระหว่างการฝึก โมเดลจะเรียนรู้การเชื่อมโยงระหว่าง SpokeToCustomerAgent กับป้ายกำกับอย่างรวดเร็ว

ดูข้อมูลเพิ่มเติมได้ที่การตรวจสอบไปป์ไลน์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

lambda

#fundamentals

คำพ้องความหมายของอัตราปกติ

Lambda เป็นคําที่ใช้งานมากเกินไป ในที่นี้เราจะมุ่งเน้นที่คำจำกัดความของคำนี้ในการปรับให้เป็นไปตามข้อกำหนด

LaMDA (โมเดลภาษาสำหรับแอปพลิเคชันด้านการโต้ตอบ หรือ Language Model for Dialog Applications)

#language

โมเดลภาษาขนาดใหญ่ที่อิงตาม Transformer ซึ่งพัฒนาโดย Google และได้รับการฝึกจากชุดข้อมูลการสนทนาขนาดใหญ่ที่สามารถสร้างคำตอบแบบการสนทนาที่สมจริง

LaMDA: เทคโนโลยีการสนทนาที่ก้าวล้ำให้ภาพรวม

จุดสังเกต

#image

คำพ้องความหมายของประเด็นสำคัญ

โมเดลภาษา

#language

โมเดลที่ประมาณความน่าจะเป็นของโทเค็นหรือลำดับโทเค็นที่ปรากฏในลำดับโทเค็นที่ยาวขึ้น

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาคืออะไรในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โมเดลภาษาขนาดใหญ่

#language

เป็นโมเดลภาษาที่มีพารามิเตอร์จํานวนมากเป็นอย่างน้อย หรือพูดให้เข้าใจง่ายคือ โมเดลภาษาที่อิงตาม Transformer เช่น Gemini หรือ GPT

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ (LLM) ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

พื้นที่เชิงซ้อน

#language

คำพ้องความหมายของพื้นที่การฝัง

เลเยอร์

#fundamentals

ชุดเซลล์ประสาทในโครงข่ายประสาทเทียม เลเยอร์ 3 ประเภทที่ใช้กันทั่วไปมีดังนี้

ตัวอย่างเช่น ภาพต่อไปนี้แสดงเครือข่ายประสาทที่มีเลเยอร์อินพุต 1 เลเยอร์ เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์

เครือข่ายประสาทที่มีชั้นอินพุต 1 ชั้น ชั้นที่ซ่อนอยู่ 2 ชั้น และชั้นเอาต์พุต 1 ชั้น เลเยอร์อินพุตประกอบด้วยองค์ประกอบ 2 อย่าง เลเยอร์ซ่อนแรกประกอบด้วยนิวรอน 3 ตัว และเลเยอร์ซ่อนที่สองประกอบด้วยนิวรอน 2 ตัว เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

ใน TensorFlow เลเยอร์ยังเป็นฟังก์ชัน Python ที่รับเทนเซอร์และตัวเลือกการกําหนดค่าเป็นอินพุต และสร้างเทนเซอร์อื่นๆ เป็นเอาต์พุต

Layers API (tf.layers)

#TensorFlow

TensorFlow API สำหรับการสร้างเครือข่ายประสาท ลึก โดยการประกอบเลเยอร์ Layers API ช่วยให้คุณสร้างเลเยอร์ประเภทต่างๆ ได้ เช่น

Layers API เป็นไปตามรูปแบบ API ของเลเยอร์ Keras กล่าวคือ นอกเหนือจากคำนำหน้าที่แตกต่างกันแล้ว ฟังก์ชันทั้งหมดใน Layers API จะมีชื่อและลายเซ็นเหมือนกับฟังก์ชันใน Keras Layers API

ใบไม้

#df

จุดสิ้นสุดใดก็ได้ในแผนภูมิการตัดสินใจ ลีฟจะไม่ทําการทดสอบ ต่างจากเงื่อนไข แต่ใบไม้เป็นค่าคาดการณ์ที่เป็นไปได้ ใบไม้ยังเป็นโหนดปลายทางของเส้นทางการอนุมานด้วย

ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้มีใบ 3 ใบ

แผนผังการตัดสินใจที่มีเงื่อนไข 2 รายการซึ่งนําไปสู่ใบ 3 ใบ

ดูข้อมูลเพิ่มเติมเกี่ยวกับแผนผังการตัดสินใจในหลักสูตรป่าการตัดสินใจ

เครื่องมือความสามารถในการตีความการเรียนรู้ (LIT)

เครื่องมือแสดงข้อมูลผ่านภาพและการทำความเข้าใจรูปแบบแบบอินเทอร์แอกทีฟ

คุณสามารถใช้ LIT แบบโอเพนซอร์สเพื่อตีความโมเดล หรือแสดงภาพข้อความ รูปภาพ และข้อมูลตาราง

อัตราการเรียนรู้

#fundamentals

จํานวนทศนิยมที่บอกอัลกอริทึม Gradient Descent ว่าควรปรับน้ำหนักและค่ากําหนดของแต่ละรอบอย่างไร เช่น อัตราการเรียนรู้ 0.3 จะปรับน้ำหนักและค่ากําหนดให้มีประสิทธิภาพมากกว่าอัตราการเรียนรู้ 0.1 ถึง 3 เท่า

อัตราการเรียนรู้เป็นไฮเปอร์พารามิเตอร์ที่สําคัญ หากคุณตั้งค่าอัตราการเรียนรู้ต่ำเกินไป การฝึกจะใช้เวลานานเกินไป หากตั้งค่าอัตราการเรียนรู้สูงเกินไป บ่อยครั้งที่การลดเชิงลาดจะประสบปัญหาในการบรรจบ

ดูข้อมูลเพิ่มเติมได้ที่การหาค่าสัมประสิทธ์เชิงเส้น: ตัวแปรพหุนามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การถดถอยแบบกำลังสองน้อยที่สุด

โมเดลการถดถอยเชิงเส้นที่ผ่านการฝึกโดยการลดการสูญเสีย L2

ระยะ Levenshtein

#language
#metric

เมตริกระยะแก้ไขที่คำนวณการดำเนินการลบ แทรก และแทนที่น้อยที่สุดที่จำเป็นต่อการเปลี่ยนคำหนึ่งเป็นคำอื่น เช่น ระยะ Levenshtein ระหว่างคําว่า "heart" กับ "darts" มีค่าเป็น 3 เนื่องจากการแก้ไข 3 ครั้งต่อไปนี้เป็นการเปลี่ยนแปลงที่น้อยที่สุดในการเปลี่ยนคําหนึ่งเป็นคําอื่น

  1. heart → deart (แทนที่ "h" ด้วย "d")
  2. deart → dart (ลบ "e")
  3. dart → darts (แทรก "s")

โปรดทราบว่าลำดับก่อนหน้าไม่ใช่เส้นทางเดียวของการแก้ไข 3 ครั้ง

เชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่แสดงได้ด้วยการบวกและคูณเท่านั้น

ผังความสัมพันธ์เชิงเส้นคือเส้น

ตรงข้ามกับnonlinear

รูปแบบเชิงเส้น

#fundamentals

โมเดลที่กําหนดน้ำหนัก 1 รายการต่อฟีเจอร์เพื่อทําการคาดการณ์ (รูปแบบเชิงเส้นยังมีความลำเอียงด้วย) ในทางตรงกันข้าม ความสัมพันธ์ระหว่างฟีเจอร์กับการคาดการณ์ในโมเดลเชิงลึกมักไม่เป็นเชิงเส้น

โดยทั่วไปแล้ว โมเดลเชิงเส้นจะฝึกได้ง่ายกว่าและตีความได้มากกว่าโมเดลเชิงลึก อย่างไรก็ตาม รูปแบบเชิงลึกสามารถเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างฟีเจอร์

การถดถอยเชิงเส้นและการถดถอยเชิงลอจิสติกเป็นโมเดลเชิงเส้น 2 ประเภท

การถดถอยเชิงเส้น

#fundamentals

โมเดลแมชชีนเลิร์นนิงประเภทหนึ่งที่มีลักษณะตรงตามทั้ง 2 ข้อต่อไปนี้

เปรียบเทียบการถดถอยเชิงเส้นกับการถดถอยแบบโลจิสติก นอกจากนี้ ให้เปรียบเทียบการถดถอยกับการจัดประเภท

ดูข้อมูลเพิ่มเติมเกี่ยวกับการหาค่าสัมประสิทธ์เชิงเส้นในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

LIT

ตัวย่อของเครื่องมือการตีความการเรียนรู้ (LIT) ซึ่งก่อนหน้านี้เรียกว่าเครื่องมือการตีความภาษา

LLM

#language
#generativeAI

ตัวย่อของโมเดลภาษาขนาดใหญ่

การประเมิน LLM (evals)

#language
#generativeAI
#Metric

ชุดเมตริกและการเปรียบเทียบเพื่อประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) การประเมิน LLM ในระดับสูงมีดังนี้

  • ช่วยให้นักวิจัยระบุด้านที่ LLM จำเป็นต้องปรับปรุง
  • มีประโยชน์ในการเปรียบเทียบ LLM ต่างๆ และระบุ LLM ที่ดีที่สุดสําหรับงานหนึ่งๆ
  • ช่วยให้มั่นใจว่า LLM นั้นปลอดภัยและใช้งานได้อย่างมีจริยธรรม

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ (LLM) ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การถดถอยแบบโลจิสติก

#fundamentals

โมเดลการถดถอยประเภทหนึ่งที่คาดการณ์ความน่าจะเป็น โมเดลการถดถอยเชิงโลจิสติกมีลักษณะดังนี้

  • ป้ายกํากับคือเชิงหมวดหมู่ คําว่า "การถดถอยเชิงโลจิสติก" มักหมายถึงการถดถอยเชิงโลจิสติกแบบไบนารี ซึ่งก็คือโมเดลที่คํานวณความน่าจะเป็นสําหรับป้ายกำกับที่มีค่าที่เป็นไปได้ 2 ค่า ตัวแปรที่พบไม่บ่อยนักคือการถดถอยเชิงเส้นโลจิสติกแบบหลายตัวแปร ซึ่งจะคํานวณความน่าจะเป็นสําหรับป้ายกํากับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า
  • ฟังก์ชันการสูญเสียระหว่างการฝึกคือ Log Loss (คุณสามารถวางหน่วยการสูญเสียข้อมูลบันทึกได้หลายหน่วยพร้อมกันสําหรับป้ายกํากับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า)
  • โมเดลนี้มีสถาปัตยกรรมแบบเชิงเส้น ไม่ใช่เครือข่ายประสาทเทียม อย่างไรก็ตาม ส่วนที่เหลือของคําจํากัดความนี้ยังมีผลกับโมเดลเชิงลึกที่คาดการณ์ความน่าจะเป็นสําหรับป้ายกํากับเชิงหมวดหมู่ด้วย

ตัวอย่างเช่น ลองพิจารณาโมเดลการถดถอยเชิงโลจิสติกส์ที่คำนวณความน่าจะเป็นที่อีเมลอินพุตจะเป็นสแปมหรือไม่สแปม ในระหว่างการอนุมาน สมมติว่าโมเดลคาดการณ์ 0.72 ดังนั้น รูปแบบจะประมาณค่าต่อไปนี้

  • มีโอกาส 72% ที่อีเมลจะเป็นสแปม
  • มีโอกาส 28% ที่อีเมลไม่ใช่จดหมายขยะ

โมเดลการถดถอยเชิงเส้นใช้สถาปัตยกรรมแบบ 2 ขั้นตอนต่อไปนี้

  1. โมเดลจะสร้างการคาดการณ์ดิบ (y') โดยใช้ฟังก์ชันเชิงเส้นของฟีเจอร์อินพุต
  2. โดยโมเดลจะใช้การคาดการณ์ดิบเป็นอินพุตสําหรับฟังก์ชัน sigmoid ซึ่งจะแปลงการคาดการณ์ดิบเป็นค่าระหว่าง 0 ถึง 1

โมเดลการถดถอยแบบโลจิสติกจะคาดการณ์ตัวเลขเช่นเดียวกับโมเดลการถดถอยอื่นๆ อย่างไรก็ตาม โดยทั่วไปแล้วตัวเลขนี้จะเป็นส่วนหนึ่งของโมเดลการจัดประเภทแบบไบนารี ดังนี้

  • หากตัวเลขที่คาดการณ์มากกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสที่เป็นบวก
  • หากตัวเลขที่คาดการณ์ได้น้อยกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสเชิงลบ

ดูข้อมูลเพิ่มเติมได้ที่โลจิสติกส์รีเกรชันในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ลอจิสติกส์

เวกเตอร์ของการคาดการณ์ดิบ (ไม่ใช่แบบมาตรฐาน) ที่โมเดลการจัดประเภทสร้างขึ้น ซึ่งปกติแล้วระบบจะส่งต่อไปยังฟังก์ชันการปรับมาตรฐาน หากโมเดลกำลังแก้ปัญหาการจัดประเภทหลายคลาส โดยทั่วไปแล้ว ลอจิทจะกลายเป็นอินพุตของฟังก์ชันSoftmax จากนั้นฟังก์ชัน Softmax จะสร้างเวกเตอร์ของความน่าจะเป็น (ที่ปรับมาตรฐานแล้ว) ที่มีค่า 1 ค่าสําหรับแต่ละคลาสที่เป็นไปได้

การสูญหายของบันทึก

#fundamentals

ฟังก์ชันการสูญเสียที่ใช้ในการถดถอยเชิงเส้นโลจิสติกแบบไบนารี

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้นโลจิสติก: การสูญเสียและการปรับให้เหมาะสมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อัตราส่วนแบบลอการิทึม

#fundamentals

ลอการิทึมของอัตราต่อรองของเหตุการณ์บางอย่าง

Long Short-Term Memory (LSTM)

#seq

เซลล์ประเภทหนึ่งในเครือข่ายประสาทเทียมแบบซ้ำที่ใช้ประมวลผลลำดับข้อมูลในแอปพลิเคชันต่างๆ เช่น การจดจำลายมือ การแปลด้วยคอมพิวเตอร์ และการใส่คำบรรยายแทนเสียงแทนเสียงในรูปภาพ LSTM ช่วยแก้ปัญหาการลดลงของ Gradient ที่จะเกิดขึ้นเมื่อฝึก RNN เนื่องจากลําดับข้อมูลยาว โดยเก็บประวัติไว้ในสถานะหน่วยความจําภายในตามอินพุตและบริบทใหม่จากเซลล์ก่อนหน้าใน RNN

LoRA

#language
#generativeAI

ตัวย่อของ Low-Rank Adaptability

แพ้

#fundamentals
#Metric

ในระหว่างการฝึกโมเดลที่มีการควบคุมดูแล เป็นการวัดระยะห่างระหว่างการคาดการณ์ของโมเดลกับป้ายกำกับ

ฟังก์ชันการสูญเสียจะคํานวณการสูญเสีย

ดูข้อมูลเพิ่มเติมได้ที่การหาค่าสัมประสิทธ์เชิงเส้น: ค่าการสูญเสียในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ผู้รวบรวมข้อมูลการสูญเสีย

อัลกอริทึมแมชชีนเลิร์นนิงประเภทหนึ่งที่ปรับปรุงประสิทธิภาพของโมเดลด้วยการรวมการคาดการณ์ของโมเดลหลายรายการเข้าด้วยกันและใช้การคาดการณ์เหล่านั้นเพื่อทำนายเพียงครั้งเดียว ด้วยเหตุนี้ เครื่องมือรวบรวมการสูญเสียจึงช่วยลดความแปรปรวนของการคาดการณ์และปรับปรุงความแม่นยำของการคาดการณ์ได้

เส้นโค้งการสูญเสีย

#fundamentals

ผังการสูญเสียตามจำนวนรอบการฝึก ผังต่อไปนี้แสดงเส้นโค้งการสูญเสียทั่วไป

กราฟคาร์ทีเซียนแสดงการสูญเสียเทียบกับจำนวนรอบการฝึก ซึ่งแสดงให้เห็นการสูญเสียที่ลดลงอย่างรวดเร็วในรอบแรกๆ ตามด้วยการลดลงอย่างช้าๆ และเส้นลาดชันที่ราบเรียบในช่วงรอบสุดท้าย

เส้นโค้งการสูญเสียช่วยให้คุณระบุได้ว่าเมื่อใดที่โมเดลกำลังเข้าใกล้หรือกำลังปรับให้พอดีมากเกินไป

เส้นโค้งการสูญเสียสามารถแสดงการสูญเสียประเภทต่อไปนี้ทั้งหมด

โปรดดูเส้นโค้งทั่วไปด้วย

ดูข้อมูลเพิ่มเติมได้ที่การประมาณที่มากเกินไป: การตีความเส้นโค้งการสูญเสียในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟังก์ชันการสูญเสีย

#fundamentals
#Metric

ในระหว่างการฝึกหรือทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่คำนวณการสูญเสียในกลุ่มตัวอย่าง ฟังก์ชันการสูญเสียจะแสดงผลลัพธ์การสูญเสียที่ต่ำลงสำหรับโมเดลที่ทําการคาดการณ์ได้ดี เมื่อเทียบกับโมเดลที่ทําการคาดการณ์ได้ไม่ดี

โดยทั่วไป เป้าหมายของการฝึกคือลดการสูญเสียที่ฟังก์ชันการสูญเสียแสดง

ฟังก์ชันการสูญเสียมีหลายประเภท เลือกฟังก์ชันการสูญเสียที่เหมาะสมสำหรับประเภทโมเดลที่คุณกําลังสร้าง เช่น

พื้นผิวการสูญเสีย

กราฟน้ำหนักเทียบกับน้ำหนักที่ลดลง การลดเชิงลาดมีจุดมุ่งหมายเพื่อค้นหาน้ำหนักที่ทำให้พื้นผิวการสูญเสียอยู่ในระดับต่ำสุดในพื้นที่

Low-Rank Adaptability (LoRA)

#language
#generativeAI

เทคนิคการใช้พารามิเตอร์อย่างมีประสิทธิภาพสําหรับการปรับแต่งแบบละเอียดที่จะ "ตรึง" น้ำหนักที่ผ่านการฝึกล่วงหน้าของโมเดล (เพื่อไม่ให้แก้ไขได้อีก) จากนั้นแทรกชุดน้ำหนักขนาดเล็กที่ฝึกได้ลงในโมเดล ชุดน้ำหนักที่ฝึกได้นี้ (หรือที่เรียกว่า "เมทริกซ์การอัปเดต") มีขนาดน้อยกว่าโมเดลฐานมาก จึงฝึกได้เร็วกว่ามาก

LoRA มีข้อดีดังต่อไปนี้

  • ปรับปรุงคุณภาพการคาดการณ์ของโมเดลสําหรับโดเมนที่มีการปรับแต่ง
  • ปรับแต่งได้เร็วกว่าเทคนิคที่ต้องปรับแต่งพารามิเตอร์ทั้งหมดของโมเดล
  • ลดต้นทุนการประมวลผลของการอนุมานด้วยการเปิดใช้การเรียกใช้โมเดลเฉพาะหลายรายการพร้อมกันซึ่งใช้โมเดลพื้นฐานเดียวกัน

LSTM

#seq

ตัวย่อของ Long Short-Term Memory

M

แมชชีนเลิร์นนิง

#fundamentals

โปรแกรมหรือระบบที่ฝึกโมเดลจากข้อมูลที่ป้อน โมเดลที่ผ่านการฝึกสามารถคาดการณ์ข้อมูลที่เป็นประโยชน์จากข้อมูลใหม่ (ไม่เคยเห็นมาก่อน) ซึ่งดึงมาจากการแจกแจงเดียวกันกับที่ใช้ฝึกโมเดล

แมชชีนเลิร์นนิงยังหมายถึงสาขาการศึกษาที่เกี่ยวข้องกับโปรแกรมหรือระบบเหล่านี้ด้วย

ดูข้อมูลเพิ่มเติมได้ที่หลักสูตรข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

การแปลด้วยคอมพิวเตอร์

#generativeAI

การใช้ซอฟต์แวร์ (โดยทั่วไปคือโมเดลแมชชีนเลิร์นนิง) เพื่อแปลงข้อความจากภาษาหนึ่งไปเป็นอีกภาษาหนึ่ง เช่น จากอังกฤษเป็นญี่ปุ่น

คลาสที่มีเสียงข้างมาก

#fundamentals

ป้ายกำกับที่พบบ่อยกว่าในชุดข้อมูลที่ไม่สมดุลของคลาส ตัวอย่างเช่น หากชุดข้อมูลมีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงลบจะเป็นคลาสส่วนใหญ่

ตรงข้ามกับคลาสของชนกลุ่มน้อย

ดูข้อมูลเพิ่มเติมได้ที่ชุดข้อมูล: ชุดข้อมูลที่ไม่สมดุลในบทแนะนำเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

กระบวนการตัดสินใจแบบ Markov (MDP)

#rl

กราฟที่แสดงรูปแบบการตัดสินใจซึ่งใช้การตัดสินใจ (หรือการดําเนินการ) เพื่อไปยังลําดับสถานะโดยสมมติว่าสมบัติ Markov มีผล ในการเรียนรู้ด้วยการทำซ้ำ การเปลี่ยนสถานะเหล่านี้จะแสดงผลรางวัลที่เป็นตัวเลข

พร็อพเพอร์ตี้ Markov

#rl

พร็อพเพอร์ตี้ของสภาพแวดล้อมบางรายการ ซึ่งการเปลี่ยนสถานะจะกำหนดโดยข้อมูลโดยนัยในสถานะปัจจุบันและการดำเนินการของเอเจนต์

โมเดลภาษาที่มีการปกปิด

#language

โมเดลภาษาที่คาดการณ์ความน่าจะเป็นของโทเค็นที่เป็นไปได้ที่จะเติมช่องว่างในลำดับ ตัวอย่างเช่น รูปแบบภาษาที่มีการปกปิดสามารถคํานวณความน่าจะเป็นสําหรับคําที่เป็นไปได้เพื่อแทนที่ขีดล่างในประโยคต่อไปนี้

____ ในหมวกกลับมาแล้ว

โดยปกติแล้ว เอกสารประกอบจะใช้สตริง "MASK" แทนขีดล่าง เช่น

"MASK" ในหมวกกลับมาแล้ว

โมเดลภาษาที่มีการปกปิดสมัยใหม่ส่วนใหญ่เป็นแบบแบบ 2 ทิศทาง

matplotlib

ไลบรารีผัง 2 มิติแบบโอเพนซอร์สของ Python matplotlib ช่วยให้คุณแสดงภาพด้านต่างๆ ของแมชชีนเลิร์นนิง

การแยกตัวประกอบเมทริกซ์

#recsystems

ในคณิตศาสตร์ กลไกในการค้นหาเมทริกซ์ที่มีผลคูณจุดใกล้เคียงกับเมทริกซ์เป้าหมาย

ในระบบการแนะนำ มักมีการจัดเก็บการให้คะแนนของผู้ใช้สำหรับรายการไว้ในเมทริกซ์เป้าหมาย ตัวอย่างเช่น ตารางเป้าหมายสําหรับระบบการแนะนําภาพยนตร์อาจมีลักษณะดังต่อไปนี้ โดยที่จำนวนเต็มบวกคือคะแนนของผู้ใช้ และ 0 หมายความว่าผู้ใช้ไม่ได้ให้คะแนนภาพยนตร์

  คาสซาบลางกา The Philadelphia Story แบล็ค แพนเธอร์ (Black Panther) Wonder Woman Pulp Fiction
ผู้ใช้ 1 5.0 3.0 0.0 2.0 0.0
ผู้ใช้ 2 4.0 0.0 0.0 1.0 5.0
ผู้ใช้ 3 3.0 1.0 4.0 5.0 0.0

ระบบการแนะนำภาพยนตร์มีเป้าหมายเพื่อคาดคะเนคะแนนของผู้ใช้สำหรับภาพยนตร์ที่ไม่มีการจัดประเภท เช่น ผู้ใช้ 1 จะชอบ Black Panther ไหม

แนวทางหนึ่งสําหรับระบบการแนะนําคือการใช้การแยกแยะเมทริกซ์เพื่อสร้างเมทริกซ์ 2 รายการต่อไปนี้

ตัวอย่างเช่น การใช้การแยกแยะเมทริกซ์กับผู้ใช้ 3 รายและสินค้า 5 รายการอาจให้ผลลัพธ์เป็นเมทริกซ์ผู้ใช้และเมทริกซ์สินค้าดังต่อไปนี้

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

ผลคูณจุดของเมทริกซ์ผู้ใช้และเมทริกซ์รายการจะให้เมทริกซ์การแนะนำที่มีทั้งคะแนนเดิมของผู้ใช้และค่าคาดการณ์สำหรับภาพยนตร์ที่ผู้ใช้แต่ละรายยังไม่ได้ดู ตัวอย่างเช่น คะแนนของผู้ใช้ 1 สำหรับ Casablanca คือ 5.0 ผลคูณจุดที่สอดคล้องกับเซลล์นั้นในเมทริกซ์คําแนะนําควรอยู่ในช่วงประมาณ 5.0 ซึ่งก็คือ

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

ที่สำคัญกว่านั้นคือ ผู้ใช้ 1 จะชอบ Black Panther ไหม ผลคูณจุดที่สอดคล้องกับแถวแรกและคอลัมน์ที่ 3 ให้คะแนนที่คาดการณ์ไว้ 4.3

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

โดยทั่วไปแล้ว การแยกตัวประกอบเมทริกซ์จะให้เมทริกซ์ผู้ใช้และเมทริกซ์รายการที่รวมกันแล้วมีความกะทัดรัดกว่าเมทริกซ์เป้าหมายอย่างมาก

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ (MAE)

#Metric

การสูญเสียโดยเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย L1 คํานวณค่าเฉลี่ยความผิดพลาดสัมบูรณ์ดังนี้

  1. คำนวณการสูญเสีย L1 ของกลุ่ม
  2. หารความสูญเสีย L1 ด้วยจํานวนตัวอย่างในชุด

ตัวอย่างเช่น ลองพิจารณาการคำนวณการสูญเสีย L1 ในตัวอย่าง 5 รายการต่อไปนี้

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ของโมเดล การสูญเสีย (ความแตกต่างระหว่างค่าจริงกับค่าที่คาดการณ์)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = แพ้ L1

ดังนั้น ผลลัพธ์ของ L1 คือ 8 และจำนวนตัวอย่างคือ 5 ดังนั้น ค่าเฉลี่ยความผิดพลาดสัมบูรณ์คือ

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

เปรียบเทียบค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์กับความคลาดเคลื่อนเฉลี่ยกำลังสอง และค่าเฉลี่ยความคลาดเคลื่อนกำลังสองของราก

ความแม่นยำเฉลี่ยของค่าเฉลี่ยที่ k (mAP@k)

#language
#generativeAI
#Metric

ค่าเฉลี่ยทางสถิติของคะแนนความแม่นยำเฉลี่ยที่ k ทั้งหมดในชุดข้อมูลที่ใช้ตรวจสอบ การใช้ความแม่นยำเฉลี่ยที่ k อย่างหนึ่งคือเพื่อตัดสินคุณภาพของคําแนะนําที่ระบบคําแนะนําสร้างขึ้น

แม้ว่าวลี "ค่าเฉลี่ยถ่วงน้ำหนัก" จะฟังดูซ้ำซ้อน แต่ชื่อเมตริกก็เหมาะสม ท้ายที่สุดแล้ว เมตริกนี้จะหาค่ามัธยฐานของความแม่นยําเฉลี่ยที่ k หลายค่า

ความคลาดเคลื่อนเฉลี่ยกำลังสอง (MSE)

#Metric

การสูญเสียโดยเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย L2 คำนวณความคลาดเคลื่อนกำลังสองเฉลี่ยดังนี้

  1. คํานวณการสูญเสีย L2 สําหรับกลุ่ม
  2. หารความสูญเสีย L2 ด้วยจํานวนตัวอย่างในชุด

ตัวอย่างเช่น ลองพิจารณาการสูญเสียในตัวอย่าง 5 รายการต่อไปนี้

มูลค่าที่แท้จริง การคาดการณ์ของโมเดล แพ้ ผลต่างของค่ากำลังสอง
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = แพ้ L2

ดังนั้น ความคลาดเคลื่อนเฉลี่ยกำลังสองคือ

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

ความคลาดเคลื่อนเฉลี่ยกำลังสองเป็นเครื่องมือเพิ่มประสิทธิภาพการฝึกอบรมที่ได้รับความนิยม โดยเฉพาะสําหรับการถดถอยเชิงเส้น

เปรียบเทียบความคลาดเคลื่อนกำลังสองเฉลี่ยกับค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ และค่าเฉลี่ยความคลาดเคลื่อนกำลังสองของราก

TensorFlow Playground ใช้ Mean Squared Error เพื่อคํานวณค่าการสูญเสีย

Mesh

#TensorFlow
#GoogleCloud

ในโปรแกรมขนานของ ML เป็นคําที่เชื่อมโยงกับการกำหนดข้อมูลและรูปแบบให้กับชิป TPU รวมถึงการกำหนดวิธีแบ่งหรือทำซ้ำค่าเหล่านี้

Mesh เป็นคําที่มีความหมายหลายอย่าง ซึ่งอาจหมายถึงอย่างใดอย่างหนึ่งต่อไปนี้

  • เลย์เอาต์ของชิป TPU จริง
  • โครงสร้างเชิงตรรกะนามธรรมสำหรับการแมปข้อมูลและโมเดลไปยังชิป TPU

ไม่ว่าจะในกรณีใด จะมีการระบุเมชเป็นรูปร่าง

การเรียนรู้เชิงเมตา

#language

ชุดย่อยของแมชชีนเลิร์นนิงที่ค้นพบหรือปรับปรุงอัลกอริทึมการเรียนรู้ ระบบการเรียนรู้เชิงเมตายังอาจมุ่งฝึกโมเดลให้เรียนรู้งานใหม่ได้อย่างรวดเร็วจากข้อมูลเพียงเล็กน้อยหรือจากประสบการณ์ที่ได้รับจากงานก่อนหน้านี้ โดยทั่วไปแล้ว อัลกอริทึมการเรียนรู้เชิงเมตาจะพยายามบรรลุเป้าหมายต่อไปนี้

  • ปรับปรุงหรือเรียนรู้ฟีเจอร์ที่วิศวกรเขียนขึ้นเอง (เช่น ตัวเริ่มต้นหรือเครื่องมือเพิ่มประสิทธิภาพ)
  • ใช้ข้อมูลและการคำนวณอย่างมีประสิทธิภาพมากขึ้น
  • ปรับปรุงการทั่วไป

การเรียนรู้เชิงเมตาเกี่ยวข้องกับการเรียนรู้แบบดูตัวอย่างน้อย

เมตริก

#TensorFlow
#Metric

สถิติที่คุณสนใจ

วัตถุประสงค์คือเมตริกที่ระบบแมชชีนเลิร์นนิงพยายามเพิ่มประสิทธิภาพ

Metrics API (tf.metrics)

#Metric

TensorFlow API สําหรับการประเมินโมเดล เช่น tf.metrics.accuracy จะกําหนดความถี่ที่การคาดการณ์ของโมเดลตรงกับป้ายกํากับ

มินิแบทช์

#fundamentals

ชุดย่อยขนาดเล็กที่เลือกแบบสุ่มของกลุ่มที่ประมวลผลในรอบเดียว ขนาดกลุ่มของมินิแบทช์มักจะอยู่ระหว่าง 10 ถึง 1,000 ตัวอย่าง

ตัวอย่างเช่น สมมติว่าชุดการฝึกทั้งหมด (กลุ่มเต็ม) ประกอบด้วยตัวอย่าง 1,000 รายการ สมมติว่าคุณตั้งค่าขนาดกลุ่มของมินิกลุ่มแต่ละกลุ่มเป็น 20 ดังนั้น การวนซ้ำแต่ละครั้งจะกำหนดการสูญเสียในตัวอย่าง 20 รายการแบบสุ่มจาก 1,000 รายการ จากนั้นจึงปรับน้ำหนักและความลำเอียงตามความเหมาะสม

การคํานวณการสูญเสียในมินิแบตช์มีประสิทธิภาพมากกว่าการสูญเสียในตัวอย่างทั้งหมดในแบตช์แบบเต็ม

ดูข้อมูลเพิ่มเติมได้ที่การหาค่าสัมประสิทธ์เชิงเส้น: ตัวแปรพหุนามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การลดเชิงสถิติแบบกลุ่มย่อย

อัลกอริทึมการลดเชิงลาดที่ใช้กลุ่มย่อย กล่าวคือ วิธีการลดเชิงลาดแบบสุ่มเป็นกลุ่มเล็กๆ จะประมาณค่าความชันตามข้อมูลชุดย่อยเล็กๆ ของข้อมูลการฝึก การลดเชิงลาดแบบสุ่มแบบปกติใช้มินิแบทช์ขนาด 1

ความเสียหายแบบ Minimax

#Metric

ฟังก์ชันการสูญเสียสําหรับGenerative Adversarial Network ซึ่งอิงตาม Cross-Entropy ระหว่างการแจกแจงข้อมูลที่สร้างและข้อมูลจริง

มีการสูญเสียแบบ Minimax ในบทความแรกเพื่ออธิบาย Generative Adversarial Network

ดูข้อมูลเพิ่มเติมเกี่ยวกับฟังก์ชันการสูญเสียได้ในหลักสูตร Generative Adversarial Networks

คลาสสำหรับชนกลุ่มน้อย

#fundamentals

ป้ายกำกับที่พบน้อยกว่าในชุดข้อมูลที่เกิดความไม่สมดุลของคลาส เช่น หากชุดข้อมูลมีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงบวกจะเป็นคลาสส่วนน้อย

เปรียบเทียบกับคลาสส่วนใหญ่

ดูข้อมูลเพิ่มเติมได้ที่ชุดข้อมูล: ชุดข้อมูลที่ไม่สมดุลในบทแนะนำเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

ผู้เชี่ยวชาญหลากหลายสาขา

#language
#generativeAI

รูปแบบที่เพิ่มประสิทธิภาพของเครือข่ายประสาทเทียมด้วยการใช้เฉพาะชุดย่อยของพารามิเตอร์ (เรียกว่าผู้เชี่ยวชาญ) เพื่อประมวลผลโทเค็นอินพุตหรือตัวอย่างที่ระบุ เครือข่ายการกำหนดสิทธิ์จะส่งโทเค็นอินพุตหรือตัวอย่างแต่ละรายการไปยังผู้เชี่ยวชาญที่เหมาะสม

โปรดดูรายละเอียดในเอกสารต่อไปนี้

ML

ตัวย่อของแมชชีนเลิร์นนิง

MMIT

#language
#image
#generativeAI

ตัวย่อของ Multimodal Instruction-Tuned

MNIST

#image

ชุดข้อมูลสาธารณสมบัติที่ LeCun, Cortes และ Burges รวบรวมไว้ซึ่งมีรูปภาพ 60,000 ภาพ โดยแต่ละภาพแสดงวิธีที่มนุษย์เขียนตัวเลข 0-9 ด้วยตนเอง ระบบจะจัดเก็บรูปภาพแต่ละรูปเป็นอาร์เรย์จำนวนเต็มขนาด 28x28 โดยที่จำนวนเต็มแต่ละค่าจะเป็นค่าสีเทาระหว่าง 0 ถึง 255 (รวม)

MNIST เป็นชุดข้อมูล Canonical สําหรับแมชชีนเลิร์นนิง ซึ่งมักใช้ในการทดสอบแนวทางใหม่ๆ ของแมชชีนเลิร์นนิง โปรดดูรายละเอียดที่ ฐานข้อมูล MNIST ของตัวเลขที่เขียนด้วยมือ

รูปแบบ

#language

หมวดหมู่ข้อมูลระดับสูง เช่น ตัวเลข ข้อความ รูปภาพ วิดีโอ และเสียงเป็นรูปแบบที่แตกต่างกัน 5 รูปแบบ

รุ่น

#fundamentals

โดยทั่วไปแล้ว หมายถึงโครงสร้างทางคณิตศาสตร์ที่ประมวลผลข้อมูลอินพุตและแสดงผลลัพธ์ กล่าวอย่างละเอียดคือ โมเดลคือชุดพารามิเตอร์และโครงสร้างที่จําเป็นสําหรับให้ระบบทําการคาดการณ์ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะรับตัวอย่างเป็นอินพุตและอนุมานการคาดการณ์เป็นเอาต์พุต โมเดลแมชชีนเลิร์นนิงที่มีการควบคุมดูแลจะแตกต่างกันไปบ้าง เช่น

คุณสามารถบันทึก กู้คืน หรือทำสำเนาของรูปแบบได้

แมชชีนเลิร์นนิงแบบไม่ควบคุมดูแลยังสร้างโมเดลด้วย โดยปกติแล้วจะเป็นฟังก์ชันที่สามารถแมปตัวอย่างอินพุตกับคลัสเตอร์ที่เหมาะสมที่สุด

ความจุของโมเดล

#Metric

ความซับซ้อนของปัญหาที่โมเดลสามารถเรียนรู้ ยิ่งโมเดลเรียนรู้ปัญหาที่ซับซ้อนได้มากเท่าใด ความสามารถของโมเดลก็จะยิ่งสูงขึ้นเท่านั้น โดยปกติแล้ว ความสามารถของโมเดลจะเพิ่มขึ้นตามจำนวนพารามิเตอร์ของโมเดล ดูคำจำกัดความอย่างเป็นทางการของความสามารถในการจัดประเภทได้ที่มิติข้อมูล VC

การซ้อนโมเดล

#generativeAI

ระบบที่เลือกโมเดลที่เหมาะสมสําหรับการค้นหาการอนุมานที่เฉพาะเจาะจง

ลองจินตนาการถึงกลุ่มโมเดลที่มีตั้งแต่ขนาดใหญ่มาก (มีพารามิเตอร์จํานวนมาก) ไปจนถึงขนาดเล็กมาก (พารามิเตอร์จํานวนน้อยมาก) โมเดลขนาดใหญ่มากจะใช้ทรัพยากรการประมวลผลมากกว่าเมื่อถึงเวลาการอนุมานเมื่อเทียบกับโมเดลขนาดเล็ก อย่างไรก็ตาม โดยทั่วไปแล้วโมเดลขนาดใหญ่มากจะอนุมานคำขอที่ซับซ้อนได้มากกว่าโมเดลขนาดเล็ก การซ้อนโมเดลจะกําหนดความซับซ้อนของคําขออนุมาน จากนั้นจะเลือกโมเดลที่เหมาะสมเพื่อดําเนินการอนุมาน แรงจูงใจหลักของการใช้โมเดลตามลำดับขั้นคือการลดต้นทุนการอนุมานโดยปกติแล้วระบบจะเลือกโมเดลขนาดเล็ก และเลือกโมเดลขนาดใหญ่สําหรับการค้นหาที่ซับซ้อนมากขึ้นเท่านั้น

ลองจินตนาการว่าโมเดลขนาดเล็กทํางานบนโทรศัพท์และโมเดลเวอร์ชันที่ใหญ่กว่าทํางานบนเซิร์ฟเวอร์ระยะไกล การเรียงลําดับโมเดลที่ดีจะช่วยลดต้นทุนและเวลาในการตอบสนองโดยทำให้โมเดลขนาดเล็กจัดการคําของ่ายๆ ได้ และเรียกใช้เฉพาะโมเดลระยะไกลเพื่อจัดการคําขอที่ซับซ้อน

โปรดดูเราเตอร์จำลองด้วย

การทํางานแบบขนานของโมเดล

#language

วิธีปรับขนาดการฝึกหรือการทำนายที่วางส่วนต่างๆ ของโมเดลหนึ่งไว้ในอุปกรณ์ที่แตกต่างกัน การทำงานแบบขนานของโมเดลทำให้ใช้โมเดลที่มีขนาดใหญ่เกินกว่าที่จะใส่ลงในอุปกรณ์เครื่องเดียวได้

โดยทั่วไปแล้ว ระบบจะใช้การทำงานแบบขนานของโมเดลดังนี้

  1. แยก (แบ่ง) โมเดลออกเป็นส่วนเล็กๆ
  2. กระจายการฝึกของชิ้นส่วนขนาดเล็กเหล่านั้นไปยังหลายโปรเซสเซอร์ โปรเซสเซอร์แต่ละตัวจะฝึกโมเดลส่วนของตัวเอง
  3. รวมผลลัพธ์เพื่อสร้างโมเดลเดียว

การทำงานแบบขนานของโมเดลจะทำให้การฝึกช้าลง

โปรดดูการขนานกันของข้อมูลด้วย

เราเตอร์จำลอง

#generativeAI

อัลกอริทึมที่กําหนดโมเดลที่เหมาะสมสําหรับการอนุมานในการจัดเรียงโมเดลตามลําดับชั้น โดยปกติแล้ว ตัวกำหนดเส้นทางโมเดลจะเป็นโมเดลแมชชีนเลิร์นนิงที่ค่อยๆ เรียนรู้วิธีเลือกโมเดลที่ดีที่สุดสําหรับอินพุตหนึ่งๆ อย่างไรก็ตาม ในบางครั้ง รูทเตอร์โมเดลอาจเป็นอัลกอริทึมที่ไม่เกี่ยวข้องกับแมชชีนเลิร์นนิงและเรียบง่ายกว่า

การฝึกโมเดล

กระบวนการระบุรูปแบบที่ดีที่สุด

MOE

#language
#image
#generativeAI

ตัวย่อของ mixture of experts

สร้างกระแส

อัลกอริทึมการลดเชิงลาดที่มีความซับซ้อน ซึ่งขั้นตอนการเรียนรู้จะขึ้นอยู่กับอนุพันธ์ในขั้นตอนปัจจุบันเท่านั้น แต่ยังขึ้นอยู่กับอนุพันธ์ของขั้นตอนก่อนหน้าด้วย โมเมนตัมเกี่ยวข้องกับการคํานวณค่าเฉลี่ยเคลื่อนที่ถ่วงน้ำหนักแบบเอ็กซ์โพเนนเชียลของอนุพันธ์เมื่อเวลาผ่านไป ซึ่งคล้ายกับโมเมนตัมในฟิสิกส์ บางครั้งโมเมนตัมอาจป้องกันไม่ให้การเรียนรู้ติดอยู่ในจุดต่ำสุดในพื้นที่

MT

#generativeAI

ตัวย่อของการแปลด้วยคอมพิวเตอร์

การจัดประเภทแบบหลายคลาส

#fundamentals

ในการเรียนรู้แบบควบคุม ปัญหาการจัดประเภทซึ่งชุดข้อมูลมีป้ายกำกับคลาสมากกว่า 2 คลาส ตัวอย่างเช่น ป้ายกำกับในชุดข้อมูล Iris ต้องเป็นคลาสใดคลาสหนึ่งต่อไปนี้

  • Iris setosa
  • Iris virginica
  • Iris versicolor

โมเดลที่ฝึกในชุดข้อมูล Iris ซึ่งคาดการณ์ประเภท Iris จากตัวอย่างใหม่จะทําการจัดประเภทแบบหลายคลาส

ในทางตรงกันข้าม ปัญหาการจัดประเภทที่แยกแยะระหว่างคลาส 2 คลาสเท่านั้นคือโมเดลการจัดประเภทแบบไบนารี เช่น โมเดลอีเมลที่คาดการณ์ว่าเป็นจดหมายขยะหรือไม่ใช่จดหมายขยะเป็นโมเดลการจัดประเภทแบบไบนารี

ในปัญหาการคลัสเตอร์ การจัดประเภทแบบหลายคลาสหมายถึงคลัสเตอร์มากกว่า 2 คลัสเตอร์

ดูข้อมูลเพิ่มเติมได้ที่เครือข่ายประสาท: การแยกประเภทหลายคลาสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การถดถอยแบบโลจิสติกหลายคลาส

การใช้การถดถอยเชิงโลจิสติกในปัญหาการจัดประเภทแบบหลายคลาส

การใส่ใจตนเองแบบหลายหัว

#language

ส่วนขยายของ Self-Attention ที่ใช้กลไก Self-Attention หลายครั้งสําหรับตําแหน่งแต่ละตําแหน่งในลําดับอินพุต

Transformer เปิดตัวการใส่ใจตนเองแบบ Multi-Head

ปรับแต่งคำสั่งแบบหลายรูปแบบ

#language

โมเดลที่ปรับตามคำสั่งซึ่งสามารถประมวลผลอินพุตได้นอกเหนือจากข้อความ เช่น รูปภาพ วิดีโอ และเสียง

โมเดลหลายรูปแบบ

#language

โมเดลที่มีอินพุต เอาต์พุต หรือทั้ง 2 อย่างมีรูปแบบมากกว่า 1 รูปแบบ ตัวอย่างเช่น พิจารณาโมเดลที่ใช้ทั้งรูปภาพและคำบรรยายแทนเสียง (โมดาลิตี 2 รูปแบบ) เป็นฟีเจอร์ และแสดงผลคะแนนที่ระบุว่าคำบรรยายแทนเสียงมีความเหมาะสมกับรูปภาพเพียงใด ดังนั้น อินพุตของโมเดลนี้จึงเป็นแบบหลายโมดัลและเอาต์พุตเป็นแบบโมดัลเดียว

การจัดประเภทแบบหลายตัวแปร

คำพ้องความหมายของการจัดประเภทแบบหลายคลาส

การถดถอยแบบหลายตัวแปร

คำพ้องความหมายของการถดถอยแบบโลจิสติกหลายคลาส

ทำงานหลายอย่างพร้อมกัน

เทคนิคแมชชีนเลิร์นนิงที่ฝึกโมเดลเดียวให้ทํางานหลายอย่าง

โมเดลแบบมัลติทาสก์สร้างขึ้นโดยการฝึกกับข้อมูลที่เหมาะกับงานแต่ละอย่าง วิธีนี้ช่วยให้โมเดลเรียนรู้ที่จะแชร์ข้อมูลในหลายๆ งาน ซึ่งช่วยให้โมเดลเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้น

โมเดลที่ฝึกสำหรับงานหลายอย่างมักจะมีความสามารถในการสร้างข้อมูลทั่วไปที่ดีขึ้น และจัดการข้อมูลประเภทต่างๆ ได้อย่างมีประสิทธิภาพมากขึ้น

N

กับดัก NaN

เมื่อตัวเลข 1 รายการในโมเดลกลายเป็น NaN ระหว่างการฝึก ซึ่งทําให้ตัวเลขอื่นๆ จำนวนมากหรือทั้งหมดในโมเดลกลายเป็น NaN ในท้ายที่สุด

NAN เป็นตัวย่อของไม่ใช่ตัวเลข

การประมวลผลภาษาธรรมชาติ

#language
ศาสตร์ด้านการสอนคอมพิวเตอร์ให้ประมวลผลสิ่งที่ผู้ใช้พูดหรือพิมพ์โดยใช้กฎทางภาษา การประมวลผลภาษาธรรมชาติสมัยใหม่เกือบทั้งหมดอาศัยการเรียนรู้ของเครื่อง

ความเข้าใจภาษาธรรมชาติ

#language

กลุ่มย่อยของการประมวลผลภาษาธรรมชาติซึ่งระบุความตั้งใจของสิ่งที่พูดหรือพิมพ์ การทำความเข้าใจภาษาธรรมชาติทำได้มากกว่าการประมวลผลภาษาธรรมชาติ โดยพิจารณาแง่มุมที่ซับซ้อนของภาษา เช่น บริบท การสนทนาเชิงประชด และความรู้สึก

คลาสเชิงลบ

#fundamentals
#Metric

ในการจัดประเภทแบบไบนารี คลาสหนึ่งจะเรียกว่าบวก และอีกคลาสหนึ่งจะเรียกว่าลบ คลาสที่เป็นบวกคือสิ่งหรือเหตุการณ์ที่โมเดลกำลังทดสอบ และคลาสที่เป็นลบคือความเป็นไปได้อื่นๆ เช่น

  • คลาสเชิงลบในการทดสอบทางการแพทย์อาจเป็น "ไม่ใช่เนื้องอก"
  • คลาสเชิงลบในตัวจัดประเภทอีเมลอาจเป็น "ไม่ใช่สแปม"

ตรงข้ามกับคลาสที่เป็นบวก

การสุ่มตัวอย่างเชิงลบ

ตรงกับการสุ่มตัวอย่างผู้สมัคร

Neural Architecture Search (NAS)

เทคนิคการออกแบบสถาปัตยกรรมของเครือข่ายประสาทเทียมโดยอัตโนมัติ อัลกอริทึมของ NAS สามารถลดเวลาและทรัพยากรที่จําเป็นในการฝึกโครงข่ายประสาทได้

โดยปกติแล้ว NAS จะใช้สิ่งต่อไปนี้

  • ขอบเขตการค้นหา ซึ่งเป็นชุดสถาปัตยกรรมที่เป็นไปได้
  • ฟังก์ชันฟิตเนส ซึ่งเป็นการวัดประสิทธิภาพของสถาปัตยกรรมหนึ่งๆ ในงานที่เฉพาะเจาะจง

อัลกอริทึมของ NAS มักเริ่มต้นด้วยสถาปัตยกรรมที่เป็นไปได้ชุดเล็กๆ และค่อยๆ ขยายขอบเขตการค้นหาเมื่ออัลกอริทึมเรียนรู้เพิ่มเติมเกี่ยวกับสถาปัตยกรรมที่มีประสิทธิภาพ โดยปกติแล้วฟังก์ชันฟิตเนสจะอิงตามประสิทธิภาพของสถาปัตยกรรมในชุดการฝึก และโดยทั่วไปแล้วอัลกอริทึมจะได้รับการเทรนโดยใช้เทคนิคการเรียนรู้ด้วยการทำซ้ำ

อัลกอริทึม NAS พิสูจน์แล้วว่ามีประสิทธิภาพในการค้นหาสถาปัตยกรรมที่มีประสิทธิภาพสูงสําหรับงานต่างๆ ซึ่งรวมถึงการจัดประเภทรูปภาพ การจัดประเภทข้อความ และการแปลด้วยคอมพิวเตอร์

โครงข่ายระบบประสาทเทียม

#fundamentals

โมเดลที่มีเลเยอร์ที่ซ่อนอยู่อย่างน้อย 1 เลเยอร์ โครงข่ายประสาทแบบลึกเป็นโครงข่ายประสาทประเภทหนึ่งที่มีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 เลเยอร์ ตัวอย่างเช่น แผนภาพต่อไปนี้แสดงเครือข่ายประสาทเทียมที่มีชั้นที่ซ่อนอยู่ 2 ชั้น

เครือข่ายประสาทที่มีชั้นอินพุต ชั้นซ่อน 2 ชั้น และชั้นเอาต์พุต

เซลล์ประสาทแต่ละเซลล์ในเครือข่ายประสาทจะเชื่อมต่อกับโหนดทั้งหมดในชั้นถัดไป ตัวอย่างเช่น ในแผนภาพก่อนหน้า โปรดสังเกตว่าเซลล์ประสาททั้ง 3 เซลล์ในเลเยอร์ซ่อนแรกเชื่อมต่อกับเซลล์ประสาททั้ง 2 เซลล์ในเลเยอร์ซ่อนที่สองแยกกัน

บางครั้งเราเรียกโครงข่ายประสาทที่ใช้ในคอมพิวเตอร์ว่าโครงข่ายประสาทเทียมเพื่อแยกความแตกต่างจากโครงข่ายประสาทที่พบในสมองและระบบประสาทอื่นๆ

เครือข่ายประสาทบางประเภทสามารถเลียนแบบความสัมพันธ์ที่ไม่ใช่เชิงเส้นที่ซับซ้อนมากระหว่างฟีเจอร์ต่างๆ กับป้ายกำกับ

ดูข้อมูลเพิ่มเติมได้ที่โครงข่ายประสาทแบบ Convolutive และโครงข่ายประสาทแบบ Recurrent

ดูข้อมูลเพิ่มเติมเกี่ยวกับเครือข่ายประสาทเทียมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เซลล์ประสาท

#fundamentals

ในแมชชีนเลิร์นนิง หมายถึงหน่วยที่แยกต่างหากภายในเลเยอร์ที่ซ่อนอยู่ของเครือข่ายประสาทเทียม เซลล์ประสาทแต่ละเซลล์จะทําการดําเนินการ 2 ขั้นตอนต่อไปนี้

  1. คํานวณผลรวมถ่วงน้ำหนักของค่าอินพุตที่คูณด้วยน้ำหนักที่สอดคล้องกัน
  2. ส่งผลรวมถ่วงน้ำหนักเป็นอินพุตให้กับฟังก์ชันการเปิดใช้งาน

เซลล์ประสาทในชั้นซ่อนแรกจะรับอินพุตจากค่าฟีเจอร์ในชั้นอินพุต เซลล์ประสาทในชั้นซ่อนใดๆ นอกเหนือจากชั้นแรกจะรับอินพุตจากเซลล์ประสาทในชั้นซ่อนก่อนหน้า เช่น เซลล์ประสาทในเลเยอร์ซ่อนที่สองจะรับอินพุตจากเซลล์ประสาทในเลเยอร์ซ่อนแรก

ภาพประกอบต่อไปนี้ไฮไลต์เซลล์ประสาท 2 เซลล์และอินพุตของเซลล์ประสาท

เครือข่ายประสาทที่มีชั้นอินพุต ชั้นซ่อน 2 ชั้น และชั้นเอาต์พุต มีไนรอน 2 ตัวที่ไฮไลต์อยู่ 1 ตัวในเลเยอร์ซ่อนแรกและอีก 1 ตัวในเลเยอร์ซ่อนที่สอง นิวรอนที่ไฮไลต์ในชั้นซ่อนแรกรับอินพุตจากทั้ง 2 ฟีเจอร์ในชั้นอินพุต เซลล์ประสาทที่ไฮไลต์ในชั้นซ่อนที่สองรับอินพุตจากเซลล์ประสาททั้ง 3 เซลล์ในชั้นซ่อนแรก

เซลล์ประสาทในโครงข่ายระบบประสาทเทียมจะเลียนแบบการทำงานของเซลล์ประสาทในสมองและส่วนอื่นๆ ของระบบประสาท

N-gram

#seq
#language

ลําดับคํา N รายการ เช่น truly madly เป็น 2-gram เนื่องจากลำดับคำมีความเกี่ยวข้อง madly truly จึงถือเป็น 2-gram ที่แตกต่างจาก truly madly

N ชื่อของ N-gram ประเภทนี้ ตัวอย่าง
2 Bigram หรือ 2-gram to go, go to, eat lunch, eat dinner
3 3-gram กินมากเกินไป อยู่กันอย่างมีความสุขตลอดไป เสียงระฆังดังก้อง
4 4-gram เดินเล่นในสวนสาธารณะ ฝุ่นในสายลม เด็กชายกินถั่วเลนทิล

โมเดลการทำความเข้าใจภาษาธรรมชาติหลายโมเดลใช้ N-gram เพื่อคาดคะเนคำถัดไปที่ผู้ใช้จะพิมพ์หรือพูด ตัวอย่างเช่น สมมติว่าผู้ใช้พิมพ์ happily ever โมเดล NLU ที่อิงตามไตรแกรมมีแนวโน้มที่จะคาดเดาว่าผู้ใช้จะพิมพ์คำว่า after เป็นคำถัดไป

เปรียบเทียบ N-gram กับถุงคำ ซึ่งเป็นชุดคำที่ไม่มีลําดับ

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

NLP

#language

ตัวย่อของการประมวลผลภาษาธรรมชาติ

NLU

#language

ตัวย่อของความเข้าใจภาษาธรรมชาติ

โหนด (แผนภูมิการตัดสินใจ)

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขหรือใบ

แผนภูมิการตัดสินใจที่มีเงื่อนไข 2 รายการและใบ 3 ใบ

ดูข้อมูลเพิ่มเติมได้ในแผนผังการตัดสินใจในหลักสูตรป่าการตัดสินใจ

โหนด (โครงข่ายประสาทเทียม)

#fundamentals

เซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่

ดูข้อมูลเพิ่มเติมเกี่ยวกับเครือข่ายประสาทเทียมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โหนด (กราฟ TensorFlow)

#TensorFlow

การดำเนินการในกราฟ TensorFlow

เสียงรบกวน

พูดอย่างกว้างๆ คือ สิ่งใดก็ตามที่ทำให้สัญญาณในชุดข้อมูลไม่ชัดเจน สัญญาณรบกวนอาจเกิดขึ้นในข้อมูลได้หลายวิธี เช่น

  • ผู้ให้คะแนนที่เป็นมนุษย์อาจติดป้ายกำกับผิดพลาด
  • มนุษย์และเครื่องมือบันทึกค่าองค์ประกอบไม่ถูกต้องหรือละเว้นค่าองค์ประกอบ

เงื่อนไขที่ไม่ใช่ไบนารี

#df

เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ ตัวอย่างเช่น เงื่อนไขที่ไม่ใช่แบบ 2 ค่าต่อไปนี้มีผลลัพธ์ที่เป็นไปได้ 3 รายการ

เงื่อนไข (number_of_legs = ?) ที่นำไปสู่ผลลัพธ์ที่เป็นไปได้ 3 รายการ ผลลัพธ์ 1 รายการ (number_of_legs = 8) นำไปสู่ใบไม้ที่มีชื่อแมงมุม ผลลัพธ์ที่ 2 (number_of_legs = 4) นำไปสู่ใบชื่อ dog ผลลัพธ์ที่ 3 (number_of_legs = 2) นำไปสู่ใบไม้ชื่อ penguin

ดูข้อมูลเพิ่มเติมได้ในประเภทเงื่อนไขในหลักสูตรป่าการตัดสินใจ

nonlinear

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่ไม่สามารถแสดงได้โดยการบวกและการคูณเพียงอย่างเดียว ความสัมพันธ์แบบเชิงเส้นจะแสดงเป็นเส้นได้ ส่วนความสัมพันธ์แบบไม่เป็นเชิงเส้นจะแสดงเป็นเส้นไม่ได้ ตัวอย่างเช่น ลองพิจารณาโมเดล 2 รายการที่แต่ละโมเดลเชื่อมโยงฟีเจอร์เดียวกับป้ายกำกับเดียว โมเดลทางด้านซ้ายเป็นโมเดลเชิงเส้น ส่วนโมเดลทางด้านขวาเป็นโมเดลที่ไม่ใช่เชิงเส้น

ผัง 2 ผัง ผัง 1 ผังคือเส้น จึงเป็นความสัมพันธ์เชิงเส้น
          ผังอีกผังเป็นเส้นโค้ง แสดงว่าเป็นความสัมพันธ์ที่ไม่ใช่เชิงเส้น

ดูโครงข่ายระบบประสาทเทียม: โหนดและชั้นที่ซ่อนอยู่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อทดลองใช้ฟังก์ชันที่ไม่ใช่เชิงเส้นประเภทต่างๆ

อคติจากการไม่ตอบ

#fairness

ดูการเลือกแบบลำเอียง

ความไม่คงที่

#fundamentals

ฟีเจอร์ที่มีค่าเปลี่ยนแปลงไปตามมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักจะเป็นเวลา ตัวอย่างเช่น ลองดูตัวอย่างความไม่คงที่ต่อไปนี้

  • จำนวนชุดว่ายน้ำที่ขายในร้านค้าหนึ่งๆ จะแตกต่างกันไปตามฤดูกาล
  • จำนวนผลไม้ที่เก็บเกี่ยวในภูมิภาคหนึ่งๆ นั้นมีค่าเป็น 0 ตลอดทั้งปี แต่มีปริมาณมากในช่วงระยะเวลาสั้นๆ
  • อุณหภูมิเฉลี่ยรายปีมีการเปลี่ยนแปลงเนื่องจากการเปลี่ยนแปลงสภาพภูมิอากาศ

ตรงข้ามกับความคงที่

ไม่มีคำตอบที่ถูกต้อง (NORA)

#language
#generativeAI

พรอมต์ที่มีคำตอบที่เหมาะสมหลายรายการ ตัวอย่างเช่น พรอมต์ต่อไปนี้ไม่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว

เล่าเรื่องตลกเกี่ยวกับช้างให้ฟังหน่อย

การประเมินพรอมต์ที่ไม่มีคำตอบที่ถูกต้องอาจเป็นเรื่องยาก

NORA

#language
#generativeAI

ตัวย่อของคำตอบที่ถูกต้องไม่ได้มีเพียงคำตอบเดียว

การแปลงเป็นรูปแบบมาตรฐาน

#fundamentals

กล่าวโดยคร่าวๆ ก็คือ กระบวนการแปลงช่วงค่าจริงของตัวแปรเป็นช่วงค่ามาตรฐาน เช่น

  • -1 ถึง +1
  • 0 ถึง 1
  • คะแนนมาตรฐาน (ประมาณ -3 ถึง +3)

ตัวอย่างเช่น สมมติว่าช่วงค่าจริงของฟีเจอร์หนึ่งๆ คือ 800 ถึง 2,400 ในการปรับแต่งฟีเจอร์ คุณอาจทำให้ค่าจริงเป็นค่ามาตรฐานในขอบเขตมาตรฐาน เช่น -1 ถึง +1

การทำให้เป็นมาตรฐานเป็นงานที่พบได้ทั่วไปในการสร้างฟีเจอร์ โดยทั่วไปแล้ว โมเดลจะฝึกได้เร็วขึ้น (และให้การคาดการณ์ที่ดีขึ้น) เมื่อฟีเจอร์ตัวเลขทั้งหมดในเวกเตอร์ฟีเจอร์มีช่วงใกล้เคียงกัน

ดูข้อมูลเพิ่มเติมได้ที่การปรับมาตรฐานคะแนน z

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การทำให้ค่าเป็นมาตรฐานในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การตรวจหาสิ่งใหม่

กระบวนการพิจารณาว่าตัวอย่างใหม่ (ที่ไม่คุ้นเคย) มาจากชุดข้อมูลเดียวกันกับชุดข้อมูลการฝึกอบรมหรือไม่ กล่าวคือ หลังจากการฝึกชุดข้อมูล การตรวจหาข้อมูลใหม่จะระบุว่าตัวอย่างใหม่ (ระหว่างการอนุมานหรือระหว่างการฝึกเพิ่มเติม) เป็นค่าผิดปกติหรือไม่

ตรงข้ามกับการตรวจหาค่าผิดปกติ

ข้อมูลตัวเลข

#fundamentals

ฟีเจอร์ที่แสดงเป็นจำนวนเต็มหรือจำนวนจริง เช่น โมเดลการประเมินมูลค่าบ้านอาจแสดงขนาดของบ้าน (เป็นตารางฟุตหรือตารางเมตร) เป็นข้อมูลตัวเลข การนำเสนอฟีเจอร์เป็นข้อมูลตัวเลขบ่งชี้ว่าค่าของฟีเจอร์มีความสัมพันธ์ทางคณิตศาสตร์กับป้ายกำกับ กล่าวคือ จํานวนตารางเมตรในบ้านอาจมีความสัมพันธ์ทางคณิตศาสตร์กับมูลค่าของบ้าน

ข้อมูลจำนวนเต็มบางรายการไม่ควรแสดงเป็นข้อมูลตัวเลข เช่น รหัสไปรษณีย์ในบางพื้นที่ของโลกเป็นจำนวนเต็ม แต่ไม่ควรแสดงรหัสไปรษณีย์ที่เป็นจำนวนเต็มเป็นข้อมูลตัวเลขในโมเดล นั่นเป็นเพราะรหัสไปรษณีย์ 20000 ไม่ได้มีประสิทธิภาพเป็น 2 เท่า (หรือครึ่งหนึ่ง) ของรหัสไปรษณีย์ 10000 นอกจากนี้ แม้ว่ารหัสไปรษณีย์ต่างๆ จะมีความเกี่ยวข้องกับมูลค่าอสังหาริมทรัพย์ที่แตกต่างกัน แต่เราไม่สามารถสรุปได้ว่ามูลค่าอสังหาริมทรัพย์ในรหัสไปรษณีย์ 20000 มีมูลค่าเป็น 2 เท่าของมูลค่าอสังหาริมทรัพย์ในรหัสไปรษณีย์ 10000 คุณควรแสดงรหัสไปรษณีย์เป็นข้อมูลเชิงหมวดหมู่แทน

บางครั้งเราจะเรียกฟีเจอร์ที่เป็นตัวเลขว่าฟีเจอร์ต่อเนื่อง

ดูข้อมูลเพิ่มเติมที่หัวข้อการทํางานกับข้อมูลตัวเลขในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

NumPy

ไลบรารีคณิตศาสตร์แบบโอเพนซอร์ส ที่ให้การดำเนินการอาร์เรย์ที่มีประสิทธิภาพใน Python pandas สร้างขึ้นจาก NumPy

O

วัตถุประสงค์

#Metric

เมตริกที่อัลกอริทึมพยายามเพิ่มประสิทธิภาพ

ฟังก์ชันวัตถุประสงค์

#Metric

สูตรทางคณิตศาสตร์หรือเมตริกที่โมเดลมีเป้าหมายเพื่อเพิ่มประสิทธิภาพ เช่น ฟังก์ชันวัตถุประสงค์สําหรับการหาค่าสัมประสิทธ์เชิงเส้นมักจะเป็นความสูญเสียค่าเฉลี่ยสี่เหลี่ยม ดังนั้น เมื่อฝึกโมเดลการถดถอยเชิงเส้น การฝึกจะมีเป้าหมายเพื่อลดค่าเฉลี่ยของผลต่างของค่าที่คาดการณ์กับค่าจริงที่ยกกำลัง 2

ในบางกรณี เป้าหมายคือเพิ่มฟังก์ชันวัตถุประสงค์ให้มากที่สุด เช่น หากฟังก์ชันวัตถุประสงค์คือความถูกต้อง เป้าหมายคือเพื่อเพิ่มความแม่นยำสูงสุด

โปรดดูloss ด้วย

เงื่อนไขเอียง

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขที่เกี่ยวข้องกับฟีเจอร์มากกว่า 1 รายการ เช่น หากทั้งความสูงและความกว้างเป็นฟีเจอร์ เงื่อนไขต่อไปนี้จะเป็นเงื่อนไขเอียง

  height > width

ตรงข้ามกับเงื่อนไขที่สอดคล้องกับแกน

ดูข้อมูลเพิ่มเติมได้ในประเภทเงื่อนไขในหลักสูตรป่าการตัดสินใจ

ออฟไลน์

#fundamentals

คำพ้องความหมายของ static

การอนุมานแบบออฟไลน์

#fundamentals

กระบวนการที่โมเดลสร้างการคาดการณ์เป็นกลุ่ม แล้วแคช (บันทึก) การคาดการณ์เหล่านั้น จากนั้นแอปจะเข้าถึงการคาดการณ์ที่อิงตามข้อมูลที่มีอยู่จากแคชได้โดยไม่ต้องเรียกใช้โมเดลอีกครั้ง

ตัวอย่างเช่น พิจารณาโมเดลที่สร้างการพยากรณ์อากาศในพื้นที่ (การคาดการณ์) ทุก 4 ชั่วโมง หลังจากเรียกใช้แต่ละโมเดลแล้ว ระบบจะแคชการคาดการณ์สภาพอากาศในพื้นที่ทั้งหมด แอปสภาพอากาศจะดึงข้อมูลพยากรณ์อากาศจากแคช

การคํานวณผลลัพธ์แบบออฟไลน์เรียกอีกอย่างว่าการคํานวณผลลัพธ์แบบคงที่

ตรงข้ามกับการอนุมานออนไลน์

ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML เวอร์ชันที่ใช้งานจริง: การอนุมานแบบคงที่เทียบกับการอนุมานแบบไดนามิกในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเข้ารหัสแบบฮอตเดียว

#fundamentals

การนำเสนอข้อมูลเชิงหมวดหมู่เป็นเวกเตอร์โดยที่

  • องค์ประกอบหนึ่งตั้งค่าเป็น 1
  • ส่วนองค์ประกอบอื่นๆ ทั้งหมดจะตั้งค่าเป็น 0

โดยทั่วไปแล้ว การเข้ารหัสแบบฮอตเดียวจะใช้เพื่อแสดงสตริงหรือตัวระบุที่มีชุดค่าที่เป็นไปได้แบบจํากัด ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ Scandinavia มีค่าที่เป็นไปได้ 5 ค่า ดังนี้

  • "เดนมาร์ก"
  • "สวีเดน"
  • "นอร์เวย์"
  • "ฟินแลนด์"
  • "ไอซ์แลนด์"

การโค้ด One-Hot อาจแสดงค่า 5 ค่าแต่ละค่าดังนี้

country เวกเตอร์
"เดนมาร์ก" 1 0 0 0 0
"สวีเดน" 0 1 0 0 0
"นอร์เวย์" 0 0 1 0 0
"ฟินแลนด์" 0 0 0 1 0
"ไอซ์แลนด์" 0 0 0 0 1

การเข้ารหัสแบบฮอตเดียวช่วยให้โมเดลเรียนรู้การเชื่อมต่อต่างๆ ตามแต่ละประเทศทั้ง 5 ประเทศ

การนำเสนอฟีเจอร์เป็นข้อมูลตัวเลขเป็นทางเลือกแทนการเข้ารหัสแบบฮอตเดียว ขออภัย การแสดงประเทศสแกนดิเนเวียด้วยตัวเลขไม่ใช่ตัวเลือกที่ดี ตัวอย่างเช่น ลองพิจารณาการแสดงตัวเลขต่อไปนี้

  • "เดนมาร์ก" คือ 0
  • "สวีเดน" คือ 1
  • "นอร์เวย์" คือ 2
  • "ฟินแลนด์" คือ 3
  • "ไอซ์แลนด์" คือ 4

เมื่อใช้การเข้ารหัสตัวเลข โมเดลจะตีความตัวเลขดิบทางคณิตศาสตร์และพยายามฝึกด้วยตัวเลขเหล่านั้น อย่างไรก็ตาม ไอซ์แลนด์ไม่ได้มีประชากรเป็น 2 เท่า (หรือครึ่งหนึ่งของ) นอร์เวย์ ดังนั้นโมเดลจึงให้ผลสรุปที่แปลกประหลาด

ดูข้อมูลเพิ่มเติมในข้อมูลเชิงหมวดหมู่: พจนานุกรมและการเข้ารหัสแบบฮอตเวิร์กในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเรียนรู้แบบครั้งเดียว

แนวทางแมชชีนเลิร์นนิงที่มักใช้สำหรับการแยกประเภทวัตถุ ซึ่งออกแบบมาเพื่อเรียนรู้ตัวแยกประเภทที่มีประสิทธิภาพจากตัวอย่างการฝึกเพียงรายการเดียว

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบตัวอย่างน้อย และการเรียนรู้แบบไม่ใช้ตัวอย่าง

One-Shot Prompting

#language
#generativeAI

พรอมต์ที่มีตัวอย่างรายการเดียวซึ่งแสดงวิธีที่โมเดลภาษาขนาดใหญ่ควรตอบกลับ ตัวอย่างเช่น พรอมต์ต่อไปนี้มีตัวอย่าง 1 รายการที่แสดงวิธีที่โมเดลภาษาขนาดใหญ่ควรตอบคำถาม

ส่วนต่างๆ ของพรอมต์ 1 รายการ หมายเหตุ
สกุลเงินทางการของประเทศที่ระบุคืออะไร คำถามที่คุณต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR ตัวอย่างหนึ่ง
อินเดีย: คําค้นหาจริง

เปรียบเทียบพรอมต์แบบยิงครั้งเดียวกับเงื่อนไขต่อไปนี้

แบบหนึ่งเทียบกับทั้งหมด

#fundamentals

เมื่อพิจารณาปัญหาการจัดประเภทที่มี N คลาส โซลูชันประกอบด้วย ตัวแยกประเภทแบบไบนารีแยกกัน N ตัว โดยตัวแยกประเภทแบบไบนารี 1 ตัวสําหรับผลลัพธ์ที่เป็นไปได้แต่ละรายการ ตัวอย่างเช่น เมื่อพิจารณาโมเดลที่จัดประเภทตัวอย่างเป็นสัตว์ ผัก หรือแร่ธาตุ โซลูชันแบบหนึ่งเทียบกับทั้งหมดจะให้ตัวแยกประเภทไบนารีแยกกัน 3 รายการต่อไปนี้

  • สัตว์กับไม่ใช่สัตว์
  • ผักกับไม่ใช่ผัก
  • แร่ธาตุกับไม่ใช่แร่ธาตุ

ออนไลน์

#fundamentals

คำพ้องความหมายของแบบไดนามิก

การให้เหตุผลออนไลน์

#fundamentals

สร้างการคาดการณ์ตามคําขอ ตัวอย่างเช่น สมมติว่าแอปส่งอินพุตไปยังโมเดลและส่งคำขอการคาดการณ์ ระบบที่ใช้การอนุมานออนไลน์จะตอบสนองต่อคําขอด้วยการดำเนินการกับโมเดล (และแสดงการคาดการณ์ไปยังแอป)

ตรงข้ามกับการอนุมานแบบออฟไลน์

ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML เวอร์ชันที่ใช้งานจริง: การอนุมานแบบคงที่เทียบกับการอนุมานแบบไดนามิกในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การดำเนินการ (op)

#TensorFlow

ใน TensorFlow หมายถึงกระบวนการใดๆ ที่สร้าง ดัดแปลง หรือทำลาย Tensor เช่น การคูณเมทริกซ์เป็นการดำเนินการที่ใช้ Tensor 2 รายการเป็นอินพุตและสร้าง Tensor 1 รายการเป็นเอาต์พุต

Optax

ไลบรารีการประมวลผลและการเพิ่มประสิทธิภาพของ Gradient สำหรับ JAX Optax ช่วยให้การวิจัยง่ายขึ้นด้วยองค์ประกอบพื้นฐานที่นำมารวมกันใหม่ได้โดยใช้วิธีที่กำหนดเองเพื่อเพิ่มประสิทธิภาพโมเดลพารามิเตอร์ เช่น เครือข่ายประสาทเทียม เป้าหมายอื่นๆ ได้แก่

  • การติดตั้งใช้งานคอมโพเนนต์หลักที่อ่านง่าย ผ่านการทดสอบอย่างดี และมีประสิทธิภาพ
  • ปรับปรุงประสิทธิภาพการทำงานด้วยความสามารถในการรวมคอมโพเนนต์ระดับล่างเข้าด้วยกันเป็นเครื่องมือเพิ่มประสิทธิภาพที่กำหนดเอง (หรือคอมโพเนนต์การประมวลผลแบบลาดอื่นๆ)
  • เร่งการนำแนวคิดใหม่ๆ มาใช้โดยทำให้ทุกคนมีส่วนร่วมได้อย่างง่ายดาย

เครื่องมือเพิ่มประสิทธิภาพ

การใช้งานอัลกอริทึมการลดเชิงลาดโดยเฉพาะ เครื่องมือเพิ่มประสิทธิภาพยอดนิยม ได้แก่

  • AdaGrad ซึ่งย่อมาจาก ADAptive GRADient descent
  • Adam ซึ่งย่อมาจาก ADAptive with Momentum

อคติความเป็นเอกภาพของกลุ่มนอก

#fairness

แนวโน้มที่จะเห็นว่าสมาชิกนอกกลุ่มมีความคล้ายคลึงกันมากกว่าสมาชิกในกลุ่มเมื่อเปรียบเทียบทัศนคติ ค่านิยม ลักษณะบุคลิก และลักษณะอื่นๆ กลุ่มในหมายถึงคนที่คุณโต้ตอบด้วยเป็นประจำ ส่วนกลุ่มนอกหมายถึงคนที่คุณไม่ได้โต้ตอบด้วยเป็นประจำ หากคุณสร้างชุดข้อมูลโดยขอให้ผู้คนระบุแอตทริบิวต์เกี่ยวกับกลุ่มนอก แอตทริบิวต์เหล่านั้นอาจมีความซับซ้อนน้อยกว่าและเป็นไปตามแบบแผนมากกว่าแอตทริบิวต์ที่ผู้เข้าร่วมระบุสำหรับบุคคลในกลุ่มของตน

เช่น ชาวลิลลี่พูตินอาจอธิบายบ้านของชาวลิลลี่พูตินคนอื่นๆ อย่างละเอียด โดยกล่าวถึงความแตกต่างเล็กๆ น้อยๆ ในสไตล์สถาปัตยกรรม หน้าต่าง ประตู และขนาด อย่างไรก็ตาม ชาวลิลลี่พูตินคนเดียวกันอาจประกาศว่าชาวบราบิงแน็กทุกคนอาศัยอยู่ในบ้านที่เหมือนกัน

ความลำเอียงด้านความเหมือนกันของกลุ่มนอกเป็นรูปแบบของความลำเอียงในการระบุแหล่งที่มาของกลุ่ม

โปรดดูอคติที่มีต่อคนในกลุ่มด้วย

การตรวจหาค่าผิดปกติ

กระบวนการระบุค่าผิดปกติในชุดข้อมูลการฝึก

ตรงข้ามกับการตรวจหาเนื้อหาใหม่

ค่าผิดปกติ

ค่าที่อยู่ห่างจากค่าอื่นๆ ส่วนใหญ่ ในแมชชีนเลิร์นนิง ค่าต่อไปนี้ถือเป็นค่าผิดปกติ

  • ข้อมูลที่ป้อนซึ่งมีค่ามากกว่าส่วนเบี่ยงเบนมาตรฐานประมาณ 3 เท่าจากค่ามัธยฐาน
  • น้ำหนักที่มีค่าสัมบูรณ์สูง
  • ค่าที่คาดการณ์ไว้อยู่ห่างจากค่าจริงค่อนข้างมาก

ตัวอย่างเช่น สมมติว่า widget-price เป็นฟีเจอร์ของบางรุ่น สมมติว่าค่าเฉลี่ย widget-price คือ 7 ยูโรและค่าเบี่ยงเบนมาตรฐานคือ 1 ยูโร ตัวอย่างที่มี widget-price เป็น 12 ยูโรหรือ 2 ยูโรจึงจะถือว่าเป็นค่าผิดปกติ เนื่องจากราคาแต่ละรายการดังกล่าวอยู่ห่างจากค่าเฉลี่ย 5 ค่าเบี่ยงเบนมาตรฐาน

ค่าที่ผิดปกติมักเกิดจากการพิมพ์ผิดหรือข้อผิดพลาดอื่นๆ ในการป้อนข้อมูล ในบางกรณี ค่าที่ผิดปกติไม่ใช่ข้อผิดพลาด เนื่องจากค่าที่เบี่ยงเบนมาตรฐาน 5 เท่าจากค่าเฉลี่ยนั้นเกิดขึ้นได้น้อยมาก แต่ก็ไม่ใช่ว่าจะเกิดขึ้นไม่ได้

ค่าที่ผิดปกติมักทำให้เกิดปัญหาในการฝึกโมเดล การตัดเป็นหนึ่งในวิธีจัดการค่าที่ผิดปกติ

ดูข้อมูลเพิ่มเติมที่หัวข้อการทํางานกับข้อมูลตัวเลขในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การประเมินนอกกลุ่ม (การประเมิน OOB)

#df

กลไกในการประเมินคุณภาพของป่าการตัดสินใจโดยทดสอบแผนผังการตัดสินใจแต่ละรายการกับตัวอย่าง ที่ไม่ได้ใช้ระหว่างการฝึกแผนผังการตัดสินใจนั้น ตัวอย่างเช่น ในแผนภาพต่อไปนี้ โปรดสังเกตว่าระบบจะฝึกต้นไม้การตัดสินใจแต่ละต้นโดยใช้ตัวอย่างประมาณ 2 ใน 3 รายการ จากนั้นจะประเมินกับตัวอย่างที่เหลืออีก 1 ใน 3

ป่าการตัดสินใจที่ประกอบด้วยแผนผังการตัดสินใจ 3 แผน
          แผนผังการตัดสินใจ 1 รายการจะฝึกด้วยตัวอย่าง 2 ใน 3 รายการ แล้วใช้อีก 1 ใน 3 ที่เหลือเพื่อการประเมิน OOB
          แผนผังการตัดสินใจที่ 2 จะฝึกด้วยตัวอย่าง 2 ใน 3 รายการที่แตกต่างจากแผนผังการตัดสินใจก่อนหน้า จากนั้นจะใช้ 1 ใน 3 รายการที่แตกต่างจากแผนผังการตัดสินใจก่อนหน้าสําหรับการประเมิน OOB

การประเมิน Out-of-bag เป็นการประมาณที่ประหยัดและอนุรักษ์นิยมในการประมวลผลกลไกการทดสอบไขว้ ในการทดสอบไขว้ ระบบจะฝึกโมเดล 1 รายการสําหรับรอบการทดสอบไขว้แต่ละรอบ (เช่น ฝึกโมเดล 10 รายการในการทดสอบไขว้ 10 เท่า) เมื่อใช้การประเมิน OOB ระบบจะฝึกโมเดลเดียว เนื่องจากการแบ่งกลุ่มจะเก็บข้อมูลบางส่วนจากต้นไม้แต่ละต้นไว้ในระหว่างการฝึก การประเมิน OOB จึงใช้ข้อมูลดังกล่าวเพื่อประมาณการทดสอบไขว้ได้

ดูข้อมูลเพิ่มเติมที่การประเมินแบบ Out-of-bag ในหลักสูตรป่าการตัดสินใจ

เลเยอร์เอาต์พุต

#fundamentals

เลเยอร์ "สุดท้าย" ของโครงข่ายระบบประสาทเทียม เลเยอร์เอาต์พุตมีการคาดการณ์

ภาพต่อไปนี้แสดงโครงข่ายประสาทแบบลึกขนาดเล็กที่มีชั้นอินพุต ชั้นซ่อน 2 ชั้น และชั้นเอาต์พุต

เครือข่ายประสาทที่มีชั้นอินพุต 1 ชั้น ชั้นที่ซ่อนอยู่ 2 ชั้น และชั้นเอาต์พุต 1 ชั้น เลเยอร์อินพุตประกอบด้วยองค์ประกอบ 2 อย่าง เลเยอร์ซ่อนแรกประกอบด้วยนิวรอน 3 ตัว และเลเยอร์ซ่อนที่สองประกอบด้วยนิวรอน 2 ตัว เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

Overfitting

#fundamentals

การสร้างโมเดลที่ตรงกับข้อมูลการฝึกอย่างใกล้ชิดมากจนโมเดลไม่สามารถคาดการณ์ข้อมูลใหม่ได้อย่างถูกต้อง

การปรับให้เหมาะสมจะช่วยลดการประมาณที่มากเกินไปได้ การฝึกด้วยชุดข้อมูลขนาดใหญ่และหลากหลายยังช่วยลดการจับคู่ที่มากเกินไปได้อีกด้วย

ดูข้อมูลเพิ่มเติมได้ที่การประมาณมากเกินไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

oversampling

การใช้ตัวอย่างคลาสที่มีจำนวนน้อยซ้ำในชุดข้อมูลที่คลาสไม่สมดุลเพื่อสร้างชุดข้อมูลการฝึกที่สมดุลมากขึ้น

ตัวอย่างเช่น พิจารณาปัญหาการจัดประเภทแบบ 2 กลุ่ม ซึ่งมีอัตราส่วนของคลาสส่วนใหญ่ต่อคลาสส่วนน้อยคือ 5,000:1 หากชุดข้อมูลมีตัวอย่าง 1 ล้านรายการ ชุดข้อมูลจะมีตัวอย่างของคลาสที่น้อยเพียงประมาณ 200 รายการ ซึ่งอาจน้อยเกินไปสำหรับการฝึกที่มีประสิทธิภาพ หากต้องการแก้ปัญหานี้ คุณอาจต้องสุ่มตัวอย่างมากเกินไป (นําตัวอย่าง 200 รายการมาใช้ซ้ำ) หลายครั้ง ซึ่งอาจให้ตัวอย่างเพียงพอสําหรับการฝึกที่เป็นประโยชน์

คุณต้องระวังการประมาณที่มากเกินไปเมื่อสุ่มตัวอย่างมากเกินไป

ตรงข้ามกับการสุ่มตัวอย่างที่ต่ำ

P

ข้อมูลที่แพ็กไว้

แนวทางการจัดเก็บข้อมูลที่มีประสิทธิภาพมากขึ้น

ข้อมูลที่แพ็กจะจัดเก็บข้อมูลโดยใช้รูปแบบที่บีบอัดหรือด้วยวิธีอื่นๆ ที่ช่วยให้เข้าถึงข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น ข้อมูลที่แพ็กจะลดปริมาณหน่วยความจําและการคํานวณที่จําเป็นในการเข้าถึง ซึ่งทําให้การฝึกเร็วขึ้นและการอนุมานโมเดลมีประสิทธิภาพมากขึ้น

ข้อมูลที่แพ็กมักใช้ร่วมกับเทคนิคอื่นๆ เช่น การเพิ่มข้อมูลและการปรับให้เหมาะสม ซึ่งช่วยปรับปรุงประสิทธิภาพของโมเดลให้ดียิ่งขึ้น

แพนด้า

#fundamentals

API การวิเคราะห์ข้อมูลที่มุ่งเน้นคอลัมน์ซึ่งสร้างขึ้นจาก numpy เฟรมเวิร์กแมชชีนเลิร์นนิงจํานวนมาก รวมถึง TensorFlow รองรับโครงสร้างข้อมูล pandas เป็นอินพุต ดูรายละเอียดได้ในเอกสารประกอบของ pandas

พารามิเตอร์

#fundamentals

น้ำหนักและความลำเอียงที่โมเดลเรียนรู้ระหว่างการฝึก เช่น ในรูปแบบการถดถอยเชิงเส้น พารามิเตอร์ประกอบด้วยค่าอคติ (b) และน้ำหนักทั้งหมด (w1, w2 และอื่นๆ) ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในทางตรงกันข้าม ไฮเปอร์พารามิเตอร์คือค่าที่คุณ (หรือบริการการปรับแต่งไฮเปอร์พารามิเตอร์) ระบุให้กับโมเดล เช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์

การปรับแต่งพารามิเตอร์ที่มีประสิทธิภาพ

#language
#generativeAI

ชุดเทคนิคในการปรับแต่งโมเดลภาษาที่ผ่านการฝึกอบรมล่วงหน้า (PLM) ขนาดใหญ่อย่างมีประสิทธิภาพมากกว่าการปรับแต่งแบบเต็ม การปรับแต่งแบบประหยัดพารามิเตอร์มักจะปรับแต่งพารามิเตอร์น้อยกว่าการปรับแต่งแบบเต็ม แต่โดยทั่วไปจะสร้างโมเดลภาษาขนาดใหญ่ที่มีประสิทธิภาพดี (หรือเกือบเท่า) กับโมเดลภาษาขนาดใหญ่ที่สร้างจากการปรับแต่งแบบเต็ม

เปรียบเทียบการปรับแต่งที่มีประสิทธิภาพของพารามิเตอร์กับสิ่งต่อไปนี้

การปรับแต่งที่มีประสิทธิภาพของพารามิเตอร์เรียกอีกอย่างว่าการปรับแต่งอย่างละเอียดที่มีประสิทธิภาพของพารามิเตอร์

เซิร์ฟเวอร์พารามิเตอร์ (PS)

#TensorFlow

งานที่จะติดตามพารามิเตอร์ของโมเดลในสภาพแวดล้อมแบบกระจาย

การอัปเดตพารามิเตอร์

การดำเนินการปรับพารามิเตอร์ของโมเดลระหว่างการฝึก โดยปกติจะอยู่ในรอบเดียวของการลดเชิงลาด

อนุพันธ์ย่อย

อนุพันธ์ที่ถือว่าตัวแปรทั้งหมดยกเว้น 1 รายการเป็นค่าคงที่ เช่น อนุพันธ์บางส่วนของ f(x, y) เทียบกับ x คืออนุพันธ์ของ f ที่พิจารณาว่าเป็นฟังก์ชันของ x เพียงอย่างเดียว (นั่นคือ รักษา y ให้คงที่) ส่วนต่างย่อยของ f เทียบกับ x จะมุ่งเน้นที่การเปลี่ยนแปลงของ x เท่านั้น และละเว้นตัวแปรอื่นๆ ทั้งหมดในสมการ

อคติในการเข้าร่วม

#fairness

ตรงกับอคติที่ไม่ตอบ ดูการเลือกแบบลำเอียง

กลยุทธ์การแบ่งพาร์ติชัน

อัลกอริทึมที่ใช้แบ่งตัวแปรในเซิร์ฟเวอร์พารามิเตอร์

pass at k (pass@k)

#Metric

เมตริกสำหรับพิจารณาคุณภาพของโค้ด (เช่น Python) ที่โมเดลภาษาขนาดใหญ่สร้างขึ้น กล่าวอย่างเจาะจงคือ ผ่านที่ k บอกความเป็นไปได้ที่บล็อกโค้ดที่สร้างขึ้นอย่างน้อย 1 บล็อกจากบล็อกโค้ดที่สร้างขึ้น k บล็อกจะผ่านการทดสอบ 1 หน่วยทั้งหมด

โมเดลภาษาขนาดใหญ่มักสร้างโค้ดที่ดีสำหรับปัญหาการเขียนโปรแกรมที่ซับซ้อนได้ยาก วิศวกรซอฟต์แวร์ปรับตัวให้เข้ากับปัญหานี้โดยกระตุ้นให้โมเดลภาษาขนาดใหญ่สร้างโซลูชันหลายรายการ (k) สำหรับปัญหาเดียวกัน จากนั้นวิศวกรซอฟต์แวร์จะทดสอบโซลูชันแต่ละรายการกับการทดสอบ 1 หน่วย การคํานวณการผ่านที่ k ขึ้นอยู่กับผลลัพธ์ของการทดสอบหน่วยดังนี้

  • หากวิธีแก้ปัญหาเหล่านั้นอย่างน้อย 1 วิธีผ่านการทดสอบยูนิต LLM จะผ่านการทดสอบการสร้างโค้ด
  • หากไม่มีโซลูชันใดผ่านการทดสอบยูนิต LLM จะไม่ผ่านภารกิจการสร้างโค้ด

สูตรสําหรับการผ่านที่ k มีดังนี้

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

โดยทั่วไป ค่า k ที่สูงขึ้นจะให้คะแนนผ่านที่สูงกว่าที่คะแนน k อย่างไรก็ตาม ค่า k ที่สูงขึ้นต้องใช้ทรัพยากรโมเดลภาษาขนาดใหญ่และการทดสอบหน่วยมากขึ้น

Pax

เฟรมเวิร์กการเขียนโปรแกรมที่ออกแบบมาเพื่อฝึกโมเดลโครงข่ายระบบประสาทเทียมขนาดใหญ่มากจนครอบคลุม TPU ชิปเร่งความเร็ว ส่วน หรือพ็อด หลายรายการ

Pax สร้างขึ้นจาก Flax ซึ่งสร้างขึ้นจาก JAX

แผนภาพแสดงตําแหน่งของ Pax ในกองซอฟต์แวร์
          Pax สร้างขึ้นจาก JAX Pax ประกอบด้วย 3 เลเยอร์ เลเยอร์ด้านล่างมี TensorStore และ Flax
          เลเยอร์กลางประกอบด้วย Optax และ Flaxformer เลเยอร์ด้านบนมีไลบรารีการประมาณของ Praxis Fiddle สร้างขึ้นจาก Pax

เพอร์เซปตรอน

ระบบ (ฮาร์ดแวร์หรือซอฟต์แวร์) ที่ใช้ค่าอินพุตอย่างน้อย 1 ค่า เรียกใช้ฟังก์ชันกับผลรวมถ่วงน้ำหนักของอินพุต และคำนวณค่าเอาต์พุตเดียว ในแมชชีนเลิร์นนิง ฟังก์ชันมักจะไม่เป็นเชิงเส้น เช่น ReLU, sigmoid หรือ tanh ตัวอย่างเช่น เพอร์เซปตรอนต่อไปนี้ใช้ฟังก์ชัน Sigmoid เพื่อประมวลผลค่าอินพุต 3 ค่า

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

ในภาพประกอบต่อไปนี้ Perceptron จะรับอินพุต 3 รายการ โดยแต่ละรายการจะได้รับการแก้ไขโดยน้ำหนักก่อนที่จะเข้าสู่ Perceptron

เพอร์เซปตรอนที่รับอินพุต 3 รายการ โดยแต่ละรายการจะคูณด้วยน้ำหนักแยกกัน เพอร์เซปตรอนจะแสดงผลค่าเดียว

เพอร์เซปตรอนคือเซลล์ประสาทในโครงข่ายประสาทเทียม

การแสดง

#Metric

คําที่มีความหมายหลายอย่างดังนี้

  • ความหมายมาตรฐานในวิศวกรรมซอฟต์แวร์ กล่าวคือ ซอฟต์แวร์นี้ทำงานได้เร็ว (หรือมีประสิทธิภาพ) เพียงใด
  • ความหมายในแมชชีนเลิร์นนิง ประสิทธิภาพจะตอบคำถามที่ว่าโมเดลนี้ถูกต้องเพียงใด กล่าวคือ การคาดการณ์ของโมเดลนั้นแม่นยำเพียงใด

ความสําคัญของตัวแปรการจัดเรียงสับเปลี่ยน

#df
#Metric

ความสำคัญของตัวแปรประเภทหนึ่งที่ประเมินการเพิ่มขึ้นของข้อผิดพลาดในการคาดการณ์ของโมเดลหลังจากการสับเปลี่ยนค่าของฟีเจอร์ ความสำคัญของตัวแปรการสับเปลี่ยนเป็นเมตริกที่ไม่ขึ้นอยู่กับรูปแบบ

ความงงงวย

#Metric

หนึ่งในตัวชี้วัดว่าโมเดลทํางานได้ดีเพียงใด ตัวอย่างเช่น สมมติว่างานของคุณคืออ่านตัวอักษร 2-3 ตัวแรกของคำที่ผู้ใช้พิมพ์ในแป้นพิมพ์โทรศัพท์ และแสดงรายการคำที่เป็นไปได้ซึ่งเติมเต็มได้ ความสับสน P สําหรับงานนี้คือจํานวนการคาดเดาโดยประมาณที่คุณต้องเสนอเพื่อให้รายการของคุณมีคําที่ผู้ใช้พยายามพิมพ์

ความกำกวมเกี่ยวข้องกับCross-Entropy ดังนี้

$$P= 2^{-\text{cross entropy}}$$

ไปป์ไลน์

โครงสร้างพื้นฐานรอบๆ อัลกอริทึมของแมชชีนเลิร์นนิง ไปป์ไลน์ประกอบด้วยการเก็บรวบรวมข้อมูล ใส่ข้อมูลลงในไฟล์ข้อมูลการฝึก ฝึกโมเดลอย่างน้อย 1 รายการ และส่งออกโมเดลไปยังเวอร์ชันที่ใช้งานจริง

ดูข้อมูลเพิ่มเติมเกี่ยวกับไปป์ไลน์ ML ในหลักสูตรการจัดการโปรเจ็กต์ ML

การจัดลําดับ

#language

รูปแบบการทํางานแบบขนานของโมเดล ซึ่งการประมวลผลของโมเดลจะแบ่งออกเป็นระยะๆ ต่อเนื่องกันและแต่ละระยะจะทํางานในอุปกรณ์เครื่องอื่น ขณะที่ระยะหนึ่งกำลังประมวลผลกลุ่มหนึ่ง ระยะก่อนหน้าจะประมวลผลกลุ่มถัดไปได้

โปรดดูการฝึกอบรมแบบเป็นขั้นด้วย

pjit

ฟังก์ชัน JAX ที่แยกโค้ดให้ทำงานในชิปเร่งหลายตัว ผู้ใช้ส่งฟังก์ชันไปยัง pjit ซึ่งจะแสดงผลฟังก์ชันที่มีความหมายที่เทียบเท่า แต่คอมไพล์เป็นการคำนวณ XLA ที่ทำงานในอุปกรณ์หลายเครื่อง (เช่น GPU หรือแกน TPU)

pjit ช่วยให้ผู้ใช้สามารถแยกการประมวลผลได้โดยไม่ต้องเขียนใหม่โดยใช้โปรแกรมแบ่งพาร์ติชัน SPMD

ตั้งแต่เดือนมีนาคม 2023 pjit ได้รวมเข้ากับ jit แล้ว ดูรายละเอียดเพิ่มเติมได้ในหัวข้ออาร์เรย์แบบกระจายและการทำงานแบบขนานอัตโนมัติ

PLM

#language
#generativeAI

ตัวย่อของโมเดลภาษาที่ฝึกล่วงหน้า

pmap

ฟังก์ชัน JAX ที่ดำเนินการกับสำเนาของฟังก์ชันอินพุตในอุปกรณ์ฮาร์ดแวร์ที่เกี่ยวข้องหลายเครื่อง (CPU, GPU หรือ TPU) ที่มีค่าอินพุตต่างกัน pmap อาศัย SPMD

policy

#rl

ในการเรียนรู้ด้วยการทำซ้ำ การแมปแบบมีแนวโน้มของตัวแทนจากสถานะไปยังการดำเนินการ

การรวม

#image

การลดเมทริกซ์ (หรือเมทริกซ์) ที่สร้างขึ้นโดยชั้น Conv ก่อนหน้าให้เป็นเมทริกซ์ขนาดเล็กลง โดยปกติแล้วการรวมกลุ่มจะเกี่ยวข้องกับการนำค่าสูงสุดหรือค่าเฉลี่ยจากพื้นที่ที่รวม ตัวอย่างเช่น สมมติว่าเรามีเมทริกซ์ 3x3 ต่อไปนี้

เมทริกซ์ 3x3 ของ [[5,3,1], [8,2,5], [9,4,3]]

การดำเนินการรวมกลุ่มจะแบ่งเมทริกซ์ออกเป็นส่วนๆ เช่นเดียวกับการดำเนินการ Conv จากนั้นจะเลื่อนการดำเนินการ Conv นั้นตามระยะ ตัวอย่างเช่น สมมติว่าการดำเนินการการรวมจะแบ่งเมทริกซ์การกรองย่อยออกเป็นส่วนๆ ขนาด 2x2 ที่มีระยะ 1x1 ดังที่แผนภาพต่อไปนี้แสดง การดำเนินการรวมมี 4 รายการ ลองจินตนาการว่าการดำเนินการรวมแต่ละรายการจะเลือกค่าสูงสุดของ 4 รายการในส่วนนั้นๆ

เมทริกซ์อินพุตคือ 3x3 ที่มีค่า [[5,3,1], [8,2,5], [9,4,3]]
          อนุมาตร 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุตคือ [[5,3], [8,2]] ดังนั้นการดำเนินการรวมข้อมูลด้านซ้ายบนจึงให้ค่า 8 (ซึ่งเป็นค่าสูงสุดของ 5, 3, 8 และ 2) อนุมาตร 2x2 ที่ด้านขวาบนของเมทริกซ์อินพุตคือ [[3,1], [2,5]] ดังนั้นการดำเนินการการรวมที่ด้านขวาบนจึงให้ค่า 5 อนุมาตรย่อย 2x2 ที่ด้านซ้ายล่างของเมทริกซ์อินพุตคือ [[8,2], [9,4]] ดังนั้นการดำเนินการการรวมข้อมูลด้านซ้ายล่างจึงให้ค่า 9 อนุมาตร 2x2 ที่ด้านขวาล่างของเมทริกซ์อินพุตคือ [[2,5], [4,3]] ดังนั้นการดำเนินการรวมที่ด้านขวาล่างจะให้ค่า 5 โดยสรุปแล้ว การดำเนินการรวมกลุ่มจะให้ผลลัพธ์เป็นเมทริกซ์ 2x2 ดังนี้
          [[8,5], [9,5]]

การรวมกลุ่มช่วยบังคับใช้การคงที่แบบแปลในเมทริกซ์อินพุต

การรวมสำหรับแอปพลิเคชันการมองเห็นเรียกอย่างเป็นทางการว่าการรวมเชิงพื้นที่ แอปพลิเคชันอนุกรมเวลามักเรียกการรวมข้อมูลว่าการรวมข้อมูลตามช่วงเวลา Pooling มักเรียกอย่างไม่เป็นทางการว่าการสุ่มตัวอย่างย่อยหรือการสุ่มตัวอย่างลง

ดูการแนะนําโครงข่ายระบบประสาทเทียมแบบ Convolutional ในหลักสูตร ML Practicum: การแยกประเภทรูปภาพ

การเข้ารหัสตำแหน่ง

#language

เทคนิคในการเพิ่มข้อมูลเกี่ยวกับตําแหน่งของโทเค็นในลําดับไปยังการฝังของโทเค็น โมเดล Transformer ใช้การเข้ารหัสตำแหน่งเพื่อทำความเข้าใจความสัมพันธ์ระหว่างส่วนต่างๆ ของลำดับได้ดียิ่งขึ้น

การใช้งานการเข้ารหัสตำแหน่งที่พบบ่อยใช้ฟังก์ชันไซน์ (กล่าวอย่างเจาะจงคือ ความถี่และแอมพลิจูดของฟังก์ชันไซน์จะกำหนดโดยตำแหน่งของโทเค็นในลำดับ) เทคนิคนี้ช่วยให้โมเดล Transformer เรียนรู้ที่จะให้ความสำคัญกับส่วนต่างๆ ของลำดับตามตำแหน่งของส่วนนั้นๆ

คลาสที่เป็นบวก

#fundamentals
#Metric

ชั้นเรียนที่คุณทดสอบ

เช่น คลาสที่เป็นบวกในโมเดลโรคมะเร็งอาจเป็น "เนื้องอก" คลาสที่เป็นบวกในตัวจัดประเภทอีเมลอาจเป็น "จดหมายขยะ"

ตรงข้ามกับคลาสที่เป็นลบ

หลังการประมวลผล

#fairness
#fundamentals

การปรับเอาต์พุตของโมเดลหลังจากเรียกใช้โมเดลแล้ว สามารถใช้การประมวลผลหลังเพื่อให้เป็นไปตามข้อจำกัดด้านความยุติธรรมได้โดยไม่ต้องแก้ไขโมเดล

เช่น คุณอาจใช้การประมวลผลหลังการประมวลผลกับตัวแยกประเภทแบบ 2 ค่าโดยการตั้งค่าเกณฑ์การจัดประเภทเพื่อให้โอกาสที่เท่าเทียมสำหรับแอตทริบิวต์บางรายการ โดยตรวจสอบว่าอัตราผลบวกจริงเหมือนกันสำหรับค่าทั้งหมดของแอตทริบิวต์นั้น

โมเดลหลังการฝึก

#language
#image
#generativeAI

คําที่กําหนดไว้อย่างหลวมๆ ซึ่งโดยทั่วไปหมายถึงโมเดลที่ผ่านการฝึกล่วงหน้าซึ่งผ่านกระบวนการประมวลผลขั้นสุดท้ายแล้ว เช่น การดำเนินการต่อไปนี้อย่างน้อย 1 อย่าง

PR AUC (พื้นที่ใต้กราฟ PR)

#Metric

พื้นที่ใต้กราฟที่หาค่าเฉลี่ยระหว่างค่าต่างๆ ของกราฟ Precision-Recall ซึ่งหาได้จากการวางจุด (ความแม่นยำ ความแม่นยำ) สำหรับค่าต่างๆ ของเกณฑ์การจัดประเภท

Praxis

คลัง ML หลักที่มีประสิทธิภาพสูงของ Pax Praxis มักเรียกว่า "ไลบรารีเลเยอร์"

Praxis ไม่ได้มีแค่คำจำกัดความของคลาสเลเยอร์ แต่ยังรวมถึงคอมโพเนนต์สนับสนุนส่วนใหญ่ด้วย ดังนี้

Praxis ให้คําจํากัดความของคลาส Model

ความแม่นยำ

#Metric

เมตริกสําหรับโมเดลการจัดหมวดหมู่ที่ตอบคำถามต่อไปนี้

เมื่อโมเดลคาดการณ์คลาสเชิงบวก การคาดการณ์ที่ถูกต้องมีเปอร์เซ็นต์เท่าใด

สูตรมีดังนี้

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

where:

  • ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้ถูกต้อง
  • ผลบวกลวงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกโดยไม่ได้ตั้งใจ

ตัวอย่างเช่น สมมติว่าโมเดลทำการคาดการณ์เชิงบวก 200 ครั้ง จากการคาดการณ์เชิงบวก 200 รายการนี้

  • 150 รายการเป็นผลบวกจริง
  • 50 รายการเป็นผลบวกลวง

ในกรณีนี้

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

ตรงข้ามกับความแม่นยำและการจดจำ

ดูข้อมูลเพิ่มเติมได้ในการจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้องในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ความแม่นยำที่ k (precision@k)

#language
#Metric

เมตริกสําหรับประเมินรายการที่จัดอันดับ (เรียงลําดับ) ความแม่นยำที่ k จะระบุเศษส่วนของรายการ k รายการแรกในรายการนั้นซึ่ง "เกี่ยวข้อง" โดยการ

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

ค่าของ k ต้องน้อยกว่าหรือเท่ากับความยาวของลิสต์ที่แสดงผล โปรดทราบว่าความยาวของรายการที่แสดงผลไม่ได้เป็นส่วนหนึ่งของการคํานวณ

ความเกี่ยวข้องมักเป็นเรื่องส่วนตัว แม้แต่ผู้ประเมินที่เป็นมนุษย์ที่เชี่ยวชาญก็มักไม่เห็นด้วยว่ารายการใดมีความเกี่ยวข้อง

เปรียบเทียบกับ:

เส้นโค้ง Precision-Recall

#Metric

กราฟความแม่นยำเทียบกับความแม่นยำในการเรียกคืนที่เกณฑ์การจัดประเภทต่างๆ

การคาดการณ์

#fundamentals

เอาต์พุตของโมเดล เช่น

  • การคาดการณ์ของโมเดลการจัดประเภทแบบไบนารีคือคลาสเชิงบวกหรือคลาสเชิงลบ
  • การคาดการณ์ของโมเดลการจัดประเภทแบบหลายคลาสคือ 1 คลาส
  • การคาดการณ์ของโมเดลการถดถอยเชิงเส้นคือตัวเลข

อคติในการคาดการณ์

#Metric

ค่าที่ระบุระยะห่างระหว่างค่าเฉลี่ยของการคาดการณ์กับค่าเฉลี่ยของป้ายกํากับในชุดข้อมูล

โปรดอย่าสับสนกับคำที่เป็นอคติในโมเดลแมชชีนเลิร์นนิง หรืออคติด้านจริยธรรมและความเป็นธรรม

ML เชิงคาดการณ์

ระบบแมชชีนเลิร์นนิงมาตรฐาน ("คลาสสิก") ใดก็ได้

คําว่า ML เชิงคาดการณ์ไม่มีคําจํากัดความอย่างเป็นทางการ แต่ใช้เพื่อแยกหมวดหมู่ระบบ ML ที่ไม่ได้อิงตามGenerative AI

ความเท่าเทียมตามการคาดการณ์

#fairness
#Metric

เมตริกความเป็นธรรมที่ตรวจสอบว่าอัตราความแม่นยำของโปรแกรมแยกประเภทหนึ่งๆ เทียบเท่ากันสำหรับกลุ่มย่อยที่พิจารณาหรือไม่

เช่น โมเดลที่คาดการณ์การยอมรับเข้าวิทยาลัยจะต้องเป็นไปตามความเท่าเทียมในการคาดการณ์สำหรับสัญชาติหากอัตราความแม่นยำของโมเดลนั้นเหมือนกันสำหรับชาวลิลลี่ปุตและชาวบราบิงแนก

บางครั้งเราจะเรียกความเท่าเทียมตามการคาดการณ์ว่าความเท่าเทียมตามอัตราที่คาดการณ์

ดูการอภิปรายเรื่องความเท่าเทียมตามการคาดการณ์โดยละเอียดได้ที่"คำอธิบายความเท่าเทียม" (ส่วนที่ 3.2.1)

อัตราที่เท่ากันตามการคาดการณ์

#fairness
#Metric

อีกชื่อของความเท่าเทียมตามการคาดการณ์

การเตรียมข้อมูลล่วงหน้า

#fairness
ประมวลผลข้อมูลก่อนที่จะนำไปใช้ฝึกโมเดล การเตรียมข้อมูลล่วงหน้าอาจทำได้ง่ายๆ เพียงนำคำออกจากชุดข้อความภาษาอังกฤษที่ไม่ได้อยู่ในพจนานุกรมภาษาอังกฤษ หรืออาจซับซ้อนมากถึงขั้นต้องเปลี่ยนรูปแบบจุดข้อมูลใหม่ในลักษณะที่กำจัดแอตทริบิวต์ที่เชื่อมโยงกับแอตทริบิวต์ที่มีความละเอียดอ่อนให้มากที่สุด การเตรียมข้อมูลล่วงหน้าจะช่วยให้เป็นไปตามข้อจำกัดด้านความเป็นธรรม

โมเดลที่ฝึกล่วงหน้า

#language
#image
#generativeAI

โดยปกติแล้วคือโมเดลที่ผ่านการฝึกแล้ว หรืออาจหมายถึงเวกเตอร์การฝังที่ผ่านการฝึกก่อนหน้านี้

คําว่าโมเดลภาษาที่ฝึกล่วงหน้ามักหมายถึงโมเดลภาษาขนาดใหญ่ที่ผ่านการฝึกแล้ว

การฝึกขั้นต้น

#language
#image
#generativeAI

การฝึกโมเดลครั้งแรกในชุดข้อมูลขนาดใหญ่ โมเดลที่ผ่านการฝึกล่วงหน้าบางรุ่นเป็นโมเดลที่ทำงานได้ไม่ดีนัก และมักจะต้องได้รับการปรับแต่งผ่านการฝึกเพิ่มเติม ตัวอย่างเช่น ผู้เชี่ยวชาญด้าน ML อาจฝึกโมเดลภาษาขนาดใหญ่ล่วงหน้าด้วยชุดข้อมูลข้อความขนาดใหญ่ เช่น หน้าภาษาอังกฤษทั้งหมดใน Wikipedia หลังจากการฝึกล่วงหน้าแล้ว โมเดลที่ได้อาจได้รับการปรับแต่งเพิ่มเติมผ่านเทคนิคต่อไปนี้

ความเชื่อก่อนหน้า

สิ่งที่คุณเชื่อเกี่ยวกับข้อมูลก่อนที่จะเริ่มฝึก เช่น การปรับสมดุล 2 อาศัยความเชื่อก่อนหน้านี้ว่าน้ำหนักควรมีขนาดเล็กและกระจายตามปกติรอบๆ 0

โมเดลการถดถอยแบบน่าจะเป็น

โมเดลการถดถอยที่ใช้ไม่เพียงน้ำหนักสำหรับฟีเจอร์แต่ละรายการเท่านั้น แต่ยังใช้ความไม่แน่นอนของน้ำหนักเหล่านั้นด้วย โมเดลการถดถอยแบบน่าจะเป็นจะสร้างการคาดการณ์และความไม่แน่นอนของการคาดการณ์นั้น เช่น โมเดลการถดถอยแบบมีข้อมูลเป็นค่าความน่าจะเป็นอาจให้ค่าคาดการณ์ 325 โดยมีค่าความเบี่ยงเบนมาตรฐาน 12 ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลการถดถอยแบบน่าจะเป็นได้ที่ Colab ใน tensorflow.org

ฟังก์ชันความหนาแน่นของความน่าจะเป็น

#Metric

ฟังก์ชันที่ระบุความถี่ของตัวอย่างข้อมูลที่มีค่าหนึ่งๆ ตรงกันทุกประการ เมื่อค่าของชุดข้อมูลเป็นตัวเลขทศนิยมต่อเนื่อง การจับคู่ที่ตรงกันทั้งหมดจะเกิดขึ้นน้อยมาก อย่างไรก็ตาม การผสานรวมฟังก์ชันความหนาแน่นความน่าจะเป็นจากค่า x ถึงค่า y จะให้ความถี่ที่คาดไว้ของตัวอย่างข้อมูลระหว่าง x ถึง y

ตัวอย่างเช่น พิจารณาการแจกแจงแบบปกติที่มีค่าเฉลี่ย 200 และค่าเบี่ยงเบนมาตรฐาน 30 หากต้องการระบุความถี่ที่คาดไว้ของตัวอย่างข้อมูลซึ่งอยู่ในช่วง 211.4 ถึง 218.7 ให้ผสานฟังก์ชันความหนาแน่นความน่าจะเป็นของการแจกแจงแบบปกติจาก 211.4 ถึง 218.7

พรอมต์

#language
#generativeAI

ข้อความที่ป้อนเป็นอินพุตให้กับโมเดลภาษาขนาดใหญ่เพื่อปรับสภาพโมเดลให้ทำงานในลักษณะหนึ่งๆ พรอมต์อาจเป็นวลีสั้นๆ หรือยาวเท่าใดก็ได้ (เช่น ข้อความทั้งหมดของนวนิยาย) พรอมต์จะแบ่งออกเป็นหลายหมวดหมู่ ซึ่งรวมถึงหมวดหมู่ที่แสดงในตารางต่อไปนี้

หมวดหมู่พรอมต์ ตัวอย่าง หมายเหตุ
คำถาม นกพิราบบินได้เร็วแค่ไหน
โรงเรียนฝึกอบรม แต่งบทกวีตลกๆ เกี่ยวกับอาร์บิทราจ พรอมต์ที่ขอให้โมเดลภาษาขนาดใหญ่ทําบางอย่าง
ตัวอย่าง แปลโค้ด Markdown เป็น HTML ตัวอย่างเช่น
Markdown: * รายการย่อย
HTML: <ul> <li>รายการย่อย</li> </ul>
ประโยคแรกในพรอมต์ตัวอย่างนี้คือวิธีการ ส่วนที่เหลือของพรอมต์คือตัวอย่าง
บทบาท อธิบายเหตุผลที่ต้องใช้การลดเชิงลาดในการสอนแมชชีนเลิร์นนิงเพื่อรับปริญญาเอกสาขาฟิสิกส์ ส่วนแรกของประโยคคือคำสั่ง ส่วนวลี "จบปริญญาเอกสาขาฟิสิกส์" คือส่วนของบทบาท
อินพุตบางส่วนเพื่อให้โมเดลทำงานได้ นายกรัฐมนตรีของสหราชอาณาจักรอาศัยอยู่ที่ พรอมต์การป้อนข้อมูลบางส่วนอาจสิ้นสุดอย่างกะทันหัน (เช่น ตัวอย่างนี้) หรือลงท้ายด้วยขีดล่างก็ได้

โมเดล Generative AI สามารถตอบสนองต่อพรอมต์ด้วยข้อความ โค้ด รูปภาพ การฝัง วิดีโอ และแทบทุกสิ่ง

การเรียนรู้ตามพรอมต์

#language
#generativeAI

ความสามารถของโมเดลบางรายการที่ช่วยให้สามารถปรับเปลี่ยนลักษณะการทํางานเพื่อตอบสนองต่อการป้อนข้อความแบบไม่เจาะจง (พรอมต์) ในกระบวนทัศน์การเรียนรู้แบบพรอมต์ทั่วไป โมเดลภาษาขนาดใหญ่จะตอบสนองต่อพรอมต์ด้วยการสร้างข้อความ ตัวอย่างเช่น สมมติว่าผู้ใช้ป้อนพรอมต์ต่อไปนี้

สรุปกฎการเคลื่อนที่ข้อที่ 3 ของนิวตัน

โมเดลที่เรียนรู้ตามพรอมต์ไม่ได้ผ่านการฝึกมาเพื่อตอบพรอมต์ก่อนหน้าโดยเฉพาะ แต่โมเดลจะ "รู้" ข้อเท็จจริงมากมายเกี่ยวกับฟิสิกส์ กฎทั่วไปของภาษา และองค์ประกอบต่างๆ ของคำตอบที่เป็นประโยชน์โดยทั่วไป ความรู้ดังกล่าวเพียงพอที่จะให้คำตอบที่เป็นประโยชน์ (หวังว่า) ความคิดเห็นเพิ่มเติมจากผู้ใช้ ("คำตอบนั้นซับซ้อนเกินไป" หรือ "Reaction คืออะไร") จะช่วยให้ระบบการเรียนรู้แบบพรอมต์บางระบบปรับปรุงความมีประโยชน์ของคำตอบได้ทีละน้อย

การออกแบบพรอมต์

#language
#generativeAI

คำพ้องความหมายของวิศวกรรมพรอมต์

วิศวกรรมพรอมต์ (Prompt Engineering)

#language
#generativeAI

ศิลปะในการสร้างพรอมต์ที่ดึงดูดคำตอบที่ต้องการจากโมเดลภาษาขนาดใหญ่ มนุษย์ทำการเขียนข้อความแจ้ง การเขียนพรอมต์ที่มีโครงสร้างดีเป็นส่วนสําคัญในการรับคําตอบที่เป็นประโยชน์จากโมเดลภาษาขนาดใหญ่ การปรับแต่งข้อความแจ้งขึ้นอยู่กับหลายปัจจัย ได้แก่

  • ชุดข้อมูลที่ใช้ฝึกล่วงหน้าและอาจปรับแต่งโมเดลภาษาขนาดใหญ่
  • temperature และพารามิเตอร์การถอดรหัสอื่นๆ ที่โมเดลใช้ในการสร้างคำตอบ

การออกแบบพรอมต์เป็นคําพ้องกับวิศวกรรมพรอมต์

ดูรายละเอียดเพิ่มเติมเกี่ยวกับการเขียนพรอมต์ที่เป็นประโยชน์ได้ในส่วนข้อมูลเบื้องต้นเกี่ยวกับการออกแบบพรอมต์

การปรับแต่งพรอมต์

#language
#generativeAI

กลไกการปรับพารามิเตอร์อย่างมีประสิทธิภาพซึ่งจะเรียนรู้ "คำนำหน้า" ที่ระบบจะใส่ไว้ก่อนพรอมต์จริง

การปรับพรอมต์รูปแบบหนึ่ง ซึ่งบางครั้งเรียกว่าการปรับคำนำหน้าคือการใส่คำนำหน้าไว้ที่ทุกเลเยอร์ ในทางตรงกันข้าม การปรับแต่งพรอมต์ส่วนใหญ่จะเพิ่มเฉพาะคำนำหน้าในเลเยอร์อินพุต

proxy (แอตทริบิวต์ที่ละเอียดอ่อน)

#fairness
แอตทริบิวต์ที่ใช้แทนแอตทริบิวต์ที่มีความละเอียดอ่อน เช่น ระบบอาจใช้รหัสไปรษณีย์ของบุคคลเป็นพร็อกซีสําหรับรายได้ เชื้อชาติ หรือชาติพันธุ์

ป้ายกํากับพร็อกซี

#fundamentals

ข้อมูลที่ใช้ประมาณป้ายกำกับซึ่งไม่พร้อมใช้งานในชุดข้อมูลโดยตรง

ตัวอย่างเช่น สมมติว่าคุณต้องฝึกโมเดลเพื่อคาดการณ์ระดับความเครียดของพนักงาน ชุดข้อมูลของคุณมีฟีเจอร์การคาดการณ์จำนวนมาก แต่ไม่มีป้ายกำกับชื่อระดับความเครียด คุณเลือก "อุบัติเหตุที่ทำงาน" เป็นป้ายกำกับแทนระดับความเครียด ท้ายที่สุดแล้ว พนักงานที่เครียดมากจะประสบอุบัติเหตุมากกว่าพนักงานที่ใจเย็น หรือมี อุบัติเหตุที่เกิดขึ้นในที่ทํางานอาจเพิ่มขึ้นและลดลงด้วยเหตุผลหลายประการ

ตัวอย่างที่ 2 สมมติว่าคุณต้องการให้ is it raining? เป็นป้ายกำกับบูลีนสำหรับชุดข้อมูล แต่ชุดข้อมูลไม่มีข้อมูลฝน หากมีรูปภาพ คุณอาจสร้างรูปภาพคนถือร่มเป็นป้ายกำกับพร็อกซีสำหรับฝนตกไหม ป้ายกำกับพร็อกซีนี้ดีไหม เป็นไปได้ แต่ผู้คนในบางวัฒนธรรมอาจถือร่มเพื่อป้องกันแดดมากกว่าฝน

ป้ายกํากับพร็อกซีมักไม่สมบูรณ์ เลือกป้ายกำกับจริงแทนป้ายกำกับพร็อกซีเมื่อเป็นไปได้ อย่างไรก็ตาม เมื่อไม่มีป้ายกำกับจริง ให้เลือกป้ายกำกับพร็อกซีอย่างระมัดระวัง โดยเลือกป้ายกำกับพร็อกซีที่ไม่น่ากลัวที่สุด

ดูข้อมูลเพิ่มเติมที่ชุดข้อมูล: ป้ายกำกับในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟังก์ชันบริสุทธิ์

ฟังก์ชันที่มีเอาต์พุตอิงตามอินพุตเท่านั้นและไม่มีผลข้างเคียง กล่าวโดยละเอียดคือ ฟังก์ชันบริสุทธิ์จะไม่ใช้หรือเปลี่ยนแปลงสถานะส่วนกลาง เช่น เนื้อหาของไฟล์หรือค่าของตัวแปรที่อยู่นอกฟังก์ชัน

ฟังก์ชัน Pure สามารถใช้เพื่อสร้างโค้ดที่ปลอดภัยสำหรับเธรด ซึ่งมีประโยชน์เมื่อมีการแยกส่วนโค้ด model ไปยังชิปเร่งความเร็วหลายตัว

วิธีการเปลี่ยนรูปแบบฟังก์ชันของ JAX กำหนดให้ฟังก์ชันอินพุตต้องเป็นฟังก์ชันบริสุทธิ์

Q

ฟังก์ชัน Q

#rl

ในการเรียนรู้ด้วยการเพิ่มแรงเสริม ฟังก์ชันที่คาดการณ์ผลตอบแทนที่คาดไว้จากการดำเนินการในสถานะ จากนั้นทำตามนโยบายที่กำหนด

ฟังก์ชัน Q เรียกอีกอย่างว่าฟังก์ชันค่าสถานะการดําเนินการ

การเรียนรู้แบบ Q

#rl

ในการเรียนรู้ด้วยการทำซ้ำ อัลกอริทึมที่อนุญาตให้เอเจนต์เรียนรู้ฟังก์ชัน Q ที่ดีที่สุดของกระบวนการตัดสินใจแบบ Markov โดยใช้สมการของ Bellman กระบวนการตัดสินใจแบบ Markov เป็นแบบจำลองสภาพแวดล้อม

ควอร์ไทล์

ที่เก็บข้อมูลแต่ละรายการในการแบ่งกลุ่มข้อมูลตามควอร์ไทล์

การแบ่งกลุ่มข้อมูลตามควอร์ไทล์

การกระจายค่าของฟีเจอร์ออกเป็นที่เก็บเพื่อให้แต่ละที่เก็บมีตัวอย่างจำนวนเท่ากัน (หรือเกือบเท่ากัน) ตัวอย่างเช่น รูปภาพต่อไปนี้แบ่ง 44 จุดออกเป็น 4 กลุ่ม โดยแต่ละกลุ่มมี 11 จุด เพื่อให้แต่ละที่เก็บข้อมูลในรูปภาพมีจุดจํานวนเท่ากัน ที่เก็บข้อมูลบางรายการจึงมีช่วงค่า x ที่กว้างต่างกัน

จุดข้อมูล 44 จุดแบ่งออกเป็น 4 กลุ่มๆ ละ 11 จุด
          แม้ว่าแต่ละที่เก็บข้อมูลจะมีจุดข้อมูลเท่ากัน แต่ที่เก็บข้อมูลบางแห่งอาจมีค่าฟีเจอร์ที่หลากหลายกว่าที่เก็บข้อมูลอื่นๆ

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การแบ่งกลุ่มในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การแปลงเป็นจำนวนเต็ม

คําที่รับค่าได้หลายรูปแบบซึ่งอาจใช้ด้วยวิธีใดก็ได้ต่อไปนี้

  • การใช้การแบ่งกลุ่มข้อมูลตามควอร์ไทล์ในฟีเจอร์หนึ่งๆ
  • การเปลี่ยนข้อมูลให้เป็น 0 และ 1 เพื่อการจัดเก็บ การฝึก และอนุมานที่รวดเร็วขึ้น เนื่องจากข้อมูลบูลีนมีความทนทานต่อสัญญาณรบกวนและข้อผิดพลาดมากกว่ารูปแบบอื่นๆ การแปลงเป็นจำนวนเต็มจึงช่วยเพิ่มความถูกต้องของโมเดลได้ เทคนิคการแปลงค่าเป็นจำนวนเต็ม ได้แก่ การปัดเศษ การลบทศนิยม และการจัดกลุ่ม
  • การลดจํานวนบิตที่ใช้จัดเก็บพารามิเตอร์ของโมเดล ตัวอย่างเช่น สมมติว่าพารามิเตอร์ของโมเดลได้รับการจัดเก็บเป็นจํานวนจุดลอยตัว 32 บิต การแปลงเชิงปริมาณจะแปลงพารามิเตอร์เหล่านั้นจาก 32 บิตเป็น 4, 8 หรือ 16 บิต การแปลงค่าจำนวนช่วยลดสิ่งต่อไปนี้

    • การใช้งานระบบประมวลผล หน่วยความจำ ดิสก์ และเครือข่าย
    • เวลาในการอนุมานการคาดการณ์
    • การใช้พลังงาน

    อย่างไรก็ตาม บางครั้งการแปลงเป็นจำนวนเต็มอาจทำให้การคาดการณ์ของโมเดลมีความแม่นยำลดลง

คิว

#TensorFlow

การดำเนินการ TensorFlow ที่ใช้โครงสร้างข้อมูลคิว มักใช้ใน I/O

R

RAG

#fundamentals

ตัวย่อของ Generation ที่เพิ่มการดึงข้อมูล

Random Forest

#df

ชุดค่าผสมของต้นไม้การตัดสินใจ ซึ่งแต่ละต้นได้รับการฝึกด้วยสัญญาณรบกวนแบบสุ่มที่เฉพาะเจาะจง เช่น การแบ่งกลุ่ม

ป่าแบบสุ่มเป็นป่าการตัดสินใจประเภทหนึ่ง

ดูข้อมูลเพิ่มเติมในRandom Forest ในหลักสูตร Decision Forest

นโยบายแบบสุ่ม

#rl

ในการเรียนรู้ด้วยการทำซ้ำ นโยบายที่เลือกการดำเนินการแบบสุ่ม

ลําดับ (ลําดับชั้น)

ตำแหน่งตามลําดับของคลาสในปัญหาแมชชีนเลิร์นนิงที่จัดหมวดหมู่คลาสจากสูงสุดไปต่ำสุด เช่น ระบบการจัดอันดับพฤติกรรมอาจจัดอันดับรางวัลของสุนัขจากสูงสุด (สเต็ก) ไปจนถึงต่ำสุด (ผักคะน้าเหี่ยว)

rank (Tensor)

#TensorFlow

จํานวนมิติข้อมูลใน Tensor เช่น เวกเตอร์มีลําดับ 1, เมทริกซ์มีลําดับ 2 และจำนวนจริงมีลําดับ 0

โปรดอย่าสับสนกับลําดับ (ลําดับชั้น)

การจัดอันดับ

การเรียนรู้แบบควบคุมดูแลประเภทหนึ่งที่มีวัตถุประสงค์เพื่อจัดเรียงรายการ

ผู้ให้คะแนน

#fundamentals

บุคคลที่ระบุป้ายกำกับสำหรับตัวอย่าง "ผู้กำกับเนื้อหา" เป็นชื่อเรียกผู้ให้คะแนนอีกชื่อหนึ่ง

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงหมวดหมู่: ปัญหาที่พบบ่อยในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเรียกคืน

#Metric

เมตริกสําหรับโมเดลการจัดหมวดหมู่ที่ตอบคำถามต่อไปนี้

เมื่อข้อมูลจริงเป็นคลาสที่เป็นบวก เปอร์เซ็นต์การคาดการณ์ที่โมเดลระบุเป็นคลาสที่เป็นบวกอย่างถูกต้องคือเท่าใด

สูตรมีดังนี้

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

where:

  • ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้ถูกต้อง
  • ผลลบลวงหมายความว่าโมเดลคาดการณ์ผิดพลาดว่าคลาสเชิงลบ

ตัวอย่างเช่น สมมติว่าโมเดลของคุณทำการคาดการณ์ 200 ครั้งในตัวอย่างที่มีข้อมูลพื้นความจริงเป็นคลาสที่เป็นบวก จากการคาดการณ์ 200 รายการนี้

  • 180 รายการเป็นผลบวกจริง
  • 20 รายการเป็นผลลบลวง

ในกรณีนี้

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้อง

การจําที่ k (recall@k)

#language
#Metric

เมตริกสําหรับประเมินระบบที่แสดงรายการที่จัดอันดับ (เรียงลําดับ) การเรียกคืนที่ k จะระบุเศษส่วนของรายการที่เกี่ยวข้องในรายการ k รายการแรกในรายการนั้นจากจํานวนรายการที่เกี่ยวข้องทั้งหมดที่แสดง

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

เปรียบเทียบกับความแม่นยำที่ k

ระบบการแนะนำ

#recsystems

ระบบที่เลือกรายการที่ต้องการจำนวนไม่มากนักจากชุดข้อความขนาดใหญ่ให้กับผู้ใช้แต่ละราย ตัวอย่างเช่น ระบบการแนะนำวิดีโออาจแนะนำวิดีโอ 2 รายการจากคลังวิดีโอ 100,000 รายการ โดยเลือกCasablanca และThe Philadelphia Story สำหรับผู้ใช้รายหนึ่ง และWonder Woman และBlack Panther สำหรับอีกรายหนึ่ง ระบบการแนะนำวิดีโออาจใช้ปัจจัยต่อไปนี้เป็นพื้นฐานในการแนะนำ

  • ภาพยนตร์ที่ผู้ใช้ที่มีโปรไฟล์คล้ายกันให้คะแนนหรือดู
  • ประเภท ผู้กำกับ นักแสดง ข้อมูลประชากรเป้าหมาย...

ดูข้อมูลเพิ่มเติมได้ในหลักสูตรระบบการแนะนำ

Rectified Linear Unit (ReLU)

#fundamentals

ฟังก์ชันการเปิดใช้งานที่มีลักษณะการทำงานดังต่อไปนี้

  • หากอินพุตเป็นลบหรือ 0 เอาต์พุตจะเป็น 0
  • หากอินพุตเป็นค่าบวก เอาต์พุตจะเท่ากับอินพุต

เช่น

  • หากอินพุตคือ -3 เอาต์พุตจะเป็น 0
  • หากอินพุตคือ +3 เอาต์พุตจะเป็น 3.0

นี่คือผัง ReLU

ผังพิกัดคาร์ทีเซียนของ 2 เส้น บรรทัดแรกมีค่า y คงที่ที่ 0 ซึ่งวิ่งไปตามแกน x จาก -infinity,0 ถึง 0,-0
          บรรทัดที่สองเริ่มต้นที่ 0,0 เส้นนี้มีความชัน +1 ดังนั้นจึงวิ่งจาก 0,0 ถึง +infinity,+infinity

ReLU เป็นฟังก์ชันการเปิดใช้งานที่ได้รับความนิยมมาก แม้จะมีการทำงานที่เรียบง่าย แต่ ReLU ยังคงช่วยให้เครือข่ายประสาทสามารถเรียนรู้ความสัมพันธ์ที่ไม่ใช่เชิงเส้นระหว่างฟีเจอร์กับป้ายกำกับ

โครงข่ายประสาทแบบซ้ำ

#seq

เครือข่ายประสาทเทียมที่ตั้งใจให้ทํางานหลายครั้ง โดยที่ส่วนหนึ่งของการทํางานแต่ละครั้งจะป้อนข้อมูลไปยังการทํางานครั้งถัดไป กล่าวโดยละเอียดคือ เลเยอร์ที่ซ่อนอยู่จากการเรียกใช้ก่อนหน้านี้จะส่งข้อมูลส่วนหนึ่งไปยังเลเยอร์ที่ซ่อนเดียวกันในการเรียกใช้ครั้งถัดไป เครือข่ายประสาทแบบซ้ำมีประโยชน์อย่างยิ่งในการประเมินลำดับ เพื่อให้ชั้นที่ซ่อนอยู่สามารถเรียนรู้จากการเรียกใช้เครือข่ายประสาทก่อนหน้านี้ในส่วนก่อนหน้าของลำดับ

เช่น รูปภาพต่อไปนี้แสดงเครือข่ายประสาทแบบซ้ำที่ทํางาน 4 ครั้ง โปรดทราบว่าค่าที่เรียนรู้ในชั้นที่ซ่อนจากการทำงานครั้งแรกจะกลายเป็นส่วนหนึ่งของอินพุตสําหรับชั้นที่ซ่อนเดียวกันในการทํางานครั้งที่ 2 ในทํานองเดียวกัน ค่าที่เรียนรู้ในชั้นซ่อนในการเรียกใช้ครั้งที่ 2 จะกลายเป็นส่วนหนึ่งของอินพุตสําหรับชั้นซ่อนเดียวกันในการเรียกใช้ครั้งที่ 3 วิธีนี้ช่วยให้เครือข่ายประสาทแบบซ้ำๆ ค่อยๆ ฝึกและคาดการณ์ความหมายของทั้งลำดับแทนที่จะคาดการณ์ความหมายของคำแต่ละคำ

RNN ที่ทํางาน 4 ครั้งเพื่อประมวลผลคําอินพุต 4 คํา

ข้อความอ้างอิง

#language
#generativeAI

คำตอบของผู้เชี่ยวชาญต่อพรอมต์ ตัวอย่างเช่น จากพรอมต์ต่อไปนี้

แปลคำถาม "คุณชื่ออะไร" จากภาษาอังกฤษเป็นภาษาฝรั่งเศส

คำตอบของผู้เชี่ยวชาญอาจเป็นดังนี้

Comment vous appelez-vous?

เมตริกต่างๆ (เช่น ROUGE) จะวัดระดับที่ข้อความอ้างอิงตรงกับข้อความที่สร้างขึ้นของโมเดล ML

โมเดลการเกิดปัญหาซ้ำ

#fundamentals

โมเดลที่สร้างการคาดการณ์ที่เป็นตัวเลข (ในทางตรงกันข้าม โมเดลการจัดประเภทจะสร้างการคาดการณ์ระดับชั้น) ตัวอย่างเช่น รูปแบบการหาค่าสัมประสิทธิ์ถดถอยทั้งหมดมีดังนี้

  • โมเดลที่คาดการณ์มูลค่าของบ้านหลังหนึ่งเป็นสกุลเงินยูโร เช่น 423,000
  • โมเดลที่คาดการณ์อายุคาดเฉลี่ยของต้นไม้บางต้นเป็นปี เช่น 23.2
  • โมเดลที่คาดการณ์ปริมาณน้ำฝนเป็นนิ้วที่จะตกในบางเมืองในช่วง 6 ชั่วโมงข้างหน้า เช่น 0.18

โมเดลการถดถอยที่พบได้ทั่วไป 2 ประเภท ได้แก่

โมเดลที่แสดงผลลัพธ์การคาดการณ์เชิงตัวเลขบางโมเดลไม่ใช่โมเดลการถดถอย ในบางกรณี การคาดการณ์ตัวเลขเป็นเพียงโมเดลการจัดประเภทที่มีชื่อคลาสเป็นตัวเลข ตัวอย่างเช่น โมเดลที่คาดการณ์รหัสไปรษณีย์ที่เป็นตัวเลขเป็นโมเดลการจัดประเภท ไม่ใช่โมเดลการถดถอย

Regularization

#fundamentals

กลไกใดๆ ที่ช่วยลดการจับคู่ที่มากเกินไป ประเภทของการทำให้เป็นระเบียบที่ได้รับความนิยม ได้แก่

การปรับให้เหมาะสมยังหมายถึงการลดโทษความซับซ้อนของโมเดลได้ด้วย

ดูข้อมูลเพิ่มเติมได้ที่การประมาณที่มากเกินไป: ความซับซ้อนของโมเดลในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อัตราการจัดระเบียบ

#fundamentals

จํานวนที่จะระบุความสําคัญแบบสัมพัทธ์ของการปรับให้เหมาะสมระหว่างการฝึก การเพิ่มอัตราการควบคุมดูแลจะลดการจับคู่ที่มากเกินไป แต่อาจลดความสามารถในการคาดการณ์ของโมเดล ในทางกลับกัน การลดหรือละเว้นอัตราการปรับให้เหมาะสมจะทําให้เกิดการพอดีมากเกินไป

ดูข้อมูลเพิ่มเติมได้ที่การประมาณที่มากเกินไป: การปรับL2ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเรียนรู้ด้วยการทำซ้ำ (RL)

#rl

ตระกูลอัลกอริทึมที่เรียนรู้นโยบายที่เหมาะสมที่สุด โดยมีเป้าหมายเพื่อเพิ่มผลตอบแทนสูงสุดเมื่อโต้ตอบกับสภาพแวดล้อม เช่น รางวัลสูงสุดของเกมส่วนใหญ่คือการได้รับชัยชนะ ระบบการเรียนรู้ด้วยการทำซ้ำจะกลายเป็นผู้เชี่ยวชาญในการเล่นเกมที่ซับซ้อนได้โดยการประเมินลำดับของการเคลื่อนไหวในเกมก่อนหน้านี้ซึ่งนำไปสู่ชัยชนะและลำดับที่นำไปสู่การแพ้

การเรียนรู้แบบเสริมแรงจากความคิดเห็นของมนุษย์ (RLHF)

#generativeAI
#rl

ใช้ความคิดเห็นจากผู้ให้คะแนนที่เป็นมนุษย์เพื่อปรับปรุงคุณภาพของคำตอบของโมเดล เช่น กลไก RLHF อาจขอให้ผู้ใช้ให้คะแนนคุณภาพของคำตอบของโมเดลด้วยอีโมจิ 👍 หรือ 👎 จากนั้นระบบจะปรับการตอบกลับในอนาคตโดยอิงตามความคิดเห็นนั้น

ReLU

#fundamentals

ตัวย่อของ Rectified Linear Unit

บัฟเฟอร์การเล่นซ้ำ

#rl

ในอัลกอริทึมประเภท DQN หน่วยความจําที่เอเจนต์ใช้เพื่อจัดเก็บการเปลี่ยนสถานะเพื่อใช้ในการทําซ้ำประสบการณ์

ตัวจำลอง

สำเนาชุดข้อมูลการฝึกหรือโมเดล ซึ่งมักจะอยู่ในเครื่องอื่น ตัวอย่างเช่น ระบบอาจใช้กลยุทธ์ต่อไปนี้ในการใช้การขนานกันของข้อมูล

  1. วางแบบจำลองของโมเดลที่มีอยู่ไว้ในเครื่องหลายเครื่อง
  2. ส่งชุดย่อยที่แตกต่างกันของชุดการฝึกไปยังสําเนาแต่ละรายการ
  3. รวมการอัปเดตพารามิเตอร์

อคติในการรายงาน

#fairness

ความจริงที่ว่าความถี่ที่ผู้คนเขียนเกี่ยวกับการกระทำ ผลลัพธ์ หรือที่พักไม่ได้แสดงถึงความถี่ในชีวิตจริงหรือระดับที่ที่พักมีลักษณะเฉพาะของกลุ่มบุคคล ความลำเอียงในการรายงานอาจส่งผลต่อองค์ประกอบของข้อมูลที่ระบบแมชชีนเลิร์นนิงเรียนรู้

เช่น ในหนังสือ คำว่า laughed พบบ่อยกว่าbreathed โมเดลแมชชีนเลิร์นนิงที่ประมาณความถี่สัมพัทธ์ของการหัวเราะและการหายใจจากคลังหนังสืออาจพิจารณาว่าการหัวเราะพบบ่อยกว่าการหายใจ

ดูข้อมูลเพิ่มเติมได้ในความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การนำเสนอ

กระบวนการแมปข้อมูลกับฟีเจอร์ที่มีประโยชน์

การจัดอันดับใหม่

#recsystems

ระยะสุดท้ายของระบบการแนะนำ ซึ่งระบบอาจให้คะแนนรายการที่ได้รับคะแนนแล้วอีกครั้งตามอัลกอริทึมอื่นๆ (โดยทั่วไปไม่ใช่ ML) การจัดอันดับใหม่จะประเมินรายการที่สร้างขึ้นจากระยะการให้คะแนน โดยดำเนินการต่างๆ เช่น

  • การนำรายการที่ผู้ใช้ซื้อไปแล้วออก
  • เพิ่มคะแนนของรายการที่ใหม่กว่า

ดูข้อมูลเพิ่มเติมได้ในการจัดอันดับใหม่ในหลักสูตรระบบการแนะนำ

การสร้างที่เพิ่มการดึงข้อมูล (RAG)

#fundamentals

เทคนิคในการปรับปรุงคุณภาพของเอาต์พุตจากโมเดลภาษาขนาดใหญ่ (LLM) โดยอิงตามแหล่งความรู้ที่ดึงข้อมูลมาหลังจากฝึกโมเดลแล้ว RAG ช่วยเพิ่มความแม่นยำของคำตอบ LLM โดยการอนุญาตให้ LLM ที่ผ่านการฝึกอบรมเข้าถึงข้อมูลที่ดึงมาจากฐานความรู้หรือเอกสารที่เชื่อถือได้

แรงจูงใจทั่วไปในการใช้การสร้างที่เพิ่มการดึงข้อมูล ได้แก่

  • เพิ่มความแม่นยำของข้อเท็จจริงของคำตอบที่โมเดลสร้างขึ้น
  • การให้สิทธิ์เข้าถึงความรู้ที่โมเดลไม่ได้ฝึก
  • การเปลี่ยนความรู้ที่โมเดลใช้
  • การเปิดใช้โมเดลเพื่ออ้างอิงแหล่งที่มา

ตัวอย่างเช่น สมมติว่าแอปเคมีใช้ PaLM API เพื่อสร้างข้อมูลสรุปที่เกี่ยวข้องกับการค้นหาของผู้ใช้ เมื่อแบ็กเอนด์ของแอปได้รับการค้นหา แบ็กเอนด์จะดำเนินการดังนี้

  1. ค้นหา ("ดึงข้อมูล") ข้อมูลที่เกี่ยวข้องกับคําค้นหาของผู้ใช้
  2. ต่อท้าย ("เสริม") ข้อมูลเคมีที่เกี่ยวข้องลงในข้อความค้นหาของผู้ใช้
  3. สั่งให้ LLM สร้างข้อมูลสรุปตามข้อมูลที่ต่อท้าย

รีเทิร์น

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เมื่อพิจารณาจากนโยบายและสถานะหนึ่งๆ ผลตอบแทนคือผลรวมของรางวัลทั้งหมดที่เอเจนต์คาดหวังว่าจะได้รับเมื่อทำตามนโยบายจากสถานะจนถึงสิ้นสุดตอน ตัวแทนจะพิจารณาถึงลักษณะที่ล่าช้าของรางวัลที่คาดไว้โดยการหักรางวัลตามการเปลี่ยนสถานะที่จำเป็นต่อการรับรางวัล

ดังนั้น หากปัจจัยส่วนลดคือ \(\gamma\)และ \(r_0, \ldots, r_{N}\)บ่งบอกถึงรางวัลจนกว่าจะจบตอน การคำนวณผลตอบแทนจะมีลักษณะดังนี้

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

รางวัล

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ผลลัพธ์ที่เป็นตัวเลขของการทำการดำเนินการในสถานะตามที่สภาพแวดล้อมกำหนด

การปรับแนวสัน

คำพ้องความหมายของ Regularization แบบ 2 คําว่าการปรับยอดใช้ในบริบทสถิติล้วนๆ บ่อยกว่า ส่วนการปรับยอด 2 ใช้ในแมชชีนเลิร์นนิงบ่อยกว่า

RNN

#seq

ตัวย่อของ โครงข่ายประสาทแบบย้อนกลับ

เส้นโค้ง ROC (Receiver Operating Characteristic)

#fundamentals
#Metric

กราฟของอัตราผลบวกจริงเทียบกับอัตราผลบวกลวงสําหรับเกณฑ์การจัดประเภทแบบต่างๆ ในการจัดประเภทแบบไบนารี

รูปร่างของเส้นโค้ง ROC บ่งบอกถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ ตัวอย่างเช่น สมมติว่าโมเดลการจัดประเภทแบบไบนารีแยกคลาสเชิงลบทั้งหมดออกจากคลาสเชิงบวกทั้งหมดได้อย่างสมบูรณ์

เส้นจำนวนที่มีตัวอย่างบวก 8 รายการทางด้านขวาและตัวอย่างลบ 7 รายการทางด้านซ้าย

เส้นโค้ง ROC ของรูปแบบก่อนหน้ามีลักษณะดังนี้

เส้นโค้ง ROC โดยแกน X คืออัตราผลบวกลวงและแกน Y คืออัตราผลบวกจริง เส้นโค้งเป็นรูปตัว L กลับหัว เส้นโค้งจะเริ่มต้นที่ (0.0,0.0) และขึ้นตรงๆ ไปที่ (0.0,1.0) จากนั้นเส้นโค้งจะเปลี่ยนจาก (0.0,1.0) เป็น (1.0,1.0)

ในทางตรงกันข้าม ภาพประกอบต่อไปนี้แสดงกราฟค่าการถดถอยเชิงลอจิสติกส์ดิบสําหรับโมเดลที่ทํางานได้แย่มากซึ่งแยกคลาสเชิงลบออกจากคลาสเชิงบวกไม่ได้เลย

เส้นจำนวนที่มีตัวอย่างที่เป็นบวกและคลาสที่เป็นลบปะปนกัน

เส้นโค้ง ROC ของรูปแบบนี้จะมีลักษณะดังนี้

เส้นโค้ง ROC ซึ่งจริงๆ แล้วคือเส้นตรงจาก (0.0,0.0) ไป (1.0,1.0)

ในทางกลับกัน โมเดลการจัดประเภทแบบไบนารีส่วนใหญ่จะแยกคลาสที่เป็นบวกและลบในระดับหนึ่ง แต่มักจะไม่แยกได้อย่างสมบูรณ์ ดังนั้น กราฟ ROC ทั่วไปจึงอยู่ตรงกลางระหว่าง 2 ค่าสุดขั้วนี้

เส้นโค้ง ROC โดยแกน X คืออัตราผลบวกลวงและแกน Y คืออัตราผลบวกจริง เส้นโค้ง ROC แสดงเป็นเส้นโค้งที่ผันผวนซึ่งลากผ่านจุดต่างๆ ของเข็มทิศจากตะวันตกไปเหนือ

จุดบนเส้นโค้ง ROC ที่ใกล้กับ (0.0,1.0) มากที่สุดจะระบุเกณฑ์การแยกประเภทที่เหมาะสมในทางทฤษฎี อย่างไรก็ตาม ปัญหาอื่นๆ ที่เกิดขึ้นจริงหลายประการส่งผลต่อการเลือกเกณฑ์การจัดประเภทที่เหมาะสม ตัวอย่างเช่น ผลลบเท็จอาจทำให้เกิดปัญหามากกว่าผลบวกเท็จ

เมตริกตัวเลขที่เรียกว่า AUC จะสรุปเส้นโค้ง ROC เป็นค่าทศนิยมเดียว

พรอมต์บทบาท

#language
#generativeAI

ส่วนที่ไม่บังคับของพรอมต์ที่ระบุกลุ่มเป้าหมายสําหรับคําตอบของโมเดล Generative AI หากไม่มีพรอมต์บทบาท โมเดลภาษาขนาดใหญ่จะให้คำตอบที่อาจหรือไม่เป็นประโยชน์สำหรับบุคคลที่ถามคำถาม เมื่อใช้พรอมต์บทบาท โมเดลภาษาขนาดใหญ่จะตอบคำถามในลักษณะที่เหมาะสมและเป็นประโยชน์มากขึ้นสําหรับกลุ่มเป้าหมายที่เฉพาะเจาะจง ตัวอย่างเช่น ส่วนของพรอมต์บทบาทในพรอมต์ต่อไปนี้จะเป็นตัวหนา

  • สรุปเอกสารนี้สำหรับปริญญาเอกสาขาเศรษฐศาสตร์
  • อธิบายวิธีการทำงานของน้ำขึ้นน้ำลงสำหรับเด็กอายุ 10 ปี
  • อธิบายวิกฤตการเงินปี 2008 พูดเหมือนพูดกับเด็กเล็กหรือสุนัขพันธุ์โกลเด้นรีทรีฟเวอร์

รูท

#df

โหนดเริ่มต้น (เงื่อนไขแรก) ในแผนภูมิการตัดสินใจ ตามธรรมเนียมแล้ว แผนภาพจะวางรูทไว้ที่ด้านบนของแผนภูมิการตัดสินใจ เช่น

แผนภูมิการตัดสินใจที่มีเงื่อนไข 2 รายการและใบ 3 ใบ เงื่อนไขเริ่มต้น (x > 2) คือรูท

ไดเรกทอรีรูท

#TensorFlow

ไดเรกทอรีที่คุณระบุสำหรับการโฮสต์ไดเรกทอรีย่อยของไฟล์เช็กพอยต์และเหตุการณ์ TensorFlow ของโมเดลหลายรายการ

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)

#fundamentals
#Metric

รากที่สองของความคลาดเคลื่อนเฉลี่ยกำลังสอง

ความไม่แปรปรวนตามการหมุน

#image

ในปัญหาการจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพให้สำเร็จแม้ว่าการวางแนวของรูปภาพจะเปลี่ยนไป ตัวอย่างเช่น อัลกอริทึมจะยังคงระบุไม้เทนนิสได้ไม่ว่าจะชี้ขึ้น ข้างๆ หรือลง โปรดทราบว่าการคงที่ในการหมุนไม่ใช่สิ่งที่ต้องการเสมอไป เช่น ไม่ควรจัดประเภท 9 กลับหัวเป็น 9

ดูข้อมูลเพิ่มเติมได้ที่การคงที่แบบแปลภาษาและการคงที่ของขนาด

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language
#Metric

กลุ่มเมตริกที่ประเมินการสรุปอัตโนมัติและรูปแบบการแปลด้วยคอมพิวเตอร์ เมตริก ROUGE จะระบุระดับที่ข้อความอ้างอิงซ้อนทับกับข้อความที่สร้างขึ้นของโมเดล ML แต่ละสมาชิกของครอบครัว ROUGE จะวัดผลการซ้อนทับกันด้วยวิธีที่แตกต่างกัน คะแนน ROUGE ที่สูงกว่าบ่งชี้ว่าข้อความอ้างอิงกับข้อความที่สร้างขึ้นมีความคล้ายคลึงกันมากกว่าคะแนน ROUGE ที่ต่ำกว่า

โดยปกติแล้วสมาชิกในครอบครัว ROUGE แต่ละคนจะสร้างเมตริกต่อไปนี้

  • ความแม่นยำ
  • การจดจำ
  • F1

ดูรายละเอียดและตัวอย่างได้ที่

ROUGE-L

#language
#Metric

สมาชิกของตระกูล ROUGE ที่มุ่งเน้นที่ความยาวของอนุกรมย่อยที่พบร่วมกันยาวที่สุดในข้อความอ้างอิงและข้อความที่สร้างขึ้น สูตรต่อไปนี้จะคํานวณการเรียกคืนและความแม่นยําสําหรับ ROUGE-L

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

จากนั้นคุณสามารถใช้ F1 เพื่อรวมการเรียกคืน ROUGE-L และแม่นยำของ ROUGE-L ไว้ในเมตริกเดียว ดังนี้

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L ไม่สนใจการขึ้นบรรทัดใหม่ในข้อความอ้างอิงและข้อความที่สร้างขึ้น ดังนั้นอนุกรมย่อยที่พบร่วมกันยาวที่สุดอาจข้ามหลายประโยค เมื่อข้อความอ้างอิงและข้อความที่สร้างขึ้นมีประโยคหลายประโยค โดยทั่วไปแล้ว รูปแบบของ ROUGE-L ที่ชื่อ ROUGE-Lsum จะถือเป็นเมตริกที่ดีกว่า ROUGE-Lsum จะระบุอนุกรมย่อยที่พบร่วมกันยาวที่สุดสำหรับประโยคแต่ละประโยคในย่อหน้า จากนั้นจะคํานวณค่าเฉลี่ยของอนุกรมย่อยที่พบร่วมกันยาวที่สุดเหล่านั้น

ROUGE-N

#language
#Metric

ชุดเมตริกภายในตระกูล ROUGE ที่เปรียบเทียบ N-gram ที่ใช้ร่วมกันซึ่งมีขนาดที่แน่นอนในข้อความอ้างอิงและข้อความที่สร้างขึ้น เช่น

  • ROUGE-1 จะวัดจํานวนโทเค็นที่ใช้ร่วมกันในข้อความอ้างอิงและข้อความที่สร้างขึ้น
  • ROUGE-2 จะวัดจํานวน Bigram (2-gram) ที่แชร์ในข้อความอ้างอิงและข้อความที่สร้างขึ้น
  • ROUGE-3 จะวัดจํานวน Trigram (3-gram) ที่แชร์ในข้อความอ้างอิงและข้อความที่สร้างขึ้น

คุณสามารถใช้สูตรต่อไปนี้เพื่อคํานวณการเรียกคืนและแม่นยําของ ROUGE-N สําหรับสมาชิกของตระกูล ROUGE-N

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

จากนั้นคุณสามารถใช้ F1 เพื่อรวมการเรียกคืน ROUGE-N และแม่นยำของ ROUGE-N ไว้ในเมตริกเดียว ดังนี้

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

ROUGE-S

#language
#Metric

รูปแบบที่ยืดหยุ่นของ ROUGE-N ที่เปิดใช้การจับคู่ Skip-Gram กล่าวคือ ROUGE-N จะนับเฉพาะ N-gram ที่ตรงกันทุกประการ แต่ ROUGE-S จะนับ N-gram ที่แยกกันด้วยคำอย่างน้อย 1 คำด้วย เช่น โปรดคำนึงถึงสิ่งต่อไปนี้

เมื่อคํานวณ ROUGE-N 2-gram White clouds ไม่ตรงกับ White billowing clouds อย่างไรก็ตาม เมื่อคำนวณ ROUGE-S คำว่าเมฆสีขาวจะตรงกับเมฆสีขาวที่ลอยอยู่

R-squared

#Metric

เมตริกการถดถอยที่ระบุความแปรปรวนของป้ายกํากับที่เกิดจากฟีเจอร์แต่ละรายการหรือชุดฟีเจอร์ ค่า R-squared คือค่าระหว่าง 0 ถึง 1 ซึ่งคุณตีความได้ดังนี้

  • ค่า R-squared เท่ากับ 0 หมายความว่าความแปรปรวนของป้ายกำกับไม่ได้เกิดจากชุดฟีเจอร์
  • ค่า R-squared เท่ากับ 1 หมายความว่าความแปรปรวนทั้งหมดของป้ายกํากับเกิดจากชุดฟีเจอร์
  • ค่า R-squared ระหว่าง 0 ถึง 1 บ่งบอกถึงระดับที่ความหลากหลายของป้ายกำกับสามารถคาดการณ์ได้จากฟีเจอร์หนึ่งๆ หรือชุดฟีเจอร์ เช่น ค่า R ยกกำลังสอง 0.10 หมายความว่าความแปรปรวน 10 เปอร์เซ็นต์ในป้ายกำกับนั้นเกิดจากชุดฟีเจอร์ ค่า R ยกกำลังสอง 0.20 หมายความว่า 20 เปอร์เซ็นต์นั้นเกิดจากชุดฟีเจอร์ และอื่นๆ

ค่า R ยกกำลังสองคือค่ากำลังสองของสัมประสิทธิ์สหสัมพันธ์ของ Pearson ระหว่างค่าที่โมเดลคาดการณ์ไว้กับข้อมูลจากการสังเกตการณ์โดยตรง

S

อคติในการสุ่มตัวอย่าง

#fairness

ดูการเลือกแบบลำเอียง

การสุ่มตัวอย่างแบบสุ่มตัวอย่างแทนที่

#df

วิธีการเลือกรายการจากชุดรายการที่เป็นไปได้ ซึ่งสามารถเลือกรายการเดียวกันได้หลายครั้ง วลี "แบบสุ่มแทนที่" หมายความว่าหลังจากเลือกแต่ละรายการแล้ว ระบบจะส่งรายการที่เลือกกลับไปยังกลุ่มรายการที่เป็นไปได้ วิธีการแบบย้อนกลับคือการสุ่มตัวอย่างแบบไม่แทนที่ ซึ่งหมายความว่าจะเลือกรายการที่ตรงตามเกณฑ์ได้เพียงครั้งเดียว

ตัวอย่างเช่น ลองพิจารณาชุดผลไม้ต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

สมมติว่าระบบสุ่มเลือก fig เป็นรายการแรก หากใช้การสุ่มตัวอย่างแบบแทนที่ ระบบจะเลือกรายการที่ 2 จากชุดต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

ใช่ ชุดนั้นเหมือนกันกับก่อนหน้านี้ ระบบจึงอาจเลือก fig อีกครั้ง

หากใช้การสุ่มตัวอย่างแบบไม่แทนที่ เมื่อเลือกตัวอย่างแล้ว คุณจะเลือกตัวอย่างนั้นไม่ได้อีก ตัวอย่างเช่น หากระบบสุ่มเลือก fig เป็นตัวอย่างแรก ระบบจะไม่เลือก fig อีกครั้ง ดังนั้น ระบบจะเลือกตัวอย่างที่ 2 จากชุด (ที่ลดลง) ต่อไปนี้

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

รูปแบบที่แนะนําสําหรับการบันทึกและการกู้คืนโมเดล TensorFlow SavedModel เป็นรูปแบบการจัดรูปแบบแบบกู้คืนได้ซึ่งไม่ขึ้นอยู่กับภาษา ซึ่งช่วยให้ระบบและเครื่องมือระดับสูงขึ้นสามารถผลิต ใช้ และเปลี่ยนรูปแบบโมเดล TensorFlow ได้

ดูรายละเอียดทั้งหมดได้ที่ส่วนการบันทึกและการกู้คืนในคู่มือโปรแกรมเมอร์ TensorFlow

ประหยัด

#TensorFlow

ออบเจ็กต์ TensorFlow ที่มีหน้าที่บันทึกจุดตรวจสอบของโมเดล

สเกลาร์

ตัวเลขเดี่ยวหรือสตริงเดี่ยวที่แสดงเป็นเทนเซอร์อันดับ 0 ได้ ตัวอย่างเช่น บรรทัดโค้ดต่อไปนี้จะสร้างสเกลาร์ 1 รายการใน TensorFlow

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

การปรับขนาด

การเปลี่ยนรูปแบบทางคณิตศาสตร์หรือเทคนิคใดๆ ที่เปลี่ยนช่วงของป้ายกำกับ ค่าฟีเจอร์ หรือทั้ง 2 อย่าง การแปลงรูปแบบบางอย่างมีประโยชน์มากสําหรับการเปลี่ยนรูปแบบ เช่น การปรับให้เป็นมาตรฐาน

รูปแบบการปรับขนาดทั่วไปที่มีประโยชน์ในแมชชีนเลิร์นนิง ได้แก่

  • การแปลงเชิงเส้น ซึ่งโดยทั่วไปจะใช้การลบและการหารร่วมกันเพื่อแทนที่ค่าเดิมด้วยตัวเลขระหว่าง -1 ถึง +1 หรือระหว่าง 0 ถึง 1
  • การปรับขนาดแบบลอการิทึม ซึ่งแทนที่ค่าเดิมด้วยลอการิทึมของค่านั้น
  • การปรับให้เป็นมาตรฐานตามคะแนน z ซึ่งแทนที่ค่าเดิมด้วยค่าทศนิยมที่แสดงจํานวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของฟีเจอร์นั้น

scikit-learn

แพลตฟอร์มแมชชีนเลิร์นนิงแบบโอเพนซอร์สยอดนิยม ดูข้อมูลได้ที่ scikit-learn.org

การให้คะแนน

#recsystems
#Metric

ส่วนหนึ่งของระบบการแนะนำที่ให้ค่าหรือการจัดอันดับสำหรับรายการแต่ละรายการที่สร้างขึ้นจากระยะการสร้างผู้สมัคร

อคติในการเลือก

#fairness

ข้อผิดพลาดในการสรุปที่ได้จากข้อมูลตัวอย่างเนื่องจากกระบวนการเลือกที่ทำให้เกิดความแตกต่างอย่างเป็นระบบระหว่างตัวอย่างที่สังเกตได้ในข้อมูลและตัวอย่างที่ไม่ได้สังเกต ความลำเอียงในการเลือกมีอยู่ในรูปแบบต่อไปนี้

  • อคติด้านความครอบคลุม: ประชากรที่แสดงในชุดข้อมูลไม่ตรงกับประชากรที่โมเดลแมชชีนเลิร์นนิงทำการคาดการณ์
  • การเลือกตัวอย่างแบบลำเอียง: ไม่ได้รวบรวมข้อมูลจากกลุ่มเป้าหมายแบบสุ่ม
  • อคติที่ไม่ตอบ (หรือที่เรียกว่าอคติในการเข้าร่วม): ผู้ใช้จากกลุ่มหนึ่งเลือกไม่ตอบแบบสํารวจในอัตราที่แตกต่างจากผู้ใช้จากกลุ่มอื่น

ตัวอย่างเช่น สมมติว่าคุณกำลังสร้างโมเดลแมชชีนเลิร์นนิงที่คาดการณ์ความพึงพอใจของผู้คนที่มีต่อภาพยนตร์ หากต้องการรวบรวมข้อมูลสำหรับการฝึกอบรม คุณอาจแจกแบบสํารวจให้ทุกคนในแถวหน้าของโรงภาพยนตร์ที่ฉายภาพยนตร์ ฟังดูแล้วอาจดูเหมือนเป็นวิธีที่สมเหตุสมผลในการรวบรวมชุดข้อมูล แต่การเก็บรวบรวมข้อมูลในรูปแบบนี้อาจทำให้เกิดการเลือกแบบลำเอียงในรูปแบบต่อไปนี้

  • ความลำเอียงด้านความครอบคลุม: การสุ่มตัวอย่างจากประชากรที่เลือกดูภาพยนตร์อาจทําให้การคาดการณ์ของโมเดลไม่สามารถนําไปใช้กับผู้ที่ไม่ได้แสดงความสนใจระดับนั้นในภาพยนตร์
  • ความลำเอียงในการสุ่มตัวอย่าง: คุณสุ่มตัวอย่างเฉพาะผู้ที่นั่งแถวหน้าแทนที่จะสุ่มตัวอย่างจากประชากรเป้าหมาย (ทุกคนที่ดูภาพยนตร์) เป็นไปได้ว่าผู้ที่นั่งแถวหน้าสนใจภาพยนตร์มากกว่าผู้ที่นั่งแถวอื่น
  • ความลำเอียงจากการไม่ตอบ: โดยทั่วไปแล้ว ผู้ที่ยึดมั่นในความคิดเห็นของตนมีแนวโน้มที่จะตอบแบบสํารวจที่ไม่บังคับบ่อยกว่าผู้ที่ยึดมั่นในความคิดเห็นของตนไม่มากนัก เนื่องจากแบบสํารวจภาพยนตร์เป็นแบบไม่บังคับ คำตอบจึงมีแนวโน้มที่จะกระจายเป็น 2 กลุ่มมากกว่าการกระจายแบบปกติ (รูประฆัง)

การใส่ใจตนเอง (หรือที่เรียกว่าเลเยอร์การใส่ใจตนเอง)

#language

เลเยอร์เครือข่ายประสาทที่เปลี่ยนลําดับของ Embdedding (เช่น Embdedding โทเค็น) เป็นลําดับ Embdedding อื่น แต่ละการฝังในลำดับเอาต์พุตสร้างขึ้นโดยการรวมข้อมูลจากองค์ประกอบของลำดับอินพุตผ่านกลไกการใส่ใจ

ส่วน self ของ self-attention หมายถึงลำดับที่สนใจตัวมันเอง ไม่ใช่บริบทอื่น การใส่ใจตนเองเป็นหนึ่งในองค์ประกอบหลักของ Transformer และใช้คำศัพท์การค้นหาพจนานุกรม เช่น "การค้นหา" "คีย์" และ "ค่า"

เลเยอร์ Self-Attention เริ่มต้นด้วยลําดับของการแสดงข้อมูลอินพุต 1 รายการสําหรับแต่ละคํา การนําเสนออินพุตสําหรับคําอาจเป็นการฝังข้อมูลแบบง่าย สําหรับคําแต่ละคําในลําดับอินพุต เครือข่ายจะประเมินความเกี่ยวข้องของคํานั้นกับองค์ประกอบทุกรายการในลําดับคําทั้งหมด คะแนนความเกี่ยวข้องจะกําหนดว่าการแสดงผลสุดท้ายของคํารวมเอาการแสดงผลของคําอื่นๆ มากน้อยเพียงใด

ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

สัตว์ไม่ข้ามถนนเพราะเหนื่อยเกินไป

ภาพประกอบต่อไปนี้ (จาก Transformer: A Novel Neural Network Architecture for Language Understanding) แสดงรูปแบบการให้ความสำคัญกับเลเยอร์การให้ความสำคัญกับตนเองสำหรับคำสรรพนาม it โดยความเข้มของเส้นแต่ละเส้นจะบ่งบอกถึงระดับที่แต่ละคำมีส่วนร่วมในการแสดงแทน

ประโยคต่อไปนี้ปรากฏขึ้น 2 ครั้ง: สัตว์ไม่ข้ามถนนเนื่องจากเหนื่อยเกินไป เส้นเชื่อมต่อคำสรรพนาม it ในประโยคหนึ่งกับโทเค็น 5 รายการ (The, animal, street, it และ period) ในประโยคอื่น เส้นแบ่งระหว่างคำสรรพนาม it และคำว่า animal ชัดเจนที่สุด

เลเยอร์การใส่ใจตนเองจะไฮไลต์คำที่เกี่ยวข้องกับ "มัน" ในกรณีนี้ เลเยอร์ความสนใจได้เรียนรู้ที่จะไฮไลต์คำที่มันอาจอ้างอิงถึง โดยกำหนดน้ำหนักสูงสุดให้กับสัตว์

สําหรับลําดับ โทเค็น n รายการ การใส่ใจตนเองจะเปลี่ยนลําดับของเอ็มเบ็ดดิ้ง n ครั้งแยกกัน โดยเปลี่ยนทีละครั้งในแต่ละตําแหน่งในลําดับ

โปรดดูการใส่ใจและการใส่ใจตนเองแบบ Multi-Head ด้วย

การเรียนรู้แบบควบคุมดูแลด้วยตนเอง

กลุ่มเทคนิคในการแปลงปัญหาแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลเป็นปัญหาแมชชีนเลิร์นนิงที่มีการควบคุมดูแลด้วยการสร้างป้ายกำกับแทนจากตัวอย่างที่ไม่มีป้ายกำกับ

โมเดลที่อิงตาม Transformer บางรุ่น เช่น BERT ใช้การเรียนรู้แบบควบคุมดูแลตนเอง

การฝึกแบบควบคุมดูแลด้วยตนเองเป็นแนวทางการเรียนรู้แบบควบคุมดูแลบางส่วน

การฝึกอบรมด้วยตนเอง

รูปแบบหนึ่งของการเรียนรู้แบบควบคุมตนเองที่มีประโยชน์อย่างยิ่งเมื่อเงื่อนไขต่อไปนี้ทั้งหมดเป็นจริง

การฝึกด้วยตนเองจะทํางานโดยการทําซ้ำ 2 ขั้นตอนต่อไปนี้จนกว่าโมเดลจะหยุดปรับปรุง

  1. ใช้แมชชีนเลิร์นนิงที่มีการควบคุมดูแลเพื่อฝึกโมเดลด้วยตัวอย่างที่ติดป้ายกำกับ
  2. ใช้โมเดลที่สร้างในขั้นตอนที่ 1 เพื่อสร้างการคาดการณ์ (ป้ายกํากับ) ในตัวอย่างที่ไม่มีป้ายกํากับ โดยย้ายตัวอย่างที่มีความเชื่อมั่นสูงไปยังตัวอย่างที่มีป้ายกํากับซึ่งมีป้ายกํากับที่คาดการณ์

โปรดทราบว่าแต่ละรอบของขั้นตอนที่ 2 จะเพิ่มตัวอย่างที่มีป้ายกำกับมากขึ้นเพื่อให้ขั้นตอนที่ 1 ใช้ฝึก

การเรียนรู้แบบควบคุมบางส่วน

การฝึกโมเดลด้วยข้อมูลที่มีตัวอย่างการฝึกบางส่วนมีป้ายกำกับ แต่ตัวอย่างอื่นๆ ไม่มี เทคนิคอย่างหนึ่งของการเรียนรู้แบบควบคุมบางส่วนคือการอนุมานป้ายกำกับสำหรับตัวอย่างที่ไม่มีป้ายกำกับ จากนั้นฝึกป้ายกำกับที่อนุมานเพื่อสร้างโมเดลใหม่ การเรียนรู้ที่มีการควบคุมดูแลบางส่วนจะมีประโยชน์ในกรณีที่การหาป้ายกำกับมีค่าใช้จ่ายสูงแต่มีตัวอย่างที่ไม่มีป้ายกำกับจำนวนมาก

การฝึกด้วยตนเองเป็นเทคนิคหนึ่งสำหรับการเรียนรู้แบบควบคุมบางส่วน

แอตทริบิวต์ที่มีความละเอียดอ่อน

#fairness
แอตทริบิวต์ของมนุษย์ที่อาจได้รับการพิจารณาเป็นพิเศษเนื่องจากเหตุผลทางกฎหมาย ทางจริยธรรม ทางสังคม หรือส่วนบุคคล

การวิเคราะห์ความเห็น

#language

การใช้อัลกอริทึมสถิติหรือแมชชีนเลิร์นนิงเพื่อพิจารณาทัศนคติโดยรวมของกลุ่ม (เชิงบวกหรือเชิงลบ) ต่อบริการ ผลิตภัณฑ์ องค์กร หรือหัวข้อ เช่น เมื่อใช้ความเข้าใจภาษาธรรมชาติ อัลกอริทึมอาจทำการวิเคราะห์ความรู้สึกในความคิดเห็นที่เป็นข้อความจากหลักสูตรของมหาวิทยาลัยเพื่อพิจารณาระดับที่นักเรียนชอบหรือไม่ชอบหลักสูตรโดยทั่วไป

ดูข้อมูลเพิ่มเติมได้ที่คู่มือการจัดประเภทข้อความ

รูปแบบลําดับ

#seq

โมเดลที่อินพุตมีความเกี่ยวข้องตามลำดับ เช่น การคาดคะเนวิดีโอถัดไปที่จะรับชมจากลำดับวิดีโอที่ดูก่อนหน้านี้

งานแบบอนุกรมต่ออนุกรม

#language

งานที่จะแปลงลำดับอินพุตของโทเค็นเป็นลำดับเอาต์พุตของโทเค็น ตัวอย่างเช่น งานประเภทอนุกรมต่ออนุกรมที่ได้รับความนิยม 2 ประเภท ได้แก่

  • ผู้แปล
    • ตัวอย่างลำดับอินพุต: "ฉันรักคุณ"
    • ตัวอย่างลำดับเอาต์พุต: "Je t'aime."
  • การตอบคําถาม
    • ตัวอย่างลำดับอินพุต: "Do I need my car in New York City?" (ฉันต้องใช้รถในนิวยอร์กซิตี้ไหม)
    • ตัวอย่างลำดับเอาต์พุต: "ไม่ โปรดจอดรถไว้ที่บ้าน"

หน่วยบริโภค

กระบวนการทําให้โมเดลที่ผ่านการฝึกพร้อมใช้งานเพื่อคาดการณ์ผ่านการอนุมานออนไลน์หรือการอนุมานแบบออฟไลน์

รูปร่าง (Tensor)

จํานวนองค์ประกอบในมิติข้อมูลแต่ละรายการของเทนเซอร์ รูปร่างจะแสดงเป็นรายการจำนวนเต็ม ตัวอย่างเช่น เทนเซอร์ 2 มิติต่อไปนี้มีรูปร่างเป็น [3,4]

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow ใช้รูปแบบแถวหลัก (สไตล์ C) เพื่อแสดงลําดับของมิติข้อมูล ด้วยเหตุนี้รูปร่างใน TensorFlow จึงต้องเป็น [3,4] ไม่ใช่ [4,3] กล่าวคือ ใน Tensor ของ TensorFlow แบบ 2 มิติ รูปร่างจะคือ [จํานวนแถว จํานวนคอลัมน์]

รูปร่างแบบคงที่คือรูปร่างของเทมพอร์ที่ทราบ ณ เวลาที่คอมไพล์

รูปร่างแบบไดนามิกไม่รู้จักในเวลาคอมไพล์ จึงขึ้นอยู่กับข้อมูลรันไทม์ เทนเซอร์นี้อาจแสดงด้วยมิติข้อมูลตัวยึดตําแหน่งใน TensorFlow ดังใน [3, ?]

ชาร์ด

#TensorFlow
#GoogleCloud

การแบ่งชุดข้อมูลการฝึกหรือโมเดลอย่างมีเหตุผล โดยทั่วไป กระบวนการบางอย่างจะสร้างกลุ่มย่อยโดยการแบ่งตัวอย่างหรือพารามิเตอร์ออกเป็นกลุ่มที่มีขนาดเท่าๆ กัน (โดยปกติ) จากนั้นระบบจะกําหนดแต่ละกลุ่มให้กับเครื่องที่แตกต่างกัน

การแยกโมเดลเรียกว่าการทํางานแบบขนานของโมเดล ส่วนการแยกข้อมูลเรียกว่าการทํางานแบบขนานของข้อมูล

การหดตัว

#df

ไฮเปอร์พารามิเตอร์ในการเพิ่มประสิทธิภาพด้วย Gradient Boosting ที่ควบคุมการประมาณที่มากเกินไป การลดลงในการเพิ่มประสิทธิภาพด้วยการเพิ่มการลาดชันจะคล้ายกับอัตราการเรียนรู้ในการลดการลาดชัน การหดตัวคือค่าทศนิยมระหว่าง 0.0 ถึง 1.0 ค่าการหดตัวที่ต่ำลงจะช่วยลดการพอดีมากเกินไปได้มากกว่าค่าการหดตัวที่สูง

ฟังก์ชัน Sigmoid

#fundamentals

ฟังก์ชันทางคณิตศาสตร์ที่ "บีบอัด" ค่าอินพุตให้อยู่ในช่วงที่จํากัด ซึ่งโดยทั่วไปคือ 0 ถึง 1 หรือ -1 ถึง +1 กล่าวคือ คุณสามารถส่งตัวเลขใดก็ได้ (2 ล้าน ลบ 1,000 ล้าน หรืออะไรก็ตาม) ไปยัง Sigmoid และเอาต์พุตจะยังคงอยู่ในช่วงที่ถูกจำกัด ผังฟังก์ชันการเปิดใช้งาน Sigmoid มีลักษณะดังนี้

ผังโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมนจาก -infinity ถึง +positive ส่วนค่า y ครอบคลุมช่วงเกือบ 0 ถึงเกือบ 1 เมื่อ x เป็น 0, y จะเท่ากับ 0.5 ความชันของเส้นโค้งจะเป็นค่าบวกเสมอ โดยมีค่าสูงสุดที่ 0,0.5 และค่อยๆ ลดลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ฟังก์ชัน Sigmoid มีประโยชน์หลายอย่างในแมชชีนเลิร์นนิง ดังนี้

การวัดความคล้ายคลึง

#clustering
#Metric

ในอัลกอริทึมการจัดกลุ่ม เมตริกที่ใช้เพื่อระบุความคล้ายคลึงกัน (ความคล้ายกัน) ของตัวอย่าง 2 รายการ

โปรแกรมเดียว / ข้อมูลหลายรายการ (SPMD)

เทคนิคการทำงานแบบขนานที่ดำเนินการคํานวณเดียวกันกับข้อมูลอินพุตที่แตกต่างกันในอุปกรณ์ต่างๆ พร้อมกัน เป้าหมายของ SPMD คือเพื่อให้ได้ผลลัพธ์เร็วขึ้น ซึ่งเป็นรูปแบบการเขียนโปรแกรมแบบขนานที่พบบ่อยที่สุด

ความไม่เปลี่ยนแปลงตามขนาด

#image

ในปัญหาการจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพให้สำเร็จแม้ว่าขนาดของรูปภาพจะเปลี่ยนแปลงไป ตัวอย่างเช่น อัลกอริทึมจะยังคงระบุแมวได้ไม่ว่าจะใช้พิกเซล 2 ล้านพิกเซลหรือ 200,000 พิกเซล โปรดทราบว่าอัลกอริทึมการจัดประเภทรูปภาพที่ดีที่สุดก็ยังมีข้อจำกัดด้านขนาดที่คงที่ ตัวอย่างเช่น อัลกอริทึม (หรือมนุษย์) ไม่สามารถจัดประเภทรูปภาพแมวที่มีขนาดเพียง 20 พิกเซลได้อย่างถูกต้อง

ดูข้อมูลเพิ่มเติมได้ที่การคงที่แบบแปลและการคงที่แบบหมุน

ดูข้อมูลเพิ่มเติมได้ที่หลักสูตรการคลัสเตอร์

การสเก็ตช์

#clustering

ในแมชชีนเลิร์นนิงที่ไม่มีการกำกับดูแล ซึ่งเป็นหมวดหมู่อัลกอริทึมที่ทําการวิเคราะห์ความคล้ายคลึงเบื้องต้นในตัวอย่าง อัลกอริทึมการร่างภาพใช้ ฟังก์ชันแฮชที่คำนึงถึงตำแหน่งเพื่อระบุจุดที่มีแนวโน้มจะคล้ายกัน จากนั้นจึงจัดกลุ่มจุดเหล่านั้นเป็นกลุ่ม

การร่างภาพจะลดการประมวลผลที่จําเป็นสําหรับการคํานวณความคล้ายคลึงในชุดข้อมูลขนาดใหญ่ เราจะคำนวณความคล้ายคลึงสำหรับคู่ตัวอย่างแต่ละคู่ภายในแต่ละที่เก็บข้อมูลแทนที่จะคำนวณความคล้ายคลึงสำหรับคู่ตัวอย่างทุกคู่ในชุดข้อมูล

Skip-gram

#language

N-gram ซึ่งอาจละเว้น (หรือ "ข้าม") คําจากบริบทเดิม ซึ่งหมายความว่าคํา N คําอาจไม่ได้อยู่ติดกันตั้งแต่แรก กล่าวอย่างละเอียดคือ "k-skip-n-gram" คือ n-gram ที่อาจมีการข้ามคำได้สูงสุด k คำ

เช่น "the quick brown fox" มี 2-gram ที่เป็นไปได้ดังต่อไปนี้

  • "the quick"
  • "quick brown"
  • "หมาป่าสีน้ำตาล"

"1-skip-2-gram" คือคู่คำที่มีคำคั่นระหว่างกันไม่เกิน 1 คำ ดังนั้น "the quick brown fox" จึงมี 2-gram แบบข้าม 1 รายการดังต่อไปนี้

  • "the brown"
  • "quick fox"

นอกจากนี้ 2-gram ทั้งหมดยังเป็น 1-skip-2-gram ด้วย เนื่องจากอาจข้ามได้น้อยกว่า 1 คำ

Skip-gram มีประโยชน์ในการทําความเข้าใจบริบทรอบๆ คํามากขึ้น ในตัวอย่างนี้ "fox" เชื่อมโยงโดยตรงกับ "quick" ในชุด 1-skip-2-gram แต่ไม่ได้อยู่ในชุด 2-gram

Skip-gram ช่วยฝึกโมเดลการฝังคำ

Softmax

#fundamentals

ฟังก์ชันที่กําหนดความน่าจะเป็นสําหรับแต่ละคลาสที่เป็นไปได้ในโมเดลการจัดประเภทแบบหลายคลาส ความน่าจะเป็นทั้งหมดจะเท่ากับ 1.0 เช่น ตารางต่อไปนี้แสดงวิธีที่ Softmax แจกแจงความน่าจะเป็นต่างๆ

รูปภาพเป็น... Probability
สุนัข .85
แมว .13
ม้า .02

Softmax เรียกอีกอย่างว่า Full Softmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

ดูข้อมูลเพิ่มเติมได้ที่เครือข่ายประสาท: การแยกประเภทหลายคลาสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การปรับแต่งพรอมต์แบบนุ่ม

#language
#generativeAI

เทคนิคการปรับโมเดลภาษาขนาดใหญ่สำหรับงานหนึ่งๆ โดยไม่ต้องปรับแต่งอย่างละเอียดซึ่งใช้ทรัพยากรมาก การปรับพรอมต์แบบนุ่มจะปรับพรอมต์โดยอัตโนมัติเพื่อให้บรรลุเป้าหมายเดียวกันแทนที่จะฝึกน้ำหนักทั้งหมดในโมเดลใหม่

เมื่อได้รับพรอมต์ที่เป็นข้อความ การปรับพรอมต์แบบ Soft มักจะเพิ่มการฝังโทเค็นเพิ่มเติมลงในพรอมต์ และใช้ Backpropagation เพื่อเพิ่มประสิทธิภาพอินพุต

พรอมต์ "แบบแข็ง" มีโทเค็นจริงแทนการฝังโทเค็น

องค์ประกอบที่กระจัดกระจาย

#language
#fundamentals

ฟีเจอร์ที่มีค่าเป็น 0 หรือว่างเปล่าเป็นส่วนใหญ่ เช่น ฟีเจอร์ที่มีค่า 1 รายการเดียวและค่า 0 1 ล้านรายการจะมีความกระจัดกระจาย ในทางตรงกันข้าม ฟีเจอร์แบบหนาแน่นมีค่าที่ส่วนใหญ่ไม่ใช่ 0 หรือว่าง

ในแมชชีนเลิร์นนิง ฟีเจอร์จำนวนมากเป็นฟีเจอร์ที่กระจัดกระจาย ฟีเจอร์เชิงหมวดหมู่มักจะเป็นฟีเจอร์ที่กระจัดกระจาย เช่น จากต้นไม้ 300 สายพันธุ์ที่เป็นไปได้ในป่า ตัวอย่างเดียวอาจระบุได้เพียงต้นเมเปิล หรือจากวิดีโอที่เป็นไปได้หลายล้านรายการในคลังวิดีโอ ตัวอย่างเพียงรายการเดียวอาจระบุแค่ "Casablanca"

ในโมเดล โดยทั่วไปคุณแสดงฟีเจอร์แบบเบาบางด้วยการเข้ารหัสแบบฮอตเวิร์ก หากการเข้ารหัสแบบฮอตเวิร์กมีขนาดใหญ่ คุณอาจใส่เลเยอร์การฝังไว้ด้านบนการเข้ารหัสแบบฮอตเวิร์กเพื่อให้มีประสิทธิภาพมากขึ้น

การนําเสนอแบบเบาบาง

#language
#fundamentals

การจัดเก็บเฉพาะตําแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์แบบเบาบาง

ตัวอย่างเช่น สมมติว่าองค์ประกอบเชิงหมวดหมู่ชื่อ species ระบุสายพันธุ์ต้นไม้ 36 ชนิดในป่าแห่งหนึ่ง และสมมติเพิ่มเติมว่า ตัวอย่างแต่ละรายการระบุเพียงสปีชีส์เดียว

คุณสามารถใช้เวกเตอร์แบบฮอตเวิร์ก 1 รายการเพื่อแสดงสายพันธุ์ต้นไม้ในแต่ละตัวอย่าง เวกเตอร์แบบฮอตเวิร์กเดียวจะมี 1 รายการเดียว (เพื่อแสดงถึงพันธุ์ไม้บางชนิดในตัวอย่างนั้น) และ 0 35 รายการ (เพื่อแสดงถึงพันธุ์ไม้ 35 ชนิดที่ไม่อยู่ในตัวอย่างนั้น) ดังนั้นการนําเสนอแบบฮอตเวิร์ดของ maple จึงอาจมีลักษณะดังนี้

เวกเตอร์ที่ตำแหน่ง 0 ถึง 23 มีค่าเป็น 0, ตำแหน่ง 24 มีค่าเป็น 1 และตำแหน่ง 25 ถึง 35 มีค่าเป็น 0

หรือการแสดงแบบเบาบางจะระบุตำแหน่งของพันธุ์นั้นๆ เท่านั้น หาก maple อยู่ที่ตําแหน่ง 24 การแสดงแบบเบาบางของ maple จะเป็นดังนี้

24

โปรดสังเกตว่าการนําเสนอแบบเบาบางมีความกะทัดรัดกว่าการนําเสนอแบบฮอตเวิร์ก

ดูข้อมูลเพิ่มเติมที่หัวข้อการทํางานกับข้อมูลเชิงหมวดหมู่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เวกเตอร์แบบเบาบาง

#fundamentals

เวกเตอร์ที่มีค่าเป็น 0 ส่วนใหญ่ โปรดดูฟีเจอร์แบบเบาบางและความเบาบางด้วย

การขาดแคลนข้อมูล

#Metric

จํานวนองค์ประกอบที่ตั้งค่าเป็น 0 (หรือ Null) ในเวกเตอร์หรือเมทริกซ์หารด้วยจํานวนรายการทั้งหมดในเวกเตอร์หรือเมทริกซ์นั้น ตัวอย่างเช่น ลองพิจารณาเมทริกซ์ที่มีองค์ประกอบ 100 รายการ ซึ่ง 98 เซลล์มีค่าเป็น 0 การคำนวณความถี่ต่ำมีดังนี้

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

ความถี่ต่ำของฟีเจอร์หมายถึงความถี่ต่ำของเวกเตอร์ฟีเจอร์ ส่วนความถี่ต่ำของโมเดลหมายถึงความถี่ต่ำของน้ำหนักโมเดล

การรวมข้อมูลเชิงพื้นที่

#image

ดูการรวม

แยก

#df

ในแผนภูมิการตัดสินใจ ชื่อเรียกอีกอย่างของเงื่อนไข

ตัวแยก

#df

ขณะฝึกแผนผังการตัดสินใจ รูทีน (และอัลกอริทึม) จะมีหน้าที่ค้นหาเงื่อนไขที่ดีที่สุดในแต่ละโหนด

SPMD

ตัวย่อสำหรับโปรแกรมเดียว / ข้อมูลหลายรายการ

ผลรวมของการสูญเสียบานพับกำลังสอง

#Metric

ผลคูณของ การสูญเสียจากการเปิด/ปิด ผลรวมของการสูญเสียแบบสี่เหลี่ยมจัตุรัสจะลงโทษค่าที่ผิดปกติรุนแรงกว่าผลรวมของการสูญเสียแบบปกติ

ผลรวมของค่าสัมบูรณ์ของข้อผิดพลาด

#fundamentals
#Metric

คำพ้องความหมายของการสูญเสีย L2

การฝึกแบบเป็นขั้น

#language

กลยุทธ์การฝึกโมเดลตามลำดับขั้นตอนที่แยกกัน เป้าหมายอาจเป็นการเร่งกระบวนการฝึกอบรมหรือเพื่อให้ได้โมเดลที่มีคุณภาพดีขึ้น

ภาพแสดงแนวทางการซ้อนที่เพิ่มขึ้นมีดังนี้

  • ระยะที่ 1 มีเลเยอร์ที่ซ่อนอยู่ 3 เลเยอร์ ระยะที่ 2 มีเลเยอร์ที่ซ่อนอยู่ 6 เลเยอร์ และระยะที่ 3 มีเลเยอร์ที่ซ่อนอยู่ 12 เลเยอร์
  • ระยะที่ 2 จะเริ่มการฝึกด้วยน้ำหนักที่เรียนรู้ในเลเยอร์ที่ซ่อนอยู่ 3 เลเยอร์ของระยะที่ 1 ระยะที่ 3 จะเริ่มการฝึกด้วยน้ำหนักที่เรียนรู้ในเลเยอร์ที่ซ่อนอยู่ 6 เลเยอร์ของระยะที่ 2

3 ระยะ ซึ่งมีการติดป้ายกำกับไว้ว่าระยะที่ 1, ระยะที่ 2 และระยะที่ 3
          แต่ละระยะมีจำนวนเลเยอร์แตกต่างกัน โดยระยะที่ 1 มี 3 เลเยอร์ ระยะที่ 2 มี 6 เลเยอร์ และระยะที่ 3 มี 12 เลเยอร์
          เลเยอร์ 3 ชั้นจากระยะที่ 1 จะกลายเป็นเลเยอร์ 3 ชั้นแรกของระยะที่ 2
          ในทํานองเดียวกัน เลเยอร์ 6 ชั้นจากระยะที่ 2 จะกลายเป็นเลเยอร์ 6 ชั้นแรกของระยะที่ 3

โปรดดูการไปป์ไลน์ด้วย

รัฐ

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ค่าพารามิเตอร์ที่อธิบายการกำหนดค่าปัจจุบันของสภาพแวดล้อม ซึ่งเอเจนต์ใช้เพื่อเลือกการดำเนินการ

ฟังก์ชันค่าสถานะ-การดำเนินการ

#rl

คำพ้องความหมายของ ฟังก์ชัน Q

คงที่

#fundamentals

การดำเนินการแบบครั้งเดียวแทนที่จะเป็นการดำเนินการอย่างต่อเนื่อง คําว่าคงที่และออฟไลน์เป็นคําพ้องกัน ต่อไปนี้เป็นการใช้งานทั่วไปของแบบคงที่และออฟไลน์ในแมชชีนเลิร์นนิง

  • โมเดลแบบคงที่ (หรือโมเดลออฟไลน์) คือโมเดลที่ฝึกเพียงครั้งเดียวแล้วนําไปใช้เป็นระยะเวลาหนึ่ง
  • การฝึกแบบคงที่ (หรือการฝึกแบบออฟไลน์) คือกระบวนการฝึกโมเดลแบบคงที่
  • การอนุมานแบบคงที่ (หรือการอนุมานแบบออฟไลน์) เป็นกระบวนการที่โมเดลสร้างการคาดการณ์หลายรายการพร้อมกัน

ตรงข้ามกับแบบไดนามิก

การให้เหตุผลแบบคงที่

#fundamentals

คำพ้องความหมายของการอนุมานแบบออฟไลน์

ความเป็นสถานี

#fundamentals

ฟีเจอร์ที่มีค่าไม่เปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักจะเป็นเวลา เช่น ฟีเจอร์ที่มีค่าใกล้เคียงกันในปี 2021 และ 2023 แสดงถึงความคงที่

ในสถานการณ์จริง ฟีเจอร์มีสถานะคงที่เพียงไม่กี่รายการ แม้แต่องค์ประกอบที่สื่อถึงความมั่นคง (เช่น ระดับน้ำทะเล) ก็เปลี่ยนแปลงไปตามกาลเวลา

ตรงข้ามกับความไม่เป็นเชิงเส้น

ขั้นตอน

การส่งต่อและการส่งกลับกลุ่ม 1 กลุ่ม

ดูข้อมูลเพิ่มเติมเกี่ยวกับการส่งผ่านไปข้างหน้าและการส่งผ่านกลับได้ที่Backpropagation

ขนาดของขั้น

คำพ้องความหมายของอัตราการเรียนรู้

การลดเชิงสุ่มตามลาดชัน (SGD)

#fundamentals

อัลกอริทึมการลดเชิงลาดซึ่งมีขนาดกลุ่มเท่ากับ 1 กล่าวคือ SGD จะฝึกจากตัวอย่างเดียวที่เลือกแบบสุ่มอย่างสม่ำเสมอจากชุดข้อมูลการฝึก

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: ไฮเปอร์พารามิเตอร์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ระยะก้าว

#image

ในการดำเนินการแบบ Convolution หรือ Pooling เดลต้าในแต่ละมิติข้อมูลของชุดข้อมูลถัดไป ตัวอย่างเช่น ภาพเคลื่อนไหวต่อไปนี้แสดงระยะ (1,1) ระหว่างการดำเนินการ Conv ดังนั้น ข้อมูลโค้ดถัดไปจึงเริ่มต้นที่ตำแหน่งด้านขวาของข้อมูลโค้ดก่อนหน้า 1 ตำแหน่ง เมื่อการดำเนินการถึงขอบขวาแล้ว ส่วนของภาพถัดไปจะเลื่อนไปทางซ้ายสุดแต่ลง 1 ตำแหน่ง

เมทริกซ์อินพุต 5x5 และตัวกรองคอนเวโลชัน 3x3 เนื่องจากระยะการเลื่อนคือ (1,1) ระบบจะใช้ตัวกรองแบบ Convolution 9 ครั้ง ส่วนการแปลงคอนโวลูชันแรกจะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านซ้ายบนของเมทริกซ์อินพุต ส่วนที่สองจะประเมินเมทริกซ์ย่อย 3x3 ตรงกลางด้านบน ส่วนโคนฟิวชันที่ 3 จะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านขวาบน ส่วนตัดที่ 4 จะประเมินเมทริกซ์ย่อย 3x3 ทางด้านซ้ายตรงกลาง
     ส่วนที่หกที่ 5 จะประเมินเมทริกซ์ย่อย 3x3 ตรงกลาง ส่วนที่หกที่ประเมินคือเมทริกซ์ย่อย 3x3 ตรงกลางด้านขวา ส่วนตัดที่ 7 จะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านซ้ายล่าง ส่วนที่เป็นส่วนที่ 8 จะประเมินเมทริกซ์ย่อย 3x3 ที่ตรงกลางด้านล่าง ส่วนที่สิบจะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านขวาล่าง

ตัวอย่างก่อนหน้านี้แสดงการก้าว 2 มิติ หากเมทริกซ์อินพุตเป็นแบบ 3 มิติ ระยะห่างจะเป็นแบบ 3 มิติด้วย

การลดความเสี่ยงเชิงโครงสร้าง (SRM)

อัลกอริทึมที่ปรับสมดุลเป้าหมาย 2 อย่าง ได้แก่

  • ความจำเป็นในการสร้างโมเดลการคาดการณ์มากที่สุด (เช่น ความเสียหายต่ำสุด)
  • ความจำเป็นในการรักษาโมเดลให้เรียบง่ายที่สุด (เช่น การปรับให้เหมาะสมอย่างเข้มงวด)

เช่น ฟังก์ชันที่ลดการสูญเสีย+การปรับให้เหมาะสมในชุดข้อมูลการฝึกอบรมคืออัลกอริทึมการลดความเสี่ยงเชิงโครงสร้าง

ตรงข้ามกับการลดความเสี่ยงเชิงประจักษ์

การสุ่มตัวอย่างย่อย

#image

ดูการรวม

โทเค็นคำย่อย

#language

ในโมเดลภาษา โทเค็นคือสตริงย่อยของคํา ซึ่งอาจเป็นทั้งคํา

เช่น คําอย่าง "แจกแจง" อาจแบ่งออกเป็น "รายการ" (รากคํา) และ "แจกแจง" (ส่วนต่อท้าย) ซึ่งแต่ละรายการจะแสดงด้วยโทเค็นของตัวเอง การแยกคำที่ไม่พบบ่อยออกเป็นส่วนๆ ที่เรียกว่าคำย่อยจะช่วยให้โมเดลภาษาทำงานกับองค์ประกอบที่พบบ่อยกว่าของคำได้ เช่น คำนำหน้าและคำต่อท้าย

ในทางกลับกัน คําทั่วไปอย่าง "going" อาจไม่แบ่งออกเป็นส่วนๆ และอาจแสดงด้วยโทเค็นเดียว

สรุป

#TensorFlow

ใน TensorFlow ค่าหรือชุดค่าที่คํานวณในขั้นตอนหนึ่งๆ ซึ่งมักใช้ติดตามเมตริกของโมเดลระหว่างการฝึก

แมชชีนเลิร์นนิงที่มีการควบคุมดูแล

#fundamentals

การฝึกโมเดลจากฟีเจอร์และป้ายกำกับที่เกี่ยวข้อง แมชชีนเลิร์นนิงที่มีการควบคุมนั้นคล้ายกับการได้เรียนรู้เรื่องหนึ่งๆ โดยการศึกษาชุดคําถามและคําตอบที่เกี่ยวข้อง หลังจากเชี่ยวชาญการเชื่อมโยงระหว่างคำถามกับคำตอบแล้ว นักเรียนจะสามารถตอบคำถามใหม่ (ที่ไม่เคยเห็นมาก่อน) ในหัวข้อเดียวกัน

เปรียบเทียบกับแมชชีนเลิร์นนิงแบบไม่ควบคุมดูแล

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบควบคุมดูแลในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับ ML

องค์ประกอบสังเคราะห์

#fundamentals

องค์ประกอบที่ไม่มีอยู่ในองค์ประกอบอินพุต แต่ประกอบขึ้นจากองค์ประกอบอย่างน้อย 1 รายการ วิธีการสร้างฟีเจอร์ที่ผ่านการสังเคราะห์มีดังนี้

  • การจัดกลุ่มองค์ประกอบแบบต่อเนื่องลงในที่เก็บข้อมูลช่วง
  • การสร้างการครอสฟีเจอร์
  • การคูณ (หรือหาร) ค่าฟีเจอร์หนึ่งด้วยค่าฟีเจอร์อื่นๆ หรือคูณด้วยค่าฟีเจอร์นั้นเอง ตัวอย่างเช่น หาก a และ b เป็นฟีเจอร์อินพุต ตัวอย่างฟีเจอร์สังเคราะห์มีดังนี้
    • ab
    • a2
  • การใช้ฟังก์ชันที่ไม่ใช่ตรีโกณมิติกับค่าองค์ประกอบ ตัวอย่างเช่น หาก c เป็นฟีเจอร์อินพุต ตัวอย่างฟีเจอร์สังเคราะห์มีดังนี้
    • sin(c)
    • ln(c)

ฟีเจอร์ที่สร้างขึ้นโดยการการปรับให้เป็นมาตรฐานหรือการปรับขนาดเพียงอย่างเดียวไม่ถือเป็นฟีเจอร์สังเคราะห์

T

T5

#language

โมเดลการเรียนรู้แบบโอนจากข้อความหนึ่งไปยังอีกข้อความหนึ่ง ซึ่ง AI ของ Google เปิดตัวในปี 2020 T5 เป็นโมเดลโปรแกรมเปลี่ยนไฟล์-โปรแกรมถอดรหัสที่อิงตามสถาปัตยกรรม Transformer ซึ่งได้รับการฝึกด้วยชุดข้อมูลขนาดใหญ่มาก โมเดลนี้มีประสิทธิภาพในงานการประมวลผลภาษาธรรมชาติที่หลากหลาย เช่น การสร้างข้อความ แปลภาษา และการตอบคำถามในลักษณะการสนทนา

T5 มาจาก T 5 ตัวใน "Text-to-Text Transfer Transformer"

T5X

#language

เฟรมเวิร์กแมชชีนเลิร์นนิงแบบโอเพนซอร์สที่ออกแบบมาเพื่อสร้างและฝึกโมเดลการประมวลผลภาษาธรรมชาติ (NLP) ขนาดใหญ่ T5 ติดตั้งใช้งานบนโค้ดเบส T5X (ซึ่งสร้างขึ้นจาก JAX และ Flax)

การเรียนรู้ด้วย Q แบบตาราง

#rl

ในการเรียนรู้เพื่อเสริมแรง ให้ใช้การเรียนรู้ Q โดยใช้ตารางเพื่อจัดเก็บฟังก์ชัน Q สําหรับชุดค่าผสมของสถานะและการดําเนินการ ทั้งหมด

เป้าหมาย

คำพ้องความหมายของ label

เครือข่ายเป้าหมาย

#rl

ใน Deep Q-learning โครงข่ายประสาทเป็นค่าประมาณที่เสถียรของโครงข่ายประสาทหลัก ซึ่งโครงข่ายประสาทหลักใช้ ฟังก์ชัน Q หรือนโยบาย จากนั้นคุณสามารถฝึกเครือข่ายหลักด้วยค่า Q ที่เครือข่ายเป้าหมายคาดการณ์ได้ ดังนั้น คุณจึงป้องกันลูปความคิดเห็นที่เกิดขึ้นเมื่อเครือข่ายหลักฝึกด้วยค่า Q ที่คาดการณ์ด้วยตนเอง การหลีกเลี่ยงการแสดงผลความคิดเห็นนี้จะช่วยเพิ่มความเสถียรของการฝึก

งาน

ปัญหาที่แก้ไขได้โดยใช้เทคนิคแมชชีนเลิร์นนิง เช่น

อุณหภูมิ

#language
#image
#generativeAI

ไฮเปอร์พารามิเตอร์ที่ควบคุมระดับความสุ่มของเอาต์พุตของโมเดล อุณหภูมิที่สูงขึ้นจะทำให้เอาต์พุตเป็นแบบสุ่มมากขึ้น ส่วนอุณหภูมิที่ต่ำลงจะทำให้เอาต์พุตเป็นแบบสุ่มน้อยลง

การเลือกอุณหภูมิที่เหมาะสมที่สุดขึ้นอยู่กับแอปพลิเคชันเฉพาะและพร็อพเพอร์ตี้ที่ต้องการของเอาต์พุตของโมเดล เช่น คุณอาจเพิ่มอุณหภูมิเมื่อสร้างแอปพลิเคชันที่สร้างเอาต์พุตครีเอทีฟโฆษณา ในทางกลับกัน คุณอาจลดอุณหภูมิเมื่อสร้างโมเดลที่จัดประเภทรูปภาพหรือข้อความเพื่อปรับปรุงความแม่นยำและความสอดคล้องของโมเดล

อุณหภูมิมักใช้ร่วมกับ softmax

ข้อมูลตามช่วงเวลา

ข้อมูลที่บันทึกไว้ในช่วงเวลาต่างๆ เช่น ยอดขายเสื้อโค้ทฤดูหนาวที่บันทึกไว้ในแต่ละวันของปีจะเป็นข้อมูลตามช่วงเวลา

Tensor

#TensorFlow

โครงสร้างข้อมูลหลักในโปรแกรม TensorFlow เทนเซอร์เป็นโครงสร้างข้อมูล N มิติ (โดยที่ N อาจมีค่ามาก) ซึ่งมักเป็นจำนวนจริง เวกเตอร์ หรือเมทริกซ์ องค์ประกอบของ Tensor สามารถเก็บค่าจำนวนเต็ม ทศนิยม หรือสตริงได้

TensorBoard

#TensorFlow

แดชบอร์ดที่แสดงข้อมูลสรุปที่บันทึกไว้ระหว่างการเรียกใช้โปรแกรม TensorFlow อย่างน้อย 1 รายการ

TensorFlow

#TensorFlow

แพลตฟอร์มแมชชีนเลิร์นนิงแบบกระจายศูนย์ขนาดใหญ่ นอกจากนี้ คำว่า "เทสลา" ยังหมายถึงเลเยอร์ API พื้นฐานในสแต็ก TensorFlow ซึ่งรองรับการคํานวณทั่วไปในกราฟการไหลของข้อมูล

แม้ว่า TensorFlow จะใช้สำหรับแมชชีนเลิร์นนิงเป็นหลัก แต่คุณก็ใช้ TensorFlow สำหรับงานที่ไม่เกี่ยวข้องกับ ML ซึ่งต้องใช้การคํานวณตัวเลขได้โดยใช้กราฟการไหลของข้อมูล

TensorFlow Playground

#TensorFlow

โปรแกรมที่แสดงภาพว่าไฮเปอร์พารามิเตอร์ต่างๆ ส่งผลต่อการฝึกโมเดล (โดยเฉพาะอย่างยิ่งการฝึกโครงข่ายประสาท) อย่างไร ไปที่ http://playground.tensorflow.org เพื่อทดลองใช้ TensorFlow Playground

TensorFlow Serving

#TensorFlow

แพลตฟอร์มสำหรับทำให้โมเดลที่ฝึกแล้วใช้งานได้จริง

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

วงจรรวมเฉพาะแอปพลิเคชัน (ASIC) ที่เพิ่มประสิทธิภาพของปริมาณงานแมชชีนเลิร์นนิง ASIC เหล่านี้จะติดตั้งใช้งานเป็นชิป TPU หลายตัวในอุปกรณ์ TPU

อันดับ Tensor

#TensorFlow

ดูrank (Tensor)

รูปร่างของ Tensor

#TensorFlow

จํานวนองค์ประกอบที่ Tensor มีในมิติข้อมูลต่างๆ เช่น [5, 10] Tensor มีรูปร่างเป็น 5 ในมิติข้อมูลหนึ่งและ 10 ในอีกมิติข้อมูลหนึ่ง

ขนาด Tensor

#TensorFlow

จํานวนทั้งหมดของ Scalar ที่ Tensor มี เช่น เทนเซอร์ [5, 10] มีขนาดใหญ่ 50

TensorStore

ไลบรารีสําหรับการอ่านและเขียนอาร์เรย์มิติหลายรายการขนาดใหญ่อย่างมีประสิทธิภาพ

เงื่อนไขการสิ้นสุด

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เงื่อนไขที่ระบุว่าตอนจะสิ้นสุดเมื่อใด เช่น เมื่อตัวแทนถึงสถานะหนึ่งๆ หรือมีการเปลี่ยนสถานะเกินจำนวนเกณฑ์ เช่น ในเกมตีฉิ่ง (หรือเรียกอีกอย่างว่าเกมหมากฮอต) เกมจะจบลงเมื่อผู้เล่นทำเครื่องหมายช่องติดต่อกัน 3 ช่องหรือเมื่อทำเครื่องหมายทุกช่องแล้ว

ทดสอบ

#df

ในแผนภูมิการตัดสินใจ ชื่อเรียกอีกอย่างของเงื่อนไข

การสูญเสียในการทดสอบ

#fundamentals
#Metric

เมตริกที่แสดงถึงการสูญเสียของโมเดลเทียบกับชุดทดสอบ เมื่อสร้างโมเดล คุณมักจะพยายามลดการสูญเสียในการทดสอบ เนื่องจากการสูญเสียในการทดสอบที่ต่ำเป็นสัญญาณคุณภาพที่ชัดเจนกว่าการสูญเสียในการฝึกที่ต่ำหรือการสูญเสียในการทดสอบที่ต่ำ

บางครั้งช่องว่างระหว่างการสูญเสียในชุดทดสอบกับการสูญเสียในชุดฝึกหรือชุดตรวจสอบที่มากอาจบ่งบอกว่าคุณต้องเพิ่มอัตราการปรับสมดุล

ชุดทดสอบ

ชุดย่อยของชุดข้อมูลที่สงวนไว้สําหรับการทดสอบโมเดลที่ผ่านการฝึก

โดยทั่วไปแล้ว คุณจะต้องแบ่งตัวอย่างในชุดข้อมูลออกเป็นชุดย่อย 3 ชุดที่แตกต่างกัน ดังนี้

ตัวอย่างแต่ละรายการในชุดข้อมูลควรอยู่ในชุดย่อยก่อนหน้าเพียงชุดเดียว เช่น ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดการฝึกและชุดทดสอบ

ชุดการฝึกและชุดตรวจสอบมีความเชื่อมโยงกับการฝึกโมเดลอย่างใกล้ชิด เนื่องจากชุดทดสอบเชื่อมโยงกับการฝึกแบบอ้อมเท่านั้น การสูญเสียในชุดทดสอบจึงเป็นเมตริกที่มีคุณภาพสูงกว่าและมีความลำเอียงน้อยกว่าการสูญเสียในชุดฝึกหรือการสูญเสียในชุดตรวจสอบ

ดูข้อมูลเพิ่มเติมที่ชุดข้อมูล: การแบ่งชุดข้อมูลเดิมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ช่วงข้อความ

#language

ช่วงที่ระบุอาร์เรย์ที่เชื่อมโยงกับส่วนย่อยที่เฉพาะเจาะจงของสตริงข้อความ เช่น คำว่า good ในสตริง Python s="Be good now" ครอบครองช่วงข้อความที่ 3 ถึง 6

tf.Example

#TensorFlow

มาตรฐาน บัฟเฟอร์โปรโตคอล สําหรับอธิบายข้อมูลอินพุตสําหรับการฝึกหรืออนุมานโมเดลแมชชีนเลิร์นนิง

tf.keras

#TensorFlow

การใช้งาน Keras ที่ผสานรวมกับ TensorFlow

เกณฑ์ (สําหรับแผนภูมิการตัดสินใจ)

#df

ในเงื่อนไขที่สอดคล้องกับแกน ค่าที่องค์ประกอบจะเปรียบเทียบด้วย ตัวอย่างเช่น 75 คือค่าเกณฑ์ในเงื่อนไขต่อไปนี้

grade >= 75

ดูข้อมูลเพิ่มเติมที่ตัวแยกที่แน่นอนสำหรับการแยกประเภทแบบ 2 กลุ่มที่มีฟีเจอร์ตัวเลขในหลักสูตรป่าการตัดสินใจ

การวิเคราะห์อนุกรมเวลา

#clustering

สาขาย่อยของแมชชีนเลิร์นนิงและสถิติที่วิเคราะห์ข้อมูลเชิงเวลา ปัญหาแมชชีนเลิร์นนิงหลายประเภทต้องใช้การวิเคราะห์อนุกรมเวลา ซึ่งรวมถึงการจัดประเภท การคลัสเตอร์ การคาดการณ์ และการตรวจหาความผิดปกติ เช่น คุณอาจใช้การวิเคราะห์อนุกรมเวลาเพื่อคาดการณ์ยอดขายเสื้อโค้ทฤดูหนาวในอนาคตตามเดือนโดยอิงตามข้อมูลยอดขายที่ผ่านมา

ช่วงเวลา

#seq

เซลล์ "แบบไม่ได้ม้วน" 1 เซลล์ภายในเครือข่ายประสาทแบบซ้ำ ตัวอย่างเช่น รูปภาพต่อไปนี้แสดงช่วงเวลา 3 ช่วงเวลา (ติดป้ายกำกับด้วยส่วนย่อย t-1, t และ t+1)

ช่วงเวลา 3 ช่วงเวลาในโครงข่ายประสาทเทียมแบบซ้ำ เอาต์พุตของช่วงเวลาแรกจะกลายเป็นอินพุตของช่วงเวลาที่ 2 เอาต์พุตของช่วงเวลาที่ 2 จะกลายเป็นอินพุตของช่วงเวลาที่ 3

โทเค็น

#language

ในโมเดลภาษา หน่วยพื้นฐานที่โมเดลใช้ฝึกและทำการคาดการณ์ โดยปกติแล้ว โทเค็นจะเป็นอย่างใดอย่างหนึ่งต่อไปนี้

  • คํา เช่น วลี "สุนัขชอบแมว" ประกอบด้วยโทเค็นคํา 3 รายการ ได้แก่ "สุนัข" "ชอบ" และ "แมว"
  • อักขระ เช่น วลี "ปลาปั่นจักรยาน" ประกอบด้วยโทเค็นอักขระ 9 ตัว (โปรดทราบว่าช่องว่างจะนับเป็นหนึ่งในโทเค็น)
  • วลีย่อย ซึ่งคำเดียวอาจเป็นโทเค็นเดียวหรือหลายโทเค็นก็ได้ คำย่อยประกอบด้วยคำหลัก คำนำหน้า หรือคำต่อท้าย ตัวอย่างเช่น โมเดลภาษาที่ใช้คำย่อยเป็นโทเค็นอาจมองว่าคำว่า "dogs" เป็นโทเค็น 2 รายการ (คำราก "dog" และส่วนต่อท้ายที่แสดงพหูพจน์ "s") โมเดลภาษาเดียวกันนี้อาจมองว่าคําเดียวอย่าง "สูงกว่า" เป็นคําย่อย 2 คํา (คําหลัก "สูง" และส่วนต่อท้าย "กว่า")

ในโดเมนนอกโมเดลภาษา โทเค็นอาจแสดงหน่วยพื้นฐานประเภทอื่นๆ เช่น ในคอมพิวเตอร์วิทัศน์ โทเค็นอาจเป็นชุดย่อยของรูปภาพ

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ความแม่นยำของ Top-K

#language
#Metric

เปอร์เซ็นต์ของเวลาที่ "ป้ายกำกับเป้าหมาย" ปรากฏในตำแหน่ง k แรกๆ ของรายการที่สร้างขึ้น รายการอาจเป็นคําแนะนําที่ปรับเปลี่ยนในแบบของคุณ หรือรายการสินค้าที่จัดเรียงตาม softmax

ความแม่นยำของ Top-k เรียกอีกอย่างว่าความแม่นยำที่ k

หอคอย

องค์ประกอบของโครงข่ายประสาทแบบลึกที่เป็นโครงข่ายประสาทแบบลึก ในบางกรณี แต่ละหอคอยจะอ่านข้อมูลจากแหล่งข้อมูลอิสระ และหอคอยเหล่านั้นจะยังคงทำงานแยกกันจนกว่าระบบจะรวมเอาเอาต์พุตของหอคอยเหล่านั้นไว้ในเลเยอร์สุดท้าย ในกรณีอื่นๆ (เช่น ในหอคอยตัวเข้ารหัสและตัวถอดรหัสของ Transformer หลายตัว) หอคอยจะเชื่อมต่อกัน

ความเชื่อผิดๆ

#language
#Metric

ระดับที่เนื้อหาเป็นการละเมิด ข่มขู่ หรือทำให้เกิดความไม่พอใจ โมเดลแมชชีนเลิร์นนิงจำนวนมากสามารถระบุและวัดระดับความเป็นพิษได้ โมเดลส่วนใหญ่เหล่านี้จะระบุความเป็นพิษตามพารามิเตอร์หลายรายการ เช่น ระดับภาษาที่ไม่เหมาะสมและระดับภาษาที่เป็นภัย

TPU

#TensorFlow
#GoogleCloud

ตัวย่อของ Tensor Processing Unit

ชิป TPU

#TensorFlow
#GoogleCloud

ตัวเร่งการอัลเจบราเชิงเส้นแบบโปรแกรมได้พร้อมหน่วยความจำแบนด์วิดท์สูงบนชิปที่เพิ่มประสิทธิภาพสำหรับภาระงานแมชชีนเลิร์นนิง มีการติดตั้งใช้งานชิป TPU หลายตัวในอุปกรณ์ TPU

อุปกรณ์ TPU

#TensorFlow
#GoogleCloud

แผงวงจรพิมพ์ (PCB) ที่มีชิป TPU หลายตัว อินเทอร์เฟซเครือข่ายที่มีแบนด์วิดท์สูง และฮาร์ดแวร์ระบายความร้อนของระบบ

โหนด TPU

#TensorFlow
#GoogleCloud

ทรัพยากร TPU ใน Google Cloud ที่มีประเภท TPU ที่เฉพาะเจาะจง นอต TPU จะเชื่อมต่อกับเครือข่าย VPC จากเครือข่าย VPC แบบเพียร์ โหนด TPU เป็นทรัพยากรที่กําหนดไว้ใน Cloud TPU API

พ็อด TPU

#TensorFlow
#GoogleCloud

การกําหนดค่าที่เฉพาะเจาะจงของอุปกรณ์ TPU ในศูนย์ข้อมูลของ Google อุปกรณ์ทั้งหมดในพ็อด TPU จะเชื่อมต่อกันผ่านเครือข่ายความเร็วสูงโดยเฉพาะ พ็อด TPU เป็นการกำหนดค่าอุปกรณ์ TPU ขนาดใหญ่ที่สุดที่ใช้ได้กับ TPU เวอร์ชันหนึ่งๆ

ทรัพยากร TPU

#TensorFlow
#GoogleCloud

เอนทิตี TPU ใน Google Cloud ที่คุณสร้าง จัดการ หรือใช้งาน เช่น โหนด TPU และประเภท TPU เป็นทรัพยากร TPU

ส่วนของ TPU

#TensorFlow
#GoogleCloud

ส่วน TPU คือส่วนของอุปกรณ์ TPU ในพ็อด TPU อุปกรณ์ทั้งหมดในเสี้ยว TPU จะเชื่อมต่อกันผ่านเครือข่ายความเร็วสูงเฉพาะ

ประเภท TPU

#TensorFlow
#GoogleCloud

การกําหนดค่าอุปกรณ์ TPU อย่างน้อย 1 เครื่องที่มีฮาร์ดแวร์ TPU เวอร์ชันที่เฉพาะเจาะจง คุณเลือกประเภท TPU เมื่อสร้างโหนด TPU ใน Google Cloud เช่น v2-8 ประเภท TPU คืออุปกรณ์ TPU v2 เดี่ยวที่มี 8 คอร์ TPU ประเภท v3-2048 มีอุปกรณ์ TPU v3 แบบใช้เครือข่าย 256 เครื่องและมีแกนทั้งหมด 2048 แกน ประเภท TPU เป็นทรัพยากรที่ระบุไว้ใน Cloud TPU API

TPU Worker

#TensorFlow
#GoogleCloud

กระบวนการที่ทำงานบนเครื่องโฮสต์และเรียกใช้โปรแกรมแมชชีนเลิร์นนิงในอุปกรณ์ TPU

การฝึกอบรม

#fundamentals

กระบวนการกำหนดพารามิเตอร์ (น้ำหนักและค่ากําหนด) ที่เหมาะสมซึ่งประกอบกันเป็นโมเดล ในระหว่างการฝึก ระบบจะอ่านตัวอย่างและค่อยๆ ปรับพารามิเตอร์ การฝึกอบรมจะใช้ตัวอย่างแต่ละรายการตั้งแต่ 2-3 ครั้งไปจนถึงหลายพันล้านครั้ง

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบควบคุมดูแลในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับ ML

การสูญเสียจากการฝึก

#fundamentals
#Metric

เมตริกที่แสดงถึงการสูญเสียของโมเดลระหว่างการทำซ้ำการฝึกหนึ่งๆ เช่น สมมติว่าฟังก์ชันการสูญเสียคือความคลาดเคลื่อนกำลังสองเฉลี่ย ตัวอย่างเช่น การสูญเสียในการฝึก (ข้อผิดพลาดค่าเฉลี่ยสี่เหลี่ยมจัตุรัส) ของการทำซ้ำครั้งที่ 10 คือ 2.2 และการสูญเสียในการฝึกของการทำซ้ำครั้งที่ 100 คือ 1.9

เส้นโค้งการสูญเสียจะแสดงการลดลงของการฝึกเทียบกับจํานวนการวนซ้ำ เส้นโค้งการสูญเสียจะให้คำแนะนำต่อไปนี้เกี่ยวกับการฝึก

  • เส้นที่ลาดลงหมายความว่าโมเดลมีประสิทธิภาพดีขึ้น
  • เส้นลาดขึ้นหมายความว่าโมเดลมีประสิทธิภาพแย่ลง
  • เส้นลาดชันที่ราบเรียบหมายความว่าโมเดลบรรลุการบรรจบแล้ว

ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้ซึ่งค่อนข้างเป็นอุดมคติจะแสดงข้อมูลต่อไปนี้

  • เส้นลาดลงชันในช่วงการทำซ้ำครั้งแรก ซึ่งหมายความว่าโมเดลได้รับการปรับปรุงอย่างรวดเร็ว
  • เส้นลาดชันที่ค่อยๆ ราบลง (แต่ยังคงลดลง) จนใกล้ถึงช่วงสิ้นสุดการฝึก ซึ่งหมายความว่ามีการปรับปรุงโมเดลอย่างต่อเนื่องในอัตราที่ช้ากว่าช่วงการทำซ้ำครั้งแรก
  • เส้นลาดชันที่ราบเรียบในช่วงท้ายของการฝึก ซึ่งบ่งบอกถึงการบรรจบ

ผังของการสูญเสียของการฝึกเทียบกับจำนวนรอบ เส้นโค้งการสูญเสียนี้เริ่มต้นด้วยเส้นลาดชันชันลง ความชันจะค่อยๆ ลดลงจนกว่าจะมีค่าเป็น 0

แม้ว่าการสูญเสียระหว่างการฝึกจะมีความสำคัญ แต่โปรดดูการทั่วไปด้วย

ความคลาดเคลื่อนระหว่างการฝึกและการให้บริการ

#fundamentals

ความแตกต่างระหว่างประสิทธิภาพของโมเดลระหว่างการฝึกกับประสิทธิภาพของโมเดลเดียวกันระหว่างการทํางาน

ชุดการฝึก

#fundamentals

ชุดย่อยของชุดข้อมูลที่ใช้ฝึกโมเดล

โดยทั่วไปแล้ว ตัวอย่างในชุดข้อมูลจะแบ่งออกเป็นชุดย่อยที่แตกต่างกัน 3 ชุดต่อไปนี้

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรอยู่ในชุดย่อยก่อนหน้าเพียงชุดเดียว เช่น ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดการฝึกและชุดทดสอบ

ดูข้อมูลเพิ่มเติมที่ชุดข้อมูล: การแบ่งชุดข้อมูลเดิมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เส้นทาง

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ลำดับของ tuple ที่แสดงถึงลำดับการเปลี่ยนสถานะของเอเจนต์ โดยที่แต่ละ tuple สอดคล้องกับสถานะ การดำเนินการ รางวัล และสถานะถัดไปสำหรับการเปลี่ยนสถานะหนึ่งๆ

การเรียนรู้แบบโอน

การโอนข้อมูลจากงานแมชชีนเลิร์นนิงงานหนึ่งไปยังอีกงานหนึ่ง ตัวอย่างเช่น ในการเรียนรู้แบบหลายงาน โมเดลเดียวจะแก้ปัญหาได้หลายอย่าง เช่น โมเดลเชิงลึกที่มีโหนดเอาต์พุตที่แตกต่างกันสำหรับงานต่างๆ การเรียนรู้แบบโอนอาจเกี่ยวข้องกับการโอนความรู้จากวิธีแก้ปัญหาของงานที่ง่ายกว่าไปยังงานที่ซับซ้อนกว่า หรือเกี่ยวข้องกับการโอนความรู้จากงานที่ข้อมูลมากกว่าไปยังงานที่ข้อมูลน้อยกว่า

ระบบแมชชีนเลิร์นนิงส่วนใหญ่จะแก้ปัญหารายการเดียว การเรียนรู้แบบโอนเป็นก้าวแรกสู่ปัญญาประดิษฐ์ (AI) ที่โปรแกรมเดียวสามารถแก้ปัญหาหลายอย่างได้

Transformer

#language

สถาปัตยกรรมโครงข่ายประสาทที่พัฒนาขึ้นโดย Google ซึ่งอาศัยกลไกการใส่ใจตนเองเพื่อเปลี่ยนลำดับของข้อมูลเชิงลึกอินพุตให้เป็นลำดับของข้อมูลเชิงลึกเอาต์พุตโดยไม่ต้องใช้การกรองข้อมูลหรือโครงข่ายประสาทแบบซ้ำ Transformer เปรียบเสมือนกองเลเยอร์ Self-Attention

Transformer อาจมีสิ่งต่อไปนี้

โปรแกรมเปลี่ยนไฟล์จะเปลี่ยนลําดับขององค์ประกอบเป็นลําดับใหม่ที่มีความยาวเท่ากัน ตัวเข้ารหัสประกอบด้วยเลเยอร์ N เลเยอร์ซึ่งเหมือนกัน โดยแต่ละเลเยอร์จะมีเลเยอร์ย่อย 2 เลเยอร์ ระบบจะใช้เลเยอร์ย่อย 2 เลเยอร์นี้ในแต่ละตําแหน่งของลําดับการฝังอินพุต ซึ่งจะเปลี่ยนองค์ประกอบแต่ละรายการของลําดับเป็นการฝังใหม่ เลเยอร์ย่อยของตัวเข้ารหัสแรกจะรวบรวมข้อมูลจากลำดับอินพุตต่างๆ เลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ที่ 2 จะเปลี่ยนข้อมูลที่รวบรวมไว้เป็นการฝังเอาต์พุต

ตัวถอดรหัสจะเปลี่ยนรูปแบบของลําดับการฝังอินพุตเป็นลําดับการฝังเอาต์พุต ซึ่งอาจมีความยาวต่างกัน ตัวถอดรหัสยังมีเลเยอร์ที่เหมือนกัน N ชั้นที่มีเลเยอร์ย่อย 3 ชั้น โดย 2 ชั้นนั้นคล้ายกับเลเยอร์ย่อยของตัวเข้ารหัส เลเยอร์ย่อยตัวถอดรหัสที่ 3 จะนำเอาเอาต์พุตของตัวเข้ารหัสไปใช้กับกลไกการใส่ใจตนเองเพื่อรวบรวมข้อมูลจากเอาต์พุตดังกล่าว

บล็อกโพสต์เรื่อง Transformer: สถาปัตยกรรมโครงข่ายระบบประสาทเทียมรูปแบบใหม่สำหรับการทําความเข้าใจภาษาเป็นข้อมูลเบื้องต้นที่ดีมากเกี่ยวกับ Transformer

ดูข้อมูลเพิ่มเติมได้ที่LLM: โมเดลภาษาขนาดใหญ่คืออะไรในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเปลี่ยนรูปแบบ

#image

ในปัญหาการจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพให้สำเร็จแม้ว่าตำแหน่งของวัตถุภายในรูปภาพจะเปลี่ยนไป ตัวอย่างเช่น อัลกอริทึมจะยังคงระบุสุนัขได้ ไม่ว่าจะอยู่ตรงกลางเฟรมหรือที่ด้านซ้ายสุดของเฟรม

ดูข้อมูลเพิ่มเติมได้ที่การคงขนาดและการคงการหมุน

ไตรกรม

#seq
#language

N-gram โดยที่ N=3

ผลลบจริง (TN)

#fundamentals
#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบได้อย่างถูกต้อง ตัวอย่างเช่น โมเดลอนุมานว่าข้อความอีเมลหนึ่งๆ ไม่ใช่จดหมายขยะ และข้อความอีเมลนั้นไม่ใช่จดหมายขยะจริงๆ

ผลบวกจริง (TP)

#fundamentals
#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสที่เป็นบวกได้อย่างถูกต้อง เช่น โมเดลอนุมานว่าข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ และข้อความอีเมลนั้นจริงๆ แล้วเป็นจดหมายขยะ

อัตราผลบวกจริง (TPR)

#fundamentals
#Metric

คำพ้องความหมายของ recall โดยการ

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

อัตราผลบวกจริงคือแกน y ในกราฟ ROC

U

ไม่รู้ตัว (เกี่ยวกับแอตทริบิวต์ที่มีความละเอียดอ่อน)

#fairness

สถานการณ์ที่มีแอตทริบิวต์ที่มีความละเอียดอ่อน แต่ไม่ได้รวมอยู่ในข้อมูลการฝึก เนื่องจากแอตทริบิวต์ที่ละเอียดอ่อนมักมีความสัมพันธ์กับแอตทริบิวต์อื่นๆ ของข้อมูลบุคคล โมเดลที่ผ่านการฝึกอบรมโดยไม่รู้เกี่ยวกับแอตทริบิวต์ที่ละเอียดอ่อนจึงอาจยังคงมีผลกระทบที่แตกต่างกันในแอตทริบิวต์นั้น หรือละเมิดข้อจำกัดด้านความเป็นธรรมอื่นๆ

Underfitting

#fundamentals

การสร้างโมเดลที่คาดการณ์ได้ไม่ดีเนื่องจากโมเดลไม่ได้จับความซับซ้อนของข้อมูลการฝึกอย่างเต็มรูปแบบ ปัญหาหลายอย่างอาจทําให้เกิดการประมาณที่น้อยเกินไปได้ ดังนี้

ดูข้อมูลเพิ่มเติมได้ที่การประมาณมากเกินไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การสุ่มตัวอย่างที่ต่ำ

การนำตัวอย่างออกจากคลาสที่มีจำนวนมากกว่าในชุดข้อมูลที่คลาสไม่สมดุลเพื่อสร้างชุดข้อมูลการฝึกที่สมดุลมากขึ้น

ตัวอย่างเช่น พิจารณาชุดข้อมูลที่มีอัตราส่วนของคลาสส่วนใหญ่ต่อคลาสส่วนน้อยคือ 20:1 หากต้องการลดความไม่สมดุลของคลาสนี้ คุณอาจสร้างชุดการฝึกที่มีตัวอย่างของคลาสที่มีจำนวนน้อยทั้งหมด แต่มีตัวอย่างของคลาสที่มีจำนวนมากเพียงหนึ่งในสิบ ซึ่งจะสร้างสัดส่วนคลาสของชุดการฝึกเป็น 2:1 การลดการสุ่มตัวอย่างทำให้ชุดการฝึกที่สมดุลมากขึ้นนี้อาจสร้างโมเดลที่ดีขึ้น หรือชุดการฝึกที่สมดุลมากขึ้นนี้อาจมีตัวอย่างไม่เพียงพอที่จะฝึกโมเดลที่มีประสิทธิภาพ

ตรงข้ามกับoversampling

ทิศทางเดียว

#language

ระบบที่ประเมินเฉพาะข้อความที่อยู่ก่อนส่วนข้อความเป้าหมาย ในทางตรงกันข้าม ระบบแบบ 2 ทิศทางจะประเมินทั้งข้อความที่อยู่ก่อนและอยู่หลังส่วนของข้อความเป้าหมาย ดูรายละเอียดเพิ่มเติมที่แบบ 2 ทิศทาง

โมเดลภาษาแบบทิศทางเดียว

#language

โมเดลภาษาที่อิงความน่าจะเป็นตามโทเค็นที่ปรากฏก่อนโทเค็นเป้าหมายเท่านั้น ไม่ใช่หลัง เปรียบเทียบกับโมเดลภาษาแบบ 2 ทิศทาง

ตัวอย่างที่ไม่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์แต่ไม่มีป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่าง 3 รายการที่ไม่มีป้ายกำกับจากโมเดลการประเมินมูลค่าบ้าน โดยแต่ละรายการมี 3 ฟีเจอร์ แต่ไม่มีมูลค่าบ้าน

จำนวนห้องนอน จำนวนห้องน้ำ อายุของบ้าน
3 2 15
2 1 72
4 2 34

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล รูปแบบจะฝึกจากตัวอย่างที่ติดป้ายกำกับและทำการคาดการณ์จากตัวอย่างที่ไม่มีป้ายกำกับ

ในการเรียนรู้แบบควบคุมดูแลบางส่วนและไม่มีการควบคุมดูแล ระบบจะใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการฝึก

เปรียบเทียบตัวอย่างที่ไม่มีป้ายกำกับกับตัวอย่างที่มีป้ายกำกับ

แมชชีนเลิร์นนิงแบบไม่มีการควบคุมดูแล

#clustering
#fundamentals

การฝึกโมเดลเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งมักจะเป็นชุดข้อมูลที่ไม่มีป้ายกำกับ

การใช้งานแมชชีนเลิร์นนิงแบบไม่ควบคุมที่พบบ่อยที่สุดคือการจัดกลุ่มข้อมูลเป็นกลุ่มตัวอย่างที่คล้ายกัน เช่น อัลกอริทึมแมชชีนเลิร์นนิงแบบไม่ควบคุมดูแลจะจัดกลุ่มเพลงตามคุณสมบัติต่างๆ ของเพลงได้ กลุ่มที่ได้จะเป็นอินพุตสําหรับอัลกอริทึมของแมชชีนเลิร์นนิงอื่นๆ (เช่น บริการแนะนําเพลง) การจัดกลุ่มจะมีประโยชน์เมื่อป้ายกำกับที่มีประโยชน์มีไม่มากหรือไม่มีเลย ตัวอย่างเช่น ในโดเมนต่างๆ เช่น การป้องกันการละเมิดและการประพฤติมิชอบ กลุ่มจะช่วยมนุษย์เข้าใจข้อมูลได้ดีขึ้น

ตรงข้ามกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล

ดูข้อมูลเพิ่มเติมได้ที่แมชชีนเลิร์นนิงคืออะไรในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับ ML

การประมาณการเพิ่มขึ้น

เทคนิคการประมาณที่ใช้กันโดยทั่วไปทางการตลาด ซึ่งประมาณ "ผลเชิงสาเหตุ" (หรือที่เรียกว่า "ผลที่เพิ่มขึ้น") ของ "การรักษา" ต่อ "บุคคล" ต่อไปนี้เป็นตัวอย่างสองตัวอย่าง:

  • แพทย์อาจใช้การประมาณการเพิ่มขึ้นเพื่อคาดการณ์การลดลงของอัตราการเสียชีวิต (ผลเชิงสาเหตุ) ของกระบวนการทางการแพทย์ (การรักษา) โดยขึ้นอยู่กับอายุและประวัติทางการแพทย์ของผู้ป่วย (บุคคล)
  • นักการตลาดอาจใช้การประมาณการเพิ่มขึ้นเพื่อคาดการณ์ความน่าจะเป็นที่เพิ่มขึ้นในการซื้อ (ผลเชิงสาเหตุ) เนื่องจากโฆษณา (กลุ่มทดสอบ) กับบุคคล (บุคคล)

โมเดลการเพิ่มขึ้นแตกต่างจากการจัดประเภทหรือการถดถอยตรงที่โมเดลการเพิ่มขึ้นจะไม่มีป้ายกำกับบางรายการ (เช่น ครึ่งหนึ่งของป้ายกำกับในการรักษาแบบไบนารี) เสมอ ตัวอย่างเช่น ผู้ป่วยอาจได้รับการรักษาหรือไม่ได้รับการรักษาก็ได้ เราจึงสังเกตได้เพียงว่าผู้ป่วยจะหายหรือไม่หายในสถานการณ์ใดสถานการณ์หนึ่งเท่านั้น (แต่ไม่สามารถสังเกตได้ทั้งสองสถานการณ์) ข้อได้เปรียบหลักของรูปแบบการเพิ่มขึ้นคือสามารถสร้างการคาดการณ์สําหรับสถานการณ์ที่สังเกตไม่ได้ (สิ่งที่ขัดแย้งกับความจริงที่ตั้งขึ้น) และใช้เพื่อคํานวณผลที่เกิดจากสาเหตุ

การเพิ่มน้ำหนัก

การใช้น้ำหนักกับคลาสที่ลดขนาดเท่ากับปัจจัยที่คุณลดขนาด

เมทริกซ์ผู้ใช้

#recsystems

ในระบบการแนะนำ เวกเตอร์การฝังที่สร้างขึ้นโดยการแยกองค์ประกอบเมทริกซ์ซึ่งเก็บสัญญาณแฝงเกี่ยวกับค่ากําหนดของผู้ใช้ แต่ละแถวของเมทริกซ์ผู้ใช้มีข้อมูลเกี่ยวกับความแรงสัมพัทธ์ของสัญญาณแฝงต่างๆ สําหรับผู้ใช้รายเดียว ตัวอย่างเช่น ลองพิจารณาระบบการแนะนำภาพยนตร์ ในระบบนี้ สัญญาณแฝงในเมทริกซ์ผู้ใช้อาจแสดงถึงความสนใจของผู้ใช้แต่ละรายในประเภทที่เฉพาะเจาะจง หรืออาจเป็นสัญญาณที่ตีความได้ยากซึ่งเกี่ยวข้องกับการโต้ตอบที่ซับซ้อนในหลายปัจจัย

เมทริกซ์ผู้ใช้มีคอลัมน์สำหรับองค์ประกอบแฝงแต่ละรายการและแถวสำหรับผู้ใช้แต่ละราย กล่าวคือ เมทริกซ์ผู้ใช้มีจํานวนแถวเท่ากับเมทริกซ์เป้าหมายที่แยกตัวประกอบ ตัวอย่างเช่น ระบบแนะนำภาพยนตร์สำหรับผู้ใช้ 1,000,000 คนจะมีเมทริกซ์ผู้ใช้ 1,000,000 แถว

V

การตรวจสอบความถูกต้อง

#fundamentals

การประเมินคุณภาพโมเดลเบื้องต้น การตรวจสอบจะตรวจสอบคุณภาพของการคาดการณ์ของโมเดลเทียบกับชุดข้อมูลที่ใช้ตรวจสอบ

เนื่องจากชุดที่ใช้ตรวจสอบแตกต่างจากชุดข้อมูลการฝึก การทดสอบจึงช่วยป้องกันการประมาณค่ามากเกินไป

คุณอาจคิดว่าการประเมินโมเดลเทียบกับชุดข้อมูลการตรวจสอบเป็นการทดสอบรอบแรก และการประเมินโมเดลเทียบกับชุดทดสอบเป็นการทดสอบรอบที่ 2

การสูญเสียการตรวจสอบ

#fundamentals
#Metric

เมตริกที่แสดงถึงความสูญเสียของโมเดลในชุดทดสอบระหว่างการทำซ้ำการฝึกหนึ่งๆ

โปรดดูเส้นโค้งทั่วไปด้วย

ชุดการตรวจสอบ

#fundamentals

ชุดย่อยของชุดข้อมูลที่ทําการประเมินเบื้องต้นกับโมเดลที่ผ่านการฝึก โดยปกติแล้ว คุณจะต้องประเมินโมเดลที่ผ่านการฝึกอบรมกับชุดข้อมูลที่ใช้ตรวจสอบหลายครั้งก่อนที่จะประเมินโมเดลกับชุดทดสอบ

โดยทั่วไปแล้ว คุณจะต้องแบ่งตัวอย่างในชุดข้อมูลออกเป็นชุดย่อย 3 ชุดที่แตกต่างกัน ดังนี้

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรอยู่ในชุดย่อยก่อนหน้าเพียงชุดเดียว เช่น ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดการฝึกและชุดทดสอบ

ดูข้อมูลเพิ่มเติมที่ชุดข้อมูล: การแบ่งชุดข้อมูลเดิมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การประมาณค่า

กระบวนการแทนที่ค่าที่ขาดหายไปด้วยค่าทดแทนที่ยอมรับได้ เมื่อไม่มีค่า คุณอาจทิ้งทั้งตัวอย่างหรือใช้การประมาณค่าเพื่อกู้คืนตัวอย่างก็ได้

ตัวอย่างเช่น พิจารณาชุดข้อมูลที่มีฟีเจอร์ temperature ที่ควรจะบันทึกทุกชั่วโมง อย่างไรก็ตาม ค่าอุณหภูมิที่อ่านได้ไม่พร้อมใช้งานในช่วงเวลาหนึ่งๆ ต่อไปนี้คือส่วนหนึ่งของชุดข้อมูล

การประทับเวลา อุณหภูมิ
1680561000 10
1680564600 12
1680568200 ขาดหายไป
1680571800 20
1680575400 21
1680579000 21

ระบบอาจลบตัวอย่างที่ขาดหายไปหรือทดแทนอุณหภูมิที่ขาดหายไปเป็น 12, 16, 18 หรือ 20 ทั้งนี้ขึ้นอยู่กับอัลกอริทึมการทดแทน

ปัญหาการไล่ระดับสีที่หายไป

#seq

แนวโน้มที่ความลาดชันของเลเยอร์ที่ซ่อนอยู่ในช่วงต้นของเครือข่ายประสาทเทียมลึกบางรายการจะกลายเป็นแนวราบ (ต่ำ) อย่างน่าประหลาดใจ การที่ Gradient ลดลงเรื่อยๆ จะทําให้การเปลี่ยนแปลงน้ำหนักของโหนดในโครงข่ายประสาทแบบลึกลดลงเรื่อยๆ ซึ่งทําให้การเรียนรู้น้อยลงหรือไม่มีเลย โมเดลที่มีปัญหาเรื่องลู่ลาดที่ลดลงจะฝึกได้ยากหรือเป็นไปไม่ได้ เซลล์ Long Short-Term Memory ช่วยแก้ปัญหานี้ได้

เปรียบเทียบกับปัญหาการเพิ่มขึ้นของ Gradient

ความสำคัญของตัวแปร

#df
#Metric

ชุดคะแนนที่ระบุความสำคัญแบบสัมพัทธ์ของฟีเจอร์แต่ละรายการต่อโมเดล

เช่น ลองพิจารณาแผนภูมิการตัดสินใจซึ่งประเมินราคาบ้าน สมมติว่าแผนผังการตัดสินใจนี้ใช้ฟีเจอร์ 3 อย่าง ได้แก่ ขนาด อายุ และสไตล์ หากชุดความสำคัญของตัวแปรสำหรับฟีเจอร์ 3 รายการคำนวณออกมาเป็น {size=5.8, age=2.5, style=4.7} แสดงว่าขนาดมีความสําคัญต่อต้นไม้การตัดสินใจมากกว่าอายุหรือสไตล์

เมตริกความสำคัญของตัวแปรต่างๆ มีอยู่ ซึ่งสามารถให้ข้อมูลแก่ผู้เชี่ยวชาญด้าน ML เกี่ยวกับแง่มุมต่างๆ ของโมเดล

ตัวแปรอัตโนมัติ (VAE)

#language

Autoencoder ประเภทหนึ่งที่ใช้ประโยชน์จากความคลาดเคลื่อนระหว่างอินพุตและเอาต์พุตเพื่อสร้างอินพุตเวอร์ชันที่แก้ไขแล้ว ตัวแปรอัตโนมัติมีประโยชน์สําหรับ Generative AI

VAEs อิงตามการอนุมานแบบผันแปร ซึ่งเป็นเทคนิคในการประมาณพารามิเตอร์ของโมเดลความน่าจะเป็น

เวกเตอร์

คําที่มีความหมายแตกต่างกันไปมากในสาขาคณิตศาสตร์และวิทยาศาสตร์ ในแมชชีนเลิร์นนิง เวกเตอร์จะมีพร็อพเพอร์ตี้ 2 อย่าง ได้แก่

  • ประเภทข้อมูล: เวกเตอร์ในแมชชีนเลิร์นนิงมักจะเก็บตัวเลขทศนิยม
  • จํานวนองค์ประกอบ: คือความยาวหรือมิติข้อมูลของเวกเตอร์

ตัวอย่างเช่น พิจารณาเวกเตอร์ลักษณะที่มีตัวเลขทศนิยม 8 รายการ เวกเตอร์องค์ประกอบนี้มีความยาวหรือมิติข้อมูล 8 โปรดทราบว่าเวกเตอร์แมชชีนเลิร์นนิงมักจะมีหลายมิติข้อมูล

คุณแสดงข้อมูลประเภทต่างๆ จำนวนมากเป็นเวกเตอร์ได้ เช่น

  • ตำแหน่งใดๆ บนพื้นผิวโลกสามารถแสดงเป็นเวกเตอร์ 2 มิติได้ โดยมิติข้อมูลหนึ่งคือละติจูดและอีกมิติหนึ่งคือลองจิจูด
  • ราคาปัจจุบันของหุ้นแต่ละตัว 500 ตัวจะแสดงเป็นเวกเตอร์ 500 มิติ
  • การแจกแจงความน่าจะเป็นในคลาสจํานวนจำกัดสามารถแสดงเป็นเวกเตอร์ เช่น ระบบการจัดประเภทหลายคลาสที่คาดการณ์สีเอาต์พุต 1 ใน 3 สี (แดง เขียว หรือเหลือง) อาจแสดงผลเวกเตอร์ (0.3, 0.2, 0.5) เพื่อหมายถึง P[red]=0.3, P[green]=0.2, P[yellow]=0.5

เวกเตอร์สามารถต่อเชื่อมกันได้ ดังนั้นจึงสามารถแสดงสื่อต่างๆ ในรูปแบบเวกเตอร์เดียว บางโมเดลจะทำงานโดยตรงกับการเชื่อมต่อการเข้ารหัสแบบฮอตเวิร์กหลายรายการ

โปรเซสเซอร์เฉพาะ เช่น TPU ได้รับการเพิ่มประสิทธิภาพให้ดำเนินการทางคณิตศาสตร์กับเวกเตอร์

เวกเตอร์คือเทนเซอร์ที่มีลําดับ 1

W

การสูญเสีย Wasserstein

#Metric

ฟังก์ชันการสูญเสียอย่างหนึ่งที่ใช้กันโดยทั่วไปในเครือข่าย Generative Adversarial ซึ่งอิงตามระยะทาง Earth Mover's Distance ระหว่างการแจกแจงของข้อมูลที่สร้างขึ้นกับข้อมูลจริง

น้ำหนัก

#fundamentals

ค่าที่โมเดลคูณด้วยค่าอื่น การฝึกคือกระบวนการกำหนดน้ำหนักที่เหมาะสมของโมเดล ส่วนการอนุมานคือกระบวนการใช้น้ำหนักที่เรียนรู้มาเพื่อคาดการณ์

ดูข้อมูลเพิ่มเติมเกี่ยวกับการหาค่าสัมประสิทธ์เชิงเส้นในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

วิธีการถ่วงน้ำหนักแบบสลับขั้นต่ำ (WALS)

#recsystems

อัลกอริทึมสำหรับการลดฟังก์ชันวัตถุประสงค์ในระหว่างการแยกองค์ประกอบเมทริกซ์ในระบบการแนะนำ ซึ่งช่วยให้สามารถลดน้ำหนักตัวอย่างที่ขาดหายไปได้ WALS จะลดค่าความคลาดเคลื่อนกำลังสองที่มีน้ำหนักระหว่างเมทริกซ์ต้นฉบับกับการสร้างใหม่โดยสลับกันระหว่างการแก้ไขการแยกตัวประกอบแถวและการแยกตัวประกอบคอลัมน์ การเพิ่มประสิทธิภาพแต่ละรายการเหล่านี้สามารถคลี่คลายได้ด้วยวิธีหาค่าประมาณเชิงเส้นน้อย การเพิ่มประสิทธิภาพแบบโคเวกซ์ โปรดดูรายละเอียดที่หลักสูตรระบบการแนะนำ

ผลรวมถ่วงน้ำหนัก

#fundamentals

ผลรวมของค่าอินพุตที่เกี่ยวข้องทั้งหมดที่คูณด้วยน้ำหนักที่สอดคล้องกัน ตัวอย่างเช่น สมมติว่าอินพุตที่เกี่ยวข้องประกอบด้วยข้อมูลต่อไปนี้

ค่าอินพุต น้ำหนักอินพุต
2 -1.3
-1 0.6
3 0.4

ดังนั้นผลรวมถ่วงน้ำหนักจึงเท่ากับ

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

ผลรวมถ่วงน้ำหนักคืออาร์กิวเมนต์อินพุตของฟังก์ชันการเปิดใช้งาน

โมเดลแบบกว้าง

โมเดลเชิงเส้นที่มักจะมีฟีเจอร์อินพุตแบบเบาบางจำนวนมาก เราเรียกโมเดลนี้ว่า "กว้าง" เนื่องจากเป็นเครือข่ายประสาทเทียมประเภทพิเศษที่มีอินพุตจํานวนมากซึ่งเชื่อมต่อกับโหนดเอาต์พุตโดยตรง โมเดลแบบกว้างมักจะแก้ไขข้อบกพร่องและตรวจสอบได้ง่ายกว่าโมเดลแบบลึก แม้ว่าโมเดลแบบกว้างจะไม่สามารถแสดงลักษณะที่ไม่ใช่เชิงเส้นผ่านเลเยอร์ที่ซ่อนอยู่ แต่ก็สามารถใช้การเปลี่ยนรูปแบบ เช่น การครอสฟีเจอร์ และการแบ่งกลุ่มเพื่อประมาณลักษณะที่ไม่ใช่เชิงเส้นในลักษณะต่างๆ

ตรงข้ามกับโมเดลเชิงลึก

ความกว้าง

จํานวนนิวรอนในเลเยอร์ที่เฉพาะเจาะจงของเครือข่ายประสาทเทียม

ภูมิปัญญาของมวลชน

#df

แนวคิดที่ว่าค่าเฉลี่ยของความคิดเห็นหรือการประมาณของคนกลุ่มใหญ่ ("ฝูงชน") มักจะให้ผลลัพธ์ที่ดีมากจนน่าประหลาดใจ เช่น เกมที่ผู้คนต้องเดาจำนวนถั่วเยลลี่ที่บรรจุในโถขนาดใหญ่ แม้ว่าการคาดเดาของแต่ละคนส่วนใหญ่จะไม่ถูกต้อง แต่ค่าเฉลี่ยของการคาดเดาทั้งหมดได้รับการพิสูจน์แล้วว่าใกล้เคียงกับจำนวนเยลลี่บีนจริงในโถอย่างน่าประหลาดใจ

ชุดค่าผสมเป็นซอฟต์แวร์ที่ทำงานคล้ายกับภูมิปัญญาของมวลชน แม้ว่าโมเดลแต่ละรายการจะคาดการณ์อย่างไม่ถูกต้อง แต่การหาค่าเฉลี่ยของการคาดการณ์ของโมเดลหลายรายการมักจะให้ผลการคาดการณ์ที่แม่นยำอย่างน่าประหลาดใจ ตัวอย่างเช่น แม้ว่าต้นไม้การตัดสินใจแต่ละต้นอาจทําการคาดการณ์ได้ไม่ดี แต่ป่าการตัดสินใจมักจะทําการคาดการณ์ได้ดีมาก

Word Embedding

#language

การนำเสนอคําแต่ละคำในชุดคำภายในเวกเตอร์การฝัง กล่าวคือ การนำเสนอคําแต่ละคำเป็นเวกเตอร์ของค่าตัวเลขทศนิยมระหว่าง 0.0 ถึง 1.0 คำที่มีความหมายคล้ายกันจะมีการแสดงผลที่คล้ายกันมากกว่าคำที่มีความหมายต่างกัน ตัวอย่างเช่น แครอท ขึ้นฉ่าย และแตงกวาล้วนมีการแสดงผลที่คล้ายกัน ซึ่งจะแตกต่างจากการแสดงผลของเครื่องบิน แว่นกันแดด และยาสีฟันอย่างมาก

X

XLA (พีชคณิตเชิงเส้นแบบเร่ง)

คอมไพเลอร์แมชชีนเลิร์นนิงแบบโอเพนซอร์สสําหรับ GPU, CPU และโปรแกรมเร่งความเร็ว ML

คอมไพเลอร์ XLA จะนําโมเดลจากเฟรมเวิร์ก ML ยอดนิยม เช่น PyTorch, TensorFlow และ JAX มาเพิ่มประสิทธิภาพเพื่อการทำงานที่มีประสิทธิภาพสูงในแพลตฟอร์มฮาร์ดแวร์ต่างๆ ซึ่งรวมถึง GPU, CPU และเร่งความเร็ว ML

Z

การเรียนรู้แบบไม่ใช้ข้อมูลตัวอย่าง

การฝึกแมชชีนเลิร์นนิงประเภทหนึ่งที่โมเดลอนุมานการคาดการณ์สําหรับงานที่ยังไม่ได้ฝึกมาโดยเฉพาะ กล่าวคือ โมเดลไม่ได้รับตัวอย่างการฝึกเฉพาะงานเลย แต่ได้รับคำสั่งให้อนุมานงานนั้น

การแจ้งเตือนแบบไม่แสดงตัวอย่าง

#language
#generativeAI

พรอมต์ที่ไม่ได้แสดงตัวอย่างวิธีที่คุณต้องการให้โมเดลภาษาขนาดใหญ่ตอบกลับ เช่น

ส่วนต่างๆ ของพรอมต์ 1 รายการ หมายเหตุ
สกุลเงินทางการของประเทศที่ระบุคืออะไร คำถามที่คุณต้องการให้ LLM ตอบ
อินเดีย: คําค้นหาจริง

โมเดลภาษาขนาดใหญ่อาจตอบกลับด้วยสิ่งต่อไปนี้

  • รูปี
  • INR
  • รูปีอินเดีย
  • รูปี
  • รูปีอินเดีย

คำตอบทั้งหมดถูกต้อง แต่คุณอาจต้องการรูปแบบที่เฉพาะเจาะจง

เปรียบเทียบพรอมต์แบบไม่ใช้ตัวอย่างกับคำศัพท์ต่อไปนี้

การแปลงข้อมูลเป็นรูปแบบมาตรฐาน Z-Score

#fundamentals

เทคนิคการปรับขนาดที่ใช้แทนค่า ฟีเจอร์ดิบด้วยค่าทศนิยมที่แสดงจํานวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของฟีเจอร์นั้น ตัวอย่างเช่น พิจารณาฟีเจอร์ที่มีค่าเฉลี่ย 800 และค่าความเบี่ยงเบนมาตรฐาน 100 ตารางต่อไปนี้แสดงวิธีที่การหาค่า Z-Score มาตรฐานจะจับคู่ค่าดิบกับ Z-Score

ค่าดิบ คะแนนมาตรฐาน (Z-Score)
800 0
950 +1.5
575 -2.25

จากนั้นโมเดลแมชชีนเลิร์นนิงจะฝึกด้วยคะแนน Z ของฟีเจอร์นั้นแทนค่าดิบ

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การทำให้ค่าเป็นมาตรฐานในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง