อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง

อภิธานศัพท์นี้อธิบายคําศัพท์เกี่ยวกับแมชชีนเลิร์นนิง

A

การผ่าตัด

เทคนิคในการประเมินความสำคัญของฟีเจอร์หรือคอมโพเนนต์โดยนำออกจากโมเดลชั่วคราว จากนั้นคุณก็ฝึกโมเดลใหม่โดยไม่มีฟีเจอร์หรือคอมโพเนนต์นั้น และหากโมเดลที่ฝึกใหม่มีประสิทธิภาพแย่ลงอย่างมาก แสดงว่าฟีเจอร์หรือคอมโพเนนต์ที่นําออกนั้นมีความสําคัญ

ตัวอย่างเช่น สมมติว่าคุณฝึกโมเดลการจัดประเภทด้วยฟีเจอร์ 10 รายการและได้ความแม่นยำ 88% ในชุดทดสอบ หากต้องการตรวจสอบความสำคัญของฟีเจอร์แรก คุณสามารถฝึกโมเดลใหม่โดยใช้เพียงฟีเจอร์อื่นๆ อีก 9 รายการ หากโมเดลที่ผ่านการฝึกใหม่มีประสิทธิภาพแย่ลงอย่างมาก (เช่น ความแม่นยำ 55%) แสดงว่าฟีเจอร์ที่นําออกอาจมีความสำคัญ ในทางกลับกัน หากรูปแบบที่ฝึกใหม่มีประสิทธิภาพดีเท่าเดิม แสดงว่าฟีเจอร์นั้นอาจไม่สำคัญมากนัก

การลบออกยังช่วยระบุความสำคัญของสิ่งต่อไปนี้ได้ด้วย

  • คอมโพเนนต์ขนาดใหญ่ เช่น ระบบย่อยทั้งหมดของระบบ ML ขนาดใหญ่
  • กระบวนการหรือเทคนิค เช่น ขั้นตอนเตรียมข้อมูลล่วงหน้า

ไม่ว่าในกรณีใด คุณจะต้องสังเกตว่าประสิทธิภาพของระบบเปลี่ยนแปลง (หรือไม่เปลี่ยนแปลง) อย่างไรหลังจากที่นำคอมโพเนนต์ออก

การทดสอบ A/B

วิธีทางสถิติในการเปรียบเทียบเทคนิค 2 (หรือมากกว่า) อย่าง ได้แก่ A และ B โดยปกติแล้ว A คือเทคนิคที่มีอยู่ และ B คือเทคนิคใหม่ การทดสอบ A/B ไม่เพียงแต่จะระบุว่าเทคนิคใดมีประสิทธิภาพดีกว่า แต่ยังระบุว่าความแตกต่างนั้นสำคัญทางสถิติหรือไม่

การทดสอบ A/B มักจะเปรียบเทียบเมตริกเดียวใน 2 เทคนิค เช่น ความแม่นยำของโมเดลเป็นอย่างไรเมื่อเปรียบเทียบ 2 เทคนิค อย่างไรก็ตาม การทดสอบ A/B ยังเปรียบเทียบเมตริกจํานวนจำกัดได้ด้วย

ชิปตัวเร่ง

#GoogleCloud

หมวดหมู่ของคอมโพเนนต์ฮาร์ดแวร์เฉพาะที่ออกแบบมาเพื่อดำเนินการประมวลผลที่สําคัญซึ่งจําเป็นสําหรับอัลกอริทึมการเรียนรู้เชิงลึก

ชิปเร่งความเร็ว (หรือเรียกสั้นๆ ว่าตัวเร่งความเร็ว) สามารถเพิ่มความเร็วและประสิทธิภาพของงานการฝึกและการทำนายได้อย่างมากเมื่อเทียบกับ CPU ทั่วไป ซึ่งเหมาะสําหรับการฝึกอบรมเครือข่ายประสาทเทียมและงานที่ต้องใช้การประมวลผลอย่างหนัก

ตัวอย่างชิปเร่ง ได้แก่

  • Tensor Processing Unit (TPU) ของ Google ที่มีฮาร์ดแวร์เฉพาะสําหรับการเรียนรู้เชิงลึก
  • GPU ของ NVIDIA แม้ว่าจะออกแบบมาเพื่อประมวลผลกราฟิกในตอนแรก แต่ก็ออกแบบมาให้ประมวลผลแบบขนานได้ ซึ่งจะเพิ่มความเร็วในการประมวลผลได้อย่างมาก

ความแม่นยำ

#fundamentals

จํานวนการคาดการณ์การจัดประเภทที่ถูกต้องหารด้วยจํานวนการคาดการณ์ทั้งหมด โดยการ

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

ตัวอย่างเช่น โมเดลที่ทําการคาดการณ์ที่ถูกต้อง 40 ครั้งและการคาดการณ์ที่ไม่ถูกต้อง 10 ครั้งจะมีความแม่นยําเท่ากับ

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

การจัดประเภทแบบไบนารีจะตั้งชื่อเฉพาะสำหรับการคาดการณ์ที่ถูกต้องและการคาดการณ์ที่ไม่ถูกต้องในหมวดหมู่ต่างๆ ดังนั้น สูตรความแม่นยำสำหรับการจัดประเภทแบบไบนารีจึงมีดังนี้

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

where:

  • TP คือจํานวนผลบวกจริง (การคาดการณ์ที่ถูกต้อง)
  • TN คือจํานวนผลลบจริง (การคาดการณ์ที่ถูกต้อง)
  • FP คือจํานวนผลบวกลวง (การคาดการณ์ที่ไม่ถูกต้อง)
  • FN คือจํานวนผลลบเท็จ (การคาดการณ์ที่ไม่ถูกต้อง)

เปรียบเทียบความถูกต้องกับความแม่นยำและความแม่นยำในการจดจำ

ดูข้อมูลเพิ่มเติมได้ในการจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้องในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การดำเนินการ

#rl

ในการเรียนรู้ด้วยการทำซ้ำ กลไกที่เอเจนต์เปลี่ยนระหว่างสถานะของสภาพแวดล้อม โดยตัวแทนจะเลือกการดำเนินการโดยใช้นโยบาย

ฟังก์ชันการเปิดใช้งาน

#fundamentals

ฟังก์ชันที่ช่วยให้เครือข่ายประสาทเทียมเรียนรู้ความสัมพันธ์ที่ไม่ใช่เชิงเส้น (ซับซ้อน) ระหว่างฟีเจอร์กับป้ายกำกับ

ฟังก์ชันการเปิดใช้งานยอดนิยมมีดังนี้

ผังฟังก์ชันการเปิดใช้งานจะไม่ได้เป็นเส้นตรงเส้นเดียว เช่น ผังฟังก์ชันการเปิดใช้งาน ReLU ประกอบด้วยเส้นตรง 2 เส้น ดังนี้

ผังพิกัดคาร์ทีเซียนของเส้น 2 เส้น บรรทัดแรกมีค่า y คงที่ที่ 0 ซึ่งวิ่งไปตามแกน x จาก -infinity,0 ถึง 0,-0
          บรรทัดที่สองเริ่มต้นที่ 0,0 เส้นนี้มีความชัน +1 ดังนั้นจึงวิ่งจาก 0,0 ถึง +infinity,+infinity

ผังฟังก์ชันการเปิดใช้งาน Sigmoid มีลักษณะดังนี้

ผังโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมนจาก -infinity ถึง +positive ส่วนค่า y ครอบคลุมช่วงเกือบ 0 ถึงเกือบ 1 เมื่อ x เป็น 0, y เป็น 0.5 ความชันของเส้นโค้งจะเป็นค่าบวกเสมอ โดยมีค่าสูงสุดที่ 0,0.5 และค่อยๆ ลดลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ดูข้อมูลเพิ่มเติมได้ที่เครือข่ายประสาท: ฟังก์ชันการเปิดใช้งานในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเรียนรู้แบบลงมือปฏิบัติ

แนวทางการฝึกที่อัลกอริทึมเลือกข้อมูลบางส่วนที่เรียนรู้ การเรียนรู้แบบมีส่วนร่วมจะมีประโยชน์อย่างยิ่งเมื่อตัวอย่างที่มีป้ายกำกับมีไม่มากหรือหาได้ยาก อัลกอริทึมการเรียนรู้แบบมีส่วนร่วมจะเลือกหาตัวอย่างที่หลากหลายตามช่วงที่ต้องการเพื่อการเรียนรู้ แทนที่จะค้นหาตัวอย่างที่มีป้ายกำกับอย่างไร้จุดหมาย

AdaGrad

อัลกอริทึมการลดเชิงลาดขั้นสูงที่ปรับขนาดเชิงลาดของพารามิเตอร์แต่ละรายการใหม่ ซึ่งช่วยให้พารามิเตอร์แต่ละรายการมีอัตราการเรียนรู้อิสระ ดูคำอธิบายแบบเต็มได้ที่เอกสาร AdaGrad นี้

ตัวแทน

#rl

ในการเรียนรู้เพื่อเสริมแรง บุคคลที่ใช้นโยบายเพื่อเพิ่มผลตอบแทนที่คาดหวังสูงสุดจากการเปลี่ยนระหว่างสถานะของสภาพแวดล้อม

โดยทั่วไปแล้ว ตัวแทนคือซอฟต์แวร์ที่วางแผนและดําเนินการชุดหนึ่งๆ เพื่อบรรลุเป้าหมายอย่างอิสระ โดยสามารถปรับตัวตามการเปลี่ยนแปลงในสภาพแวดล้อม เช่น ตัวแทนที่อิงตาม LLM อาจใช้ LLM เพื่อสร้างแผน แทนที่จะใช้นโยบายการเรียนรู้ด้วยการทำซ้ำ

การแบ่งกลุ่มแบบรวมกลุ่ม

#clustering

ดูการจัดกลุ่มตามลําดับชั้น

การตรวจจับความผิดปกติ

กระบวนการระบุค่าผิดปกติ ตัวอย่างเช่น หากค่าเฉลี่ยของฟีเจอร์หนึ่งๆ คือ 100 ส่วนเบี่ยงเบนมาตรฐานคือ 10 การตรวจหาความผิดปกติควรแจ้งว่าค่า 200 เป็นค่าที่น่าสงสัย

AR

คำย่อของ Augmented Reality

พื้นที่ใต้กราฟ PR

ดูPR AUC (พื้นที่ใต้กราฟ PR)

พื้นที่ใต้เส้นโค้ง ROC

ดู AUC (พื้นที่ใต้กราฟ ROC)

ปัญญาทั่วไปเทียม

กลไกที่ไม่ใช่มนุษย์ซึ่งแสดงให้เห็นถึงหลากหลายวิธีแก้ปัญหา ความคิดสร้างสรรค์ และความสามารถในการปรับตัว เช่น โปรแกรมที่แสดงให้เห็นถึงปัญญาประดิษฐ์ทั่วไปอาจแปลข้อความ แต่งซิมโฟนี และเล่นเกมที่ยังไม่มีคนคิดค้นได้

ปัญญาประดิษฐ์ (AI)

#fundamentals

โปรแกรมหรือโมเดลที่ไม่ใช่มนุษย์ซึ่งสามารถแก้ปัญหาที่ซับซ้อน ตัวอย่างเช่น โปรแกรมหรือโมเดลที่แปลข้อความ หรือโปรแกรมหรือโมเดลที่ระบุโรคจากภาพรังสีวิทยา ต่างก็แสดงถึงปัญญาประดิษฐ์

แมชชีนเลิร์นนิงเป็นสาขาย่อยของปัญญาประดิษฐ์ (AI) อย่างไรก็ตาม ในช่วงไม่กี่ปีที่ผ่านมา องค์กรบางแห่งเริ่มใช้คำว่าปัญญาประดิษฐ์และแมชชีนเลิร์นนิงแทนกันได้

โปรดทราบ

#language

กลไกที่ใช้ในเครือข่ายประสาทเทียมซึ่งระบุความสำคัญของคําหนึ่งๆ หรือส่วนหนึ่งของคํา การใส่ใจจะบีบอัดปริมาณข้อมูลที่จำเป็นต่อโมเดลในการคาดคะเนโทเค็น/คำถัดไป กลไกการให้ความสำคัญทั่วไปอาจประกอบด้วยผลรวมถ่วงน้ำหนักของชุดอินพุต โดยที่น้ำหนักของอินพุตแต่ละรายการจะคํานวณโดยส่วนอื่นของเครือข่ายประสาท

โปรดดูการใส่ใจตนเองและการใส่ใจตนเองแบบหลายส่วน ซึ่งเป็นองค์ประกอบพื้นฐานของ Transformer

ดูข้อมูลเพิ่มเติมเกี่ยวกับการให้ความสนใจตนเองได้ที่หัวข้อ LLM: โมเดลภาษาขนาดใหญ่คืออะไรในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

แอตทริบิวต์

#fairness

คำพ้องความหมายของ feature

ในแง่ความยุติธรรมของแมชชีนเลิร์นนิง แอตทริบิวต์มักหมายถึงลักษณะที่เกี่ยวข้องกับบุคคล

การสุ่มตัวอย่างแอตทริบิวต์

#df

กลยุทธ์สำหรับการฝึกป่าการตัดสินใจ ซึ่งต้นไม้การตัดสินใจแต่ละต้นจะพิจารณาเฉพาะชุดย่อยแบบสุ่มของฟีเจอร์ที่เป็นไปได้เมื่อเรียนรู้เงื่อนไข โดยทั่วไป ระบบจะสุ่มตัวอย่างชุดย่อยของฟีเจอร์ที่แตกต่างกันสําหรับแต่ละโหนด ในทางตรงกันข้าม เมื่อฝึกต้นไม้การตัดสินใจโดยไม่มีการสุ่มตัวอย่างแอตทริบิวต์ ระบบจะพิจารณาฟีเจอร์ที่เป็นไปได้ทั้งหมดสำหรับแต่ละโหนด

AUC (พื้นที่ใต้เส้นโค้ง ROC)

#fundamentals

ตัวเลขระหว่าง 0.0 ถึง 1.0 ที่แสดงถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ ยิ่ง AUC ใกล้เคียงกับ 1.0 มากเท่าใด ความสามารถในการแยกคลาสออกจากกันของโมเดลก็จะยิ่งดีขึ้นเท่านั้น

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโมเดลการจัดประเภทที่แยกคลาสที่เป็นบวก (รูปไข่สีเขียว) ออกจากคลาสที่เป็นลบ (สี่เหลี่ยมผืนผ้าสีม่วง) อย่างสมบูรณ์ โมเดลที่สมบูรณ์แบบเกินจริงนี้มีค่า AUC เท่ากับ 1.0

เส้นจำนวนที่มีตัวอย่างบวก 8 รายการด้านหนึ่ง และตัวอย่างลบ 9 รายการอีกด้านหนึ่ง

ในทางกลับกัน ภาพต่อไปนี้แสดงผลลัพธ์ของโมเดลการจัดประเภทที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มีค่า AUC เท่ากับ 0.5

เส้นจำนวนที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลําดับของตัวอย่างคือ บวก ลบ บวก ลบ บวก ลบ บวก ลบ บวก ลบ

ใช่ โมเดลก่อนหน้ามี AUC เท่ากับ 0.5 ไม่ใช่ 0.0

โมเดลส่วนใหญ่อยู่ตรงกลางระหว่าง 2 รูปแบบข้างต้น ตัวอย่างเช่น โมเดลต่อไปนี้แยกรายการเชิงบวกออกจากรายการเชิงลบได้ในระดับหนึ่ง จึงมี AUC อยู่ระหว่าง 0.5 ถึง 1.0

เส้นจำนวนที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลําดับของตัวอย่างคือ เชิงลบ เชิงลบ เชิงลบ เชิงลบ เชิงบวก เชิงลบ เชิงบวก เชิงบวก เชิงลบ เชิงบวก เชิงบวก เชิงบวก

AUC จะไม่สนใจค่าที่คุณตั้งไว้สําหรับเกณฑ์การจัดประเภท แต่ AUC จะพิจารณาเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมดแทน

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Augmented Reality

#image

เทคโนโลยีที่วางซ้อนภาพที่สร้างโดยคอมพิวเตอร์บนมุมมองของผู้ใช้เกี่ยวกับโลกแห่งความเป็นจริง จึงให้มุมมองแบบผสม

ตัวเข้ารหัสอัตโนมัติ

#language
#image

ระบบที่เรียนรู้วิธีดึงข้อมูลที่สำคัญที่สุดจากอินพุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นชุดค่าผสมของโปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัส โปรแกรมเข้ารหัสอัตโนมัติใช้กระบวนการ 2 ขั้นตอนต่อไปนี้

  1. ตัวเข้ารหัสจะแมปอินพุตเป็นรูปแบบ (โดยปกติ) ที่มีการสูญเสียและมิติข้อมูลต่ำลง (ระดับกลาง)
  2. ตัวถอดรหัสจะสร้างอินพุตต้นฉบับเวอร์ชันที่สูญเสียคุณภาพโดยการแมปรูปแบบมิติข้อมูลต่ำกับรูปแบบอินพุตมิติข้อมูลสูงเดิม

ระบบจะฝึก Autoencoder ตั้งแต่ต้นจนจบโดยให้ตัวถอดรหัสพยายามสร้างอินพุตเดิมขึ้นมาใหม่จากรูปแบบกลางของตัวเข้ารหัสให้ใกล้เคียงกับต้นฉบับมากที่สุด เนื่องจากรูปแบบกลางมีขนาดเล็กกว่า (มิติข้อมูลต่ำกว่า) รูปแบบเดิม ระบบจึงบังคับให้ตัวเข้ารหัสอัตโนมัติต้องเรียนรู้ว่าข้อมูลใดในอินพุตมีความสําคัญ และเอาต์พุตจะไม่เหมือนกับอินพุตอย่างสมบูรณ์

เช่น

  • หากข้อมูลอินพุตเป็นกราฟิก สำเนาที่ไม่ใช่สำเนาที่ตรงกันทั้งหมดจะคล้ายกับกราฟิกต้นฉบับ แต่มีการแก้ไขเล็กน้อย อาจเป็นเพราะสำเนาที่ไม่ใช่สำเนาที่ตรงกันทั้งหมดได้นำสัญญาณรบกวนออกจากกราฟิกต้นฉบับหรือเติมพิกเซลที่ขาดหายไป
  • หากข้อมูลอินพุตเป็นข้อความ ตัวเข้ารหัสอัตโนมัติจะสร้างข้อความใหม่ที่เลียนแบบ (แต่ไม่เหมือนกับ) ข้อความต้นฉบับ

ดูข้อมูลเพิ่มเติมได้ที่ตัวแปร Autoencoder

การประเมินอัตโนมัติ

#language
#generativeAI

การใช้ซอฟต์แวร์เพื่อตัดสินคุณภาพของเอาต์พุตของโมเดล

เมื่อเอาต์พุตของโมเดลค่อนข้างตรงไปตรงมา สคริปต์หรือโปรแกรมจะเปรียบเทียบเอาต์พุตของโมเดลกับคำตอบที่ถูกต้องได้ บางครั้งเราเรียกการประเมินอัตโนมัติประเภทนี้ว่าการประเมินแบบเป็นโปรแกรม เมตริก เช่น ROUGE หรือBLEU มักมีประโยชน์สําหรับการประเมินแบบเป็นโปรแกรม

เมื่อเอาต์พุตของโมเดลมีความซับซ้อนหรือมีคำตอบที่ถูกต้องเพียงคำตอบเดียว บางครั้งโปรแกรม ML แยกต่างหากที่เรียกว่าโปรแกรมประเมินอัตโนมัติจะดำเนินการประเมินโดยอัตโนมัติ

ตรงข้ามกับการประเมินโดยเจ้าหน้าที่

อคติการทำงานอัตโนมัติ

#fairness

เมื่อผู้ตัดสินใจที่เป็นมนุษย์ให้ความสำคัญกับคําแนะนําที่ได้จากระบบการตัดสินอัตโนมัติมากกว่าข้อมูลที่ได้จากระบบที่ไม่ใช้การทำงานอัตโนมัติ แม้ว่าระบบการตัดสินอัตโนมัติจะทําผิดพลาดก็ตาม

ดูข้อมูลเพิ่มเติมได้ในความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

AutoML

กระบวนการอัตโนมัติในการสร้างโมเดลแมชชีนเลิร์นนิง AutoML ทํางานต่างๆ โดยอัตโนมัติได้ เช่น

AutoML มีประโยชน์สําหรับนักวิทยาศาสตร์ข้อมูลเนื่องจากช่วยประหยัดเวลาและความพยายามในการพัฒนาไปป์ไลน์แมชชีนเลิร์นนิงและปรับปรุงความแม่นยําในการคาดการณ์ นอกจากนี้ เครื่องมือนี้ยังเป็นประโยชน์ต่อผู้ที่ไม่ใช่ผู้เชี่ยวชาญด้วย เนื่องจากช่วยให้งานแมชชีนเลิร์นนิงที่ซับซ้อนเข้าถึงได้ง่ายขึ้น

ดูข้อมูลเพิ่มเติมได้ที่แมชชีนเลิร์นนิงอัตโนมัติ (AutoML) ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การประเมินโดยโปรแกรมอัตโนมัติ

#language
#generativeAI
กลไกแบบผสมผสานสำหรับตัดสินคุณภาพของเอาต์พุตจากโมเดล Generative AI ซึ่งรวมการประเมินโดยเจ้าหน้าที่เข้ากับการประเมินอัตโนมัติ โปรแกรมให้คะแนนอัตโนมัติคือโมเดล ML ที่ฝึกด้วยข้อมูลที่สร้างขึ้นจากการประเมินโดยมนุษย์ ในทางทฤษฎีแล้ว โปรแกรมประเมินอัตโนมัติจะเรียนรู้ที่จะเลียนแบบผู้ประเมินที่เป็นมนุษย์

เครื่องมือประเมินอัตโนมัติที่สร้างไว้ล่วงหน้ามีให้ใช้งาน แต่เครื่องมือประเมินอัตโนมัติที่ดีที่สุดคือเครื่องมือที่ปรับแต่งมาเพื่องานที่คุณประเมินโดยเฉพาะ

โมเดลอนุกรมเวลาแบบเลื่อนไปข้างหน้า

#language
#image
#generativeAI

โมเดลที่อนุมานการคาดการณ์ตามการคาดการณ์ก่อนหน้าของตนเอง ตัวอย่างเช่น โมเดลภาษาแบบย้อนกลับอัตโนมัติจะคาดการณ์โทเค็นถัดไปโดยอิงตามโทเค็นที่คาดการณ์ไว้ก่อนหน้านี้ โมเดลภาษาขนาดใหญ่ทั้งหมดที่อิงตาม Transformer จะเป็นแบบย้อนกลับอัตโนมัติ

ในทางตรงกันข้าม โมเดลรูปภาพที่อิงตาม GAN มักจะไม่แสดงการถดถอยอัตโนมัติเนื่องจากสร้างรูปภาพในขั้นตอนเดียวแบบไปข้างหน้า ไม่ใช่แบบซ้ำๆ ในขั้นตอน อย่างไรก็ตาม โมเดลการสร้างรูปภาพบางรุ่นเป็นแบบถดถอยอัตโนมัติเนื่องจากสร้างรูปภาพเป็นขั้นตอน

การสลายพลังงาน

ฟังก์ชันการสูญเสียที่ใช้ร่วมกับฟังก์ชันการสูญเสียหลักของโมเดลเครือข่ายประสาทเทียม ซึ่งช่วยเร่งการฝึกในช่วงเริ่มต้นซ้ำเมื่อมีการเริ่มต้นน้ำหนักแบบสุ่ม

ฟังก์ชันการสูญเสียเสริมจะส่งอนุพันธ์ที่มีประสิทธิภาพไปยังเลเยอร์ก่อนหน้า วิธีนี้ช่วยในการบรรจบระหว่างการฝึกด้วยการต่อสู้กับปัญหาการลดลงของ Gradient

ความแม่นยำเฉลี่ยที่ k

#language

เมตริกสำหรับสรุปประสิทธิภาพของโมเดลในพรอมต์เดียวซึ่งจะสร้างผลลัพธ์ที่จัดอันดับ เช่น รายการคำแนะนำหนังสือที่มีหมายเลข ความแม่นยำเฉลี่ยที่ k คือค่าเฉลี่ยของค่าความแม่นยำที่ k สำหรับผลการค้นหาที่เกี่ยวข้องแต่ละรายการ สูตรความแม่นยำเฉลี่ยที่ k จึงจะเป็นดังนี้

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

where:

  • \(n\) คือจํานวนรายการที่เกี่ยวข้องในรายการ

เปรียบเทียบกับ recall at k

เงื่อนไขที่สอดคล้องกับแกน

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขที่เกี่ยวข้องกับฟีเจอร์เพียงรายการเดียว ตัวอย่างเช่น หาก area เป็นฟีเจอร์ เงื่อนไขที่สอดคล้องกับแกนจะเป็นดังนี้

area > 200

ตรงข้ามกับเงื่อนไขเอียง

B

การย้อนกลับ

#fundamentals

อัลกอริทึมที่นําการลดเชิงลาดไปใช้ในโครงข่ายประสาทเทียม

การฝึกโครงข่ายระบบประสาทเทียมเกี่ยวข้องกับiterationsหลายรอบของวงจรแบบ 2 รอบต่อไปนี้

  1. ในระหว่างการส่งผ่านไปข้างหน้า ระบบจะประมวลผลกลุ่มตัวอย่างเพื่อให้ได้การคาดการณ์ ระบบจะเปรียบเทียบการคาดการณ์แต่ละรายการกับค่าป้ายกำกับแต่ละค่า ส่วนต่างระหว่างการคาดการณ์และค่าป้ายกำกับคือการสูญเสียสำหรับตัวอย่างนั้น ระบบจะรวบรวมการสูญเสียของตัวอย่างทั้งหมดเพื่อคํานวณการสูญเสียทั้งหมดของกลุ่มปัจจุบัน
  2. ในระหว่างการส่งผ่านย้อนกลับ (Backpropagation) ระบบจะลดการสูญเสียด้วยการปรับน้ำหนักของเซลล์ประสาททั้งหมดในเลเยอร์ที่ซ่อนอยู่

เครือข่ายประสาทมักจะมีเซลล์ประสาทจำนวนมากในชั้นที่ซ่อนอยู่หลายชั้น เซลล์ประสาทแต่ละเซลล์มีส่วนทำให้เกิดความสูญเสียโดยรวมในลักษณะที่แตกต่างกัน การย้อนกลับจะกำหนดว่าจะเพิ่มหรือลดน้ำหนักที่ใช้กับเซลล์ประสาทบางเซลล์

อัตราการเรียนรู้คือตัวคูณที่ควบคุมระดับที่การย้อนกลับแต่ละครั้งจะเพิ่มหรือลดน้ำหนักแต่ละรายการ อัตราการเรียนรู้ที่สูงจะเพิ่มหรือลดน้ำหนักแต่ละรายการมากกว่าอัตราการเรียนรู้ที่ต่ำ

ในแง่แคลคูลัส การแสดงผลย้อนกลับจะใช้กฎเชนจากแคลคูลัส กล่าวคือ การแสดงผลย้อนกลับจะคํานวณอนุพันธ์บางส่วนของข้อผิดพลาดเทียบกับพารามิเตอร์แต่ละรายการ

เมื่อหลายปีก่อน ผู้ปฏิบัติงานด้าน ML ต้องเขียนโค้ดเพื่อใช้ Backpropagation ตอนนี้ API ML สมัยใหม่อย่าง Keras ใช้ Backpropagation ให้คุณแล้ว ในที่สุด

ดูข้อมูลเพิ่มเติมเกี่ยวกับเครือข่ายประสาทเทียมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ถุง

#df

วิธีการฝึกชุดค่าผสม โดยโมเดลแต่ละรายการที่ประกอบกันจะฝึกจากชุดย่อยแบบสุ่มของตัวอย่างการฝึกที่ดึงตัวอย่างแบบสุ่มแทนที่ เช่น Random Forest คือชุดของDecision Tree ที่ผ่านการฝึกด้วย bagging

คําว่า bagging ย่อมาจาก bootstrap aggregating

ดูข้อมูลเพิ่มเติมเกี่ยวกับป่าแบบสุ่มในหลักสูตรป่าการตัดสินใจ

ถุงคำ

#language

การนําเสนอคําในวลีหรือข้อความ โดยไม่ได้คำนึงถึงลําดับ เช่น ถุงคำจะแสดงวลี 3 วลีต่อไปนี้ในลักษณะเดียวกัน

  • สุนัขกระโดด
  • กระโดดใส่สุนัข
  • สุนัขกระโดด

ระบบจะจับคู่แต่ละคำกับดัชนีในเวกเตอร์แบบเบาบาง โดยเวกเตอร์จะมีดัชนีสําหรับคําทุกคำในคําศัพท์ ตัวอย่างเช่น วลี the dog jumps จะแมปกับเวกเตอร์ลักษณะที่มีค่าที่ไม่ใช่ 0 ที่ดัชนี 3 รายการซึ่งสอดคล้องกับคําว่า the, dog และ jumps ค่าที่ไม่ใช่ 0 อาจเป็นค่าใดค่าหนึ่งต่อไปนี้

  • 1 เพื่อระบุการมีอยู่ของคำ
  • จำนวนครั้งที่คำหนึ่งๆ ปรากฏในถุง เช่น หากวลีคือ สุนัขสีน้ำตาลแดงเป็นสุนัขที่มีขนสีน้ำตาลแดง ทั้ง สีน้ำตาลแดงและสุนัขจะแสดงเป็น 2 ส่วนคําอื่นๆ จะแสดงเป็น 1
  • ค่าอื่นๆ เช่น ลอการิทึมของจํานวนครั้งที่คําปรากฏในถุง

พื้นฐาน

รูปแบบที่ใช้เป็นจุดอ้างอิงเพื่อเปรียบเทียบประสิทธิภาพของรูปแบบอื่น (โดยทั่วไปคือรูปแบบที่ซับซ้อนกว่า) เช่น โมเดลการถดถอยเชิงโลจิสติกอาจใช้เป็นบรรทัดฐานที่ดีสําหรับโมเดลเชิงลึก

สําหรับปัญหาหนึ่งๆ เกณฑ์พื้นฐานจะช่วยให้นักพัฒนาโมเดลระบุปริมาณประสิทธิภาพขั้นต่ำที่คาดหวังซึ่งโมเดลใหม่ต้องบรรลุเพื่อให้โมเดลใหม่มีประโยชน์

กลุ่ม

#fundamentals

ชุดตัวอย่างที่ใช้ในการฝึก 1 ครั้งซ้ำ ขนาดกลุ่มจะกําหนดจํานวนตัวอย่างในกลุ่ม

ดูคำอธิบายว่ากลุ่มเกี่ยวข้องกับยุคสมัยอย่างไรได้ที่ยุคสมัย

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: ตัวแปรพหุนามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การอนุมานแบบกลุ่ม

#TensorFlow
#GoogleCloud

กระบวนการอนุมานการคาดการณ์จากตัวอย่างที่ไม่มีป้ายกำกับหลายรายการซึ่งแบ่งออกเป็นชุดย่อยขนาดเล็ก ("กลุ่ม")

การอนุมานแบบเป็นกลุ่มใช้ประโยชน์จากฟีเจอร์การขนานของชิปเร่งความเร็วได้ กล่าวคือ ตัวเร่งหลายตัวสามารถอนุมานการคาดการณ์ในชุดตัวอย่างที่ไม่มีป้ายกำกับหลายชุดพร้อมกัน ซึ่งจะเพิ่มจำนวนการอนุมานต่อวินาทีได้อย่างมาก

ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML เวอร์ชันที่ใช้งานจริง: การอนุมานแบบคงที่เทียบกับแบบไดนามิกในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การแปลงเป็นรูปแบบมาตรฐานกลุ่ม

การปรับค่าอินพุตหรือเอาต์พุตของ ฟังก์ชันการเปิดใช้งานในเลเยอร์ที่ซ่อนอยู่ การปรับมาตรฐานกลุ่มมีข้อดีดังนี้

ขนาดกลุ่ม

#fundamentals

จํานวนตัวอย่างในกลุ่ม เช่น หากขนาดกลุ่มเป็น 100 โมเดลจะประมวลผลตัวอย่าง 100 รายการต่อรอบ

กลยุทธ์ขนาดกลุ่มที่ได้รับความนิยมมีดังนี้

  • Stochastic Gradient Descent (SGD) ซึ่งมีขนาดกลุ่มเป็น 1
  • กลุ่มแบบเต็ม ซึ่งขนาดกลุ่มคือจํานวนตัวอย่างในชุดการฝึกทั้งหมด เช่น หากชุดข้อมูลการฝึกมีตัวอย่าง 1 ล้านรายการ ขนาดกลุ่มจะเป็น 1 ล้านตัวอย่าง โดยปกติแล้ว การใช้กลุ่มเต็มเป็นกลยุทธ์ที่ไม่มีประสิทธิภาพ
  • มินิแบทช์ ซึ่งโดยปกติแล้วขนาดของกลุ่มจะอยู่ระหว่าง 10 ถึง 1,000 โดยปกติแล้ว การส่งกลุ่มย่อยเป็นกลยุทธ์ที่มีประสิทธิภาพมากที่สุด

โปรดดูข้อมูลเพิ่มเติมที่ด้านล่าง

โครงข่ายประสาทเทียมแบบ Bayesian

เครือข่ายประสาทเทียมแบบน่าจะเป็นที่พิจารณาถึงความไม่แน่นอนในน้ำหนักและเอาต์พุต โดยทั่วไปแล้ว รูปแบบการถดถอยของเครือข่ายประสาทมาตรฐานจะคาดการณ์ค่าสเกลาร์ เช่น รูปแบบมาตรฐานคาดการณ์ราคาบ้านที่ 853,000 ในทางตรงกันข้าม เครือข่ายประสาทแบบ Bayesian จะคาดการณ์การแจกแจงค่า เช่น แบบจำลอง Bayesian จะคาดการณ์ราคาบ้านที่ 853,000 บาทโดยมีส่วนเบี่ยงเบนมาตรฐาน 67,200 บาท

เครือข่ายประสาทแบบเบย์เซียนใช้ ทฤษฎีของเบย์เพื่อคํานวณความไม่แน่นอนของน้ำหนักและการคาดการณ์ เครือข่ายประสาทแบบเบย์อาจมีประโยชน์เมื่อจำเป็นต้องวัดความไม่แน่นอน เช่น ในโมเดลที่เกี่ยวข้องกับยา เครือข่ายประสาทแบบเบย์ยังช่วยป้องกันการจับคู่ที่มากเกินไปได้ด้วย

การเพิ่มประสิทธิภาพ Bayesian

เทคนิคโมเดลการถดถอยแบบมีข้อมูลเป็นค่าความน่าจะเป็นเพื่อเพิ่มประสิทธิภาพฟังก์ชันวัตถุประสงค์ที่ต้องใช้การประมวลผลมาก โดยการเพิ่มประสิทธิภาพตัวแทนแทน ซึ่งจะวัดความไม่แน่นอนโดยใช้เทคนิคการเรียนรู้แบบเบย์เซียน เนื่องจากการเพิ่มประสิทธิภาพแบบเบย์เซียนมีค่าใช้จ่ายสูงมาก จึงมักใช้เพื่อเพิ่มประสิทธิภาพงานที่มีการประเมินได้ยากซึ่งมีพารามิเตอร์จํานวนน้อย เช่น การเลือกไฮเปอร์พารามิเตอร์

สมการของ Bellman

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ฟังก์ชัน Q ที่ดีที่สุดจะเป็นไปตามเอกลักษณ์ต่อไปนี้

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

อัลกอริทึมของการเรียนรู้เพื่อเสริมแรงจะใช้ข้อมูลประจําตัวนี้เพื่อสร้างการเรียนรู้ด้วย Q-Learning ผ่านกฎการอัปเดตต่อไปนี้

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

นอกเหนือจากการเรียนรู้ด้วยการทำซ้ำแล้ว สมการของ Bellman ยังนำไปใช้กับโปรแกรมแบบไดนามิกได้อีกด้วย ดูหัวข้อ สมการของ Bellman ใน Wikipedia

BERT (Bidirectional Encoder Representations from Transformers)

#language

สถาปัตยกรรมโมเดลสําหรับการนําเสนอข้อความ โมเดล BERT ที่ผ่านการฝึกอบรมจะทําหน้าที่เป็นโมเดลขนาดใหญ่ขึ้นสําหรับการจัดประเภทข้อความหรืองาน ML อื่นๆ ได้

BERT มีลักษณะต่อไปนี้

รูปแบบของ BERT มีดังนี้

  • ALBERT ซึ่งเป็นอักษรย่อของ A Light BERT
  • LaBSE

ดูภาพรวมของ BERT ได้ที่การเผยแพร่ BERT แบบโอเพนซอร์ส: การฝึกล่วงหน้าที่ล้ำสมัยสำหรับการประมวลผลภาษาธรรมชาติ

อคติ (จริยธรรม/ความเป็นธรรม)

#fairness
#fundamentals

1. การเหมารวม อคติ หรือการเลือกปฏิบัติต่อบางสิ่ง บุคคล หรือกลุ่มคนมากกว่ากลุ่มอื่น ความลำเอียงเหล่านี้อาจส่งผลต่อการรวบรวมและการตีความข้อมูล การออกแบบระบบ และวิธีที่ผู้ใช้โต้ตอบกับระบบ รูปแบบของอคติประเภทนี้ ได้แก่

2. ข้อผิดพลาดของระบบที่เกิดจากขั้นตอนการสุ่มตัวอย่างหรือการรายงาน รูปแบบของอคติประเภทนี้ ได้แก่

โปรดอย่าสับสนกับคำที่เป็นอคติในโมเดลแมชชีนเลิร์นนิงหรืออคติในการคาดการณ์

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อคติ (คณิตศาสตร์) หรือคําอคติ

#fundamentals

การขัดจังหวะหรือการเลื่อนจากต้นทาง ความลำเอียงคือพารามิเตอร์ในโมเดลแมชชีนเลิร์นนิง ซึ่งแสดงด้วยสัญลักษณ์ต่อไปนี้

  • b
  • w0

เช่น ความลำเอียงคือ b ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในเส้น 2 มิติธรรมดา ความลำเอียงหมายถึง "ค่าตัดแกน y" เช่น ความลำเอียงของเส้นในภาพประกอบต่อไปนี้คือ 2

ผังเส้นที่มีความชัน 0.5 และค่าเบี่ยงเบน (จุดตัด Y) เท่ากับ 2

ความลำเอียงเกิดขึ้นเนื่องจากโมเดลบางรุ่นไม่ได้เริ่มต้นจากจุดเริ่มต้น (0,0) ตัวอย่างเช่น สมมติว่าสวนสนุกมีราคาค่าเข้า 20 บาทและคิดเพิ่มอีก 5 บาทต่อทุกๆ ชั่วโมงที่ลูกค้าเข้าชม ดังนั้น โมเดลที่จับคู่ต้นทุนรวมจึงมีอคติ 2 เนื่องจากต้นทุนต่ำสุดคือ 2 ยูโร

โปรดอย่าสับสนระหว่างอคติกับอคติด้านจริยธรรมและความยุติธรรมหรืออคติในการคาดการณ์

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้นในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

แบบ 2 ทิศทาง

#language

คําที่ใช้อธิบายระบบที่ประเมินข้อความทั้งในส่วนที่อยู่ก่อนและอยู่หลังส่วนของข้อความเป้าหมาย ในทางตรงกันข้าม ระบบแบบทิศทางเดียวจะประเมินเฉพาะข้อความที่อยู่ก่อนส่วนข้อความเป้าหมาย

ตัวอย่างเช่น ลองพิจารณาโมเดลภาษาที่มีการปกปิดซึ่งต้องระบุความน่าจะเป็นของคำที่แสดงขีดล่างในคำถามต่อไปนี้

_____ กับคุณเป็นอย่างไรบ้าง

โมเดลภาษาแบบทิศทางเดียวจะต้องอิงความน่าจะเป็นตามบริบทที่ได้จากคําว่า "อะไร" "คือ" และ "ที่" เท่านั้น ในทางตรงกันข้าม โมเดลภาษาแบบ 2 ทิศทางอาจได้รับบริบทจาก "with" และ "you" ด้วย ซึ่งอาจช่วยให้โมเดลสร้างการคาดการณ์ที่ดีขึ้น

โมเดลภาษาแบบ 2 ทาง

#language

โมเดลภาษาที่กําหนดความน่าจะเป็นที่โทเค็นหนึ่งๆ จะปรากฏในตําแหน่งหนึ่งๆ ของข้อความที่ตัดตอนมาโดยอิงตามข้อความก่อนหน้าและถัดจาก

Bigram

#seq
#language

N-gram โดยที่ N=2

การจัดประเภทแบบไบนารี

#fundamentals

งานการจัดประเภทประเภทหนึ่งที่คาดการณ์คลาสใดคลาสหนึ่งจาก 2 คลาสที่ไม่เกี่ยวข้องกัน

ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิง 2 รายการต่อไปนี้จะทําการจัดประเภทแบบ 2 กลุ่ม

  • โมเดลที่ระบุว่าข้อความอีเมลเป็นสแปม (คลาสบวก) หรือไม่ใช่สแปม (คลาสลบ)
  • โมเดลที่ประเมินอาการทางการแพทย์เพื่อระบุว่าบุคคลมีโรคหนึ่งๆ (คลาสบวก) หรือไม่ (คลาสลบ)

ตรงข้ามกับการจัดประเภทแบบหลายคลาส

ดูข้อมูลเพิ่มเติมได้ที่โลจิสติกรีเกรชัน และเกณฑ์การจัดประเภท

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภทในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เงื่อนไขไบนารี

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้เพียง 2 รายการ ซึ่งโดยทั่วไปคือใช่หรือไม่ ตัวอย่างเงื่อนไขแบบไบนารีมีดังนี้

temperature >= 100

ตรงข้ามกับเงื่อนไขแบบไม่ไบนารี

ดูข้อมูลเพิ่มเติมเกี่ยวกับประเภทเงื่อนไขในหลักสูตรป่าการตัดสินใจ

การแยกกลุ่ม

คำพ้องความหมายของการแบ่งกลุ่ม

BLEU (Bilingual Evaluation Understudy)

#language

เมตริกระหว่าง 0.0 ถึง 1.0 สําหรับประเมินการแปลด้วยคอมพิวเตอร์ เช่น จากภาษาสเปนเป็นภาษาญี่ปุ่น

โดยปกติแล้ว BLEU จะคำนวณคะแนนโดยการเปรียบเทียบคำแปลของโมเดล ML (ข้อความที่สร้างขึ้น) กับคำแปลของผู้เชี่ยวชาญที่เป็นมนุษย์ (ข้อความอ้างอิง) ระดับที่ N-gram ในข้อความที่สร้างขึ้นและข้อความอ้างอิงตรงกันเป็นตัวกำหนดคะแนน BLEU

เอกสารต้นฉบับเกี่ยวกับเมตริกนี้คือ BLEU: a Method for Automatic Evaluation of Machine Translation

โปรดดูBLEURT ด้วย

BLEURT (Bilingual Evaluation Understudy from Transformers)

#language

เมตริกสําหรับประเมินการแปลด้วยคอมพิวเตอร์จากภาษาหนึ่งเป็นภาษาอื่น โดยเฉพาะจากและไปยังภาษาอังกฤษ

สำหรับคำแปลจากและไปยังภาษาอังกฤษ BLEURT จะสอดคล้องกับคะแนนที่มนุษย์ให้ไว้มากกว่า BLEU BLEURT เน้นความคล้ายคลึงทางความหมาย (ความหมาย) และรองรับการถอดความ ซึ่งแตกต่างจาก BLEU

BLEURT ใช้โมเดลภาษาขนาดใหญ่ที่ผ่านการฝึกล่วงหน้า (หรือก็คือ BERT) ซึ่งได้รับการปรับแต่งอย่างละเอียดจากข้อความที่นักแปลมนุษย์แปล

เอกสารต้นฉบับเกี่ยวกับเมตริกนี้คือ BLEURT: Learning Robust Metrics for Text Generation

การเพิ่ม

เทคนิคแมชชีนเลิร์นนิงที่รวมชุดตัวแยกประเภทที่เรียบง่ายและไม่แม่นยำมาก (เรียกว่าตัวแยกประเภท "อ่อน") เข้าด้วยกันซ้ำๆ เพื่อสร้างตัวแยกประเภทที่มีความแม่นยำสูง (ตัวแยกประเภท "แรง") โดยเพิ่มน้ำหนักตัวอย่างที่โมเดลกำลังแยกประเภทไม่ถูกต้อง

ดูข้อมูลเพิ่มเติมในหลักสูตรป่าการตัดสินใจเกี่ยวกับต้นไม้การตัดสินใจที่มีการเพิ่มประสิทธิภาพด้วย Gradient

กรอบล้อมรอบ

#image

ในรูปภาพ พิกัด (x, y) ของสี่เหลี่ยมผืนผ้ารอบๆ พื้นที่ที่น่าสนใจ เช่น สุนัขในรูปภาพด้านล่าง

รูปถ่ายสุนัขนั่งบนโซฟา กล่องขอบสีเขียวที่มีพิกัดด้านซ้ายบน (275, 1271) และพิกัดด้านขวาล่าง (2954, 2761) ล้อมรอบร่างกายของสุนัข

การออกอากาศ

การขยายรูปร่างของออพอเรนดในการดำเนินการทางคณิตศาสตร์ของเมทริกซ์เป็นมิติข้อมูลที่เข้ากันได้สําหรับการดำเนินการนั้น เช่น พีชคณิตเชิงเส้นกำหนดให้โอเปอเรนด์ 2 รายการในการดำเนินการบวกเมทริกซ์ต้องมีมิติข้อมูลเดียวกัน คุณจึงเพิ่มเมทริกซ์ที่มีรูปร่าง (m, n) ลงในเวกเตอร์ที่มีความยาว n ไม่ได้ การกระจายช่วยให้ดำเนินการนี้ได้โดยการขยายเวกเตอร์ที่มีความยาว n เป็นเมทริกซ์ที่มีรูปร่าง (m, n) โดยทำซ้ำค่าเดียวกันในแต่ละคอลัมน์

ตัวอย่างเช่น เมื่อพิจารณาจากคําจํากัดความต่อไปนี้ พีชคณิตเชิงเส้นไม่อนุญาตให้ใช้ A+B เนื่องจาก A และ B มีมิติข้อมูลต่างกัน

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

อย่างไรก็ตาม การออกอากาศช่วยให้ดำเนินการ A+B ได้โดยการขยาย B ไปยังรายการต่อไปนี้เสมือนจริง

 [[2, 2, 2],
  [2, 2, 2]]

ดังนั้น A+B จึงเป็นการดําเนินการที่ถูกต้อง

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

ดูรายละเอียดเพิ่มเติมได้ในคำอธิบายต่อไปนี้เกี่ยวกับการออกอากาศใน NumPy

การแบ่งกลุ่ม

#fundamentals

การเปลี่ยนฟีเจอร์รายการเดียวให้เป็นฟีเจอร์ไบนารีหลายรายการ ซึ่งเรียกว่าที่เก็บหรือกลุ่ม โดยปกติจะอิงตามช่วงค่า โดยปกติแล้วองค์ประกอบที่ตัดออกจะเป็นองค์ประกอบต่อเนื่อง

เช่น แทนที่จะแสดงอุณหภูมิเป็นฟีเจอร์ทศนิยมต่อเนื่องรายการเดียว คุณอาจแบ่งช่วงอุณหภูมิออกเป็นกลุ่มๆ เช่น

  • <= 10 องศาเซลเซียสจะเป็นกลุ่ม "หนาวเย็น"
  • 11 - 24 องศาเซลเซียสจะอยู่ในหมวดหมู่ "อบอุ่น"
  • อุณหภูมิ >= 25 องศาเซลเซียสจะอยู่ในกลุ่ม "อบอุ่น"

โมเดลจะถือว่าค่าทุกค่าในที่เก็บเดียวกันมีค่าเหมือนกัน เช่น ค่า 13 และ 22 อยู่ในที่เก็บข้อมูลแบบอบอุ่นทั้งคู่ ดังนั้นโมเดลจะถือว่าค่าทั้งสองเหมือนกัน

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การแบ่งกลุ่มในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

C

เลเยอร์การปรับเทียบ

การปรับหลังการคาดการณ์ ซึ่งมักจะพิจารณาถึงความลำเอียงในการคาดการณ์ การคาดการณ์และความน่าจะเป็นที่ปรับแล้วควรตรงกับการกระจายของชุดป้ายกำกับที่สังเกตได้

การสร้างผู้สมัคร

#recsystems

ชุดคำแนะนำเริ่มต้นที่ระบบการแนะนำเลือก ตัวอย่างเช่น ลองพิจารณาร้านหนังสือที่มีหนังสือ 100,000 เล่ม ระยะการสร้างผู้สมัครจะสร้างรายการหนังสือที่เหมาะสมสำหรับผู้ใช้บางรายจำนวนน้อยกว่ามาก เช่น 500 เล่ม แต่แม้กระทั่ง 500 เล่มก็ยังถือว่ามีจำนวนมากเกินไปที่จะแนะนำแก่ผู้ใช้ ระยะถัดไปของระบบการแนะนำที่แพงกว่า (เช่น การให้คะแนนและการจัดอันดับใหม่) จะลดจำนวนวิดีโอ 500 รายการนั้นให้เหลือชุดคำแนะนำที่มีประโยชน์มากกว่าและจำนวนน้อยลงมาก

ดูข้อมูลเพิ่มเติมได้ในภาพรวมการสร้างผู้สมัครในหลักสูตรระบบการแนะนำ

การสุ่มตัวอย่างผู้สมัคร

การเพิ่มประสิทธิภาพขณะฝึกที่คำนวณความน่าจะเป็นสำหรับป้ายกำกับบวกทั้งหมด เช่น ใช้ Softmax แต่ใช้กับตัวอย่างป้ายกำกับเชิงลบแบบสุ่มเท่านั้น ตัวอย่างเช่น เมื่อพิจารณาตัวอย่างที่มีป้ายกำกับว่า beagle และ dog การสุ่มตัวอย่างผู้สมัครจะคํานวณความน่าจะเป็นที่คาดการณ์ไว้และเงื่อนไขการสูญเสียที่เกี่ยวข้องสําหรับ

  • beagle
  • dog
  • ชุดย่อยแบบสุ่มของคลาสเชิงลบที่เหลือ (เช่น cat, lollipop, fence)

แนวคิดคือ คลาสเชิงลบสามารถเรียนรู้จากการเสริมแรงเชิงลบที่พบไม่บ่อยนัก ตราบใดที่คลาสเชิงบวกได้รับการเสริมแรงเชิงบวกที่เหมาะสมเสมอ และนี่เป็นสิ่งที่สังเกตได้จากการทดสอบจริง

การสุ่มตัวอย่างผู้สมัครมีประสิทธิภาพในการประมวลผลมากกว่าอัลกอริทึมการฝึกที่ประมวลผลการคาดการณ์สำหรับคลาสเชิงลบทั้งหมด โดยเฉพาะอย่างยิ่งเมื่อจํานวนคลาสเชิงลบมีจํานวนมาก

ข้อมูลเชิงหมวดหมู่

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ที่เฉพาะเจาะจง ตัวอย่างเช่น ให้พิจารณาฟีเจอร์เชิงหมวดหมู่ชื่อ traffic-light-state ซึ่งอาจมีค่าใดค่าหนึ่งต่อไปนี้เท่านั้น

  • red
  • yellow
  • green

การนําเสนอ traffic-light-state เป็นฟีเจอร์เชิงหมวดหมู่จะช่วยให้โมเดลเรียนรู้ผลกระทบที่แตกต่างกันของ red, green และ yellow ต่อพฤติกรรมของผู้ขับขี่

บางครั้งฟีเจอร์เชิงหมวดหมู่เรียกว่าฟีเจอร์แบบไม่ต่อเนื่อง

ตรงข้ามกับข้อมูลตัวเลข

ดูข้อมูลเพิ่มเติมที่หัวข้อการทํางานกับข้อมูลเชิงหมวดหมู่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โมเดลภาษาเชิงสาเหตุ

#language

คำพ้องความหมายของโมเดลภาษาแบบทิศทางเดียว

ดูโมเดลภาษาแบบ 2 ทิศทางเพื่อเปรียบเทียบแนวทางแบบต่างๆ ในการประมาณภาษา

เซนทรอยด์

#clustering

ศูนย์กลางของคลัสเตอร์ที่อัลกอริทึม K-means หรือ K-median กำหนด เช่น หาก k = 3 อัลกอริทึม K-means หรือ K-median จะค้นหาจุดศูนย์กลาง 3 จุด

ดูข้อมูลเพิ่มเติมได้ในอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม

การคลัสเตอร์ตามเซนทรอยด์

#clustering

หมวดหมู่ของอัลกอริทึมการจัดกลุ่มที่จัดระเบียบข้อมูลเป็นคลัสเตอร์ที่ไม่มีลําดับชั้น K-means เป็นอัลกอริทึมการจัดกลุ่มตามจุดศูนย์กลางที่ใช้กันอย่างแพร่หลายที่สุด

เปรียบเทียบกับอัลกอริทึมการจัดกลุ่มตามลําดับชั้น

ดูข้อมูลเพิ่มเติมได้ในอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม

การช่วยสร้างลำดับความคิด

#language
#generativeAI

เทคนิคการสร้างพรอมต์ที่กระตุ้นโมเดลภาษาขนาดใหญ่ (LLM) ให้อธิบายเหตุผลทีละขั้นตอน ตัวอย่างเช่น ลองดูพรอมต์ต่อไปนี้ โดยให้ความสนใจเป็นพิเศษกับประโยคที่ 2

ผู้ขับขี่จะรู้สึกถึงแรง g เท่าใดในรถที่เร่งจาก 0 เป็น 60 ไมล์ต่อชั่วโมงใน 7 วินาที แสดงการคํานวณที่เกี่ยวข้องทั้งหมดในคําตอบ

คำตอบของ LLM มีแนวโน้มที่จะมีลักษณะดังนี้

  • แสดงลำดับสูตรฟิสิกส์ โดยใส่ค่า 0, 60 และ 7 ในตำแหน่งที่เหมาะสม
  • อธิบายเหตุผลที่เลือกสูตรเหล่านั้น และความหมายของตัวแปรต่างๆ

การแจ้งเตือนแบบเชื่อมโยงความคิดจะบังคับให้ LLM ทำการคํานวณทั้งหมด ซึ่งอาจทําให้ได้คําตอบที่ถูกต้องมากขึ้น นอกจากนี้ ข้อความแจ้งแบบเป็นลำดับความคิดยังช่วยให้ผู้ใช้ตรวจสอบขั้นตอนของ LLM เพื่อพิจารณาว่าคำตอบนั้นสมเหตุสมผลหรือไม่

แชท

#language
#generativeAI

เนื้อหาของบทสนทนาแบบโต้ตอบกับระบบ ML ซึ่งโดยทั่วไปแล้วจะเป็นโมเดลภาษาขนาดใหญ่ การโต้ตอบก่อนหน้านี้ในแชท (สิ่งที่คุณพิมพ์และวิธีที่โมเดลภาษาขนาดใหญ่ตอบกลับ) จะกลายเป็นบริบทสําหรับส่วนถัดไปของแชท

แชทบ็อตคือแอปพลิเคชันของโมเดลภาษาขนาดใหญ่

จุดตรวจ

ข้อมูลที่บันทึกสถานะของพารามิเตอร์ของโมเดลระหว่างการฝึกหรือหลังจากการฝึกเสร็จสิ้น ตัวอย่างเช่น ในระหว่างการฝึกอบรม คุณจะทำสิ่งต่อไปนี้ได้

  1. หยุดการฝึก อาจตั้งใจหรือเกิดจากข้อผิดพลาดบางอย่าง
  2. บันทึกจุดตรวจสอบ
  3. โหลดจุดตรวจสอบอีกครั้งในภายหลัง ซึ่งอาจทำในฮาร์ดแวร์เครื่องอื่น
  4. เริ่มการฝึกใหม่

คลาส

#fundamentals

หมวดหมู่ที่ป้ายกํากับสามารถอยู่ได้ เช่น

โมเดลการจัดประเภทจะคาดการณ์คลาส ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์ตัวเลขแทนที่จะคาดการณ์คลาส

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภทในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โมเดลการจัดประเภท

#fundamentals

โมเดลที่การคาดการณ์คือคลาส ตัวอย่างเช่น รูปแบบการจัดประเภททั้งหมดมีดังนี้

  • โมเดลที่คาดการณ์ภาษาของประโยคอินพุต (ฝรั่งเศสใช่ไหม สเปน อิตาลี)
  • โมเดลที่คาดการณ์ชนิดต้นไม้ (เมเปิลใช่ไหม โอ๊ก เบาบับใช่ไหม)
  • โมเดลที่คาดการณ์คลาสเชิงบวกหรือเชิงลบสำหรับภาวะทางการแพทย์หนึ่งๆ

ในทางตรงกันข้าม โมเดลการเกิดปัญหาซ้ำจะคาดการณ์ตัวเลขแทนคลาส

โมเดลการจัดประเภทที่พบได้ทั่วไป 2 ประเภท ได้แก่

เกณฑ์การจัดประเภท

#fundamentals

ในการจัดประเภทแบบไบนารี ตัวเลขระหว่าง 0 ถึง 1 ที่แปลงเอาต์พุตดิบของโมเดลโลจิสติกรีเกรชันเป็นการคาดการณ์คลาสเชิงบวกหรือคลาสเชิงลบ โปรดทราบว่าเกณฑ์การจัดประเภทคือค่าที่มนุษย์เลือก ไม่ใช่ค่าที่การฝึกโมเดลเลือก

โมเดลการถดถอยเชิงเส้นโลจิสติกจะแสดงผลค่าดิบระหว่าง 0 ถึง 1 จากนั้นให้ทำดังนี้

  • หากค่าดิบนี้มากกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสเชิงบวก
  • หากค่าดิบนี้น้อยกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสเชิงลบ

ตัวอย่างเช่น สมมติว่าเกณฑ์การแยกประเภทคือ 0.8 หากค่าดิบคือ 0.9 แสดงว่าโมเดลคาดการณ์คลาสเชิงบวก หากค่าดิบคือ 0.7 แสดงว่าโมเดลคาดการณ์คลาสเชิงลบ

การเลือกเกณฑ์การจัดประเภทจะมีผลอย่างมากต่อจํานวนผลบวกลวงและผลลบลวง

ดูข้อมูลเพิ่มเติมเกี่ยวกับเกณฑ์และตารางความสับสนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ชุดข้อมูลที่มีจำนวนของคลาสไม่สมดุล

#fundamentals

ชุดข้อมูลสําหรับปัญหาการจัดประเภทซึ่งมีจํานวนป้ายกํากับทั้งหมดของแต่ละคลาสแตกต่างกันอย่างมาก ตัวอย่างเช่น พิจารณาชุดข้อมูลการจัดประเภทแบบไบนารีที่มีป้ายกำกับ 2 รายการซึ่งแบ่งออกเป็นดังนี้

  • ป้ายกำกับเชิงลบ 1,000,000 รายการ
  • ป้ายกำกับเชิงบวก 10 รายการ

อัตราส่วนของป้ายกำกับเชิงลบต่อเชิงบวกคือ 100,000 ต่อ 1 ดังนั้นชุดข้อมูลนี้จึงเป็นชุดข้อมูลที่ไม่สมดุลของคลาส

ในทางตรงกันข้าม ชุดข้อมูลต่อไปนี้ไม่มีความไม่สมดุลของคลาส เนื่องจากอัตราส่วนของป้ายกำกับเชิงลบต่อป้ายกำกับเชิงบวกค่อนข้างใกล้เคียงกับ 1

  • ป้ายกำกับเชิงลบ 517 รายการ
  • ป้ายกำกับเชิงบวก 483 รายการ

ชุดข้อมูลหลายคลาสอาจไม่สมดุลตามคลาสได้เช่นกัน ตัวอย่างเช่น ชุดข้อมูลการจัดประเภทแบบหลายคลาสต่อไปนี้ยังมีความไม่สมดุลของคลาสด้วยเนื่องจากป้ายกำกับหนึ่งมีตัวอย่างมากกว่าอีก 2 ป้ายกำกับ

  • ป้ายกำกับ 1,000,000 รายการที่มีคลาส "green"
  • ป้ายกำกับ 200 รายการที่มีคลาส "purple"
  • ป้ายกำกับ 350 รายการที่มีคลาส "orange"

ดูข้อมูลเพิ่มเติมได้ที่เอนโทรปี คลาสส่วนใหญ่ และคลาสส่วนน้อย

การตัด

#fundamentals

เทคนิคการจัดการค่าผิดปกติโดยทําอย่างใดอย่างหนึ่งหรือทั้ง 2 อย่างต่อไปนี้

  • ลดค่าฟีเจอร์ที่มากกว่าเกณฑ์สูงสุดให้เหลือเท่ากับเกณฑ์สูงสุดนั้น
  • การเพิ่มค่าฟีเจอร์ที่น้อยกว่าเกณฑ์ขั้นต่ำให้เท่ากับเกณฑ์ขั้นต่ำ

ตัวอย่างเช่น สมมติว่าค่าของฟีเจอร์หนึ่งๆ น้อยกว่า 0.5% อยู่นอกช่วง 40-60 ในกรณีนี้ คุณจะทำสิ่งต่อไปนี้ได้

  • ตัดค่าทั้งหมดที่มากกว่า 60 (เกณฑ์สูงสุด) ให้เท่ากับ 60
  • ตัดค่าทั้งหมดที่ต่ำกว่า 40 (เกณฑ์ขั้นต่ำ) ให้เท่ากับ 40

ค่าผิดปกติอาจทําให้โมเดลเสียหาย และบางครั้งอาจทําให้น้ำหนัก overflow ในระหว่างการฝึก ค่าที่ผิดปกติบางรายการยังอาจทําให้เมตริกต่างๆ เช่น ความแม่นยําเสียไปอย่างมาก การตัดเป็นเทคนิคทั่วไปในการจำกัดความเสียหาย

การปัดเศษ Gradient จะบังคับให้ค่าGradient อยู่ในช่วงที่กำหนดระหว่างการฝึก

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การปรับมาตรฐานในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Cloud TPU

#TensorFlow
#GoogleCloud

ตัวเร่งฮาร์ดแวร์เฉพาะที่ออกแบบมาเพื่อเร่งความเร็วของภาระงานแมชชีนเลิร์นนิงใน Google Cloud

การคลัสเตอร์

#clustering

จัดกลุ่มตัวอย่างที่เกี่ยวข้อง โดยเฉพาะในระหว่างการเรียนรู้แบบไม่มีการควบคุมดูแล เมื่อจัดกลุ่มตัวอย่างทั้งหมดแล้ว เจ้าหน้าที่จะระบุความหมายให้กับแต่ละคลัสเตอร์ได้ (ไม่บังคับ)

อัลกอริทึมการจัดกลุ่มมีอยู่หลายประเภท เช่น อัลกอริทึม k-means จะจัดกลุ่มตัวอย่างตามระดับความใกล้เคียงกับจุดศูนย์กลาง ดังในแผนภาพต่อไปนี้

กราฟ 2 มิติที่แกน X มีป้ายกำกับว่า &quot;ความกว้างของต้นไม้&quot; และแกน Y มีป้ายกำกับว่า &quot;ความสูงของต้นไม้&quot; กราฟมีจุดศูนย์กลาง 2 จุดและจุดข้อมูลหลายสิบจุด ระบบจะจัดหมวดหมู่จุดข้อมูลตามระดับความใกล้เคียง กล่าวคือ จุดข้อมูลที่ใกล้กับจุดศูนย์กลางจุดหนึ่งจะจัดอยู่ในคลัสเตอร์ 1 ส่วนจุดข้อมูลที่ใกล้กับจุดศูนย์กลางอีกจุดหนึ่งจะจัดอยู่ในคลัสเตอร์ 2

จากนั้นนักวิจัยจะตรวจสอบคลัสเตอร์และติดป้ายกำกับคลัสเตอร์ 1 เป็น "ต้นไม้แคระ" และคลัสเตอร์ 2 เป็น "ต้นไม้ขนาดเต็ม" ได้

อีกตัวอย่างหนึ่งคืออัลกอริทึมการจัดกลุ่มที่อิงตามระยะห่างจากจุดศูนย์กลางของตัวอย่างดังที่แสดงต่อไปนี้

จุดข้อมูลหลายสิบจุดจะจัดเรียงเป็นวงกลมศูนย์กลางคล้ายกับรูรอบๆ ศูนย์กลางของกระดานปาเป้า วงในสุดของจุดข้อมูลจะจัดอยู่ในคลัสเตอร์ 1 วงกลางจัดอยู่ในคลัสเตอร์ 2 และวงนอกสุดจัดอยู่ในคลัสเตอร์ 3

ดูข้อมูลเพิ่มเติมได้ที่หลักสูตรการคลัสเตอร์

การปรับตัวร่วมกัน

เมื่อนิวรอนคาดการณ์รูปแบบในข้อมูลการฝึกโดยอาศัยเอาต์พุตของนิวรอนอื่นๆ ที่เฉพาะเจาะจงเกือบทั้งหมดแทนที่จะอาศัยลักษณะการทํางานของเครือข่ายโดยรวม เมื่อรูปแบบที่ทําให้เกิดการปรับตัวร่วมกันไม่อยู่ในข้อมูลที่ใช้ตรวจสอบ การปรับตัวร่วมกันจะทําให้เกิดการพอดีมากเกินไป การปรับให้เหมาะสมแบบ Dropout จะลดการปรับตัวร่วมกันเนื่องจาก Dropout ช่วยให้มั่นใจว่าเซลล์ประสาทจะไม่สามารถอาศัยเซลล์ประสาทอื่นๆ บางเซลล์เพียงอย่างเดียว

การกรองแบบรวม

#recsystems

การทำการคาดการณ์เกี่ยวกับความสนใจของผู้ใช้รายหนึ่งโดยอิงตามความสนใจของผู้ใช้รายอื่นๆ จำนวนมาก กรองตามข้อมูลกลุ่มมักใช้ในระบบการแนะนำ

ดูข้อมูลเพิ่มเติมได้ในการกรองแบบร่วมมือในหลักสูตรระบบการแนะนำ

การเปลี่ยนแปลงของแนวคิด

การเปลี่ยนแปลงความสัมพันธ์ระหว่างฟีเจอร์กับค่ายเพลง เมื่อเวลาผ่านไป การเปลี่ยนแปลงของแนวคิดจะลดคุณภาพของโมเดล

ในระหว่างการฝึก โมเดลจะเรียนรู้ความสัมพันธ์ระหว่างฟีเจอร์กับป้ายกำกับในชุดข้อมูลการฝึก หากป้ายกำกับในชุดการฝึกเป็นตัวแทนที่ดีสำหรับโลกแห่งความเป็นจริง โมเดลก็ควรทำนายได้ดีในโลกแห่งความเป็นจริง อย่างไรก็ตาม เนื่องจากการเลื่อนลอยของแนวคิด การคาดการณ์ของโมเดลมีแนวโน้มที่จะลดลงเมื่อเวลาผ่านไป

ตัวอย่างเช่น พิจารณาโมเดลการจัดประเภทแบบไบนารีที่คาดการณ์ว่ารถรุ่นหนึ่งๆ "ประหยัดน้ำมัน" หรือไม่ กล่าวคือ ฟีเจอร์ดังกล่าวอาจเป็นสิ่งต่อไปนี้

  • น้ำหนักรถ
  • การบีบอัดเครื่องยนต์
  • ประเภทการส่งผ่าน

ขณะที่ป้ายกำกับเป็นอย่างใดอย่างหนึ่งต่อไปนี้

  • ประหยัดเชื้อเพลิง
  • ไม่ประหยัดเชื้อเพลิง

อย่างไรก็ตาม แนวคิด "รถประหยัดเชื้อเพลิง" นั้นเปลี่ยนแปลงอยู่เสมอ รุ่นรถที่ติดป้ายกํากับว่าประหยัดเชื้อเพลิงในปี 1994 เกือบจะแน่นอนว่าจะติดป้ายกํากับว่าไม่ประหยัดเชื้อเพลิงในปี 2024 โมเดลที่ประสบปัญหาความผันผวนของแนวคิดมีแนวโน้มที่จะทําการคาดการณ์ที่มีประโยชน์น้อยลงเมื่อเวลาผ่านไป

เปรียบเทียบกับความไม่คงที่

เงื่อนไข

#df

ในแผนภูมิการตัดสินใจ โหนดใดก็ตามที่ประเมินนิพจน์ ตัวอย่างเช่น ส่วนต่อไปนี้ของแผนภูมิการตัดสินใจมี 2 เงื่อนไข

แผนภูมิการตัดสินใจที่มี 2 เงื่อนไข ได้แก่ (x > 0) และ (y > 0)

เงื่อนไขเรียกอีกอย่างว่าการแยกกลุ่มหรือการทดสอบ

เงื่อนไขคอนทราสต์กับ leaf

และดู:

ดูข้อมูลเพิ่มเติมเกี่ยวกับประเภทเงื่อนไขในหลักสูตรป่าการตัดสินใจ

การสมมติ

#language

คำพ้องความหมายของอาการหลอน

การสมมติอาจใช้แทนคำว่าภาพหลอนได้อย่างถูกต้องกว่าในแง่เทคนิค แต่ภาพหลอนได้รับความนิยมก่อน

การกำหนดค่า

กระบวนการกําหนดค่าพร็อพเพอร์ตี้เริ่มต้นที่ใช้ฝึกโมเดล ซึ่งรวมถึง

ในโปรเจ็กต์แมชชีนเลิร์นนิง คุณสามารถกําหนดค่าผ่านไฟล์การกําหนดค่าพิเศษหรือใช้ไลบรารีการกําหนดค่าต่อไปนี้

อคติในการยืนยันความคิดตัวเอง

#fairness

แนวโน้มในการค้นหา ตีความ ชื่นชอบ และระลึกถึงข้อมูลในลักษณะที่ยืนยันความเชื่อหรือสมมติฐานที่มีอยู่ นักพัฒนาซอฟต์แวร์แมชชีนเลิร์นนิงอาจเก็บรวบรวมหรือติดป้ายกำกับข้อมูลโดยไม่ตั้งใจในลักษณะที่ส่งผลต่อผลลัพธ์ซึ่งสนับสนุนความเชื่อที่มีอยู่ อคติยืนยันความคิดตัวเองเป็นรูปแบบหนึ่งของอคติที่ไม่ตั้งใจ

อคติของผู้ทดสอบคือรูปแบบหนึ่งของอคติในการยืนยัน ซึ่งผู้ทดสอบจะฝึกโมเดลต่อไปจนกว่าจะมีการยืนยันสมมติฐานที่มีอยู่ก่อน

เมตริกความสับสน

#fundamentals

ตาราง NxN ที่สรุปจํานวนการคาดการณ์ที่ถูกต้องและไม่ถูกต้องซึ่งโมเดลการจัดประเภททํา ตัวอย่างเช่น ลองดูเมทริกซ์ความสับสนต่อไปนี้สําหรับโมเดลการจัดประเภทแบบไบนารี

เนื้องอก (คาดการณ์) ไม่ใช่เนื้องอก (คาดการณ์)
เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 18 (TP) 1 (FN)
ไม่ใช่เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 6 (FP) 452 (TN)

เมตริกความสับสนข้างต้นแสดงข้อมูลต่อไปนี้

  • ในการคาดการณ์ 19 รายการที่ข้อมูลจริงคือเนื้องอก โมเดลจัดประเภทได้อย่างถูกต้อง 18 รายการ และจัดประเภทไม่ถูกต้อง 1 รายการ
  • จากการคาดการณ์ 458 รายการที่ข้อมูลจริงคือ "ไม่ใช่เนื้องอก" โมเดลจัดประเภทได้อย่างถูกต้อง 452 รายการ และจัดประเภทอย่างไม่ถูกต้อง 6 รายการ

เมทริกซ์ความสับสนสําหรับปัญหาการจัดประเภทหลายคลาสจะช่วยคุณระบุรูปแบบของข้อผิดพลาดได้ ตัวอย่างเช่น ลองดูตารางความสับสนต่อไปนี้สําหรับโมเดลการจัดประเภทแบบหลายคลาส 3 คลาสที่จัดหมวดหมู่ม่านตา 3 ประเภทที่แตกต่างกัน (Virginica, Versicolor และ Setosa) เมื่อข้อมูลจริงคือ Virginica เมทริกซ์ความสับสนแสดงให้เห็นว่าโมเดลมีแนวโน้มที่จะคาดการณ์ Versicolor ผิดพลาดมากกว่า Setosa อย่างมาก

  Setosa (คาดการณ์) Versicolor (คาดการณ์) Virginica (คาดการณ์)
Setosa (ข้อมูลจากการสังเกตการณ์โดยตรง) 88 12 0
Versicolor (ข้อมูลจากการสังเกตการณ์โดยตรง) 6 141 7
Virginica (ข้อมูลจากการสังเกตการณ์โดยตรง) 2 27 109

อีกตัวอย่างหนึ่งคือ ตารางความสับสนอาจแสดงให้เห็นว่าโมเดลที่ฝึกให้จดจําตัวเลขที่เขียนด้วยลายมือมีแนวโน้มที่จะคาดคะเน 9 แทน 4 หรือคาดคะเน 1 แทน 7

ตารางความสับสนมีข้อมูลที่เพียงพอที่จะคํานวณเมตริกประสิทธิภาพที่หลากหลาย ซึ่งรวมถึงความแม่นยําและความครอบคลุม

การแยกวิเคราะห์เขตเลือกตั้ง

#language

การแบ่งประโยคออกเป็นโครงสร้างทางไวยากรณ์ที่เล็กลง ("องค์ประกอบ") ส่วนต่อมาของระบบ ML เช่น โมเดลความเข้าใจภาษาธรรมชาติ จะแยกวิเคราะห์องค์ประกอบต่างๆ ได้ง่ายกว่าประโยคต้นฉบับ ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

เพื่อนของฉันรับแมวมาเลี้ยง 2 ตัว

โปรแกรมแยกองค์ประกอบสามารถแบ่งประโยคนี้ออกเป็นองค์ประกอบ 2 รายการต่อไปนี้

  • เพื่อนของฉันคือวลีนาม
  • รับเลี้ยงแมว 2 ตัวเป็นวลีที่มีคํากริยา

องค์ประกอบเหล่านี้สามารถแบ่งย่อยออกเป็นองค์ประกอบขนาดเล็กๆ เพิ่มเติมได้ เช่น วลีที่มีคํากริยา

อุปการะแมว 2 ตัว

อาจแบ่งย่อยออกเป็น

  • adopted เป็นกริยา
  • two cats เป็นวลีนามอีกวลีหนึ่ง

การฝังภาษาตามบริบท

#language
#generativeAI

การฝังที่ใกล้เคียงกับ "การทำความเข้าใจ" คำและวลีในลักษณะที่มนุษย์เจ้าของภาษาเข้าใจ ข้อมูลเชิงลึกของภาษาตามบริบทจะเข้าใจไวยากรณ์ ความหมาย และบริบทที่ซับซ้อน

เช่น ลองพิจารณาการฝังคําภาษาอังกฤษว่า cow รูปแบบการฝังข้อมูลรุ่นเก่า เช่น word2vec สามารถแสดงคำภาษาอังกฤษได้ เช่น ระยะทางในพื้นที่การฝังข้อมูลจากวัวถึงวัวกระทิงจะคล้ายกับระยะทางจากแม่แพะ (แพะตัวเมีย) ถึงแพะตัวผู้ หรือจากหญิงถึงชาย การป้อนข้อมูลภาษาตามบริบทสามารถดำเนินการต่อได้โดยตระหนักว่าบางครั้งผู้พูดภาษาอังกฤษใช้คำว่า cow ในความหมายว่าวัวหรือวัวตัวผู้ก็ได้

กรอบเวลาบริบท

#language
#generativeAI

จำนวนโทเค็นที่โมเดลประมวลผลได้ในพรอมต์หนึ่งๆ ยิ่งหน้าต่างบริบทมีขนาดใหญ่เท่าใด โมเดลก็จะใช้ข้อมูลได้มากขึ้นเพื่อตอบกลับพรอมต์อย่างสอดคล้องกันและสมเหตุสมผล

ฟีเจอร์ต่อเนื่อง

#fundamentals

ฟีเจอร์ทศนิยมที่มีค่าที่เป็นไปได้ในขอบเขตอนันต์ เช่น อุณหภูมิหรือน้ำหนัก

ตรงข้ามกับองค์ประกอบแบบไม่ต่อเนื่อง

การสุ่มตัวอย่างแบบตามสะดวก

การใช้ชุดข้อมูลที่รวบรวมมาอย่างไม่เป็นวิทยาศาสตร์เพื่อทำการทดสอบอย่างรวดเร็ว หลังจากนั้น คุณควรเปลี่ยนไปใช้ชุดข้อมูลที่รวบรวมอย่างเป็นวิทยาศาสตร์

การบรรจบ

#fundamentals

สถานะที่พบเมื่อค่า loss เปลี่ยนแปลงเพียงเล็กน้อยหรือไม่เปลี่ยนแปลงเลยในแต่ละรอบ ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้แสดงให้เห็นการบรรจบกันเมื่อประมาณ 700 รอบ

ผังพิกัดคาร์ทีเซียน แกน X หายไป แกน Y คือจํานวนการทำซ้ำการฝึก การสูญเสียสูงมากในช่วง 2-3 Iteration แรก แต่ลดลงอย่างรวดเร็ว หลังจากการทำซ้ำประมาณ 100 ครั้ง ความสูญเสียจะยังคงลดลงแต่ลดลงอย่างช้าๆ หลังจากการทำซ้ำประมาณ 700 ครั้งแล้ว ผลลัพธ์จะคงที่

โมเดลจะบรรลุความสอดคล้องเมื่อการฝึกเพิ่มเติมไม่ช่วยปรับปรุงโมเดล

ในการเรียนรู้เชิงลึก บางครั้งค่าการสูญเสียจะคงที่หรือเกือบคงที่ตลอดการวนซ้ำหลายครั้งก่อนที่จะลดลงในที่สุด ในช่วงที่มีมูลค่าการสูญเสียคงที่เป็นเวลานาน คุณอาจรู้สึกว่ามีการบรรจบกันชั่วคราว

โปรดดูการหยุดก่อนกำหนดด้วย

ดูข้อมูลเพิ่มเติมที่เส้นโค้งการบรรจบของโมเดลและเส้นโค้งการสูญเสียในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟังก์ชันโคเวกซ์

ฟังก์ชันที่บริเวณเหนือกราฟของฟังก์ชันเป็นเซตเว้า ฟังก์ชันโค้งมนตามแบบฉบับมีรูปร่างคล้ายตัวอักษร U ตัวอย่างเช่น ฟังก์ชันต่อไปนี้ล้วนเป็นฟังก์ชันโค้งมน

เส้นโค้งรูปตัวยู โดยแต่ละเส้นจะมีจุดต่ำสุดเพียงจุดเดียว

ในทางตรงกันข้าม ฟังก์ชันต่อไปนี้ไม่ใช่ฟังก์ชันที่โค้งออก สังเกตว่าบริเวณเหนือกราฟไม่ใช่ชุดรูปโค้งมน

เส้นโค้งรูปตัว W ที่มีจุดต่ำสุดในพื้นที่ 2 จุดที่แตกต่างกัน

ฟังก์ชันที่นูนไปทางเดียวจะมีจุดต่ำสุดเฉพาะที่เพียงจุดเดียว ซึ่งเป็นจุดต่ำสุดส่วนกลางด้วย ฟังก์ชันรูปตัวยูแบบคลาสสิกเป็นฟังก์ชันที่นูนไปข้างหน้าอย่างสมบูรณ์ อย่างไรก็ตาม ฟังก์ชันโค้งมนบางรายการ (เช่น เส้นตรง) ไม่ได้เป็นรูปตัวยู

ดูข้อมูลเพิ่มเติมได้ที่ฟังก์ชันที่บรรจบและฟังก์ชันโค้งมนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเพิ่มประสิทธิภาพแบบโค้งมน

กระบวนการใช้เทคนิคทางคณิตศาสตร์ เช่น การลดเชิงลาดเพื่อค้นหาค่าต่ำสุดของฟังก์ชันโค้งมน งานวิจัยส่วนใหญ่เกี่ยวกับแมชชีนเลิร์นนิงมุ่งเน้นที่การกําหนดปัญหาต่างๆ เป็นปัญหาการเพิ่มประสิทธิภาพแบบโคเวกซ์ และการแก้ปัญหาเหล่านั้นอย่างมีประสิทธิภาพมากขึ้น

ดูรายละเอียดทั้งหมดได้ที่ Boyd and Vandenberghe, Convex Optimization

ชุดแบบนูน

ชุดย่อยของพื้นที่เชิงยูคลิดซึ่งเส้นที่ลากระหว่างจุด 2 จุดใดก็ได้ในชุดย่อยจะยังคงอยู่ในชุดย่อยนั้นโดยสมบูรณ์ ตัวอย่างเช่น รูปทรง 2 รูปต่อไปนี้เป็นชุดรูปทรงเว้า

ภาพสี่เหลี่ยมผืนผ้า 1 ภาพ ภาพวงรีอีกภาพหนึ่ง

ในทางตรงกันข้าม รูปทรง 2 รูปต่อไปนี้ไม่ใช่ชุดรูปทรงเว้า

ภาพแผนภูมิวงกลม 1 ภาพที่ไม่มีส่วน
          ภาพอีกภาพหนึ่งของรูปหลายเหลี่ยมที่ผิดปกติอย่างมาก

การฟัซชัน

#image

ในคณิตศาสตร์ หมายถึงการผสมผสานของฟังก์ชัน 2 รายการ ในแมชชีนเลิร์นนิง การฟัซซิชันจะผสมฟิลเตอร์ฟัซซิชันเข้ากับเมทริกซ์อินพุตเพื่อฝึกน้ำหนัก

คําว่า "Conv" ในแมชชีนเลิร์นนิงมักเป็นวิธีเรียกสั้นๆ ของการดำเนินการ Conv หรือเลเยอร์ Conv

หากไม่มีการดำเนินการฟิวชัน อัลกอริทึมของแมชชีนเลิร์นนิงจะต้องเรียนรู้น้ำหนักแยกกันสำหรับทุกเซลล์ใน เทนเซอร์ขนาดใหญ่ ตัวอย่างเช่น การฝึกอัลกอริทึมแมชชีนเลิร์นนิงด้วยรูปภาพขนาด 2K x 2K จะบังคับให้ต้องหาน้ำหนักแยกกัน 4 ล้านรายการ การใช้การกรองแบบ Convolution ทำให้อัลกอริทึมของแมชชีนเลิร์นนิงต้องค้นหาเฉพาะน้ำหนักของทุกเซลล์ในฟิลเตอร์แบบ Convolution ซึ่งจะช่วยลดหน่วยความจําที่จําเป็นในการฝึกโมเดลได้อย่างมาก เมื่อใช้ตัวกรองแบบ Convolutional ระบบจะทําซ้ำตัวกรองนี้ในเซลล์ต่างๆ เพื่อให้แต่ละเซลล์คูณด้วยตัวกรอง

ดูข้อมูลเพิ่มเติมได้ที่การนําเสนอเครือข่ายประสาทแบบConvolutiveในหลักสูตรการจัดประเภทรูปภาพ

ฟิลเตอร์แบบ Convolutional

#image

หนึ่งใน 2 องค์ประกอบในการดำเนินการแบบ Convolution (ตัวแปรอื่นๆ คือส่วนหนึ่งของเมทริกซ์อินพุต) ฟิลเตอร์แบบ Convolution คือเมทริกซ์ที่มีอันดับเหมือนกับเมทริกซ์อินพุต แต่มีรูปร่างที่เล็กกว่า เช่น เมื่อใช้เมทริกซ์อินพุต 28x28 ตัวกรองอาจเป็นเมทริกซ์ 2 มิติที่เล็กกว่า 28x28

ในการจัดการภาพ โดยทั่วไปแล้วเซลล์ทั้งหมดในตัวกรองแบบ Convolution จะมีการกําหนดให้เป็นรูปแบบ 1 และ 0 คงที่ ในแมชชีนเลิร์นนิง โดยทั่วไปแล้วตัวกรองแบบ Convolution จะได้รับการกำหนดค่าเริ่มต้นด้วยตัวเลขสุ่ม จากนั้นเครือข่ายจะฝึกค่าที่เหมาะสม

ดูข้อมูลเพิ่มเติมที่การกรองข้อมูลในหลักสูตรการจัดประเภทรูปภาพ

เลเยอร์ Conv

#image

เลเยอร์ของโครงข่ายประสาทแบบลึก ซึ่งฟิลเตอร์แบบ Convolution ส่งผ่านเมทริกซ์อินพุต ตัวอย่างเช่น ลองพิจารณาตัวกรองแบบ Convolution ขนาด 3x3 ต่อไปนี้

เมทริกซ์ 3x3 ที่มีค่าต่อไปนี้ [[0,1,0], [1,0,1], [0,1,0]]

ภาพเคลื่อนไหวต่อไปนี้แสดงชั้น ConvNet ประกอบด้วยการดำเนินการ ConvNet 9 รายการที่เกี่ยวข้องกับเมทริกซ์อินพุต 5x5 โปรดทราบว่าการดำเนินการเชิงกรวยแต่ละรายการจะทำงานกับส่วน 3x3 ที่ต่างกันของเมทริกซ์อินพุต เมทริกซ์ 3x3 ที่ได้ (ทางด้านขวา) ประกอบด้วยผลลัพธ์ของการดำเนินการฟีเจอร์แมป 9 รายการดังนี้

ภาพเคลื่อนไหวแสดงเมทริกซ์ 2 รายการ เมทริกซ์แรกคือเมทริกซ์ 5x5 ดังนี้ [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]
          เมทริกซ์ที่ 2 คือเมทริกซ์ 3x3 ดังนี้
          [[181,303,618], [115,338,605], [169,351,560]]
          แมทริกซ์ที่ 2 คำนวณโดยใช้ตัวกรองการแปลงคอนโวลูชัน [[0, 1, 0], [1, 0, 1], [0, 1, 0]] ในชุดย่อย 3x3 ที่แตกต่างกันของเมทริกซ์ 5x5

ดูข้อมูลเพิ่มเติมได้ในเลเยอร์แบบ Fully Connected ในหลักสูตรการแยกประเภทรูปภาพ

โครงข่ายประสาทแบบ Convolutive

#image

เครือข่ายประสาทเทียมที่มีชั้นเป็นชั้น Conv อย่างน้อย 1 ชั้น โดยทั่วไปแล้ว เครือข่ายประสาทแบบ ConvNet จะประกอบด้วยชั้นต่อไปนี้

เครือข่ายประสาทแบบใช้ตัวคูณ (Convolutional Neural Network) ประสบความสําเร็จอย่างมากกับปัญหาบางประเภท เช่น การจดจํารูปภาพ

การดำเนินการแบบ Convolution

#image

การดำเนินการทางคณิตศาสตร์แบบ 2 ขั้นตอนต่อไปนี้

  1. การคูณทีละองค์ประกอบของฟิลเตอร์คอนเววลูชันกับส่วนของเมทริกซ์อินพุต (ส่วนของเมทริกซ์อินพุตมีลําดับและขนาดเดียวกับตัวกรองแบบ Convolution)
  2. การรวมค่าทั้งหมดในเมทริกซ์ผลิตภัณฑ์ที่ได้

ตัวอย่างเช่น ลองพิจารณาเมทริกซ์อินพุต 5x5 ต่อไปนี้

เมทริกซ์ 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]

ลองจินตนาการถึงตัวกรองคอนเวโลชัน 2x2 ต่อไปนี้

เมทริกซ์ 2x2: [[1, 0], [0, 1]]

การดำเนินการแบบกรวย 1 รายการเกี่ยวข้องกับส่วน 2x2 เดียวของเมทริกซ์อินพุต ตัวอย่างเช่น สมมติว่าเราใช้ส่วน 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุต ดังนั้น การดำเนินการฟิวชันกับส่วนนี้จึงมีลักษณะดังนี้

การใช้ตัวกรองแบบ Convolutional [[1, 0], [0, 1]] กับส่วน 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุต ซึ่งก็คือ [[128,97], [35,22]]
          ตัวกรองคอนเวโลชันจะคงค่า 128 และ 22 ไว้ แต่ทำให้ค่า 97 และ 35 เป็น 0 ดังนั้น การดำเนินการฟิวชันจึงให้ค่า 150 (128+22)

ชั้น Conv ประกอบด้วยชุดการดำเนินการ Conv โดยแต่ละรายการจะดำเนินการกับส่วนต่างๆ ของเมทริกซ์อินพุต

ต้นทุน

คำพ้องความหมายของ loss

การฝึกอบรมร่วม

แนวทางการเรียนรู้แบบควบคุมบางส่วนมีประโยชน์อย่างยิ่งเมื่อเงื่อนไขต่อไปนี้ทั้งหมดเป็นจริง

การฝึกร่วมจะขยายสัญญาณอิสระให้กลายเป็นสัญญาณที่แรงขึ้น ตัวอย่างเช่น พิจารณาโมเดลการจัดประเภทที่จัดหมวดหมู่รถมือสองแต่ละคันเป็นดีหรือไม่ดี ฟีเจอร์การคาดการณ์ชุดหนึ่งอาจมุ่งเน้นที่ลักษณะโดยรวม เช่น ปี ยี่ห้อ และรุ่นของรถ ส่วนฟีเจอร์การคาดการณ์อีกชุดหนึ่งอาจมุ่งเน้นที่ประวัติการขับรถของผู้เป็นเจ้าของคนก่อนและประวัติการบำรุงรักษาของรถ

บทความสําคัญเกี่ยวกับการฝึกร่วมคือการรวมข้อมูลที่มีป้ายกํากับและไม่มีป้ายกํากับด้วยการฝึกร่วมโดย Blum และ Mitchell

ความเป็นธรรมแบบเทียบกับสิ่งที่ไม่ได้เกิดขึ้น

#fairness

เมตริกความเป็นธรรมที่ตรวจสอบว่าตัวแยกประเภทให้ผลลัพธ์เหมือนกันสำหรับบุคคลหนึ่งกับบุคคลอื่นที่เหมือนกันกับบุคคลแรกหรือไม่ ยกเว้นในกรณีที่เกี่ยวข้องกับแอตทริบิวต์ที่มีความละเอียดอ่อนอย่างน้อย 1 รายการ การประเมินตัวแยกประเภทเพื่อหาความยุติธรรมแบบเทียบเท่าสมมติฐานเป็นวิธีหนึ่งในการค้นหาแหล่งที่มาที่อาจทำให้เกิดอคติในโมเดล

โปรดดูข้อมูลเพิ่มเติมที่หัวข้อต่อไปนี้

อคติในการรายงาน

#fairness

ดูการเลือกแบบลำเอียง

ดอกซากุระ

#language

ประโยคหรือวลีที่มีความหมายคลุมเครือ ข้อความที่แสดงข้อผิดพลาดเป็นปัญหาที่สำคัญในความเข้าใจภาษาธรรมชาติ ตัวอย่างเช่น บรรทัดแรก Red Tape Holds Up Skyscraper เป็นตัวอย่างของ Crash Blossom เนื่องจากโมเดล NLU อาจตีความบรรทัดแรกตามตัวอักษรหรือตามความหมาย

นักวิจารณ์

#rl

คำพ้องความหมายของ Deep Q-Network

เอนโทรปีครอส

การทั่วไปของ Log Loss ไปใช้กับปัญหาการจัดประเภทหลายคลาส การเข้ารหัสไขว้จะวัดความแตกต่างระหว่างการแจกแจงความน่าจะเป็น 2 รายการ โปรดดูความสับสนด้วย

การทดสอบครอสตรวจสอบ

กลไกในการประมาณว่าโมเดลจะทํางานกับข้อมูลใหม่ได้ดีเพียงใด โดยทดสอบโมเดลกับชุดข้อมูลย่อยที่ไม่มีการทับซ้อนกันอย่างน้อย 1 ชุดซึ่งเก็บไว้จากชุดข้อมูลการฝึก

ฟังก์ชันการแจกแจงสะสม (CDF)

ฟังก์ชันที่กําหนดความถี่ของตัวอย่างที่น้อยกว่าหรือเท่ากับค่าเป้าหมาย ตัวอย่างเช่น ลองพิจารณาการแจกแจงปกติของค่าต่อเนื่อง CDF บอกคุณว่าตัวอย่างประมาณ 50% ควรน้อยกว่าหรือเท่ากับค่ามัธยฐาน และตัวอย่างประมาณ 84% ควรน้อยกว่าหรือเท่ากับค่าเบี่ยงเบนมาตรฐาน 1 เท่าเหนือค่ามัธยฐาน

D

การวิเคราะห์ข้อมูล

ทําความเข้าใจข้อมูลโดยพิจารณาจากตัวอย่าง การวัด และการแสดงข้อมูลเป็นภาพ การวิเคราะห์ข้อมูลจะมีประโยชน์อย่างยิ่งเมื่อได้รับชุดข้อมูลเป็นครั้งแรก ก่อนที่จะสร้างรูปแบบแรก นอกจากนี้ ยังมีความสำคัญอย่างยิ่งในการทําความเข้าใจการทดสอบและการแก้ไขข้อบกพร่องของระบบ

การเสริมข้อมูล

#image

การเพิ่มช่วงและจํานวนตัวอย่างการฝึกด้วยการเปลี่ยนรูปแบบตัวอย่างที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติม ตัวอย่างเช่น สมมติว่ารูปภาพเป็นหนึ่งในฟีเจอร์ แต่ชุดข้อมูลของคุณไม่มีตัวอย่างรูปภาพเพียงพอที่จะช่วยให้โมเดลเรียนรู้การเชื่อมโยงที่เป็นประโยชน์ โดยหลักการแล้ว คุณควรเพิ่มรูปภาพที่ติดป้ายกำกับลงในชุดข้อมูลให้เพียงพอเพื่อให้โมเดลได้รับการฝึกอย่างเหมาะสม หากทำไม่ได้ การขยายข้อมูลจะหมุน ยืด และสะท้อนแต่ละรูปภาพเพื่อสร้างรูปภาพต้นฉบับหลายรูปแบบ ซึ่งอาจให้ข้อมูลที่ติดป้ายกำกับเพียงพอสำหรับการทําการฝึกที่ยอดเยี่ยม

DataFrame

#fundamentals

ประเภทข้อมูล pandas ที่ได้รับความนิยมสําหรับแสดงชุดข้อมูลในหน่วยความจํา

กรอบข้อมูลจะคล้ายกับตารางหรือสเปรดชีต คอลัมน์แต่ละคอลัมน์ของ DataFrame จะมีชื่อ (ส่วนหัว) และแต่ละแถวจะระบุด้วยหมายเลขที่ไม่ซ้ำกัน

แต่ละคอลัมน์ใน DataFrame มีโครงสร้างเหมือนอาร์เรย์ 2 มิติ ยกเว้นที่แต่ละคอลัมน์สามารถกําหนดประเภทข้อมูลของตัวเองได้

โปรดดูหน้าอ้างอิงอย่างเป็นทางการของ pandas.DataFrame ด้วย

การประมวลผลข้อมูลแบบขนาน

วิธีปรับขนาดการฝึกหรือการอนุมานซึ่งทำซ้ำโมเดลทั้งชุดในอุปกรณ์หลายเครื่อง แล้วส่งชุดย่อยของข้อมูลอินพุตไปยังแต่ละอุปกรณ์ การขนานข้อมูลช่วยให้สามารถฝึกและอนุมานกลุ่มตัวอย่างขนาดใหญ่ได้ แต่การขนานข้อมูลกำหนดให้โมเดลมีขนาดเล็กพอที่จะติดตั้งในอุปกรณ์ทุกเครื่อง

โดยปกติแล้วการทำงานแบบขนานของข้อมูลจะเร่งการฝึกอบรมและการทำนาย

โปรดดูการทํางานแบบขนานของโมเดลด้วย

Dataset API (tf.data)

#TensorFlow

TensorFlow API ระดับสูงสําหรับการอ่านข้อมูลและการเปลี่ยนรูปแบบข้อมูลให้อยู่ในรูปแบบที่อัลกอริทึมของแมชชีนเลิร์นนิงต้องการ ออบเจ็กต์ tf.data.Dataset แสดงถึงลําดับองค์ประกอบ ซึ่งแต่ละองค์ประกอบมี Tensor อย่างน้อย 1 รายการ ออบเจ็กต์ tf.data.Iterator ให้สิทธิ์เข้าถึงองค์ประกอบของ Dataset

ชุดข้อมูล

#fundamentals

ชุดข้อมูลดิบ ซึ่งมัก (แต่ไม่ใช่ทั้งหมด) จัดระเบียบในรูปแบบใดรูปแบบหนึ่งต่อไปนี้

  • สเปรดชีต
  • ไฟล์ในรูปแบบ CSV (ค่าที่คั่นด้วยคอมมา)

ขอบเขตการตัดสินใจ

ตัวคั่นระหว่างคลาสที่เรียนรู้โดยโมเดลในคลาสแบบไบนารีหรือปัญหาการจัดประเภทแบบหลายคลาส ตัวอย่างเช่น ในรูปภาพต่อไปนี้ซึ่งแสดงปัญหาการจัดประเภทแบบ 2 กลุ่ม ขอบเขตการตัดสินคือเส้นแบ่งระหว่างคลาสสีส้มและคลาสสีน้ำเงิน

ขอบเขตที่ชัดเจนระหว่างชั้นเรียนหนึ่งกับอีกชั้นเรียนหนึ่ง

ป่าการตัดสินใจ

#df

โมเดลที่สร้างจากต้นไม้การตัดสินใจหลายรายการ ป่าการตัดสินใจจะทําการคาดการณ์โดยการรวบรวมการคาดการณ์ของต้นไม้การตัดสินใจ ป่าการตัดสินใจประเภทยอดนิยม ได้แก่ ป่าแบบสุ่มและต้นไม้ที่มีการเพิ่มประสิทธิภาพด้วย Gradient

ดูข้อมูลเพิ่มเติมได้ที่ส่วนป่าการตัดสินใจในหลักสูตรป่าการตัดสินใจ

เกณฑ์การตัดสินใจ

คำพ้องความหมายของเกณฑ์การจัดประเภท

แผนภูมิการตัดสินใจ

#df

โมเดลการเรียนรู้ที่มีการควบคุมดูแลซึ่งประกอบด้วยชุดเงื่อนไขและใบที่จัดระเบียบเป็นลําดับชั้น ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้

แผนภูมิการตัดสินใจที่มีเงื่อนไข 4 รายการที่จัดเรียงตามลําดับชั้น ซึ่งนําไปสู่ใบ 5 ใบ

เครื่องมือถอดรหัส

#language

โดยทั่วไปแล้ว ระบบ ML ใดก็ตามที่แปลงจากการแสดงผลที่ประมวลผลแล้ว หนาแน่น หรือภายในเป็นการแสดงผลที่ดิบ เบาบาง หรือภายนอกมากขึ้น

ตัวถอดรหัสมักเป็นคอมโพเนนต์ของโมเดลขนาดใหญ่ ซึ่งมักจะจับคู่กับโปรแกรมและอุปกรณ์เปลี่ยนไฟล์

ในงานแบบอนุกรมต่ออนุกรม ตัวถอดรหัสจะเริ่มต้นด้วยสถานะภายในที่เอนโค้ดเดอร์สร้างขึ้นเพื่อคาดการณ์ลำดับถัดไป

ดูคำจำกัดความของตัวถอดรหัสภายในสถาปัตยกรรม Transformer ได้ที่ Transformer

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โมเดลเชิงลึก

#fundamentals

เครือข่ายประสาทเทียมที่มีชั้นที่ซ่อนอยู่มากกว่า 1 ชั้น

โมเดลเชิงลึกเรียกอีกอย่างว่าโครงข่ายประสาทแบบลึก

ตรงข้ามกับรูปแบบกว้าง

โครงข่ายประสาทแบบลึก

คำพ้องความหมายของโมเดลเชิงลึก

เครือข่าย Deep Q (DQN)

#rl

ใน การเรียนรู้ด้วย Q-Learning จะมีโครงข่ายประสาทแบบลึกที่คาดคะเนฟังก์ชัน Q

Critic เป็นคําพ้องความหมายของ Deep Q-Network

ความเท่าเทียมตามข้อมูลประชากร

#fairness

เมตริกความเป็นธรรมที่เป็นไปตามข้อกำหนดหากผลการจัดประเภทของโมเดลไม่ขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อนที่ระบุ

ตัวอย่างเช่น หากทั้งชาวลิลลี่ปุตและชาวบราบิงแน็กสมัครเข้ามหาวิทยาลัยกลุบบัดบรีบ ความเป็นธรรมด้านข้อมูลประชากรจะเกิดขึ้นเมื่อเปอร์เซ็นต์ของชาวลิลลี่ปุตที่ได้รับอนุญาตเท่ากับเปอร์เซ็นต์ของชาวบราบิงแน็กที่ได้รับอนุญาต โดยไม่คำนึงว่ากลุ่มหนึ่งมีคุณวุฒิมากกว่าอีกกลุ่มโดยเฉลี่ยหรือไม่

ซึ่งต่างจากโอกาสที่เท่าเทียมและความเสมอภาคของโอกาสที่อนุญาตให้ผลการแยกประเภทโดยรวมขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อน แต่ไม่อนุญาตให้ผลการแยกประเภทสำหรับป้ายกำกับข้อมูลจริงที่ระบุบางรายการขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อน ดูภาพแสดง"การต่อสู้กับการแบ่งแยกด้วยแมชชีนเลิร์นนิงที่ฉลาดขึ้น" เพื่อสำรวจการแลกเปลี่ยนเมื่อเพิ่มประสิทธิภาพเพื่อความเป็นธรรมด้านข้อมูลประชากร

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ความเท่าเทียมทางประชากรในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การกรองสัญญาณรบกวน

#language

แนวทางทั่วไปของการเรียนรู้แบบควบคุมตนเอง ซึ่งมีลักษณะดังนี้

  1. เพิ่มสัญญาณรบกวนลงในชุดข้อมูล
  2. โมเดลจะพยายามนำเสียงรบกวนออก

การกรองสัญญาณรบกวนช่วยให้เรียนรู้จากตัวอย่างที่ไม่มีป้ายกำกับได้ ชุดข้อมูลเดิมทำหน้าที่เป็นเป้าหมายหรือป้ายกำกับ และข้อมูลที่มีสัญญาณรบกวนเป็นอินพุต

โมเดลภาษาที่มีการปกปิดบางรุ่นใช้การกรองสัญญาณรบกวน ดังนี้

  1. ระบบจะเพิ่มสัญญาณรบกวนลงในประโยคที่ไม่มีป้ายกำกับโดยการปกปิดโทเค็นบางส่วน
  2. โมเดลจะพยายามคาดคะเนโทเค็นต้นฉบับ

องค์ประกอบที่หนาแน่น

#fundamentals

ฟีเจอร์ซึ่งมีค่าส่วนใหญ่หรือทั้งหมดไม่ใช่ 0 ซึ่งโดยปกติแล้วจะเป็น Tensor ของค่าทศนิยม ตัวอย่างเช่น เทนเซอร์ 10 องค์ประกอบต่อไปนี้เป็นแบบหนาแน่นเนื่องจากค่า 9 ค่าไม่ใช่ 0

8 3 7 5 2 4 0 4 9 6

ตรงข้ามกับองค์ประกอบที่กระจัดกระจาย

เลเยอร์แบบหนาแน่น

คำพ้องความหมายของเลเยอร์แบบเชื่อมต่อทั้งหมด

ความลึก

#fundamentals

ผลรวมของรายการต่อไปนี้ในโครงข่ายประสาทเทียม

เช่น เครือข่ายประสาทที่มีเลเยอร์ที่ซ่อนอยู่ 5 ชั้นและเลเยอร์เอาต์พุต 1 ชั้นจะมีระดับความลึก 6

โปรดทราบว่าเลเยอร์อินพุตไม่มีผลต่อความลึก

โครงข่ายประสาทแบบ Convolutive ที่แยกตามมิติความลึกได้ (sepCNN)

#image

สถาปัตยกรรมโครงข่ายประสาทแบบ Convolutiveที่อิงตาม Inception แต่ใช้ Convolutive แบบแยกตามระดับความลึกแทนโมดูล Inception หรือที่เรียกว่า Xception

การกรองเชิงลึกแบบแยกส่วน (หรือเรียกสั้นๆ ว่า "การกรองแบบแยกส่วน") จะแยกการกรอง 3 มิติมาตรฐานออกเป็น 2 การดำเนินการกรองแยกกัน ซึ่งมีประสิทธิภาพในการประมวลผลมากกว่า การดำเนินการแรกคือการกรองเชิงลึกที่มีความลึก 1 (n ✕ n ✕ 1) และการดำเนินการที่ 2 คือการกรองแบบจุดที่มีความกว้างและความยาว 1 (1 ✕ 1 ✕ n)

ดูข้อมูลเพิ่มเติมได้ที่ Xception: Deep Learning with Depthwise Separable Convolutions

ป้ายกำกับที่ดึงข้อมูล

คำพ้องความหมายของป้ายกำกับพร็อกซี

อุปกรณ์

#TensorFlow
#GoogleCloud

คําที่ใช้งานมากเกินไปซึ่งมีคําจํากัดความที่เป็นไปได้ 2 รายการดังนี้

  1. หมวดหมู่ฮาร์ดแวร์ที่เรียกใช้เซสชัน TensorFlow ได้ ซึ่งรวมถึง CPU, GPU และ TPU
  2. เมื่อฝึกโมเดล ML ในชิปเร่งความเร็ว (GPU หรือ TPU) ส่วนที่ทำงานจริงของระบบคือการจัดการเทนเซอร์และการฝัง อุปกรณ์ทำงานด้วยชิปเร่ง ในทางตรงกันข้าม โฮสต์มักทำงานบน CPU

Differential Privacy

ในแมชชีนเลิร์นนิง แนวทางการลบข้อมูลระบุตัวบุคคลเพื่อปกป้องข้อมูลที่ละเอียดอ่อน (เช่น ข้อมูลส่วนบุคคลของบุคคล) ที่รวมอยู่ในชุดข้อมูลการฝึกของโมเดลไม่ให้ถูกเปิดเผย แนวทางนี้ช่วยให้มั่นใจว่าโมเดลจะไม่เรียนรู้หรือจดจําข้อมูลมากนักเกี่ยวกับบุคคลหนึ่งๆ ซึ่งทำได้โดยการสุ่มตัวอย่างและเพิ่มสัญญาณรบกวนระหว่างการฝึกโมเดลเพื่อบดบังจุดข้อมูลแต่ละจุด ซึ่งจะช่วยลดความเสี่ยงในการเปิดเผยข้อมูลการฝึกอบรมที่มีความละเอียดอ่อน

นอกจากนี้ Differential Privacy ยังใช้นอกเหนือไปจากแมชชีนเลิร์นนิงด้วย ตัวอย่างเช่น บางครั้งนักวิทยาศาสตร์ข้อมูลใช้ Differential Privacy เพื่อปกป้องความเป็นส่วนตัวของบุคคลเมื่อคํานวณสถิติการใช้งานผลิตภัณฑ์สําหรับข้อมูลประชากรที่แตกต่างกัน

การลดมิติข้อมูล

การลดจํานวนมิติข้อมูลที่ใช้ในการแสดงฟีเจอร์หนึ่งๆ ในเวกเตอร์ลักษณะ ซึ่งโดยปกติแล้วจะเป็นการเปลี่ยนเป็นเวกเตอร์การฝัง

ขนาด

คําที่มีความหมายหลายอย่างซึ่งมีคําจํากัดความอย่างใดอย่างหนึ่งต่อไปนี้

  • จำนวนระดับของพิกัดใน Tensor เช่น

    • เวกเตอร์สเกลาร์จะมีมิติข้อมูลเป็น 0 เช่น ["Hello"]
    • เวกเตอร์มีมิติข้อมูลเดียว เช่น [3, 5, 7, 11]
    • เมทริกซ์มี 2 มิติ เช่น [[2, 4, 18], [5, 7, 14]] คุณสามารถระบุเซลล์หนึ่งๆ ในเวกเตอร์ 1 มิติได้อย่างไม่ซ้ำกันด้วยพิกัด 1 รายการ แต่ต้องใช้พิกัด 2 รายการเพื่อระบุเซลล์หนึ่งๆ ในเมทริกซ์ 2 มิติได้อย่างไม่ซ้ำกัน
  • จํานวนรายการในเวกเตอร์องค์ประกอบ

  • จํานวนองค์ประกอบในเลเยอร์การฝัง

การแจ้งเตือนโดยตรง

#language
#generativeAI

คำพ้องความหมายของพรอมต์แบบไม่ใช้ตัวอย่าง

ฟีเจอร์แบบไม่ต่อเนื่อง

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้แบบจำกัด เช่น ฟีเจอร์ที่มีค่าเป็นได้เพียง สัตว์ ผัก หรือแร่เป็นฟีเจอร์แบบไม่ต่อเนื่อง (หรือแบบหมวดหมู่)

ตรงข้ามกับองค์ประกอบต่อเนื่อง

โมเดลการแยกแยะ

โมเดลที่คาดการณ์ป้ายกํากับจากชุดฟีเจอร์อย่างน้อย 1 รายการ กล่าวอย่างเป็นทางการมากขึ้นคือ โมเดลการแยกแยะจะกําหนดความน่าจะเป็นแบบมีเงื่อนไขของเอาต์พุตโดยพิจารณาจากฟีเจอร์และน้ำหนัก ดังนี้

p(output | features, weights)

เช่น โมเดลที่คาดการณ์ว่าอีเมลเป็นสแปมหรือไม่จากฟีเจอร์และน้ำหนักเป็นโมเดลการแยกแยะ

โมเดลการเรียนรู้แบบควบคุมส่วนใหญ่ ซึ่งรวมถึงโมเดลการจัดประเภทและโมเดลการหาค่าประมาณ ล้วนเป็นโมเดลการแยกแยะ

ตรงข้ามกับโมเดล Generative

ตัวแบ่ง

ระบบที่ระบุว่าตัวอย่างเป็นจริงหรือปลอม

หรือจะเป็นระบบย่อยภายในเครือข่าย Generative Adversarial ที่กําหนดว่าตัวอย่างที่สร้างโดยGenerator นั้นจริงหรือเท็จ

ดูข้อมูลเพิ่มเติมได้ในตัวแยกแยะในหลักสูตร GAN

ผลกระทบที่แตกต่างกัน

#fairness

การตัดสินใจเกี่ยวกับผู้คนที่ส่งผลกระทบต่อประชากรย่อยกลุ่มต่างๆ อย่างไม่สัดส่วน โดยปกติแล้ว ปัญหานี้หมายถึงสถานการณ์ที่กระบวนการตัดสินใจแบบอัลกอริทึมสร้างความเสียหายหรือให้ประโยชน์แก่กลุ่มย่อยบางกลุ่มมากกว่ากลุ่มอื่นๆ

ตัวอย่างเช่น สมมติว่าอัลกอริทึมที่กําหนดการมีสิทธิ์ของชาวลิลลี่ปุตินในการขอสินเชื่อบ้านขนาดเล็กมีแนวโน้มที่จะจัดประเภทชาวลิลลี่ปุตินเป็น "ไม่มีสิทธิ์" หากที่อยู่จัดส่งมีรหัสไปรษณีย์ที่เจาะจง หากชาวลิลลี่ปุติที่เขียนเลขฐาน 2 ขึ้นก่อนมีแนวโน้มที่จะมีที่อยู่สำหรับจัดส่งที่มีรหัสไปรษณีย์นี้มากกว่าชาวลิลลี่ปุติที่เขียนเลขฐาน 2 ลงก่อน อัลกอริทึมนี้อาจส่งผลให้เกิดผลกระทบที่แตกต่างกัน

ซึ่งแตกต่างจากการปฏิบัติที่แตกต่างกันที่มุ่งเน้นที่ความเหลื่อมล้ำที่เกิดขึ้นเมื่อลักษณะของกลุ่มย่อยเป็นอินพุตที่ชัดเจนในกระบวนการตัดสินใจแบบอัลกอริทึม

การปฏิบัติที่แตกต่างกัน

#fairness

พิจารณาแอตทริบิวต์ที่มีความละเอียดอ่อนของบุคคลในกระบวนการตัดสินใจแบบอัลกอริทึมเพื่อให้ระบบจัดการกับกลุ่มย่อยของบุคคลที่แตกต่างกัน

ตัวอย่างเช่น พิจารณาอัลกอริทึมที่กําหนดการมีสิทธิ์ของชาวลิลลี่พุตในการขอสินเชื่อบ้านขนาดเล็กตามข้อมูลที่ระบุไว้ในใบสมัครสินเชื่อ หากอัลกอริทึมใช้การเชื่อมโยงของ Lilliputian เป็น Big-Endian หรือ Little-Endian เป็นอินพุต แสดงว่าอัลกอริทึมกำลังใช้การจัดการที่แตกต่างกันไปตามมิติข้อมูลนั้น

ซึ่งต่างจากผลกระทบที่แตกต่างกันที่มุ่งเน้นที่ความเหลื่อมล้ำของผลกระทบทางสังคมจากการตัดสินใจของอัลกอริทึมที่มีต่อกลุ่มย่อย โดยไม่คำนึงว่ากลุ่มย่อยเหล่านั้นเป็นอินพุตของโมเดลหรือไม่

การกลั่น

#generativeAI

กระบวนการลดขนาดโมเดล 1 รายการ (เรียกว่าโมเดลหลัก) ให้เป็นโมเดลที่เล็กลง (เรียกว่าโมเดลย่อย) ซึ่งจําลองการคาดการณ์ของโมเดลเดิมให้ใกล้เคียงที่สุด การกลั่นมีประโยชน์เนื่องจากโมเดลขนาดเล็กมีข้อดีหลัก 2 ข้อเหนือกว่าโมเดลขนาดใหญ่ (ครู) ดังนี้

  • ใช้เวลาในการอนุมานเร็วขึ้น
  • ลดการใช้หน่วยความจำและพลังงาน

อย่างไรก็ตาม โดยทั่วไปการคาดการณ์ของนักเรียนจะไม่แม่นยำเท่ากับการคาดการณ์ของครู

การกลั่นจะฝึกโมเดลนักเรียนเพื่อลดฟังก์ชันการสูญเสียตามความแตกต่างระหว่างเอาต์พุตของการคาดการณ์ของโมเดลนักเรียนและโมเดลครู

เปรียบเทียบและเปรียบต่างระหว่างการกลั่นกับคำศัพท์ต่อไปนี้

ดูข้อมูลเพิ่มเติมได้ที่LLM: การปรับแต่ง การปรับให้เหมาะสม และการปรับแต่งพรอมต์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเผยแพร่

ความถี่และช่วงของค่าต่างๆ สําหรับฟีเจอร์หรือป้ายกํากับหนึ่งๆ การแจกแจงแสดงถึงแนวโน้มที่ค่าหนึ่งๆ จะปรากฏ

รูปภาพต่อไปนี้แสดงฮิสโตแกรมของการแจกแจง 2 แบบที่แตกต่างกัน

  • ทางด้านซ้ายคือความหนาแน่นของลัทธิอำนาจนิยมของทรัพย์สมบัติเทียบกับจํานวนผู้ที่ครอบครองทรัพย์สมบัตินั้น
  • ทางด้านขวาคือความถี่ของค่าความสูงตามปกติเทียบกับจํานวนคนที่มีความสูงนั้น

ฮิสโตแกรม 2 รายการ ฮิสโตแกรม 1 รายการแสดงการแจกแจงเชิงกำลังที่มีความมั่งคั่งบนแกน x และจํานวนคนที่มีความมั่งคั่งนั้นบนแกน y ผู้คนส่วนใหญ่มีทรัพย์สินน้อยมาก และมีคนเพียงไม่กี่คนที่ร่ำรวยมาก ส่วนฮิสโตแกรมอีกอันแสดงการแจกแจงแบบปกติที่มีความสูงบนแกน X และจำนวนคนที่มีความสูงนั้นบนแกน Y ผู้คนส่วนใหญ่จะกระจุกตัวอยู่ใกล้ค่าเฉลี่ย

การทำความเข้าใจการแจกแจงของฟีเจอร์และป้ายกำกับแต่ละรายการจะช่วยให้คุณกำหนดวิธีทำให้เป็นมาตรฐานค่าและตรวจหาค่าที่ผิดปกติได้

วลีไม่ได้อยู่ในชุดข้อมูลหมายถึงค่าที่ไม่ได้ปรากฏในชุดข้อมูลหรือพบได้น้อยมาก เช่น ระบบจะถือว่ารูปภาพดาวเสาร์อยู่นอกการแจกแจงสำหรับชุดข้อมูลที่มีรูปภาพแมว

การจัดคลัสเตอร์แบบแบ่งกลุ่ม

#clustering

ดูการจัดกลุ่มตามลําดับชั้น

การลดขนาด

#image

คําที่มีความหมายหลายอย่างซึ่งอาจหมายถึงอย่างใดอย่างหนึ่งต่อไปนี้

  • การลดปริมาณข้อมูลในฟีเจอร์เพื่อฝึกโมเดลให้มีประสิทธิภาพมากขึ้น เช่น การปรับขนาดรูปภาพความละเอียดสูงเป็นรูปแบบความละเอียดต่ำก่อนฝึกโมเดลการจดจำรูปภาพ
  • การฝึกด้วยตัวอย่างคลาสที่มีจำนวนมากเกินไปในเปอร์เซ็นต์ที่ต่ำไม่สมส่วนเพื่อปรับปรุงการฝึกโมเดลในคลาสที่มีจำนวนน้อย เช่น ในชุดข้อมูลที่มีคลาสไม่สมดุล โมเดลมีแนวโน้มที่จะเรียนรู้เกี่ยวกับคลาสส่วนใหญ่มาก แต่เรียนรู้เกี่ยวกับคลาสน้อยไม่เพียงพอ การลดขนาดช่วยปรับสมดุลปริมาณการฝึกในคลาสส่วนใหญ่และคลาสส่วนน้อย

ดูข้อมูลเพิ่มเติมได้ที่ชุดข้อมูล: ชุดข้อมูลที่ไม่สมดุลในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

DQN

#rl

ตัวย่อของ Deep Q-Network

Regularization แบบ Dropout

รูปแบบการปรับให้เหมาะสมที่มีประโยชน์ในการฝึกโครงข่ายระบบประสาทเทียม การทำให้โมเดลมีเสถียรด้วยการละทิ้งข้อมูลจะนําหน่วยจํานวนคงที่ที่สุ่มเลือกในเลเยอร์เครือข่ายออกสําหรับขั้นตอนเดียวของลําดับชั้น ยิ่งมีหน่วยที่หยุดทำงานมากเท่าใด การทำให้ถูกต้องก็ยิ่งชัดเจนมากขึ้นเท่านั้น ซึ่งคล้ายกับการฝึกเครือข่ายให้จําลองชุดค่าผสมขนาดใหญ่แบบทวีคูณของเครือข่ายขนาดเล็ก ดูรายละเอียดทั้งหมดได้ที่Dropout: วิธีง่ายๆ ในการป้องกันการที่เครือข่ายประสาทมีการประมาณมากเกินไป

ไดนามิก

#fundamentals

กิจกรรมที่ทำบ่อยหรือต่อเนื่อง คําว่าแบบไดนามิกและออนไลน์เป็นคําพ้องกันในแมชชีนเลิร์นนิง ต่อไปนี้เป็นการใช้งานแบบไดนามิกและออนไลน์ที่พบบ่อยในแมชชีนเลิร์นนิง

  • โมเดลแบบไดนามิก (หรือโมเดลออนไลน์) คือโมเดลที่ฝึกซ้ำบ่อยครั้งหรืออย่างต่อเนื่อง
  • การฝึกแบบไดนามิก (หรือการฝึกอบรมออนไลน์) คือกระบวนการฝึกอบรมบ่อยครั้งหรืออย่างต่อเนื่อง
  • การอนุมานแบบไดนามิก (หรือการอนุมานออนไลน์) คือกระบวนการสร้างการคาดการณ์ตามคําขอ

โมเดลแบบไดนามิก

#fundamentals

โมเดลที่ได้รับการฝึกใหม่บ่อยครั้ง (หรืออาจฝึกอย่างต่อเนื่อง) รูปแบบแบบไดนามิกคือ "ผู้เรียนรู้ตลอดชีวิต" ที่ปรับตัวให้เข้ากับข้อมูลที่เปลี่ยนแปลงอยู่ตลอดเวลา รูปแบบแบบไดนามิกเรียกอีกอย่างว่ารูปแบบออนไลน์

ตรงข้ามกับโมเดลแบบคงที่

E

การดำเนินการแบบ Eager

#TensorFlow

สภาพแวดล้อมการเขียนโปรแกรม TensorFlow ที่การดำเนินการจะทำงานทันที ในทางตรงกันข้าม การดำเนินการที่เรียกใช้ในการดำเนินการกราฟจะไม่ทำงานจนกว่าจะมีการประเมินอย่างชัดเจน การดำเนินการอย่างเร่งด่วนเป็นอินเทอร์เฟซแบบบังคับ ซึ่งคล้ายกับโค้ดในภาษาโปรแกรมส่วนใหญ่ โดยทั่วไปแล้ว โปรแกรมการดำเนินการแบบ Eager นั้นแก้ไขข้อบกพร่องได้ง่ายกว่าโปรแกรมการดำเนินการแบบกราฟ

การหยุดก่อนกำหนด

#fundamentals

วิธีการการปรับให้เหมาะสมที่เกี่ยวกับการสิ้นสุดการฝึก ก่อนที่การลดลงของการฝึกจะสิ้นสุดลง ในการหยุดกลางคัน คุณจะหยุดฝึกโมเดลโดยตั้งใจเมื่อการสูญเสียในชุดข้อมูลที่ใช้ตรวจสอบเริ่มเพิ่มขึ้น กล่าวคือเมื่อประสิทธิภาพการทั่วไปแย่ลง

ระยะทางของรถขุด (EMD)

การวัดความคล้ายคลึงสัมพัทธ์ของการแจกแจง 2 รายการ ยิ่งระยะทางของเครื่องจักรขุดดินต่ำ รูปแบบการกระจายก็จะยิ่งคล้ายกัน

แก้ไขระยะทาง

#language

การวัดความคล้ายคลึงกันของสตริงข้อความ 2 รายการ ระยะการแก้ไขมีประโยชน์ในแมชชีนเลิร์นนิงเนื่องจากเหตุผลต่อไปนี้

  • ระยะห่างการแก้ไขคํานวณได้ง่าย
  • ระยะห่างการแก้ไขจะเปรียบเทียบสตริง 2 รายการที่ทราบว่าคล้ายกัน
  • ระยะแก้ไขสามารถระบุระดับความคล้ายคลึงของสตริงต่างๆ กับสตริงหนึ่งๆ

ระยะห่างการแก้ไขมีหลายคำจำกัดความ โดยแต่ละคำจำกัดความจะใช้การดำเนินการสตริงที่แตกต่างกัน ดูตัวอย่างได้ที่ระยะ Levenshtein

นิพจน์ Einsum

รูปแบบการเขียนที่มีประสิทธิภาพในการอธิบายวิธีรวม เทนเซอร์ 2 รายการเข้าด้วยกัน โดยการรวมเทนเซอร์จะคูณองค์ประกอบของเทนเซอร์หนึ่งเข้ากับองค์ประกอบของเทนเซอร์อีกเทนเซอร์หนึ่ง แล้วบวกผลคูณ นิพจน์ Einsum ใช้สัญลักษณ์เพื่อระบุแกนของ Tensor แต่ละรายการ และสัญลักษณ์เดียวกันเหล่านั้นจะได้รับการเรียงลําดับใหม่เพื่อระบุรูปร่างของ Tensor ผลลัพธ์ใหม่

NumPy มีการใช้งาน Einsum ที่พบบ่อย

เลเยอร์การฝัง

#language
#fundamentals

เลเยอร์ที่ซ่อนอยู่พิเศษที่ฝึกด้วยฟีเจอร์เชิงหมวดหมู่มิติสูงเพื่อค่อยๆ เรียนรู้เวกเตอร์การฝังมิติข้อมูลต่ำ เลเยอร์การฝังช่วยให้เครือข่ายประสาทสามารถฝึกได้อย่างมีประสิทธิภาพมากกว่าการฝึกเฉพาะกับฟีเจอร์เชิงหมวดหมู่มิติสูง

ตัวอย่างเช่น ปัจจุบัน Earth รองรับพันธุ์ไม้ประมาณ 73,000 ชนิด สมมติว่าพันธุ์ไม้เป็นฟีเจอร์ในโมเดลของคุณ เลเยอร์อินพุตของโมเดลจึงมีเวกเตอร์แบบฮอตเวิร์กที่มีองค์ประกอบยาว 73,000 รายการ ตัวอย่างเช่น baobab อาจแสดงเป็นดังนี้

อาร์เรย์ที่มีองค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 รายการแรกมีค่าเป็น 0 องค์ประกอบถัดไปมีค่า 1 องค์ประกอบสุดท้าย 66,767 รายการมีค่าเป็น 0

อาร์เรย์ที่มีองค์ประกอบ 73,000 รายการนั้นยาวมาก หากคุณไม่เพิ่มเลเยอร์การฝังลงในโมเดล การฝึกจะใช้เวลานานมากเนื่องจากการคูณ 0 72,999 ครั้ง สมมติว่าคุณเลือกเลเยอร์การฝังให้มีมิติข้อมูล 12 รายการ เลเยอร์การฝังจึงค่อยๆ เรียนรู้เวกเตอร์การฝังใหม่สำหรับต้นไม้แต่ละสายพันธุ์

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลแทนเลเยอร์การฝัง

ดูข้อมูลเพิ่มเติมได้ที่การฝังในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

พื้นที่ฝัง

#language

ปริภูมิเวกเตอร์ 3 มิติที่แมปกับองค์ประกอบจากปริภูมิเวกเตอร์มิติที่สูงกว่า พื้นที่โฆษณาแบบฝังได้รับการฝึกให้จับโครงสร้างที่มีความหมายสําหรับแอปพลิเคชันที่ต้องการ

ผลคูณจุดของข้อมูลเชิงลึก 2 รายการคือตัววัดความคล้ายคลึงของข้อมูลเชิงลึกเหล่านั้น

เวกเตอร์การฝัง

#language

กล่าวโดยคร่าวๆ ก็คืออาร์เรย์ของตัวเลขทศนิยมที่มาจากเลเยอร์ใดก็ได้ ที่ซ่อนอยู่ซึ่งอธิบายอินพุตของเลเยอร์ที่ซ่อนอยู่นั้น โดยปกติแล้ว เวกเตอร์การฝังจะเป็นอาร์เรย์ของตัวเลขทศนิยมที่ผ่านการฝึกในเลเยอร์การฝัง ตัวอย่างเช่น สมมติว่าเลเยอร์การฝังต้องเรียนรู้เวกเตอร์การฝังสําหรับต้นไม้แต่ละสายพันธุ์บนโลกซึ่งมีอยู่ 73,000 สายพันธุ์ อาร์เรย์ต่อไปนี้อาจเป็นเวกเตอร์การฝังสำหรับต้นบาวบับ

อาร์เรย์ที่มีองค์ประกอบ 12 รายการ โดยแต่ละรายการมีจำนวนทศนิยมระหว่าง 0.0 ถึง 1.0

เวกเตอร์การฝังไม่ใช่ตัวเลขสุ่ม เลเยอร์การฝังจะกำหนดค่าเหล่านี้ผ่านการฝึกอบรม ซึ่งคล้ายกับวิธีที่เครือข่ายประสาทเรียนรู้น้ำหนักอื่นๆ ระหว่างการฝึก องค์ประกอบแต่ละรายการของอาร์เรย์คือคะแนนตามลักษณะบางอย่างของสายพันธุ์ต้นไม้ องค์ประกอบใดแสดงถึงลักษณะของต้นไม้แต่ละสายพันธุ์ ซึ่งเป็นสิ่งที่มนุษย์ตัดสินได้ยากมาก

สิ่งที่น่าสนใจทางคณิตศาสตร์ของเวกเตอร์การฝังคือรายการที่คล้ายกันจะมีชุดตัวเลขทศนิยมที่คล้ายกัน เช่น สายพันธุ์ต้นไม้ที่คล้ายกันจะมีชุดตัวเลขทศนิยมที่คล้ายกันมากกว่าสายพันธุ์ต้นไม้ที่แตกต่างกัน ต้นสนซีดาร์และต้นสนสควอยเอียเป็นต้นไม้สายพันธุ์ที่เกี่ยวข้องกัน ดังนั้นชุดตัวเลขทศนิยมของต้นสนซีดาร์และต้นสนสควอยเอียจึงมีความคล้ายคลึงกันมากกว่าต้นสนซีดาร์และต้นมะพร้าว ตัวเลขในเวกเตอร์การฝังจะเปลี่ยนแปลงทุกครั้งที่คุณฝึกโมเดลใหม่ แม้ว่าคุณจะฝึกโมเดลใหม่ด้วยอินพุตที่เหมือนกันก็ตาม

ฟังก์ชันการแจกแจงสะสมเชิงประจักษ์ (eCDF หรือ EDF)

ฟังก์ชันการแจกแจงสะสมซึ่งอิงตามการวัดผลเชิงประจักษ์จากชุดข้อมูลจริง ค่าของฟังก์ชันที่จุดใดก็ได้บนแกน x คือเศษส่วนของค่าสังเกตในชุดข้อมูลที่มีค่าน้อยกว่าหรือเท่ากับค่าที่ระบุ

การลดความเสี่ยงเชิงประจักษ์ (ERM)

การเลือกฟังก์ชันที่ลดการสูญเสียในชุดข้อมูลการฝึก เปรียบเทียบกับการลดความเสี่ยงเชิงโครงสร้าง

โปรแกรมเปลี่ยนไฟล์

#language

โดยทั่วไปแล้ว ระบบ ML ใดก็ตามที่แปลงจากการแสดงผลแบบดิบ เบาบาง หรือภายนอกเป็นการแสดงผลที่ประมวลผลแล้ว หนาแน่นขึ้น หรือภายในมากขึ้น

โดยปกติแล้ว โปรแกรมเข้ารหัสจะเป็นส่วนหนึ่งของโมเดลขนาดใหญ่ ซึ่งมักจะจับคู่กับโปรแกรมถอดรหัส Transformer บางตัวจะจับคู่โปรแกรมเปลี่ยนไฟล์กับโปรแกรมถอดรหัส แต่ Transformer อื่นๆ ใช้เฉพาะโปรแกรมเปลี่ยนไฟล์หรือเฉพาะโปรแกรมถอดรหัส

ระบบบางระบบใช้เอาต์พุตของโปรแกรมเข้ารหัสเป็นอินพุตของเครือข่ายการจัดประเภทหรือการถดถอย

ในงานแบบอนุกรมต่ออนุกรม ตัวเข้ารหัสจะรับลำดับอินพุตและแสดงผลสถานะภายใน (เวกเตอร์) จากนั้น ตัวถอดรหัสจะใช้สถานะภายในนั้นเพื่อคาดการณ์ลำดับถัดไป

ดูคำจำกัดความของตัวเข้ารหัสในสถาปัตยกรรม Transformer ได้ที่ Transformer

ดูข้อมูลเพิ่มเติมได้ที่LLM: โมเดลภาษาขนาดใหญ่ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

วงดนตรี

ชุดโมเดลที่ฝึกแยกกันซึ่งการคาดการณ์จะได้รับการหาค่าเฉลี่ยหรือรวบรวม ในหลายกรณี การรวมกลุ่มจะให้การคาดการณ์ที่ดีกว่าโมเดลเดียว เช่น Random Forest คือชุดค่าผสมที่สร้างขึ้นจากต้นไม้การตัดสินใจหลายต้น โปรดทราบว่าป่าการตัดสินใจบางรายการไม่ใช่ชุดค่าผสม

ดูข้อมูลเพิ่มเติมได้ที่Random Forest ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เอนโทรปี

#df

ใน ทฤษฎีสารสนเทศ หมายถึงคำอธิบายความคาดเดาไม่ได้ของรูปแบบความน่าจะเป็น หรืออาจหมายถึงปริมาณข้อมูลที่มีอยู่ในตัวอย่างแต่ละรายการ การแจกแจงข้อมูลจะมีเอนโทรปีสูงสุดเมื่อค่าทั้งหมดของตัวแปรแบบสุ่มมีแนวโน้มเท่าๆ กัน

เอนโทรปีของชุดที่มีค่าที่เป็นไปได้ 2 ค่า ได้แก่ "0" และ "1" (เช่น ป้ายกำกับในปัญหาการจัดประเภทแบบไบนารี) มีสูตรดังนี้

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

where:

  • H คือเอนโทรปี
  • p คือเศษส่วนของตัวอย่าง "1"
  • q คือเศษส่วนของตัวอย่าง "0" โปรดทราบว่า q = (1 - p)
  • log โดยทั่วไปคือ log2 ในกรณีนี้ หน่วยของข้อมูลเชิงซ้อนคือบิต

ตัวอย่างเช่น สมมติว่า

  • ตัวอย่าง 100 รายการมีค่าเป็น "1"
  • ตัวอย่าง 300 รายการมีค่าเป็น "0"

ดังนั้น ค่าเอนโทรปีคือ

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 บิตต่อตัวอย่าง

ชุดข้อมูลที่สมดุลกันโดยสมบูรณ์ (เช่น "0" 200 ตัวและ "1" 200 ตัว) จะมีเอนโทรปี 1.0 บิตต่อตัวอย่าง เมื่อชุดข้อมูลมีความไม่สมดุลมากขึ้น เอนโทรปีของชุดข้อมูลจะเข้าใกล้ 0.0

ในต้นไม้การตัดสินใจ เอนโทรปีช่วยสร้างการได้ข้อมูลเพื่อช่วยตัวแยกเลือกเงื่อนไขขณะที่ต้นไม้การตัดสินใจการจัดประเภทเติบโต

เปรียบเทียบเอนโทรปีกับข้อมูลต่อไปนี้

บางครั้งจะเรียกเอนโทรปีว่าเอนโทรปีของ Shannon

ดูข้อมูลเพิ่มเติมได้ในตัวแยกที่ตรงกันทั้งหมดสำหรับการแยกประเภทแบบ 2 กลุ่มด้วยฟีเจอร์ที่เป็นตัวเลขในหลักสูตรป่าการตัดสินใจ

สภาพแวดล้อม

#rl

ในการเรียนรู้ด้วยการทำซ้ำ โลกคือสิ่งที่มีเอเจนต์ และช่วยให้เอเจนต์สังเกตสถานะของโลกนั้นได้ เช่น โลกที่แสดงอาจเป็นเกมอย่างหมากรุก หรือโลกแห่งความเป็นจริงอย่างเขาวงกต เมื่อตัวแทนใช้การดำเนินการกับสภาพแวดล้อม สภาพแวดล้อมจะเปลี่ยนสถานะไปมา

ตอน

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เอเจนต์จะพยายามเรียนรู้สภาพแวดล้อมซ้ำๆ แต่ละครั้ง

Epoch

#fundamentals

การฝึกแบบเต็มจะผ่านชุดข้อมูลการฝึกทั้งหมดเพื่อให้ระบบประมวลผลตัวอย่างแต่ละรายการ 1 ครั้ง

Epoch แสดงจำนวนรอบการฝึก N/ขนาดกลุ่ม โดยที่ N คือจํานวนตัวอย่างทั้งหมด

ตัวอย่างเช่น สมมติว่า

  • ชุดข้อมูลประกอบด้วยตัวอย่าง 1,000 รายการ
  • ขนาดกลุ่มคือ 50 ตัวอย่าง

ดังนั้น 1 ยุคจึงต้องมีการทําซ้ำ 20 ครั้ง

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: ตัวแปรพหุนามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

นโยบายการค้นหาแบบ epsilon greedy

#rl

ในการเรียนรู้ด้วยการทำซ้ำ นโยบายที่เป็นไปตามนโยบายแบบสุ่มที่มีความน่าจะเป็น epsilon หรือนโยบายแบบโลภ เช่น หาก epsilon มีค่า 0.9 นโยบายจะเป็นไปตามนโยบายแบบสุ่ม 90% ของเวลา และนโยบายแบบโลภ 10% ของเวลา

อัลกอริทึมจะลดค่าของ epsilon ในแต่ละรอบเพื่อเปลี่ยนจากการปฏิบัติตามนโยบายแบบสุ่มเป็นการปฏิบัติตามนโยบายแบบโลภ การเปลี่ยนนโยบายจะทำให้เอเจนต์สุ่มสำรวจสภาพแวดล้อมก่อน จากนั้นจึงใช้ประโยชน์จากผลการสุ่มสำรวจอย่างเต็มรูปแบบ

โอกาสที่เท่าเทียมกัน

#fairness

เมตริกความเป็นธรรมเพื่อประเมินว่าโมเดลคาดการณ์ผลลัพธ์ที่ต้องการได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่มีความละเอียดอ่อนหรือไม่ กล่าวคือ หากผลลัพธ์ที่ต้องการสำหรับโมเดลคือคลาสที่เป็นบวก เป้าหมายคืออัตราผลบวกจริงจะเหมือนกันสำหรับทุกกลุ่ม

โอกาสที่เท่าเทียมเกี่ยวข้องกับความน่าจะเป็นที่เท่าเทียม ซึ่งกำหนดว่าทั้งอัตราผลบวกจริงและอัตราผลบวกลวงต้องเหมือนกันสำหรับทุกกลุ่ม

สมมติว่ามหาวิทยาลัย Glubbdubdrib รับทั้งชาวลิลลี่ปุตและชาวบราบิงแน็กเรียนหลักสูตรคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมของชาวลิลลี่ปุตตินำเสนอหลักสูตรคณิตศาสตร์ที่มีประสิทธิภาพ และนักเรียนส่วนใหญ่มีสิทธิ์เข้าเรียนในมหาวิทยาลัย โรงเรียนมัธยมของชาวบราบิงกันไม่ได้เปิดสอนวิชาคณิตศาสตร์เลย ส่งผลให้นักเรียนมีจำนวนน้อยกว่ามากที่มีคุณสมบัติตรงตามข้อกำหนด โอกาสที่เท่าเทียมกันเป็นไปตามป้ายกำกับที่ต้องการว่า "ได้รับอนุญาต" เกี่ยวกับสัญชาติ (Lilliputian หรือ Brobdingnagian) หากนักเรียนที่มีสิทธิ์มีโอกาสเท่าๆ กันที่จะได้รับการอนุญาต ไม่ว่านักเรียนจะเป็น Lilliputian หรือ Brobdingnagian

ตัวอย่างเช่น สมมติว่าชาวลิลลี่ปุต 100 คนและชาวบราบิงแน็ก 100 คนสมัครเข้ามหาวิทยาลัยกลุบบัดบรีบ และผลการตัดสินการรับสมัครมีดังนี้

ตารางที่ 1 ผู้สมัคร Lilliputian (90% มีสิทธิ์)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 45 3
ถูกปฏิเสธ 45 7
รวม 90 10
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับค่าเล่าเรียน: 45/90 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับค่าเล่าเรียน: 7/10 = 70%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Lilliputian ที่ได้รับค่าเล่าเรียน: (45+3)/100 = 48%

 

ตารางที่ 2 ผู้สมัครระดับ Brobdingnagian (10% มีคุณสมบัติตรงตามเกณฑ์)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 5 9
ถูกปฏิเสธ 5 81
รวม 10 90
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 5/10 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 81/90 = 90%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Brobdingnagian ที่ได้รับอนุญาตให้เข้าเรียน: (5+9)/100 = 14%

ตัวอย่างข้างต้นเป็นไปตามความเท่าเทียมของโอกาสในการรับนักเรียนที่มีสิทธิ์ เนื่องจากทั้งชาวลิลลี่ปุตและชาวบราบิงแนกันที่มีสิทธิ์มีโอกาส 50% ที่จะได้รับการยอมรับ

แม้ว่าจะเป็นไปตามหลักความเท่าเทียมกันของโอกาส แต่เมตริกความเท่าเทียม 2 รายการต่อไปนี้ไม่เป็นไปตามหลักดังกล่าว

  • ความเท่าเทียมทางประชากร: นักเรียนชาวลิลลี่ปุตและชาวบราบิงแนกได้รับอนุญาตให้เข้ามหาวิทยาลัยในอัตราที่แตกต่างกัน โดยนักเรียนชาวลิลลี่ปุตได้รับอนุญาตให้เข้ามหาวิทยาลัย 48% แต่นักเรียนชาวบราบิงแนกได้รับอนุญาตให้เข้ามหาวิทยาลัยเพียง 14%
  • โอกาสที่เท่าเทียม: แม้ว่านักเรียน Lilliputian และ Brobdingnagian ที่มีสิทธิ์จะมีสิทธิ์ได้รับการยอมรับเท่าๆ กัน แต่ข้อจำกัดเพิ่มเติมที่ว่านักเรียน Lilliputian และ Brobdingnagian ที่ไม่มีสิทธิ์จะมีสิทธิ์ถูกปฏิเสธเท่าๆ กันนั้นไม่ได้รับการยอมรับ ผู้ที่มีคุณสมบัติไม่ตรงตามเกณฑ์ของ Lilliputians มีอัตราการถูกปฏิเสธ 70% ส่วนผู้ที่มีคุณสมบัติไม่ตรงตามเกณฑ์ของ Brobdingnagians มีอัตราการถูกปฏิเสธ 90%

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ความเท่าเทียมของโอกาสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โอกาสที่เท่ากัน

#fairness

เมตริกความเท่าเทียมเพื่อประเมินว่าโมเดลคาดการณ์ผลลัพธ์ได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่มีความละเอียดอ่อนทั้งในแง่ของคลาสบวกและคลาสลบ ไม่ใช่แค่คลาสใดคลาสหนึ่งโดยเฉพาะ กล่าวคือ ทั้งอัตราผลบวกจริงและอัตราผลลบเท็จควรเหมือนกันสำหรับทุกกลุ่ม

อัตราต่อรองที่เท่ากันเกี่ยวข้องกับความเท่าเทียมกันของโอกาส ซึ่งมุ่งเน้นที่อัตราข้อผิดพลาดของคลาสเดียวเท่านั้น (บวกหรือลบ)

ตัวอย่างเช่น สมมติว่ามหาวิทยาลัย Glubbdubdrib ยอมรับทั้งชาวลิลลี่ปุตและชาวบราบิงแน็กเรียนหลักสูตรคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมของชาวลิลลี่ปุตติมีหลักสูตรคณิตศาสตร์ที่เข้มข้น และนักเรียนส่วนใหญ่มีสิทธิ์เข้าเรียนในมหาวิทยาลัย โรงเรียนมัธยมของชาวบราบิงกันไม่ได้เปิดสอนวิชาคณิตศาสตร์เลย ส่งผลให้นักเรียนมีจำนวนน้อยกว่ามากที่มีคุณสมบัติตรงตามเกณฑ์ โอกาสที่เท่าเทียมกันจะเป็นไปตามข้อกำหนดไม่ว่าผู้สมัครจะมีสิทธิ์หรือไม่ก็ตาม หากมีสิทธิ์ ก็มีโอกาสเท่าๆ กันที่จะได้รับการยอมรับเข้าโปรแกรม และหากไม่มีสิทธิ์ ก็มีโอกาสเท่าๆ กันที่จะถูกปฏิเสธ

สมมติว่าชาวลิลลี่ปุต 100 คนและชาวบราบิงแน็ก 100 คนสมัครเข้ามหาวิทยาลัยกลุบบัดดริบ และผลการตัดสินการรับสมัครมีดังนี้

ตารางที่ 3 ผู้สมัคร Lilliputian (90% มีสิทธิ์)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 45 2
ถูกปฏิเสธ 45 8
รวม 90 10
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 45/90 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 8/10 = 80%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Lilliputian ได้รับอนุญาตให้เข้าเรียน: (45+2)/100 = 47%

 

ตารางที่ 4 ผู้สมัครระดับ Brobdingnagian (10% มีคุณสมบัติตรงตามเกณฑ์)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 5 18
ถูกปฏิเสธ 5 72
รวม 10 90
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 5/10 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 72/90 = 80%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Brobdingnagian ที่ได้รับอนุญาตให้เข้าเรียน: (5+18)/100 = 23%

เงื่อนไขความน่าจะเป็นที่เท่ากันเป็นไปตามเกณฑ์เนื่องจากทั้งนักเรียน Lilliputian และ Brobdingnagian ที่มีสิทธิ์มีโอกาส 50% ที่จะได้รับการยอมรับ และนักเรียน Lilliputian และ Brobdingnagian ที่ไม่มีสิทธิ์มีโอกาส 80% ที่จะถูกปฏิเสธ

โอกาสที่เท่าเทียมกันได้รับการกําหนดอย่างเป็นทางการใน"ความเท่าเทียมของโอกาสในการเรียนรู้แบบควบคุม" ดังนี้ "ตัวทำนาย Ŷ เป็นไปตามความเท่าเทียมของโอกาสในส่วนที่เกี่ยวกับแอตทริบิวต์ที่ได้รับการคุ้มครอง A และผลลัพธ์ Y หาก Ŷ และ A เป็นอิสระต่อกันโดยขึ้นกับ Y"

Estimator

#TensorFlow

TensorFlow API ที่เลิกใช้งานแล้ว ใช้ tf.keras แทน Estimators

evals

#language
#generativeAI

ใช้เป็นหลักเป็นตัวย่อของการประเมิน LLM evals ย่อมาจากการประเมินในรูปแบบต่างๆ

การประเมิน

#language
#generativeAI

กระบวนการวัดคุณภาพของรูปแบบหรือการเปรียบเทียบรูปแบบต่างๆ

หากต้องการประเมินโมเดลแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โดยทั่วไปคุณจะต้องประเมินโมเดลนั้นเทียบกับชุดการตรวจสอบและชุดทดสอบ การประเมิน LLMมักเกี่ยวข้องกับการประเมินคุณภาพและความปลอดภัยในวงกว้าง

ตัวอย่าง

#fundamentals

ค่าของฟีเจอร์ 1 แถวและป้ายกํากับ (ไม่บังคับ) ตัวอย่างในการเรียนรู้แบบควบคุมจะแบ่งออกเป็น 2 หมวดหมู่ทั่วไป ดังนี้

  • ตัวอย่างที่มีป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ระบบจะใช้ตัวอย่างที่มีป้ายกำกับในระหว่างการฝึก
  • ตัวอย่างที่ไม่มีป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการแต่ไม่มีป้ายกำกับ ระบบจะใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการอนุมาน

ตัวอย่างเช่น สมมติว่าคุณกําลังฝึกโมเดลเพื่อระบุอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตัวอย่างที่มีป้ายกำกับ 3 รายการมีดังนี้

ฟีเจอร์ ป้ายกำกับ
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 ดี
19 34 1020 ดีมาก
18 92 1012 แย่

ตัวอย่างที่ไม่มีป้ายกำกับ 3 รายการมีดังนี้

อุณหภูมิ ความชื้น ความกดอากาศ  
12 62 1014  
21 47 1017  
19 41 1021  

แถวของชุดข้อมูลมักเป็นแหล่งข้อมูลดิบสําหรับตัวอย่าง กล่าวคือ ตัวอย่างมักจะประกอบด้วยชุดย่อยของคอลัมน์ในชุดข้อมูล นอกจากนี้ ฟีเจอร์ในตัวอย่างยังอาจรวมถึงฟีเจอร์สังเคราะห์ เช่น การครอสฟีเจอร์

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบควบคุมดูแลในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

เล่นซ้ำ

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เทคนิค DQN ใช้เพื่อลดความเกี่ยวข้องตามช่วงเวลาในข้อมูลการฝึก Agentจะจัดเก็บการเปลี่ยนสถานะในบัฟเฟอร์การบันทึก จากนั้นจะสุ่มตัวอย่างการเปลี่ยนสถานะจากบัฟเฟอร์การบันทึกเพื่อสร้างข้อมูลการฝึก

อคติของผู้ทดสอบ

#fairness

ดูอคติยืนยันความคิดตัวเอง

ปัญหาการไล่ระดับที่เพิ่มขึ้น

#seq

แนวโน้มที่เส้นลาดในโครงข่ายประสาทแบบลึก (โดยเฉพาะโครงข่ายประสาทแบบซ้ำ) จะชัน (สูง) อย่างน่าประหลาดใจ เส้นลาดชันชันมักจะทําให้เกิดการอัปเดตน้ำหนักของโหนดแต่ละโหนดในเครือข่ายประสาทเทียมลึกอย่างมาก

โมเดลที่มีปัญหาเกี่ยวกับ Gradient Explosion จะฝึกได้ยากหรือเป็นไปไม่ได้ การตัดเฉดสีจะช่วยบรรเทาปัญหานี้ได้

เปรียบเทียบกับปัญหาการลดทอนความชัน

F

F1

เมตริกการจัดประเภทแบบ 2 กลุ่ม "แบบรวม" ที่อาศัยทั้งความแม่นยำและความแม่นยำในการเรียกคืน สูตรมีดังนี้

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

ข้อเท็จจริง

#generativeAI

ในแวดวง ML พร็อพเพอร์ตี้ที่อธิบายโมเดลซึ่งเอาต์พุตอิงตามความเป็นจริง ความเป็นข้อเท็จจริงเป็นแนวคิด ไม่ใช่เมตริก ตัวอย่างเช่น สมมติว่าคุณส่งพรอมต์ต่อไปนี้ไปยังโมเดลภาษาขนาดใหญ่

สูตรเคมีของเกลือแกงคืออะไร

โมเดลที่เพิ่มประสิทธิภาพความถูกต้องจะตอบกลับดังนี้

NaCl

เราอาจจําเป็นต้องสมมติว่าโมเดลทั้งหมดควรอิงตามข้อเท็จจริง อย่างไรก็ตาม พรอมต์บางรายการ เช่น พรอมต์ต่อไปนี้ ควรทําให้โมเดล Generative AI เพิ่มประสิทธิภาพความคิดสร้างสรรค์แทนความถูกต้อง

เล่ากลอนสั้นๆ เกี่ยวกับนักบินอวกาศและหนอนผีเสื้อให้ฟังหน่อย

กลอนสั้นๆ ที่ออกมาจึงไม่น่าอิงตามความเป็นจริง

ตรงข้ามกับการยึดมั่นในความเป็นจริง

ข้อจำกัดด้านความยุติธรรม

#fairness
การใช้ข้อจำกัดกับอัลกอริทึมเพื่อให้เป็นไปตามคําจํากัดความของความยุติธรรมอย่างน้อย 1 ข้อ ตัวอย่างข้อจำกัดด้านความยุติธรรม ได้แก่

เมตริกความยุติธรรม

#fairness

คําจํากัดความทางคณิตศาสตร์ของ "ความเป็นธรรม" ที่วัดผลได้ เมตริกความเป็นธรรมที่ใช้กันโดยทั่วไป ได้แก่

เมตริกความยุติธรรมหลายรายการใช้ร่วมกันไม่ได้ โปรดดูความเข้ากันไม่ได้ของเมตริกความยุติธรรม

ผลลบลวง (FN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบอย่างไม่ถูกต้อง เช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ ไม่ใช่สแปม (คลาสเชิงลบ) แต่ข้อความอีเมลนั้นเป็นจดหมายขยะจริงๆ

อัตราผลลบลวง

สัดส่วนของตัวอย่างเชิงบวกจริงที่โมเดลคาดการณ์คลาสเชิงลบอย่างไม่ถูกต้อง สูตรต่อไปนี้จะคํานวณอัตราเชิงลบที่ไม่ถูกต้อง

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

ดูข้อมูลเพิ่มเติมเกี่ยวกับเกณฑ์และตารางความสับสนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ผลบวกลวง (FP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสบวกอย่างไม่ถูกต้อง เช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ (คลาสเชิงบวก) แต่ข้อความอีเมลนั้นไม่ใช่จดหมายขยะจริงๆ

ดูข้อมูลเพิ่มเติมเกี่ยวกับเกณฑ์และตารางความสับสนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อัตราผลบวกลวง (FPR)

#fundamentals

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลคาดการณ์คลาสที่เป็นบวกอย่างไม่ถูกต้อง สูตรต่อไปนี้จะคํานวณอัตราผลบวกลวง

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

อัตราผลบวกลวงคือแกน x ในกราฟ ROC

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟีเจอร์

#fundamentals

ตัวแปรอินพุตของโมเดลแมชชีนเลิร์นนิง ตัวอย่างประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ ตัวอย่างเช่น สมมติว่าคุณกําลังฝึกรูปแบบเพื่อระบุอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตารางต่อไปนี้แสดงตัวอย่าง 3 รายการ โดยแต่ละรายการมีฟีเจอร์ 3 รายการและป้ายกำกับ 1 รายการ

ฟีเจอร์ ป้ายกำกับ
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 92
19 34 1020 84
18 92 1012 87

คอนทราสต์กับป้ายกำกับ

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบควบคุมดูแลในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

การครอสฟีเจอร์

#fundamentals

ฟีเจอร์สังเคราะห์ที่เกิดจากการ "ครอส" ฟีเจอร์เชิงหมวดหมู่หรือฟีเจอร์ที่มีการแบ่งกลุ่ม

ตัวอย่างเช่น ลองพิจารณาโมเดล "การคาดการณ์อารมณ์" ที่แสดงอุณหภูมิในหนึ่งในกลุ่ม 4 กลุ่มต่อไปนี้

  • freezing
  • chilly
  • temperate
  • warm

และแสดงความเร็วลมในหมวดหมู่ใดหมวดหมู่หนึ่งต่อไปนี้

  • still
  • light
  • windy

หากไม่มีการครอสฟีเจอร์ รูปแบบเชิงเส้นจะฝึกแยกกันในแต่ละกลุ่มที่ต่างกัน 7 กลุ่มก่อนหน้า ดังนั้น โมเดลจะฝึกจากตัวอย่าง เช่น freezing โดยไม่เกี่ยวข้องกับการฝึกจากตัวอย่าง เช่น windy

หรือจะสร้างฟีเจอร์ครอสของอุณหภูมิและความเร็วลมก็ได้ ฟีเจอร์สังเคราะห์นี้จะมีค่าที่เป็นไปได้ 12 ค่าต่อไปนี้

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

การครอสฟีเจอร์ช่วยให้โมเดลเรียนรู้ความแตกต่างของอารมณ์ระหว่างfreezing-windyวันกับfreezing-stillวัน

หากคุณสร้างฟีเจอร์สังเคราะห์จากฟีเจอร์ 2 รายการที่แต่ละรายการมีที่เก็บข้อมูลที่แตกต่างกันจํานวนมาก การรวมฟีเจอร์ที่ได้จะมีชุดค่าผสมที่เป็นไปได้จํานวนมหาศาล เช่น หากฟีเจอร์หนึ่งมีที่เก็บข้อมูล 1,000 รายการ และอีกฟีเจอร์หนึ่งมีที่เก็บข้อมูล 2,000 รายการ การครอสฟีเจอร์ที่ได้จะมีที่เก็บข้อมูล 2,000,000 รายการ

ครอสเป็นผลคูณคาร์ทีเซียน

การครอสฟีเจอร์มักใช้กับโมเดลเชิงเส้นและไม่ค่อยใช้กับเครือข่ายประสาท

ดูข้อมูลเพิ่มเติมที่ข้อมูลเชิงหมวดหมู่: ฟีเจอร์ครอสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Feature Engineering

#fundamentals
#TensorFlow

กระบวนการที่มีขั้นตอนต่อไปนี้

  1. พิจารณาว่าฟีเจอร์ใดบ้างที่อาจมีประโยชน์ในการเทรนโมเดล
  2. แปลงข้อมูลดิบจากชุดข้อมูลเป็นฟีเจอร์เหล่านั้นในเวอร์ชันที่มีประสิทธิภาพ

เช่น คุณอาจพิจารณาว่า temperature อาจเป็นฟีเจอร์ที่มีประโยชน์ จากนั้น คุณอาจลองใช้การแบ่งกลุ่มเพื่อเพิ่มประสิทธิภาพสิ่งที่โมเดลสามารถเรียนรู้จากช่วง temperature ที่ต่างกัน

บางครั้งเราเรียกวิศวกรรมด้านฟีเจอร์ว่าการดึงข้อมูลฟีเจอร์หรือการสร้างฟีเจอร์

ดูข้อมูลเพิ่มเติมที่ข้อมูลตัวเลข: วิธีที่โมเดลนำเข้าข้อมูลโดยใช้เวกเตอร์ฟีเจอร์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การคํานวณองค์ประกอบ

คําที่มีความหมายหลายอย่างซึ่งมีคําจํากัดความอย่างใดอย่างหนึ่งต่อไปนี้

ความสำคัญของฟีเจอร์

#df

คำพ้องความหมายของความสำคัญของตัวแปร

ชุดฟีเจอร์

#fundamentals

กลุ่มฟีเจอร์ที่โมเดลแมชชีนเลิร์นนิงใช้ฝึก เช่น รหัสไปรษณีย์ ขนาดที่พัก และสภาพที่พักอาจประกอบกันเป็นชุดฟีเจอร์ง่ายๆ สําหรับโมเดลที่คาดการณ์ราคาที่อยู่อาศัย

ข้อมูลจำเพาะของฟีเจอร์

#TensorFlow

อธิบายข้อมูลที่จำเป็นในการดึงข้อมูลฟีเจอร์จากบัฟเฟอร์โปรโตคอล tf.Example เนื่องจากบัฟเฟอร์โปรโตคอล tf.Example เป็นเพียงคอนเทนเนอร์สำหรับข้อมูล คุณจึงต้องระบุข้อมูลต่อไปนี้

  • ข้อมูลที่จะดึง (นั่นคือคีย์สําหรับฟีเจอร์)
  • ประเภทข้อมูล (เช่น float หรือ int)
  • ความยาว (คงที่หรือผันแปร)

เวกเตอร์องค์ประกอบ

#fundamentals

อาร์เรย์ของค่า feature ที่ประกอบไปด้วยตัวอย่าง เวกเตอร์ลักษณะจะป้อนระหว่างการฝึกและระหว่างการอนุมาน ตัวอย่างเช่น เวกเตอร์ลักษณะสําหรับโมเดลที่มี 2 ลักษณะที่แยกกันอาจมีลักษณะดังนี้

[0.92, 0.56]

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์
          เลเยอร์อินพุตมีโหนด 2 โหนด โดยโหนดหนึ่งมีค่า 0.92 และอีกโหนดมีค่า 0.56

ตัวอย่างแต่ละรายการระบุค่าที่แตกต่างกันสำหรับเวกเตอร์ลักษณะ ดังนั้นเวกเตอร์ลักษณะของตัวอย่างถัดไปจึงอาจเป็นดังนี้

[0.73, 0.49]

วิศวกรรมด้านฟีเจอร์จะกําหนดวิธีแสดงฟีเจอร์ในเวกเตอร์ฟีเจอร์ เช่น ฟีเจอร์เชิงหมวดหมู่แบบไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าอาจแสดงด้วยการเข้ารหัส One-Hot ในกรณีนี้ ส่วนของเวกเตอร์ลักษณะสำหรับตัวอย่างหนึ่งๆ จะประกอบด้วย 0 4 ตัวและ 1.0 1 ตัวในตำแหน่งที่ 3 ดังนี้

[0.0, 0.0, 1.0, 0.0, 0.0]

อีกตัวอย่างหนึ่งคือสมมติว่าโมเดลของคุณประกอบด้วยฟีเจอร์ 3 รายการ ได้แก่

  • ฟีเจอร์เชิงหมวดหมู่แบบไบนารีซึ่งมีค่าที่เป็นไปได้5 ค่าที่แสดงด้วยการเข้ารหัสแบบฮอตเดียว เช่น [0.0, 1.0, 0.0, 0.0, 0.0]
  • ฟีเจอร์เชิงหมวดหมู่แบบไบนารีอีกรายการที่มีค่าที่เป็นไปได้3 ค่าซึ่งแสดงด้วยการเข้ารหัสแบบฮอตเดียว เช่น [0.0, 0.0, 1.0]
  • ฟีเจอร์จุดลอยตัว เช่น 8.3

ในกรณีนี้ เวกเตอร์ฟีเจอร์ของตัวอย่างแต่ละรายการจะแสดงด้วยค่า 9 ค่า เมื่อพิจารณาจากค่าตัวอย่างในรายการก่อนหน้า เวกเตอร์ลักษณะจะเป็นดังนี้

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

ดูข้อมูลเพิ่มเติมที่ข้อมูลตัวเลข: วิธีที่โมเดลนำเข้าข้อมูลโดยใช้เวกเตอร์ฟีเจอร์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การสร้างฟีเจอร์

กระบวนการดึงข้อมูลองค์ประกอบจากแหล่งที่มาของอินพุต เช่น เอกสารหรือวิดีโอ และการแมปองค์ประกอบเหล่านั้นเป็นเวกเตอร์องค์ประกอบ

ผู้เชี่ยวชาญด้าน ML บางรายใช้การสร้างฟีเจอร์เป็นคำพ้องกับการปรับแต่งฟีเจอร์หรือการดึงข้อมูลฟีเจอร์

การเรียนรู้แบบสมาพันธ์

แนวทางแมชชีนเลิร์นนิงแบบกระจายที่ฝึกโมเดลแมชชีนเลิร์นนิงโดยใช้ตัวอย่างแบบกระจายศูนย์ที่อยู่ในอุปกรณ์ต่างๆ เช่น สมาร์ทโฟน ในการเรียนรู้แบบรวมศูนย์ อุปกรณ์บางส่วนจะดาวน์โหลดโมเดลปัจจุบันจากเซิร์ฟเวอร์ประสานงานส่วนกลาง อุปกรณ์จะใช้ตัวอย่างที่เก็บไว้ในอุปกรณ์เพื่อปรับปรุงโมเดล จากนั้นอุปกรณ์จะอัปโหลดการปรับปรุงโมเดล (แต่ไม่รวมตัวอย่างการฝึก) ไปยังเซิร์ฟเวอร์ประสานงาน ซึ่งจะรวบรวมการปรับปรุงเหล่านี้เข้ากับการอัปเดตอื่นๆ เพื่อให้ได้โมเดลทั่วโลกที่ปรับปรุงแล้ว หลังจากการรวมแล้ว อัปเดตโมเดลที่คำนวณโดยอุปกรณ์จะไม่จำเป็นต้องใช้อีกต่อไปและสามารถทิ้งได้

เนื่องจากไม่มีการอัปโหลดตัวอย่างการฝึก การเรียนรู้แบบรวมศูนย์จึงเป็นไปตามหลักการด้านความเป็นส่วนตัวของการเก็บรวบรวมข้อมูลที่มุ่งเน้นและการเก็บรักษาข้อมูลให้น้อยที่สุด

ดูข้อมูลเพิ่มเติมเกี่ยวกับการเรียนรู้แบบรวมศูนย์ได้ในบทแนะนํานี้

รายงานความคิดเห็น

#fundamentals

ในแมชชีนเลิร์นนิง สถานการณ์ที่การคาดการณ์ของโมเดลส่งผลต่อข้อมูลการฝึกของโมเดลเดียวกันหรือโมเดลอื่น เช่น โมเดลที่แนะนำภาพยนตร์จะส่งผลต่อภาพยนตร์ที่ผู้ใช้เห็น ซึ่งก็จะส่งผลต่อโมเดลการแนะนำภาพยนตร์ในลำดับถัดไป

ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML เวอร์ชันที่ใช้งานจริง: คำถามที่ควรถามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โครงข่ายประสาทแบบ Feedforward (FFN)

เครือข่ายประสาทที่ไม่มีการเชื่อมต่อแบบวนซ้ำหรือแบบซ้ำ ตัวอย่างเช่น โครงข่ายประสาทแบบลึกแบบดั้งเดิมเป็นโครงข่ายประสาทแบบ Feedforward ซึ่งต่างจากเครือข่ายประสาทแบบซ้ำซึ่งเป็นแบบวนซ้ำ

การเรียนรู้แบบตัวอย่างน้อย

แนวทางแมชชีนเลิร์นนิงที่มักใช้สำหรับการแยกประเภทวัตถุ ซึ่งออกแบบมาเพื่อฝึกตัวแยกประเภทที่มีประสิทธิภาพจากตัวอย่างการฝึกเพียงไม่กี่ตัวอย่าง

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบครั้งเดียวและการเรียนรู้แบบไม่ใช้ตัวอย่าง

Few-Shot Prompting

#language
#generativeAI

พรอมต์ที่มีตัวอย่างมากกว่า 1 รายการ ("2-3" รายการ) ซึ่งแสดงวิธีที่โมเดลภาษาขนาดใหญ่ควรตอบ ตัวอย่างเช่น พรอมต์แบบยาวต่อไปนี้มีตัวอย่าง 2 รายการที่แสดงวิธีตอบคำถามของโมเดลภาษาขนาดใหญ่

ส่วนต่างๆ ของพรอมต์ 1 รายการ หมายเหตุ
สกุลเงินทางการของประเทศที่ระบุคืออะไร คำถามที่คุณต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR ตัวอย่างหนึ่ง
สหราชอาณาจักร: GBP อีกตัวอย่างหนึ่ง
อินเดีย: คําค้นหาจริง

โดยทั่วไปแล้วพรอมต์แบบไม่กี่ช็อตจะให้ผลลัพธ์ที่ต้องการมากกว่าพรอมต์แบบไม่มีตัวอย่างและพรอมต์แบบตัวอย่างเดียว แต่การพรอมต์แบบไม่กี่คำต้องใช้พรอมต์ที่ยาวกว่า

พรอมต์แบบไม่กี่คำเป็นรูปแบบการเรียนรู้แบบไม่กี่คำที่ใช้กับการเรียนรู้ตามพรอมต์

ดูข้อมูลเพิ่มเติมได้ที่การวิศวกรรมพรอมต์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟิดเดิล

#language

ไลบรารีการกําหนดค่าที่ใช้ Python เป็นภาษาหลัก ซึ่งจะกําหนดค่าของฟังก์ชันและคลาสโดยไม่ต้องใช้โค้ดหรือโครงสร้างพื้นฐานที่แทรกแซง ในกรณีของ Pax และโค้ดเบส ML อื่นๆ ฟังก์ชันและคลาสเหล่านี้แสดงถึงโมเดลและการฝึก ไฮเปอร์พารามิเตอร์

Fiddle จะถือว่าโค้ดเบสแมชชีนเลิร์นนิงมักจะแบ่งออกเป็น 3 ส่วนดังนี้

  • โค้ดไลบรารีซึ่งกําหนดเลเยอร์และเครื่องมือเพิ่มประสิทธิภาพ
  • โค้ด "กาว" ของชุดข้อมูล ซึ่งเรียกใช้ไลบรารีและเชื่อมต่อทุกอย่างเข้าด้วยกัน

Fiddle จะบันทึกโครงสร้างการเรียกของโค้ดกาวในรูปแบบที่ยังไม่ได้ประเมินและเปลี่ยนแปลงได้

การปรับแต่ง

#language
#image
#generativeAI

การฝึกครั้งที่ 2 สำหรับงานเฉพาะที่ดำเนินการกับโมเดลที่ฝึกล่วงหน้าเพื่อปรับแต่งพารามิเตอร์สำหรับกรณีการใช้งานที่เฉพาะเจาะจง ตัวอย่างเช่น ลำดับการฝึกแบบเต็มสำหรับโมเดลภาษาขนาดใหญ่บางรายการมีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลภาษาขนาดใหญ่ด้วยชุดข้อมูลทั่วไปขนาดใหญ่ เช่น หน้า Wikipedia ภาษาอังกฤษทั้งหมด
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกไว้ล่วงหน้าให้ทํางานที่เฉพาะเจาะจง เช่น การตอบคําถามทางการแพทย์ โดยปกติการปรับแต่งแบบละเอียดจะเกี่ยวข้องกับตัวอย่างหลายร้อยหรือหลายพันรายการที่มุ่งเน้นไปที่งานหนึ่งๆ

อีกตัวอย่างหนึ่งคือลําดับการฝึกแบบเต็มสําหรับโมเดลรูปภาพขนาดใหญ่มีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลรูปภาพขนาดใหญ่ในชุดข้อมูลรูปภาพทั่วไปขนาดใหญ่ เช่น รูปภาพทั้งหมดใน Wikimedia Commons
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกไว้ล่วงหน้าให้ทํางานเฉพาะ เช่น สร้างรูปภาพโลมาน้ำจืด

การปรับแต่งอาจใช้กลยุทธ์ต่อไปนี้ร่วมกัน

  • การแก้ไขพารามิเตอร์ที่มีอยู่ทั้งหมดของโมเดลที่ผ่านการฝึกอบรมไว้ล่วงหน้า บางครั้งเรียกว่าการปรับแต่งอย่างละเอียด
  • การแก้ไขพารามิเตอร์ที่มีอยู่บางส่วนของโมเดลที่ผ่านการฝึกอบรมล่วงหน้า (โดยปกติแล้วคือชั้นที่อยู่ใกล้กับชั้นเอาต์พุตมากที่สุด) โดยไม่เปลี่ยนแปลงพารามิเตอร์อื่นๆ ที่มีอยู่ (โดยปกติแล้วคือชั้นที่อยู่ใกล้กับชั้นอินพุตมากที่สุด) ดูการปรับแต่งที่มีประสิทธิภาพในแง่พารามิเตอร์
  • การเพิ่มเลเยอร์ โดยปกติจะวางไว้บนเลเยอร์ที่มีอยู่ซึ่งอยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด

การปรับแต่งเป็นรูปแบบหนึ่งของการเรียนรู้แบบโอน ดังนั้นการปรับแต่งอาจใช้ฟังก์ชันการสูญเสียหรือโมเดลประเภทอื่นที่แตกต่างจากที่ใช้ฝึกโมเดลที่ผ่านการฝึกอบรมล่วงหน้า เช่น คุณอาจปรับแต่งโมเดลรูปภาพขนาดใหญ่ที่ฝึกไว้ล่วงหน้าเพื่อสร้างโมเดลการหาค่าประมาณที่จะแสดงจํานวนนกในรูปภาพอินพุต

เปรียบเทียบการปรับแต่งกับคําต่อไปนี้

ดูข้อมูลเพิ่มเติมได้ที่การปรับแต่งในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เหลืองแฟลกซ์

#language

ไลบรารีโอเพนซอร์สที่มีประสิทธิภาพสูงสําหรับการเรียนรู้เชิงลึกซึ่งสร้างขึ้นจาก JAX Flax มีฟังก์ชันสำหรับการฝึก เครือข่ายประสาทเทียม รวมถึงวิธีการประเมินประสิทธิภาพของเครือข่าย

Flaxformer

#language

ไลบรารี Transformer แบบโอเพนซอร์สที่สร้างขึ้นจาก Flax ซึ่งออกแบบมาเพื่อประมวลผลภาษาธรรมชาติและการวิจัยแบบหลายมิติเป็นหลัก

ลืมประตูรั้ว

#seq

ส่วนหนึ่งของเซลล์ความจำระยะสั้นระยะยาวที่ควบคุมการไหลของข้อมูลผ่านเซลล์ เกต Forget จะรักษาบริบทโดยเลือกข้อมูลที่จะทิ้งออกจากสถานะของเซลล์

เศษส่วนของความสําเร็จ

#generativeAI

เมตริกสําหรับประเมินข้อความที่สร้างขึ้นของโมเดล ML ส่วนที่เป็นความสำเร็จคือจํานวนเอาต์พุตข้อความที่ "สําเร็จ" หารด้วยจํานวนเอาต์พุตข้อความทั้งหมดที่สร้างขึ้น ตัวอย่างเช่น หากโมเดลภาษาขนาดใหญ่สร้างโค้ด 10 บล็อก โดย 5 บล็อกทำงานสำเร็จ เศษส่วนของความสําเร็จจะเท่ากับ 50%

แม้ว่าเศษส่วนของความสําเร็จจะมีประโยชน์อย่างกว้างๆ ในสถิติ แต่ภายใน ML เมตริกนี้มีประโยชน์สําหรับการวัดงานที่ตรวจสอบได้เป็นหลัก เช่น การสร้างโค้ดหรือโจทย์คณิตศาสตร์

Softmax แบบเต็ม

คำพ้องความหมายของ softmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

ดูข้อมูลเพิ่มเติมได้ที่เครือข่ายประสาท: การแยกประเภทหลายคลาสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เลเยอร์แบบ Fully Connected

เลเยอร์ที่ซ่อนอยู่ ซึ่งโหนดแต่ละโหนดจะเชื่อมต่อกับทุกโหนดในเลเยอร์ที่ซ่อนอยู่ลำดับถัดไป

เลเยอร์แบบ Fully Connected เรียกอีกอย่างว่าเลเยอร์แบบหนาแน่น

การเปลี่ยนรูปแบบฟังก์ชัน

ฟังก์ชันที่ใช้ฟังก์ชันเป็นอินพุตและแสดงผลฟังก์ชันที่เปลี่ยนรูปแบบเป็นเอาต์พุต JAX ใช้การเปลี่ยนรูปแบบฟังก์ชัน

G

GAN

ตัวย่อของ Generative Adversarial Network

Gemini

#language
#image
#generativeAI

ระบบนิเวศที่ประกอบด้วย AI ที่ล้ำหน้าที่สุดของ Google องค์ประกอบของระบบนิเวศนี้ได้แก่

  • โมเดล Gemini ต่างๆ
  • อินเทอร์เฟซการสนทนาแบบอินเทอร์แอกทีฟกับโมเดล Gemini ผู้ใช้พิมพ์พรอมต์และ Gemini จะตอบกลับพรอมต์เหล่านั้น
  • Gemini API ต่างๆ
  • ผลิตภัณฑ์ทางธุรกิจต่างๆ ที่อิงตามโมเดล Gemini เช่น Gemini สำหรับ Google Cloud

รูปแบบของ Gemini

#language
#image
#generativeAI

โมเดลมัลติโมดที่อิงตาม Transformer ที่ทันสมัยของ Google โมเดล Gemini ได้รับการออกแบบมาโดยเฉพาะเพื่อผสานรวมกับตัวแทน

ผู้ใช้โต้ตอบกับโมเดล Gemini ได้หลายวิธี เช่น ผ่านอินเทอร์เฟซการสนทนาแบบอินเทอร์แอกทีฟและผ่าน SDK

การทั่วไป

#fundamentals

ความสามารถของโมเดลในการทําการคาดการณ์ที่ถูกต้องเกี่ยวกับข้อมูลใหม่ซึ่งไม่เคยเห็นมาก่อน โมเดลที่ทํานายได้ทั่วไปจะตรงข้ามกับโมเดลที่ปรับให้พอดีมากเกินไป

ดูข้อมูลเพิ่มเติมได้ที่การทั่วไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เส้นโค้งการทั่วไป

#fundamentals

ผังทั้งการลดลงของการฝึกและการลดลงของการตรวจสอบตามจำนวนการทำซ้ำ

เส้นโค้งทั่วไปจะช่วยคุณตรวจหาการประมาณที่มากเกินไปที่อาจเกิดขึ้น ตัวอย่างเช่น เส้นโค้งทั่วไปต่อไปนี้บ่งชี้ว่ามีการจับคู่ที่มากเกินไปเนื่องจากความสูญเสียในการตรวจสอบจะสูงกว่าความสูญเสียในการฝึกอย่างมาก

กราฟคาร์ทีเซียนที่แกน Y มีป้ายกำกับว่า &quot;การสูญเสีย&quot; และแกน X มีป้ายกำกับว่า &quot;การทำซ้ำ&quot; ผัง 2 ผังจะปรากฏขึ้น แผนภูมิหนึ่งแสดงการสูญเสียในการฝึกอบรมและอีกแผนภูมิหนึ่งแสดงการสูญเสียในการทดสอบ
          แผนภูมิ 2 แผนภูมินี้เริ่มต้นในลักษณะคล้ายกัน แต่ในที่สุดแล้ว Loss ของการฝึกก็ลดลงต่ำกว่า Loss ของการตรวจสอบ

ดูข้อมูลเพิ่มเติมได้ที่การทั่วไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

รูปแบบเชิงเส้นทั่วไป

การทั่วไปของการประมาณด้วยค่าสัมประสิทธิ์ถดถอยเชิงเส้นน้อยที่สุด โมเดล ซึ่งอิงตามสัญญาณรบกวนแบบกaussian ไปยังรูปแบบอื่นๆ ของโมเดลที่อิงตามสัญญาณรบกวนประเภทอื่นๆ เช่น สัญญาณรบกวนแบบ Poisson หรือสัญญาณรบกวนเชิงหมวดหมู่ ตัวอย่างของโมเดลเชิงเส้นทั่วไป ได้แก่

พารามิเตอร์ของโมเดลเชิงเส้นทั่วไปจะพบได้ผ่านการเพิ่มประสิทธิภาพแบบโคเวกซ์

โมเดลเชิงเส้นทั่วไปมีคุณสมบัติดังต่อไปนี้

  • การคาดการณ์ค่าเฉลี่ยของโมเดลการถดถอยแบบกำลังสองน้อยที่สุดที่ดีที่สุดจะเท่ากับป้ายกำกับค่าเฉลี่ยในข้อมูลการฝึก
  • ความน่าจะเป็นโดยเฉลี่ยที่โมเดลการถดถอยเชิงลอจิสติกแบบเพิ่มประสิทธิภาพสูงสุดคาดการณ์ได้เท่ากับป้ายกำกับโดยเฉลี่ยในข้อมูลการฝึก

ประสิทธิภาพของโมเดลเชิงเส้นทั่วไปถูกจํากัดด้วยฟีเจอร์ โมเดลเชิงเส้นทั่วไปไม่สามารถ "เรียนรู้ฟีเจอร์ใหม่" ได้ ต่างจากโมเดลเชิงลึก

ข้อความที่สร้างขึ้น

#language
#generativeAI

โดยทั่วไปคือข้อความที่โมเดล ML แสดงผล เมื่อประเมินโมเดลภาษาขนาดใหญ่ เมตริกบางรายการจะเปรียบเทียบข้อความที่สร้างขึ้นกับข้อความอ้างอิง ตัวอย่างเช่น สมมติว่าคุณพยายามประเมินประสิทธิภาพการแปลจากภาษาฝรั่งเศสเป็นภาษาดัตช์ของโมเดล ML ในกรณีนี้

  • ข้อความที่สร้างขึ้นคือคำแปลภาษาดัตช์ที่โมเดล ML แสดงผล
  • ข้อความอ้างอิงคือคำแปลภาษาดัตช์ที่นักแปล (หรือซอฟต์แวร์) สร้างขึ้น

โปรดทราบว่ากลยุทธ์การประเมินบางกลยุทธ์ไม่มีข้อความอ้างอิง

เครือข่าย Generative Adversarial (GAN)

ระบบสร้างข้อมูลใหม่ซึ่งตัวสร้างจะสร้างข้อมูล และตัวแยกจะระบุว่าข้อมูลที่สร้างขึ้นนั้นถูกต้องหรือไม่

ดูข้อมูลเพิ่มเติมในหลักสูตร Generative Adversarial Networks

Generative AI

#language
#image
#generativeAI

ช่องการเปลี่ยนแปลงที่เกิดขึ้นใหม่ซึ่งไม่มีคำจำกัดความอย่างเป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่ยอมรับว่าโมเดล Generative AI สามารถสร้าง ("สร้าง") เนื้อหาที่มีลักษณะต่อไปนี้ได้ทั้งหมด

  • ซับซ้อน
  • สอดคล้องกัน
  • เดิม

เช่น โมเดล Generative AI สามารถสร้างเรียงความหรือรูปภาพที่ซับซ้อน

เทคโนโลยีรุ่นก่อนหน้าบางรายการ เช่น LSTM และ RNN สามารถสร้างเนื้อหาต้นฉบับที่สอดคล้องกันได้ด้วย ผู้เชี่ยวชาญบางรายมองว่าเทคโนโลยียุคแรกๆ เหล่านี้เป็น Generative AI ขณะที่ผู้เชี่ยวชาญอีกกลุ่มหนึ่งเชื่อว่า Generative AI ที่แท้จริงต้องใช้เอาต์พุตที่ซับซ้อนกว่าที่เทคโนโลยียุคแรกๆ เหล่านั้นจะผลิตได้

ตรงข้ามกับ ML เชิงคาดการณ์

โมเดล Generative

ในทางปฏิบัติ โมเดลที่มีลักษณะอย่างใดอย่างหนึ่งต่อไปนี้

  • สร้าง (สร้าง) ตัวอย่างใหม่จากชุดข้อมูลการฝึก เช่น โมเดล Generative อาจสร้างบทกวีได้หลังจากฝึกกับชุดข้อมูลบทกวี Generator เป็นส่วนหนึ่งของGenerative Adversarial Network ซึ่งจัดอยู่ในหมวดหมู่นี้
  • พิจารณาความน่าจะเป็นว่าตัวอย่างใหม่มาจากชุดฝึกหรือสร้างขึ้นจากกลไกเดียวกับที่สร้างชุดฝึก ตัวอย่างเช่น หลังจากฝึกชุดข้อมูลที่มีประโยคภาษาอังกฤษ โมเดล Generative จะระบุความน่าจะเป็นที่อินพุตใหม่จะเป็นประโยคภาษาอังกฤษที่ถูกต้องได้

ในทางทฤษฎีแล้ว โมเดล Generative สามารถแยกแยะการแจกแจงตัวอย่างหรือฟีเจอร์ที่เฉพาะเจาะจงในชุดข้อมูล โดยการ

p(examples)

โมเดลการเรียนรู้แบบไม่ควบคุมดูแลเป็นแบบ Generative

ตรงข้ามกับโมเดลที่เลือกสรร

โปรแกรมสร้างแผนผังไซต์

ระบบย่อยภายในเครือข่าย Generative Adversarial ที่สร้างตัวอย่างใหม่

ตรงข้ามกับรูปแบบการระบุแหล่งที่มาแบบเจาะจง

ความไม่บริสุทธิ์ของจีนี

#df

เมตริกที่คล้ายกับเอนโทรปี ตัวแยกใช้ค่าที่มาจากความไม่บริสุทธิ์ของ Gini หรือเอนโทรปีเพื่อสร้างเงื่อนไขสําหรับการจัดประเภทต้นไม้การตัดสินใจ การได้ข้อมูลมาจากเอนโทรปี ไม่มีคําที่เทียบเท่าซึ่งยอมรับกันทั่วโลกสําหรับเมตริกที่มาจากความไม่บริสุทธิ์ของ Gini แต่เมตริกที่ไม่มีชื่อนี้สําคัญพอๆ กับข้อมูลที่ได้รับ

ความไม่เป็นระเบียบของจีนีเรียกอีกอย่างว่าดัชนีจีนี หรือเรียกสั้นๆ ว่าจีนี

ชุดข้อมูลโกลเด้น

ชุดข้อมูลที่ดูแลจัดการด้วยตนเองซึ่งบันทึกข้อมูลจริง ทีมสามารถใช้ชุดข้อมูลโกลด์อย่างน้อย 1 ชุดเพื่อประเมินคุณภาพของโมเดล

ชุดข้อมูลโกลด์บางชุดจะจับภาพโดเมนย่อยที่แตกต่างกันของข้อมูลจริง เช่น ข้อมูลชุดทองสำหรับการแยกประเภทรูปภาพอาจจับภาพสภาพแสงและความละเอียดของรูปภาพ

คำตอบที่ยอดเยี่ยม

#language
#generativeAI

คำตอบที่ทราบว่าดี ตัวอย่างเช่น เมื่อมีพรอมต์ต่อไปนี้

2 + 2

คำตอบที่สมบูรณ์แบบควรมีลักษณะดังนี้

4

GPT (Generative Pre-trained Transformer)

#language

ตระกูลโมเดลภาษาขนาดใหญ่ที่อิงตาม Transformer ซึ่งพัฒนาโดย OpenAI

รูปแบบ GPT สามารถใช้กับรูปแบบต่างๆ ได้ ซึ่งรวมถึง

  • การสร้างรูปภาพ (เช่น ImageGPT)
  • การสร้างรูปภาพจากข้อความ (เช่น DALL-E)

การไล่ระดับ

เวกเตอร์ของอนุพันธ์บางส่วนเทียบกับตัวแปรอิสระทั้งหมด ในแมชชีนเลิร์นนิง อนุพันธ์เชิงกรเดียนคือเวกเตอร์ของอนุพันธ์ย่อยของฟังก์ชันโมเดล เส้นลาดจะชี้ไปในทิศทางที่ชันที่สุด

การสะสมของเส้นลาด

เทคนิคBackpropagation ที่อัปเดตพารามิเตอร์เพียงครั้งเดียวต่อยุคแทนที่จะอัปเดตครั้งเดียวต่อการวนซ้ำ หลังจากประมวลผลมินิแบตช์แต่ละรายการแล้ว การสะสมของอนุพันธ์จะอัปเดตยอดรวมของอนุพันธ์ จากนั้นหลังจากประมวลผลมินิแบทช์สุดท้ายในยุคแล้ว ระบบจะอัปเดตพารามิเตอร์ตามการเปลี่ยนแปลงของ Gradient ทั้งหมด

การสะสม Gradient จะมีประโยชน์เมื่อขนาดกลุ่มมีขนาดใหญ่มากเมื่อเทียบกับปริมาณหน่วยความจําที่ใช้ได้สําหรับการฝึก เมื่อหน่วยความจําเป็นปัญหา แนวโน้มโดยปกติคือการลดขนาดกลุ่ม อย่างไรก็ตาม การลดขนาดกลุ่มใน Backpropagation ปกติจะเพิ่มจำนวนการอัปเดตพารามิเตอร์ การสะสม Gradient ช่วยให้โมเดลหลีกเลี่ยงปัญหาเกี่ยวกับหน่วยความจําได้ แต่ก็ยังคงฝึกได้อย่างมีประสิทธิภาพ

ต้นไม้ (การตัดสินใจ) ที่เพิ่มประสิทธิภาพด้วย Gradient (GBT)

#df

ป่าการตัดสินใจประเภทหนึ่งซึ่งมีลักษณะดังนี้

ดูข้อมูลเพิ่มเติมเกี่ยวกับต้นไม้การตัดสินใจที่มีการเพิ่มประสิทธิภาพด้วย Gradient ในหลักสูตรป่าการตัดสินใจ

การบูสต์ด้วย Gradient

#df

อัลกอริทึมการฝึกที่ฝึกโมเดลที่มีประสิทธิภาพต่ำเพื่อปรับปรุงคุณภาพ (ลดการสูญเสีย) ของโมเดลที่มีประสิทธิภาพสูงซ้ำๆ เช่น รูปแบบที่มีประสิทธิภาพต่ำอาจเป็นรูปแบบต้นไม้การตัดสินใจเชิงเส้นหรือขนาดเล็ก โมเดลที่มีประสิทธิภาพจะกลายเป็นผลรวมของโมเดลที่มีประสิทธิภาพต่ำทั้งหมดที่เคยฝึกไว้ก่อนหน้านี้

ในรูปแบบที่ง่ายที่สุดของการเพิ่มประสิทธิภาพด้วย Gradient Boosting จะมีการนําโมเดลที่มีประสิทธิภาพต่ำไปฝึกในแต่ละรอบเพื่อคาดการณ์ Gradient ของการสูญเสียของโมเดลที่มีประสิทธิภาพสูง จากนั้นระบบจะอัปเดตเอาต์พุตของโมเดลที่มีประสิทธิภาพสูงโดยการลบอนุพันธ์ที่คาดการณ์ไว้ ซึ่งคล้ายกับการลดอนุพันธ์

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

where:

  • $F_{0}$ คือโมเดลเริ่มต้นที่มีประสิทธิภาพ
  • $F_{i+1}$ คือโมเดลที่มีประสิทธิภาพสูงสุดถัดไป
  • $F_{i}$ คือโมเดลที่มีประสิทธิภาพในปัจจุบัน
  • $\xi$ คือค่าระหว่าง 0.0 ถึง 1.0 ที่เรียกว่าการหดตัว ซึ่งคล้ายกับอัตราการเรียนรู้ในการลดค่าของอนุพันธ์
  • $f_{i}$ คือโมเดลที่มีประสิทธิภาพต่ำซึ่งได้รับการฝึกให้คาดการณ์อนุพันธ์ของ Loss ของ $F_{i}$

รูปแบบสมัยใหม่ของการเพิ่มประสิทธิภาพด้วย Gradient Boosting ยังรวมอนุพันธ์ที่ 2 (Hessian) ของการสูญเสียในการคำนวณด้วย

แผนผังการตัดสินใจมักใช้เป็นโมเดลที่มีประสิทธิภาพต่ำในการเพิ่มประสิทธิภาพด้วย Gradient ดูต้นไม้ (การตัดสินใจ) ที่เพิ่มประสิทธิภาพด้วย Gradient

การตัดเฉือนการไล่ระดับสี

#seq

กลไกที่ใช้กันโดยทั่วไปเพื่อบรรเทาปัญหาการเพิ่มขึ้นของ Gradient คือการจำกัด (การตัด) ค่าสูงสุดของ Gradient โดยใช้การลด Gradient เพื่อฝึกโมเดล

การลดค่าของ Gradient

#fundamentals

เทคนิคทางคณิตศาสตร์เพื่อลดการสูญเสีย วิธีการนี้ปรับน้ำหนักและค่ากําหนดล่วงหน้าซ้ำๆ เพื่อค้นหาการผสมผสานที่ดีที่สุดเพื่อลดการสูญเสีย

การลดเชิงลาดมีอายุเก่ากว่าแมชชีนเลิร์นนิงมาก

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: การลดลงของลู่ลาดในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

กราฟ

#TensorFlow

ใน TensorFlow ข้อมูลจำเพาะการประมวลผล โหนดในกราฟแสดงถึงการดำเนินการ ขอบมีทิศทางและแสดงการนําส่งผลลัพธ์ของการดำเนินการ (Tensor) ไปยังการดำเนินการอื่น ใช้ TensorBoard เพื่อแสดงภาพกราฟ

การดำเนินการของกราฟ

#TensorFlow

สภาพแวดล้อมการเขียนโปรแกรม TensorFlow ที่โปรแกรมจะสร้างกราฟก่อน จากนั้นจึงเรียกใช้กราฟทั้งหมดหรือบางส่วน การดำเนินการของกราฟคือโหมดการดำเนินการเริ่มต้นใน TensorFlow 1.x

ตรงข้ามกับการดำเนินการแบบรอดำเนินการ

นโยบายการแสวงหาประโยชน์

#rl

ในการเรียนรู้ด้วยการทำซ้ำ นโยบายที่เลือกการดำเนินการที่มีผลตอบแทนที่คาดไว้สูงสุดเสมอ

พื้นฐาน

พร็อพเพอร์ตี้ของโมเดลที่เอาต์พุตอิงตาม (คือ "อิงตาม") เนื้อหาต้นทางที่เฉพาะเจาะจง ตัวอย่างเช่น สมมติว่าคุณป้อนตำราฟิสิกส์ทั้งเล่มเป็นอินพุต ("บริบท") ให้กับโมเดลภาษาขนาดใหญ่ จากนั้นคุณป้อนคำถามฟิสิกส์ให้โมเดลภาษาขนาดใหญ่ หากคำตอบของโมเดลแสดงถึงข้อมูลในตำราเรียนนั้น แสดงว่าโมเดลนั้นอิงตามตำราเรียนนั้น

โปรดทราบว่าโมเดลที่อิงตามหลักฐานไม่ใช่โมเดลที่เป็นข้อเท็จจริงเสมอไป เช่น ตำราฟิสิกส์ที่ส่งมาอาจมีข้อผิดพลาด

ข้อมูลจากการสังเกตการณ์โดยตรง

#fundamentals

ความจริง

สิ่งที่เกิดขึ้นจริง

ตัวอย่างเช่น ลองพิจารณาโมเดลการจัดประเภทแบบ 2 กลุ่มที่คาดการณ์ว่านักเรียนปีแรกของมหาวิทยาลัยจะสำเร็จการศึกษาภายใน 6 ปีหรือไม่ ข้อมูลจากการสังเกตการณ์โดยตรงสําหรับโมเดลนี้คือนักเรียนคนนั้นจบการศึกษาภายใน 6 ปีจริงหรือไม่

อคติในการระบุแหล่งที่มาของกลุ่ม

#fairness

สมมติว่าสิ่งที่เป็นจริงสำหรับบุคคลหนึ่งเป็นจริงสำหรับทุกคนในกลุ่มนั้นด้วย ผลกระทบของอคติการระบุแหล่งที่มาของกลุ่มอาจรุนแรงขึ้นหากใช้การสุ่มตัวอย่างตามความสะดวกในการรวบรวมข้อมูล ในตัวอย่างที่ไม่เป็นไปตามสัดส่วน อาจมีการระบุแหล่งที่มาที่ไม่ตรงกับความเป็นจริง

ดูอคติความเหมือนกันของกลุ่มนอกและอคติของกลุ่มในด้วย นอกจากนี้ โปรดดูข้อมูลเพิ่มเติมจากหัวข้อความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

H

อาการหลอน

#language

การสร้างเอาต์พุตที่ดูน่าเชื่อถือแต่ข้อเท็จจริงไม่ถูกต้องโดยโมเดล Generative AI ที่อ้างว่ากำลังกล่าวอ้างเกี่ยวกับโลกแห่งความเป็นจริง เช่น โมเดล Generative AI ที่อ้างว่า Barack Obama เสียชีวิตในปี 1865 เป็นการหลอน

การแฮช

ในแมชชีนเลิร์นนิง กลไกการจัดกลุ่มข้อมูลเชิงหมวดหมู่ โดยเฉพาะอย่างยิ่งเมื่อจํานวนหมวดหมู่มีมาก แต่จํานวนหมวดหมู่ที่ปรากฏในชุดข้อมูลมีน้อย

ตัวอย่างเช่น โลกเป็นที่อยู่อาศัยของต้นไม้ประมาณ 73,000 ชนิด คุณอาจแสดงสายพันธุ์ต้นไม้แต่ละสายพันธุ์ 73,000 สายพันธุ์ในที่เก็บข้อมูลเชิงหมวดหมู่แยกกัน 73,000 รายการ หรือหากมีเพียง 200 สายพันธุ์ของต้นไม้ที่ปรากฏในชุดข้อมูล คุณอาจใช้การแฮชเพื่อแบ่งสายพันธุ์ต้นไม้ออกเป็นที่เก็บข้อมูลประมาณ 500 รายการ

ถังเดียวอาจมีต้นไม้หลายสายพันธุ์ เช่น การแฮชอาจจัดให้ต้นบาโอบาบและต้นเมเปิลสีแดง ซึ่งเป็น 2 สายพันธุ์ที่แตกต่างกันทางพันธุกรรมไว้ในที่เก็บข้อมูลเดียวกัน อย่างไรก็ตาม แฮชยังคงเป็นวิธีที่ยอดเยี่ยมในการแมปชุดหมวดหมู่ขนาดใหญ่ลงในที่เก็บข้อมูลจํานวนหนึ่งที่เลือก การแฮชจะเปลี่ยนฟีเจอร์เชิงหมวดหมู่ซึ่งมีค่าที่เป็นไปได้จํานวนมากให้มีค่าจํานวนน้อยลงมากโดยการจัดกลุ่มค่าในลักษณะที่แน่นอน

ดูข้อมูลเพิ่มเติมในข้อมูลเชิงหมวดหมู่: พจนานุกรมและการเข้ารหัสแบบฮอตเวิร์กในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การประเมินจากสิ่งต่างๆ

โซลูชันที่ใช้งานง่ายและรวดเร็วในการแก้ปัญหา เช่น "เรามีความแม่นยำ 86% เมื่อใช้วิธีการเฮิวริสติก เมื่อเปลี่ยนไปใช้เครือข่ายประสาทเทียม ความแม่นยำก็เพิ่มขึ้นเป็น 98%"

เลเยอร์ที่ซ่อนอยู่

#fundamentals

เลเยอร์ในเครือข่ายประสาทเทียมระหว่างเลเยอร์อินพุต (ฟีเจอร์) กับเลเยอร์เอาต์พุต (การคาดการณ์) แต่ละชั้นที่ซ่อนอยู่ประกอบด้วยเซลล์ประสาทอย่างน้อย 1 เซลล์ ตัวอย่างเช่น เครือข่ายประสาทต่อไปนี้มีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ โดยเลเยอร์แรกมีเซลล์ประสาท 3 เซลล์ และเลเยอร์ที่ 2 มีเซลล์ประสาท 2 เซลล์

4 เลเยอร์ เลเยอร์แรกคือเลเยอร์อินพุตที่มีองค์ประกอบ 2 รายการ เลเยอร์ที่ 2 เป็นเลเยอร์ที่ซ่อนอยู่ซึ่งมีนิวรอน 3 ตัว ชั้นที่ 3 เป็นชั้นที่ซ่อนอยู่ซึ่งมีเซลล์ประสาท 2 เซลล์ เลเยอร์ที่ 4 คือเลเยอร์เอาต์พุต แต่ละองค์ประกอบมีขอบ 3 เส้น ซึ่งแต่ละเส้นจะชี้ไปยังเซลล์ประสาทที่แตกต่างกันในชั้นที่ 2 เซลล์ประสาทแต่ละเซลล์ในชั้นที่ 2 จะมีขอบ 2 เส้น โดยแต่ละเส้นจะชี้ไปยังเซลล์ประสาทอื่นในชั้นที่ 3 เซลล์ประสาทแต่ละเซลล์ในชั้นที่ 3 จะมีขอบ 1 เส้น ซึ่งแต่ละเส้นจะชี้ไปยังชั้นเอาต์พุต

โครงข่ายประสาทแบบลึกมีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 เลเยอร์ ตัวอย่างเช่น ภาพก่อนหน้าคือเครือข่ายประสาทเทียม (Deep Neural Network) เนื่องจากโมเดลมีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์

ดูข้อมูลเพิ่มเติมได้ที่โครงข่ายประสาท: โหนดและเลเยอร์ที่ซ่อนอยู่ในบทแนะนำเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

การจัดกลุ่มตามลําดับชั้น

#clustering

หมวดหมู่อัลกอริทึมการจัดกลุ่มที่สร้างลําดับชั้นของคลัสเตอร์ การจัดกลุ่มตามลําดับชั้นเหมาะสําหรับข้อมูลลําดับชั้น เช่น การจัดหมวดหมู่ทางพฤกษศาสตร์ อัลกอริทึมการจัดกลุ่มตามลําดับชั้นมี 2 ประเภท ได้แก่

  • การคลัสเตอร์แบบรวมกลุ่มจะกำหนดตัวอย่างทั้งหมดไปยังคลัสเตอร์ของตัวเองก่อน จากนั้นจะผสานคลัสเตอร์ที่ใกล้เคียงที่สุดซ้ำๆ เพื่อสร้างต้นไม้ตามลําดับชั้น
  • คลัสเตอร์แบบแยกจะจัดกลุ่มตัวอย่างทั้งหมดเป็นคลัสเตอร์เดียวก่อน จากนั้นจึงแบ่งคลัสเตอร์ออกเป็นต้นไม้ตามลําดับชั้นซ้ำๆ

ตรงข้ามกับการจัดกลุ่มตามจุดศูนย์กลางมวล

ดูข้อมูลเพิ่มเติมเกี่ยวกับอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม

การปีนเขา

อัลกอริทึมสำหรับการปรับปรุงแบบซ้ำ ("เดินขึ้นเนิน") โมเดล ML จนกว่าโมเดลจะหยุดปรับปรุง ("ถึงยอดเนิน") รูปแบบทั่วไปของอัลกอริทึมมีดังนี้

  1. สร้างโมเดลเริ่มต้น
  2. สร้างโมเดลผู้สมัครใหม่โดยปรับเปลี่ยนวิธีการฝึกหรือปรับแต่งเล็กน้อย ซึ่งอาจเกี่ยวข้องกับชุดข้อมูลการฝึกหรือไฮเปอร์พารามิเตอร์ที่ต่างกันเล็กน้อย
  3. ประเมินรูปแบบผู้สมัครใหม่ แล้วดําเนินการอย่างใดอย่างหนึ่งต่อไปนี้
    • หากโมเดลที่คาดหวังมีประสิทธิภาพดีกว่าโมเดลเริ่มต้น โมเดลที่คาดหวังนั้นจะกลายเป็นโมเดลเริ่มต้นใหม่ ในกรณีนี้ ให้ทำขั้นตอนที่ 1, 2 และ 3 ซ้ำ
    • หากไม่มีโมเดลใดมีประสิทธิภาพดีกว่าโมเดลเริ่มต้น แสดงว่าคุณได้บรรลุเป้าหมายแล้วและควรหยุดทำซ้ำ

ดูคำแนะนำเกี่ยวกับการปรับแต่งไฮเปอร์พารามิเตอร์ได้ที่คู่มือการปรับแต่งการเรียนรู้เชิงลึก ดูคำแนะนำเกี่ยวกับการสร้างฟีเจอร์ได้ที่ข้อบังคับของข้อมูลในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

บานพับขาด

ตระกูลฟังก์ชันการสูญเสียสําหรับการจัดประเภทที่ออกแบบมาเพื่อค้นหาขอบเขตการตัดสินให้อยู่ห่างจากตัวอย่างการฝึกแต่ละรายการมากที่สุด ด้วยเหตุนี้จึงเพิ่มระยะห่างระหว่างตัวอย่างกับขอบเขตให้มากที่สุด KSVM ใช้การสูญเสียแบบ hinge (หรือฟังก์ชันที่เกี่ยวข้อง เช่น การสูญเสียแบบ hinge ยกกำลัง 2) สําหรับการจัดประเภทแบบไบนารี ฟังก์ชันการสูญเสียแบบ Hinge จะกําหนดดังนี้

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

โดยที่ y คือป้ายกำกับจริง ซึ่งอาจเป็น -1 หรือ +1 และ y' คือเอาต์พุตดิบของโมเดลการจัดประเภท

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ดังนั้น ผังความสูญเสียของ hinge เทียบกับ (y * y') จะมีลักษณะดังนี้

ผังพิกัดคาร์ทีเซียนซึ่งประกอบด้วยส่วนของเส้น 2 เส้นที่เชื่อมต่อกัน ส่วนของเส้นแรกเริ่มต้นที่ (-3, 4) และสิ้นสุดที่ (1, 0) ส่วนเส้นที่ 2 เริ่มต้นที่ (1, 0) และต่อเนื่องไปอย่างไม่มีที่สิ้นสุดด้วยความชัน 0

อคติจากข้อมูลที่ผ่านมา

#fairness

อคติประเภทหนึ่งที่พบได้ในโลกและได้เข้ามาอยู่ในชุดข้อมูล ความลำเอียงเหล่านี้มีแนวโน้มที่จะแสดงภาพเหมารวมทางวัฒนธรรมที่มีอยู่ ความไม่เท่าเทียมทางข้อมูลประชากร และอคติต่อกลุ่มทางสังคมบางกลุ่ม

ตัวอย่างเช่น พิจารณาโมเดลการจัดประเภทที่คาดการณ์ว่าผู้สมัครสินเชื่อจะผิดนัดชำระหนี้หรือไม่ ซึ่งได้รับการฝึกจากข้อมูลการผิดนัดชำระหนี้สินเชื่อย้อนหลังในช่วงปี 1980 จากธนาคารท้องถิ่นในชุมชน 2 แห่ง หากผู้สมัครที่ผ่านมาจากชุมชน ก มีแนวโน้มที่จะผิดนัดชำระหนี้มากกว่าผู้สมัครจากชุมชน ข 6 เท่า โมเดลอาจเรียนรู้อคติที่ผ่านมาซึ่งส่งผลให้โมเดลมีแนวโน้มที่จะอนุมัติสินเชื่อในชุมชน ก น้อยลง แม้ว่าเงื่อนไขที่ผ่านมาซึ่งส่งผลให้ชุมชนดังกล่าวมีอัตราหนี้เสียสูงกว่าจะไม่มีความเกี่ยวข้องอีกต่อไป

ดูข้อมูลเพิ่มเติมได้ในความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ข้อมูลกลุ่มควบคุม

ตัวอย่างที่ไม่ได้ตั้งใจนำมาใช้ ("เก็บไว้") ระหว่างการฝึก ชุดข้อมูลที่ใช้ตรวจสอบและชุดข้อมูลทดสอบเป็นตัวอย่างของข้อมูลทดสอบ ข้อมูลทดสอบช่วยประเมินความสามารถของโมเดลในการทํานายข้อมูลอื่นๆ นอกเหนือจากข้อมูลที่ใช้ในการฝึก ค่าการสูญเสียในชุดทดสอบจะให้ค่าประมาณการสูญเสียในชุดข้อมูลที่ไม่เคยเห็นได้ดีกว่าค่าการสูญเสียในชุดฝึก

ผู้จัด

#TensorFlow
#GoogleCloud

เมื่อฝึกโมเดล ML ในชิปเร่งความเร็ว (GPU หรือ TPU) ส่วนของระบบที่ควบคุมทั้ง 2 รายการต่อไปนี้

  • ขั้นตอนโดยรวมของโค้ด
  • การสกัดและการเปลี่ยนรูปแบบไปป์ไลน์อินพุต

โดยปกติแล้ว โฮสต์จะทำงานบน CPU ไม่ใช่ชิปเร่งความเร็ว ส่วนอุปกรณ์จะจัดการเทนเซอร์ในชิปเร่งความเร็ว

การประเมินโดยเจ้าหน้าที่

#language
#generativeAI

กระบวนการที่ผู้คนตัดสินคุณภาพของเอาต์พุตของโมเดล ML เช่น การให้ผู้ที่พูดได้ 2 ภาษาตัดสินคุณภาพของโมเดลการแปลด้วย ML การประเมินโดยเจ้าหน้าที่มีประโยชน์อย่างยิ่งในการพิจารณาโมเดลที่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว

ตรงข้ามกับการประเมินอัตโนมัติ และการประเมินโดยเครื่องมือประเมินอัตโนมัติ

มนุษย์ในวงรอบ (HITL)

#generativeAI

สำนวนที่มีคำจำกัดความแบบหลวมๆ ซึ่งอาจหมายถึงอย่างใดอย่างหนึ่งต่อไปนี้

  • นโยบายในการมองหาข้อบกพร่องหรือข้อสงสัยเกี่ยวกับเอาต์พุต Generative AI ตัวอย่างเช่น มนุษย์ที่เขียนอภิธานศัพท์ ML นี้ต่างทึ่งกับสิ่งที่โมเดลภาษาขนาดใหญ่ทําได้ แต่ก็ตระหนักถึงข้อผิดพลาดที่โมเดลภาษาขนาดใหญ่ทํา
  • กลยุทธ์หรือระบบที่ช่วยให้ผู้ใช้ช่วยกำหนด ประเมิน และปรับแต่งลักษณะการทํางานของโมเดล การทำให้มนุษย์ทราบข้อมูลอยู่เสมอจะช่วยให้ AI ได้รับประโยชน์จากทั้งปัญญาประดิษฐ์และปัญญาของมนุษย์ ตัวอย่างเช่น ระบบที่ AI สร้างขึ้นโค้ดซึ่งวิศวกรซอฟต์แวร์จะตรวจสอบเป็นระบบที่มีมนุษย์เข้ามาเกี่ยวข้อง

ไฮเปอร์พารามิเตอร์

#fundamentals

ตัวแปรที่คุณหรือบริการการปรับแต่งไฮเปอร์พารามิเตอร์ ปรับในระหว่างการเรียกใช้การฝึกโมเดลอย่างต่อเนื่อง ตัวอย่างเช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์ คุณสามารถตั้งค่าอัตราการเรียนรู้เป็น 0.01 ก่อนเซสชันการฝึกอบรม 1 รายการ หากพิจารณาแล้วว่า 0.01 สูงเกินไป คุณอาจตั้งอัตราการเรียนรู้เป็น 0.003 สำหรับเซสชันการฝึกอบรมถัดไป

ในทางตรงกันข้าม พารามิเตอร์คือน้ำหนักและค่ากําหนดต่างๆ ที่โมเดลเรียนรู้ระหว่างการฝึก

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: ตัวแปรพหุนามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ไฮเปอร์เพลน

ขอบเขตที่แบ่งพื้นที่ออกเป็น 2 พื้นที่ย่อย เช่น เส้นเป็นไฮเปอร์ระนาบใน 2 มิติ และระนาบเป็นไฮเปอร์ระนาบใน 3 มิติ ในแมชชีนเลิร์นนิง โดยทั่วไปแล้ว ฮิปเพอร์เพลนคือขอบเขตที่แยกพื้นที่สูงมิติ Kernel Support Vector Machine ใช้ Hyperplane เพื่อแยกคลาสเชิงบวกออกจากคลาสเชิงลบ ซึ่งมักจะอยู่ในพื้นที่มิติสูง

I

i.i.d.

ตัวย่อของ การแจกแจงแบบอิสระและเหมือนกัน

การรู้จำรูปภาพ

#image

กระบวนการจัดประเภทวัตถุ ลวดลาย หรือแนวคิดในรูปภาพ การจดจํารูปภาพเรียกอีกอย่างว่าการจัดประเภทรูปภาพ

ดูข้อมูลเพิ่มเติมได้ที่ML Practicum: Image Classification

ดูข้อมูลเพิ่มเติมได้ที่หลักสูตร ML Practicum: การแยกประเภทรูปภาพ

ชุดข้อมูลที่ไม่สมดุล

คำพ้องความหมายของชุดข้อมูลที่มีกลุ่มไม่สมดุล

อคติโดยไม่รู้ตัว

#fairness

การเชื่อมโยงหรือคาดเดาโดยอัตโนมัติตามรูปแบบและความทรงจำในใจ อคติที่ไม่ตั้งใจอาจส่งผลต่อสิ่งต่อไปนี้

  • วิธีเก็บรวบรวมและจัดประเภทข้อมูล
  • การออกแบบและการพัฒนาระบบแมชชีนเลิร์นนิง

เช่น เมื่อสร้างตัวแยกประเภทเพื่อระบุรูปภาพงานแต่งงาน วิศวกรอาจใช้ชุดสีขาวในรูปภาพเป็นฟีเจอร์ อย่างไรก็ตาม ชุดแต่งงานสีขาวเป็นธรรมเนียมเฉพาะในบางยุคและบางวัฒนธรรมเท่านั้น

โปรดดูอคติยืนยันความคิดตัวเองด้วย

การระบุ

รูปแบบย่อของการประมาณค่า

ความไม่เข้ากันได้ของเมตริกความยุติธรรม

#fairness

แนวคิดที่ว่าแนวคิดบางอย่างเกี่ยวกับความเป็นธรรมนั้นใช้ร่วมกันไม่ได้และไม่สามารถบรรลุพร้อมกัน ด้วยเหตุนี้ จึงไม่มีเมตริกที่เป็นสากลเพียงเมตริกเดียวสำหรับวัดความเป็นธรรมซึ่งนําไปใช้กับปัญหา ML ทั้งหมดได้

แม้ว่าเรื่องนี้อาจฟังดูท้อแท้ แต่การที่เมตริกความยุติธรรมใช้ร่วมกันไม่ได้ไม่ได้หมายความว่าความพยายามด้านความยุติธรรมจะไร้ผล แต่แนะนําว่าต้องกําหนดความยุติธรรมตามบริบทสําหรับปัญหา ML หนึ่งๆ โดยมีเป้าหมายเพื่อป้องกันอันตรายที่เฉพาะเจาะจงสําหรับ Use Case นั้นๆ

ดูการอภิปรายหัวข้อนี้อย่างละเอียดได้ที่ "On the (im)possibility of fairness"

การเรียนรู้ในบริบท

#language
#generativeAI

คำพ้องความหมายของ Few-Shot Prompting

กระจายอย่างอิสระและเหมือนกัน (i.i.d)

#fundamentals

ข้อมูลที่ดึงมาจากการแจกแจงที่ไม่เปลี่ยนแปลง และค่าแต่ละค่าที่ดึงมานั้นไม่ขึ้นอยู่กับค่าที่ดึงมาก่อนหน้านี้ ข้อมูลอิสระเป็นก๊าซอุดมคติของการเรียนรู้ของเครื่อง ซึ่งเป็นโครงสร้างทางคณิตศาสตร์ที่มีประโยชน์แต่แทบไม่เคยพบในชีวิตจริง เช่น การแจกแจงผู้เข้าชมหน้าเว็บอาจเป็นแบบ i.i.d. ในช่วงเวลาสั้นๆ กล่าวคือ การแจกแจงไม่เปลี่ยนแปลงในช่วงเวลาสั้นๆ นั้น และโดยทั่วไปการเข้าชมของบุคคลหนึ่งจะไม่เกี่ยวข้องกับการเข้าชมของบุคคลอื่น อย่างไรก็ตาม หากคุณขยายกรอบเวลาดังกล่าว ความแตกต่างตามฤดูกาลของผู้เข้าชมหน้าเว็บอาจปรากฏขึ้น

โปรดดูความไม่เป็นเชิงเส้นด้วย

ความยุติธรรมต่อบุคคล

#fairness

เมตริกความยุติธรรมที่ตรวจสอบว่าระบบจัดประเภทบุคคลที่คล้ายกันคล้ายกันหรือไม่ ตัวอย่างเช่น Brobdingnagian Academy อาจต้องการสร้างความเป็นธรรมให้กับบุคคล โดยตรวจสอบว่านักเรียน 2 คนที่มีคะแนนเหมือนกันและคะแนนสอบมาตรฐานมีแนวโน้มที่จะได้รับการยอมรับเท่าๆ กัน

โปรดทราบว่าความยุติธรรมของแต่ละบุคคลขึ้นอยู่กับวิธีที่คุณกำหนด "ความคล้ายคลึง" ทั้งหมด (ในกรณีนี้คือคะแนนและคะแนนสอบ) และคุณอาจเสี่ยงที่จะทำให้เกิดปัญหาความยุติธรรมใหม่ๆ หากเมตริกความคล้ายคลึงของคุณขาดข้อมูลสำคัญ (เช่น ความยากของหลักสูตรของนักเรียน)

ดูการพูดคุยเรื่องความยุติธรรมของแต่ละบุคคลอย่างละเอียดได้ที่"ความยุติธรรมผ่านความรู้"

การให้เหตุผล

#fundamentals

ในแมชชีนเลิร์นนิง กระบวนการทำนายโดยใช้โมเดลที่ผ่านการฝึกกับตัวอย่างที่ไม่มีป้ายกำกับ

ข้อมูลอนุมานมีความหมายที่แตกต่างออกไปในสถิติ ดูรายละเอียดได้ในบทความ บทความใน Wikipedia เกี่ยวกับการอนุมานทางสถิติ

ดูการเรียนรู้ที่มีการควบคุมดูแลในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับ ML เพื่อดูบทบาทของการอนุมานในระบบการเรียนรู้ที่มีการควบคุมดูแล

เส้นทางการอนุมาน

#df

ในแผนผังการตัดสินใจ ระหว่างการอนุมาน เส้นทางที่ตัวอย่างหนึ่งๆ ใช้ในการไปยังรูทไปยังเงื่อนไขอื่นๆ จะสิ้นสุดที่ใบ เช่น ในแผนผังการตัดสินใจต่อไปนี้ ศรที่หนาขึ้นแสดงเส้นทางการอนุมานสําหรับตัวอย่างที่มีค่าฟีเจอร์ดังต่อไปนี้

  • x = 7
  • y = 12
  • z = -3

เส้นทางการอนุมานในภาพประกอบต่อไปนี้จะผ่านเงื่อนไข 3 รายการก่อนที่จะไปถึงใบไม้ (Zeta)

แผนภูมิการตัดสินใจที่มีเงื่อนไข 4 รายการและใบ 5 ใบ
          เงื่อนไขรูทคือ (x > 0) เนื่องจากคำตอบคือ &quot;ใช่&quot; เส้นทางการอนุมานจึงเดินทางจากรูทไปยังเงื่อนไขถัดไป (y > 0)
          เนื่องจากคำตอบคือ &quot;ใช่&quot; เส้นทางการอนุมานจึงไปยังเงื่อนไขถัดไป (z > 0) เนื่องจากคำตอบคือ &quot;ไม่&quot; เส้นทางการอนุมานจึงไปยังโหนดปลายซึ่งเป็นใบไม้ (Zeta)

ลูกศรหนา 3 เส้นแสดงเส้นทางการอนุมาน

ดูข้อมูลเพิ่มเติมเกี่ยวกับแผนผังการตัดสินใจในหลักสูตรป่าการตัดสินใจ

ข้อมูลที่ได้รับ

#df

ในป่าการตัดสินใจ ความแตกต่างระหว่างเอนโทรปีของโหนดกับผลรวมของเอนโทรปีของโหนดย่อยที่มีน้ำหนัก (ตามจำนวนตัวอย่าง) เอนโทรปีของโหนดคือเอนโทรปีของตัวอย่างในโหนดนั้น

ตัวอย่างเช่น ลองพิจารณาค่าเอนโทรปีต่อไปนี้

  • เอนโทรปีของโหนดหลัก = 0.6
  • เอนโทรปีของโหนดย่อย 1 รายการที่มีตัวอย่างที่เกี่ยวข้อง 16 รายการ = 0.2
  • เอนโทรปีของโหนดย่อยอีกโหนดหนึ่งซึ่งมีตัวอย่างที่เกี่ยวข้อง 24 รายการ = 0.1

ดังนั้น 40% ของตัวอย่างจะอยู่ในโหนดย่อยโหนดหนึ่ง และ 60% จะอยู่ในโหนดย่อยอีกโหนดหนึ่ง ดังนั้น

  • ผลรวมของเอนโทรปีถ่วงน้ำหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

ดังนั้น ข้อมูลที่ได้รับคือ

  • อัตราข้อมูลที่ได้รับ = เอนโทรปีของโหนดหลัก - ผลรวมของเอนโทรปีที่ถ่วงน้ำหนักของโหนดย่อย
  • ข้อมูลที่ได้รับ = 0.6 - 0.14 = 0.46

ตัวแยกส่วนใหญ่พยายามสร้างเงื่อนไขเพื่อเพิ่มปริมาณข้อมูลที่ได้สูงสุด

อคติต่อกลุ่มใน

#fairness

การลำเอียงเข้าข้างกลุ่มหรือลักษณะของตนเอง หากผู้ทดสอบหรือผู้ให้คะแนนเป็นเพื่อน ครอบครัว หรือเพื่อนร่วมงานของนักพัฒนาซอฟต์แวร์แมชชีนเลิร์นนิง ความลำเอียงในกลุ่มอาจทำให้การทดสอบผลิตภัณฑ์หรือชุดข้อมูลเป็นโมฆะ

ความลำเอียงภายในกลุ่มเป็นรูปแบบของความลำเอียงในการระบุแหล่งที่มาของกลุ่ม โปรดดูอคติความเหมือนกันของกลุ่มนอกด้วย

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เครื่องมือสร้างอินพุต

กลไกในการโหลดข้อมูลลงในโครงข่ายระบบประสาทเทียม

อินพุตเจนเนอเรเตอร์อาจถือได้ว่าเป็นคอมโพเนนต์ที่รับผิดชอบการประมวลผลข้อมูลดิบเป็นเทนเซอร์ ซึ่งจะวนซ้ำเพื่อสร้างกลุ่มสําหรับการฝึกอบรม การประเมิน และการอนุมาน

เลเยอร์อินพุต

#fundamentals

เลเยอร์ของเครือข่ายประสาทเทียมที่มีเวกเตอร์องค์ประกอบ กล่าวคือ เลเยอร์อินพุตจะแสดงตัวอย่างสําหรับการฝึกหรือการอนุมาน ตัวอย่างเช่น เลเยอร์อินพุตในเครือข่ายประสาทต่อไปนี้ประกอบด้วยฟีเจอร์ 2 รายการ

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

เงื่อนไขในชุด

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขที่ทดสอบการมีอยู่ของรายการหนึ่งๆ ในชุดรายการ ตัวอย่างเช่น เงื่อนไขในชุดคำสั่งต่อไปนี้

  house-style in [tudor, colonial, cape]

ในระหว่างการอนุมาน หากค่าของฟีเจอร์สไตล์บ้านคือ tudor หรือ colonial หรือ cape เงื่อนไขนี้จะประเมินเป็น "ใช่" หากค่าของฟีเจอร์สไตล์บ้านเป็นค่าอื่น (เช่น ranch) เงื่อนไขนี้จะประเมินผลเป็น "ไม่"

โดยทั่วไปแล้ว เงื่อนไขในชุดมักจะทําให้ต้นไม้การตัดสินใจมีประสิทธิภาพมากกว่าเงื่อนไขที่ทดสอบฟีเจอร์ที่เข้ารหัสแบบฮอตเวิร์ก

อินสแตนซ์

คำพ้องความหมายของ example

การปรับแต่งวิธีการ

#generativeAI

รูปแบบการปรับแต่งแบบละเอียดที่ช่วยปรับปรุงความสามารถของโมเดล Generative AI ในการทําตามคําสั่ง การปรับแต่งคำสั่งเกี่ยวข้องกับการฝึกโมเดลด้วยชุดพรอมต์คำสั่ง ซึ่งมักจะครอบคลุมงานต่างๆ มากมาย โมเดลที่ปรับตามคำสั่งที่ได้จึงมีแนวโน้มที่จะสร้างคำตอบที่เป็นประโยชน์สำหรับพรอมต์แบบไม่ใช้ตัวอย่างในงานต่างๆ

เปรียบเทียบและเปรียบเทียบกับ

ความสามารถในการตีความ

#fundamentals

ความสามารถในการอธิบายหรือนำเสนอเหตุผลของโมเดล ML โดยใช้คำศัพท์ที่มนุษย์เข้าใจได้

ตัวอย่างเช่น โมเดลการถดถอยเชิงเส้นส่วนใหญ่มีความหมายสูง (คุณเพียงต้องดูน้ำหนักที่ผ่านการฝึกสำหรับแต่ละฟีเจอร์) ป่าการตัดสินใจยังตีความได้สูงอีกด้วย อย่างไรก็ตาม บางรูปแบบต้องใช้การแสดงภาพที่ซับซ้อนเพื่อให้ตีความได้

คุณสามารถใช้เครื่องมือการตีความการเรียนรู้ (LIT)เพื่อตีความโมเดล ML

ความสอดคล้องกันระหว่างผู้ประเมิน

การวัดความถี่ที่ผู้ประเมินที่เป็นมนุษย์เห็นด้วยเมื่อทำภารกิจ หากผู้ประเมินไม่เห็นด้วย คุณอาจต้องปรับปรุงวิธีการของงาน บางครั้งอาจเรียกว่าความสอดคล้องกันของผู้กำกับดูแลหรือความน่าเชื่อถือของผู้ประเมิน ดูข้อมูลเพิ่มเติมได้ที่ค่า Kappa ของ Cohen ซึ่งเป็นวิธีการวัดความสอดคล้องกันระหว่างผู้ประเมินที่ได้รับความนิยมมากที่สุดวิธีหนึ่ง

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงหมวดหมู่: ปัญหาที่พบได้ทั่วไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Intersection over Union (IoU)

#image

ส่วนตัดกันของ 2 ชุดหารด้วยผลรวมของชุด ในภารกิจการตรวจจับภาพด้วยแมชชีนเลิร์นนิง ระบบจะใช้ IoU เพื่อวัดความแม่นยำของกรอบขอบเขตที่คาดการณ์ไว้ของโมเดลเทียบกับกรอบขอบเขตข้อมูลจากการสังเกตการณ์โดยตรง ในกรณีนี้ IoU สำหรับกล่อง 2 กล่องคืออัตราส่วนระหว่างพื้นที่ที่ทับซ้อนกันและพื้นที่ทั้งหมด และค่าของ IoU จะอยู่ระหว่าง 0 (กรอบขอบเขตที่คาดการณ์ไว้และกรอบขอบเขตข้อมูลจากการสังเกตการณ์โดยตรงไม่ทับซ้อนกัน) ถึง 1 (กรอบขอบเขตที่คาดการณ์ไว้และกรอบขอบเขตข้อมูลจากการสังเกตการณ์โดยตรงมีพิกัดตำแหน่งเดียวกันทุกประการ)

ตัวอย่างเช่น ในรูปภาพด้านล่าง

  • กรอบขอบเขตที่คาดการณ์ (พิกัดที่กําหนดขอบเขตตำแหน่งที่โมเดลคาดการณ์ว่าโต๊ะข้างเตียงในภาพวาดอยู่) จะแสดงเป็นเส้นขอบสีม่วง
  • กล่องขอบเขตของข้อมูลจริง (พิกัดที่กําหนดขอบเขตตําแหน่งของโต๊ะกลางในภาพวาด) จะวาดเส้นขอบสีเขียว

ภาพวาดห้องนอนของวินเซนต์ แวน โก๊ะในอาร์ล ซึ่งมีกล่องขอบเขต 2 กล่องที่แตกต่างกันรอบๆ โต๊ะข้างเตียงข้างเตียง กรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรง (สีเขียว) ล้อมรอบโต๊ะข้างเตียงอย่างสมบูรณ์ กล่องขอบเขตที่คาดการณ์ (สีม่วง) เลื่อนลงและไปทางขวา 50% ของกล่องขอบเขตที่เป็นความจริง ซึ่งล้อมรอบส่วนสี่เหลี่ยมจัตุรัสด้านขวาล่างของโต๊ะกลางคืน แต่ไม่ได้ล้อมรอบส่วนที่เหลือของโต๊ะ

ในที่นี้ จุดตัดของกรอบขอบเขตสำหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างซ้าย) คือ 1 และสหภาพของกรอบขอบเขตสำหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างขวา) คือ 7 ดังนั้น IoU จึงเป็น \(\frac{1}{7}\)

รูปภาพเดียวกันกับด้านบน แต่แบ่งกรอบล้อมรอบแต่ละกรอบออกเป็น 4 ส่วน โดยรวมมีทั้งหมด 7 จตุภาค เนื่องจากจตุภาคด้านขวาล่างของกรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรงและจตุภาคด้านซ้ายบนของกรอบล้อมรอบที่คาดการณ์ไว้ซ้อนทับกัน ส่วนทับซ้อนนี้ (ไฮไลต์ด้วยสีเขียว) แสดงถึงจุดตัดและมีพื้นที่เท่ากับ 1 รูปภาพเดียวกันกับด้านบน แต่แบ่งกรอบล้อมรอบแต่ละกรอบออกเป็น 4 ส่วน โดยรวมมีทั้งหมด 7 จตุภาค เนื่องจากจตุภาคด้านขวาล่างของกรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรงและจตุภาคด้านซ้ายบนของกรอบล้อมรอบที่คาดการณ์ไว้ซ้อนทับกัน
          พื้นที่ภายในทั้งหมดที่ล้อมรอบด้วยกรอบขอบทั้ง 2 รูป (ไฮไลต์ด้วยสีเขียว) แสดงถึงสหพันธ์ และมีเนื้อที่ 7

IoU

ตัวย่อของ intersection over union

เมทริกซ์รายการ

#recsystems

ในระบบการแนะนำ นั่นคือ เวกเตอร์การฝังที่สร้างขึ้นจากการแยกองค์ประกอบของเมทริกซ์ซึ่งเก็บสัญญาณแฝงเกี่ยวกับรายการแต่ละรายการ แต่ละแถวของเมทริกซ์รายการจะมีค่าขององค์ประกอบแฝงเดียวสําหรับสินค้าทั้งหมด ตัวอย่างเช่น ลองพิจารณาระบบการแนะนำภาพยนตร์ แต่ละคอลัมน์ในเมทริกซ์รายการแสดงภาพยนตร์ 1 เรื่อง สัญญาณแฝงอาจแสดงถึงประเภท หรืออาจเป็นสัญญาณที่ตีความได้ยากกว่าซึ่งเกี่ยวข้องกับการโต้ตอบที่ซับซ้อนระหว่างประเภท ดารา ยุคสมัยของภาพยนตร์ หรือปัจจัยอื่นๆ

เมทริกซ์รายการมีจํานวนคอลัมน์เท่ากับเมทริกซ์เป้าหมายที่จะแยกตัวประกอบ ตัวอย่างเช่น ระบบแนะนำภาพยนตร์ที่ประเมินภาพยนตร์ 10,000 เรื่อง จะมีเมทริกซ์รายการ 10,000 คอลัมน์

รายการ

#recsystems

ในระบบการแนะนำ หมายถึงเอนทิตีที่ระบบแนะนำ เช่น วิดีโอคือสินค้าที่ร้านวิดีโอแนะนำ ส่วนหนังสือคือสินค้าที่ร้านหนังสือแนะนำ

การทำซ้ำ

#fundamentals

การอัปเดตพารามิเตอร์ของโมเดลครั้งเดียว ซึ่งก็คือน้ำหนักและความลำเอียงของโมเดลในระหว่างการฝึก ขนาดกลุ่มจะกําหนดจํานวนตัวอย่างที่โมเดลจะประมวลผลในการวนซ้ำ 1 ครั้ง เช่น หากขนาดกลุ่มเป็น 20 โมเดลจะประมวลผลตัวอย่าง 20 รายการก่อนปรับพารามิเตอร์

เมื่อฝึกโครงข่ายระบบประสาทเทียม การทำซ้ำ 1 ครั้งจะเกี่ยวข้องกับ 2 ขั้นตอนต่อไปนี้

  1. การส่งต่อเพื่อประเมินการสูญเสียในบATCH เดียว
  2. การส่งผ่านย้อนกลับ (Backpropagation) เพื่อปรับพารามิเตอร์ของโมเดลตามการสูญเสียและอัตราการเรียนรู้

J

JAX

ไลบรารีการประมวลผลอาร์เรย์ที่รวม XLA (Accelerated Linear Algebra) เข้ากับอนุพันธ์อัตโนมัติเพื่อใช้การประมวลผลตัวเลขที่มีประสิทธิภาพสูง JAX มี API ที่เรียบง่ายและมีประสิทธิภาพสําหรับการเขียนโค้ดตัวเลขที่เร่งความเร็วด้วยการเปลี่ยนรูปแบบที่คอมโพสิเบิล JAX มีฟีเจอร์ต่างๆ เช่น

  • grad (การแยกแยะอัตโนมัติ)
  • jit (การคอมไพล์แบบทันท่วงที)
  • vmap (การเปลี่ยนเป็นเวกเตอร์หรือการจัดกลุ่มอัตโนมัติ)
  • pmap (การขนานการทำงาน)

JAX เป็นภาษาสําหรับแสดงและประกอบการเปลี่ยนรูปแบบของโค้ดเชิงตัวเลข ซึ่งคล้ายกับไลบรารี NumPy ของ Python แต่มีขอบเขตกว้างกว่ามาก (อันที่จริงแล้ว ไลบรารี .numpy ใน JAX มีฟังก์ชันการทำงานเทียบเท่า แต่เขียนใหม่ทั้งหมดจากไลบรารี NumPy ของ Python)

JAX เหมาะอย่างยิ่งในการเร่งงานแมชชีนเลิร์นนิงจำนวนมากโดยเปลี่ยนรูปแบบโมเดลและข้อมูลให้เหมาะกับการทำงานแบบขนานใน GPU และชิปเร่งความเร็ว TPU

ไลบรารี Flax, Optax, Pax และอื่นๆ อีกมากมายสร้างขึ้นบนโครงสร้างพื้นฐาน JAX

K

Keras

Python Machine Learning API ที่ได้รับความนิยม Keras ทำงานบนเฟรมเวิร์กการเรียนรู้เชิงลึกหลายเฟรมเวิร์ก รวมถึง TensorFlow ซึ่งจะพร้อมใช้งานเป็น tf.keras

แมชชีนการเรียนรู้ด้วยเวกเตอร์สนับสนุนของเคิร์น (KSVM)

อัลกอริทึมการจัดประเภทที่พยายามเพิ่มระยะห่างระหว่างคลาสเชิงบวกและคลาสเชิงลบให้มากที่สุดโดยการแมปเวกเตอร์ข้อมูลอินพุตไปยังพื้นที่เชิงมิติที่สูงกว่า ตัวอย่างเช่น พิจารณาปัญหาการจัดประเภทที่ชุดข้อมูลอินพุตมีฟีเจอร์ 100 รายการ KSVM สามารถแมปองค์ประกอบเหล่านั้นภายในเป็นพื้นที่ 1 ล้านมิติข้อมูลเพื่อเพิ่มระยะห่างระหว่างคลาสเชิงบวกและเชิงลบให้มากที่สุด KSVM ใช้ฟังก์ชันการสูญเสียที่เรียกว่าการสูญเสียแบบ hinge

keypoints

#image

พิกัดขององค์ประกอบบางอย่างในรูปภาพ เช่น สำหรับโมเดลการจดจำรูปภาพที่แยกแยะพันธุ์ดอกไม้ จุดสังเกตอาจเป็นจุดศูนย์กลางของกลีบแต่ละกลีบ ลำต้น เกสร และอื่นๆ

การทดสอบไขว้แบบ k-fold

อัลกอริทึมสำหรับการคาดการณ์ความสามารถของโมเดลในการทั่วไปกับข้อมูลใหม่ k ใน k-fold หมายถึงจํานวนกลุ่มที่เท่าๆ กันซึ่งคุณแบ่งตัวอย่างของชุดข้อมูลออกเป็นกลุ่มๆ กล่าวคือ คุณจะฝึกและทดสอบโมเดล k ครั้ง การฝึกและทดสอบแต่ละรอบจะมีกลุ่มอื่นเป็นชุดทดสอบ และกลุ่มที่เหลือทั้งหมดจะเป็นชุดการฝึก หลังจากการฝึกและการทดสอบ k รอบแล้ว ให้คํานวณค่ามัธยฐานและค่าเบี่ยงเบนมาตรฐานของเมตริกการทดสอบที่เลือก

ตัวอย่างเช่น สมมติว่าชุดข้อมูลของคุณประกอบด้วยตัวอย่าง 120 รายการ สมมติต่อไปว่าคุณตัดสินใจที่จะตั้งค่า k เป็น 4 ดังนั้นหลังจากสับตัวอย่างแล้ว ให้แบ่งชุดข้อมูลออกเป็น 4 กลุ่มเท่าๆ กันโดยแต่ละกลุ่มมี 30 ตัวอย่าง แล้วทำการฝึกและทดสอบ 4 รอบ ดังนี้

ชุดข้อมูลที่แบ่งออกเป็นกลุ่มตัวอย่าง 4 กลุ่มเท่าๆ กัน ในรอบที่ 1 ระบบจะใช้ 3 กลุ่มแรกสำหรับการฝึกอบรมและกลุ่มสุดท้ายสำหรับทดสอบ ในรอบที่ 2 จะมีการใช้กลุ่มแรก 2 กลุ่มและกลุ่มสุดท้ายเพื่อการฝึกอบรม ส่วนกลุ่มที่ 3 จะใช้เพื่อทดสอบ ในรอบที่ 3 กลุ่มแรกและ 2 กลุ่มสุดท้ายจะใช้สำหรับการฝึกอบรม ส่วนกลุ่มที่ 2 จะใช้สำหรับทดสอบ
          ในรอบที่ 4 กลุ่มแรกจะใช้สําหรับการทดสอบ ส่วนกลุ่มสุดท้าย 3 กลุ่มจะใช้สําหรับการฝึก

เช่น ความคลาดเคลื่อนเฉลี่ยกำลังสอง (MSE) อาจเป็นแหล่งข้อมูลที่มีความหมายมากที่สุดสําหรับโมเดลการถดถอยเชิงเส้น คุณจึงจะพบค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของ MSE ใน 4 รอบ

K-means

#clustering

อัลกอริทึมการจัดกลุ่มยอดนิยมที่จัดกลุ่มตัวอย่างในการเรียนรู้แบบไม่ควบคุม โดยพื้นฐานแล้ว อัลกอริทึม K-means จะทําสิ่งต่อไปนี้

  • กำหนดจุดศูนย์กลาง k จุดที่ดีที่สุด (เรียกว่าจุดศูนย์กลางมวล) ซ้ำๆ
  • กําหนดตัวอย่างแต่ละรายการให้กับจุดศูนย์กลางที่ใกล้ที่สุด ตัวอย่างที่อยู่ใกล้กับจุดศูนย์กลางเดียวกันจะอยู่ในกลุ่มเดียวกัน

อัลกอริทึม K-Means จะเลือกตำแหน่งจุดศูนย์กลางเพื่อลดค่าสะสมของสี่เหลี่ยมจัตุรัสของระยะทางจากตัวอย่างแต่ละรายการไปยังจุดศูนย์กลางที่ใกล้ที่สุด

ตัวอย่างเช่น ลองดูผังความสูงของสุนัขเทียบกับความกว้างของสุนัขต่อไปนี้

ผังพิกัดคาร์ทีเซียนที่มีจุดข้อมูลหลายสิบจุด

หาก k=3 อัลกอริทึม K-means จะกำหนดจุดศูนย์กลาง 3 จุด ระบบจะกําหนดตัวอย่างแต่ละรายการให้กับจุดศูนย์กลางที่ใกล้ที่สุด ซึ่งจะให้กลุ่ม 3 กลุ่มดังนี้

ผังพิกัดคาร์ทีเซียนเดียวกับในภาพก่อนหน้า ยกเว้นว่ามีการเพิ่มจุดศูนย์กลาง 3 จุด
          ระบบจะจัดกลุ่มจุดข้อมูลก่อนหน้าออกเป็น 3 กลุ่มที่แยกกัน โดยแต่ละกลุ่มจะแสดงจุดข้อมูลที่ใกล้กับจุดศูนย์กลางหนึ่งๆ มากที่สุด

สมมติว่าผู้ผลิตต้องการกำหนดขนาดที่เหมาะสมสำหรับเสื้อสเวตเตอร์ขนาดเล็ก กลาง และใหญ่สำหรับสุนัข ศูนย์กลาง 3 จุดจะระบุความสูงและค่าเฉลี่ยความกว้างของสุนัขแต่ละตัวในคลัสเตอร์นั้น ดังนั้น ผู้ผลิตจึงควรกำหนดขนาดเสื้อสเวตเตอร์ตามจุดศูนย์กลางมวล 3 จุดดังกล่าว โปรดทราบว่าโดยปกติแล้ว จุดศูนย์กลางของคลัสเตอร์ไม่ใช่ตัวอย่างในคลัสเตอร์

ภาพประกอบก่อนหน้านี้แสดง K-Means สำหรับตัวอย่างที่มีเพียง 2 องค์ประกอบ (ความสูงและความกว้าง) โปรดทราบว่า K-Means สามารถจัดกลุ่มตัวอย่างจากฟีเจอร์ต่างๆ ได้

ค่ามัธยฐานแบบ K

#clustering

อัลกอริทึมการจัดกลุ่มที่เกี่ยวข้องกับ K-means อย่างใกล้ชิด ความแตกต่างที่เห็นได้ชัดระหว่าง 2 รูปแบบมีดังนี้

  • ใน k-means ระบบจะกำหนดจุดศูนย์กลางโดยการลดผลรวมของกำลังสองของระยะทางระหว่างจุดศูนย์กลางที่เป็นไปได้กับตัวอย่างแต่ละรายการ
  • ใน K-เมเดียน ระบบจะกำหนดจุดศูนย์กลางโดยการลดผลรวมของระยะทางระหว่างจุดศูนย์กลางที่เป็นไปได้กับตัวอย่างแต่ละรายการ

โปรดทราบว่าคำจำกัดความของระยะทางก็แตกต่างกันด้วย

  • K-means ใช้ระยะทางแบบยูคลิดจากจุดศูนย์กลางไปยังตัวอย่าง (ใน 2 มิติ ระยะทางแบบยูคลิดหมายถึงการใช้ทฤษฎีบทพีทาโกรัสเพื่อคํานวณด้านตรงข้ามมุมฉาก) เช่น ระยะทาง K-Means ระหว่าง (2,2) กับ (5,-2) จะเท่ากับ
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • ส่วนค่ามัธยฐาน k จะใช้ ระยะทางแมนฮัตตันจากจุดศูนย์กลางไปยังตัวอย่าง ระยะทางนี้คือผลรวมของค่า Delta สัมบูรณ์ในแต่ละมิติข้อมูล เช่น ระยะทางของเมเดียน k ระหว่าง (2,2) กับ (5,-2) จะเท่ากับ
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularization แบบ L0

#fundamentals

การถ่วงน้ำหนักประเภทหนึ่งที่ลงโทษจํานวนทั้งหมดของน้ำหนักที่ไม่ใช่ 0 ในโมเดล เช่น โมเดลที่มีน้ำหนักที่ไม่ใช่ 0 จำนวน 11 รายการจะได้รับค่าปรับมากกว่าโมเดลที่คล้ายกันซึ่งมีน้ำหนักที่ไม่ใช่ 0 จำนวน 10 รายการ

บางครั้งการถ่วงน้ำหนัก L0 เรียกว่าการถ่วงน้ำหนักตาม L0-norm

แพ้ L1

#fundamentals

ฟังก์ชันการสูญเสียที่คำนวณค่าสัมบูรณ์ของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น ต่อไปนี้คือการคํานวณการสูญเสีย L1 สําหรับกลุ่มตัวอย่าง 5 รายการ

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ของโมเดล ค่าสัมบูรณ์ของเดลต้า
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = แพ้ L1

ผลต่าง L1 ไวต่อค่าผิดปกติน้อยกว่าผลต่าง L2

ค่าเฉลี่ยความผิดพลาดสัมบูรณ์คือค่าเฉลี่ยของการสูญเสีย L1 ต่อตัวอย่าง

Regularization แบบ L1

#fundamentals

การทำให้สม่ำเสมอประเภทหนึ่งที่ลงโทษน้ำหนักตามสัดส่วนกับผลรวมของค่าสัมบูรณ์ของน้ำหนัก การปรับ L1 ช่วยเพิ่มน้ำหนักของฟีเจอร์ที่ไม่เกี่ยวข้องหรือเกี่ยวข้องเพียงเล็กน้อยเป็น 0 ระบบจะนําฟีเจอร์ที่มีน้ำหนัก 0 ออกจากโมเดล

ตรงข้ามกับ Regularization แบบ L2

อัตราสูญเสีย L2

#fundamentals

ฟังก์ชันการสูญเสียที่คำนวณผลคูณของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น นี่คือการคำนวณการสูญเสีย L2 สำหรับกลุ่มตัวอย่าง 5 รายการ

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ของโมเดล ตารางของเดลต้า
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = แพ้ L2

เนื่องจากการยกกำลัง 2 จะทำให้ความสูญเสีย L2 ขยายอิทธิพลของค่าผิดปกติ กล่าวคือ ผลลัพธ์ L2 จะตอบสนองต่อการคาดการณ์ที่ไม่ดีมากกว่าผลลัพธ์ L1 เช่น อัตราสูญเสีย L1 ของกลุ่มก่อนหน้าจะเป็น 8 ไม่ใช่ 16 โปรดทราบว่าค่าที่ผิดปกติรายการเดียวคิดเป็น 9 จาก 16

โมเดลการหาค่าสัมพัทธ์มักใช้การสูญเสีย L2 เป็นฟังก์ชันการสูญเสีย

ความคลาดเคลื่อนกำลังสองเฉลี่ยคือค่าเฉลี่ยของการสูญเสีย L2 ต่อตัวอย่าง ความสูญเสียแบบยกกำลังสองเป็นชื่อเรียกอีกอย่างของความสูญเสีย L2

Regularization แบบ L2

#fundamentals

การทำให้สม่ำเสมอประเภทหนึ่งที่ลงโทษน้ำหนักตามสัดส่วนกับผลรวมของค่ายกกำลังสองของน้ำหนัก การปรับ L2 ช่วยเพิ่มน้ำหนักของค่าผิดปกติ (ค่าบวกสูงหรือค่าลบต่ำ) ให้ใกล้กับ 0 แต่ไม่เท่ากับ 0 ฟีเจอร์ที่มีค่าใกล้เคียงกับ 0 จะยังคงอยู่ในโมเดล แต่จะไม่ส่งผลต่อการคาดการณ์ของโมเดลมากนัก

การปรับ L2 จะช่วยปรับปรุงการทั่วไปในโมเดลเชิงเส้นเสมอ

ตรงข้ามกับ Regularization แบบ L1

ป้ายกำกับ

#fundamentals

ในแมชชีนเลิร์นนิงที่ควบคุมดูแล ส่วนตัวอย่างที่เป็น "คำตอบ" หรือ "ผลลัพธ์"

ตัวอย่างที่ติดป้ายกำกับแต่ละรายการประกอบด้วยองค์ประกอบอย่างน้อย 1 รายการและป้ายกำกับ เช่น ในชุดข้อมูลการตรวจจับสแปม ป้ายกํากับอาจเป็น "สแปม" หรือ "ไม่ใช่สแปม" ในชุดข้อมูลปริมาณน้ำฝน ป้ายกํากับอาจเป็นปริมาณฝนที่ตกลงมาในช่วงระยะเวลาหนึ่ง

ตัวอย่างที่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่างที่มีป้ายกำกับ 3 รายการจากโมเดลการประเมินมูลค่าบ้าน โดยแต่ละรายการมีฟีเจอร์ 3 รายการและป้ายกำกับ 1 รายการ

จำนวนห้องนอน จำนวนห้องน้ำ อายุของบ้าน ราคาบ้าน (ป้ายกำกับ)
3 2 15 $345,000
2 1 72 $179,000
4 2 34 $392,000

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล รูปแบบจะฝึกจากตัวอย่างที่ติดป้ายกำกับและทำการคาดการณ์จากตัวอย่างที่ไม่มีป้ายกำกับ

เปรียบเทียบตัวอย่างที่มีป้ายกำกับกับตัวอย่างที่ไม่มีป้ายกำกับ

การเปิดเผยข้อมูลป้ายกํากับ

ข้อบกพร่องในการออกแบบโมเดลที่ฟีเจอร์เป็นพร็อกซีสําหรับป้ายกํากับ ตัวอย่างเช่น ลองพิจารณารูปแบบการจัดประเภทแบบ 2 กลุ่มซึ่งคาดการณ์ว่าผู้มีโอกาสเป็นลูกค้าจะซื้อผลิตภัณฑ์หนึ่งๆ หรือไม่ สมมติว่าฟีเจอร์หนึ่งของโมเดลคือบูลีนที่มีชื่อว่า SpokeToCustomerAgent สมมติเพิ่มเติมว่าตัวแทนลูกค้าจะได้รับการมอบหมายหลังจากผู้มีโอกาสเป็นลูกค้าซื้อผลิตภัณฑ์จริงๆ เท่านั้น ในระหว่างการฝึก โมเดลจะเรียนรู้การเชื่อมโยงระหว่าง SpokeToCustomerAgent กับป้ายกำกับอย่างรวดเร็ว

lambda

#fundamentals

คำพ้องความหมายของอัตราการจัดระเบียบ

Lambda เป็นคําที่ใช้งานมากเกินไป ในที่นี้เราจะมุ่งเน้นที่คำจำกัดความของคำนี้ในการปรับให้เป็นไปตามข้อกำหนด

LaMDA (โมเดลภาษาสำหรับแอปพลิเคชันด้านการโต้ตอบ หรือ Language Model for Dialog Applications)

#language

โมเดลภาษาขนาดใหญ่ที่อิงตาม Transformer ซึ่งพัฒนาโดย Google และได้รับการฝึกจากชุดข้อมูลการสนทนาขนาดใหญ่ที่สามารถสร้างคำตอบแบบการสนทนาที่สมจริง

LaMDA: เทคโนโลยีการสนทนาที่ก้าวล้ำให้ภาพรวม

จุดสังเกต

#image

คำพ้องความหมายของประเด็นสำคัญ

โมเดลภาษา

#language

โมเดลที่ประมาณความน่าจะเป็นของโทเค็นหรือลำดับโทเค็นที่ปรากฏในลำดับโทเค็นที่ยาวขึ้น

โมเดลภาษาขนาดใหญ่

#language

เป็นโมเดลภาษาที่มีพารามิเตอร์จํานวนมากเป็นอย่างน้อย หรือพูดให้เข้าใจง่ายคือ โมเดลภาษาที่อิงตาม Transformer เช่น Gemini หรือ GPT

พื้นที่เชิงซ้อน

#language

คำพ้องความหมายของพื้นที่การฝัง

เลเยอร์

#fundamentals

ชุดเซลล์ประสาทในโครงข่ายประสาทเทียม เลเยอร์ 3 ประเภทที่ใช้กันทั่วไปมีดังนี้

ตัวอย่างเช่น ภาพต่อไปนี้แสดงเครือข่ายประสาทที่มีเลเยอร์อินพุต 1 เลเยอร์ เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์

เครือข่ายประสาทที่มีชั้นอินพุต 1 ชั้น ชั้นซ่อน 2 ชั้น และชั้นเอาต์พุต 1 ชั้น เลเยอร์อินพุตประกอบด้วยองค์ประกอบ 2 อย่าง เลเยอร์ซ่อนแรกประกอบด้วยนิวรอน 3 ตัว และเลเยอร์ซ่อนที่สองประกอบด้วยนิวรอน 2 ตัว เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

ใน TensorFlow เลเยอร์ยังเป็นฟังก์ชัน Python ที่รับเทนเซอร์และตัวเลือกการกําหนดค่าเป็นอินพุต และสร้างเทนเซอร์อื่นๆ เป็นเอาต์พุต

Layers API (tf.layers)

#TensorFlow

TensorFlow API สำหรับการสร้างเครือข่ายประสาท ลึก โดยการประกอบเลเยอร์ Layers API ช่วยให้คุณสร้างเลเยอร์ประเภทต่างๆ ได้ เช่น

Layers API เป็นไปตามรูปแบบ API ของเลเยอร์ Keras กล่าวคือ นอกเหนือจากคำนำหน้าที่แตกต่างกันแล้ว ฟังก์ชันทั้งหมดใน Layers API จะมีชื่อและลายเซ็นเหมือนกับฟังก์ชันใน Keras Layers API

ใบไม้

#df

จุดสิ้นสุดใดก็ได้ในแผนภูมิการตัดสินใจ ลีฟจะไม่ทําการทดสอบ ต่างจากเงื่อนไข แต่ใบไม้เป็นค่าคาดการณ์ที่เป็นไปได้ ใบไม้ยังเป็นโหนดสิ้นสุดของเส้นทางการอนุมานด้วย

ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้มีใบ 3 ใบ

แผนผังการตัดสินใจที่มีเงื่อนไข 2 รายการซึ่งนําไปสู่ใบ 3 ใบ

เครื่องมือความสามารถในการตีความการเรียนรู้ (LIT)

เครื่องมือแสดงข้อมูลผ่านภาพและการทำความเข้าใจรูปแบบแบบอินเทอร์แอกทีฟ

คุณสามารถใช้ LIT แบบโอเพนซอร์สเพื่อตีความโมเดล หรือแสดงภาพข้อความ รูปภาพ และข้อมูลตาราง

อัตราการเรียนรู้

#fundamentals

จํานวนทศนิยมที่บอกอัลกอริทึม Gradient Descent ว่าควรปรับน้ำหนักและค่ากําหนดของแต่ละรอบอย่างไร เช่น อัตราการเรียนรู้ 0.3 จะปรับน้ำหนักและค่ากําหนดให้มีประสิทธิภาพมากกว่าอัตราการเรียนรู้ 0.1 ถึง 3 เท่า

อัตราการเรียนรู้เป็นไฮเปอร์พารามิเตอร์ที่สําคัญ หากคุณตั้งค่าอัตราการเรียนรู้ต่ำเกินไป การฝึกจะใช้เวลานานเกินไป หากตั้งค่าอัตราการเรียนรู้สูงเกินไป บ่อยครั้งที่การลดเชิงลาดจะประสบปัญหาในการบรรจบ

การถดถอยแบบกำลังสองน้อยที่สุด

โมเดลการถดถอยเชิงเส้นที่ผ่านการฝึกโดยการลดการสูญเสีย L2

ระยะ Levenshtein

#language
#metric

เมตริกระยะแก้ไขที่คำนวณการดำเนินการลบ แทรก และแทนที่น้อยที่สุดที่จำเป็นต่อการเปลี่ยนคำหนึ่งเป็นคำอื่น เช่น ระยะ Levenshtein ระหว่างคําว่า "heart" กับ "darts" มีค่าเป็น 3 เนื่องจากการแก้ไข 3 ครั้งต่อไปนี้เป็นการเปลี่ยนแปลงที่น้อยที่สุดในการเปลี่ยนคําหนึ่งเป็นคําอื่น

  1. heart → deart (แทนที่ "h" ด้วย "d")
  2. deart → dart (ลบ "e")
  3. dart → darts (แทรก "s")

โปรดทราบว่าลำดับก่อนหน้าไม่ใช่เส้นทางเดียวของการแก้ไข 3 ครั้ง

เชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่แสดงได้ด้วยการบวกและคูณเท่านั้น

ผังความสัมพันธ์เชิงเส้นคือเส้น

ตรงข้ามกับแบบไม่เชิงเส้น

รูปแบบเชิงเส้น

#fundamentals

โมเดลที่กําหนดน้ำหนัก 1 รายการต่อฟีเจอร์เพื่อทําการคาดการณ์ (รูปแบบเชิงเส้นยังมีความลำเอียงด้วย) ในทางตรงกันข้าม ความสัมพันธ์ระหว่างฟีเจอร์กับการคาดการณ์ในโมเดลเชิงลึกมักไม่เป็นเชิงเส้น

โดยทั่วไปแล้ว โมเดลเชิงเส้นจะฝึกได้ง่ายกว่าและตีความได้มากกว่าโมเดลเชิงลึก อย่างไรก็ตาม โมเดลเชิงลึกสามารถเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างฟีเจอร์

การถดถอยเชิงเส้นและการถดถอยเชิงโลจิสติกเป็นโมเดลเชิงเส้น 2 ประเภท

การถดถอยเชิงเส้น

#fundamentals

โมเดลแมชชีนเลิร์นนิงประเภทหนึ่งที่มีคุณสมบัติตรงตามทั้ง 2 ข้อต่อไปนี้

เปรียบเทียบการถดถอยเชิงเส้นกับการถดถอยแบบโลจิสติก นอกจากนี้ ให้เปรียบเทียบการถดถอยกับการจัดประเภท

LIT

ตัวย่อของเครื่องมือการตีความการเรียนรู้ (LIT) ซึ่งก่อนหน้านี้เรียกว่าเครื่องมือการตีความภาษา

LLM

#language
#generativeAI

ตัวย่อของโมเดลภาษาขนาดใหญ่

การประเมิน LLM (evals)

#language
#generativeAI

ชุดเมตริกและการเปรียบเทียบเพื่อประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) การประเมิน LLM ในระดับสูงมีดังนี้

  • ช่วยให้นักวิจัยระบุด้านที่ LLM จำเป็นต้องปรับปรุง
  • มีประโยชน์ในการเปรียบเทียบ LLM ต่างๆ และระบุ LLM ที่ดีที่สุดสําหรับงานหนึ่งๆ
  • ช่วยให้มั่นใจว่า LLM นั้นปลอดภัยและใช้งานได้อย่างมีจริยธรรม

การถดถอยแบบโลจิสติก

#fundamentals

โมเดลการถดถอยประเภทหนึ่งที่คาดการณ์ความน่าจะเป็น โมเดลการถดถอยเชิงโลจิสติกมีลักษณะดังนี้

  • ป้ายกํากับคือเชิงหมวดหมู่ คําว่า "การถดถอยเชิงโลจิสติก" มักหมายถึงการถดถอยเชิงโลจิสติกแบบไบนารี ซึ่งก็คือโมเดลที่คํานวณความน่าจะเป็นสําหรับป้ายกํากับที่มีค่าที่เป็นไปได้ 2 ค่า ตัวแปรที่พบไม่บ่อยนักคือการถดถอยเชิงเส้นโลจิสติกแบบหลายตัวแปร ซึ่งจะคํานวณความน่าจะเป็นของป้ายกํากับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า
  • ฟังก์ชันการสูญเสียระหว่างการฝึกคือ Log Loss (คุณสามารถวางหน่วยการสูญเสียข้อมูลบันทึกได้หลายหน่วยพร้อมกันสําหรับป้ายกํากับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า)
  • โมเดลนี้มีสถาปัตยกรรมแบบเชิงเส้น ไม่ใช่เครือข่ายประสาทเทียม อย่างไรก็ตาม ส่วนที่เหลือของคําจํากัดความนี้ยังมีผลกับโมเดลเชิงลึกที่คาดการณ์ความน่าจะเป็นสําหรับป้ายกํากับเชิงหมวดหมู่ด้วย

ตัวอย่างเช่น ลองพิจารณาโมเดลการถดถอยเชิงโลจิสติกส์ที่คำนวณความน่าจะเป็นที่อีเมลอินพุตจะเป็นสแปมหรือไม่สแปม ในระหว่างการอนุมาน สมมติว่าโมเดลคาดการณ์ 0.72 ดังนั้น รูปแบบจะประมาณค่าต่อไปนี้

  • โอกาสที่อีเมลจะเป็นสแปม 72%
  • มีโอกาส 28% ที่อีเมลไม่ใช่จดหมายขยะ

โมเดลการถดถอยเชิงเส้นใช้สถาปัตยกรรมแบบ 2 ขั้นตอนต่อไปนี้

  1. โมเดลจะสร้างการคาดการณ์ดิบ (y') โดยใช้ฟังก์ชันเชิงเส้นของฟีเจอร์อินพุต
  2. โดยแบบจําลองจะใช้การคาดการณ์ดิบเป็นอินพุตสําหรับฟังก์ชัน sigmoid ซึ่งจะแปลงการคาดการณ์ดิบเป็นค่าระหว่าง 0 ถึง 1

โมเดลการถดถอยแบบโลจิสติกจะคาดการณ์ตัวเลขเช่นเดียวกับโมเดลการถดถอยอื่นๆ อย่างไรก็ตาม โดยทั่วไปแล้วตัวเลขนี้จะเป็นส่วนหนึ่งของโมเดลการจัดประเภทแบบไบนารี ดังนี้

  • หากตัวเลขที่คาดการณ์มากกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสที่เป็นบวก
  • หากตัวเลขที่คาดการณ์ได้น้อยกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสเชิงลบ

ลอจิสติกส์

เวกเตอร์ของการคาดการณ์ดิบ (ไม่ใช่แบบมาตรฐาน) ที่โมเดลการจัดประเภทสร้างขึ้น ซึ่งปกติแล้วระบบจะส่งต่อไปยังฟังก์ชันการทำให้มาตรฐาน หากโมเดลกำลังแก้ปัญหาการจัดประเภทหลายคลาส โดยทั่วไปแล้ว ลอจิทจะกลายเป็นอินพุตของฟังก์ชันSoftmax จากนั้นฟังก์ชัน Softmax จะสร้างเวกเตอร์ของความน่าจะเป็น (ที่ปรับมาตรฐานแล้ว) ที่มีค่า 1 ค่าสําหรับแต่ละคลาสที่เป็นไปได้

การสูญหายของบันทึก

#fundamentals

ฟังก์ชันการสูญเสียที่ใช้ในการถดถอยเชิงเส้นโลจิสติกแบบไบนารี

อัตราส่วนแบบลอการิทึม

#fundamentals

ลอการิทึมของอัตราต่อรองของเหตุการณ์บางอย่าง

Long Short-Term Memory (LSTM)

#seq

เซลล์ประเภทหนึ่งในเครือข่ายประสาทเทียมแบบซ้ำที่ใช้ประมวลผลลำดับข้อมูลในแอปพลิเคชันต่างๆ เช่น การจดจำลายมือ การแปลด้วยคอมพิวเตอร์ และการใส่คำบรรยายแทนเสียงแทนเสียงในรูปภาพ LSTM ช่วยแก้ปัญหาการลดลงของอนุพันธ์ที่เกิดขึ้นเมื่อฝึก RNN เนื่องจากลําดับข้อมูลยาว โดยเก็บประวัติไว้ในสถานะหน่วยความจําภายในตามอินพุตและบริบทใหม่จากเซลล์ก่อนหน้าใน RNN

LoRA

#language
#generativeAI

ตัวย่อของ Low-Rank Adaptability

แพ้

#fundamentals

ในระหว่างการฝึกโมเดลที่มีการควบคุมดูแล ค่าที่วัดระยะห่างระหว่างการคาดการณ์ของโมเดลกับป้ายกำกับ

ฟังก์ชันการสูญเสียจะคํานวณการสูญเสีย

ผู้รวบรวมข้อมูลการสูญเสีย

อัลกอริทึมแมชชีนเลิร์นนิงประเภทหนึ่งที่ปรับปรุงประสิทธิภาพของโมเดลด้วยการรวมการคาดการณ์ของโมเดลหลายรายการเข้าด้วยกันและใช้การคาดการณ์เหล่านั้นเพื่อทำนายเพียงครั้งเดียว ด้วยเหตุนี้ เครื่องมือรวบรวมการสูญเสียจึงช่วยลดความแปรปรวนของการคาดการณ์และปรับปรุงความแม่นยำของการคาดการณ์ได้

เส้นโค้งการสูญเสีย

#fundamentals

ผังการสูญเสียตามจำนวนรอบการฝึก ผังต่อไปนี้แสดงเส้นโค้งการสูญเสียทั่วไป

กราฟคาร์ทีเซียนแสดงการสูญเสียเทียบกับจำนวนรอบการฝึก ซึ่งแสดงให้เห็นการสูญเสียที่ลดลงอย่างรวดเร็วในรอบแรกๆ ตามด้วยการลดลงอย่างช้าๆ และเส้นลาดชันที่ราบเรียบในช่วงรอบสุดท้าย

เส้นโค้งการสูญเสียช่วยให้คุณระบุได้ว่าเมื่อใดที่โมเดลกำลังเข้าใกล้หรือกำลังปรับให้พอดีมากเกินไป

เส้นโค้งการสูญเสียสามารถแสดงการสูญเสียประเภทต่อไปนี้ทั้งหมด

โปรดดูเส้นโค้งทั่วไปด้วย

ฟังก์ชันการสูญเสีย

#fundamentals

ในระหว่างการฝึกหรือทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่คำนวณการสูญเสียในกลุ่มตัวอย่าง ฟังก์ชันการสูญเสียจะแสดงผลลัพธ์การสูญเสียที่ต่ำลงสำหรับโมเดลที่ทําการคาดการณ์ได้ดี เมื่อเทียบกับโมเดลที่ทําการคาดการณ์ได้ไม่ดี

โดยทั่วไป เป้าหมายของการฝึกคือลดการสูญเสียที่ฟังก์ชันการสูญเสียแสดง

ฟังก์ชันการสูญเสียมีหลายประเภท เลือกฟังก์ชันการสูญเสียที่เหมาะสมสำหรับประเภทโมเดลที่คุณกําลังสร้าง เช่น

พื้นผิวการสูญเสีย

กราฟน้ำหนักเทียบกับน้ำหนักที่ลดลง การลดเชิงลาดมีจุดมุ่งหมายเพื่อค้นหาน้ำหนักที่ทำให้พื้นผิวการสูญเสียอยู่ในระดับต่ำสุดในพื้นที่

Low-Rank Adaptability (LoRA)

#language
#generativeAI

เทคนิคการใช้พารามิเตอร์อย่างมีประสิทธิภาพสําหรับการปรับแต่งแบบละเอียดที่จะ "ตรึง" น้ำหนักที่ผ่านการฝึกล่วงหน้าของโมเดล (เพื่อไม่ให้แก้ไขได้อีก) จากนั้นแทรกชุดน้ำหนักขนาดเล็กที่ฝึกได้ลงในโมเดล ชุดน้ำหนักที่ฝึกได้นี้ (หรือที่เรียกว่า "เมทริกซ์การอัปเดต") มีขนาดน้อยกว่าโมเดลฐานมาก จึงฝึกได้เร็วกว่ามาก

LoRA มีข้อดีดังต่อไปนี้

  • ปรับปรุงคุณภาพการคาดการณ์ของโมเดลสําหรับโดเมนที่มีการปรับแต่ง
  • ปรับแต่งได้เร็วกว่าเทคนิคที่ต้องปรับแต่งพารามิเตอร์ทั้งหมดของโมเดล
  • ลดต้นทุนการประมวลผลของการอนุมานด้วยการเปิดใช้การเรียกใช้โมเดลเฉพาะหลายรายการพร้อมกันซึ่งใช้โมเดลพื้นฐานเดียวกัน

LSTM

#seq

ตัวย่อของ Long Short-Term Memory

M

แมชชีนเลิร์นนิง

#fundamentals

โปรแกรมหรือระบบที่ฝึกโมเดลจากข้อมูลที่ป้อน โมเดลที่ผ่านการฝึกสามารถคาดการณ์ข้อมูลที่เป็นประโยชน์จากข้อมูลใหม่ (ไม่เคยเห็นมาก่อน) ซึ่งดึงมาจากการแจกแจงเดียวกันกับที่ใช้ฝึกโมเดล

แมชชีนเลิร์นนิงยังหมายถึงสาขาการศึกษาที่เกี่ยวข้องกับโปรแกรมหรือระบบเหล่านี้ด้วย

การแปลด้วยคอมพิวเตอร์

#generativeAI

การใช้ซอฟต์แวร์ (โดยทั่วไปคือโมเดลแมชชีนเลิร์นนิง) เพื่อแปลงข้อความจากภาษาหนึ่งไปเป็นอีกภาษาหนึ่ง เช่น จากอังกฤษเป็นญี่ปุ่น

คลาสที่มีเสียงข้างมาก

#fundamentals

ป้ายกำกับที่พบบ่อยกว่าในชุดข้อมูลที่ไม่สมดุลของคลาส ตัวอย่างเช่น หากชุดข้อมูลมีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงลบจะเป็นคลาสส่วนใหญ่

ตรงข้ามกับคลาสของชนกลุ่มน้อย

กระบวนการตัดสินใจแบบ Markov (MDP)

#rl

กราฟที่แสดงรูปแบบการตัดสินใจซึ่งใช้การตัดสินใจ (หรือการดําเนินการ) เพื่อไปยังลําดับสถานะโดยสมมติว่าสมบัติ Markov มีผล ในการเรียนรู้ด้วยการทำซ้ำ การเปลี่ยนสถานะเหล่านี้จะแสดงผลรางวัลที่เป็นตัวเลข

พร็อพเพอร์ตี้ Markov

#rl

พร็อพเพอร์ตี้ของสภาพแวดล้อมบางรายการ ซึ่งการเปลี่ยนสถานะจะกำหนดโดยข้อมูลโดยนัยในสถานะปัจจุบันและการดำเนินการของเอเจนต์

โมเดลภาษาที่มีการปกปิด

#language

โมเดลภาษาที่คาดการณ์ความน่าจะเป็นของโทเค็นที่เป็นไปได้ที่จะเติมช่องว่างในลำดับ ตัวอย่างเช่น รูปแบบภาษาที่มีการปกปิดสามารถคํานวณความน่าจะเป็นสําหรับคําที่เป็นไปได้เพื่อแทนที่ขีดล่างในประโยคต่อไปนี้

____ ในหมวกกลับมาแล้ว

โดยปกติแล้ว เอกสารประกอบจะใช้สตริง "MASK" แทนขีดล่าง เช่น

"MASK" ในหมวกกลับมาแล้ว

โมเดลภาษาที่มีการปกปิดสมัยใหม่ส่วนใหญ่เป็นแบบแบบ 2 ทิศทาง

matplotlib

ไลบรารีผัง 2 มิติแบบโอเพนซอร์สของ Python matplotlib ช่วยให้คุณแสดงภาพด้านต่างๆ ของแมชชีนเลิร์นนิง

การแยกตัวประกอบเมทริกซ์

#recsystems

ในคณิตศาสตร์ กลไกในการค้นหาเมทริกซ์ที่มีผลคูณจุดใกล้เคียงกับเมทริกซ์เป้าหมาย

ในระบบการแนะนำ มักมีการจัดเก็บการให้คะแนนของผู้ใช้สำหรับรายการไว้ในเมทริกซ์เป้าหมาย ตัวอย่างเช่น ตารางเป้าหมายสําหรับระบบการแนะนําภาพยนตร์อาจมีลักษณะดังนี้ โดยจํานวนเต็มบวกคือคะแนนของผู้ใช้ และ 0 หมายความว่าผู้ใช้ไม่ได้ให้คะแนนภาพยนตร์

  คาสซาบลางกา The Philadelphia Story แบล็ค แพนเธอร์ (Black Panther) Wonder Woman Pulp Fiction
ผู้ใช้ 1 5.0 3.0 0.0 2.0 0.0
ผู้ใช้ 2 4.0 0.0 0.0 1.0 5.0
ผู้ใช้ 3 3.0 1.0 4.0 5.0 0.0

ระบบการแนะนำภาพยนตร์มีเป้าหมายเพื่อคาดคะเนคะแนนของผู้ใช้สำหรับภาพยนตร์ที่ไม่มีการจัดประเภท เช่น ผู้ใช้ 1 จะชอบ Black Panther ไหม

แนวทางหนึ่งสำหรับระบบการแนะนำคือการใช้การแยกแยะเมทริกซ์เพื่อสร้างเมทริกซ์ 2 รายการต่อไปนี้

ตัวอย่างเช่น การใช้การแยกแยะเมทริกซ์กับผู้ใช้ 3 รายและสินค้า 5 รายการอาจให้ผลลัพธ์เป็นเมทริกซ์ผู้ใช้และเมทริกซ์สินค้าดังต่อไปนี้

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

ผลคูณจุดของเมทริกซ์ผู้ใช้และเมทริกซ์รายการจะให้เมทริกซ์การแนะนำที่มีทั้งคะแนนเดิมของผู้ใช้และค่าคาดการณ์สำหรับภาพยนตร์ที่ผู้ใช้แต่ละรายยังไม่ได้ดู ตัวอย่างเช่น คะแนนของผู้ใช้ 1 สำหรับ Casablanca คือ 5.0 ผลคูณจุดที่สอดคล้องกับเซลล์นั้นในเมทริกซ์คําแนะนําควรอยู่ในช่วงประมาณ 5.0 ซึ่งก็คือ

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

ที่สำคัญกว่านั้นคือ ผู้ใช้ 1 จะชอบ Black Panther ไหม ผลคูณจุดที่สอดคล้องกับแถวแรกและคอลัมน์ที่ 3 ให้คะแนนที่คาดการณ์ไว้ 4.3

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

โดยทั่วไปแล้ว การแยกตัวประกอบเมทริกซ์จะให้เมทริกซ์ผู้ใช้และเมทริกซ์รายการที่รวมกันแล้วมีความกะทัดรัดกว่าเมทริกซ์เป้าหมายอย่างมาก

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ (MAE)

การสูญเสียเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย L1 คํานวณค่าเฉลี่ยความผิดพลาดสัมบูรณ์ดังนี้

  1. คำนวณการสูญเสีย L1 ของกลุ่ม
  2. หารความสูญเสีย L1 ด้วยจํานวนตัวอย่างในชุด

ตัวอย่างเช่น ลองพิจารณาการคำนวณการสูญเสีย L1 ในตัวอย่าง 5 รายการต่อไปนี้

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ของโมเดล การสูญเสีย (ความแตกต่างระหว่างค่าจริงกับค่าที่คาดการณ์)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = แพ้ L1

ดังนั้น ผลลัพธ์ของ L1 คือ 8 และจำนวนตัวอย่างคือ 5 ดังนั้น ค่าเฉลี่ยความผิดพลาดสัมบูรณ์คือ

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

เปรียบเทียบค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์กับความคลาดเคลื่อนเฉลี่ยกำลังสอง และค่าเฉลี่ยความคลาดเคลื่อนกำลังสองของราก

ความแม่นยำเฉลี่ยของค่าเฉลี่ยที่ k (mAP@k)

#language
#generativeAI

ค่าเฉลี่ยทางสถิติของคะแนนความแม่นยำเฉลี่ยที่ k ทั้งหมดในชุดข้อมูลที่ใช้ตรวจสอบ การใช้ความแม่นยำเฉลี่ยที่ k อย่างหนึ่งคือเพื่อตัดสินคุณภาพของคําแนะนําที่ระบบคําแนะนําสร้างขึ้น

แม้ว่าวลี "ค่าเฉลี่ยถ่วงน้ำหนัก" จะฟังดูซ้ำซ้อน แต่ชื่อเมตริกก็เหมาะสม ท้ายที่สุดแล้ว เมตริกนี้จะหาค่ามัธยฐานของความแม่นยําเฉลี่ยที่ k หลายค่า

ความคลาดเคลื่อนเฉลี่ยกำลังสอง (MSE)

อัตราความสูญเสียเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย L2 คำนวณความคลาดเคลื่อนกำลังสองเฉลี่ยดังนี้

  1. คํานวณการสูญเสีย L2 สําหรับกลุ่ม
  2. หารความสูญเสีย L2 ด้วยจํานวนตัวอย่างในชุด

ตัวอย่างเช่น ลองพิจารณาการสูญเสียในตัวอย่าง 5 รายการต่อไปนี้

มูลค่าที่แท้จริง การคาดการณ์ของโมเดล แพ้ ผลต่างของค่ากำลังสอง
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = แพ้ L2

ดังนั้น ความคลาดเคลื่อนเฉลี่ยกำลังสองคือ

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

ความคลาดเคลื่อนเฉลี่ยกำลังสองเป็นเครื่องมือเพิ่มประสิทธิภาพยอดนิยมในการฝึก โดยเฉพาะสำหรับการถดถอยเชิงเส้น

เปรียบเทียบความคลาดเคลื่อนกำลังสองเฉลี่ยกับค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ และค่าเฉลี่ยความคลาดเคลื่อนกำลังสองของราก

TensorFlow Playground ใช้ Mean Squared Error เพื่อคํานวณค่าการสูญเสีย

Mesh

#TensorFlow
#GoogleCloud

ในโปรแกรมขนานของ ML เป็นคําที่เชื่อมโยงกับการกำหนดข้อมูลและรูปแบบให้กับชิป TPU รวมถึงการกำหนดวิธีแบ่งหรือทำซ้ำค่าเหล่านี้

Mesh เป็นคําที่มีความหมายหลายอย่าง ซึ่งอาจหมายถึงอย่างใดอย่างหนึ่งต่อไปนี้

  • เลย์เอาต์ของชิป TPU จริง
  • โครงสร้างเชิงตรรกะนามธรรมสำหรับการแมปข้อมูลและโมเดลไปยังชิป TPU

ไม่ว่าจะในกรณีใด ระบบจะระบุเมชเป็นรูปร่าง

การเรียนรู้เชิงเมตา

#language

แมชชีนเลิร์นนิงย่อยที่ค้นพบหรือปรับปรุงอัลกอริทึมการเรียนรู้ นอกจากนี้ ระบบการเรียนรู้เชิงเมตายังมุ่งฝึกโมเดลให้เรียนรู้งานใหม่ได้อย่างรวดเร็วจากข้อมูลเพียงเล็กน้อยหรือจากประสบการณ์ที่ได้รับจากงานก่อนหน้า โดยทั่วไปแล้ว อัลกอริทึมการเรียนรู้เชิงเมตาจะพยายามทำสิ่งต่อไปนี้

  • ปรับปรุงหรือเรียนรู้ฟีเจอร์ที่วิศวกรเขียนขึ้นเอง (เช่น ตัวเริ่มต้นหรือเครื่องมือเพิ่มประสิทธิภาพ)
  • ประหยัดพื้นที่เก็บข้อมูลและมีประสิทธิภาพในการประมวลผลมากขึ้น
  • ปรับปรุงการทั่วไป

การเรียนรู้เชิงเมตาเกี่ยวข้องกับการเรียนรู้แบบดูตัวอย่างน้อย

เมตริก

#TensorFlow

สถิติที่คุณสนใจ

วัตถุประสงค์คือเมตริกที่ระบบแมชชีนเลิร์นนิงพยายามเพิ่มประสิทธิภาพ

Metrics API (tf.metrics)

TensorFlow API สําหรับการประเมินโมเดล เช่น tf.metrics.accuracy จะกําหนดความถี่ที่การคาดการณ์ของโมเดลตรงกับป้ายกํากับ

มินิแบทช์

#fundamentals

ชุดย่อยขนาดเล็กที่เลือกแบบสุ่มของกลุ่มที่ประมวลผลในรอบเดียว ขนาดกลุ่มของมินิแบตช์มักจะอยู่ระหว่าง 10 ถึง 1,000 ตัวอย่าง

ตัวอย่างเช่น สมมติว่าชุดข้อมูลการฝึกทั้งหมด (กลุ่มเต็ม) ประกอบด้วยตัวอย่าง 1,000 รายการ สมมติว่าคุณตั้งค่าขนาดกลุ่มของมินิกลุ่มแต่ละกลุ่มเป็น 20 ดังนั้น การวนซ้ำแต่ละครั้งจะกำหนดการสูญเสียในตัวอย่าง 20 รายการแบบสุ่มจาก 1,000 รายการ จากนั้นจึงปรับน้ำหนักและความลำเอียงตามความเหมาะสม

การคํานวณการสูญเสียในมินิแบตช์มีประสิทธิภาพมากกว่าการสูญเสียในตัวอย่างทั้งหมดในแบตช์แบบเต็ม

การลดเชิงสุ่มแบบกลุ่มเล็กๆ

อัลกอริทึมการลดเชิงลาดที่ใช้กลุ่มย่อย กล่าวคือ ขั้นตอนวิธีการลดเชิงลาดแบบสุ่มเป็นกลุ่มเล็กๆ จะประมาณค่าลาดตามข้อมูลชุดย่อยเล็กๆ ของข้อมูลการฝึก การลดเชิงลาดแบบสุ่มแบบปกติใช้มินิแบทช์ขนาด 1

ความเสียหายแบบ Minimax

ฟังก์ชันการสูญเสียสําหรับGenerative Adversarial Network ซึ่งอิงตาม Cross-Entropy ระหว่างการแจกแจงข้อมูลที่สร้างและข้อมูลจริง

มีการสูญเสียแบบ Minimax ในบทความแรกเพื่ออธิบาย Generative Adversarial Network

คลาสสำหรับชนกลุ่มน้อย

#fundamentals

ป้ายกำกับที่พบน้อยกว่าในชุดข้อมูลที่เกิดความไม่สมดุลของคลาส เช่น หากชุดข้อมูลมีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงบวกจะเป็นคลาสส่วนน้อย

เปรียบเทียบกับคลาสส่วนใหญ่

ผู้เชี่ยวชาญหลากหลายสาขา

#language
#generativeAI

รูปแบบที่เพิ่มประสิทธิภาพของเครือข่ายประสาทเทียมโดยใช้เฉพาะชุดย่อยของพารามิเตอร์ (เรียกว่าผู้เชี่ยวชาญ) เพื่อประมวลผลโทเค็นอินพุตหรือตัวอย่างที่ระบุ เครือข่ายการกำหนดสิทธิ์จะกำหนดเส้นทางโทเค็นอินพุตหรือตัวอย่างแต่ละรายการไปยังผู้เชี่ยวชาญที่เหมาะสม

โปรดดูรายละเอียดในเอกสารต่อไปนี้

ML

ตัวย่อของแมชชีนเลิร์นนิง

MMIT

#language
#image
#generativeAI

ตัวย่อของ Multimodal Instruction-Tuned

MNIST

#image

ชุดข้อมูลสาธารณสมบัติที่ LeCun, Cortes และ Burges รวบรวมไว้ซึ่งมีรูปภาพ 60,000 ภาพ โดยแต่ละภาพแสดงวิธีที่มนุษย์เขียนตัวเลข 0-9 ด้วยตนเอง ระบบจะจัดเก็บรูปภาพแต่ละรูปเป็นอาร์เรย์จำนวนเต็มขนาด 28x28 โดยที่จำนวนเต็มแต่ละค่าจะเป็นค่าสีเทาระหว่าง 0 ถึง 255 (รวม)

MNIST เป็นชุดข้อมูล Canonical สําหรับแมชชีนเลิร์นนิง ซึ่งมักใช้ในการทดสอบแนวทางใหม่ๆ ของแมชชีนเลิร์นนิง โปรดดูรายละเอียดที่ ฐานข้อมูล MNIST ของตัวเลขที่เขียนด้วยมือ

รูปแบบ

#language

หมวดหมู่ข้อมูลระดับสูง เช่น ตัวเลข ข้อความ รูปภาพ วิดีโอ และเสียงเป็นรูปแบบที่แตกต่างกัน 5 รูปแบบ

รุ่น

#fundamentals

โดยทั่วไปแล้ว หมายถึงโครงสร้างทางคณิตศาสตร์ที่ประมวลผลข้อมูลอินพุตและแสดงผลลัพธ์ กล่าวอย่างละเอียดคือ โมเดลคือชุดพารามิเตอร์และโครงสร้างที่จําเป็นสําหรับให้ระบบทําการคาดการณ์ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะรับตัวอย่างเป็นอินพุตและอนุมานการคาดการณ์เป็นเอาต์พุต โมเดลแมชชีนเลิร์นนิงที่มีการควบคุมดูแลจะแตกต่างกันไปบ้าง เช่น

คุณสามารถบันทึก กู้คืน หรือทำสำเนาของรูปแบบได้

แมชชีนเลิร์นนิงแบบไม่ควบคุมดูแลยังสร้างโมเดลด้วย โดยปกติแล้วจะเป็นฟังก์ชันที่สามารถแมปตัวอย่างอินพุตกับคลัสเตอร์ที่เหมาะสมที่สุด

ความจุของโมเดล

ความซับซ้อนของปัญหาที่โมเดลสามารถเรียนรู้ ยิ่งปัญหาที่ซับซ้อนมากเท่าใด ความสามารถของโมเดลก็จะยิ่งสูงขึ้นเท่านั้น โดยปกติแล้ว ความสามารถของโมเดลจะเพิ่มขึ้นตามจำนวนพารามิเตอร์ของโมเดล ดูคำจำกัดความอย่างเป็นทางการของความสามารถในการจัดประเภทได้ที่มิติข้อมูล VC

การซ้อนโมเดล

#generativeAI

ระบบที่เลือกโมเดลที่เหมาะสมสําหรับการค้นหาการอนุมานที่เฉพาะเจาะจง

ลองจินตนาการถึงกลุ่มโมเดลที่มีตั้งแต่ขนาดใหญ่มาก (มีพารามิเตอร์จํานวนมาก) ไปจนถึงขนาดเล็กมาก (พารามิเตอร์จํานวนน้อยมาก) โมเดลขนาดใหญ่มากจะใช้ทรัพยากรการประมวลผลมากกว่าเมื่อถึงเวลาการอนุมานเมื่อเทียบกับโมเดลขนาดเล็ก อย่างไรก็ตาม โดยทั่วไปแล้วโมเดลขนาดใหญ่มากจะอนุมานคำขอที่ซับซ้อนได้มากกว่าโมเดลขนาดเล็ก การซ้อนโมเดลจะกําหนดความซับซ้อนของคําค้นหาการอนุมาน จากนั้นจะเลือกโมเดลที่เหมาะสมเพื่อดําเนินการอนุมาน แรงจูงใจหลักของการใช้โมเดลตามลำดับขั้นคือการลดต้นทุนการอนุมานโดยปกติแล้วระบบจะเลือกโมเดลขนาดเล็ก และเลือกโมเดลขนาดใหญ่สําหรับการค้นหาที่ซับซ้อนมากขึ้นเท่านั้น

ลองจินตนาการว่าโมเดลขนาดเล็กทํางานบนโทรศัพท์และโมเดลเวอร์ชันที่ใหญ่กว่าทํางานบนเซิร์ฟเวอร์ระยะไกล การซ้อนโมเดลที่ดีจะช่วยลดต้นทุนและเวลาในการตอบสนองโดยทำให้โมเดลขนาดเล็กจัดการคำของ่ายๆ ได้ และเรียกใช้เฉพาะโมเดลระยะไกลเพื่อจัดการคำขอที่ซับซ้อน

โปรดดูเราเตอร์จำลองด้วย

การประมวลผลแบบขนานของโมเดล

#language

วิธีปรับขนาดการฝึกหรือการทำนายที่วางส่วนต่างๆ ของโมเดลหนึ่งไว้ในอุปกรณ์ที่แตกต่างกัน การทำงานแบบขนานของโมเดลทำให้ใช้โมเดลที่มีขนาดใหญ่เกินกว่าที่จะใส่ลงในอุปกรณ์เครื่องเดียวได้

โดยทั่วไปแล้ว ระบบจะใช้การทำงานแบบขนานของโมเดลโดยทำดังนี้

  1. แยก (แบ่ง) โมเดลออกเป็นส่วนเล็กๆ
  2. กระจายการฝึกของชิ้นส่วนขนาดเล็กเหล่านั้นไปยังหลายโปรเซสเซอร์ โปรเซสเซอร์แต่ละตัวจะฝึกโมเดลส่วนของตัวเอง
  3. รวมผลลัพธ์เพื่อสร้างโมเดลเดียว

การทำงานแบบขนานของโมเดลจะทำให้การฝึกช้าลง

โปรดดูการขนานกันของข้อมูลด้วย

เราเตอร์จำลอง

#generativeAI

อัลกอริทึมที่กําหนดโมเดลที่เหมาะสมสําหรับการอนุมานในการจัดเรียงโมเดลตามลําดับชั้น โดยปกติแล้ว ตัวกำหนดเส้นทางโมเดลจะเป็นโมเดลแมชชีนเลิร์นนิงที่ค่อยๆ เรียนรู้วิธีเลือกโมเดลที่ดีที่สุดสําหรับอินพุตหนึ่งๆ อย่างไรก็ตาม ในบางครั้ง เครื่องมือเปลี่ยนเส้นทางโมเดลอาจเป็นอัลกอริทึมที่ไม่เกี่ยวข้องกับแมชชีนเลิร์นนิงและเรียบง่ายกว่า

การฝึกโมเดล

กระบวนการระบุรูปแบบที่ดีที่สุด

MOE

#language
#image
#generativeAI

ตัวย่อของ mixture of experts

สร้างกระแส

อัลกอริทึมการลดเชิงลาดที่มีความซับซ้อน ซึ่งขั้นตอนการเรียนรู้จะขึ้นอยู่กับอนุพันธ์ในขั้นตอนปัจจุบันเท่านั้น แต่ยังขึ้นอยู่กับอนุพันธ์ของขั้นตอนก่อนหน้าด้วย โมเมนตัมเกี่ยวข้องกับการคํานวณค่าเฉลี่ยเคลื่อนที่ถ่วงน้ำหนักแบบเอ็กซ์โพเนนเชียลของอนุพันธ์เมื่อเวลาผ่านไป ซึ่งคล้ายกับโมเมนตัมในฟิสิกส์ บางครั้งโมเมนตัมอาจป้องกันไม่ให้การเรียนรู้ติดอยู่ในจุดต่ำสุดในพื้นที่

MT

#generativeAI

ตัวย่อของการแปลด้วยคอมพิวเตอร์

การจัดประเภทแบบหลายคลาส

#fundamentals

ในการเรียนรู้แบบควบคุม ปัญหาการจัดประเภทซึ่งชุดข้อมูลมีป้ายกำกับคลาสมากกว่า 2 คลาส ตัวอย่างเช่น ป้ายกำกับในชุดข้อมูล Iris ต้องเป็นคลาสใดคลาสหนึ่งต่อไปนี้

  • Iris setosa
  • Iris virginica
  • Iris versicolor

โมเดลที่ฝึกในชุดข้อมูล Iris ซึ่งคาดการณ์ประเภท Iris จากตัวอย่างใหม่จะทําการจัดประเภทแบบหลายคลาส

ในทางตรงกันข้าม ปัญหาการจัดประเภทที่แยกแยะระหว่างคลาส 2 คลาสเท่านั้นคือโมเดลการจัดประเภทแบบไบนารี เช่น โมเดลอีเมลที่คาดการณ์ว่าเป็นจดหมายขยะหรือไม่ใช่จดหมายขยะเป็นโมเดลการจัดประเภทแบบไบนารี

ในปัญหาการคลัสเตอร์ การจัดประเภทแบบหลายคลาสหมายถึงคลัสเตอร์มากกว่า 2 คลัสเตอร์

การถดถอยแบบโลจิสติกหลายคลาส

การใช้การถดถอยเชิงโลจิสติกในปัญหาการจัดประเภทแบบหลายคลาส

การใส่ใจตนเองแบบหลายหัว

#language

ส่วนขยายของ Self-Attention ที่ใช้กลไก Self-Attention หลายครั้งสําหรับตําแหน่งแต่ละตําแหน่งในลําดับอินพุต

Transformer เปิดตัวการใส่ใจตนเองแบบ Multi-Head

ปรับแต่งคำสั่งแบบหลายรูปแบบ

#language

โมเดลปรับแต่งตามคำสั่งที่สามารถประมวลผลอินพุตได้นอกเหนือจากข้อความ เช่น รูปภาพ วิดีโอ และเสียง

โมเดลหลายรูปแบบ

#language

โมเดลที่มีอินพุตและ/หรือเอาต์พุตที่มีรูปแบบมากกว่า 1 รูปแบบ ตัวอย่างเช่น พิจารณาโมเดลที่ใช้ทั้งรูปภาพและคำบรรยายแทนเสียง (โมดาลิตี 2 รูปแบบ) เป็นฟีเจอร์ และแสดงผลคะแนนที่ระบุว่าคำบรรยายแทนเสียงมีความเหมาะสมกับรูปภาพเพียงใด ดังนั้น อินพุตของโมเดลนี้คือแบบหลายโมดัลและเอาต์พุตเป็นแบบโมดัลเดียว

การจัดประเภทแบบหลายตัวแปร

คำพ้องความหมายของการจัดประเภทแบบหลายคลาส

การถดถอยแบบหลายตัวแปร

คำพ้องความหมายของการถดถอยแบบโลจิสติกหลายคลาส

ทำงานหลายอย่างพร้อมกัน

เทคนิคแมชชีนเลิร์นนิงที่ฝึกโมเดลเดียวให้ทํางานหลายอย่าง

โมเดลแบบมัลติทาสก์สร้างขึ้นโดยการฝึกกับข้อมูลที่เหมาะกับงานแต่ละอย่าง วิธีนี้ช่วยให้โมเดลเรียนรู้ที่จะแชร์ข้อมูลในภารกิจต่างๆ ซึ่งช่วยให้โมเดลเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้น

โมเดลที่ฝึกสำหรับงานหลายอย่างมักจะมีความสามารถในการสร้างข้อมูลทั่วไปที่ดีขึ้น และจัดการข้อมูลประเภทต่างๆ ได้อย่างมีประสิทธิภาพมากขึ้น

N

กับดัก NaN

เมื่อตัวเลข 1 รายการในโมเดลกลายเป็น NaN ระหว่างการฝึก ซึ่งทําให้ตัวเลขอื่นๆ จำนวนมากหรือทั้งหมดในโมเดลกลายเป็น NaN ในท้ายที่สุด

NAN เป็นตัวย่อของไม่ใช่ตัวเลข

การประมวลผลภาษาธรรมชาติ

#language
ศาสตร์ด้านการสอนคอมพิวเตอร์ให้ประมวลผลสิ่งที่ผู้ใช้พูดหรือพิมพ์โดยใช้กฎทางภาษา การประมวลผลภาษาธรรมชาติสมัยใหม่เกือบทั้งหมดอาศัยการเรียนรู้ของเครื่อง

ความเข้าใจภาษาธรรมชาติ

#language

กลุ่มย่อยของการประมวลผลภาษาธรรมชาติซึ่งระบุความตั้งใจของสิ่งที่พูดหรือพิมพ์ การทำความเข้าใจภาษาธรรมชาติทำได้มากกว่าการประมวลผลภาษาธรรมชาติ โดยพิจารณาแง่มุมที่ซับซ้อนของภาษา เช่น บริบท การสนทนาเชิงประชด และความรู้สึก

คลาสเชิงลบ

#fundamentals

ในการจัดประเภทแบบไบนารี คลาสหนึ่งจะเรียกว่าบวก ส่วนอีกคลาสหนึ่งจะเรียกว่าลบ คลาสที่เป็นบวกคือสิ่งหรือเหตุการณ์ที่โมเดลทดสอบ และคลาสที่เป็นลบคือความเป็นไปได้อื่นๆ เช่น

  • คลาสเชิงลบในการทดสอบทางการแพทย์อาจเป็น "ไม่ใช่เนื้องอก"
  • คลาสเชิงลบในตัวจัดประเภทอีเมลอาจเป็น "ไม่ใช่สแปม"

ตรงข้ามกับคลาสที่เป็นบวก

การสุ่มตัวอย่างเชิงลบ

ตรงกับการสุ่มตัวอย่างผู้สมัคร

Neural Architecture Search (NAS)

เทคนิคการออกแบบสถาปัตยกรรมของเครือข่ายประสาทเทียมโดยอัตโนมัติ อัลกอริทึมของ NAS สามารถลดเวลาและทรัพยากรที่จําเป็นในการฝึกโครงข่ายประสาทได้

โดยปกติแล้ว NAS จะใช้สิ่งต่อไปนี้

  • ขอบเขตการค้นหา ซึ่งเป็นชุดสถาปัตยกรรมที่เป็นไปได้
  • ฟังก์ชันฟิตเนส ซึ่งเป็นการวัดประสิทธิภาพของสถาปัตยกรรมหนึ่งๆ ในงานที่เฉพาะเจาะจง

อัลกอริทึมของ NAS มักเริ่มต้นด้วยสถาปัตยกรรมที่เป็นไปได้ชุดเล็กๆ และค่อยๆ ขยายขอบเขตการค้นหาเมื่ออัลกอริทึมเรียนรู้เพิ่มเติมเกี่ยวกับสถาปัตยกรรมที่มีประสิทธิภาพ โดยปกติแล้วฟังก์ชันฟิตเนสจะอิงตามประสิทธิภาพของสถาปัตยกรรมในชุดการฝึก และโดยทั่วไปแล้วอัลกอริทึมจะได้รับการเทรนโดยใช้เทคนิคการเรียนรู้ด้วยการทำซ้ำ

อัลกอริทึม NAS พิสูจน์แล้วว่ามีประสิทธิภาพในการค้นหาสถาปัตยกรรมที่มีประสิทธิภาพสูงสําหรับงานต่างๆ เช่น การจัดประเภทรูปภาพ การจัดประเภทข้อความ และการแปลด้วยคอมพิวเตอร์

โครงข่ายระบบประสาทเทียม

#fundamentals

โมเดลที่มีเลเยอร์ที่ซ่อนอยู่อย่างน้อย 1 เลเยอร์ โครงข่ายประสาทแบบลึกเป็นโครงข่ายประสาทประเภทหนึ่งที่มีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 เลเยอร์ ตัวอย่างเช่น แผนภาพต่อไปนี้แสดงเครือข่ายประสาทเทียมที่มีชั้นที่ซ่อนอยู่ 2 ชั้น

เครือข่ายประสาทที่มีชั้นอินพุต ชั้นซ่อน 2 ชั้น และชั้นเอาต์พุต

เซลล์ประสาทแต่ละเซลล์ในเครือข่ายประสาทจะเชื่อมต่อกับโหนดทั้งหมดในชั้นถัดไป ตัวอย่างเช่น ในแผนภาพก่อนหน้า โปรดสังเกตว่าเซลล์ประสาททั้ง 3 เซลล์ในเลเยอร์ซ่อนแรกเชื่อมต่อกับเซลล์ประสาททั้ง 2 เซลล์ในเลเยอร์ซ่อนที่สองแยกกัน

บางครั้งเราเรียกโครงข่ายประสาทที่ใช้ในคอมพิวเตอร์ว่าโครงข่ายประสาทเทียมเพื่อแยกความแตกต่างจากโครงข่ายประสาทที่พบในสมองและระบบประสาทอื่นๆ

เครือข่ายประสาทบางประเภทสามารถเลียนแบบความสัมพันธ์ที่ไม่ใช่เชิงเส้นที่ซับซ้อนมากระหว่างฟีเจอร์ต่างๆ กับป้ายกำกับ

ดูข้อมูลเพิ่มเติมได้ที่โครงข่ายประสาทแบบ Convolutive และโครงข่ายประสาทแบบ Recurrent

เซลล์ประสาท

#fundamentals

ในแมชชีนเลิร์นนิง หมายถึงหน่วยที่แยกต่างหากภายในเลเยอร์ที่ซ่อนอยู่ของเครือข่ายประสาทเทียม เซลล์ประสาทแต่ละเซลล์จะทําการดําเนินการ 2 ขั้นตอนต่อไปนี้

  1. คํานวณผลรวมถ่วงน้ำหนักของค่าอินพุตที่คูณด้วยน้ำหนักที่สอดคล้องกัน
  2. ส่งผลรวมถ่วงน้ำหนักเป็นอินพุตให้กับฟังก์ชันการเปิดใช้งาน

เซลล์ประสาทในชั้นซ่อนแรกจะรับอินพุตจากค่าฟีเจอร์ในชั้นอินพุต เซลล์ประสาทในชั้นซ่อนใดๆ นอกเหนือจากชั้นแรกจะรับอินพุตจากเซลล์ประสาทในชั้นซ่อนก่อนหน้า เช่น เซลล์ประสาทในเลเยอร์ซ่อนที่สองจะรับอินพุตจากเซลล์ประสาทในเลเยอร์ซ่อนแรก

ภาพประกอบต่อไปนี้ไฮไลต์เซลล์ประสาท 2 เซลล์และอินพุตของเซลล์ประสาท

เครือข่ายประสาทที่มีชั้นอินพุต ชั้นซ่อน 2 ชั้น และชั้นเอาต์พุต มีไนรอน 2 ตัวที่ไฮไลต์อยู่ 1 ตัวในชั้นซ่อนแรกและอีก 1 ตัวในชั้นซ่อนที่สอง นิวรอนที่ไฮไลต์ในชั้นซ่อนแรกรับอินพุตจากทั้ง 2 ฟีเจอร์ในชั้นอินพุต เซลล์ประสาทที่ไฮไลต์ในชั้นซ่อนที่สองรับอินพุตจากเซลล์ประสาททั้ง 3 เซลล์ในชั้นซ่อนแรก

เซลล์ประสาทในโครงข่ายระบบประสาทเทียมจะเลียนแบบการทำงานของเซลล์ประสาทในสมองและส่วนอื่นๆ ของระบบประสาท

N-gram

#seq
#language

ลําดับคํา N รายการ เช่น truly madly เป็น 2-gram เนื่องจากลำดับคำมีความเกี่ยวข้อง madly truly จึงถือเป็น 2-gram ที่แตกต่างจาก truly madly

N ชื่อของ N-gram ประเภทนี้ ตัวอย่าง
2 Bigram หรือ 2-gram to go, go to, eat lunch, eat dinner
3 3-gram ate too much, three blind mice, the bell tolls
4 4-gram เดินเล่นในสวนสาธารณะ ฝุ่นในสายลม เด็กชายกินถั่วเลนทิล

โมเดลการทำความเข้าใจภาษาธรรมชาติจำนวนมากใช้ N-gram เพื่อคาดคะเนคำถัดไปที่ผู้ใช้จะพิมพ์หรือพูด เช่น สมมติว่าผู้ใช้พิมพ์ three blind โมเดล NLU ที่อิงตามไตรแกรมมีแนวโน้มที่จะคาดการณ์ว่าผู้ใช้จะพิมพ์คำว่า mice เป็นคำถัดไป

เปรียบเทียบ N-gram กับถุงคำ ซึ่งเป็นชุดคำที่ไม่มีลําดับ

NLP

#language

ตัวย่อของการประมวลผลภาษาธรรมชาติ

NLU

#language

ตัวย่อของความเข้าใจภาษาธรรมชาติ

โหนด (แผนภูมิการตัดสินใจ)

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขหรือใบ

แผนภูมิการตัดสินใจที่มีเงื่อนไข 2 รายการและใบ 3 ใบ

โหนด (โครงข่ายประสาทเทียม)

#fundamentals

เซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่

โหนด (กราฟ TensorFlow)

#TensorFlow

การดำเนินการในกราฟ TensorFlow

เสียงรบกวน

พูดอย่างกว้างๆ คือ สิ่งใดก็ตามที่ทำให้สัญญาณในชุดข้อมูลไม่ชัดเจน สัญญาณรบกวนอาจเกิดขึ้นในข้อมูลได้หลายวิธี เช่น

  • ผู้ให้คะแนนที่เป็นมนุษย์อาจติดป้ายกำกับผิดพลาด
  • มนุษย์และเครื่องมือบันทึกค่าองค์ประกอบไม่ถูกต้องหรือละเว้นค่าองค์ประกอบ

เงื่อนไขที่ไม่ใช่ไบนารี

#df

เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ ตัวอย่างเช่น เงื่อนไขที่ไม่ใช่แบบ 2 ค่าต่อไปนี้มีผลลัพธ์ที่เป็นไปได้ 3 รายการ

เงื่อนไข (number_of_legs = ?) ที่นําไปสู่ผลลัพธ์ที่เป็นไปได้ 3 รายการ ผลลัพธ์ 1 รายการ (number_of_legs = 8) นำไปสู่ใบไม้ที่มีชื่อแมงมุม ผลลัพธ์ที่ 2 (number_of_legs = 4) นำไปสู่ใบชื่อ dog ผลลัพธ์ที่ 3 (number_of_legs = 2) นำไปสู่ใบไม้ชื่อ penguin

ไม่ใช่แบบดั้งเดิม

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่ไม่สามารถแสดงได้โดยการบวกและการคูณเพียงอย่างเดียว ความสัมพันธ์แบบเชิงเส้นจะแสดงเป็นเส้นได้ ส่วนความสัมพันธ์แบบไม่เป็นเชิงเส้นจะแสดงเป็นเส้นไม่ได้ ตัวอย่างเช่น ลองพิจารณาโมเดล 2 รายการที่แต่ละโมเดลเชื่อมโยงฟีเจอร์เดียวกับป้ายกำกับเดียว โมเดลทางด้านซ้ายเป็นโมเดลเชิงเส้น ส่วนโมเดลทางด้านขวาเป็นโมเดลที่ไม่ใช่เชิงเส้น

ผัง 2 รายการ ผัง 1 ผังคือเส้น จึงเป็นความสัมพันธ์เชิงเส้น
          ผังอีกผังเป็นเส้นโค้ง แสดงว่าเป็นความสัมพันธ์ที่ไม่ใช่เชิงเส้น

อคติจากการไม่ตอบ

#fairness

ดูการเลือกแบบลำเอียง

ความไม่คงที่

#fundamentals

ฟีเจอร์ที่มีค่าเปลี่ยนแปลงไปตามมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักจะเป็นเวลา ตัวอย่างเช่น ลองดูตัวอย่างความไม่คงที่ต่อไปนี้

  • จำนวนชุดว่ายน้ำที่ขายในร้านค้าหนึ่งๆ จะแตกต่างกันไปตามฤดูกาล
  • จำนวนผลไม้ที่เก็บเกี่ยวในภูมิภาคหนึ่งๆ นั้นมีค่าเป็น 0 เกือบตลอดทั้งปี แต่มีปริมาณมากในช่วงระยะเวลาสั้นๆ
  • อุณหภูมิเฉลี่ยรายปีมีการเปลี่ยนแปลงเนื่องจากการเปลี่ยนแปลงสภาพภูมิอากาศ

ตรงข้ามกับความคงที่

ไม่มีคำตอบที่ถูกต้อง (NORA)

#language
#generativeAI

พรอมต์ที่มีคำตอบที่เหมาะสมหลายรายการ ตัวอย่างเช่น พรอมต์ต่อไปนี้ไม่มีคำตอบที่ถูกต้องเพียงคำตอบเดียว

เล่าเรื่องตลกเกี่ยวกับช้างให้ฟังหน่อย

การประเมินพรอมต์ที่ไม่มีคำตอบที่ถูกต้องอาจเป็นเรื่องยาก

NORA

#language
#generativeAI

ตัวย่อของคำตอบที่ถูกต้องไม่ได้มีเพียงคำตอบเดียว

การแปลงเป็นรูปแบบมาตรฐาน

#fundamentals

กล่าวโดยคร่าวๆ ก็คือ กระบวนการแปลงช่วงค่าจริงของตัวแปรเป็นช่วงค่ามาตรฐาน เช่น

  • -1 ถึง +1
  • 0 ถึง 1
  • คะแนนมาตรฐาน (ประมาณ -3 ถึง +3)

ตัวอย่างเช่น สมมติว่าช่วงค่าจริงของฟีเจอร์หนึ่งๆ คือ 800 ถึง 2,400 ในการปรับแต่งฟีเจอร์ คุณอาจทำให้ค่าจริงเป็นค่ามาตรฐานในขอบเขตมาตรฐาน เช่น -1 ถึง +1

การทำให้เป็นมาตรฐานเป็นงานที่พบได้ทั่วไปในการสร้างฟีเจอร์ โดยทั่วไปแล้ว โมเดลจะฝึกได้เร็วขึ้น (และให้การคาดการณ์ที่ดีขึ้น) เมื่อฟีเจอร์ตัวเลขทั้งหมดในเวกเตอร์ฟีเจอร์มีช่วงใกล้เคียงกัน

ดูรายละเอียดเพิ่มเติมได้ที่ข้อบังคับเกี่ยวกับข้อมูลตัวเลข (Numerical Data)ของหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูการปรับมาตรฐานคะแนน z ด้วย

การตรวจหาสิ่งใหม่

กระบวนการพิจารณาว่าตัวอย่างใหม่ (ที่ไม่คุ้นเคย) มาจากชุดข้อมูลเดียวกันกับชุดข้อมูลการฝึกอบรมหรือไม่ กล่าวคือ หลังจากการฝึกชุดข้อมูล การตรวจหาข้อมูลใหม่จะระบุว่าตัวอย่างใหม่ (ระหว่างการอนุมานหรือระหว่างการฝึกเพิ่มเติม) เป็นค่าผิดปกติหรือไม่

ตรงข้ามกับการตรวจหาค่าผิดปกติ

ข้อมูลตัวเลข

#fundamentals

ฟีเจอร์ที่แสดงเป็นจำนวนเต็มหรือจำนวนจริง เช่น โมเดลการประเมินมูลค่าบ้านอาจแสดงขนาดของบ้าน (เป็นตารางฟุตหรือตารางเมตร) เป็นข้อมูลตัวเลข การนำเสนอฟีเจอร์เป็นข้อมูลตัวเลขบ่งชี้ว่าค่าของฟีเจอร์มีความสัมพันธ์ทางคณิตศาสตร์กับป้ายกำกับ กล่าวคือ จํานวนตารางเมตรในบ้านอาจมีความสัมพันธ์ทางคณิตศาสตร์กับมูลค่าของบ้าน

ข้อมูลจำนวนเต็มบางรายการไม่ควรแสดงเป็นข้อมูลตัวเลข เช่น รหัสไปรษณีย์ในบางพื้นที่ของโลกเป็นจำนวนเต็ม แต่ไม่ควรแสดงรหัสไปรษณีย์ที่เป็นจำนวนเต็มเป็นข้อมูลตัวเลขในโมเดล นั่นเป็นเพราะรหัสไปรษณีย์ 20000 ไม่ได้มีประสิทธิภาพเป็น 2 เท่า (หรือครึ่งหนึ่ง) ของรหัสไปรษณีย์ 10000 นอกจากนี้ แม้ว่ารหัสไปรษณีย์ต่างๆ จะมีความเกี่ยวข้องกับมูลค่าอสังหาริมทรัพย์ที่แตกต่างกัน แต่เราไม่สามารถสรุปได้ว่ามูลค่าอสังหาริมทรัพย์ในรหัสไปรษณีย์ 20000 มีมูลค่าเป็น 2 เท่าของมูลค่าอสังหาริมทรัพย์ในรหัสไปรษณีย์ 10000 คุณควรแสดงรหัสไปรษณีย์เป็นข้อมูลเชิงหมวดหมู่แทน

บางครั้งเราจะเรียกฟีเจอร์ที่เป็นตัวเลขว่าฟีเจอร์ต่อเนื่อง

NumPy

ไลบรารีคณิตศาสตร์แบบโอเพนซอร์ส ที่ให้การดำเนินการอาร์เรย์ที่มีประสิทธิภาพใน Python pandas สร้างขึ้นจาก NumPy

O

วัตถุประสงค์

เมตริกที่อัลกอริทึมพยายามเพิ่มประสิทธิภาพ

ฟังก์ชันวัตถุประสงค์

สูตรทางคณิตศาสตร์หรือเมตริกที่โมเดลมีเป้าหมายเพื่อเพิ่มประสิทธิภาพ เช่น ฟังก์ชันวัตถุประสงค์สําหรับการประมาณเชิงเส้นมักจะเป็นความสูญเสียค่าเฉลี่ยสี่เหลี่ยมจัตุรัส ดังนั้น เมื่อฝึกโมเดลการถดถอยเชิงเส้น การฝึกจะมีเป้าหมายเพื่อลดค่าเฉลี่ยของผลต่างของค่าที่สังเกตได้กับค่าที่คาดการณ์ได้ (Mean Squared Loss)

ในบางกรณี เป้าหมายคือเพิ่มฟังก์ชันวัตถุประสงค์ให้มากที่สุด เช่น หากฟังก์ชันวัตถุประสงค์คือความถูกต้อง เป้าหมายคือเพื่อเพิ่มความแม่นยำสูงสุด

โปรดดูloss ด้วย

เงื่อนไขเอียง

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขที่เกี่ยวข้องกับฟีเจอร์มากกว่า 1 รายการ เช่น หากทั้งความสูงและความกว้างเป็นฟีเจอร์ เงื่อนไขต่อไปนี้จะเป็นเงื่อนไขเอียง

  height > width

ตรงข้ามกับเงื่อนไขที่สอดคล้องกับแกน

ออฟไลน์

#fundamentals

คำพ้องความหมายของ static

การอนุมานแบบออฟไลน์

#fundamentals

กระบวนการของโมเดลในการสร้างการคาดการณ์เป็นกลุ่ม แล้วแคช (บันทึก) การคาดการณ์เหล่านั้น จากนั้นแอปจะเข้าถึงการคาดการณ์ที่อิงตามข้อมูลที่มีอยู่จากแคชได้โดยไม่ต้องเรียกใช้โมเดลอีกครั้ง

ตัวอย่างเช่น พิจารณาโมเดลที่สร้างการพยากรณ์อากาศในพื้นที่ (การคาดการณ์) ทุก 4 ชั่วโมง หลังจากเรียกใช้แต่ละโมเดลแล้ว ระบบจะแคชการคาดการณ์สภาพอากาศในพื้นที่ทั้งหมด แอปสภาพอากาศจะดึงข้อมูลพยากรณ์อากาศจากแคช

การคํานวณผลลัพธ์แบบออฟไลน์เรียกอีกอย่างว่าการคํานวณผลลัพธ์แบบคงที่

ตรงข้ามกับการอนุมานออนไลน์

การเข้ารหัสแบบฮอตเดียว

#fundamentals

การนำเสนอข้อมูลเชิงหมวดหมู่เป็นเวกเตอร์โดยที่

  • องค์ประกอบหนึ่งตั้งค่าเป็น 1
  • ส่วนองค์ประกอบอื่นๆ ทั้งหมดจะตั้งค่าเป็น 0

โดยทั่วไปแล้ว การเข้ารหัสแบบฮอตเดียวจะใช้เพื่อแสดงสตริงหรือตัวระบุที่มีชุดค่าที่เป็นไปได้แบบจํากัด ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ Scandinavia มีค่าที่เป็นไปได้ 5 ค่า ดังนี้

  • "เดนมาร์ก"
  • "สวีเดน"
  • "นอร์เวย์"
  • "ฟินแลนด์"
  • "ไอซ์แลนด์"

การโค้ด One-Hot อาจแสดงค่า 5 ค่าแต่ละค่าดังนี้

country เวกเตอร์
"เดนมาร์ก" 1 0 0 0 0
"สวีเดน" 0 1 0 0 0
"นอร์เวย์" 0 0 1 0 0
"ฟินแลนด์" 0 0 0 1 0
"ไอซ์แลนด์" 0 0 0 0 1

การเข้ารหัสแบบฮอตเดียวช่วยให้โมเดลเรียนรู้การเชื่อมต่อต่างๆ ตามแต่ละประเทศทั้ง 5 ประเทศ

การนำเสนอฟีเจอร์เป็นข้อมูลตัวเลขเป็นทางเลือกแทนการเข้ารหัสแบบฮอตเดียว ขออภัย การแสดงประเทศสแกนดิเนเวียด้วยตัวเลขไม่ใช่ตัวเลือกที่ดี ตัวอย่างเช่น ลองพิจารณาการแสดงตัวเลขต่อไปนี้

  • "เดนมาร์ก" คือ 0
  • "สวีเดน" คือ 1
  • "นอร์เวย์" คือ 2
  • "ฟินแลนด์" คือ 3
  • "ไอซ์แลนด์" คือ 4

เมื่อใช้การเข้ารหัสตัวเลข โมเดลจะตีความตัวเลขดิบทางคณิตศาสตร์และพยายามฝึกด้วยตัวเลขเหล่านั้น อย่างไรก็ตาม ไอซ์แลนด์ไม่ได้มีอะไรมากกว่า (หรือน้อยกว่า) นอร์เวย์ 2 เท่า ดังนั้นโมเดลจึงให้ผลสรุปที่แปลกประหลาด

การเรียนรู้แบบครั้งเดียว

แนวทางแมชชีนเลิร์นนิงที่มักใช้สำหรับการแยกประเภทวัตถุ ซึ่งออกแบบมาเพื่อเรียนรู้ตัวแยกประเภทที่มีประสิทธิภาพจากตัวอย่างการฝึกเพียงรายการเดียว

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบตัวอย่างน้อย และการเรียนรู้แบบไม่ใช้ตัวอย่าง

One-Shot Prompting

#language
#generativeAI

พรอมต์ที่มีตัวอย่างรายการเดียวซึ่งแสดงวิธีที่โมเดลภาษาขนาดใหญ่ควรตอบกลับ ตัวอย่างเช่น พรอมต์ต่อไปนี้มีตัวอย่าง 1 รายการที่แสดงวิธีที่โมเดลภาษาขนาดใหญ่ควรตอบคำถาม

ส่วนต่างๆ ของพรอมต์ 1 รายการ หมายเหตุ
สกุลเงินทางการของประเทศที่ระบุคืออะไร คำถามที่คุณต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR ตัวอย่างหนึ่ง
อินเดีย: คําค้นหาจริง

เปรียบเทียบพรอมต์แบบยิงครั้งเดียวกับเงื่อนไขต่อไปนี้

แบบหนึ่งเทียบกับทั้งหมด

#fundamentals

เมื่อพิจารณาปัญหาการจัดประเภทที่มี N คลาส โซลูชันจะประกอบด้วย ตัวแยกประเภทแบบไบนารีแยกกัน N ตัว โดยตัวแยกประเภทแบบไบนารี 1 ตัวสําหรับผลลัพธ์ที่เป็นไปได้แต่ละรายการ ตัวอย่างเช่น เมื่อพิจารณาโมเดลที่จัดประเภทตัวอย่างเป็นสัตว์ ผัก หรือแร่ธาตุ โซลูชันแบบหนึ่งเทียบกับทั้งหมดจะให้ตัวแยกประเภทไบนารีแยกกัน 3 รายการต่อไปนี้

  • สัตว์กับไม่ใช่สัตว์
  • ผักกับไม่ใช่ผัก
  • แร่ธาตุกับไม่ใช่แร่ธาตุ

ออนไลน์

#fundamentals

คำพ้องความหมายของแบบไดนามิก

การให้เหตุผลออนไลน์

#fundamentals

สร้างการคาดการณ์ตามคําขอ ตัวอย่างเช่น สมมติว่าแอปส่งอินพุตไปยังโมเดลและส่งคำขอการคาดการณ์ ระบบที่ใช้การอนุมานออนไลน์จะตอบสนองต่อคําขอด้วยการดำเนินการกับโมเดล (และแสดงการคาดการณ์ไปยังแอป)

ตรงข้ามกับการอนุมานแบบออฟไลน์

การดำเนินการ (op)

#TensorFlow

ใน TensorFlow หมายถึงกระบวนการใดๆ ที่สร้าง ดัดแปลง หรือทำลาย Tensor เช่น การคูณเมทริกซ์เป็นการดำเนินการที่ใช้ Tensor 2 รายการเป็นอินพุตและสร้าง Tensor 1 รายการเป็นเอาต์พุต

Optax

ไลบรารีการประมวลผลและการเพิ่มประสิทธิภาพของ Gradient สำหรับ JAX Optax ช่วยให้การวิจัยง่ายขึ้นด้วยองค์ประกอบพื้นฐานที่นำมารวมกันใหม่ได้โดยใช้วิธีที่กำหนดเองเพื่อเพิ่มประสิทธิภาพโมเดลพารามิเตอร์ เช่น เครือข่ายประสาทเทียม เป้าหมายอื่นๆ ได้แก่

  • การติดตั้งใช้งานคอมโพเนนต์หลักที่อ่านง่าย ผ่านการทดสอบอย่างดี และมีประสิทธิภาพ
  • ปรับปรุงประสิทธิภาพการทำงานด้วยความสามารถในการรวมคอมโพเนนต์ระดับล่างเข้าด้วยกันเป็นเครื่องมือเพิ่มประสิทธิภาพที่กำหนดเอง (หรือคอมโพเนนต์การประมวลผลแบบลาดอื่นๆ)
  • เร่งการนำแนวคิดใหม่ๆ มาใช้โดยทำให้ทุกคนมีส่วนร่วมได้อย่างง่ายดาย

เครื่องมือเพิ่มประสิทธิภาพ

การใช้งานอัลกอริทึมการลดเชิงลาดโดยเฉพาะ เครื่องมือเพิ่มประสิทธิภาพยอดนิยม ได้แก่

  • AdaGrad ซึ่งย่อมาจาก ADAptive GRADient descent
  • Adam ซึ่งย่อมาจาก ADAptive with Momentum

อคติความเป็นเอกภาพของกลุ่มนอก

#fairness

แนวโน้มที่จะเห็นว่าสมาชิกนอกกลุ่มมีความคล้ายคลึงกันมากกว่าสมาชิกในกลุ่มเมื่อเปรียบเทียบทัศนคติ ค่านิยม ลักษณะบุคลิก และลักษณะอื่นๆ กลุ่มในหมายถึงคนที่คุณโต้ตอบด้วยเป็นประจำ ส่วนกลุ่มนอกหมายถึงคนที่คุณไม่ได้โต้ตอบด้วยเป็นประจำ หากคุณสร้างชุดข้อมูลโดยขอให้ผู้คนระบุแอตทริบิวต์เกี่ยวกับกลุ่มนอก แอตทริบิวต์เหล่านั้นอาจมีความซับซ้อนน้อยกว่าและเป็นไปตามแบบแผนมากกว่าแอตทริบิวต์ที่ผู้เข้าร่วมระบุสำหรับบุคคลในกลุ่มของตน

เช่น ชาวลิลลี่พูตอาจอธิบายบ้านของชาวลิลลี่พูตคนอื่นๆ อย่างละเอียด โดยกล่าวถึงความแตกต่างเล็กๆ น้อยๆ ในสไตล์สถาปัตยกรรม หน้าต่าง ประตู และขนาด อย่างไรก็ตาม ชาวลิลลี่พูตินคนเดียวกันอาจประกาศว่าชาวบราบิงแน็กทุกคนอาศัยอยู่ในบ้านที่เหมือนกัน

ความลำเอียงด้านความเหมือนกันของกลุ่มนอกเป็นรูปแบบของความลำเอียงในการระบุแหล่งที่มาของกลุ่ม

โปรดดูอคติที่มีต่อคนในกลุ่มด้วย

การตรวจหาค่าผิดปกติ

กระบวนการระบุค่าผิดปกติในชุดข้อมูลการฝึก

ตรงข้ามกับการตรวจหาเนื้อหาใหม่

ค่าผิดปกติ

ค่าที่อยู่ห่างจากค่าอื่นๆ ส่วนใหญ่ ในแมชชีนเลิร์นนิง ค่าต่อไปนี้คือค่าผิดปกติ

  • ข้อมูลที่ป้อนซึ่งมีค่ามากกว่าส่วนเบี่ยงเบนมาตรฐานประมาณ 3 เท่าจากค่ามัธยฐาน
  • น้ำหนักที่มีค่าสัมบูรณ์สูง
  • ค่าที่คาดการณ์ไว้อยู่ห่างจากค่าจริงค่อนข้างมาก

ตัวอย่างเช่น สมมติว่า widget-price เป็นฟีเจอร์ของบางรุ่น สมมติว่าค่าเฉลี่ย widget-price คือ 7 ยูโร โดยมีค่าเบี่ยงเบนมาตรฐาน 1 ยูโร ตัวอย่างที่มี widget-price เป็น 12 ยูโรหรือ 2 ยูโรจึงจะถือว่าเป็นค่าผิดปกติ เนื่องจากราคาแต่ละรายการดังกล่าวอยู่ห่างจากค่าเฉลี่ย 5 ค่าเบี่ยงเบนมาตรฐาน

ค่าที่ผิดปกติมักเกิดจากการพิมพ์ผิดหรือข้อผิดพลาดอื่นๆ ในการป้อนข้อมูล ในบางกรณี ค่าที่ผิดปกติไม่ใช่ข้อผิดพลาด เนื่องจากค่าที่เบี่ยงเบนมาตรฐาน 5 เท่าจากค่าเฉลี่ยนั้นเกิดขึ้นได้น้อยมาก แต่ก็ไม่ใช่ว่าจะเกิดขึ้นไม่ได้

ค่าที่ผิดปกติมักทำให้เกิดปัญหาในการฝึกโมเดล การตัดเป็นหนึ่งในวิธีจัดการค่าที่ผิดปกติ

การประเมินนอกกลุ่ม (การประเมิน OOB)

#df

กลไกในการประเมินคุณภาพของป่าการตัดสินใจโดยทดสอบแผนผังการตัดสินใจแต่ละรายการกับตัวอย่าง ที่ไม่ได้ใช้ระหว่างการฝึกแผนผังการตัดสินใจนั้น ตัวอย่างเช่น ในแผนภาพต่อไปนี้ โปรดสังเกตว่าระบบจะฝึกต้นไม้การตัดสินใจแต่ละต้นโดยใช้ตัวอย่างประมาณ 2 ใน 3 รายการ จากนั้นจะประเมินกับตัวอย่างที่เหลืออีก 1 ใน 3

ป่าการตัดสินใจที่ประกอบด้วยแผนผังการตัดสินใจ 3 แผน
          แผนผังการตัดสินใจ 1 รายการจะฝึกจากตัวอย่าง 2 ใน 3 รายการ แล้วใช้อีก 1 ใน 3 ที่เหลือเพื่อการประเมิน OOB
          แผนผังการตัดสินใจที่ 2 จะฝึกด้วยตัวอย่าง 2 ใน 3 รายการที่แตกต่างจากแผนผังการตัดสินใจก่อนหน้า จากนั้นจะใช้ 1 ใน 3 รายการที่แตกต่างจากแผนผังการตัดสินใจก่อนหน้าสําหรับการประเมิน OOB

การประเมิน Out-of-bag เป็นการประมาณที่ประหยัดและอนุรักษ์นิยมในการประมวลผลกลไกการทดสอบไขว้ ในการทดสอบไขว้ ระบบจะฝึกโมเดล 1 โมเดลในแต่ละรอบการทดสอบไขว้ (เช่น ฝึกโมเดล 10 โมเดลในการทดสอบไขว้ 10 เท่า) เมื่อใช้การประเมิน OOB ระบบจะฝึกโมเดลเดียว เนื่องจาก bagging เก็บข้อมูลบางส่วนจากแต่ละต้นไม้ไว้ในระหว่างการฝึก การประเมิน OOB จึงใช้ข้อมูลดังกล่าวเพื่อประมาณการทดสอบไขว้ได้

เลเยอร์เอาต์พุต

#fundamentals

เลเยอร์ "สุดท้าย" ของโครงข่ายระบบประสาทเทียม เลเยอร์เอาต์พุตมีการคาดการณ์

ภาพต่อไปนี้แสดงโครงข่ายประสาทแบบลึกขนาดเล็กที่มีชั้นอินพุต ชั้นซ่อน 2 ชั้น และชั้นเอาต์พุต

เครือข่ายประสาทที่มีชั้นอินพุต 1 ชั้น ชั้นซ่อน 2 ชั้น และชั้นเอาต์พุต 1 ชั้น เลเยอร์อินพุตประกอบด้วยองค์ประกอบ 2 อย่าง เลเยอร์ซ่อนแรกประกอบด้วยนิวรอน 3 ตัว และเลเยอร์ซ่อนที่สองประกอบด้วยนิวรอน 2 ตัว เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

Overfitting

#fundamentals

การสร้างโมเดลที่ตรงกับข้อมูลการฝึกอย่างใกล้ชิดมากจนโมเดลไม่สามารถคาดการณ์ข้อมูลใหม่ได้อย่างถูกต้อง

การปรับให้เหมาะสมจะช่วยลดการประมาณที่มากเกินไปได้ การฝึกด้วยชุดข้อมูลขนาดใหญ่และหลากหลายยังช่วยลดการจับคู่ที่มากเกินไปได้อีกด้วย

การสุ่มตัวอย่างมากเกินไป

การใช้ตัวอย่างคลาสที่มีจำนวนน้อยซ้ำในชุดข้อมูลที่คลาสไม่สมดุลเพื่อสร้างชุดข้อมูลการฝึกที่สมดุลมากขึ้น

ตัวอย่างเช่น พิจารณาปัญหาการจัดประเภทแบบ 2 กลุ่ม ซึ่งมีอัตราส่วนของคลาสส่วนใหญ่ต่อคลาสส่วนน้อยคือ 5,000:1 หากชุดข้อมูลมีตัวอย่าง 1 ล้านรายการ ชุดข้อมูลจะมีตัวอย่างของคลาสที่น้อยเพียงประมาณ 200 รายการ ซึ่งอาจน้อยเกินไปสำหรับการฝึกที่มีประสิทธิภาพ หากต้องการแก้ปัญหานี้ คุณอาจต้องสุ่มตัวอย่างมากเกินไป (นําตัวอย่าง 200 รายการมาใช้ซ้ำ) หลายครั้ง ซึ่งอาจให้ตัวอย่างเพียงพอสําหรับการฝึกที่เป็นประโยชน์

คุณต้องระวังการประมาณที่มากเกินไปเมื่อสุ่มตัวอย่างมากเกินไป

ตรงข้ามกับการสุ่มตัวอย่างที่ต่ำ

P

ข้อมูลที่แพ็กไว้

แนวทางการจัดเก็บข้อมูลที่มีประสิทธิภาพมากขึ้น

ข้อมูลที่แพ็กจะจัดเก็บข้อมูลโดยใช้รูปแบบที่บีบอัดหรือด้วยวิธีอื่นๆ ที่ช่วยให้เข้าถึงข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น ข้อมูลที่แพ็กจะลดปริมาณหน่วยความจําและการคํานวณที่จําเป็นในการเข้าถึง ซึ่งทําให้การฝึกเร็วขึ้นและการอนุมานโมเดลมีประสิทธิภาพมากขึ้น

ข้อมูลที่แพ็กมักใช้ร่วมกับเทคนิคอื่นๆ เช่น การเพิ่มข้อมูลและการปรับให้เหมาะสม ซึ่งช่วยปรับปรุงประสิทธิภาพของโมเดลให้ดียิ่งขึ้น

แพนด้า

#fundamentals

API การวิเคราะห์ข้อมูลที่มุ่งเน้นคอลัมน์ซึ่งสร้างขึ้นจาก numpy เฟรมเวิร์กแมชชีนเลิร์นนิงจํานวนมาก รวมถึง TensorFlow รองรับโครงสร้างข้อมูล pandas เป็นอินพุต ดูรายละเอียดได้ในเอกสารประกอบของ pandas

พารามิเตอร์

#fundamentals

น้ำหนักและความลำเอียงที่โมเดลเรียนรู้ระหว่างการฝึก เช่น ในโมเดลการถดถอยเชิงเส้น พารามิเตอร์ประกอบด้วยค่าอคติ (b) และน้ำหนักทั้งหมด (w1, w2 และอื่นๆ) ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในทางตรงกันข้าม ไฮเปอร์พารามิเตอร์คือค่าที่คุณ (หรือบริการการปรับแต่งไฮเปอร์พารามิเตอร์) ระบุให้กับโมเดล เช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์

การปรับแต่งที่มีประสิทธิภาพในแง่พารามิเตอร์

#language
#generativeAI

ชุดเทคนิคในการปรับแต่งโมเดลภาษาที่ผ่านการฝึกล่วงหน้า (PLM) ขนาดใหญ่อย่างมีประสิทธิภาพมากกว่าการปรับแต่งแบบเต็ม การปรับแต่งแบบประหยัดพารามิเตอร์มักจะปรับแต่งพารามิเตอร์น้อยกว่าการปรับแต่งแบบเต็ม แต่โดยทั่วไปจะสร้างโมเดลภาษาขนาดใหญ่ที่มีประสิทธิภาพดี (หรือเกือบจะดีเท่า) กับโมเดลภาษาขนาดใหญ่ที่สร้างจากการปรับแต่งแบบเต็ม

เปรียบเทียบการปรับแต่งแบบมีประสิทธิภาพของพารามิเตอร์กับสิ่งต่อไปนี้

การปรับแต่งที่มีประสิทธิภาพของพารามิเตอร์เรียกอีกอย่างว่าการปรับแต่งอย่างละเอียดที่มีประสิทธิภาพของพารามิเตอร์

เซิร์ฟเวอร์พารามิเตอร์ (PS)

#TensorFlow

งานที่จะติดตามพารามิเตอร์ของโมเดลในสภาพแวดล้อมแบบกระจาย

การอัปเดตพารามิเตอร์

การดำเนินการปรับพารามิเตอร์ของโมเดลระหว่างการฝึก โดยปกติจะอยู่ในรอบเดียวของการลดเชิงลาด

อนุพันธ์ย่อย

อนุพันธ์ที่ถือว่าตัวแปรทั้งหมดยกเว้น 1 รายการเป็นค่าคงที่ เช่น อนุพันธ์บางส่วนของ f(x, y) เทียบกับ x คืออนุพันธ์ของ f ที่พิจารณาว่าเป็นฟังก์ชันของ x เพียงอย่างเดียว (นั่นคือ รักษา y ให้คงที่) ส่วนต่างย่อยของ f เทียบกับ x จะมุ่งเน้นที่การเปลี่ยนแปลงของ x เท่านั้น และละเว้นตัวแปรอื่นๆ ทั้งหมดในสมการ

อคติในการเข้าร่วม

#fairness

ตรงกับอคติที่ไม่ตอบ ดูการเลือกแบบลำเอียง

กลยุทธ์การแบ่งพาร์ติชัน

อัลกอริทึมที่ใช้แบ่งตัวแปรในเซิร์ฟเวอร์พารามิเตอร์

pass at k (pass@k)

เมตริกสำหรับกำหนดคุณภาพของโค้ด (เช่น Python) ที่โมเดลภาษาขนาดใหญ่สร้างขึ้น กล่าวอย่างเจาะจงคือ ผ่านที่ k บอกความเป็นไปได้ที่บล็อกโค้ดที่สร้างขึ้นอย่างน้อย 1 บล็อกจากบล็อกโค้ดที่สร้างขึ้น k บล็อกจะผ่านการทดสอบ 1 หน่วยทั้งหมด

โมเดลภาษาขนาดใหญ่มักสร้างโค้ดที่ดีสำหรับปัญหาการเขียนโปรแกรมที่ซับซ้อนได้ยาก วิศวกรซอฟต์แวร์ปรับตัวให้เข้ากับปัญหานี้โดยกระตุ้นให้โมเดลภาษาขนาดใหญ่สร้างโซลูชันหลายรายการ (k) สำหรับปัญหาเดียวกัน จากนั้นวิศวกรซอฟต์แวร์จะทดสอบโซลูชันแต่ละรายการกับการทดสอบ 1 หน่วย การคํานวณการผ่านที่ k ขึ้นอยู่กับผลลัพธ์ของการทดสอบหน่วยดังนี้

  • หากวิธีแก้ปัญหาเหล่านั้นอย่างน้อย 1 วิธีผ่านการทดสอบหน่วย LLM จะผ่านการทดสอบการสร้างโค้ด
  • หากไม่มีโซลูชันใดผ่านการทดสอบยูนิต LLM จะไม่ผ่านภารกิจการสร้างโค้ด

สูตรสําหรับการผ่านที่ k มีดังนี้

$$\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}$$

โดยทั่วไป ค่า k ที่สูงขึ้นจะให้คะแนนผ่านที่สูงกว่าที่ k ต่ำลง อย่างไรก็ตาม ค่า k ที่สูงขึ้นต้องใช้ทรัพยากรโมเดลภาษาขนาดใหญ่และการทดสอบหน่วยมากขึ้น

Pax

เฟรมเวิร์กการเขียนโปรแกรมที่ออกแบบมาเพื่อฝึกโมเดลโครงข่ายระบบประสาทเทียมขนาดใหญ่มากจนครอบคลุม TPU ชิปเร่งความเร็ว ส่วน หรือพ็อด หลายรายการ

Pax สร้างขึ้นจาก Flax ซึ่งสร้างขึ้นจาก JAX

แผนภาพแสดงตําแหน่งของ Pax ในกองซอฟต์แวร์
          Pax สร้างขึ้นจาก JAX Pax ประกอบด้วย 3 เลเยอร์ เลเยอร์ด้านล่างประกอบด้วย TensorStore และ Flax
          เลเยอร์กลางประกอบด้วย Optax และ Flaxformer เลเยอร์ด้านบนมีไลบรารีการประมาณของ Praxis Fiddle สร้างขึ้นจาก Pax

เพอร์เซปตรอน

ระบบ (ฮาร์ดแวร์หรือซอฟต์แวร์) ที่ใช้ค่าอินพุตอย่างน้อย 1 ค่า เรียกใช้ฟังก์ชันกับผลรวมถ่วงน้ำหนักของอินพุต และคำนวณค่าเอาต์พุตเดียว ในแมชชีนเลิร์นนิง ฟังก์ชันมักจะไม่เป็นเชิงเส้น เช่น ReLU, sigmoid หรือ tanh ตัวอย่างเช่น Perceptron ต่อไปนี้ใช้ฟังก์ชัน Sigmoid เพื่อประมวลผลค่าอินพุต 3 ค่า

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

ในภาพประกอบต่อไปนี้ Perceptron จะรับอินพุต 3 รายการ โดยแต่ละรายการจะได้รับการแก้ไขโดยน้ำหนักก่อนที่จะเข้าสู่ Perceptron

เพอร์เซปตรอนที่รับอินพุต 3 รายการ โดยแต่ละรายการจะคูณด้วยน้ำหนักแยกกัน เพอร์เซปตรอนจะแสดงผลค่าเดียว

เพอร์เซปตรอนคือเซลล์ประสาทในโครงข่ายประสาทเทียม

การแสดง

คําที่มีความหมายหลายอย่างดังนี้

  • ความหมายมาตรฐานในวิศวกรรมซอฟต์แวร์ กล่าวคือ ซอฟต์แวร์นี้ทำงานได้เร็ว (หรือมีประสิทธิภาพ) เพียงใด
  • ความหมายในแมชชีนเลิร์นนิง ประสิทธิภาพจะตอบคำถามที่ว่าโมเดลนี้ถูกต้องเพียงใด กล่าวคือ การคาดการณ์ของโมเดลนั้นแม่นยำเพียงใด

ความสำคัญของตัวแปรการจัดเรียงสับเปลี่ยน

#df

ความสำคัญของตัวแปรประเภทหนึ่งที่ประเมินการเพิ่มขึ้นของข้อผิดพลาดในการคาดการณ์ของโมเดลหลังจากการสับเปลี่ยนค่าของฟีเจอร์ ความสำคัญของตัวแปรการสับเปลี่ยนเป็นเมตริกที่ไม่ขึ้นอยู่กับรูปแบบ

ความงงงวย

หนึ่งในตัวชี้วัดว่าโมเดลทํางานได้ดีเพียงใด ตัวอย่างเช่น สมมติว่างานของคุณคืออ่านตัวอักษร 2-3 ตัวแรกของคำที่ผู้ใช้พิมพ์ในแป้นพิมพ์โทรศัพท์ และแสดงรายการคำที่เป็นไปได้ซึ่งเติมเต็มได้ ความสับสน P สําหรับงานนี้คือจํานวนการคาดเดาโดยประมาณที่คุณต้องเสนอเพื่อให้รายการมีคําที่ผู้ใช้พยายามพิมพ์

ความกำกวมเกี่ยวข้องกับCross-Entropy ดังนี้

$$P= 2^{-\text{cross entropy}}$$

ไปป์ไลน์

โครงสร้างพื้นฐานรอบๆ อัลกอริทึมของแมชชีนเลิร์นนิง ไปป์ไลน์ประกอบด้วยการเก็บรวบรวมข้อมูล ใส่ข้อมูลลงในไฟล์ข้อมูลการฝึก ฝึกโมเดลอย่างน้อย 1 รายการ และส่งออกโมเดลไปยังเวอร์ชันที่ใช้งานจริง

การจัดลําดับ

#language

รูปแบบการทํางานแบบขนานของโมเดล ซึ่งการประมวลผลของโมเดลจะแบ่งออกเป็นระยะๆ ต่อเนื่องกันและแต่ละระยะจะทํางานในอุปกรณ์เครื่องอื่น ขณะที่ระยะหนึ่งกำลังประมวลผลกลุ่มหนึ่ง ระยะก่อนหน้าจะประมวลผลกลุ่มถัดไปได้

โปรดดูการฝึกอบรมแบบเป็นขั้นด้วย

pjit

ฟังก์ชัน JAX ที่แยกโค้ดให้ทำงานในชิปเร่งหลายตัว ผู้ใช้ส่งฟังก์ชันไปยัง pjit ซึ่งจะแสดงผลฟังก์ชันที่มีความหมายที่เทียบเท่า แต่คอมไพล์เป็นการคำนวณ XLA ที่ทำงานในอุปกรณ์หลายเครื่อง (เช่น GPU หรือแกน TPU)

pjit ช่วยให้ผู้ใช้สามารถแบ่งการคำนวณได้โดยไม่ต้องเขียนใหม่โดยใช้ตัวแบ่งพาร์ติชัน SPMD

ตั้งแต่เดือนมีนาคม 2023 pjit ได้รวมเข้ากับ jit แล้ว ดูรายละเอียดเพิ่มเติมได้ในหัวข้ออาร์เรย์แบบกระจายและการทำงานแบบขนานอัตโนมัติ

PLM

#language
#generativeAI

ตัวย่อของโมเดลภาษาที่ฝึกล่วงหน้า

pmap

ฟังก์ชัน JAX ที่ดำเนินการกับสำเนาของฟังก์ชันอินพุตในอุปกรณ์ฮาร์ดแวร์ที่เกี่ยวข้องหลายเครื่อง (CPU, GPU หรือ TPU) ที่มีค่าอินพุตต่างกัน pmap อาศัย SPMD

policy

#rl

ในการเรียนรู้ด้วยการทำซ้ำ การแมปแบบมีแนวโน้มของเอเจนต์จากสถานะไปยังการดำเนินการ

การรวมกลุ่ม

#image

การลดเมทริกซ์ (หรือเมทริกซ์) ที่สร้างขึ้นโดยชั้น Conv ก่อนหน้าให้เป็นเมทริกซ์ขนาดเล็กลง โดยปกติแล้วการรวมกลุ่มจะเกี่ยวข้องกับการนำค่าสูงสุดหรือค่าเฉลี่ยจากพื้นที่ที่รวม ตัวอย่างเช่น สมมติว่าเรามีเมทริกซ์ 3x3 ต่อไปนี้

เมทริกซ์ 3x3 ของ [[5,3,1], [8,2,5], [9,4,3]]

การดำเนินการรวมกลุ่มจะแบ่งเมทริกซ์ออกเป็นส่วนๆ เช่นเดียวกับการดำเนินการ Conv จากนั้นจะเลื่อนการดำเนินการ Conv นั้นตามระยะ ตัวอย่างเช่น สมมติว่าการดำเนินการการรวมกลุ่มจะแบ่งเมทริกซ์การแปลงคอนโวลูชันออกเป็นส่วนๆ ขนาด 2x2 ที่มีระยะ 1x1 ดังที่แผนภาพต่อไปนี้แสดง การดำเนินการรวมมี 4 รายการ ลองจินตนาการว่าการดำเนินการรวมแต่ละรายการจะเลือกค่าสูงสุดของ 4 รายการในส่วนนั้นๆ

เมทริกซ์อินพุตคือ 3x3 ที่มีค่า [[5,3,1], [8,2,5], [9,4,3]]
          อนุมาตร 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุตคือ [[5,3], [8,2]] ดังนั้นการดำเนินการรวมข้อมูลด้านซ้ายบนจึงให้ค่า 8 (ซึ่งเป็นค่าสูงสุดของ 5, 3, 8 และ 2) อนุมาตร 2x2 ที่ด้านขวาบนของเมทริกซ์อินพุตคือ [[3,1], [2,5]] ดังนั้นการดำเนินการรวมที่ด้านขวาบนจึงให้ค่า 5 อนุมาตรย่อย 2x2 ที่ด้านซ้ายล่างของเมทริกซ์อินพุตคือ [[8,2], [9,4]] ดังนั้นการดำเนินการรวมข้อมูลด้านซ้ายล่างจึงให้ค่า 9 อนุมาตร 2x2 ที่ด้านขวาล่างของเมทริกซ์อินพุตคือ [[2,5], [4,3]] ดังนั้นการดำเนินการรวมที่ด้านขวาล่างจะให้ค่า 5 โดยสรุปแล้ว การดำเนินการรวมกลุ่มจะให้ผลลัพธ์เป็นเมทริกซ์ 2x2 ดังนี้
          [[8,5], [9,5]]

การรวมกลุ่มช่วยบังคับใช้การคงที่แบบแปลในเมทริกซ์อินพุต

การรวมสำหรับแอปพลิเคชันการมองเห็นเรียกอย่างเป็นทางการว่าการรวมเชิงพื้นที่ แอปพลิเคชันอนุกรมเวลามักเรียกการรวมข้อมูลว่าการรวมข้อมูลตามช่วงเวลา Pooling มักเรียกอย่างไม่เป็นทางการว่าการสุ่มตัวอย่างย่อยหรือการสุ่มตัวอย่างลง

การเข้ารหัสตำแหน่ง

#language

เทคนิคในการเพิ่มข้อมูลเกี่ยวกับตําแหน่งของโทเค็นในลําดับไปยังการฝังของโทเค็น โมเดล Transformer ใช้การเข้ารหัสตำแหน่งเพื่อทำความเข้าใจความสัมพันธ์ระหว่างส่วนต่างๆ ของลำดับได้ดียิ่งขึ้น

การใช้งานการเข้ารหัสตำแหน่งทั่วไปจะใช้ฟังก์ชันไซน์ (กล่าวอย่างเจาะจงคือ ความถี่และแอมพลิจูดของฟังก์ชันไซน์จะกำหนดโดยตำแหน่งของโทเค็นในลำดับ) เทคนิคนี้ช่วยให้โมเดล Transformer เรียนรู้ที่จะให้ความสำคัญกับส่วนต่างๆ ของลำดับตามตำแหน่งของส่วนนั้นๆ

คลาสที่เป็นบวก

#fundamentals

ชั้นเรียนที่คุณทดสอบ

เช่น คลาสที่เป็นบวกในโมเดลโรคมะเร็งอาจเป็น "เนื้องอก" คลาสที่เป็นบวกในตัวจัดประเภทอีเมลอาจเป็น "จดหมายขยะ"

ตรงข้ามกับคลาสที่เป็นลบ

หลังการประมวลผล

#fairness
#fundamentals

การปรับเอาต์พุตของโมเดลหลังจากเรียกใช้โมเดลแล้ว สามารถใช้การประมวลผลหลังเพื่อให้เป็นไปตามข้อจำกัดด้านความยุติธรรมได้โดยไม่ต้องแก้ไขโมเดล

เช่น อาจใช้การประมวลผลหลังการประมวลผลกับตัวแยกประเภทแบบ 2 ค่าโดยการตั้งค่าเกณฑ์การจัดประเภทเพื่อให้โอกาสที่เท่าเทียมสำหรับแอตทริบิวต์บางรายการ โดยตรวจสอบว่าอัตราผลบวกจริงเหมือนกันสำหรับค่าทั้งหมดของแอตทริบิวต์นั้น

โมเดลหลังการฝึก

#language
#image
#generativeAI

คําที่กําหนดไว้อย่างหลวมๆ ซึ่งโดยทั่วไปหมายถึงโมเดลที่ผ่านการฝึกล่วงหน้าซึ่งผ่านกระบวนการประมวลผลขั้นสุดท้ายแล้ว เช่น การดำเนินการต่อไปนี้อย่างน้อย 1 อย่าง

PR AUC (พื้นที่ใต้กราฟ PR)

พื้นที่ใต้กราฟที่หาค่าเฉลี่ยระหว่างค่าต่างๆ ของกราฟ Precision-Recall ซึ่งหาได้จากการวางจุด (ความแม่นยำ ความแม่นยำ) สำหรับค่าต่างๆ ของเกณฑ์การจัดประเภท

Praxis

คลัง ML หลักที่มีประสิทธิภาพสูงของ Pax Praxis มักเรียกว่า "ไลบรารีเลเยอร์"

Praxis ไม่ได้มีแค่คำจำกัดความของคลาสเลเยอร์ แต่ยังรวมถึงคอมโพเนนต์สนับสนุนส่วนใหญ่ด้วย ดังนี้

Praxis ให้คําจํากัดความของคลาส Model

ความแม่นยำ

เมตริกสําหรับโมเดลการจัดหมวดหมู่ที่ตอบคำถามต่อไปนี้

เมื่อโมเดลคาดการณ์คลาสเชิงบวก การคาดการณ์ที่ถูกต้องมีเปอร์เซ็นต์เท่าใด

สูตรมีดังนี้

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

where:

  • ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้ถูกต้อง
  • ผลบวกลวงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกโดยไม่ได้ตั้งใจ

ตัวอย่างเช่น สมมติว่าโมเดลทำการคาดการณ์เชิงบวก 200 ครั้ง จากการคาดการณ์เชิงบวก 200 รายการนี้

  • 150 รายการเป็นผลบวกจริง
  • 50 รายการเป็นผลบวกลวง

ในกรณีนี้

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

ตรงข้ามกับความแม่นยำและการจดจำ

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้อง

ความแม่นยำที่ k (precision@k)

#language

เมตริกสําหรับประเมินรายการที่จัดอันดับ (เรียงลําดับ) ความแม่นยำที่ k จะระบุส่วนของรายการ k รายการแรกในรายการนั้นซึ่ง "เกี่ยวข้อง" โดยการ

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

ค่าของ k ต้องน้อยกว่าหรือเท่ากับความยาวของลิสต์ที่แสดงผล โปรดทราบว่าความยาวของรายการที่แสดงผลไม่ได้เป็นส่วนหนึ่งของการคํานวณ

ความเกี่ยวข้องมักเป็นเรื่องส่วนตัว แม้แต่ผู้ประเมินที่เป็นมนุษย์ที่เชี่ยวชาญก็มักไม่เห็นด้วยว่ารายการใดมีความเกี่ยวข้อง

เปรียบเทียบกับ:

เส้นโค้ง Precision-Recall

กราฟความแม่นยำเทียบกับความแม่นยำในการเรียกคืนที่เกณฑ์การจัดประเภทต่างๆ

การคาดการณ์

#fundamentals

เอาต์พุตของโมเดล เช่น

  • การคาดการณ์ของโมเดลการจัดประเภทแบบไบนารีคือคลาสเชิงบวกหรือคลาสเชิงลบ
  • การคาดการณ์ของโมเดลการจัดประเภทแบบหลายคลาสคือ 1 คลาส
  • การคาดการณ์ของโมเดลการถดถอยเชิงเส้นคือตัวเลข

อคติในการคาดการณ์

ค่าที่ระบุระยะห่างระหว่างค่าเฉลี่ยของการคาดการณ์กับค่าเฉลี่ยของป้ายกํากับในชุดข้อมูล

โปรดอย่าสับสนกับคำที่เป็นอคติในโมเดลแมชชีนเลิร์นนิง หรืออคติด้านจริยธรรมและความเป็นธรรม

ML เชิงคาดการณ์

ระบบแมชชีนเลิร์นนิงมาตรฐาน ("คลาสสิก") ใดก็ได้

คําว่า ML เชิงคาดการณ์ไม่มีคําจํากัดความอย่างเป็นทางการ แต่ใช้เพื่อแยกหมวดหมู่ระบบ ML ที่ไม่ได้อิงตามGenerative AI

ความเท่าเทียมตามการคาดการณ์

#fairness

เมตริกความเป็นธรรมที่ตรวจสอบว่าอัตราความแม่นยำของโปรแกรมแยกประเภทหนึ่งๆ เทียบเท่ากันสำหรับกลุ่มย่อยที่พิจารณาหรือไม่

เช่น โมเดลที่คาดการณ์การยอมรับเข้าวิทยาลัยจะต้องเป็นไปตามความเท่าเทียมในการคาดการณ์สำหรับสัญชาติหากอัตราความแม่นยำของโมเดลนั้นเหมือนกันสำหรับชาวลิลลี่ปุตและชาวบราบิงแนก

บางครั้งเราจะเรียกความเท่าเทียมตามการคาดการณ์ว่าความเท่าเทียมตามอัตราที่คาดการณ์

ดูการอภิปรายเรื่องความเท่าเทียมตามการคาดการณ์โดยละเอียดได้ที่"คำอธิบายความเท่าเทียม" (ส่วนที่ 3.2.1)

อัตราที่เท่ากันตามการคาดการณ์

#fairness

อีกชื่อของความเท่าเทียมตามการคาดการณ์

การเตรียมข้อมูลล่วงหน้า

#fairness
ประมวลผลข้อมูลก่อนที่จะนำไปใช้ฝึกโมเดล การเตรียมข้อมูลล่วงหน้าอาจทำได้ง่ายๆ เพียงนำคำออกจากชุดข้อความภาษาอังกฤษที่ไม่ได้อยู่ในพจนานุกรมภาษาอังกฤษ หรืออาจซับซ้อนมากถึงขั้นต้องเปลี่ยนรูปแบบจุดข้อมูลใหม่ในลักษณะที่กำจัดแอตทริบิวต์ที่เชื่อมโยงกับแอตทริบิวต์ที่มีความละเอียดอ่อนให้มากที่สุด การเตรียมข้อมูลล่วงหน้าจะช่วยให้เป็นไปตามข้อจำกัดด้านความเป็นธรรม

โมเดลที่ฝึกล่วงหน้า

#language
#image
#generativeAI

โดยปกติแล้วคือโมเดลที่ผ่านการฝึกแล้ว หรืออาจหมายถึงเวกเตอร์การฝังที่ผ่านการฝึกก่อนหน้านี้

คําว่าโมเดลภาษาที่ฝึกล่วงหน้ามักจะหมายถึงโมเดลภาษาขนาดใหญ่ที่ผ่านการฝึกแล้ว

การฝึกขั้นต้น

#language
#image
#generativeAI

การฝึกโมเดลครั้งแรกในชุดข้อมูลขนาดใหญ่ โมเดลที่ผ่านการฝึกล่วงหน้าบางรุ่นเป็นโมเดลที่ทำงานได้ไม่ดีนัก และมักจะต้องได้รับการปรับแต่งผ่านการฝึกเพิ่มเติม ตัวอย่างเช่น ผู้เชี่ยวชาญด้าน ML อาจฝึกโมเดลภาษาขนาดใหญ่ล่วงหน้าด้วยชุดข้อมูลข้อความขนาดใหญ่ เช่น หน้าภาษาอังกฤษทั้งหมดใน Wikipedia หลังจากการฝึกล่วงหน้าแล้ว โมเดลที่ได้อาจได้รับการปรับแต่งเพิ่มเติมผ่านเทคนิคต่อไปนี้

ความเชื่อก่อนหน้า

สิ่งที่คุณเชื่อเกี่ยวกับข้อมูลก่อนที่จะเริ่มฝึก เช่น การปรับสมดุล 2 อาศัยความเชื่อก่อนหน้านี้ว่าน้ำหนักควรมีขนาดเล็กและกระจายตามปกติรอบๆ 0

โมเดลการถดถอยแบบน่าจะเป็น

โมเดลการถดถอยที่ใช้ไม่เพียงน้ำหนักสำหรับฟีเจอร์แต่ละรายการเท่านั้น แต่ยังใช้ความไม่แน่นอนของน้ำหนักเหล่านั้นด้วย โมเดลการถดถอยแบบน่าจะเป็นจะสร้างการคาดการณ์และความไม่แน่นอนของการคาดการณ์นั้น เช่น โมเดลการถดถอยแบบน่าจะเป็นอาจให้ค่าคาดการณ์ 325 โดยมีค่าความเบี่ยงเบนมาตรฐาน 12 ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลการถดถอยแบบน่าจะเป็นได้ที่ Colab ใน tensorflow.org

ฟังก์ชันความหนาแน่นของความน่าจะเป็น

ฟังก์ชันที่ระบุความถี่ของตัวอย่างข้อมูลที่มีค่าหนึ่งๆ ตรงกันทั้งหมด เมื่อค่าของชุดข้อมูลเป็นตัวเลขทศนิยมต่อเนื่อง การจับคู่ที่ตรงกันทั้งหมดจะเกิดขึ้นน้อยมาก อย่างไรก็ตาม การผสานรวมฟังก์ชันความหนาแน่นความน่าจะเป็นจากค่า x ถึงค่า y จะให้ความถี่ที่คาดไว้ของตัวอย่างข้อมูลระหว่าง x ถึง y

ตัวอย่างเช่น พิจารณาการแจกแจงแบบปกติที่มีค่าเฉลี่ย 200 และค่าเบี่ยงเบนมาตรฐาน 30 หากต้องการระบุความถี่ที่คาดไว้ของตัวอย่างข้อมูลซึ่งอยู่ในช่วง 211.4 ถึง 218.7 ให้ผสานฟังก์ชันความหนาแน่นความน่าจะเป็นของการแจกแจงแบบปกติจาก 211.4 ถึง 218.7

พรอมต์

#language
#generativeAI

ข้อความที่ป้อนเป็นอินพุตให้กับโมเดลภาษาขนาดใหญ่เพื่อปรับสภาพโมเดลให้ทำงานในลักษณะหนึ่งๆ พรอมต์อาจเป็นวลีสั้นๆ หรือยาวเท่าใดก็ได้ (เช่น ข้อความทั้งหมดของนวนิยาย) พรอมต์จะแบ่งออกเป็นหลายหมวดหมู่ ซึ่งรวมถึงหมวดหมู่ที่แสดงในตารางต่อไปนี้

หมวดหมู่พรอมต์ ตัวอย่าง หมายเหตุ
คำถาม นกพิราบบินได้เร็วแค่ไหน
โรงเรียนฝึกอบรม เขียนบทกวีตลกๆ เกี่ยวกับอาร์บิทราจ พรอมต์ที่ขอให้โมเดลภาษาขนาดใหญ่ทําบางอย่าง
ตัวอย่าง แปลโค้ด Markdown เป็น HTML ตัวอย่างเช่น
Markdown: * รายการย่อย
HTML: <ul> <li>รายการย่อย</li> </ul>
ประโยคแรกในพรอมต์ตัวอย่างนี้คือวิธีการ ส่วนที่เหลือของพรอมต์คือตัวอย่าง
บทบาท อธิบายเหตุผลที่ต้องใช้การลดเชิงลาดในการสอนแมชชีนเลิร์นนิงเพื่อรับปริญญาเอกสาขาฟิสิกส์ ส่วนแรกของประโยคคือคำสั่ง ส่วนวลี "จบปริญญาเอกสาขาฟิสิกส์" คือส่วนบทบาท
อินพุตบางส่วนเพื่อให้โมเดลทำงานได้ นายกรัฐมนตรีของสหราชอาณาจักรอาศัยอยู่ที่ พรอมต์การป้อนข้อมูลบางส่วนอาจสิ้นสุดอย่างกะทันหัน (เช่น ตัวอย่างนี้) หรือลงท้ายด้วยขีดล่างก็ได้

โมเดล Generative AI สามารถตอบสนองต่อพรอมต์ด้วยข้อความ โค้ด รูปภาพ การฝัง วิดีโอ และแทบทุกสิ่ง

การเรียนรู้ตามพรอมต์

#language
#generativeAI

ความสามารถของโมเดลบางรายการที่ช่วยให้ปรับลักษณะการทํางานเพื่อตอบสนองต่อการป้อนข้อความแบบไม่เจาะจง (พรอมต์) ได้ ในกระบวนทัศน์การเรียนรู้แบบพรอมต์ทั่วไป โมเดลภาษาขนาดใหญ่จะตอบสนองต่อพรอมต์ด้วยการสร้างข้อความ ตัวอย่างเช่น สมมติว่าผู้ใช้ป้อนพรอมต์ต่อไปนี้

สรุปกฎการเคลื่อนที่ข้อที่ 3 ของนิวตัน

โมเดลที่เรียนรู้ตามพรอมต์ไม่ได้ผ่านการฝึกมาเพื่อตอบพรอมต์ก่อนหน้าโดยเฉพาะ แต่โมเดลจะ "รู้" ข้อเท็จจริงมากมายเกี่ยวกับฟิสิกส์ กฎทั่วไปของภาษา และองค์ประกอบต่างๆ ของคำตอบที่เป็นประโยชน์โดยทั่วไป ความรู้ดังกล่าวเพียงพอที่จะให้คำตอบที่เป็นประโยชน์ (หวังว่า) ความคิดเห็นเพิ่มเติมจากผู้ใช้ ("คำตอบนั้นซับซ้อนเกินไป" หรือ "Reaction คืออะไร") จะช่วยให้ระบบการเรียนรู้แบบพรอมต์บางระบบปรับปรุงความมีประโยชน์ของคำตอบได้ทีละน้อย

การออกแบบพรอมต์

#language
#generativeAI

คำพ้องความหมายของวิศวกรรมแบบทันที

Prompt Engineering

#language
#generativeAI

ศิลปะในการสร้างพรอมต์ที่ดึงดูดคำตอบที่ต้องการจากโมเดลภาษาขนาดใหญ่ มนุษย์ทำการดัดแปลงพรอมต์ การเขียนพรอมต์ที่มีโครงสร้างดีเป็นส่วนสําคัญในการรับคําตอบที่เป็นประโยชน์จากโมเดลภาษาขนาดใหญ่ การปรับแต่งข้อความแจ้งขึ้นอยู่กับหลายปัจจัย ได้แก่

  • ชุดข้อมูลที่ใช้ฝึกล่วงหน้าและอาจปรับแต่งโมเดลภาษาขนาดใหญ่
  • temperature และพารามิเตอร์การถอดรหัสอื่นๆ ที่โมเดลใช้ในการสร้างคำตอบ

ดูรายละเอียดเพิ่มเติมเกี่ยวกับการเขียนพรอมต์ที่เป็นประโยชน์ได้ในส่วนข้อมูลเบื้องต้นเกี่ยวกับการออกแบบพรอมต์

การออกแบบพรอมต์เป็นคําพ้องความหมายกับวิศวกรรมพรอมต์

การปรับแต่งพรอมต์

#language
#generativeAI

กลไกการปรับพารามิเตอร์อย่างมีประสิทธิภาพซึ่งจะเรียนรู้ "คำนำหน้า" ที่ระบบจะใส่ไว้ก่อนพรอมต์จริง

การปรับพรอมต์รูปแบบหนึ่ง ซึ่งบางครั้งเรียกว่าการปรับคำนำหน้าคือการใส่คำนำหน้าไว้ที่ทุกเลเยอร์ ในทางตรงกันข้าม การปรับแต่งพรอมต์ส่วนใหญ่จะเพิ่มเฉพาะคำนำหน้าในเลเยอร์อินพุต

proxy (แอตทริบิวต์ที่ละเอียดอ่อน)

#fairness
แอตทริบิวต์ที่ใช้แทนแอตทริบิวต์ที่มีความละเอียดอ่อน เช่น ระบบอาจใช้รหัสไปรษณีย์ของบุคคลเป็นพร็อกซีสําหรับรายได้ เชื้อชาติ หรือชาติพันธุ์

ป้ายกํากับพร็อกซี

#fundamentals

ข้อมูลที่ใช้ประมาณป้ายกำกับซึ่งไม่พร้อมใช้งานในชุดข้อมูลโดยตรง

ตัวอย่างเช่น สมมติว่าคุณต้องฝึกโมเดลเพื่อคาดการณ์ระดับความเครียดของพนักงาน ชุดข้อมูลของคุณมีฟีเจอร์การคาดการณ์จำนวนมาก แต่ไม่มีป้ายกำกับชื่อระดับความเครียด คุณเลือก "อุบัติเหตุที่ทำงาน" เป็นป้ายกำกับแทนระดับความเครียด ท้ายที่สุดแล้ว พนักงานที่เครียดมากจะประสบอุบัติเหตุมากกว่าพนักงานที่ใจเย็น หรือมี อุบัติเหตุที่เกิดขึ้นในที่ทํางานอาจเพิ่มขึ้นและลดลงด้วยเหตุผลหลายประการ

ตัวอย่างที่ 2 สมมติว่าคุณต้องการให้ is it raining? เป็นป้ายกำกับบูลีนสำหรับชุดข้อมูล แต่ชุดข้อมูลไม่มีข้อมูลฝน หากมีรูปภาพ คุณอาจสร้างรูปภาพคนถือร่มเป็นป้ายกำกับพร็อกซีสำหรับฝนตกไหม ป้ายกำกับพร็อกซีนี้ดีไหม เป็นไปได้ แต่ผู้คนในบางวัฒนธรรมอาจถือร่มเพื่อป้องกันแดดมากกว่าฝน

ป้ายกํากับพร็อกซีมักไม่สมบูรณ์ เลือกป้ายกำกับจริงแทนป้ายกำกับพร็อกซีเมื่อเป็นไปได้ อย่างไรก็ตาม เมื่อไม่มีป้ายกำกับจริง ให้เลือกป้ายกำกับพร็อกซีอย่างระมัดระวัง โดยเลือกป้ายกำกับพร็อกซีที่ไม่น่ากลัวที่สุด

ฟังก์ชันบริสุทธิ์

ฟังก์ชันที่มีเอาต์พุตอิงตามอินพุตเท่านั้นและไม่มีผลข้างเคียง กล่าวโดยละเอียดคือ ฟังก์ชันบริสุทธิ์จะไม่ใช้หรือเปลี่ยนแปลงสถานะส่วนกลาง เช่น เนื้อหาของไฟล์หรือค่าของตัวแปรที่อยู่นอกฟังก์ชัน

ฟังก์ชัน Pure สามารถใช้เพื่อสร้างโค้ดที่ปลอดภัยสำหรับเธรด ซึ่งมีประโยชน์เมื่อมีการแยกส่วนโค้ด model ไปยังชิปเร่งความเร็วหลายตัว

วิธีการเปลี่ยนรูปแบบฟังก์ชันของ JAX กำหนดให้ฟังก์ชันอินพุตต้องเป็นฟังก์ชันบริสุทธิ์

Q

ฟังก์ชัน Q

#rl

ในการเรียนรู้ด้วยการเพิ่มแรงเสริม ฟังก์ชันที่คาดการณ์ผลตอบแทนที่คาดไว้จากการดำเนินการในสถานะ จากนั้นทำตามนโยบายที่กำหนด

ฟังก์ชัน Q เรียกอีกอย่างว่าฟังก์ชันค่าสถานะการดําเนินการ

การเรียนรู้แบบ Q

#rl

ในการเรียนรู้ด้วยการทำซ้ำ อัลกอริทึมที่อนุญาตให้เอเจนต์เรียนรู้ฟังก์ชัน Q ที่ดีที่สุดของกระบวนการตัดสินใจแบบ Markov โดยใช้สมการของ Bellman กระบวนการตัดสินใจแบบ Markov เป็นแบบจำลองสภาพแวดล้อม

ควอร์ไทล์

ที่เก็บข้อมูลแต่ละรายการในการแบ่งกลุ่มข้อมูลตามควอร์ไทล์

การแบ่งกลุ่มข้อมูลตามควอร์ไทล์

การแจกแจงค่าของฟีเจอร์เป็นที่เก็บเพื่อให้แต่ละที่เก็บมีจำนวนตัวอย่างเท่ากัน (หรือเกือบเท่ากัน) ตัวอย่างเช่น รูปภาพต่อไปนี้แบ่ง 44 จุดออกเป็น 4 กลุ่ม โดยแต่ละกลุ่มมี 11 จุด เพื่อให้แต่ละที่เก็บข้อมูลในรูปภาพมีจุดจํานวนเท่ากัน ที่เก็บข้อมูลบางรายการจึงมีช่วงค่า x ที่แตกต่างกัน

จุดข้อมูล 44 จุดแบ่งออกเป็น 4 กลุ่มๆ ละ 11 จุด
          แม้ว่าแต่ละที่เก็บข้อมูลจะมีจุดข้อมูลเท่ากัน แต่ที่เก็บข้อมูลบางแห่งอาจมีค่าฟีเจอร์ที่หลากหลายกว่าที่เก็บข้อมูลอื่นๆ

การแปลงเป็นจำนวนเต็ม

คําที่รับค่าหลายค่าซึ่งอาจใช้ด้วยวิธีใดก็ได้ต่อไปนี้

  • การใช้การแบ่งกลุ่มข้อมูลตามควอร์ไทล์ในฟีเจอร์หนึ่งๆ
  • การเปลี่ยนข้อมูลให้เป็น 0 และ 1 เพื่อการจัดเก็บ การฝึก และอนุมานที่รวดเร็วขึ้น เนื่องจากข้อมูลบูลีนมีความทนทานต่อสัญญาณรบกวนและข้อผิดพลาดมากกว่ารูปแบบอื่นๆ การแปลงเป็นจำนวนเต็มจึงช่วยเพิ่มความถูกต้องของโมเดลได้ เทคนิคการแปลงค่าเป็นจำนวนเต็ม ได้แก่ การปัดเศษ การลบทศนิยม และการจัดกลุ่ม
  • การลดจํานวนบิตที่ใช้จัดเก็บพารามิเตอร์ของโมเดล ตัวอย่างเช่น สมมติว่าพารามิเตอร์ของโมเดลจัดเก็บเป็นจํานวนจุดลอยตัว 32 บิต การแปลงเชิงปริมาณจะแปลงพารามิเตอร์เหล่านั้นจาก 32 บิตเป็น 4, 8 หรือ 16 บิต การแปลงค่าจำนวนช่วยลดสิ่งต่อไปนี้

    • การใช้งานระบบประมวลผล หน่วยความจำ ดิสก์ และเครือข่าย
    • เวลาในการอนุมานการคาดการณ์
    • การใช้พลังงาน

    อย่างไรก็ตาม บางครั้งการแปลงเป็นจำนวนเต็มอาจทำให้การคาดการณ์ของโมเดลมีความแม่นยำลดลง

คิว

#TensorFlow

การดำเนินการของ TensorFlow ที่ใช้โครงสร้างข้อมูลคิว มักใช้ใน I/O

R

RAG

#fundamentals

ตัวย่อของ Generation ที่เพิ่มการดึงข้อมูล

Random Forest

#df

ชุดค่าผสมของต้นไม้การตัดสินใจ ซึ่งแต่ละต้นได้รับการฝึกด้วยสัญญาณรบกวนแบบสุ่มที่เฉพาะเจาะจง เช่น การแบ่งกลุ่ม

ป่าแบบสุ่มเป็นป่าการตัดสินใจประเภทหนึ่ง

นโยบายแบบสุ่ม

#rl

ในการเรียนรู้ด้วยการทำซ้ำ นโยบายที่เลือกการดำเนินการแบบสุ่ม

อันดับ (ลําดับชั้น)

ตำแหน่งตามลําดับของคลาสในปัญหาแมชชีนเลิร์นนิงที่จัดหมวดหมู่คลาสจากสูงสุดไปต่ำสุด เช่น ระบบการจัดอันดับพฤติกรรมอาจจัดอันดับรางวัลของสุนัขจากสูงสุด (สเต็ก) ไปจนถึงต่ำสุด (ผักคะน้าเหี่ยว)

rank (Tensor)

#TensorFlow

จํานวนมิติข้อมูลใน Tensor เช่น เวกเตอร์มีลําดับ 1, เมทริกซ์มีลําดับ 2 และจำนวนจริงมีลําดับ 0

โปรดอย่าสับสนกับลําดับ (ลําดับชั้น)

การจัดอันดับ

การเรียนรู้แบบควบคุมประเภทหนึ่งที่มีวัตถุประสงค์เพื่อจัดลําดับรายการ

ผู้ให้คะแนน

#fundamentals

บุคคลที่ระบุป้ายกำกับสำหรับตัวอย่าง "ผู้กำกับเนื้อหา" เป็นชื่อเรียกผู้ให้คะแนนอีกชื่อหนึ่ง

การเรียกคืน

เมตริกสําหรับโมเดลการจัดหมวดหมู่ที่ตอบคำถามต่อไปนี้

เมื่อข้อมูลจริงเป็นคลาสที่เป็นบวก เปอร์เซ็นต์การคาดการณ์ที่โมเดลระบุอย่างถูกต้องว่าเป็นคลาสที่เป็นบวกคือเท่าใด

สูตรมีดังนี้

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

where:

  • ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้ถูกต้อง
  • ผลลบลวงหมายความว่าโมเดลคาดการณ์ผิดพลาดว่าคลาสเชิงลบ

ตัวอย่างเช่น สมมติว่าโมเดลของคุณทำการคาดการณ์ 200 ครั้งในตัวอย่างที่มีข้อมูลพื้นความจริงเป็นคลาสที่เป็นบวก จากการคาดการณ์ 200 รายการนี้

  • 180 รายการเป็นผลบวกจริง
  • 20 รายการเป็นผลลบลวง

ในกรณีนี้

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้อง

การจําที่ k (recall@k)

#language

เมตริกสําหรับประเมินระบบที่แสดงรายการที่จัดอันดับ (เรียงลําดับ) การเรียกคืนที่ k จะระบุเศษส่วนของรายการที่เกี่ยวข้องในรายการ k รายการแรกในรายการนั้นจากจํานวนรายการที่เกี่ยวข้องทั้งหมดที่แสดง

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

เปรียบเทียบกับความแม่นยำที่ k

ระบบการแนะนำ

#recsystems

ระบบที่เลือกรายการที่ต้องการจำนวนไม่มากนักจากชุดข้อความขนาดใหญ่ให้กับผู้ใช้แต่ละราย ตัวอย่างเช่น ระบบการแนะนำวิดีโออาจแนะนำวิดีโอ 2 รายการจากคลังวิดีโอ 100,000 รายการ โดยเลือกCasablanca และThe Philadelphia Story สำหรับผู้ใช้รายหนึ่ง และWonder Woman และBlack Panther สำหรับอีกรายหนึ่ง ระบบการแนะนำวิดีโออาจใช้ปัจจัยต่อไปนี้เป็นพื้นฐานในการแนะนำ

  • ภาพยนตร์ที่ผู้ใช้ที่มีโปรไฟล์คล้ายกันให้คะแนนหรือดู
  • ประเภท ผู้กำกับ นักแสดง ข้อมูลประชากรเป้าหมาย...

Rectified Linear Unit (ReLU)

#fundamentals

ฟังก์ชันการเปิดใช้งานที่มีลักษณะการทำงานดังต่อไปนี้

  • หากอินพุตเป็นลบหรือ 0 เอาต์พุตจะเป็น 0
  • หากอินพุตเป็นค่าบวก เอาต์พุตจะเท่ากับอินพุต

เช่น

  • หากอินพุตคือ -3 เอาต์พุตจะเป็น 0
  • หากอินพุตคือ +3 เอาต์พุตจะเป็น 3.0

นี่คือผัง ReLU

ผังพิกัดคาร์ทีเซียนของเส้น 2 เส้น บรรทัดแรกมีค่า y คงที่ที่ 0 ซึ่งวิ่งไปตามแกน x จาก -infinity,0 ถึง 0,-0
          บรรทัดที่สองเริ่มต้นที่ 0,0 เส้นนี้มีความชัน +1 ดังนั้นจึงวิ่งจาก 0,0 ถึง +infinity,+infinity

ReLU เป็นฟังก์ชันการเปิดใช้งานที่ได้รับความนิยมมาก แม้จะมีการทำงานที่เรียบง่าย แต่ ReLU ยังคงช่วยให้เครือข่ายประสาทสามารถเรียนรู้ความสัมพันธ์ที่ไม่ใช่เชิงเส้นระหว่างฟีเจอร์กับป้ายกำกับ

โครงข่ายประสาทแบบซ้ำ

#seq

เครือข่ายประสาทเทียมที่ตั้งใจให้ทํางานหลายครั้ง โดยที่ส่วนหนึ่งของการทํางานแต่ละครั้งจะป้อนข้อมูลไปยังการทํางานครั้งถัดไป กล่าวโดยละเอียดคือ เลเยอร์ที่ซ่อนอยู่จากการเรียกใช้ก่อนหน้านี้จะส่งข้อมูลส่วนหนึ่งไปยังเลเยอร์ที่ซ่อนเดียวกันในการเรียกใช้ครั้งถัดไป เครือข่ายประสาทแบบซ้ำมีประโยชน์อย่างยิ่งในการประเมินลำดับ เพื่อให้ชั้นที่ซ่อนอยู่สามารถเรียนรู้จากการเรียกใช้เครือข่ายประสาทก่อนหน้านี้ในส่วนก่อนหน้าของลำดับ

เช่น รูปภาพต่อไปนี้แสดงเครือข่ายประสาทแบบซ้ำที่ทํางาน 4 ครั้ง โปรดทราบว่าค่าที่เรียนรู้ในชั้นที่ซ่อนจากการทำงานครั้งแรกจะกลายเป็นส่วนหนึ่งของอินพุตสําหรับชั้นที่ซ่อนเดียวกันในการทํางานครั้งที่ 2 ในทํานองเดียวกัน ค่าที่เรียนรู้ในชั้นซ่อนในการเรียกใช้ครั้งที่ 2 จะกลายเป็นส่วนหนึ่งของอินพุตสําหรับชั้นซ่อนเดียวกันในการเรียกใช้ครั้งที่ 3 วิธีนี้ช่วยให้เครือข่ายประสาทแบบซ้ำๆ ค่อยๆ ฝึกและคาดการณ์ความหมายของทั้งลำดับแทนที่จะคาดการณ์ความหมายของคำแต่ละคำ

RNN ที่ทำงาน 4 ครั้งเพื่อประมวลผลคำอินพุต 4 คำ

ข้อความอ้างอิง

#language
#generativeAI

คำตอบของผู้เชี่ยวชาญต่อพรอมต์ ตัวอย่างเช่น จากพรอมต์ต่อไปนี้

แปลคำถาม "คุณชื่ออะไร" จากภาษาอังกฤษเป็นภาษาฝรั่งเศส

คำตอบของผู้เชี่ยวชาญอาจเป็นดังนี้

Comment vous appelez-vous?

เมตริกต่างๆ (เช่น ROUGE) จะวัดระดับที่ข้อความอ้างอิงตรงกับข้อความที่สร้างขึ้นของโมเดล ML

โมเดลการเกิดปัญหาซ้ำ

#fundamentals

โมเดลที่สร้างการคาดการณ์ที่เป็นตัวเลข (ในทางตรงกันข้าม โมเดลการจัดประเภทจะสร้างการคาดการณ์ระดับชั้น) ตัวอย่างเช่น รูปแบบการหาค่าสัมประสิทธิ์ถดถอยทั้งหมดมีดังนี้

  • โมเดลที่คาดการณ์มูลค่าของบ้านหลังหนึ่งเป็นสกุลเงินยูโร เช่น 423,000
  • โมเดลที่คาดการณ์อายุคาดเฉลี่ยของต้นไม้บางต้นเป็นปี เช่น 23.2
  • โมเดลที่คาดการณ์ปริมาณน้ำฝนเป็นนิ้วที่จะตกในบางเมืองในช่วง 6 ชั่วโมงข้างหน้า เช่น 0.18

โมเดลการถดถอยที่พบได้ทั่วไป 2 ประเภท ได้แก่

โมเดลที่แสดงผลลัพธ์การคาดการณ์เชิงตัวเลขบางโมเดลไม่ใช่โมเดลการถดถอย ในบางกรณี การคาดการณ์ตัวเลขเป็นเพียงโมเดลการจัดประเภทที่มีชื่อคลาสเป็นตัวเลข ตัวอย่างเช่น โมเดลที่คาดการณ์รหัสไปรษณีย์ที่เป็นตัวเลขเป็นโมเดลการจัดประเภท ไม่ใช่โมเดลการถดถอย

Regularization

#fundamentals

กลไกใดๆ ที่ช่วยลดการจับคู่ที่มากเกินไป ประเภทการทำให้ถูกต้องที่นิยมมีดังนี้

การปรับให้เหมาะสมยังหมายถึงการลดโทษความซับซ้อนของโมเดลได้ด้วย

อัตราการจัดระเบียบ

#fundamentals

จํานวนซึ่งระบุความสําคัญแบบสัมพัทธ์ของการปรับให้เหมาะสมระหว่างการฝึก การเพิ่มอัตราการควบคุมช่วยลดการจับคู่ที่มากเกินไป แต่อาจลดความสามารถในการคาดการณ์ของโมเดล ในทางกลับกัน การลดหรือละเว้นอัตราการปรับให้เหมาะสมจะทําให้เกิดการพอดีมากเกินไป

การเรียนรู้ด้วยการทำซ้ำ (RL)

#rl

ตระกูลอัลกอริทึมที่เรียนรู้นโยบายที่เหมาะสมที่สุด โดยมีเป้าหมายเพื่อเพิ่มผลตอบแทนสูงสุดเมื่อโต้ตอบกับสภาพแวดล้อม เช่น รางวัลสูงสุดของเกมส่วนใหญ่คือการได้รับชัยชนะ ระบบการเรียนรู้ด้วยการทำซ้ำจะกลายเป็นผู้เชี่ยวชาญในการเล่นเกมที่ซับซ้อนได้โดยการประเมินลำดับของการเคลื่อนไหวในเกมก่อนหน้านี้ซึ่งนำไปสู่ชัยชนะและลำดับที่นำไปสู่การแพ้

การเรียนรู้แบบเสริมแรงจากความคิดเห็นของมนุษย์ (RLHF)

#generativeAI
#rl

ใช้ความคิดเห็นจากผู้ให้คะแนนที่เป็นมนุษย์เพื่อปรับปรุงคุณภาพของคำตอบของโมเดล เช่น กลไก RLHF อาจขอให้ผู้ใช้ให้คะแนนคุณภาพของคำตอบของโมเดลด้วยอีโมจิ 👍 หรือ 👎 จากนั้นระบบจะปรับการตอบกลับในอนาคตโดยอิงตามความคิดเห็นนั้น

ReLU

#fundamentals

ตัวย่อของ Rectified Linear Unit

บัฟเฟอร์การเล่นซ้ำ

#rl

ในอัลกอริทึมประเภท DQN หน่วยความจําที่เอเจนต์ใช้เพื่อจัดเก็บการเปลี่ยนสถานะเพื่อใช้ในการทําซ้ำประสบการณ์

ตัวจำลอง

สำเนาชุดข้อมูลการฝึกหรือโมเดล ซึ่งมักจะอยู่ในเครื่องอื่น ตัวอย่างเช่น ระบบอาจใช้กลยุทธ์ต่อไปนี้ในการใช้การขนานกันของข้อมูล

  1. วางแบบจำลองของโมเดลที่มีอยู่ในเครื่องหลายเครื่อง
  2. ส่งชุดย่อยที่แตกต่างกันของชุดการฝึกไปยังสําเนาแต่ละรายการ
  3. รวมการอัปเดตพารามิเตอร์

อคติในการรายงาน

#fairness

ความจริงที่ว่าความถี่ที่ผู้คนเขียนเกี่ยวกับการกระทำ ผลลัพธ์ หรือที่พักไม่ได้แสดงถึงความถี่ในชีวิตจริงหรือระดับที่ที่พักมีลักษณะเฉพาะของกลุ่มบุคคล ความลำเอียงในการรายงานอาจส่งผลต่อองค์ประกอบของข้อมูลที่ระบบแมชชีนเลิร์นนิงเรียนรู้

เช่น ในหนังสือ คำว่า laughed พบบ่อยกว่าbreathed โมเดลแมชชีนเลิร์นนิงที่ประมาณความถี่สัมพัทธ์ของการหัวเราะและการหายใจจากคลังหนังสืออาจพิจารณาว่าการหัวเราะพบบ่อยกว่าการหายใจ

การนำเสนอ

กระบวนการแมปข้อมูลกับฟีเจอร์ที่มีประโยชน์

การจัดอันดับใหม่

#recsystems

ระยะสุดท้ายของระบบการแนะนำ ซึ่งระบบอาจให้คะแนนรายการที่ได้รับคะแนนแล้วอีกครั้งตามอัลกอริทึมอื่นๆ (โดยทั่วไปไม่ใช่ ML) การจัดอันดับใหม่จะประเมินรายการที่สร้างขึ้นจากระยะการให้คะแนน โดยดำเนินการต่างๆ เช่น

  • การนำรายการที่ผู้ใช้ซื้อไปแล้วออก
  • เพิ่มคะแนนของรายการที่ใหม่กว่า

การสร้างที่เพิ่มการดึงข้อมูล (RAG)

#fundamentals

เทคนิคในการปรับปรุงคุณภาพของเอาต์พุตจากโมเดลภาษาขนาดใหญ่ (LLM) โดยอิงตามแหล่งความรู้ที่ดึงข้อมูลมาหลังจากฝึกโมเดลแล้ว RAG ช่วยเพิ่มความแม่นยำของคำตอบ LLM โดยการอนุญาตให้ LLM ที่ผ่านการฝึกอบรมเข้าถึงข้อมูลที่ดึงมาจากฐานความรู้หรือเอกสารที่เชื่อถือได้

แรงจูงใจทั่วไปในการใช้การสร้างที่เพิ่มการดึงข้อมูล ได้แก่

  • เพิ่มความแม่นยำของข้อเท็จจริงของคำตอบที่โมเดลสร้างขึ้น
  • การให้สิทธิ์เข้าถึงความรู้ที่โมเดลไม่ได้ฝึก
  • การเปลี่ยนความรู้ที่โมเดลใช้
  • การเปิดใช้โมเดลเพื่ออ้างอิงแหล่งที่มา

ตัวอย่างเช่น สมมติว่าแอปเคมีใช้ PaLM API เพื่อสร้างข้อมูลสรุปที่เกี่ยวข้องกับการค้นหาของผู้ใช้ เมื่อแบ็กเอนด์ของแอปได้รับการค้นหา แบ็กเอนด์จะดำเนินการดังนี้

  1. ค้นหา ("ดึงข้อมูล") ข้อมูลที่เกี่ยวข้องกับคําค้นหาของผู้ใช้
  2. ต่อท้าย ("เสริม") ข้อมูลเคมีที่เกี่ยวข้องลงในข้อความค้นหาของผู้ใช้
  3. สั่งให้ LLM สร้างข้อมูลสรุปตามข้อมูลที่ต่อท้าย

รีเทิร์น

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เมื่อพิจารณาจากนโยบายและสถานะหนึ่งๆ ผลตอบแทนคือผลรวมของรางวัลทั้งหมดที่เอเจนต์คาดหวังว่าจะได้รับเมื่อทำตามนโยบายจากสถานะจนถึงสิ้นสุดตอน ตัวแทนจะพิจารณาถึงลักษณะที่ล่าช้าของรางวัลที่คาดไว้โดยการหักรางวัลตามการเปลี่ยนสถานะที่จำเป็นต่อการรับรางวัล

ดังนั้น หากปัจจัยส่วนลดคือ \(\gamma\)และ \(r_0, \ldots, r_{N}\)บ่งบอกถึงรางวัลจนกว่าจะจบตอน การคำนวณผลตอบแทนจะมีลักษณะดังนี้

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

รางวัล

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ผลลัพธ์ที่เป็นตัวเลขของการทำการดำเนินการในสถานะตามที่สภาพแวดล้อมกำหนด

การปรับแนวสัน

คำพ้องความหมายของ Regularization แบบ 2 คําว่าการปรับยอดใช้ในบริบทสถิติล้วนๆ บ่อยกว่า ส่วนการปรับยอด 2 ใช้ในแมชชีนเลิร์นนิงบ่อยกว่า

RNN

#seq

ตัวย่อของ โครงข่ายประสาทแบบย้อนกลับ

เส้นโค้ง ROC (Receiver Operating Characteristic)

#fundamentals

กราฟของอัตราผลบวกจริงเทียบกับอัตราผลบวกลวงสําหรับเกณฑ์การจัดประเภทแบบต่างๆ ในการจัดประเภทแบบไบนารี

รูปร่างของเส้นโค้ง ROC บ่งบอกถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ ตัวอย่างเช่น สมมติว่าโมเดลการจัดประเภทแบบไบนารีแยกคลาสเชิงลบทั้งหมดออกจากคลาสเชิงบวกทั้งหมดได้อย่างสมบูรณ์

เส้นจำนวนที่มีตัวอย่างบวก 8 รายการทางด้านขวาและตัวอย่างลบ 7 รายการทางด้านซ้าย

เส้นโค้ง ROC ของรูปแบบก่อนหน้ามีลักษณะดังนี้

เส้นโค้ง ROC โดยแกน X คืออัตราผลบวกลวงและแกน Y คืออัตราผลบวกจริง เส้นโค้งมีรูปร่างคล้ายตัว L กลับหัว เส้นโค้งจะเริ่มต้นที่ (0.0,0.0) และขึ้นตรงๆ ไปที่ (0.0,1.0) จากนั้นเส้นโค้งจะเปลี่ยนจาก (0.0,1.0) เป็น (1.0,1.0)

ในทางตรงกันข้าม ภาพต่อไปนี้แสดงกราฟค่าการถดถอยเชิงลอจิสติกส์ดิบสําหรับโมเดลที่แย่มากซึ่งแยกคลาสเชิงลบออกจากคลาสเชิงบวกไม่ได้เลย

เส้นจำนวนที่มีตัวอย่างเชิงบวกและคลาสเชิงลบสับสนปนกัน

เส้นโค้ง ROC ของรูปแบบนี้จะมีลักษณะดังนี้

เส้นโค้ง ROC ซึ่งจริงๆ แล้วคือเส้นตรงจาก (0.0,0.0) ไป (1.0,1.0)

ในทางกลับกัน โมเดลการจัดประเภทแบบไบนารีส่วนใหญ่จะแยกคลาสที่เป็นบวกและลบในระดับหนึ่ง แต่มักจะไม่แยกได้อย่างสมบูรณ์ ดังนั้น กราฟ ROC ทั่วไปจึงอยู่ตรงกลางระหว่าง 2 ค่าสุดขั้วนี้

เส้นโค้ง ROC โดยแกน X คืออัตราผลบวกลวงและแกน Y คืออัตราผลบวกจริง เส้นโค้ง ROC แสดงเป็นเส้นโค้งที่ผันผวนซึ่งลากผ่านจุดต่างๆ ของเข็มทิศจากตะวันตกไปเหนือ

จุดบนเส้นโค้ง ROC ที่ใกล้กับ (0.0,1.0) มากที่สุดจะระบุเกณฑ์การแยกประเภทที่เหมาะสมในทางทฤษฎี อย่างไรก็ตาม ปัญหาอื่นๆ ที่เกิดขึ้นจริงหลายประการส่งผลต่อการเลือกเกณฑ์การจัดประเภทที่เหมาะสม ตัวอย่างเช่น ผลลบเท็จอาจทำให้เกิดปัญหามากกว่าผลบวกเท็จ

เมตริกตัวเลขที่เรียกว่า AUC จะสรุปเส้นโค้ง ROC เป็นค่าทศนิยมเดียว

พรอมต์บทบาท

#language
#generativeAI

ส่วนที่ไม่บังคับของพรอมต์ที่ระบุกลุ่มเป้าหมายสําหรับคําตอบของโมเดล Generative AI หากไม่มีพรอมต์บทบาท โมเดลภาษาขนาดใหญ่จะให้คำตอบที่อาจหรือไม่เป็นประโยชน์สำหรับบุคคลที่ถามคำถาม เมื่อใช้พรอมต์บทบาท โมเดลภาษาขนาดใหญ่จะตอบคำถามในลักษณะที่เหมาะสมและเป็นประโยชน์มากขึ้นสําหรับกลุ่มเป้าหมายที่เฉพาะเจาะจง ตัวอย่างเช่น ส่วนของพรอมต์บทบาทในพรอมต์ต่อไปนี้จะเป็นตัวหนา

  • สรุปบทความนี้สำหรับปริญญาเอกสาขาเศรษฐศาสตร์
  • อธิบายวิธีการทำงานของน้ำขึ้นน้ำลงสำหรับเด็กอายุ 10 ปี
  • อธิบายวิกฤตการเงินปี 2008 พูดเหมือนพูดกับเด็กเล็กหรือสุนัขพันธุ์โกลเด้นรีทรีฟเวอร์

รูท

#df

โหนดเริ่มต้น (เงื่อนไขแรก) ในแผนภูมิการตัดสินใจ ตามธรรมเนียมแล้ว แผนภาพจะวางรูทไว้ที่ด้านบนของแผนภูมิการตัดสินใจ เช่น

แผนภูมิการตัดสินใจที่มีเงื่อนไข 2 รายการและใบ 3 ใบ เงื่อนไขเริ่มต้น (x > 2) คือรูท

ไดเรกทอรีรูท

#TensorFlow

ไดเรกทอรีที่คุณระบุสำหรับการโฮสต์ไดเรกทอรีย่อยของไฟล์ตรวจสอบจุดพักและเหตุการณ์ของ TensorFlow ของโมเดลหลายรายการ

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)

#fundamentals

รากที่สองของความคลาดเคลื่อนเฉลี่ยกำลังสอง

ความไม่แปรปรวนตามการหมุน

#image

ในปัญหาการจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพได้สําเร็จแม้ว่าการวางแนวของรูปภาพจะเปลี่ยนไป ตัวอย่างเช่น อัลกอริทึมจะยังคงระบุไม้เทนนิสได้ไม่ว่าจะชี้ขึ้น ข้างๆ หรือลง โปรดทราบว่าการคงที่ในการหมุนไม่ใช่สิ่งที่ต้องการเสมอไป เช่น ไม่ควรจัดประเภท 9 กลับหัวเป็น 9

ดูข้อมูลเพิ่มเติมได้ที่การคงที่แบบแปลภาษาและการคงที่ของขนาด

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language

กลุ่มเมตริกที่ประเมินการสรุปอัตโนมัติและรูปแบบการแปลด้วยคอมพิวเตอร์ เมตริก ROUGE จะระบุระดับที่ข้อความอ้างอิงซ้อนทับกับข้อความที่สร้างขึ้นของโมเดล ML แต่ละสมาชิกของครอบครัว ROUGE จะวัดผลการซ้อนทับกันด้วยวิธีที่แตกต่างกัน คะแนน ROUGE ที่สูงขึ้นบ่งชี้ว่าข้อความอ้างอิงกับข้อความที่สร้างขึ้นมีความคล้ายคลึงกันมากกว่าคะแนน ROUGE ที่ต่ำ

โดยปกติแล้วสมาชิกในครอบครัว ROUGE แต่ละคนจะสร้างเมตริกต่อไปนี้

  • ความแม่นยำ
  • การจดจำ
  • F1

ดูรายละเอียดและตัวอย่างได้ที่

ROUGE-L

#language

สมาชิกของตระกูล ROUGE ที่มุ่งเน้นที่ความยาวของอนุกรมย่อยที่พบร่วมกันยาวที่สุดในข้อความอ้างอิงและข้อความที่สร้างขึ้น สูตรต่อไปนี้จะคํานวณการเรียกคืนและความแม่นยําสําหรับ ROUGE-L

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

จากนั้นคุณสามารถใช้ F1 เพื่อรวมการเรียกคืน ROUGE-L และแม่นยำของ ROUGE-L ไว้ในเมตริกเดียว ดังนี้

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L ไม่สนใจการขึ้นบรรทัดใหม่ในข้อความอ้างอิงและข้อความที่สร้างขึ้น ดังนั้นอนุกรมย่อยที่พบร่วมกันที่ยาวที่สุดอาจข้ามหลายประโยค เมื่อข้อความอ้างอิงและข้อความที่สร้างขึ้นมีประโยคหลายประโยค โดยทั่วไปแล้ว รูปแบบของ ROUGE-L ที่ชื่อ ROUGE-Lsum จะถือเป็นเมตริกที่ดีกว่า ROUGE-Lsum จะระบุอนุกรมย่อยที่พบร่วมกันยาวที่สุดสำหรับประโยคแต่ละประโยคในย่อหน้า จากนั้นจะคํานวณค่าเฉลี่ยของอนุกรมย่อยที่พบร่วมกันยาวที่สุดเหล่านั้น

ROUGE-N

#language

ชุดเมตริกภายในตระกูล ROUGE ที่เปรียบเทียบ N-gram ที่แชร์ซึ่งมีขนาดที่แน่นอนในข้อความอ้างอิงและข้อความที่สร้างขึ้น เช่น

  • ROUGE-1 จะวัดจํานวนโทเค็นที่แชร์ในข้อความอ้างอิงและข้อความที่สร้างขึ้น
  • ROUGE-2 จะวัดจํานวน Bigram (2-gram) ที่แชร์ในข้อความอ้างอิงและข้อความที่สร้างขึ้น
  • ROUGE-3 จะวัดจํานวน Trigram (3-gram) ที่แชร์ในข้อความอ้างอิงและข้อความที่สร้างขึ้น

คุณสามารถใช้สูตรต่อไปนี้เพื่อคํานวณการเรียกคืนและแม่นยําของ ROUGE-N สําหรับสมาชิกของครอบครัว ROUGE-N

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

จากนั้นคุณสามารถใช้ F1 เพื่อรวมการเรียกคืน ROUGE-N และแม่นยำของ ROUGE-N ไว้ในเมตริกเดียว ดังนี้

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

ROUGE-S

#language

รูปแบบที่ยืดหยุ่นของ ROUGE-N ที่เปิดใช้การจับคู่ Skip-Gram กล่าวคือ ROUGE-N จะนับเฉพาะ N-gram ที่ตรงกันทุกประการ แต่ ROUGE-S จะนับ N-gram ที่แยกกันด้วยคำอย่างน้อย 1 คำด้วย เช่น โปรดคำนึงถึงสิ่งต่อไปนี้

เมื่อคํานวณ ROUGE-N 2-gram White clouds ไม่ตรงกับ White billowing clouds อย่างไรก็ตาม เมื่อคำนวณ ROUGE-S คำว่าเมฆสีขาวจะตรงกับเมฆสีขาวที่ลอยอยู่

R-squared

เมตริกการถดถอยที่ระบุความแปรปรวนของป้ายกํากับที่เกิดจากฟีเจอร์แต่ละรายการหรือชุดฟีเจอร์ ค่า R-squared คือค่าระหว่าง 0 ถึง 1 ซึ่งคุณตีความได้ดังนี้

  • ค่า R-squared เท่ากับ 0 หมายความว่าความแปรปรวนของป้ายกำกับไม่ได้เกิดจากชุดฟีเจอร์
  • ค่า R-squared เท่ากับ 1 หมายความว่าความแปรปรวนทั้งหมดของป้ายกํากับเกิดจากชุดฟีเจอร์
  • ค่า R-squared ระหว่าง 0 ถึง 1 บ่งบอกถึงระดับที่ความหลากหลายของป้ายกำกับสามารถคาดการณ์ได้จากฟีเจอร์หนึ่งๆ หรือชุดฟีเจอร์ เช่น ค่า R ยกกำลังสอง 0.10 หมายความว่าความแปรปรวน 10 เปอร์เซ็นต์ในป้ายกำกับเกิดจากชุดฟีเจอร์ ค่า R ยกกำลังสอง 0.20 หมายความว่า 20 เปอร์เซ็นต์เกิดจากชุดฟีเจอร์ และอื่นๆ

ค่า R ยกกำลังสองคือค่ากำลังสองของสัมประสิทธิ์สหสัมพันธ์ของ Pearson ระหว่างค่าที่โมเดลคาดการณ์ไว้กับข้อมูลจากการสังเกตการณ์โดยตรง

S

อคติในการสุ่มตัวอย่าง

#fairness

ดูการเลือกแบบลำเอียง

การสุ่มตัวอย่างแบบสุ่มตัวอย่างแทนที่

#df

วิธีการเลือกรายการจากชุดรายการที่เป็นไปได้ ซึ่งสามารถเลือกรายการเดียวกันได้หลายครั้ง วลี "แบบสุ่มแทนที่" หมายความว่าหลังจากเลือกแต่ละรายการแล้ว ระบบจะส่งรายการที่เลือกกลับไปยังกลุ่มรายการที่เป็นไปได้ วิธีการแบบย้อนกลับคือการสุ่มตัวอย่างแบบไม่แทนที่ ซึ่งหมายความว่าจะเลือกรายการที่ตรงตามเกณฑ์ได้เพียงครั้งเดียว

ตัวอย่างเช่น ลองพิจารณาชุดผลไม้ต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

สมมติว่าระบบสุ่มเลือก fig เป็นรายการแรก หากใช้การสุ่มตัวอย่างแบบแทนที่ ระบบจะเลือกรายการที่ 2 จากชุดต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

ใช่ ชุดนั้นเหมือนกันกับก่อนหน้านี้ ระบบจึงอาจเลือก fig อีกครั้ง

หากใช้การสุ่มตัวอย่างแบบไม่แทนที่ เมื่อเลือกตัวอย่างแล้ว คุณจะเลือกตัวอย่างนั้นไม่ได้อีก ตัวอย่างเช่น หากระบบสุ่มเลือก fig เป็นตัวอย่างแรก ระบบจะไม่เลือก fig อีกครั้ง ดังนั้น ระบบจะเลือกตัวอย่างที่ 2 จากชุด (ที่ลดลง) ต่อไปนี้

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

รูปแบบที่แนะนําสําหรับการบันทึกและการกู้คืนโมเดล TensorFlow SavedModel เป็นรูปแบบการจัดรูปแบบแบบกู้คืนได้ซึ่งไม่ขึ้นอยู่กับภาษา ซึ่งช่วยให้ระบบและเครื่องมือระดับสูงขึ้นสามารถผลิต ใช้ และเปลี่ยนรูปแบบโมเดล TensorFlow ได้

ดูรายละเอียดทั้งหมดได้ที่ส่วนการบันทึกและการกู้คืนในคู่มือโปรแกรมเมอร์ TensorFlow

ประหยัด

#TensorFlow

ออบเจ็กต์ TensorFlow ที่มีหน้าที่บันทึกจุดตรวจสอบของโมเดล

สเกลาร์

ตัวเลขเดี่ยวหรือสตริงเดี่ยวที่แสดงเป็นเทนเซอร์อันดับ 0 ได้ ตัวอย่างเช่น บรรทัดโค้ดต่อไปนี้จะสร้างสเกลาร์ 1 รายการใน TensorFlow

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

การปรับขนาด

การเปลี่ยนรูปแบบทางคณิตศาสตร์หรือเทคนิคใดๆ ที่เปลี่ยนช่วงของป้ายกำกับและ/หรือค่าฟีเจอร์ การแปลงรูปแบบบางอย่างมีประโยชน์มากสําหรับการเปลี่ยนรูปแบบ เช่น การปรับให้เป็นมาตรฐาน

รูปแบบการปรับขนาดทั่วไปที่มีประโยชน์ในแมชชีนเลิร์นนิง ได้แก่

  • การแปลงเชิงเส้น ซึ่งโดยทั่วไปจะใช้การลบและการหารร่วมกันเพื่อแทนที่ค่าเดิมด้วยตัวเลขระหว่าง -1 ถึง +1 หรือระหว่าง 0 ถึง 1
  • การปรับขนาดแบบลอการิทึม ซึ่งแทนที่ค่าเดิมด้วยลอการิทึมของค่านั้น
  • การปรับให้เป็นมาตรฐานตามคะแนน z ซึ่งแทนที่ค่าเดิมด้วยค่าทศนิยมที่แสดงจํานวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของฟีเจอร์นั้น

scikit-learn

แพลตฟอร์มแมชชีนเลิร์นนิงแบบโอเพนซอร์สยอดนิยม ดูข้อมูลได้ที่ scikit-learn.org

การให้คะแนน

#recsystems

ส่วนหนึ่งของระบบการแนะนำที่ให้ค่าหรือการจัดอันดับสำหรับรายการแต่ละรายการที่สร้างขึ้นจากระยะการสร้างผู้สมัคร

อคติในการเลือก

#fairness

ข้อผิดพลาดในการสรุปที่ได้จากข้อมูลตัวอย่างเนื่องจากกระบวนการเลือกที่ทำให้เกิดความแตกต่างอย่างเป็นระบบระหว่างตัวอย่างที่สังเกตได้ในข้อมูลและตัวอย่างที่ไม่ได้สังเกต ความลำเอียงในการเลือกมีอยู่ในรูปแบบต่อไปนี้

  • อคติด้านความครอบคลุม: ประชากรที่แสดงในชุดข้อมูลไม่ตรงกับประชากรที่โมเดลแมชชีนเลิร์นนิงทำการคาดการณ์
  • การเลือกตัวอย่างแบบลำเอียง: ไม่ได้รวบรวมข้อมูลจากกลุ่มเป้าหมายแบบสุ่ม
  • อคติที่ไม่ตอบ (หรือที่เรียกว่าอคติในการเข้าร่วม): ผู้ใช้จากกลุ่มหนึ่งเลือกไม่ตอบแบบสํารวจในอัตราที่แตกต่างจากผู้ใช้จากกลุ่มอื่น

ตัวอย่างเช่น สมมติว่าคุณกำลังสร้างโมเดลแมชชีนเลิร์นนิงที่คาดการณ์ความพึงพอใจของผู้คนที่มีต่อภาพยนตร์ หากต้องการรวบรวมข้อมูลสำหรับการฝึกอบรม คุณอาจแจกแบบสํารวจให้ทุกคนในแถวหน้าของโรงภาพยนตร์ที่ฉายภาพยนตร์ ฟังดูแล้วอาจดูเหมือนเป็นวิธีที่สมเหตุสมผลในการรวบรวมชุดข้อมูล แต่การเก็บรวบรวมข้อมูลในรูปแบบนี้อาจทำให้เกิดการเลือกแบบลำเอียงในรูปแบบต่อไปนี้

  • ความลำเอียงด้านความครอบคลุม: การสุ่มตัวอย่างจากประชากรที่เลือกดูภาพยนตร์อาจทําให้การคาดการณ์ของโมเดลไม่สามารถนําไปใช้กับผู้ที่ไม่ได้แสดงความสนใจระดับนั้นในภาพยนตร์
  • ความลำเอียงในการสุ่มตัวอย่าง: คุณสุ่มตัวอย่างเฉพาะผู้ที่นั่งแถวหน้าแทนที่จะสุ่มตัวอย่างจากประชากรเป้าหมาย (ทุกคนที่ดูภาพยนตร์) เป็นไปได้ว่าผู้ที่นั่งแถวหน้าสนใจภาพยนตร์มากกว่าผู้ที่นั่งแถวอื่น
  • ความลำเอียงจากการไม่ตอบ: โดยทั่วไปแล้ว ผู้ที่ยึดมั่นในความคิดเห็นของตนมีแนวโน้มที่จะตอบแบบสํารวจที่ไม่บังคับบ่อยกว่าผู้ที่ยึดมั่นในความคิดเห็นของตนไม่มากนัก เนื่องจากแบบสํารวจภาพยนตร์เป็นแบบไม่บังคับ คำตอบจึงมีแนวโน้มที่จะเป็นแบบกระจาย 2 กลุ่มมากกว่าแบบกระจายปกติ (รูประฆัง)

การใส่ใจตนเอง (หรือที่เรียกว่าเลเยอร์การใส่ใจตนเอง)

#language

เลเยอร์เครือข่ายประสาทที่เปลี่ยนลําดับของ Embdedding (เช่น Embdedding โทเค็น) เป็นลําดับ Embdedding อื่น แต่ละการฝังในลำดับเอาต์พุตสร้างขึ้นโดยการรวมข้อมูลจากองค์ประกอบของลำดับอินพุตผ่านกลไกการใส่ใจ

ส่วน self ของ self-attention หมายถึงลำดับที่สนใจตัวมันเอง ไม่ใช่บริบทอื่น การใส่ใจตนเองเป็นหนึ่งในองค์ประกอบหลักของ Transformer และใช้คำศัพท์การค้นหาพจนานุกรม เช่น "การค้นหา" "คีย์" และ "ค่า"

เลเยอร์ Self-Attention เริ่มต้นด้วยลําดับของการแสดงข้อมูลอินพุต 1 รายการสําหรับแต่ละคํา การนําเสนออินพุตสําหรับคําอาจเป็นการฝังข้อมูลแบบง่าย สําหรับคําแต่ละคําในลําดับอินพุต เครือข่ายจะประเมินความเกี่ยวข้องของคํานั้นกับองค์ประกอบทุกรายการในลําดับคําทั้งหมด คะแนนความเกี่ยวข้องจะกําหนดว่าการแสดงผลสุดท้ายของคํารวมเอาการแสดงผลของคําอื่นๆ มากน้อยเพียงใด

ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

สัตว์ไม่ข้ามถนนเพราะเหนื่อยเกินไป

ภาพต่อไปนี้ (จาก Transformer: A Novel Neural Network Architecture for Language Understanding) แสดงรูปแบบการให้ความสำคัญกับเลเยอร์การให้ความสำคัญกับตนเองสำหรับคำสรรพนาม it โดยความเข้มของเส้นแต่ละเส้นจะบ่งบอกถึงระดับที่แต่ละคำมีส่วนร่วมในการแสดงแทน

ประโยคต่อไปนี้ปรากฏขึ้น 2 ครั้ง: สัตว์ไม่ข้ามถนนเนื่องจากเหนื่อยเกินไป เส้นเชื่อมต่อคำสรรพนาม it ในประโยคหนึ่งกับโทเค็น 5 รายการ (The, animal, street, it และ period) ในประโยคอื่น  เส้นแบ่งระหว่างคำสรรพนาม it และคำว่า animal ชัดเจนที่สุด

เลเยอร์การใส่ใจตนเองจะไฮไลต์คำที่เกี่ยวข้องกับ "มัน" ในกรณีนี้ เลเยอร์ความสนใจได้เรียนรู้ที่จะไฮไลต์คำที่มันอาจอ้างอิงถึง โดยกำหนดน้ำหนักสูงสุดให้กับสัตว์

สําหรับลําดับ โทเค็น n รายการ การใส่ใจตนเองจะเปลี่ยนลําดับของ n รายการ embeddings แยกกันทีละรายการตามตําแหน่งในลําดับ

โปรดดูการใส่ใจและการใส่ใจตนเองแบบ Multi-Head ด้วย

การเรียนรู้แบบควบคุมดูแลด้วยตนเอง

กลุ่มเทคนิคในการแปลงปัญหาแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลให้เป็นปัญหาแมชชีนเลิร์นนิงที่มีการควบคุมดูแลด้วยการสร้างป้ายกำกับแทนจากตัวอย่างที่ไม่มีป้ายกำกับ

โมเดลที่อิงตาม Transformer บางรุ่น เช่น BERT ใช้การเรียนรู้แบบควบคุมดูแลตนเอง

การฝึกแบบควบคุมดูแลด้วยตนเองเป็นแนวทางการเรียนรู้แบบควบคุมดูแลบางส่วน

การฝึกอบรมด้วยตนเอง

รูปแบบหนึ่งของการเรียนรู้แบบควบคุมดูแลตนเองที่มีประโยชน์อย่างยิ่งเมื่อเงื่อนไขต่อไปนี้ทั้งหมดเป็นจริง

การฝึกด้วยตนเองจะทํางานโดยการทําซ้ำ 2 ขั้นตอนต่อไปนี้จนกว่าโมเดลจะหยุดปรับปรุง

  1. ใช้แมชชีนเลิร์นนิงที่มีการควบคุมดูแลเพื่อฝึกโมเดลด้วยตัวอย่างที่ติดป้ายกำกับ
  2. ใช้โมเดลที่สร้างในขั้นตอนที่ 1 เพื่อสร้างการคาดการณ์ (ป้ายกํากับ) ในตัวอย่างที่ไม่มีป้ายกํากับ โดยย้ายตัวอย่างที่มีความเชื่อมั่นสูงไปยังตัวอย่างที่มีป้ายกํากับซึ่งมีป้ายกํากับที่คาดการณ์

โปรดทราบว่าแต่ละรอบของขั้นตอนที่ 2 จะเพิ่มตัวอย่างที่มีป้ายกำกับมากขึ้นเพื่อให้ขั้นตอนที่ 1 ใช้ฝึก

การเรียนรู้แบบควบคุมบางส่วน

การฝึกโมเดลด้วยข้อมูลที่มีตัวอย่างการฝึกบางส่วนมีป้ายกำกับ แต่ตัวอย่างอื่นๆ ไม่มี เทคนิคอย่างหนึ่งของการเรียนรู้แบบควบคุมบางส่วนคือการอนุมานป้ายกำกับสำหรับตัวอย่างที่ไม่มีป้ายกำกับ จากนั้นฝึกป้ายกำกับที่อนุมานเพื่อสร้างโมเดลใหม่ การเรียนรู้แบบควบคุมดูแลบางส่วนจะมีประโยชน์ในกรณีที่การหาป้ายกำกับมีค่าใช้จ่ายสูงแต่มีตัวอย่างที่ไม่มีป้ายกำกับจำนวนมาก

การฝึกด้วยตนเองเป็นเทคนิคหนึ่งสำหรับการเรียนรู้แบบควบคุมบางส่วน

แอตทริบิวต์ที่มีความละเอียดอ่อน

#fairness
แอตทริบิวต์ของมนุษย์ที่อาจได้รับการพิจารณาเป็นพิเศษเนื่องจากเหตุผลทางกฎหมาย ทางจริยธรรม ทางสังคม หรือส่วนบุคคล

การวิเคราะห์ความเห็น

#language

การใช้อัลกอริทึมสถิติหรือแมชชีนเลิร์นนิงเพื่อพิจารณาทัศนคติโดยรวมของกลุ่ม (เชิงบวกหรือเชิงลบ) ต่อบริการ ผลิตภัณฑ์ องค์กร หรือหัวข้อ เช่น เมื่อใช้ความเข้าใจภาษาธรรมชาติ อัลกอริทึมอาจทำการวิเคราะห์ความรู้สึกในความคิดเห็นที่เป็นข้อความจากหลักสูตรของมหาวิทยาลัยเพื่อพิจารณาระดับที่นักเรียนชอบหรือไม่ชอบหลักสูตรโดยทั่วไป

รูปแบบลําดับ

#seq

โมเดลที่อินพุตมีความเกี่ยวข้องตามลำดับ เช่น การคาดคะเนวิดีโอถัดไปที่จะรับชมจากลำดับวิดีโอที่ดูก่อนหน้านี้

งานแบบอนุกรมต่ออนุกรม

#language

งานที่จะแปลงลำดับอินพุตของโทเค็นเป็นลำดับเอาต์พุตของโทเค็น ตัวอย่างเช่น งานประเภทอนุกรมต่ออนุกรมที่ได้รับความนิยม 2 ประเภท ได้แก่

  • ผู้แปล
    • ตัวอย่างลำดับอินพุต: "ฉันรักคุณ"
    • ตัวอย่างลำดับเอาต์พุต: "Je t'aime."
  • การตอบคําถาม
    • ตัวอย่างลำดับอินพุต: "Do I need my car in New York City?" (ฉันต้องใช้รถในนิวยอร์กซิตี้ไหม)
    • ตัวอย่างลำดับเอาต์พุต: "ไม่ โปรดเก็บรถไว้ที่บ้าน"

หน่วยบริโภค

กระบวนการทําให้โมเดลที่ผ่านการฝึกพร้อมใช้งานเพื่อคาดการณ์ผ่านการอนุมานออนไลน์หรือการอนุมานแบบออฟไลน์

รูปร่าง (Tensor)

จํานวนองค์ประกอบในมิติข้อมูลแต่ละรายการของเทนเซอร์ รูปร่างจะแสดงเป็นรายการจำนวนเต็ม ตัวอย่างเช่น เทนเซอร์ 2 มิติต่อไปนี้มีรูปร่างเป็น [3,4]

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow ใช้รูปแบบแถวหลัก (สไตล์ C) เพื่อแสดงลําดับของมิติข้อมูล ด้วยเหตุนี้รูปร่างใน TensorFlow จึงต้องเป็น [3,4] ไม่ใช่ [4,3] กล่าวคือ ใน Tensor ของ TensorFlow แบบ 2 มิติ รูปร่างจะคือ [จํานวนแถว จํานวนคอลัมน์]

รูปร่างแบบคงที่คือรูปร่างของเทมพอร์ที่ทราบ ณ เวลาที่คอมไพล์

รูปร่างแบบไดนามิกไม่รู้จักในเวลาคอมไพล์ จึงขึ้นอยู่กับข้อมูลรันไทม์ เทนเซอร์นี้อาจแสดงด้วยมิติข้อมูลตัวยึดตําแหน่งใน TensorFlow ดังใน [3, ?]

ชาร์ด

#TensorFlow
#GoogleCloud

การแบ่งชุดข้อมูลการฝึกหรือโมเดลอย่างมีเหตุผล โดยทั่วไป กระบวนการบางอย่างจะสร้างกลุ่มย่อยโดยการแบ่งตัวอย่างหรือพารามิเตอร์ออกเป็นกลุ่มที่มีขนาดเท่าๆ กัน (โดยปกติ) จากนั้นระบบจะกำหนดแต่ละกลุ่มให้กับเครื่องที่แตกต่างกัน

การแยกกลุ่มโมเดลเรียกว่าการทํางานแบบขนานของโมเดล ส่วนการแยกกลุ่มข้อมูลเรียกว่าการทํางานแบบขนานของข้อมูล

การหดตัว

#df

ไฮเปอร์พารามิเตอร์ในการเพิ่มประสิทธิภาพด้วยการเพิ่มการถดถอยที่ควบคุมการประมาณที่มากเกินไป การลดลงในการเพิ่มประสิทธิภาพด้วยการเพิ่มการลาดชันจะคล้ายกับอัตราการเรียนรู้ในการลดการลาดชัน การหดตัวคือค่าทศนิยมระหว่าง 0.0 ถึง 1.0 ค่าการหดตัวที่ต่ำลงจะช่วยลดการพอดีมากเกินไปได้มากกว่าค่าการหดตัวที่สูง

ฟังก์ชัน Sigmoid

#fundamentals

ฟังก์ชันทางคณิตศาสตร์ที่ "บีบอัด" ค่าอินพุตให้อยู่ในช่วงที่จํากัด ซึ่งโดยทั่วไปคือ 0 ถึง 1 หรือ -1 ถึง +1 กล่าวคือ คุณสามารถส่งตัวเลขใดก็ได้ (2 ล้าน ลบ 1,000 ล้าน หรืออะไรก็ตาม) ไปยัง Sigmoid และเอาต์พุตจะยังคงอยู่ในช่วงที่จํากัด ผังฟังก์ชันการเปิดใช้งาน Sigmoid มีลักษณะดังนี้

ผังโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมนจาก -infinity ถึง +positive ส่วนค่า y ครอบคลุมช่วงเกือบ 0 ถึงเกือบ 1 เมื่อ x เป็น 0, y เป็น 0.5 ความชันของเส้นโค้งจะเป็นค่าบวกเสมอ โดยมีค่าสูงสุดที่ 0,0.5 และค่อยๆ ลดลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ฟังก์ชัน Sigmoid มีประโยชน์หลายอย่างในแมชชีนเลิร์นนิง ดังนี้

การวัดความคล้ายคลึง

#clustering

ในอัลกอริทึมการจัดกลุ่ม เมตริกที่ใช้เพื่อระบุความคล้ายคลึงกัน (ความคล้ายกัน) ของตัวอย่าง 2 รายการ

โปรแกรมเดียว / ข้อมูลหลายรายการ (SPMD)

เทคนิคการทำงานแบบขนานที่ดำเนินการคํานวณเดียวกันกับข้อมูลอินพุตที่แตกต่างกันในอุปกรณ์ต่างๆ พร้อมกัน เป้าหมายของ SPMD คือเพื่อให้ได้ผลลัพธ์เร็วขึ้น ซึ่งเป็นรูปแบบการเขียนโปรแกรมแบบขนานที่พบบ่อยที่สุด

ความไม่เปลี่ยนแปลงตามขนาด

#image

ในปัญหาการจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพให้สำเร็จแม้ว่าขนาดของรูปภาพจะเปลี่ยนแปลงไป ตัวอย่างเช่น อัลกอริทึมจะยังคงระบุแมวได้ไม่ว่าจะใช้พื้นที่ 2 ล้านพิกเซลหรือ 200,000 พิกเซล โปรดทราบว่าอัลกอริทึมการจัดประเภทรูปภาพที่ดีที่สุดก็ยังมีข้อจำกัดด้านขนาดที่คงที่ ตัวอย่างเช่น อัลกอริทึม (หรือมนุษย์) ไม่สามารถจัดประเภทรูปภาพแมวที่มีขนาดเพียง 20 พิกเซลได้อย่างถูกต้อง

ดูข้อมูลเพิ่มเติมได้ที่การคงที่แบบแปลและการคงที่แบบหมุน

การสเก็ตช์ภาพ

#clustering

ในแมชชีนเลิร์นนิงที่ไม่มีการกำกับดูแล ซึ่งเป็นหมวดหมู่อัลกอริทึมที่ทําการวิเคราะห์ความคล้ายคลึงเบื้องต้นจากตัวอย่าง อัลกอริทึมการร่างภาพใช้ ฟังก์ชันแฮชที่คำนึงถึงตำแหน่งเพื่อระบุจุดที่มีแนวโน้มจะคล้ายกัน จากนั้นจึงจัดกลุ่มจุดเหล่านั้นเป็นกลุ่ม

การร่างภาพจะลดการประมวลผลที่จําเป็นสําหรับการคํานวณความคล้ายคลึงในชุดข้อมูลขนาดใหญ่ เราจะคำนวณความคล้ายคลึงสำหรับคู่ตัวอย่างแต่ละคู่ภายในแต่ละที่เก็บข้อมูลแทนที่จะคำนวณความคล้ายคลึงสำหรับคู่ตัวอย่างทุกคู่ในชุดข้อมูล

Skip-gram

#language

N-gram ซึ่งอาจละเว้น (หรือ "ข้าม") คําจากบริบทเดิม ซึ่งหมายความว่าคํา N คําอาจไม่ได้อยู่ติดกันตั้งแต่แรก กล่าวอย่างละเอียดคือ "k-skip-n-gram" คือ n-gram ที่อาจมีการข้ามคำได้สูงสุด k คำ

เช่น "the quick brown fox" มี 2-gram ที่เป็นไปได้ดังต่อไปนี้

  • "the quick"
  • "quick brown"
  • "หมาป่าสีน้ำตาล"

"1-skip-2-gram" คือคู่คำที่มีคำคั่นระหว่างกันไม่เกิน 1 คำ ดังนั้น "the quick brown fox" จึงมี 2-gram แบบข้าม 1 รายการดังต่อไปนี้

  • "the brown"
  • "quick fox"

นอกจากนี้ 2-gram ทั้งหมดยังเป็น 1-skip-2-gram ด้วย เนื่องจากอาจข้ามได้น้อยกว่า 1 คำ

Skip-gram มีประโยชน์ในการทําความเข้าใจบริบทรอบๆ คํามากขึ้น ในตัวอย่างนี้ "fox" เชื่อมโยงโดยตรงกับ "quick" ในชุด 1-skip-2-gram แต่ไม่ได้อยู่ในชุด 2-gram

Skip-gram ช่วยฝึกโมเดลการฝังคำ

softmax

#fundamentals

ฟังก์ชันที่กําหนดความน่าจะเป็นสําหรับแต่ละคลาสที่เป็นไปได้ในโมเดลการจัดประเภทแบบหลายคลาส ความน่าจะเป็นทั้งหมดจะเท่ากับ 1.0 เช่น ตารางต่อไปนี้แสดงวิธีที่ Softmax แจกแจงความน่าจะเป็นต่างๆ

รูปภาพเป็น... Probability
สุนัข .85
แมว .13
ม้า .02

Softmax เรียกอีกอย่างว่า Full Softmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

การปรับแต่งพรอมต์แบบเบา

#language
#generativeAI

เทคนิคการปรับโมเดลภาษาขนาดใหญ่สำหรับงานหนึ่งๆ โดยไม่ต้องปรับแต่งอย่างละเอียดซึ่งใช้ทรัพยากรมาก การปรับพรอมต์แบบนุ่มจะปรับพรอมต์โดยอัตโนมัติเพื่อให้บรรลุเป้าหมายเดียวกันแทนที่จะฝึกน้ำหนักทั้งหมดในโมเดลใหม่

เมื่อได้รับพรอมต์ที่เป็นข้อความ การปรับพรอมต์แบบ Soft มักจะเพิ่มการฝังโทเค็นเพิ่มเติมลงในพรอมต์ และใช้ Backpropagation เพื่อเพิ่มประสิทธิภาพอินพุต

พรอมต์ "แบบแข็ง" มีโทเค็นจริงแทนการฝังโทเค็น

องค์ประกอบที่กระจัดกระจาย

#language
#fundamentals

ฟีเจอร์ที่มีค่าเป็น 0 หรือว่างเปล่าเป็นส่วนใหญ่ เช่น ฟีเจอร์ที่มีค่า 1 รายการเดียวและค่า 0 1 ล้านรายการจะมีความกระจัดกระจาย ในทางตรงกันข้าม ฟีเจอร์แบบหนาแน่นมีค่าที่ส่วนใหญ่ไม่ใช่ 0 หรือว่าง

ในแมชชีนเลิร์นนิง ฟีเจอร์จำนวนมากเป็นฟีเจอร์ที่กระจัดกระจาย ฟีเจอร์เชิงหมวดหมู่มักจะเป็นฟีเจอร์ที่กระจัดกระจาย เช่น จากต้นไม้ 300 สายพันธุ์ที่เป็นไปได้ในป่า ตัวอย่างเดียวอาจระบุได้เพียงต้นเมเปิล หรือจากวิดีโอที่เป็นไปได้หลายล้านรายการในคลังวิดีโอ ตัวอย่างเพียงรายการเดียวอาจระบุแค่ "Casablanca"

ในโมเดล โดยทั่วไปคุณแสดงฟีเจอร์แบบเบาบางด้วยการเข้ารหัสแบบฮอตเวิร์ก หากการเข้ารหัสแบบฮอตเวิร์กมีขนาดใหญ่ คุณอาจใส่เลเยอร์การฝังไว้ด้านบนการเข้ารหัสแบบฮอตเวิร์กเพื่อให้มีประสิทธิภาพมากขึ้น

การนําเสนอแบบเบาบาง

#language
#fundamentals

การจัดเก็บเฉพาะตําแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์แบบเบาบาง

ตัวอย่างเช่น สมมติว่าองค์ประกอบเชิงหมวดหมู่ชื่อ species ระบุสายพันธุ์ต้นไม้ 36 ชนิดในป่าแห่งหนึ่ง และสมมติเพิ่มเติมว่า ตัวอย่างแต่ละรายการระบุเพียงสปีชีส์เดียว

คุณสามารถใช้เวกเตอร์แบบฮอตเวิร์ก 1 รายการเพื่อแสดงสายพันธุ์ต้นไม้ในแต่ละตัวอย่าง เวกเตอร์แบบฮอตเวิร์กเดียวจะมี 1 รายการเดียว (เพื่อแสดงถึงพันธุ์ไม้บางชนิดในตัวอย่างนั้น) และ 0 35 รายการ (เพื่อแสดงถึงพันธุ์ไม้ 35 ชนิดที่ไม่อยู่ในตัวอย่างนั้น) ดังนั้นการนําเสนอแบบฮอตเวิร์ดของ maple จึงอาจมีลักษณะดังนี้

เวกเตอร์ที่ตำแหน่ง 0 ถึง 23 มีค่าเป็น 0, ตำแหน่ง 24 มีค่าเป็น 1 และตำแหน่ง 25 ถึง 35 มีค่าเป็น 0

หรือการแสดงแบบเบาบางจะระบุตำแหน่งของพันธุ์นั้นๆ เท่านั้น หาก maple อยู่ที่ตําแหน่ง 24 การแสดงแบบเบาบางของ maple จะเป็นดังนี้

24

โปรดสังเกตว่าการนําเสนอแบบเบาบางมีความกะทัดรัดกว่าการนําเสนอแบบฮอตเวิร์ก

เวกเตอร์แบบเบาบาง

#fundamentals

เวกเตอร์ที่มีค่าเป็น 0 ส่วนใหญ่ โปรดดูฟีเจอร์แบบเบาบางและความเบาบางด้วย

การขาดแคลนข้อมูล

จํานวนองค์ประกอบที่ตั้งค่าเป็น 0 (หรือ Null) ในเวกเตอร์หรือเมทริกซ์หารด้วยจํานวนรายการทั้งหมดในเวกเตอร์หรือเมทริกซ์นั้น ตัวอย่างเช่น ลองพิจารณาเมทริกซ์ที่มีองค์ประกอบ 100 รายการ ซึ่ง 98 เซลล์มีค่าเป็น 0 การคำนวณความถี่ต่ำมีดังนี้

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

ความถี่ต่ำขององค์ประกอบหมายถึงความถี่ต่ำของเวกเตอร์องค์ประกอบ ส่วนความถี่ต่ำของโมเดลหมายถึงความถี่ต่ำของน้ำหนักโมเดล

การรวมข้อมูลเชิงพื้นที่

#image

ดูการรวม

แยก

#df

ในแผนภูมิการตัดสินใจ ชื่อเรียกอีกอย่างของเงื่อนไข

ตัวแยก

#df

ขณะฝึกแผนผังการตัดสินใจ รูทีน (และอัลกอริทึม) จะมีหน้าที่ค้นหาเงื่อนไขที่ดีที่สุดในแต่ละโหนด

SPMD

ตัวย่อสำหรับโปรแกรมเดียว / ข้อมูลหลายรายการ

ผลรวมของการสูญเสียบานพับกำลังสอง

ผลคูณของ การสูญเสียจากการเปิด/ปิด ผลรวมของการสูญเสียแบบสี่เหลี่ยมจัตุรัสจะลงโทษค่าที่ผิดปกติรุนแรงกว่าผลรวมของการสูญเสียแบบปกติ

ผลรวมของค่าสัมบูรณ์ของข้อผิดพลาด

#fundamentals

คำพ้องความหมายของการสูญเสีย L2

การฝึกแบบเป็นขั้น

#language

กลยุทธ์การฝึกโมเดลตามลำดับขั้นตอนที่แยกกัน เป้าหมายอาจเป็นการเร่งกระบวนการฝึกอบรมหรือเพื่อให้ได้โมเดลที่มีคุณภาพดีขึ้น

ภาพประกอบของแนวทางการซ้อนที่เพิ่มขึ้นแสดงอยู่ด้านล่าง

  • ระยะที่ 1 มีเลเยอร์ที่ซ่อนอยู่ 3 เลเยอร์ ระยะที่ 2 มีเลเยอร์ที่ซ่อนอยู่ 6 เลเยอร์ และระยะที่ 3 มีเลเยอร์ที่ซ่อนอยู่ 12 เลเยอร์
  • ระยะที่ 2 จะเริ่มการฝึกด้วยน้ำหนักที่เรียนรู้ในเลเยอร์ที่ซ่อนอยู่ 3 เลเยอร์ของระยะที่ 1 ระยะที่ 3 จะเริ่มการฝึกด้วยน้ำหนักที่เรียนรู้ในเลเยอร์ที่ซ่อนอยู่ 6 เลเยอร์ของระยะที่ 2

3 ระยะ ซึ่งมีการติดป้ายกำกับไว้ว่าระยะที่ 1, ระยะที่ 2 และระยะที่ 3
          แต่ละระยะมีจำนวนเลเยอร์แตกต่างกัน โดยระยะที่ 1 มี 3 เลเยอร์ ระยะที่ 2 มี 6 เลเยอร์ และระยะที่ 3 มี 12 เลเยอร์
          เลเยอร์ 3 ชั้นจากระยะที่ 1 จะกลายเป็นเลเยอร์ 3 ชั้นแรกของระยะที่ 2
          ในทํานองเดียวกัน เลเยอร์ 6 ชั้นจากระยะที่ 2 จะกลายเป็นเลเยอร์ 6 ชั้นแรกของระยะที่ 3

โปรดดูการไปป์ไลน์ด้วย

รัฐ

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ค่าพารามิเตอร์ที่อธิบายการกำหนดค่าปัจจุบันของสภาพแวดล้อม ซึ่งเอเจนต์ใช้เพื่อเลือกการดำเนินการ

ฟังก์ชันค่าสถานะการดําเนินการ

#rl

คำพ้องความหมายของฟังก์ชัน Q

คงที่

#fundamentals

การดำเนินการแบบครั้งเดียวแทนที่จะเป็นการดำเนินการอย่างต่อเนื่อง คําว่าคงที่และออฟไลน์เป็นคําพ้องกัน ต่อไปนี้เป็นการใช้งานทั่วไปของแบบคงที่และออฟไลน์ในแมชชีนเลิร์นนิง

  • โมเดลแบบคงที่ (หรือโมเดลออฟไลน์) คือโมเดลที่ฝึกเพียงครั้งเดียวแล้วนําไปใช้เป็นระยะเวลาหนึ่ง
  • การฝึกแบบคงที่ (หรือการฝึกแบบออฟไลน์) คือกระบวนการฝึกโมเดลแบบคงที่
  • การอนุมานแบบคงที่ (หรือการอนุมานแบบออฟไลน์) เป็นกระบวนการที่โมเดลสร้างการคาดการณ์หลายรายการพร้อมกัน

ตรงข้ามกับแบบไดนามิก

การให้เหตุผลแบบคงที่

#fundamentals

คำพ้องความหมายของการอนุมานแบบออฟไลน์

ความเป็นสถานี

#fundamentals

ฟีเจอร์ที่มีค่าไม่เปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักจะเป็นเวลา เช่น ฟีเจอร์ที่มีค่าใกล้เคียงกันในปี 2021 และ 2023 แสดงถึงความคงที่

ในสถานการณ์จริง ฟีเจอร์มีสถานะคงที่เพียงไม่กี่รายการ แม้แต่องค์ประกอบที่สื่อถึงความมั่นคง (เช่น ระดับน้ำทะเล) ก็เปลี่ยนแปลงไปตามกาลเวลา

ตรงข้ามกับความไม่เป็นเชิงเส้น

ขั้นตอน

การส่งต่อและการส่งกลับกลุ่ม 1 กลุ่ม

ดูข้อมูลเพิ่มเติมเกี่ยวกับการส่งผ่านไปข้างหน้าและการส่งผ่านกลับได้ที่Backpropagation

ขนาดของขั้น

คำพ้องความหมายของอัตราการเรียนรู้

การลดเชิงสุ่มตามลาดชัน (SGD)

#fundamentals

อัลกอริทึมการลดเชิงลาดซึ่งมีขนาดกลุ่มเท่ากับ 1 กล่าวคือ SGD จะฝึกจากตัวอย่างเดียวที่เลือกแบบสุ่มอย่างสม่ำเสมอจากชุดข้อมูลการฝึก

ระยะก้าว

#image

ในการดำเนินการแบบ Convolution หรือ Pooling เดลต้าในแต่ละมิติข้อมูลของชุดข้อมูลถัดไป ตัวอย่างเช่น ภาพเคลื่อนไหวต่อไปนี้แสดงระยะ (1,1) ระหว่างการดำเนินการ Conv ดังนั้น ข้อมูลโค้ดถัดไปจึงเริ่มต้นที่ตำแหน่งด้านขวาของข้อมูลโค้ดก่อนหน้า 1 ตำแหน่ง เมื่อการดำเนินการถึงขอบขวาแล้ว ส่วนของภาพถัดไปจะเลื่อนไปทางซ้ายสุดแต่ลง 1 ตำแหน่ง

เมทริกซ์อินพุต 5x5 และตัวกรองคอนโวลูชัน 3x3 เนื่องจากระยะการเลื่อนคือ (1,1) ระบบจะใช้ตัวกรองแบบ Convolution 9 ครั้ง ส่วนการแปลงคอนโวลูชันแรกจะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านซ้ายบนของเมทริกซ์อินพุต ส่วนที่สองจะประเมินเมทริกซ์ย่อย 3x3 ตรงกลางด้านบน ส่วนโคนฟิวชันที่ 3 จะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านขวาบน  ส่วนตัดที่ 4 จะประเมินเมทริกซ์ย่อย 3x3 ทางด้านซ้ายตรงกลาง
     ส่วนที่หกที่ 5 จะประเมินเมทริกซ์ย่อยขนาด 3x3 ตรงกลาง ส่วนที่หกที่ประเมินคือเมทริกซ์ย่อย 3x3 ตรงกลางด้านขวา ส่วนตัดที่ 7 จะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านซ้ายล่าง  ส่วนที่เป็นส่วนที่ 8 จะประเมินเมทริกซ์ย่อย 3x3 ที่ตรงกลางด้านล่าง ส่วนที่สิบจะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านขวาล่าง

ตัวอย่างก่อนหน้านี้แสดงการก้าว 2 มิติ หากเมทริกซ์อินพุตเป็นแบบ 3 มิติ ระยะห่างจะเป็นแบบ 3 มิติด้วย

การลดความเสี่ยงทางโครงสร้าง (SRM)

อัลกอริทึมที่ปรับสมดุลเป้าหมาย 2 อย่าง ได้แก่

  • ความจำเป็นในการสร้างโมเดลการคาดการณ์มากที่สุด (เช่น ความเสียหายต่ำสุด)
  • ความจำเป็นในการรักษาโมเดลให้เรียบง่ายที่สุด (เช่น การปรับให้เหมาะสมอย่างเข้มงวด)

เช่น ฟังก์ชันที่ลดการสูญเสีย+การปรับให้เหมาะสมในชุดข้อมูลการฝึกอบรมคืออัลกอริทึมการลดความเสี่ยงเชิงโครงสร้าง

ตรงข้ามกับการลดความเสี่ยงเชิงประจักษ์

การสุ่มตัวอย่างย่อย

#image

ดูการรวม

โทเค็นคำย่อย

#language

ในโมเดลภาษา โทเค็นคือสตริงย่อยของคํา ซึ่งอาจเป็นทั้งคํา

เช่น คําอย่าง "แจกแจง" อาจแบ่งออกเป็น "รายการ" (รากคํา) และ "แจกแจง" (ส่วนต่อท้าย) ซึ่งแต่ละรายการจะแสดงด้วยโทเค็นของตัวเอง การแยกคำที่ไม่พบบ่อยออกเป็นส่วนๆ ที่เรียกว่าคำย่อยจะช่วยให้โมเดลภาษาทำงานกับองค์ประกอบที่พบบ่อยกว่าของคำได้ เช่น คำนำหน้าและคำต่อท้าย

ในทางกลับกัน คําทั่วไปอย่าง "going" อาจไม่แบ่งออกเป็นส่วนๆ และอาจแสดงด้วยโทเค็นเดียว

สรุป

#TensorFlow

ใน TensorFlow ค่าหรือชุดค่าที่คํานวณในขั้นตอนหนึ่งๆ ซึ่งมักใช้ติดตามเมตริกของโมเดลระหว่างการฝึก

แมชชีนเลิร์นนิงที่มีการควบคุมดูแล

#fundamentals

การฝึกโมเดลจากฟีเจอร์และป้ายกำกับที่เกี่ยวข้อง แมชชีนเลิร์นนิงที่มีการควบคุมนั้นคล้ายกับการได้เรียนรู้เรื่องหนึ่งๆ โดยการศึกษาชุดคําถามและคําตอบที่เกี่ยวข้อง หลังจากเชี่ยวชาญการเชื่อมโยงระหว่างคำถามกับคำตอบแล้ว นักเรียนจะสามารถตอบคำถามใหม่ (ที่ไม่เคยเห็นมาก่อน) ในหัวข้อเดียวกัน

เปรียบเทียบกับแมชชีนเลิร์นนิงแบบไม่ควบคุมดูแล

องค์ประกอบสังเคราะห์

#fundamentals

องค์ประกอบที่ไม่มีอยู่ในองค์ประกอบอินพุต แต่ประกอบขึ้นจากองค์ประกอบอย่างน้อย 1 รายการ วิธีการสร้างฟีเจอร์ที่ผ่านการสังเคราะห์มีดังนี้

  • การจัดกลุ่มองค์ประกอบแบบต่อเนื่องลงในที่เก็บข้อมูลช่วง
  • การสร้างการครอสฟีเจอร์
  • การคูณ (หรือหาร) ค่าฟีเจอร์หนึ่งด้วยค่าฟีเจอร์อื่นๆ หรือคูณด้วยค่าของฟีเจอร์นั้นเอง ตัวอย่างเช่น หาก a และ b เป็นฟีเจอร์อินพุต ตัวอย่างฟีเจอร์สังเคราะห์มีดังนี้
    • ab
    • a2
  • การใช้ฟังก์ชันที่ไม่ใช่ตรีโกณมิติกับค่าองค์ประกอบ ตัวอย่างเช่น หาก c เป็นฟีเจอร์อินพุต ตัวอย่างฟีเจอร์สังเคราะห์มีดังนี้
    • sin(c)
    • ln(c)

ฟีเจอร์ที่สร้างขึ้นโดยการการปรับให้เป็นมาตรฐานหรือการปรับขนาดเพียงอย่างเดียวไม่ถือเป็นฟีเจอร์สังเคราะห์

T

T5

#language

โมเดลการเรียนรู้แบบโอนจากข้อความหนึ่งไปยังอีกข้อความหนึ่ง ซึ่ง AI ของ Google เปิดตัวในปี 2020 T5 เป็นโมเดลโปรแกรมเปลี่ยนไฟล์-โปรแกรมถอดรหัสที่อิงตามสถาปัตยกรรม Transformer ซึ่งได้รับการฝึกด้วยชุดข้อมูลขนาดใหญ่มาก โมเดลนี้มีประสิทธิภาพในงานการประมวลผลภาษาธรรมชาติที่หลากหลาย เช่น การสร้างข้อความ แปลภาษา และการตอบคำถามในลักษณะการสนทนา

T5 มาจาก T 5 ตัวใน "Text-to-Text Transfer Transformer"

T5X

#language

เฟรมเวิร์กแมชชีนเลิร์นนิงแบบโอเพนซอร์สที่ออกแบบมาเพื่อสร้างและฝึกโมเดลการประมวลผลภาษาธรรมชาติ (NLP) ขนาดใหญ่ T5 ติดตั้งใช้งานบนโค้ดเบส T5X (ซึ่งสร้างขึ้นจาก JAX และ Flax)

การเรียนรู้ด้วย Q แบบตาราง

#rl

ในการเรียนรู้เพื่อเสริมแรง ให้ใช้การเรียนรู้ Q โดยใช้ตารางเพื่อจัดเก็บฟังก์ชัน Q สําหรับชุดค่าผสมของสถานะและการดําเนินการ ทั้งหมด

เป้าหมาย

คำพ้องความหมายของ label

เครือข่ายเป้าหมาย

#rl

ใน Deep Q-learning โครงข่ายประสาทเป็นค่าประมาณที่เสถียรของโครงข่ายประสาทหลัก ซึ่งโครงข่ายประสาทหลักใช้ ฟังก์ชัน Q หรือนโยบาย จากนั้นคุณสามารถฝึกเครือข่ายหลักด้วยค่า Q ที่เครือข่ายเป้าหมายคาดการณ์ได้ ดังนั้น คุณจึงป้องกันลูปความคิดเห็นที่เกิดขึ้นเมื่อเครือข่ายหลักฝึกด้วยค่า Q ที่คาดการณ์ด้วยตนเอง การหลีกเลี่ยงการแสดงผลความคิดเห็นนี้จะช่วยเพิ่มความเสถียรของการฝึก

งาน

ปัญหาที่แก้ไขได้โดยใช้เทคนิคแมชชีนเลิร์นนิง เช่น

อุณหภูมิ

#language
#image
#generativeAI

ไฮเปอร์พารามิเตอร์ที่ควบคุมระดับความสุ่มของเอาต์พุตของโมเดล อุณหภูมิที่สูงขึ้นจะทำให้เอาต์พุตเป็นแบบสุ่มมากขึ้น ส่วนอุณหภูมิที่ต่ำลงจะทำให้เอาต์พุตเป็นแบบสุ่มน้อยลง

การเลือกอุณหภูมิที่เหมาะสมที่สุดขึ้นอยู่กับแอปพลิเคชันเฉพาะและพร็อพเพอร์ตี้ที่ต้องการของเอาต์พุตของโมเดล เช่น คุณอาจเพิ่มอุณหภูมิเมื่อสร้างแอปพลิเคชันที่สร้างเอาต์พุตครีเอทีฟโฆษณา ในทางกลับกัน คุณอาจลดอุณหภูมิเมื่อสร้างโมเดลที่จัดประเภทรูปภาพหรือข้อความเพื่อปรับปรุงความแม่นยำและความสอดคล้องของโมเดล

อุณหภูมิมักใช้ร่วมกับ softmax

ข้อมูลตามช่วงเวลา

ข้อมูลที่บันทึกไว้ในช่วงเวลาต่างๆ ตัวอย่างเช่น ยอดขายเสื้อโค้ทฤดูหนาวที่บันทึกไว้ในแต่ละวันของปีจะเป็นข้อมูลเชิงเวลา

Tensor

#TensorFlow

โครงสร้างข้อมูลหลักในโปรแกรม TensorFlow เทนเซอร์เป็นโครงสร้างข้อมูล N มิติ (โดยที่ N อาจมีค่ามาก) ซึ่งมักเป็นจำนวนจริง เวกเตอร์ หรือเมทริกซ์ องค์ประกอบของ Tensor สามารถเก็บค่าจำนวนเต็ม ทศนิยม หรือสตริงได้

TensorBoard

#TensorFlow

แดชบอร์ดที่แสดงข้อมูลสรุปที่บันทึกไว้ระหว่างการเรียกใช้โปรแกรม TensorFlow อย่างน้อย 1 รายการ

TensorFlow

#TensorFlow

แพลตฟอร์มแมชชีนเลิร์นนิงแบบกระจายศูนย์ขนาดใหญ่ นอกจากนี้ คำว่า "เทสลา" ยังหมายถึงเลเยอร์ API พื้นฐานในสแต็ก TensorFlow ซึ่งรองรับการคํานวณทั่วไปในกราฟการไหลของข้อมูล

แม้ว่า TensorFlow จะใช้สำหรับแมชชีนเลิร์นนิงเป็นหลัก แต่คุณก็ใช้ TensorFlow สำหรับงานที่ไม่เกี่ยวข้องกับ ML ซึ่งต้องใช้การคํานวณตัวเลขโดยใช้กราฟการไหลของข้อมูลได้เช่นกัน

TensorFlow Playground

#TensorFlow

โปรแกรมที่แสดงภาพว่าไฮเปอร์พารามิเตอร์ต่างๆ ส่งผลต่อการฝึกโมเดล (โดยเฉพาะอย่างยิ่งการฝึกโครงข่ายประสาท) อย่างไร ไปที่ http://playground.tensorflow.org เพื่อทดลองใช้ TensorFlow Playground

TensorFlow Serving

#TensorFlow

แพลตฟอร์มสำหรับทำให้โมเดลที่ฝึกแล้วใช้งานได้จริง

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

วงจรรวมเฉพาะแอปพลิเคชัน (ASIC) ที่เพิ่มประสิทธิภาพของปริมาณงานแมชชีนเลิร์นนิง ASIC เหล่านี้จะติดตั้งใช้งานเป็นชิป TPU หลายตัวในอุปกรณ์ TPU

อันดับ Tensor

#TensorFlow

ดูrank (Tensor)

รูปร่างของ Tensor

#TensorFlow

จํานวนองค์ประกอบที่ Tensor มีในมิติข้อมูลต่างๆ เช่น [5, 10] Tensor มีรูปร่างเป็น 5 ในมิติข้อมูลหนึ่งและ 10 ในอีกมิติข้อมูลหนึ่ง

ขนาด Tensor

#TensorFlow

จํานวนทั้งหมดของ Scalar ที่ Tensor มี เช่น เทนเซอร์ [5, 10] มีขนาดใหญ่ 50

TensorStore

ไลบรารีสําหรับการอ่านและเขียนอาร์เรย์หลายมิติขนาดใหญ่อย่างมีประสิทธิภาพ

เงื่อนไขการสิ้นสุด

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เงื่อนไขที่ระบุว่าตอนจะสิ้นสุดเมื่อใด เช่น เมื่อตัวแทนถึงสถานะหนึ่งๆ หรือมีการเปลี่ยนสถานะเกินจำนวนเกณฑ์ เช่น ในเกมตีฉิ่ง (หรือเรียกอีกอย่างว่าเกมหมากฮอส) เกมจะจบลงเมื่อผู้เล่นทำเครื่องหมายช่องติดต่อกัน 3 ช่องหรือเมื่อทำเครื่องหมายทุกช่องแล้ว

ทดสอบ

#df

ในแผนภูมิการตัดสินใจ ชื่อเรียกอีกอย่างของเงื่อนไข

การสูญเสียการทดสอบ

#fundamentals

เมตริกที่แสดงถึงการสูญเสียของโมเดลเทียบกับชุดทดสอบ เมื่อสร้างโมเดล คุณมักจะพยายามลดการสูญเสียในการทดสอบ เนื่องจากการสูญเสียในการทดสอบที่ต่ำเป็นสัญญาณคุณภาพที่ชัดเจนกว่าการสูญเสียในการฝึกที่ต่ำหรือการสูญเสียในการทดสอบที่ต่ำ

บางครั้งช่องว่างระหว่างความสูญเสียในการทดสอบกับความสูญเสียในการฝึกหรือความสูญเสียในการตรวจสอบที่มากอาจบ่งบอกว่าคุณต้องเพิ่มอัตราการปรับสมดุล

ชุดทดสอบ

ชุดย่อยของชุดข้อมูลที่สงวนไว้สําหรับการทดสอบโมเดลที่ผ่านการฝึก

โดยทั่วไปแล้ว คุณจะต้องแบ่งตัวอย่างในชุดข้อมูลออกเป็นชุดย่อย 3 ชุดที่แตกต่างกัน ดังนี้

ตัวอย่างแต่ละรายการในชุดข้อมูลควรอยู่ในชุดย่อยก่อนหน้าเพียงชุดเดียว เช่น ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดการฝึกและชุดทดสอบ

ชุดการฝึกและชุดตรวจสอบมีความเชื่อมโยงกับการฝึกโมเดลอย่างใกล้ชิด เนื่องจากชุดทดสอบเชื่อมโยงกับการฝึกแบบอ้อมเท่านั้น การสูญเสียในชุดทดสอบจึงเป็นเมตริกที่มีคุณภาพสูงกว่าและมีความลำเอียงน้อยกว่าการสูญเสียในชุดฝึกหรือการสูญเสียในชุดตรวจสอบ

ช่วงข้อความ

#language

ช่วงที่ระบุอาร์เรย์ที่เชื่อมโยงกับส่วนย่อยที่เฉพาะเจาะจงของสตริงข้อความ เช่น คำว่า good ในสตริง Python s="Be good now" ครอบครองช่วงข้อความที่ 3 ถึง 6

tf.Example

#TensorFlow

มาตรฐาน บัฟเฟอร์โปรโตคอล สําหรับอธิบายข้อมูลอินพุตสําหรับการฝึกหรืออนุมานโมเดลแมชชีนเลิร์นนิง

tf.keras

#TensorFlow

การใช้งาน Keras ที่ผสานรวมกับ TensorFlow

เกณฑ์ (สําหรับแผนภูมิการตัดสินใจ)

#df

ในเงื่อนไขที่สอดคล้องกับแกน ค่าที่องค์ประกอบจะเปรียบเทียบด้วย ตัวอย่างเช่น 75 คือค่าเกณฑ์ในเงื่อนไขต่อไปนี้

grade >= 75

การวิเคราะห์อนุกรมเวลา

#clustering

สาขาย่อยของแมชชีนเลิร์นนิงและสถิติที่วิเคราะห์ข้อมูลเชิงเวลา ปัญหาแมชชีนเลิร์นนิงหลายประเภทต้องใช้การวิเคราะห์อนุกรมเวลา ซึ่งรวมถึงการจัดประเภท การคลัสเตอร์ การคาดการณ์ และการตรวจหาความผิดปกติ เช่น คุณอาจใช้การวิเคราะห์อนุกรมเวลาเพื่อคาดการณ์ยอดขายเสื้อโค้ทฤดูหนาวในอนาคตตามเดือน โดยอิงตามข้อมูลยอดขายที่ผ่านมา

ช่วงเวลา

#seq

เซลล์ "แบบไม่ได้ม้วน" 1 เซลล์ภายในเครือข่ายประสาทแบบซ้ำ ตัวอย่างเช่น รูปภาพต่อไปนี้แสดงช่วงเวลา 3 ช่วงเวลา (ติดป้ายกำกับด้วยอนุพันธ์ย่อย t-1, t และ t+1)

ช่วงเวลา 3 ช่วงเวลาในโครงข่ายประสาทเทียมแบบซ้ำ เอาต์พุตของช่วงเวลาแรกจะกลายเป็นอินพุตของช่วงเวลาที่ 2 เอาต์พุตของช่วงเวลาที่ 2 จะกลายเป็นอินพุตของช่วงเวลาที่ 3

โทเค็น

#language

ในโมเดลภาษา หน่วยพื้นฐานที่โมเดลใช้ฝึกและทำการคาดการณ์ โดยปกติแล้ว โทเค็นจะเป็นอย่างใดอย่างหนึ่งต่อไปนี้

  • คํา เช่น วลี "สุนัขชอบแมว" ประกอบด้วยโทเค็นคํา 3 รายการ ได้แก่ "สุนัข" "ชอบ" และ "แมว"
  • อักขระ เช่น วลี "ปลาปั่นจักรยาน" ประกอบด้วยโทเค็นอักขระ 9 ตัว (โปรดทราบว่าช่องว่างจะนับเป็นหนึ่งในโทเค็น)
  • วลีย่อย ซึ่งคำเดียวอาจเป็นโทเค็นเดียวหรือหลายโทเค็นก็ได้ คำย่อยประกอบด้วยคำหลัก คำนำหน้า หรือคำต่อท้าย ตัวอย่างเช่น โมเดลภาษาที่ใช้คำย่อยเป็นโทเค็นอาจมองว่าคำว่า "dogs" เป็นโทเค็น 2 รายการ (คำราก "dog" และส่วนต่อท้ายที่แสดงพหูพจน์ "s") โมเดลภาษาเดียวกันนี้อาจมองว่าคํา "สูงกว่า" ประกอบด้วยคําย่อย 2 คํา (คําหลัก "สูง" และส่วนต่อท้าย "กว่า")

ในโดเมนนอกโมเดลภาษา โทเค็นอาจแสดงหน่วยพื้นฐานประเภทอื่นๆ เช่น ในคอมพิวเตอร์วิทัศน์ โทเค็นอาจเป็นชุดย่อยของรูปภาพ

ความแม่นยำของ Top-K

#language

เปอร์เซ็นต์ของเวลาที่ "ป้ายกำกับเป้าหมาย" ปรากฏในตำแหน่ง k แรกๆ ของรายการที่สร้างขึ้น รายการอาจเป็นคําแนะนําที่ปรับเปลี่ยนในแบบของคุณ หรือรายการสินค้าที่จัดเรียงตาม softmax

ความแม่นยำของ Top-k เรียกอีกอย่างว่าความแม่นยำที่ k

Tower

องค์ประกอบของโครงข่ายประสาทแบบลึกที่เป็นโครงข่ายประสาทแบบลึก ในบางกรณี แต่ละหอคอยจะอ่านข้อมูลจากแหล่งข้อมูลอิสระ และหอคอยเหล่านั้นจะยังคงทำงานแยกกันจนกว่าระบบจะรวมเอาเอาต์พุตของหอคอยเหล่านั้นไว้ในเลเยอร์สุดท้าย ในกรณีอื่นๆ (เช่น ในหอคอยตัวเข้ารหัสและตัวถอดรหัสของ Transformer หลายตัว) หอคอยจะเชื่อมต่อกัน

ความเชื่อผิดๆ

#language

ระดับที่เนื้อหาเป็นการละเมิด ข่มขู่ หรือทำให้เกิดความไม่พอใจ โมเดลแมชชีนเลิร์นนิงจำนวนมากสามารถระบุและวัดระดับความเป็นพิษได้ โมเดลส่วนใหญ่เหล่านี้จะระบุความเป็นพิษตามพารามิเตอร์หลายรายการ เช่น ระดับภาษาที่ไม่เหมาะสมและระดับภาษาที่เป็นภัย

TPU

#TensorFlow
#GoogleCloud

ตัวย่อของ Tensor Processing Unit

ชิป TPU

#TensorFlow
#GoogleCloud

ตัวเร่งการอัลเจบราเชิงเส้นแบบโปรแกรมได้พร้อมหน่วยความจำแบนด์วิดท์สูงบนชิปที่เพิ่มประสิทธิภาพสำหรับภาระงานแมชชีนเลิร์นนิง มีการติดตั้งใช้งานชิป TPU หลายตัวในอุปกรณ์ TPU

อุปกรณ์ TPU

#TensorFlow
#GoogleCloud

แผงวงจรพิมพ์ (PCB) ที่มีชิป TPU หลายตัว อินเทอร์เฟซเครือข่ายที่มีแบนด์วิดท์สูง และฮาร์ดแวร์ระบายความร้อนของระบบ

TPU หลัก

#TensorFlow
#GoogleCloud

กระบวนการประสานงานส่วนกลางที่ทำงานบนเครื่องโฮสต์ซึ่งส่งและรับข้อมูล ผลลัพธ์ โปรแกรม ประสิทธิภาพ และข้อมูลเกี่ยวกับสถานะของระบบไปยังผู้ปฏิบัติงาน TPU นอกจากนี้ TPU หลักยังจัดการการตั้งค่าและการปิดอุปกรณ์ TPU ด้วย

โหนด TPU

#TensorFlow
#GoogleCloud

ทรัพยากร TPU ใน Google Cloud ที่มีประเภท TPU ที่เฉพาะเจาะจง นอต TPU จะเชื่อมต่อกับเครือข่าย VPC จากเครือข่าย VPC แบบเพียร์ โหนด TPU เป็นทรัพยากรที่กําหนดไว้ใน Cloud TPU API

พ็อด TPU

#TensorFlow
#GoogleCloud

การกําหนดค่าที่เฉพาะเจาะจงของอุปกรณ์ TPU ในศูนย์ข้อมูลของ Google อุปกรณ์ทั้งหมดในพ็อด TPU จะเชื่อมต่อกันผ่านเครือข่ายความเร็วสูงโดยเฉพาะ พ็อด TPU เป็นการกำหนดค่าอุปกรณ์ TPU ขนาดใหญ่ที่สุดที่ใช้ได้กับ TPU เวอร์ชันหนึ่งๆ

ทรัพยากร TPU

#TensorFlow
#GoogleCloud

เอนทิตี TPU ใน Google Cloud ที่คุณสร้าง จัดการ หรือใช้งาน เช่น โหนด TPU และประเภท TPU เป็นทรัพยากร TPU

ส่วนของ TPU

#TensorFlow
#GoogleCloud

ส่วน TPU คือส่วนของอุปกรณ์ TPU ในพ็อด TPU อุปกรณ์ทั้งหมดในเสี้ยว TPU จะเชื่อมต่อกันผ่านเครือข่ายความเร็วสูงเฉพาะ

ประเภท TPU

#TensorFlow
#GoogleCloud

การกําหนดค่าอุปกรณ์ TPU อย่างน้อย 1 เครื่องที่มีฮาร์ดแวร์ TPU เวอร์ชันที่เฉพาะเจาะจง คุณเลือกประเภท TPU เมื่อสร้างโหนด TPU ใน Google Cloud เช่น v2-8 ประเภท TPU คืออุปกรณ์ TPU v2 เดี่ยวที่มี 8 คอร์ TPU ประเภท v3-2048 มีอุปกรณ์ TPU v3 แบบใช้เครือข่าย 256 เครื่องและมีแกนทั้งหมด 2,048 แกน ประเภท TPU เป็นทรัพยากรที่ระบุไว้ใน Cloud TPU API

TPU Worker

#TensorFlow
#GoogleCloud

กระบวนการที่ทำงานบนเครื่องโฮสต์และเรียกใช้โปรแกรมแมชชีนเลิร์นนิงในอุปกรณ์ TPU

การฝึกอบรม

#fundamentals

กระบวนการกำหนดพารามิเตอร์ (น้ำหนักและค่ากําหนด) ที่เหมาะสมซึ่งประกอบกันเป็นโมเดล ในระหว่างการฝึก ระบบจะอ่านตัวอย่างและค่อยๆ ปรับพารามิเตอร์ การฝึกอบรมจะใช้ตัวอย่างแต่ละรายการตั้งแต่ 2-3 ครั้งไปจนถึงหลายพันล้านครั้ง

การสูญเสียจากการฝึก

#fundamentals

เมตริกที่แสดงถึงการสูญเสียของโมเดลระหว่างการทำซ้ำการฝึกหนึ่งๆ เช่น สมมติว่าฟังก์ชันการสูญเสียคือ ความคลาดเคลื่อนกำลังสองเฉลี่ย ตัวอย่างเช่น การสูญเสียในการฝึก (ข้อผิดพลาดค่าเฉลี่ยสี่เหลี่ยมจัตุรัส) ของการทำซ้ำครั้งที่ 10 คือ 2.2 และการสูญเสียในการฝึกของการทำซ้ำครั้งที่ 100 คือ 1.9

เส้นโค้งการสูญเสียจะแสดงการสูญเสียของการฝึกเทียบกับจํานวนการวนซ้ำ เส้นโค้งการสูญเสียจะให้คำแนะนำต่อไปนี้เกี่ยวกับการฝึก

  • เส้นที่ลาดลงหมายความว่าโมเดลมีประสิทธิภาพดีขึ้น
  • เส้นลาดขึ้นหมายความว่าโมเดลมีประสิทธิภาพแย่ลง
  • เส้นลาดชันที่ราบเรียบหมายความว่าโมเดลบรรลุการบรรจบแล้ว

ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้ซึ่งค่อนข้างเป็นอุดมคติจะแสดงข้อมูลต่อไปนี้

  • เส้นลาดลงชันในช่วงการทำซ้ำครั้งแรก ซึ่งหมายความว่าโมเดลได้รับการปรับปรุงอย่างรวดเร็ว
  • เส้นลาดชันที่ค่อยๆ ราบลง (แต่ยังคงลดลง) จนใกล้ถึงช่วงสิ้นสุดการฝึก ซึ่งหมายความว่ามีการปรับปรุงโมเดลอย่างต่อเนื่องในอัตราที่ช้ากว่าช่วงการทำซ้ำครั้งแรก
  • เส้นลาดชันที่ราบเรียบในช่วงท้ายของการฝึก ซึ่งบ่งบอกถึงการบรรจบ

ผังของการสูญเสียของการฝึกเทียบกับจำนวนรอบ เส้นโค้งการสูญเสียนี้เริ่มต้นด้วยเส้นลาดชันชันลง ความชันจะค่อยๆ ลดลงจนกว่าจะเท่ากับ 0

แม้ว่าการสูญเสียระหว่างการฝึกจะมีความสำคัญ แต่โปรดดูการทั่วไปด้วย

ความคลาดเคลื่อนระหว่างการฝึกและการให้บริการ

#fundamentals

ความแตกต่างระหว่างประสิทธิภาพของโมเดลระหว่างการฝึกกับประสิทธิภาพของโมเดลเดียวกันระหว่างการทํางาน

ชุดการฝึก

#fundamentals

ชุดย่อยของชุดข้อมูลที่ใช้ฝึกโมเดล

โดยทั่วไปแล้ว ตัวอย่างในชุดข้อมูลจะแบ่งออกเป็นชุดย่อยที่แตกต่างกัน 3 ชุดต่อไปนี้

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรอยู่ในชุดย่อยก่อนหน้าเพียงชุดเดียว เช่น ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดการฝึกและชุดทดสอบ

เส้นทาง

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ลำดับของ tuple ที่แสดงถึงลำดับการเปลี่ยนสถานะของเอเจนต์ โดยที่แต่ละ tuple สอดคล้องกับสถานะ การดำเนินการ รางวัล และสถานะถัดไปสำหรับการเปลี่ยนสถานะหนึ่งๆ

การเรียนรู้แบบโอน

การโอนข้อมูลจากงานแมชชีนเลิร์นนิงงานหนึ่งไปยังอีกงานหนึ่ง ตัวอย่างเช่น ในการเรียนรู้แบบหลายงาน โมเดลเดียวจะแก้ปัญหาได้หลายอย่าง เช่น โมเดลเชิงลึกที่มีโหนดเอาต์พุตที่แตกต่างกันสำหรับงานต่างๆ การเรียนรู้แบบโอนอาจเกี่ยวข้องกับการโอนความรู้จากวิธีแก้ปัญหาของงานที่ง่ายกว่าไปยังงานที่ซับซ้อนกว่า หรือเกี่ยวข้องกับการโอนความรู้จากงานที่ข้อมูลมากกว่าไปยังงานที่ข้อมูลน้อยกว่า

ระบบแมชชีนเลิร์นนิงส่วนใหญ่จะแก้ปัญหารายการเดียว การเรียนรู้แบบโอนเป็นก้าวแรกสู่ปัญญาประดิษฐ์ (AI) ที่โปรแกรมเดียวสามารถแก้ปัญหาหลายอย่างได้

Transformer

#language

สถาปัตยกรรมโครงข่ายประสาทที่พัฒนาขึ้นโดย Google ซึ่งอาศัยกลไกการใส่ใจตนเองเพื่อเปลี่ยนลำดับของข้อมูลเชิงลึกอินพุตให้เป็นลำดับของข้อมูลเชิงลึกเอาต์พุตโดยไม่ต้องอาศัยการกรองข้อมูลหรือโครงข่ายประสาทแบบซ้ำ Transformer เปรียบเสมือนกองเลเยอร์ Self-Attention

Transformer อาจมีสิ่งต่อไปนี้

โปรแกรมเปลี่ยนไฟล์จะเปลี่ยนลําดับขององค์ประกอบเป็นลําดับใหม่ที่มีความยาวเท่ากัน ตัวเข้ารหัสประกอบด้วยเลเยอร์ N เลเยอร์ซึ่งเหมือนกัน โดยแต่ละเลเยอร์จะมีเลเยอร์ย่อย 2 เลเยอร์ ระบบจะใช้เลเยอร์ย่อย 2 เลเยอร์นี้ในแต่ละตําแหน่งของลําดับการฝังอินพุต ซึ่งจะเปลี่ยนองค์ประกอบแต่ละรายการของลําดับเป็นการฝังใหม่ เลเยอร์ย่อยของตัวเข้ารหัสแรกจะรวบรวมข้อมูลจากลำดับอินพุตต่างๆ เลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ที่ 2 จะเปลี่ยนข้อมูลที่รวบรวมเป็นข้อมูลฝังเอาต์พุต

ตัวถอดรหัสจะเปลี่ยนรูปแบบของลําดับการฝังอินพุตเป็นลําดับการฝังเอาต์พุต ซึ่งอาจมีความยาวต่างกัน ตัวถอดรหัสยังมีเลเยอร์ที่เหมือนกัน N ชั้นที่มีเลเยอร์ย่อย 3 ชั้น โดย 2 ชั้นนั้นคล้ายกับเลเยอร์ย่อยของตัวเข้ารหัส เลเยอร์ย่อยของโปรแกรมถอดรหัสที่ 3 จะนำเอาเอาต์พุตของโปรแกรมเข้ารหัสไปใช้กับกลไกการใส่ใจตนเองเพื่อรวบรวมข้อมูลจากเอาต์พุต

บล็อกโพสต์เรื่อง Transformer: สถาปัตยกรรมโครงข่ายระบบประสาทเทียมรูปแบบใหม่สำหรับการทําความเข้าใจภาษาเป็นข้อมูลเบื้องต้นที่ดีมากเกี่ยวกับ Transformer

การเปลี่ยนรูปแบบ

#image

ในปัญหาการจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพให้สำเร็จแม้ว่าตำแหน่งของวัตถุภายในรูปภาพจะเปลี่ยนไป ตัวอย่างเช่น อัลกอริทึมจะยังคงระบุสุนัขได้ ไม่ว่าจะอยู่ตรงกลางเฟรมหรือที่ด้านซ้ายสุดของเฟรม

ดูข้อมูลเพิ่มเติมได้ที่การคงขนาดและการคงการหมุน

3-gram

#seq
#language

N-gram โดยที่ N=3

ผลลบจริง (TN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบได้อย่างถูกต้อง ตัวอย่างเช่น โมเดลอนุมานว่าข้อความอีเมลหนึ่งๆ ไม่ใช่จดหมายขยะ และข้อความอีเมลนั้นไม่ใช่จดหมายขยะจริงๆ

ผลบวกจริง (TP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสที่เป็นบวกอย่างถูกต้อง เช่น โมเดลอนุมานว่าข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ และข้อความอีเมลนั้นจริงๆ แล้วเป็นจดหมายขยะ

อัตราผลบวกจริง (TPR)

#fundamentals

คำพ้องความหมายของ การระลึกถึง โดยการ

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

อัตราผลบวกจริงคือแกน y ในกราฟ ROC

U

ไม่รู้ตัว (เกี่ยวกับแอตทริบิวต์ที่มีความละเอียดอ่อน)

#fairness

สถานการณ์ที่มีแอตทริบิวต์ที่มีความละเอียดอ่อน แต่ไม่ได้รวมอยู่ในข้อมูลการฝึก เนื่องจากแอตทริบิวต์ที่ละเอียดอ่อนมักมีความสัมพันธ์กับแอตทริบิวต์อื่นๆ ของข้อมูลบุคคล โมเดลที่ผ่านการฝึกอบรมโดยไม่รู้เกี่ยวกับแอตทริบิวต์ที่ละเอียดอ่อนจึงอาจยังคงมีผลกระทบที่แตกต่างกันในแอตทริบิวต์นั้น หรือละเมิดข้อจำกัดด้านความเป็นธรรมอื่นๆ

Underfitting

#fundamentals

การสร้างโมเดลที่คาดการณ์ได้ไม่ดีเนื่องจากโมเดลไม่ได้จับความซับซ้อนของข้อมูลการฝึกอย่างเต็มรูปแบบ ปัญหาหลายประการอาจทําให้เกิดการประมาณที่น้อยเกินไปได้ ดังนี้

การสุ่มตัวอย่างที่ต่ำ

การนำตัวอย่างออกจากคลาสที่มีจำนวนมากกว่าในชุดข้อมูลที่คลาสไม่สมดุลเพื่อสร้างชุดข้อมูลการฝึกที่สมดุลมากขึ้น

ตัวอย่างเช่น พิจารณาชุดข้อมูลที่มีอัตราส่วนของคลาสส่วนใหญ่ต่อคลาสส่วนน้อยคือ 20:1 หากต้องการลดความไม่สมดุลของคลาสนี้ คุณอาจสร้างชุดการฝึกที่มีตัวอย่างของคลาสที่มีจำนวนน้อยทั้งหมด แต่มีตัวอย่างของคลาสที่มีจำนวนมากเพียงหนึ่งในสิบ ซึ่งจะสร้างสัดส่วนคลาสของชุดการฝึกเป็น 2:1 การลดการสุ่มตัวอย่างทำให้ชุดการฝึกที่สมดุลมากขึ้นนี้อาจสร้างโมเดลที่ดีขึ้น หรือชุดการฝึกที่สมดุลมากขึ้นนี้อาจมีตัวอย่างไม่เพียงพอที่จะฝึกโมเดลที่มีประสิทธิภาพ

ตรงข้ามกับการสุ่มตัวอย่างมากเกินไป

ทิศทางเดียว

#language

ระบบที่ประเมินเฉพาะข้อความที่อยู่ก่อนส่วนข้อความเป้าหมาย ในทางตรงกันข้าม ระบบแบบ 2 ทิศทางจะประเมินทั้งข้อความที่อยู่ก่อนและอยู่หลังส่วนของข้อความเป้าหมาย ดูรายละเอียดเพิ่มเติมได้ที่แบบ 2 ทิศทาง

โมเดลภาษาแบบทิศทางเดียว

#language

โมเดลภาษาที่อิงความน่าจะเป็นตามโทเค็นที่ปรากฏก่อนโทเค็นเป้าหมายเท่านั้น ไม่ใช่หลัง เปรียบเทียบกับโมเดลภาษาแบบ 2 ทิศทาง

ตัวอย่างที่ไม่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์แต่ไม่มีป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่าง 3 รายการที่ไม่มีป้ายกำกับจากโมเดลการประเมินมูลค่าบ้าน โดยแต่ละรายการมี 3 ฟีเจอร์ แต่ไม่มีมูลค่าบ้าน

จำนวนห้องนอน จำนวนห้องน้ำ อายุของบ้าน
3 2 15
2 1 72
4 2 34

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล รูปแบบจะฝึกจากตัวอย่างที่ติดป้ายกำกับและทำการคาดการณ์จากตัวอย่างที่ไม่มีป้ายกำกับ

ในการเรียนรู้แบบควบคุมดูแลบางส่วนและไม่มีการควบคุมดูแล ระบบจะใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการฝึก

เปรียบเทียบตัวอย่างที่ไม่มีป้ายกำกับกับตัวอย่างที่มีป้ายกำกับ

แมชชีนเลิร์นนิงแบบไม่มีการควบคุมดูแล

#clustering
#fundamentals

การฝึกโมเดลเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งมักจะเป็นชุดข้อมูลที่ไม่มีป้ายกำกับ

การใช้งานแมชชีนเลิร์นนิงแบบไม่ควบคุมที่พบบ่อยที่สุดคือการจัดกลุ่มข้อมูลเป็นกลุ่มตัวอย่างที่คล้ายกัน เช่น อัลกอริทึมแมชชีนเลิร์นนิงแบบไม่ควบคุมดูแลจะจัดกลุ่มเพลงตามคุณสมบัติต่างๆ ของเพลงได้ กลุ่มที่ได้จะกลายเป็นอินพุตสําหรับอัลกอริทึมของแมชชีนเลิร์นนิงอื่นๆ (เช่น บริการแนะนําเพลง) การจัดกลุ่มจะมีประโยชน์เมื่อป้ายกำกับที่มีประโยชน์มีไม่มากหรือไม่มีเลย เช่น ในโดเมนต่างๆ เช่น การป้องกันการละเมิดและการประพฤติมิชอบ กลุ่มจะช่วยมนุษย์เข้าใจข้อมูลได้ดีขึ้น

ตรงข้ามกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล

การประมาณการเพิ่มขึ้น

เทคนิคการประมาณที่ใช้กันโดยทั่วไปทางการตลาด ซึ่งประมาณ "ผลเชิงสาเหตุ" (หรือที่เรียกว่า "ผลที่เพิ่มขึ้น") ของ "การรักษา" ต่อ "บุคคล" ต่อไปนี้เป็นตัวอย่างสองตัวอย่าง:

  • แพทย์อาจใช้การประมาณการเพิ่มขึ้นเพื่อคาดการณ์การลดลงของอัตราการเสียชีวิต (ผลเชิงสาเหตุ) ของกระบวนการทางการแพทย์ (การรักษา) โดยขึ้นอยู่กับอายุและประวัติทางการแพทย์ของผู้ป่วย (บุคคล)
  • นักการตลาดอาจใช้การประมาณการเพิ่มขึ้นเพื่อคาดการณ์ความน่าจะเป็นที่เพิ่มขึ้นในการซื้อ (ผลเชิงสาเหตุ) เนื่องจากโฆษณา (กลุ่มทดสอบ) กับบุคคล (บุคคล)

โมเดลการเพิ่มขึ้นแตกต่างจากการจัดประเภทหรือการถดถอยตรงที่โมเดลการเพิ่มขึ้นจะไม่มีป้ายกำกับบางรายการ (เช่น ครึ่งหนึ่งของป้ายกำกับในการรักษาแบบไบนารี) เสมอ ตัวอย่างเช่น ผู้ป่วยอาจได้รับการรักษาหรือไม่ได้รับการรักษาก็ได้ เราจึงสังเกตได้เพียงว่าผู้ป่วยจะหายหรือไม่หายในสถานการณ์ใดสถานการณ์หนึ่งเท่านั้น (แต่ไม่สามารถสังเกตได้ทั้งสองสถานการณ์) ข้อได้เปรียบหลักของรูปแบบการเพิ่มขึ้นคือสามารถสร้างการคาดการณ์สําหรับสถานการณ์ที่สังเกตไม่ได้ (สิ่งที่ขัดแย้งกับความจริงที่ตั้งขึ้น) และใช้เพื่อคํานวณผลที่เกิดจากสาเหตุ

การเพิ่มน้ำหนัก

การใช้น้ำหนักกับคลาสที่ลดขนาดเท่ากับปัจจัยที่คุณลดขนาด

เมทริกซ์ผู้ใช้

#recsystems

ในระบบการแนะนำ เวกเตอร์การฝังที่สร้างขึ้นโดยการแยกองค์ประกอบเมทริกซ์ซึ่งเก็บสัญญาณแฝงเกี่ยวกับค่ากําหนดของผู้ใช้ แต่ละแถวของเมทริกซ์ผู้ใช้มีข้อมูลเกี่ยวกับความแรงสัมพัทธ์ของสัญญาณแฝงต่างๆ สําหรับผู้ใช้รายเดียว ตัวอย่างเช่น ลองพิจารณาระบบการแนะนำภาพยนตร์ ในระบบนี้ สัญญาณแฝงในเมทริกซ์ผู้ใช้อาจแสดงถึงความสนใจของผู้ใช้แต่ละรายในประเภทที่เฉพาะเจาะจง หรืออาจเป็นสัญญาณที่ตีความได้ยากซึ่งเกี่ยวข้องกับการโต้ตอบที่ซับซ้อนในหลายปัจจัย

เมทริกซ์ผู้ใช้มีคอลัมน์สำหรับองค์ประกอบแฝงแต่ละรายการและแถวสำหรับผู้ใช้แต่ละราย กล่าวคือ เมทริกซ์ผู้ใช้มีจํานวนแถวเท่ากับเมทริกซ์เป้าหมายที่แยกปัจจัย ตัวอย่างเช่น ระบบแนะนำภาพยนตร์สำหรับผู้ใช้ 1,000,000 คนจะมีเมทริกซ์ผู้ใช้ 1,000,000 แถว

V

การตรวจสอบความถูกต้อง

#fundamentals

การประเมินคุณภาพโมเดลเบื้องต้น การตรวจสอบจะตรวจสอบคุณภาพของการคาดการณ์ของโมเดลเทียบกับชุดข้อมูลที่ใช้ตรวจสอบ

เนื่องจากชุดที่ใช้ตรวจสอบแตกต่างจากชุดข้อมูลการฝึก การทดสอบจึงช่วยป้องกันการประมาณค่ามากเกินไป

คุณอาจคิดว่าการประเมินโมเดลเทียบกับชุดข้อมูลการตรวจสอบเป็นการทดสอบรอบแรก และการประเมินโมเดลเทียบกับชุดทดสอบเป็นการทดสอบรอบที่ 2

การสูญเสียการตรวจสอบ

#fundamentals

เมตริกที่แสดงถึงความสูญเสียของโมเดลในชุดทดสอบระหว่างการทำซ้ำการฝึกหนึ่งๆ

โปรดดูเส้นโค้งทั่วไปด้วย

ชุดการตรวจสอบ

#fundamentals

ชุดย่อยของชุดข้อมูลที่ทําการประเมินเบื้องต้นกับโมเดลที่ผ่านการฝึก โดยปกติแล้ว คุณจะต้องประเมินโมเดลที่ผ่านการฝึกอบรมกับชุดข้อมูลที่ใช้ตรวจสอบหลายครั้งก่อนที่จะประเมินโมเดลกับชุดทดสอบ

โดยทั่วไปแล้ว คุณจะต้องแบ่งตัวอย่างในชุดข้อมูลออกเป็นชุดย่อย 3 ชุดที่แตกต่างกัน ดังนี้

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรอยู่ในชุดย่อยก่อนหน้าเพียงชุดเดียว เช่น ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดการฝึกและชุดทดสอบ

การประมาณค่า

กระบวนการแทนที่ค่าที่ขาดหายไปด้วยค่าทดแทนที่ยอมรับได้ เมื่อไม่มีค่า คุณอาจทิ้งทั้งตัวอย่างหรือใช้การประมาณค่าเพื่อกู้คืนตัวอย่างก็ได้

ตัวอย่างเช่น พิจารณาชุดข้อมูลที่มีฟีเจอร์ temperature ที่ควรจะบันทึกทุกชั่วโมง อย่างไรก็ตาม ค่าอุณหภูมิที่อ่านได้ไม่พร้อมใช้งานในช่วงเวลาหนึ่งๆ ต่อไปนี้คือส่วนหนึ่งของชุดข้อมูล

การประทับเวลา อุณหภูมิ
1680561000 10
1680564600 12
1680568200 ขาดหายไป
1680571800 20
1680575400 21
1680579000 21

ระบบอาจลบตัวอย่างที่ขาดหายไปหรือทดแทนอุณหภูมิที่ขาดหายไปเป็น 12, 16, 18 หรือ 20 ทั้งนี้ขึ้นอยู่กับอัลกอริทึมการทดแทน

ปัญหาการไล่ระดับสีที่หายไป

#seq

แนวโน้มที่ความลาดชันของเลเยอร์ที่ซ่อนอยู่ในช่วงต้นของเครือข่ายประสาทเทียมลึกบางรายการจะกลายเป็นแนวราบ (ต่ำ) อย่างน่าประหลาดใจ การที่ Gradient ลดลงเรื่อยๆ จะทําให้การเปลี่ยนแปลงน้ำหนักของโหนดในโครงข่ายประสาทแบบลึกลดลงเรื่อยๆ ซึ่งทําให้การเรียนรู้น้อยลงหรือไม่มีเลย โมเดลที่มีปัญหาเรื่องลู่ลาดที่ลดลงจะฝึกได้ยากหรือเป็นไปไม่ได้ เซลล์ Long Short-Term Memory ช่วยแก้ปัญหานี้ได้

เปรียบเทียบกับปัญหาการเพิ่มขึ้นของ Gradient

ความสำคัญของตัวแปร

#df

ชุดคะแนนที่ระบุความสำคัญแบบสัมพัทธ์ของฟีเจอร์แต่ละรายการต่อโมเดล

เช่น ลองพิจารณาแผนภูมิการตัดสินใจซึ่งประเมินราคาบ้าน สมมติว่าแผนผังการตัดสินใจนี้ใช้ฟีเจอร์ 3 อย่าง ได้แก่ ขนาด อายุ และสไตล์ หากชุดความสำคัญของตัวแปรสำหรับฟีเจอร์ 3 รายการคำนวณออกมาเป็น {size=5.8, age=2.5, style=4.7} แสดงว่าขนาดมีความสําคัญต่อต้นไม้การตัดสินใจมากกว่าอายุหรือสไตล์

เมตริกความสำคัญของตัวแปรต่างๆ มีอยู่ ซึ่งสามารถให้ข้อมูลแก่ผู้เชี่ยวชาญด้าน ML เกี่ยวกับแง่มุมต่างๆ ของโมเดล

ตัวแปรอัตโนมัติ (VAE)

#language

Autoencoder ประเภทหนึ่งที่ใช้ประโยชน์จากความคลาดเคลื่อนระหว่างอินพุตและเอาต์พุตเพื่อสร้างอินพุตเวอร์ชันที่แก้ไขแล้ว ตัวแปรอัตโนมัติมีประโยชน์สําหรับ Generative AI

VAEs อิงตามการอนุมานแบบผันแปร ซึ่งเป็นเทคนิคในการประมาณพารามิเตอร์ของโมเดลความน่าจะเป็น

เวกเตอร์

คําที่มีความหมายแตกต่างกันไปมากในสาขาคณิตศาสตร์และวิทยาศาสตร์ ในแมชชีนเลิร์นนิง เวกเตอร์จะมีพร็อพเพอร์ตี้ 2 อย่าง ได้แก่

  • ประเภทข้อมูล: เวกเตอร์ในแมชชีนเลิร์นนิงมักจะเก็บตัวเลขทศนิยม
  • จํานวนองค์ประกอบ: คือความยาวหรือมิติข้อมูลของเวกเตอร์

ตัวอย่างเช่น พิจารณาเวกเตอร์ลักษณะที่มีตัวเลขทศนิยม 8 รายการ เวกเตอร์องค์ประกอบนี้มีความยาวหรือมิติข้อมูล 8 โปรดทราบว่าเวกเตอร์แมชชีนเลิร์นนิงมักจะมีหลายมิติข้อมูล

คุณแสดงข้อมูลประเภทต่างๆ จำนวนมากเป็นเวกเตอร์ได้ เช่น

  • ตำแหน่งใดๆ บนพื้นผิวโลกสามารถแสดงเป็นเวกเตอร์ 2 มิติได้ โดยมิติข้อมูลหนึ่งคือละติจูดและอีกมิติหนึ่งคือลองจิจูด
  • ราคาปัจจุบันของหุ้นแต่ละตัว 500 ตัวจะแสดงเป็นเวกเตอร์ 500 มิติ
  • การแจกแจงความน่าจะเป็นในคลาสจํานวนจำกัดสามารถแสดงเป็นเวกเตอร์ เช่น ระบบการจัดประเภทหลายคลาสที่คาดการณ์สีเอาต์พุต 1 ใน 3 สี (แดง เขียว หรือเหลือง) อาจแสดงผลเวกเตอร์ (0.3, 0.2, 0.5) เพื่อหมายถึง P[red]=0.3, P[green]=0.2, P[yellow]=0.5

เวกเตอร์สามารถต่อเชื่อมกันได้ ดังนั้นจึงสามารถแสดงสื่อต่างๆ ในรูปแบบเวกเตอร์เดียว บางโมเดลจะดำเนินการกับการเชื่อมต่อการเข้ารหัสแบบฮอตเวิร์กหลายรายการโดยตรง

โปรเซสเซอร์เฉพาะ เช่น TPU ได้รับการเพิ่มประสิทธิภาพให้ดำเนินการทางคณิตศาสตร์กับเวกเตอร์

เวกเตอร์คือเทนเซอร์ที่มีลําดับ 1

W

การสูญเสีย Wasserstein

ฟังก์ชันการสูญเสียอย่างหนึ่งที่ใช้กันโดยทั่วไปในเครือข่าย Generative Adversarial ซึ่งอิงตามระยะทาง Earth Mover's Distance ระหว่างการแจกแจงของข้อมูลที่สร้างขึ้นกับข้อมูลจริง

น้ำหนัก

#fundamentals

ค่าที่โมเดลคูณด้วยค่าอื่น การฝึกคือกระบวนการกำหนดน้ำหนักที่เหมาะสมของโมเดล ส่วนการอนุมานคือกระบวนการใช้น้ำหนักที่เรียนรู้มาเพื่อคาดการณ์

วิธีการถ่วงน้ำหนักแบบสลับขั้นต่ำ (WALS)

#recsystems

อัลกอริทึมสำหรับการลดฟังก์ชันวัตถุประสงค์ในระหว่างการแยกองค์ประกอบเมทริกซ์ในระบบการแนะนำ ซึ่งช่วยให้สามารถลดน้ำหนักตัวอย่างที่ขาดหายไปได้ WALS จะลดค่าความคลาดเคลื่อนกำลังสองที่มีน้ำหนักระหว่างเมทริกซ์ต้นฉบับกับการสร้างใหม่โดยสลับกันระหว่างการแก้ไขการแยกตัวประกอบแถวและการแยกตัวประกอบคอลัมน์ การเพิ่มประสิทธิภาพแต่ละรายการเหล่านี้สามารถคลี่คลายได้ด้วยวิธีหาค่าประมาณเชิงเส้นน้อย การเพิ่มประสิทธิภาพแบบโคเวกซ์ โปรดดูรายละเอียดที่หลักสูตรระบบการแนะนำ

ผลรวมถ่วงน้ำหนัก

#fundamentals

ผลรวมของค่าอินพุตที่เกี่ยวข้องทั้งหมดที่คูณด้วยน้ำหนักที่สอดคล้องกัน ตัวอย่างเช่น สมมติว่าอินพุตที่เกี่ยวข้องประกอบด้วยข้อมูลต่อไปนี้

ค่าอินพุต น้ำหนักอินพุต
2 -1.3
-1 0.6
3 0.4

ดังนั้นผลรวมถ่วงน้ำหนักจึงเท่ากับ

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

ผลรวมถ่วงน้ำหนักคืออาร์กิวเมนต์อินพุตของฟังก์ชันการเปิดใช้งาน

โมเดลแบบกว้าง

โมเดลเชิงเส้นที่มักจะมีฟีเจอร์อินพุตแบบเบาบางจำนวนมาก เราเรียกโมเดลนี้ว่า "กว้าง" เนื่องจากเป็นเครือข่ายประสาทเทียมประเภทพิเศษที่มีอินพุตจํานวนมากซึ่งเชื่อมต่อกับโหนดเอาต์พุตโดยตรง โมเดลแบบกว้างมักจะแก้ไขข้อบกพร่องและตรวจสอบได้ง่ายกว่าโมเดลแบบลึก แม้ว่าโมเดลแบบกว้างจะไม่สามารถแสดงลักษณะที่ไม่ใช่เชิงเส้นผ่านเลเยอร์ที่ซ่อนอยู่ แต่ก็สามารถใช้การเปลี่ยนรูปแบบ เช่น การครอสฟีเจอร์ และการแบ่งกลุ่มเพื่อประมาณลักษณะที่ไม่ใช่เชิงเส้นในลักษณะต่างๆ

ตรงข้ามกับโมเดลเชิงลึก

ความกว้าง

จํานวนนิวรอนในเลเยอร์ที่เฉพาะเจาะจงของเครือข่ายประสาทเทียม

ภูมิปัญญาของมวลชน

#df

แนวคิดที่ว่าค่าเฉลี่ยของความคิดเห็นหรือการประมาณของคนกลุ่มใหญ่ ("ฝูงชน") มักจะให้ผลลัพธ์ที่ดีมากจนน่าประหลาดใจ เช่น เกมที่ผู้คนต้องเดาจำนวนถั่วเยลลี่ที่บรรจุในโถขนาดใหญ่ แม้ว่าการคาดเดาของแต่ละคนส่วนใหญ่จะไม่ถูกต้อง แต่ค่าเฉลี่ยของการคาดเดาทั้งหมดได้รับการพิสูจน์แล้วว่าใกล้เคียงกับจำนวนเยลลี่บีนจริงในโถอย่างน่าประหลาดใจ

ชุดค่าผสมเป็นซอฟต์แวร์ที่ทำงานคล้ายกับภูมิปัญญาของมวลชน แม้ว่าโมเดลแต่ละรายการจะคาดการณ์อย่างไม่ถูกต้อง แต่การหาค่าเฉลี่ยของการคาดการณ์ของโมเดลหลายรายการมักจะให้ผลการคาดการณ์ที่แม่นยำอย่างน่าประหลาดใจ ตัวอย่างเช่น แม้ว่าต้นไม้การตัดสินใจแต่ละต้นอาจทําการคาดการณ์ได้ไม่ดี แต่ป่าการตัดสินใจมักจะทําการคาดการณ์ได้ดีมาก

Word Embedding

#language

การนำเสนอคําแต่ละคำในชุดคําภายในเวกเตอร์การฝัง กล่าวคือ การนำเสนอคําแต่ละคําเป็นเวกเตอร์ของค่าตัวเลขทศนิยมระหว่าง 0.0 ถึง 1.0 คําที่มีความหมายคล้ายกันจะมีการแสดงผลที่คล้ายกันมากกว่าคําที่มีความหมายต่างกัน ตัวอย่างเช่น แครอท ขึ้นฉ่าย และแตงกวาล้วนมีการแสดงผลที่คล้ายกัน ซึ่งจะแตกต่างจากการแสดงผลของเครื่องบิน แว่นกันแดด และยาสีฟัน

X

XLA (พีชคณิตเชิงเส้นแบบเร่ง)

คอมไพเลอร์แมชชีนเลิร์นนิงแบบโอเพนซอร์สสําหรับ GPU, CPU และโปรแกรมเร่งความเร็ว ML

คอมไพเลอร์ XLA จะนําโมเดลจากเฟรมเวิร์ก ML ที่ได้รับความนิยม เช่น PyTorch, TensorFlow และ JAX มาเพิ่มประสิทธิภาพเพื่อการทำงานที่มีประสิทธิภาพสูงในแพลตฟอร์มฮาร์ดแวร์ต่างๆ ซึ่งรวมถึง GPU, CPU และโปรแกรมเร่งความเร็ว ML

Z

การเรียนรู้แบบไม่ใช้ข้อมูลตัวอย่าง

การฝึกแมชชีนเลิร์นนิงประเภทหนึ่งที่โมเดลอนุมานการคาดการณ์สําหรับงานที่ยังไม่ได้ฝึกมาโดยเฉพาะ กล่าวคือ โมเดลไม่ได้รับตัวอย่างการฝึกเฉพาะงานเลย แต่ได้รับคำสั่งให้อนุมานงานนั้น

การแจ้งเตือนแบบไม่แสดงตัวอย่าง

#language
#generativeAI

พรอมต์ที่ไม่ได้แสดงตัวอย่างวิธีที่คุณต้องการให้โมเดลภาษาขนาดใหญ่ตอบกลับ เช่น

ส่วนต่างๆ ของพรอมต์ 1 รายการ หมายเหตุ
สกุลเงินทางการของประเทศที่ระบุคืออะไร คำถามที่คุณต้องการให้ LLM ตอบ
อินเดีย: คําค้นหาจริง

โมเดลภาษาขนาดใหญ่อาจตอบกลับด้วยสิ่งต่อไปนี้

  • รูปี
  • INR
  • รูปีอินเดีย
  • รูปี
  • รูปีอินเดีย

คำตอบทั้งหมดถูกต้อง แต่คุณอาจต้องการรูปแบบที่เฉพาะเจาะจง

เปรียบเทียบพรอมต์แบบไม่ใช้ตัวอย่างกับคำศัพท์ต่อไปนี้

การแปลงข้อมูลเป็นรูปแบบมาตรฐาน Z-Score

#fundamentals

เทคนิคการปรับขนาดที่ใช้แทนค่า ฟีเจอร์ดิบด้วยค่าทศนิยมที่แสดงจํานวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของฟีเจอร์นั้น ตัวอย่างเช่น พิจารณาฟีเจอร์ที่มีค่าเฉลี่ย 800 และค่าความเบี่ยงเบนมาตรฐาน 100 ตารางต่อไปนี้แสดงวิธีที่การหาค่า Z-Score มาตรฐานจะจับคู่ค่าดิบกับ Z-Score

ค่าดิบ คะแนนมาตรฐาน (Z-Score)
800 0
950 +1.5
575 -2.25

จากนั้นโมเดลแมชชีนเลิร์นนิงจะฝึกด้วยคะแนน Z ของฟีเจอร์นั้นแทนค่าดิบ