อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง

อภิธานศัพท์นี้ให้คําจํากัดความของคําศัพท์ทั่วไปเกี่ยวกับแมชชีนเลิร์นนิง รวมถึงคําศัพท์เฉพาะของ TensorFlow

A

การเลิกรา

เทคนิคในการประเมินความสำคัญของฟีเจอร์ หรือคอมโพเนนต์โดยนำออกจากโมเดลชั่วคราว จากนั้น ฝึกโมเดลอีกครั้งโดยไม่มีฟีเจอร์หรือคอมโพเนนต์ดังกล่าว และหากโมเดลที่ฝึก มีประสิทธิภาพแย่ลงมาก ส่งผลให้ฟีเจอร์หรือคอมโพเนนต์ที่นำออก อาจมีความสำคัญ

ตัวอย่างเช่น สมมติว่าคุณฝึกโมเดลการจัดประเภทด้วยฟีเจอร์ 10 รายการและได้ความแม่นยำ 88% ในชุดทดสอบ หากต้องการตรวจสอบความสำคัญของฟีเจอร์แรก คุณสามารถฝึกโมเดลใหม่โดยใช้เพียงฟีเจอร์อื่นๆ อีก 9 รายการ หากโมเดลที่ผ่านการฝึกใหม่มีประสิทธิภาพแย่ลงอย่างมาก (เช่น ความแม่นยำ 55%) แสดงว่าฟีเจอร์ที่นําออกอาจมีความสำคัญ ในทางกลับกัน ถ้าโมเดลที่ฝึกย่อยมีประสิทธิภาพดี ฟีเจอร์นั้นอาจ สำคัญขนาดนั้น

การลบออกยังช่วยระบุความสำคัญของสิ่งต่อไปนี้ได้ด้วย

  • คอมโพเนนต์ที่ใหญ่กว่า เช่น ระบบย่อยทั้งหมดของระบบ ML ที่ใหญ่กว่า
  • กระบวนการหรือเทคนิค เช่น ขั้นตอนเตรียมข้อมูลล่วงหน้า

ในทั้งสองกรณี คุณจะสังเกตได้ว่าประสิทธิภาพของระบบเปลี่ยนแปลงไปอย่างไร (หรือ ไม่เปลี่ยนแปลง) หลังจากที่คุณนำคอมโพเนนต์ออก

การทดสอบ A/B

วิธีทางสถิติในการเปรียบเทียบเทคนิค 2 อย่าง (ขึ้นไป) ซึ่งก็คือ A และ B โดยปกติแล้ว A คือเทคนิคที่มีอยู่ และ B คือเทคนิคใหม่ การทดสอบ A/B ไม่เพียงแต่จะระบุว่าเทคนิคใดมีประสิทธิภาพดีกว่า แต่ยังระบุว่าความแตกต่างนั้นสำคัญทางสถิติหรือไม่

การทดสอบ A/B มักจะเปรียบเทียบเมตริกเดียวกับ 2 เทคนิค ตัวอย่างเช่น การเปรียบเทียบความแม่นยำของโมเดลสำหรับ เทคนิค อย่างไรก็ตาม การทดสอบ A/B ยังสามารถเปรียบเทียบจำนวนที่จำกัดใดๆ เมตริกต่างๆ

ชิปตัวเร่ง

#GoogleCloud

หมวดหมู่ของส่วนประกอบฮาร์ดแวร์เฉพาะทางที่ออกแบบมาเพื่อให้ทำงานสำคัญ การคำนวณที่จำเป็นสำหรับอัลกอริทึมการเรียนรู้เชิงลึก

ชิปเร่งความเร็ว (หรือเรียกสั้นๆ ว่าตัวเร่งความเร็ว) สามารถเพิ่มความเร็วและประสิทธิภาพของงานการฝึกและการทำนายได้อย่างมากเมื่อเทียบกับ CPU ทั่วไป ซึ่งเหมาะสําหรับการฝึกอบรมเครือข่ายประสาทเทียมและงานที่ต้องใช้การประมวลผลอย่างหนัก

ตัวอย่างชิปเร่ง ได้แก่

  • Tensor Processing Unit (TPU) ของ Google ที่มีฮาร์ดแวร์เฉพาะสําหรับการเรียนรู้เชิงลึก
  • GPU ของ NVIDIA ซึ่งแม้จะออกแบบมาสำหรับการประมวลผลกราฟิกในตอนแรก ได้รับการออกแบบมาเพื่อทำให้สามารถประมวลผลพร้อมกัน ช่วยเพิ่มความเร็วในการประมวลผล

ความแม่นยำ

#fundamentals

จํานวนการคาดการณ์การจัดประเภทที่ถูกต้องหารด้วยจํานวนการคาดการณ์ทั้งหมด โดยการ

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

ตัวอย่างเช่น โมเดลที่ทําการคาดการณ์ที่ถูกต้อง 40 ครั้งและการคาดการณ์ที่ไม่ถูกต้อง 10 ครั้งจะมีความแม่นยำเท่ากับ

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

การจัดประเภทแบบไบนารีระบุชื่อที่เจาะจง สำหรับการคาดคะเนที่ถูกต้องในหมวดหมู่ต่างๆ และ การคาดคะเนที่ไม่ถูกต้อง ดังนั้น สูตรความแม่นยำในการจัดประเภทเลขฐานสอง ดังนี้

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

where:

  • TP คือจํานวนผลบวกจริง (การคาดการณ์ที่ถูกต้อง)
  • TN คือจำนวนผลลบจริง (การคาดคะเนที่ถูกต้อง)
  • FP คือจํานวนผลบวกลวง (การคาดการณ์ที่ไม่ถูกต้อง)
  • FN คือจํานวนผลลบเท็จ (การคาดการณ์ที่ไม่ถูกต้อง)

เปรียบเทียบความแม่นยำกับ ความแม่นยำและ การเรียกคืน

ดูข้อมูลเพิ่มเติมได้ในการจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้องในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การดำเนินการ

#rl

ในการเรียนรู้แบบเสริมกำลัง กลไกที่ Agent การเปลี่ยนระหว่างรัฐของ สภาพแวดล้อม ตัวแทนจะเลือกการดำเนินการโดยใช้ policy

ฟังก์ชันการเปิดใช้งาน

#fundamentals

ฟังก์ชันที่ช่วยให้โครงข่ายประสาทเรียนรู้ได้ ความสัมพันธ์แบบnonlinear (ซับซ้อน) ระหว่างฟีเจอร์ต่างๆ และป้ายกำกับ

ฟังก์ชันการเปิดใช้งานยอดนิยม ได้แก่

พล็อตของฟังก์ชันเปิดใช้งานจะไม่ใช่เส้นตรงเดี่ยวๆ เช่น ผังฟังก์ชันการเปิดใช้งาน ReLU ประกอบด้วยเส้นตรง 2 เส้น ดังนี้

กราฟรถเข็นที่มี 2 บรรทัด บรรทัดแรกมีค่าคงที่
          ค่า y เป็น 0 วิ่งตามแกน x จาก -infinity, 0 ถึง 0,-0
          บรรทัดที่ 2 จะเริ่มที่ 0,0 เส้นนี้มีความชัน +1 ดังนั้นจึงวิ่งจาก 0,0 ถึง +infinity,+infinity

พล็อตฟังก์ชันการเปิดใช้งาน Sigmoid มีลักษณะดังนี้

แผนภูมิโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมน
          -ไม่สิ้นสุด ถึง +บวก ในขณะที่ค่า y ครอบคลุมช่วงเกือบ 0 ถึง
          เกือบ 1. เมื่อ x เป็น 0, y จะเท่ากับ 0.5 ความชันของเส้นโค้งเป็นค่าบวกเสมอ โดยมีค่าสูงสุดที่ 0,0.5 และค่อยๆ ลดลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

โปรดดูเครือข่ายระบบประสาท: การเปิดใช้งาน ฟังก์ชัน ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

การเรียนรู้แบบลงมือปฏิบัติ

แนวทางการฝึกที่อัลกอริทึมเลือกข้อมูลบางส่วนที่เรียนรู้ การเรียนรู้แบบมีส่วนร่วมจะมีประโยชน์อย่างยิ่งเมื่อตัวอย่างที่มีป้ายกำกับมีไม่มากหรือหาได้ยาก อัลกอริทึมการเรียนรู้แบบมีส่วนร่วมจะเลือกหาตัวอย่างที่หลากหลายตามที่ต้องการเพื่อการเรียนรู้ แทนที่จะค้นหาตัวอย่างที่ติดป้ายกำกับอย่างไร้จุดหมาย

AdaGrad

อัลกอริทึมการลดเชิงลาดขั้นสูงที่ปรับขนาดเชิงลาดของพารามิเตอร์แต่ละรายการใหม่ ซึ่งช่วยให้พารามิเตอร์แต่ละรายการมีอัตราการเรียนรู้อิสระ ดูคำอธิบายแบบเต็มได้ที่เอกสาร AdaGrad นี้

ตัวแทน

#rl

ในการเรียนรู้เพื่อเสริมแรง บุคคลที่ใช้นโยบายเพื่อเพิ่มผลตอบแทนที่คาดหวังสูงสุดจากการเปลี่ยนระหว่างสถานะของสภาพแวดล้อม

โดยทั่วไปแล้ว ตัวแทนคือซอฟต์แวร์ที่วางแผนและดําเนินการชุดหนึ่งๆ เพื่อบรรลุเป้าหมายอย่างอิสระ โดยสามารถปรับตัวตามการเปลี่ยนแปลงในสภาพแวดล้อมได้ เช่น ตัวแทนที่อิงตาม LLM อาจใช้ LLM เพื่อสร้างแผน แทนที่จะใช้นโยบายการเรียนรู้ด้วยการทำซ้ำ

คลัสเตอร์แบบรวบยอด

#clustering

ดูการจัดกลุ่มตามลําดับชั้น

การตรวจจับความผิดปกติ

กระบวนการระบุค่าผิดปกติ ตัวอย่างเช่น หากค่าเฉลี่ยของฟีเจอร์หนึ่งๆ คือ 100 ส่วนเบี่ยงเบนมาตรฐานคือ 10 การตรวจหาความผิดปกติควรแจ้งว่าค่า 200 เป็นค่าที่น่าสงสัย

AR

คำย่อของ Augmented Reality

พื้นที่ใต้กราฟ PR

ดูPR AUC (พื้นที่ใต้กราฟ PR)

พื้นที่ใต้กราฟ ROC

ดู AUC (พื้นที่ใต้กราฟ ROC)

ปัญญาทั่วไปเทียม

กลไกที่ไม่ใช่มนุษย์ซึ่งแสดงให้เห็นถึงหลากหลายวิธีแก้ปัญหา ความคิดสร้างสรรค์ และความสามารถในการปรับตัว เช่น โปรแกรมที่แสดงให้เห็นถึงปัญญาทั่วไปของปัญญาประดิษฐ์อาจแปลข้อความ แต่งซิมโฟนี และเล่นเกมที่ยังไม่มีคนคิดค้นได้

ปัญญาประดิษฐ์ (AI)

#fundamentals

โปรแกรมหรือโมเดลที่ไม่ใช่มนุษย์ซึ่งสามารถแก้ปัญหาที่ซับซ้อน ตัวอย่างเช่น โปรแกรมหรือโมเดลที่แปลข้อความ หรือโปรแกรมหรือโมเดลที่ ระบุโรคจากภาพรังสีวิทยาแสดงให้เห็นปัญญาประดิษฐ์ (AI)

อย่างเป็นทางการนั้น แมชชีนเลิร์นนิงเป็นสาขาย่อยของการประดิษฐ์ ความฉลาด อย่างไรก็ตาม ในช่วงไม่กี่ปีที่ผ่านมา องค์กรบางแห่งได้เริ่มใช้ ปัญญาประดิษฐ์ (AI) และแมชชีนเลิร์นนิงแทนกันได้

โปรดทราบ

#language

กลไกที่ใช้ในโครงข่ายระบบประสาทเทียมที่ระบุว่า ความสำคัญของคำบางคำหรือส่วนหนึ่งของคำ การใส่ใจจะบีบอัดปริมาณข้อมูลที่จำเป็นต่อโมเดลในการคาดคะเนโทเค็น/คำถัดไป กลไกการให้ความสำคัญทั่วไปอาจประกอบด้วยผลรวมถ่วงน้ำหนักของชุดอินพุต โดยที่น้ำหนักของอินพุตแต่ละรายการจะคํานวณโดยส่วนอื่นของเครือข่ายประสาท

นอกจากนี้ควรอ่านการใส่ใจตนเองและ multi-head-Attention ซึ่งเป็น องค์ประกอบพื้นฐานของ Transformers

ดู LLM: ภาษาขนาดใหญ่คืออะไร คืออะไร ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อดูข้อมูลเพิ่มเติมเกี่ยวกับการจดจ่อกับตนเอง

แอตทริบิวต์

#fairness

คำพ้องความหมายของ feature

ในด้านความเป็นธรรมของแมชชีนเลิร์นนิง แอตทริบิวต์ที่มักหมายถึง ลักษณะเฉพาะที่เกี่ยวข้องกับบุคคล

การสุ่มตัวอย่างแอตทริบิวต์

#df

กลวิธีสำหรับการฝึกกลุ่มผู้ทำการตัดสินใจที่แต่ละฝ่าย แผนผังการตัดสินใจจะพิจารณาเฉพาะชุดย่อยแบบสุ่มของความเป็นไปได้ ฟีเจอร์ต่างๆ เมื่อดูข้อมูลเกี่ยวกับสภาพสินค้า โดยทั่วไปแล้ว ชุดย่อยของฟีเจอร์แต่ละชุดจะถูกสุ่มตัวอย่างสำหรับแต่ละฟีเจอร์ node ในทางตรงกันข้าม เมื่อฝึกต้นไม้การตัดสินใจโดยไม่มีการสุ่มตัวอย่างแอตทริบิวต์ ระบบจะพิจารณาฟีเจอร์ที่เป็นไปได้ทั้งหมดสำหรับแต่ละโหนด

AUC (พื้นที่ใต้กราฟ ROC)

#fundamentals

ตัวเลขระหว่าง 0.0 ถึง 1.0 ที่แสดงถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ ยิ่ง AUC ใกล้เคียงกับ 1.0 มากเท่าใด ความสามารถในการแยกคลาสออกจากกันของโมเดลก็จะยิ่งดีขึ้นเท่านั้น

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโมเดลการจัดประเภทที่แยกคลาสที่เป็นบวก (รูปไข่สีเขียว) ออกจากคลาสที่เป็นลบ (สี่เหลี่ยมผืนผ้าสีม่วง) อย่างสมบูรณ์ โมเดลที่สมบูรณ์แบบอย่างไม่สมจริงนี้มี AUC ของ 1.0:

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 8 ด้านที่ด้านหนึ่งและ
          ตัวอย่างเชิงลบ 9 ตัวอย่างในอีกด้านหนึ่ง

ในทางกลับกัน ภาพต่อไปนี้แสดงผลลัพธ์ของโมเดลการจัดประเภทที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มีค่า AUC เท่ากับ 0.5

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลําดับของตัวอย่างคือ บวก ลบ บวก ลบ บวก ลบ บวก ลบ บวก ลบ

ใช่ โมเดลก่อนหน้ามี AUC เท่ากับ 0.5 ไม่ใช่ 0.0

โมเดลส่วนใหญ่อยู่ตรงกลางระหว่าง 2 รูปแบบข้างต้น ตัวอย่างเช่น โมเดลต่อไปนี้แยกรายการเชิงบวกออกจากรายการเชิงลบได้ในระดับหนึ่ง จึงมี AUC อยู่ระหว่าง 0.5 ถึง 1.0

เส้นจำนวนที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลำดับของตัวอย่างคือเชิงลบ ลบ ลบ ลบ
          แง่บวก, แง่บวก, แง่บวก, แง่บวก, แง่บวก, แง่บวก
          เชิงบวก

AUC จะไม่สนใจค่าที่คุณตั้งไว้สําหรับเกณฑ์การจัดประเภท แต่ AUC จะพิจารณาเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมดแทน

ดูการจัดประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

Augmented Reality

#image

เทคโนโลยีที่วางซ้อนภาพที่สร้างโดยคอมพิวเตอร์บนมุมมองของผู้ใช้เกี่ยวกับโลกแห่งความเป็นจริง จึงให้มุมมองแบบผสม

ตัวเข้ารหัสอัตโนมัติ

#language
#image

ระบบที่เรียนรู้วิธีดึงข้อมูลที่สำคัญที่สุดจากอินพุต ออโต้เอ็นโค้ดเดอร์คือการนำโปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัสมารวมกัน โปรแกรมการเขียนโค้ดอัตโนมัติใช้กระบวนการ 2 ขั้นตอนต่อไปนี้

  1. ตัวเข้ารหัสจะแมปอินพุตเป็นรูปแบบ (โดยปกติ) ที่มีการสูญเสียและมิติข้อมูลต่ำลง (ระดับกลาง)
  2. ตัวถอดรหัสจะสร้างอินพุตต้นฉบับในเวอร์ชันแบบสูญเสียบางส่วนด้วยการแมป รูปแบบมิติข้อมูลที่ต่ำกว่าให้เป็นมิติที่สูงขึ้นแบบเดิม รูปแบบอินพุต

โปรแกรมเปลี่ยนไฟล์อัตโนมัติได้รับการฝึกจากต้นทางถึงปลายทางโดยให้เครื่องมือถอดรหัส สร้างอินพุตต้นฉบับจากรูปแบบระดับกลางของโปรแกรมเปลี่ยนไฟล์ ให้ใกล้เคียงที่สุดเท่าที่จะทำได้ เนื่องจากรูปแบบกลางมีขนาดเล็กกว่า (มิติข้อมูลต่ำกว่า) รูปแบบเดิม ระบบจึงบังคับให้ตัวเข้ารหัสอัตโนมัติต้องเรียนรู้ว่าข้อมูลใดในอินพุตมีความสําคัญ และเอาต์พุตจะไม่เหมือนกับอินพุตอย่างสมบูรณ์

เช่น

  • หากข้อมูลอินพุตเป็นกราฟิก สำเนาที่ไม่ใช่สำเนาที่ตรงกันทั้งหมดจะคล้ายกับกราฟิกต้นฉบับ แต่มีการแก้ไขเล็กน้อย สำเนาที่ไม่ใช่สำเนาที่ตรงกันทั้งหมดอาจนำสัญญาณรบกวนออกจากกราฟิกต้นฉบับหรือเติมพิกเซลที่ขาดหายไป
  • หากข้อมูลอินพุตเป็นข้อความ ตัวเข้ารหัสอัตโนมัติจะสร้างข้อความใหม่ที่เลียนแบบ (แต่ไม่เหมือนกับ) ข้อความต้นฉบับ

ดูข้อมูลเพิ่มเติมที่โปรแกรมเปลี่ยนไฟล์อัตโนมัติเวอร์ชันต่างๆ

อคติจากการทำงานอัตโนมัติ

#fairness

เมื่อผู้มีอำนาจตัดสินใจรองรับคำแนะนำแบบอัตโนมัติ ระบบการตัดสินใจเหนือข้อมูลที่สร้างขึ้นโดยไม่มีการทำงานอัตโนมัติ แม้แต่ เมื่อระบบตัดสินใจอัตโนมัติเกิดข้อผิดพลาด

ดูข้อมูลเพิ่มเติมได้ในความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

AutoML

กระบวนการอัตโนมัติทั้งหมดเพื่อสร้างแมชชีนเลิร์นนิง รุ่น AutoML จะทำงานได้โดยอัตโนมัติ เช่น

  • ค้นหารูปแบบที่เหมาะสมที่สุด
  • ปรับแต่ง Hyperparameters
  • เตรียมข้อมูล (รวมถึงการดำเนินการ feature Engineering)
  • ทำให้โมเดลที่ได้ใช้งานได้

AutoML มีประโยชน์สําหรับนักวิทยาศาสตร์ข้อมูลเนื่องจากช่วยประหยัดเวลาและความพยายามในการพัฒนาไปป์ไลน์แมชชีนเลิร์นนิงและปรับปรุงความแม่นยําในการคาดการณ์ นอกจากนี้ เครื่องมือนี้ยังเป็นประโยชน์ต่อผู้ที่ไม่ใช่ผู้เชี่ยวชาญด้วย เนื่องจากช่วยให้งานแมชชีนเลิร์นนิงที่ซับซ้อนเข้าถึงได้ง่ายขึ้น

ดูเครื่องอัตโนมัติ การเรียนรู้ (AutoML) ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

โมเดลการถดถอยอัตโนมัติ

#language
#image
#generativeAI

โมเดลที่อนุมานการคาดการณ์ตามการคาดการณ์ก่อนหน้าของตนเอง ตัวอย่างเช่น โมเดลภาษาแบบย้อนกลับอัตโนมัติจะคาดการณ์โทเค็นถัดไปโดยอิงตามโทเค็นที่คาดการณ์ไว้ก่อนหน้านี้ โมเดลภาษาขนาดใหญ่ทั้งหมดที่อิงตาม Transformer จะเป็นแบบย้อนกลับอัตโนมัติ

ในทางตรงกันข้าม โมเดลรูปภาพที่อิงตาม GAN มักจะไม่ได้เป็นโมเดลที่ถดถอยอัตโนมัติ เนื่องจากสร้างรูปภาพในขั้นตอนเดียวแบบเดินหน้าและไม่ทําซ้ำในขั้นตอนต่างๆ อย่างไรก็ตาม โมเดลการสร้างรูปภาพบางรุ่นเป็นแบบย้อนกลับอัตโนมัติเนื่องจากสร้างรูปภาพเป็นขั้นตอน

การสูญเสียเสริม

ฟังก์ชันการสูญเสียที่ใช้ร่วมกับฟังก์ชันการสูญเสียหลักของโมเดลเครือข่ายประสาทเทียม ซึ่งช่วยเร่งการฝึกในช่วงเริ่มต้นซ้ำๆ เมื่อมีการเริ่มต้นน้ำหนักแบบสุ่ม

ฟังก์ชันการสูญเสียข้อมูลเสริมจะพุชการไล่ระดับสีที่มีประสิทธิภาพ ไปยังเลเยอร์ก่อนหน้านี้ ซึ่งช่วยให้ การสนทนาระหว่างการฝึกอบรม ด้วยการต่อสู้กับปัญหาการไล่ระดับสีที่หายไป

ความแม่นยำเฉลี่ย

เมตริกสําหรับสรุปประสิทธิภาพของลําดับผลลัพธ์ที่จัดอันดับ ความแม่นยำเฉลี่ยคำนวณโดยการหาค่าเฉลี่ยของ precision สำหรับผลลัพธ์ที่เกี่ยวข้องแต่ละรายการ (ผลลัพธ์แต่ละรายการจะมีค่า รายการที่จัดอันดับซึ่งมีความอ่อนไหวเพิ่มขึ้นเมื่อเทียบกับผลลัพธ์ก่อนหน้า)

โปรดดูเพิ่มเติมที่พื้นที่ใต้กราฟ PR

เงื่อนไขที่สอดคล้องกับแกน

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขที่เกี่ยวข้องกับฟีเจอร์เพียงรายการเดียว เช่น หากพื้นที่ เป็นจุดสนใจ ดังนั้นตัวอย่างต่อไปนี้จะเป็นเงื่อนไขที่จัดแนวแกน:

area > 200

ตัดกับเงื่อนไขแบบเอียง

B

Backpropagation

#fundamentals

อัลกอริทึมที่ใช้ การไล่ระดับสีใน โครงข่ายระบบประสาทเทียม

การฝึกโครงข่ายระบบประสาทเทียมต้องอาศัยการทำซ้ำหลายอย่าง ของวงจร 2 ช่องทางต่อไปนี้

  1. ในระหว่างการส่งต่อ ระบบจะประมวลผลกลุ่ม ตัวอย่าง เพื่อเพิ่มผลตอบแทนจากการคาดการณ์ ระบบจะเปรียบเทียบ ให้กับค่า label แต่ละค่า ส่วนต่างระหว่างการคาดการณ์และค่าป้ายกำกับคือการสูญเสียสำหรับตัวอย่างนั้น ระบบจะรวบรวมการสูญเสียของตัวอย่างทั้งหมดเพื่อคํานวณการสูญเสียทั้งหมดของกลุ่มปัจจุบัน
  2. ในระหว่างการส่งผ่านย้อนกลับ (Backpropagation) ระบบจะลดการสูญเสียด้วยการปรับน้ำหนักของนิวรอนทั้งหมดในเลเยอร์ที่ซ่อนอยู่

โครงข่ายประสาทมักประกอบด้วยเซลล์ประสาทจำนวนมากในชั้นที่ซ่อนอยู่หลายชั้น เซลล์ประสาทแต่ละเซลล์มีส่วนทำให้เกิดความสูญเสียโดยรวมในลักษณะที่แตกต่างกัน การย้อนกลับจะกำหนดว่าจะเพิ่มหรือลดน้ำหนักที่ใช้กับเซลล์ประสาทบางเซลล์

อัตราการเรียนรู้คือตัวคูณที่ควบคุมระดับที่การย้อนกลับแต่ละครั้งจะเพิ่มหรือลดน้ำหนักแต่ละรายการ อัตราการเรียนรู้ที่สูงจะเพิ่มหรือลดน้ำหนักแต่ละรายการมากกว่า และมีอัตราการเรียนรู้ในน้อย

ในแง่แคลคูลัส การแสดงผลย้อนกลับจะใช้กฎเชนจากแคลคูลัส กล่าวคือ การแสดงผลย้อนกลับจะคํานวณอนุพันธ์บางส่วนของข้อผิดพลาดเทียบกับพารามิเตอร์แต่ละรายการ

เมื่อหลายปีก่อน ผู้ปฏิบัติงานด้าน ML ต้องเขียนโค้ดเพื่อใช้ Backpropagation ตอนนี้ API ML สมัยใหม่อย่าง Keras ใช้ Backpropagation ให้คุณแล้ว ในที่สุด

ดูข้อมูลเพิ่มเติมเกี่ยวกับเครือข่ายประสาทเทียมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การถุง

#df

วิธีการฝึกชุดรวมโดยที่แต่ละชุด โมเดลองค์ประกอบจะฝึกในชุดย่อยแบบสุ่มของการฝึก ตัวอย่าง สุ่มตัวอย่างพร้อมการแทนที่ ตัวอย่างเช่น random Forest คือคอลเล็กชันของ แผนผังการตัดสินใจฝึกสอนด้วยการเก็บสัมภาระ

คำว่า bagging เป็นคำสั้นๆ ของ bootstrap aggregat

ดูป่าแบบสุ่ม ในหลักสูตร Decision Forests สำหรับข้อมูลเพิ่มเติม

ถุงคำ

#language

การนำเสนอคำในวลีหรือข้อความ โดยไม่คำนึงถึงคำสั่งซื้อ ตัวอย่างเช่น ถุงคำแสดงถึง วลีสามวลีต่อไปนี้เหมือนกันทุกประการ:

  • สุนัขกระโดด
  • สุนัขกระโดด
  • สุนัขกระโดด

แต่ละคำจะแมปกับดัชนีในเวกเตอร์แบบกระจัดกระจาย โดยที่ เวกเตอร์จะมีดัชนีสำหรับทุกคำในคำศัพท์ ตัวอย่างเช่น ระบบจะแมปวลี the dog jumps ให้เป็นเวกเตอร์ฟีเจอร์ที่มีค่าที่ไม่ใช่ 0 ในดัชนี 3 รายการที่สอดคล้องกับคําว่า the, dog และ jumps ค่าที่ไม่ใช่ 0 อาจเป็นค่าใดค่าหนึ่งต่อไปนี้

  • A 1 เพื่อแสดงการมีอยู่ของคำ
  • จำนวนครั้งที่คำปรากฏในกระเป๋า ตัวอย่างเช่น ถ้าวลีคือสุนัขสีแดงเป็นสุนัขที่มีขนสีแดง ทั้งสองคำ น้ำตาลแดง และ สุนัข จะแสดงเป็น 2 ในขณะที่คำอื่นๆ จะแสดงเป็น จะแสดงเป็น 1
  • ค่าอื่นๆ เช่น ลอการิทึมของจํานวนครั้งที่คําปรากฏในถุง

พื้นฐาน

โมเดลที่ใช้เป็นจุดอ้างอิงสำหรับการเปรียบเทียบว่าโมเดลอื่นได้ดีเพียงใด โมเดล (โดยทั่วไปจะเป็นรูปแบบที่ซับซ้อนกว่า) เช่น โมเดลการถดถอยเชิงโลจิสติกอาจใช้เป็นบรรทัดฐานที่ดีสําหรับโมเดลเชิงลึก

สําหรับปัญหาหนึ่งๆ เกณฑ์พื้นฐานจะช่วยให้นักพัฒนาโมเดลระบุประสิทธิภาพขั้นต่ำที่คาดหวังซึ่งโมเดลใหม่ต้องบรรลุเพื่อให้โมเดลใหม่มีประโยชน์

กลุ่ม

#fundamentals

ชุดตัวอย่างที่ใช้ในการฝึกซ้ำ 1 ครั้ง ขนาดกลุ่มจะกําหนดจํานวนตัวอย่างในกลุ่ม

ดู Epoch สำหรับคำอธิบายว่ากลุ่มเกี่ยวข้องกับ Epoch

โปรดดูการถดถอยเชิงเส้น ไฮเปอร์พารามิเตอร์ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

การอนุมานแบบกลุ่ม

#TensorFlow
#GoogleCloud

กระบวนการอนุมานการคาดการณ์จากตัวอย่างที่ไม่มีป้ายกำกับหลายรายการซึ่งแบ่งออกเป็นชุดย่อยขนาดเล็ก ("กลุ่ม")

การอนุมานแบบกลุ่มสามารถใช้ประโยชน์จากคุณลักษณะการโหลดพร้อมกันของ ชิป Accelerator ซึ่งก็คือ Accelerator หลายรายการ สามารถอนุมานการคาดคะเนในกลุ่มต่างๆ ที่ไม่มีป้ายกำกับพร้อมกันได้ ตัวอย่าง ซึ่งทำให้จำนวนการอนุมานต่อวินาทีเพิ่มสูงขึ้นอย่างมาก

ดูข้อมูลเพิ่มเติมได้ที่ระบบ ML สําหรับใช้งานจริง: การอนุมานแบบคงที่เทียบกับแบบไดนามิกในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การแปลงแบบกลุ่มให้เป็นมาตรฐาน

การปรับมาตรฐานอินพุตหรือเอาต์พุตของ ฟังก์ชันการเปิดใช้งานใน เลเยอร์ที่ซ่อนอยู่ การปรับมาตรฐานกลุ่มมีข้อดีดังนี้

ขนาดกลุ่ม

#fundamentals

จำนวนตัวอย่างในกลุ่ม เช่น หากขนาดกลุ่มเป็น 100 โมเดลจะประมวลผลตัวอย่าง 100 รายการต่อรอบ

กลยุทธ์ขนาดกลุ่มที่นิยมมีดังนี้

  • Stochastic Gradient Descent (SGD) ซึ่งมีขนาดกลุ่มเป็น 1
  • ทั้งกลุ่ม ซึ่งขนาดกลุ่มคือจำนวนตัวอย่างทั้งหมด ชุดการฝึก เช่น หากชุดข้อมูลการฝึกมีตัวอย่าง 1 ล้านรายการ ขนาดกลุ่มจะเป็น 1 ล้านตัวอย่าง การใช้ทั้งกลุ่มมักเป็นกลยุทธ์ที่ไร้ประสิทธิภาพ
  • มินิแบทช์ ซึ่งโดยปกติแล้วขนาดกลุ่มจะอยู่ระหว่าง 10 ถึง 1,000 มักเป็นกลยุทธ์ที่มีประสิทธิภาพมากที่สุด

โปรดดูข้อมูลเพิ่มเติมดังต่อไปนี้

โครงข่ายประสาทเทียมแบบ Bayesian

โครงข่ายระบบประสาทเทียมที่เป็นไปได้ซึ่งครอบคลุม ความไม่แน่นอนในน้ำหนักและเอาต์พุต โดยทั่วไปแล้ว รูปแบบการถดถอยของเครือข่ายประสาทมาตรฐานจะคาดการณ์ค่าสเกลาร์ เช่น รูปแบบมาตรฐานคาดการณ์ราคาบ้านที่ 853,000 ในทางตรงกันข้าม โครงข่ายประสาทแบบเบย์คาดการณ์การกระจายของ values; ตัวอย่างเช่น แบบจำลอง Bayesian คาดการณ์ราคาบ้านไว้ที่ 853,000 กับ ค่าเบี่ยงเบนมาตรฐานเป็น 67,200

โครงข่ายประสาทแบบเบย์ต้องอาศัย เบส์ Theorem เพื่อคำนวณความไม่แน่นอนในน้ำหนักและการคาดการณ์ เครือข่ายประสาทแบบเบย์อาจมีประโยชน์เมื่อจำเป็นต้องวัดความไม่แน่นอน เช่น ในโมเดลที่เกี่ยวข้องกับเภสัชกรรม โครงข่ายประสาทแบบเบย์ก็สามารถช่วยได้ ป้องกันไม่ให้เกิดการปรับมากเกินไป

การเพิ่มประสิทธิภาพ Bayesian

เทคนิคโมเดลการถดถอยแบบมีข้อมูลเป็นค่าความน่าจะเป็นเพื่อเพิ่มประสิทธิภาพฟังก์ชันวัตถุประสงค์ที่ต้องใช้การประมวลผลมาก โดยการเพิ่มประสิทธิภาพตัวแทนแทน ซึ่งจะวัดความไม่แน่นอนโดยใช้เทคนิคการเรียนรู้แบบเบย์เซียน ตั้งแต่ปี การเพิ่มประสิทธิภาพแบบ Bayesian มีราคาแพงมาก ซึ่งโดยปกติแล้วจะใช้เพื่อเพิ่มประสิทธิภาพ งานที่ต้องทำการประเมินราคาแพงซึ่งมีพารามิเตอร์เพียงไม่กี่รายการ เช่น การเลือก Hyperparameters

สมการของเบลล์แมน

#rl

ในการเสริมสร้างการเรียนรู้ อัตลักษณ์ต่อไปนี้คือสิ่งที่สอดคล้องกับ ฟังก์ชัน Q

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

อัลกอริทึมการเรียนรู้แบบเสริมกำลังนำวิธีนี้ไปใช้ เพื่อสร้าง Q-learning ผ่านกฎการอัปเดตต่อไปนี้

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

นอกเหนือจากการเรียนรู้แบบเสริมกำลังแล้ว สมการ Bellman ยังสามารถนำไปใช้เพื่อ การเขียนโปรแกรมแบบไดนามิก โปรดดู ข้อมูล Wikipedia สำหรับสมการ Bellman

BERT (Bidirectional Encoder Representations from Transformers)

#language

สถาปัตยกรรมโมเดลสำหรับการนําเสนอข้อความ โมเดล BERT ที่ผ่านการฝึกอบรมจะทําหน้าที่เป็นโมเดลขนาดใหญ่ขึ้นสําหรับการจัดประเภทข้อความหรืองาน ML อื่นๆ ได้

BERT มีลักษณะเฉพาะดังต่อไปนี้

รูปแบบของ BERT มีดังนี้

  • ALBERT ซึ่งเป็นตัวย่อของ A Light BERT
  • LaBSE

ดู Open Sourcing BERT: การฝึกอบรมล่วงหน้าที่ทันสมัยสำหรับภาษาธรรมชาติ กำลังประมวลผล เพื่อดูภาพรวมของ BERT

อคติ (จริยธรรม/ความเป็นธรรม)

#fairness
#fundamentals

1. การใช้คำสเตอริโอ อคติ หรือความชอบต่อบางสิ่งบางอย่าง ผู้คน หรือกลุ่มอื่นมากกว่าผู้อื่น ความลำเอียงเหล่านี้อาจส่งผลต่อการรวบรวมและการตีความข้อมูล การออกแบบระบบ และวิธีที่ผู้ใช้โต้ตอบกับระบบ รูปแบบของอคติประเภทนี้มีดังนี้

2. ข้อผิดพลาดที่เป็นระบบซึ่งเกิดขึ้นจากการสุ่มตัวอย่างหรือขั้นตอนการรายงาน รูปแบบของอคติประเภทนี้ ได้แก่

อย่าสับสนกับคำที่ให้น้ำหนักพิเศษในโมเดลแมชชีนเลิร์นนิง หรืออคติจากการคาดคะเน

ดูความเป็นธรรม: ประเภทของ อคติ หากต้องการข้อมูลเพิ่มเติม

คำที่ให้น้ำหนักพิเศษ (ทางคณิตศาสตร์) หรือการให้น้ำหนักพิเศษ

#fundamentals

จุดตัดหรือออฟเซ็ตจากต้นทาง ความลำเอียงคือพารามิเตอร์ในโมเดลแมชชีนเลิร์นนิง ซึ่งมีสัญลักษณ์ดังนี้

  • 0

ตัวอย่างเช่น ความลำเอียงคือ b ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในบรรทัด 2 มิติอย่างง่าย การให้น้ำหนักพิเศษหมายถึง "จุดตัดแกน y" เท่านั้น ตัวอย่างเช่น ความเอนเอียงของเส้นในภาพประกอบต่อไปนี้คือ 2

ผังเส้นที่มีความชัน 0.5 และค่าเบี่ยงเบน (จุดตัด Y) เท่ากับ 2

มีการให้น้ำหนักพิเศษเนื่องจากมีบางโมเดลที่เริ่มต้นจากต้นทาง (0,0) ตัวอย่างเช่น สมมติว่าสวนสนุกมีราคาค่าเข้า 20 บาทและคิดเพิ่มอีก 5 บาทต่อทุกๆ ชั่วโมงที่ลูกค้าเข้าชม ดังนั้น โมเดลที่แมปฟิลด์ ต้นทุนรวมมีความลำเอียงเป็น 2 เนื่องจากต้นทุนต่ำสุดคือ 2 ยูโร

โปรดอย่าสับสนระหว่างอคติกับอคติด้านจริยธรรมและความยุติธรรมหรืออคติในการคาดการณ์

โปรดดูการถดถอยเชิงเส้น ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

แบบ 2 ทิศทาง

#language

คําที่ใช้อธิบายระบบที่ประเมินข้อความทั้งในส่วนที่อยู่ก่อนและอยู่หลังส่วนของข้อความเป้าหมาย ในทางตรงกันข้าม ระบบแบบทิศทางเดียวจะประเมินเฉพาะข้อความที่อยู่ก่อนส่วนข้อความเป้าหมาย

ตัวอย่างเช่น ลองพิจารณาโมเดลภาษามาสก์ที่ ต้องกำหนดความน่าจะเป็นของคำหรือกลุ่มคำที่แทนเส้นใต้ใน คำถามต่อไปนี้

_____ กับคุณเป็นอย่างไรบ้าง

โมเดลภาษาแบบทิศทางเดียวจะต้องอิงความน่าจะเป็นตามบริบทที่ได้จากคําว่า "อะไร" "คือ" และ "ที่" เท่านั้น ในทางตรงกันข้าม โมเดลภาษาแบบ 2 ทิศทางยังอาจได้รับบริบทจาก "กับ" และ "คุณ" ด้วย ซึ่งอาจช่วยให้โมเดลคาดการณ์ได้ดีขึ้น

โมเดลภาษาแบบ 2 ทาง

#language

โมเดลภาษาที่กําหนดความน่าจะเป็นที่โทเค็นหนึ่งๆ จะปรากฏในตําแหน่งหนึ่งๆ ของข้อความที่ตัดตอนมาโดยอิงตามข้อความก่อนหน้าและถัดจาก

Bigram

#seq
#language

N-gram ที่มี N=2

การจัดประเภทแบบไบนารี

#fundamentals

งานการจัดประเภทประเภทหนึ่งที่คาดการณ์คลาสใดคลาสหนึ่งจาก 2 คลาสที่ไม่เกี่ยวข้องกัน

ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิง 2 รายการต่อไปนี้ทําการจัดประเภทแบบ 2 ค่า

  • โมเดลที่ระบุว่าข้อความอีเมลเป็นสแปม (คลาสบวก) หรือไม่ใช่สแปม (คลาสลบ)
  • โมเดลที่ประเมินอาการทางการแพทย์เพื่อตัดสินว่าผู้ป่วย มีโรคบางอย่าง (คลาสเชิงบวก) หรือไม่มีโรคนั้น โรค (ระดับเชิงลบ)

ตรงข้ามกับการจัดประเภทแบบหลายคลาส

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้นโลจิสติก และเกณฑ์การจัดประเภท

ดูการจัดประเภท ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

เงื่อนไขไบนารี

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้เพียง 2 รายการ ซึ่งโดยทั่วไปคือใช่หรือไม่ ตัวอย่างเงื่อนไขแบบไบนารีมีดังนี้

temperature >= 100

ตัดกับเงื่อนไขที่ไม่ใช่ไบนารี

ดูข้อมูลเพิ่มเติมเกี่ยวกับประเภทเงื่อนไขในหลักสูตรป่าการตัดสินใจ

Binning

คำพ้องความหมายของการแบ่งกลุ่ม

BLEU (Bilingual Evaluation Understudy)

#language

คะแนนระหว่าง 0.0 ถึง 1.0 ซึ่งบ่งบอกถึงคุณภาพของคำแปลระหว่างภาษา 2 ภาษา (เช่น ระหว่างภาษาอังกฤษกับรัสเซีย) คะแนน BLEU ที่ 1.0 หมายถึงการแปลที่สมบูรณ์แบบ ส่วนคะแนน BLEU ที่ 0.0 หมายถึงการแปลที่แย่มาก

การเพิ่มพลัง

เทคนิคแมชชีนเลิร์นนิงที่รวมชุดตัวแยกประเภทที่เรียบง่ายและไม่แม่นยำมาก (เรียกว่าตัวแยกประเภท "อ่อน") เข้าด้วยกันซ้ำๆ เพื่อสร้างตัวแยกประเภทที่มีความแม่นยำสูง (ตัวแยกประเภท "แรง") โดยเพิ่มน้ำหนักตัวอย่างที่โมเดลกำลังแยกประเภทไม่ถูกต้อง

ดูข้อมูลเพิ่มเติมในหลักสูตรป่าการตัดสินใจเกี่ยวกับต้นไม้การตัดสินใจที่มีการเพิ่มประสิทธิภาพด้วย Gradient

กรอบล้อมรอบ

#image

ในรูปภาพ พิกัด (x, y) ของสี่เหลี่ยมผืนผ้ารอบพื้นที่ของ เช่น สุนัขในรูปภาพด้านล่าง

ภาพสุนัขนั่งบนโซฟา กรอบล้อมรอบสีเขียว
          พร้อมพิกัดด้านซ้ายบน (275, 1271) และขวาล่าง
          พิกัด (2954, 2761) ติดรอบลำตัวของสุนัข

การออกอากาศ

การขยายรูปร่างของออพเพอร์แรนด์ในการดําเนินการทางคณิตศาสตร์เมทริกซ์เป็นมิติข้อมูลที่เข้ากันได้สําหรับการดำเนินการดังกล่าว ตัวอย่างเช่น พีชคณิตเชิงเส้นกำหนดให้ตัวถูกดำเนินการ 2 ตัวในการบวกเมทริกซ์ ต้องมีขนาดเดียวกัน จึงไม่สามารถเพิ่มเมทริกซ์ของรูปทรงได้ (m, n) กับเวกเตอร์ของความยาว n การกระจายช่วยให้ดำเนินการนี้ได้โดยการขยายเวกเตอร์ที่มีความยาว n เป็นเมทริกซ์ที่มีรูปร่าง (m, n) โดยทำซ้ำค่าเดียวกันในแต่ละคอลัมน์

ตัวอย่างเช่น จากคำนิยามต่อไปนี้ พีชคณิตเชิงเส้นห้าม A+B เนื่องจาก A และ B มีมิติข้อมูลต่างกัน

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

อย่างไรก็ตาม การออกอากาศจะทำให้สามารถทำงาน A+B ได้โดยการขยาย B ไปยังสิ่งใดต่อไปนี้ทางออนไลน์

 [[2, 2, 2],
  [2, 2, 2]]

ดังนั้น ในขณะนี้ A+B จึงเป็นการดำเนินการที่ถูกต้อง:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

ดูรายละเอียดเพิ่มเติมได้ในคำอธิบายต่อไปนี้เกี่ยวกับการออกอากาศใน NumPy

การแบ่งกลุ่ม

#fundamentals

การเปลี่ยนฟีเจอร์รายการเดียวให้เป็นฟีเจอร์ไบนารีหลายรายการ ซึ่งเรียกว่าที่เก็บหรือกลุ่ม โดยปกติจะอิงตามช่วงค่า คุณลักษณะที่ถูกตัด โดยทั่วไปจะเป็น ฟีเจอร์ต่อเนื่อง

เช่น แทนที่จะแสดงอุณหภูมิเป็น 1 คุณลักษณะจุดลอยตัวอย่างต่อเนื่อง คุณตัดช่วงของอุณหภูมิได้ ลงในที่เก็บข้อมูลแยกกัน เช่น

  • <= 10 องศาเซลเซียส แปลว่า "หนาว"
  • 11 - 24 องศาเซลเซียสจะอยู่ในหมวดหมู่ "อบอุ่น"
  • >= 25 องศาเซลเซียสหมายถึง "อุ่น"

โมเดลจะถือว่าค่าทุกค่าในที่เก็บเดียวกันมีค่าเหมือนกัน เช่น ค่า 13 และ 22 อยู่ในที่เก็บข้อมูลแบบอบอุ่นทั้งคู่ ดังนั้นโมเดลจะถือว่าค่าทั้งสองเหมือนกัน

ดูข้อมูลตัวเลข การทิ้ง ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

C

เลเยอร์การปรับเทียบ

การปรับค่าใช้จ่ายหลังการคาดการณ์ ซึ่งมักจะครอบคลุม อคติจากการคาดคะเน การคาดการณ์และความน่าจะเป็นที่ปรับแล้วควรตรงกับการกระจายของชุดป้ายกำกับที่สังเกตได้

รุ่นของผู้สมัคร

#recsystems

คำแนะนำชุดเริ่มต้นที่ ระบบการแนะนำ ตัวอย่างเช่น ลองพิจารณา ร้านหนังสือที่มีหนังสือกว่า 100,000 เล่ม ระยะการสร้างผู้สมัครจะสร้างรายการหนังสือที่เหมาะสมสำหรับผู้ใช้บางรายจำนวนน้อยกว่ามาก เช่น 500 เล่ม แต่แม้กระทั่ง 500 เล่มก็ยังถือว่ามีจำนวนมากเกินไปที่จะแนะนำแก่ผู้ใช้ ลำดับต่อมา ซึ่งมีราคาแพงกว่า ระยะต่างๆ ของระบบการแนะนำ (เช่น การให้คะแนนและ ทำอันดับใหม่) ลด 500 เหล่านั้นให้เหลือน้อยที่สุด ชุดคำแนะนำที่มีประโยชน์มากขึ้น

ดูการสร้างผู้สมัคร ภาพรวม ในหลักสูตรระบบการแนะนำวิดีโอเพื่อดูข้อมูลเพิ่มเติม

การสุ่มตัวอย่างผู้สมัคร

การเพิ่มประสิทธิภาพขณะฝึกที่คำนวณความน่าจะเป็นสำหรับป้ายกำกับบวกทั้งหมด เช่น ใช้ Softmax แต่ใช้กับตัวอย่างป้ายกำกับเชิงลบแบบสุ่มเท่านั้น ตัวอย่างเช่น ให้ตัวอย่างที่ชื่อว่า beagle และ สุนัข การสุ่มตัวอย่างของผู้สมัครจะคำนวณความน่าจะเป็นที่คาดการณ์ไว้ และข้อกำหนดการสูญเสียที่เกี่ยวข้องสำหรับ:

  • beagle
  • สุนัข
  • ชุดย่อยแบบสุ่มของคลาสเชิงลบที่เหลืออยู่ (เช่น cat lollipop, fence)

แนวคิดคือ คลาสเชิงลบสามารถเรียนรู้จากการเสริมแรงเชิงลบที่พบไม่บ่อยนัก ตราบใดที่คลาสเชิงบวกได้รับการเสริมแรงเชิงบวกที่เหมาะสมเสมอ และนี่เป็นสิ่งที่สังเกตได้จากการทดสอบจริง

การสุ่มตัวอย่างผู้สมัครมีประสิทธิภาพในการประมวลผลมากกว่าอัลกอริทึมการฝึกที่ประมวลผลการคาดการณ์สำหรับคลาสเชิงลบทั้งหมด โดยเฉพาะอย่างยิ่งเมื่อจํานวนคลาสเชิงลบมีจํานวนมาก

ข้อมูลเชิงหมวดหมู่

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ที่เฉพาะเจาะจง ตัวอย่างเช่น ให้พิจารณาฟีเจอร์เชิงหมวดหมู่ชื่อ traffic-light-state ซึ่งอาจมีค่าใดค่าหนึ่งต่อไปนี้เท่านั้น

  • red
  • yellow
  • green

การนําเสนอ traffic-light-state เป็นฟีเจอร์เชิงหมวดหมู่จะช่วยให้โมเดลเรียนรู้ผลกระทบที่แตกต่างกันของ red, green และ yellow ต่อพฤติกรรมของผู้ขับขี่

บางครั้งเราเรียกฟีเจอร์เชิงหมวดหมู่ ฟีเจอร์แยกกัน

ตรงข้ามกับข้อมูลตัวเลข

ดูการทำงานกับหมวดหมู่ ข้อมูล ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

โมเดลภาษาเชิงสาเหตุ

#language

คำพ้องความหมายของโมเดลภาษาแบบทิศทางเดียว

ดูโมเดลภาษาแบบ 2 ทิศทางเพื่อเปรียบเทียบแนวทางแบบต่างๆ ในการประมาณภาษา

เซนทรอยด์

#clustering

ศูนย์กลางของคลัสเตอร์ที่ระบุโดยอัลกอริทึม K-means หรือ K-median เช่น หาก k = 3 อัลกอริทึม K-means หรือ K-median จะค้นหาจุดศูนย์กลาง 3 จุด

ดูข้อมูลเพิ่มเติมได้ในอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม

การคลัสเตอร์ตามเซนทรอยด์

#clustering

หมวดหมู่ของอัลกอริทึม clustering ที่จัดระเบียบข้อมูล เป็นคลัสเตอร์ที่ไม่มีลำดับชั้น k-means เป็นวิธีที่กว้างที่สุด ใช้อัลกอริทึมการจัดกลุ่มแบบเซนทรอยด์

คอนทราสต์กับการจัดกลุ่มแบบลำดับชั้น อัลกอริทึม

ดูอัลกอริทึมของคลัสเตอร์ ในหลักสูตรคลัสเตอร์สำหรับข้อมูลเพิ่มเติม

การสร้างพรอมต์แบบเชนความคิด

#language
#generativeAI

เทคนิคการสร้างพรอมต์ที่กระตุ้นโมเดลภาษาขนาดใหญ่ (LLM) ให้อธิบายเหตุผลทีละขั้นตอน ตัวอย่างเช่น ลองดูพรอมต์ต่อไปนี้ โดยให้ความสนใจเป็นพิเศษกับประโยคที่ 2

ผู้ขับขี่จะรู้สึกถึงแรง g เท่าใดในรถที่เร่งจาก 0 เป็น 60 ไมล์ต่อชั่วโมงใน 7 วินาที แสดงการคํานวณที่เกี่ยวข้องทั้งหมดในคําตอบ

คำตอบของ LLM น่าจะดังนี้

  • แสดงลำดับสูตรฟิสิกส์ โดยใส่ค่า 0, 60 และ 7 ในตำแหน่งที่เหมาะสม
  • อธิบายว่าทำไมมันจึงเลือกสูตรเหล่านั้นและตัวแปรต่างๆ หมายถึงอะไร

การแจ้งเตือนแบบเป็นลำดับความคิดจะบังคับให้ LLM ทำการคํานวณทั้งหมด ซึ่งอาจทําให้ได้คําตอบที่ถูกต้องมากขึ้น นอกจากนี้ เครือข่ายความคิด ช่วยให้ผู้ใช้ตรวจสอบขั้นตอนของ LLM เพื่อดูว่า หรือว่าคำตอบนั้นไม่สมเหตุสมผล

แชท

#language
#generativeAI

เนื้อหาที่มีการสนทนาโต้ตอบกลับไปกลับมาด้วยระบบ ML มักจะเป็น โมเดลภาษาขนาดใหญ่ การโต้ตอบก่อนหน้าในแชท (สิ่งที่คุณพิมพ์และวิธีการที่โมเดลภาษาขนาดใหญ่ตอบกลับ) จะกลายเป็น บริบทสำหรับส่วนต่อๆ ไปของแชท

แชทบ็อตเป็นแอปพลิเคชันของโมเดลภาษาขนาดใหญ่

จุดตรวจ

ข้อมูลที่บันทึกสถานะของพารามิเตอร์ของโมเดลระหว่างหรือหลังการฝึกเสร็จสิ้น ตัวอย่างเช่น ระหว่างการฝึก คุณสามารถ

  1. หยุดการฝึก ซึ่งอาจเป็นเพราะตั้งใจหรือเกิดจากข้อผิดพลาดบางอย่าง
  2. บันทึกจุดตรวจสอบ
  3. หลังจากนั้น ให้โหลดจุดตรวจสอบซ้ำ ซึ่งอาจเป็นไปได้ในฮาร์ดแวร์อื่น
  4. เริ่มการฝึกใหม่

คลาส

#fundamentals

หมวดหมู่ที่ป้ายกํากับสามารถอยู่ได้ เช่น

โมเดลการจัดประเภทจะคาดการณ์คลาส ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์จำนวน แทนที่จะเป็นชั้นเรียน

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภทในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โมเดลการจัดประเภท

#fundamentals

โมเดลที่การคาดการณ์คือคลาส ตัวอย่างรูปแบบการจัดประเภททั้งหมดมีดังนี้

  • โมเดลที่คาดการณ์ภาษาของประโยคอินพุต (ฝรั่งเศสใช่ไหม ภาษาสเปนนะ อิตาลี)
  • โมเดลที่คาดการณ์ชนิดต้นไม้ (เมเปิลใช่ไหม โอ๊ก เบาบับใช่ไหม)
  • โมเดลที่คาดการณ์คลาสบวกหรือลบสำหรับ ภาวะทางการแพทย์

ในทางตรงกันข้าม โมเดลการเกิดปัญหาซ้ำจะคาดการณ์ตัวเลขแทนคลาส

รูปแบบการจัดหมวดหมู่ที่ใช้กันทั่วไปมี 2 ประเภท ได้แก่

เกณฑ์การจัดประเภท

#fundamentals

ในการจัดประเภทแบบไบนารี ตัวเลขระหว่าง 0 ถึง 1 ซึ่งจะแปลงเอาต์พุตดิบของ โมเดลการถดถอยแบบโลจิสติก เป็นการคาดคะเน คลาสเชิงบวก หรือคลาสเชิงลบ โปรดทราบว่าเกณฑ์การจัดประเภทเป็นค่าที่มนุษย์เลือก ไม่ใช่ค่าที่เลือกโดยการฝึกโมเดล

โมเดลการถดถอยแบบโลจิสติกจะแสดงค่าดิบระหว่าง 0 ถึง 1 จากนั้นให้ทำดังนี้

  • หากค่าดิบนี้มากกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสเชิงบวก
  • หากค่าดิบนี้น้อยกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสเชิงลบ

ตัวอย่างเช่น สมมติว่าเกณฑ์การแยกประเภทคือ 0.8 หากค่าดิบคือ 0.9 แสดงว่าโมเดลคาดการณ์คลาสเชิงบวก ถ้าค่าดิบคือ 0.7 โมเดลจะคาดการณ์คลาสลบ

ตัวเลือกเกณฑ์การจัดประเภทจะมีผลต่อจำนวน การตรวจสอบที่ผิดพลาด และ ผลลบลวง

ดูข้อมูลเพิ่มเติมเกี่ยวกับเกณฑ์และตารางความสับสนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ชุดข้อมูลที่ไม่สมดุล

#fundamentals

ชุดข้อมูลสำหรับปัญหาการจัดประเภทที่มีจำนวนรวมของ ของ label ของแต่ละคลาสแตกต่างกันอย่างมีนัยสำคัญ เช่น ลองพิจารณาชุดข้อมูลการจัดประเภทแบบไบนารีที่มีป้ายกำกับ 2 รายการ แบ่งออกได้ดังนี้

  • ป้ายกำกับเชิงลบ 1,000,000 รายการ
  • ป้ายกำกับเชิงบวก 10 รายการ

อัตราส่วนของค่าลบต่อป้ายกำกับเชิงบวกคือ 100,000 ต่อ 1 ดังนั้น เป็นชุดข้อมูลที่ไม่สมดุลกัน

ในทางตรงกันข้าม ชุดข้อมูลต่อไปนี้ไม่มีความไม่สมดุลของคลาส เนื่องจากอัตราส่วนของป้ายกำกับเชิงลบต่อป้ายกำกับเชิงบวกค่อนข้างใกล้เคียงกับ 1

  • ป้ายกำกับเชิงลบ 517 รายการ
  • ป้ายกำกับเชิงบวก 483 รายการ

ชุดข้อมูลหลายคลาสอาจไม่สมดุลตามคลาสได้เช่นกัน ตัวอย่างเช่น ชุดข้อมูลการจัดประเภทแบบหลายคลาสต่อไปนี้ยังมีความไม่สมดุลของคลาสด้วยเนื่องจากป้ายกำกับหนึ่งมีตัวอย่างมากกว่าอีก 2 ป้ายกำกับ

  • ป้ายกำกับ 1,000,000 ป้ายที่มีคลาสเป็น "สีเขียว"
  • ป้ายกำกับ 200 รายการที่มีคลาส "purple"
  • ป้ายกำกับ 350 รายการที่มีคลาส "orange"

โปรดดูเอนโทรปี คลาสส่วนใหญ่ และชนกลุ่มน้อย

การตัด

#fundamentals

เทคนิคในการจัดการค่าที่ผิดปกติโดยการดำเนินการ ข้อใดข้อหนึ่งหรือทั้ง 2 ข้อต่อไปนี้

  • การลดค่า feature ที่มากกว่าค่าสูงสุด ลงไปเป็นเกณฑ์สูงสุดได้
  • การเพิ่มค่าฟีเจอร์ที่น้อยกว่าเกณฑ์ขั้นต่ำจนถึงระดับนั้น เกณฑ์ขั้นต่ำ

ตัวอย่างเช่น สมมติว่ามีค่า <0.5% สำหรับสถานที่ใดสถานที่หนึ่ง อยู่นอกช่วง 40–60 ในกรณีนี้ คุณสามารถดำเนินการดังต่อไปนี้

  • ตัดค่าทั้งหมดที่มากกว่า 60 (เกณฑ์สูงสุด) ให้เท่ากับ 60
  • ตัดค่าทั้งหมดที่ต่ำกว่า 40 (เกณฑ์ขั้นต่ำ) ให้เท่ากับ 40

ค่าผิดปกติอาจทำให้โมเดลเสียหาย ซึ่งบางครั้งก็ทำให้เกิดน้ำหนัก เพิ่มขึ้นอีกในระหว่างการฝึก ค่าที่ผิดปกติบางรายการยังอาจทําให้เมตริกต่างๆ เช่น ความแม่นยําเสียไปอย่างมากด้วย การตัดคลิปเป็นเทคนิคที่ใช้กันทั่วไปในการจํากัด ความเสียหาย

แรงการไล่ระดับสี ค่าการไล่ระดับสีภายในช่วงที่กำหนดระหว่างการฝึก

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลตัวเลข: การปรับมาตรฐานในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Cloud TPU

#TensorFlow
#GoogleCloud

ตัวเร่งฮาร์ดแวร์เฉพาะที่ออกแบบมาเพื่อเร่งความเร็วของภาระงานแมชชีนเลิร์นนิงใน Google Cloud

การแบ่งกลุ่ม

#clustering

การจัดกลุ่มตัวอย่างที่เกี่ยวข้อง โดยเฉพาะในระหว่าง การเรียนรู้แบบไม่มีการควบคุมดูแล เมื่อ ตัวอย่างได้รับการจัดกลุ่ม มนุษย์อาจระบุความหมายให้กับแต่ละคลัสเตอร์หรือไม่ก็ได้

มีอัลกอริทึมคลัสเตอร์จำนวนมาก เช่น k-means ตัวอย่างกลุ่มอัลกอริทึมตามระยะใกล้ centroid ดังที่แสดงในแผนภาพต่อไปนี้

กราฟ 2 มิติที่แกน X มีป้ายกำกับว่า &quot;ความกว้างของต้นไม้&quot; และแกน Y มีป้ายกำกับว่า &quot;ความสูงของต้นไม้&quot; กราฟมีจุดศูนย์กลาง 2 จุดและจุดข้อมูลหลายสิบจุด จุดข้อมูลคือ
          ที่จัดหมวดหมู่ตามความใกล้ชิด ซึ่งก็คือจุดข้อมูล
          ที่อยู่ใกล้กับหนึ่งเซนทรอยด์มากที่สุดจะได้รับการจัดหมวดหมู่เป็นคลัสเตอร์ 1 ในขณะที่คลัสเตอร์เหล่านั้น
          ที่อยู่ใกล้กับเซนทรอยด์อื่นมากที่สุดจะได้รับการจัดหมวดหมู่เป็นคลัสเตอร์ 2

จากนั้นนักวิจัยจะตรวจสอบคลัสเตอร์และติดป้ายกำกับคลัสเตอร์ 1 เป็น "ต้นไม้แคระ" และคลัสเตอร์ 2 เป็น "ต้นไม้ขนาดเต็ม" ได้

อีกตัวอย่างหนึ่ง ลองพิจารณาอัลกอริทึมการจัดคลัสเตอร์ตาม ตัวอย่างระยะห่างจากจุดศูนย์กลาง มีภาพประกอบดังนี้

จุดข้อมูลหลายสิบจุดจัดเรียงเป็นวงรอบศูนย์กลาง ซึ่งเกือบ
          เหมือนมีรูรอบๆ กึ่งกลางของกระดานปาเป้า วงแหวนชั้นในสุด
          ของจุดข้อมูลจัดอยู่ในหมวดหมู่คลัสเตอร์ 1, วงแหวนตรงกลาง
          ได้รับการจัดหมวดหมู่เป็นคลัสเตอร์ 2 และวงนอกสุดเป็น
          คลัสเตอร์ 3

ดูข้อมูลเพิ่มเติมได้ที่หลักสูตรการคลัสเตอร์

การปรับตัวร่วมกัน

เมื่อนิวรอนคาดการณ์รูปแบบในข้อมูลการฝึกโดยอาศัยเอาต์พุตของนิวรอนอื่นๆ ที่เฉพาะเจาะจงเกือบทั้งหมดแทนที่จะอาศัยลักษณะการทํางานของเครือข่ายโดยรวม เมื่อรูปแบบที่ทำให้เกิดการปรับตัวร่วมกัน ไม่ได้อยู่ในข้อมูลการตรวจสอบความถูกต้อง การปรับตัวร่วมกันก็จะทำให้เกิดการใช้งานที่มากเกินไป กฎเกณฑ์การยกเลิกการเป็นสมาชิกลดการปรับตัวร่วมกัน เนื่องจากการหลั่งออกมาทำให้เซลล์ประสาทไม่สามารถพึ่งพาเซลล์ประสาทตัวอื่นเพียงอย่างเดียวได้

การกรองแบบทำงานร่วมกัน

#recsystems

การทำการคาดการณ์เกี่ยวกับความสนใจของผู้ใช้รายหนึ่งโดยอิงตามความสนใจของผู้ใช้รายอื่นๆ จำนวนมาก กรองตามข้อมูลกลุ่มมักใช้ในระบบการแนะนำ

ดูการทำงานร่วมกัน การกรอง ในหลักสูตรระบบการแนะนำวิดีโอเพื่อดูข้อมูลเพิ่มเติม

การเปลี่ยนแปลงแนวคิด

การเปลี่ยนแปลงความสัมพันธ์ระหว่างฟีเจอร์กับค่ายเพลง เมื่อเวลาผ่านไป การเปลี่ยนแปลงของแนวคิดจะลดคุณภาพของโมเดล

ในระหว่างการฝึก โมเดลจะเรียนรู้ความสัมพันธ์ระหว่างฟีเจอร์กับป้ายกำกับในชุดข้อมูลการฝึก หากป้ายกำกับในชุดการฝึกเป็นตัวแทนที่ดีสำหรับโลกแห่งความเป็นจริง โมเดลก็ควรทำนายได้ดีในโลกแห่งความเป็นจริง อย่างไรก็ตาม เนื่องจากการเลื่อนลอยของแนวคิด การคาดการณ์ของโมเดลมีแนวโน้มที่จะลดลงเมื่อเวลาผ่านไป

ตัวอย่างเช่น ลองพิจารณาการจัดประเภทแบบไบนารี ที่คาดการณ์ว่ารถบางรุ่นนั้น "ประหยัดน้ำมัน" หรือไม่ ฟีเจอร์ดังกล่าวอาจมีลักษณะดังนี้

  • น้ำหนักรถยนต์
  • การบีบอัดเครื่องมือ
  • ประเภทการส่งผ่าน

ในขณะที่ป้ายกำกับเป็น

  • ประหยัดเชื้อเพลิง
  • ไม่ประหยัดพลังงาน

อย่างไรก็ตาม แนวคิด "รถประหยัดเชื้อเพลิง" นั้นเปลี่ยนแปลงอยู่เสมอ รถรุ่นหนึ่งที่มีป้ายกำกับว่าประหยัดน้ำมันในปี 1994 มักจะ จะมีป้ายกำกับว่าไม่ประหยัดเชื้อเพลิงในปี 2024 โมเดลที่ประสบปัญหาความผันผวนของแนวคิดมีแนวโน้มที่จะทําการคาดการณ์ที่มีประโยชน์น้อยลงเมื่อเวลาผ่านไป

เปรียบเทียบกับความไม่คงที่

เงื่อนไข

#df

ในแผนผังการตัดสินใจ โหนดที่ ประเมินนิพจน์ ตัวอย่างเช่น ส่วนต่างๆ ต่อไปนี้ของ แผนผังการตัดสินใจมี 2 เงื่อนไขดังนี้

แผนผังการตัดสินใจที่ประกอบด้วยเงื่อนไข 2 ข้อ คือ (x > 0) และ
          (y > 0)

เงื่อนไขเรียกอีกอย่างว่าการแยกกลุ่มหรือการทดสอบ

เปรียบเทียบเงื่อนไขกับ leaf

และดู:

ดูข้อมูลเพิ่มเติมเกี่ยวกับประเภทเงื่อนไขในหลักสูตรป่าการตัดสินใจ

การสมมติ

#language

คำพ้องความหมายของอาการหลอน

การสับสนอาจเป็นศัพท์เทคนิคที่ถูกต้องกว่าคำไม่สมเหตุสมผล อย่างไรก็ตาม ความไม่สมเหตุสมผลก็ได้รับความนิยมเป็นอย่างแรก

การกำหนดค่า

กระบวนการกําหนดค่าพร็อพเพอร์ตี้เริ่มต้นที่ใช้ฝึกโมเดล ซึ่งรวมถึง

ในโปรเจ็กต์แมชชีนเลิร์นนิง คุณสามารถกําหนดค่าผ่านไฟล์การกําหนดค่าพิเศษหรือใช้ไลบรารีการกําหนดค่า เช่น ต่อไปนี้

อคติยืนยันความคิดตัวเอง

#fairness

แนวโน้มในการค้นหา ตีความ ชื่นชอบ และระลึกถึงข้อมูลในลักษณะที่ยืนยันความเชื่อหรือสมมติฐานที่มีอยู่ นักพัฒนาแมชชีนเลิร์นนิงอาจรวบรวมหรือติดป้ายกำกับโดยไม่ได้ตั้งใจ ข้อมูลในลักษณะที่มีอิทธิพลต่อผลลัพธ์ที่สนับสนุนตน ความเชื่อ อคติยืนยันเข้ามาเป็นอคติโดยปริยายรูปแบบหนึ่ง

อคติของผู้ทำการทดสอบคืออคติการยืนยันรูปแบบหนึ่งซึ่ง ผู้ทดสอบจะฝึกโมเดลต่อไปจนกว่าจะมีรุ่น สมมติฐานนั้นได้รับการยืนยันแล้ว

เมตริกความสับสน

#fundamentals

ตาราง NxN ที่สรุปจํานวนการคาดการณ์ที่ถูกต้องและไม่ถูกต้องซึ่งโมเดลการจัดประเภททํา ตัวอย่างเช่น ลองดูเมทริกซ์ความสับสนต่อไปนี้สําหรับโมเดลการจัดประเภทแบบไบนารี

เนื้องอก (คาดการณ์) ไม่ใช่เนื้องอก (คาดการณ์ไว้)
เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 18 (TP) 1 (FN)
ไม่ใช่เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 6 (FP) 452 (เทนเนสซี)

เมตริกความสับสนข้างต้นแสดงข้อมูลต่อไปนี้

  • จากการคาดการณ์ 19 รายการที่มีข้อมูลที่เป็นความจริงว่าเป็นเนื้องอก โมเดลมีการจัดประเภท 18 อย่างถูกต้องและจัดประเภท 1 ไม่ถูกต้อง
  • จากการคาดการณ์ 458 รายการที่ข้อมูลจริงคือ "ไม่ใช่เนื้องอก" โมเดลจัดประเภทได้อย่างถูกต้อง 452 รายการ และจัดประเภทอย่างไม่ถูกต้อง 6 รายการ

เมทริกซ์ความสับสนสำหรับการจัดประเภทแบบหลายคลาส สามารถช่วยให้คุณระบุรูปแบบของข้อผิดพลาดได้ ตัวอย่างเช่น ลองดูตารางความสับสนต่อไปนี้สําหรับโมเดลการจัดประเภทแบบหลายคลาส 3 คลาสที่จัดหมวดหมู่ม่านตา 3 ประเภทที่แตกต่างกัน (Virginica, Versicolor และ Setosa) เมื่อข้อมูลจริงคือ Virginica เมทริกซ์ความสับสนแสดงให้เห็นว่าโมเดลมีแนวโน้มที่จะคาดการณ์ Versicolor ผิดพลาดมากกว่า Setosa อย่างมาก

  Setosa (ที่คาดการณ์ไว้) เวอร์ชันสี (ที่คาดการณ์ไว้) Virginica (คาดการณ์)
Setosa (ข้อมูลจากการสังเกตการณ์โดยตรง) 88 12 0
Versicolor (ข้อมูลที่เป็นความจริง) 6 141 7
Virginica (ข้อมูลจากการสังเกตการณ์โดยตรง) 2 27 109

อีกตัวอย่างหนึ่งคือ ตารางความสับสนอาจแสดงให้เห็นว่าโมเดลที่ฝึกให้จดจําตัวเลขที่เขียนด้วยลายมือมีแนวโน้มที่จะคาดคะเน 9 แทน 4 หรือคาดคะเน 1 แทน 7

เมทริกซ์ความสับสนมีข้อมูลเพียงพอที่จะคำนวณ เมตริกประสิทธิภาพที่หลากหลาย เช่น ความแม่นยํา และการเรียกคืน

การแยกวิเคราะห์เขตเลือกตั้ง

#language

การแบ่งประโยคออกเป็นโครงสร้างทางไวยากรณ์ที่เล็กลง ("ส่วนประกอบ") ส่วนหลังจากนี้ของระบบ ML เช่น โมเดลความเข้าใจภาษาธรรมชาติ สามารถแยกวิเคราะห์ประชาชนได้ง่ายกว่าประโยคต้นฉบับ ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

เพื่อนฉันเลี้ยงแมวไว้ 2 ตัว

โปรแกรมแยกองค์ประกอบสามารถแบ่งประโยคนี้ออกเป็นองค์ประกอบ 2 รายการต่อไปนี้

  • เพื่อนของฉันคือวลีนาม
  • รับเลี้ยงแมวสองตัวเป็นวลีกริยา

องค์ประกอบเหล่านี้สามารถแบ่งย่อยออกเป็นองค์ประกอบขนาดเล็กๆ เพิ่มเติมได้ เช่น วลีที่มีคํากริยา

อุปการะแมว 2 ตัว

สามารถแยกย่อยเพิ่มเติมออกเป็น

  • adopted คือคำกริยา
  • แมว 2 ตัวคือวลีนามอีกวลีหนึ่ง

การฝังภาษาตามบริบท

#language
#generativeAI

การฝังที่เข้าใกล้ "ความเข้าใจ" คำ และวลีต่างๆ ในแบบที่เจ้าของภาษาพูดได้ ภาษาตามบริบท การฝังสามารถเข้าใจไวยากรณ์ ความหมาย และบริบทที่ซับซ้อนได้

เช่น ลองพิจารณาการฝังคําภาษาอังกฤษว่า cow รูปแบบการฝังข้อมูลรุ่นเก่า เช่น word2vec สามารถแสดงคำภาษาอังกฤษได้ เช่น ระยะทางในพื้นที่การฝังข้อมูลจากวัวถึงวัวกระทิงจะคล้ายกับระยะทางจากแม่แพะ (แพะตัวเมีย) ถึงแพะตัวผู้ หรือจากหญิงถึงชาย การป้อนข้อมูลภาษาตามบริบทสามารถดำเนินการต่อได้โดยตระหนักว่าบางครั้งผู้พูดภาษาอังกฤษใช้คำว่า cow ในความหมายว่าวัวหรือวัวตัวผู้ก็ได้

หน้าต่างบริบท

#language
#generativeAI

จำนวนโทเค็นที่โมเดลประมวลผลได้ในพรอมต์หนึ่งๆ ยิ่งหน้าต่างบริบทมีขนาดใหญ่เท่าใด โมเดลก็ยิ่งใช้ข้อมูลได้มากขึ้นเพื่อตอบกลับพรอมต์อย่างสอดคล้องและสมเหตุสมผล

ฟีเจอร์ต่อเนื่อง

#fundamentals

ฟีเจอร์ที่มีจุดลอยตัวซึ่งมีช่วงที่เป็นไปได้ไม่จำกัด ค่าต่างๆ เช่น อุณหภูมิหรือน้ำหนัก

ตรงข้ามกับองค์ประกอบแบบไม่ต่อเนื่อง

การสุ่มตัวอย่างแบบตามสะดวก

การใช้ชุดข้อมูลที่รวบรวมมาอย่างไม่เป็นวิทยาศาสตร์เพื่อทำการทดสอบอย่างรวดเร็ว ในภายหลังจำเป็นต้องเปลี่ยนไปใช้ข้อมูลที่รวบรวมเชิงวิทยาศาสตร์ ชุดข้อมูล

การบรรจบ

#fundamentals

สถานะถึงตอนที่ค่า loss เปลี่ยนแปลงน้อยมากหรือ ไม่ได้เลยในการทำซ้ำแต่ละครั้ง ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้แสดงให้เห็นการบรรจบกันเมื่อประมาณ 700 รอบ

พล็อตคาร์ทีเซียน แกน X หายไป แกน Y คือจํานวนการทำซ้ำการฝึก การสูญเสียสูงมากในช่วง 2-3 Iteration แรก แต่ลดลงอย่างรวดเร็ว หลังจากทำซ้ำประมาณ 100 ครั้ง การสูญเสียยังคง
          จากมากไปน้อย แต่ค่อยๆ เพิ่มขึ้น หลังจากการทำซ้ำประมาณ 700 ครั้งแล้ว ผลลัพธ์จะคงที่

การโอนโมเดลเมื่อการฝึกเพิ่มเติมไม่ ปรับปรุงโมเดล

ในการเรียนรู้เชิงลึก บางครั้งค่าการสูญเสียจะคงที่หรือ เกือบจะดีเลยสำหรับการทำซ้ำหลายครั้งก่อนที่จะมากไปน้อย ในช่วงที่มีมูลค่าการสูญเสียคงที่เป็นเวลานาน คุณอาจรู้สึกว่ามีการบรรจบกันชั่วคราว

โปรดดูการหยุดก่อนกำหนดด้วย

ดูข้อมูลเพิ่มเติมที่เส้นโค้งการบรรจบของโมเดลและเส้นโค้งการสูญเสียในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟังก์ชัน Convex

ฟังก์ชันที่บริเวณเหนือกราฟของฟังก์ชันเป็นเซตเว้า ฟังก์ชันโค้งมนตามแบบฉบับมีรูปร่างคล้ายตัวอักษร U ตัวอย่างเช่น URL ต่อไปนี้ เป็นฟังก์ชันนูนทั้งหมด:

เส้นโค้งรูปตัว U แต่ละเส้นมีจุดต่ำสุดจุดเดียว

ในทางตรงกันข้าม ฟังก์ชันต่อไปนี้จะไม่นูน สังเกตวิธี ภูมิภาคเหนือกราฟไม่ได้เป็นชุดนูน

เส้นโค้งรูปตัว W ที่มีจุดต่ำสุดในพื้นที่ 2 จุดที่แตกต่างกัน

ฟังก์ชันนูนอย่างเคร่งครัดจะมีจุดต่ำสุดภายในพื้นที่ 1 จุดเท่านั้น ก็ยังคงเป็นจุดต่ำสุดทั่วโลก ฟังก์ชันรูปตัวยูแบบคลาสสิกเป็นฟังก์ชันที่นูนไปข้างหน้าอย่างสมบูรณ์ อย่างไรก็ตาม ฟังก์ชันโค้งมนบางรายการ (เช่น เส้นตรง) ไม่ได้เป็นรูปตัวยู

ดูการบรรจบกันและการนูน ฟังก์ชัน ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

การเพิ่มประสิทธิภาพ Convex

กระบวนการใช้เทคนิคทางคณิตศาสตร์ เช่น การลดเชิงลาดเพื่อค้นหาค่าต่ำสุดของฟังก์ชันโค้งมน การวิจัยจำนวนมากในด้านแมชชีนเลิร์นนิงมุ่งเน้นที่การสร้างรูปแบบ ไปเป็นโจทย์การเพิ่มประสิทธิภาพแบบนูน และในการแก้ปัญหาเหล่านั้น มีประสิทธิภาพมากขึ้น

ดูรายละเอียดทั้งหมดได้ที่ Boyd และ Vandenberghe Convex การเพิ่มประสิทธิภาพ

ชุดนูน

ชุดย่อยของพื้นที่เชิงยูคลิดซึ่งเส้นที่ลากระหว่าง 2 จุดใดก็ได้ในชุดย่อยจะยังคงอยู่ในชุดย่อยนั้นโดยสมบูรณ์ ตัวอย่างเช่น รูปทรง 2 รูปต่อไปนี้เป็นเซตที่Convex

ภาพสี่เหลี่ยมผืนผ้า 1 ภาพ อีกภาพของวงรี

ในทางตรงกันข้าม รูปร่าง 2 รายการต่อไปนี้ไม่ใช่ชุดนูน

ภาพแผนภูมิวงกลม 1 ภาพที่มีชิ้นส่วนขาดหายไป
          อีกภาพหนึ่งของรูปหลายเหลี่ยมที่ผิดปกติ

การฟัซชัน

#image

ในทางคณิตศาสตร์ พูดง่ายๆ ก็คือ เป็นการผสมผสานฟังก์ชัน 2 อย่าง อยู่ในเครื่อง การเรียนรู้ ซึ่งคอนโวลูชัน (Convolution) ผสมผสานคอนโวลูชัน ตัวกรองเมทริกซ์อินพุต เพื่อฝึกน้ำหนัก

คําว่า "Conv" ในแมชชีนเลิร์นนิงมักเป็นวิธีเรียกสั้นๆ ของการดำเนินการ Conv หรือเลเยอร์ Conv

หากไม่มีคอนโวลูชัน อัลกอริทึมแมชชีนเลิร์นนิงจะต้องเรียนรู้ น้ำหนักแยกกันสำหรับทุกเซลล์ใน tensor ขนาดใหญ่ ตัวอย่างเช่น การฝึกอัลกอริทึมแมชชีนเลิร์นนิงบนรูปภาพขนาด 2K x 2K จะถูกบังคับให้ หาน้ำหนักแยกกัน 4 ล้านครั้ง ต้องขอบคุณ Convolutions ซึ่งเป็นแมชชีนเลิร์นนิง อัลกอริทึมจะค้นหาน้ำหนักของทุกเซลล์ในเซลล์ convolutional filter ซึ่งช่วยลด หน่วยความจำที่ต้องใช้ในการฝึกโมเดล เมื่อใช้ตัวกรองแบบ Convolutional ระบบจะทําซ้ำตัวกรองนี้ในเซลล์ต่างๆ เพื่อให้แต่ละเซลล์คูณด้วยตัวกรอง

ดูข้อมูลเพิ่มเติมได้ที่การนําเสนอเครือข่ายประสาทแบบConvolutiveในหลักสูตรการแยกประเภทรูปภาพ

ฟิลเตอร์แบบ Convolution

#image

นักแสดงคนหนึ่งในภาพยนตร์ การดำเนินการเชิงควบคุม (นักแสดงอีกคน เป็นชิ้นส่วนของเมทริกซ์อินพุต) ฟิลเตอร์แบบ Convolution คือเมทริกซ์ที่มีอันดับเหมือนกับเมทริกซ์อินพุต แต่มีรูปร่างที่เล็กกว่า เช่น เมื่อใช้เมทริกซ์อินพุต 28x28 ตัวกรองอาจเป็นเมทริกซ์ 2 มิติที่เล็กกว่า 28x28

ในการจัดการกับรูปภาพ โดยทั่วไปแล้วเซลล์ทั้งหมดในตัวกรองแบบ Convolution จะมีการกําหนดให้เป็นรูปแบบ 1 และ 0 คงที่ ในแมชชีนเลิร์นนิง โดยทั่วไปแล้วตัวกรองแบบ Convolution จะได้รับการกำหนดค่าเริ่มต้นด้วยตัวเลขสุ่ม จากนั้นเครือข่ายจะฝึกค่าที่เหมาะสม

ดูข้อมูลเพิ่มเติมที่การกรองข้อมูลในหลักสูตรการจัดประเภทรูปภาพ

ชั้นคอนโวลูชัน (Convolutional)

#image

ชั้นของโครงข่ายประสาทแบบลึกซึ่ง Convolutional filter จะส่งต่ออินพุต เมตริกซ์ ตัวอย่างเช่น ลองพิจารณาตัวกรองแบบ Convolution ขนาด 3x3 ต่อไปนี้

เมทริกซ์ 3x3 ที่มีค่าต่อไปนี้ [[0,1,0], [1,0,1], [0,1,0]]

ภาพเคลื่อนไหวต่อไปนี้แสดงเลเยอร์คอนโวลูชัน (Convolutional Layer) ที่ประกอบด้วย 9 การดำเนินการแบบคอนโวลูชัน (Convolutional) ที่เกี่ยวข้องกับเมทริกซ์อินพุต 5x5 โปรดทราบว่าการดำเนินการเชิงกรวยแต่ละรายการจะทำงานกับส่วน 3x3 ที่ต่างกันของเมทริกซ์อินพุต เมทริกซ์ 3x3 ที่ได้ (ทางขวา) ประกอบด้วยผลลัพธ์ของ 9 การดำเนินการแบบคอนโวลูชัน (Convolution:)

ภาพเคลื่อนไหวแสดงเมทริกซ์ 2 รายการ เมทริกซ์แรกคือเมทริกซ์ 5x5 ดังนี้ [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]
          เมทริกซ์ที่สองคือเมทริกซ์ 3x3
          [[181,303,618], [115,338,605], [169,351,560]]
          เมทริกซ์ที่สองคำนวณโดยใช้คอนโวลูชันัล (Convolutional)
          ฟิลเตอร์ [[0, 1, 0], [1, 0, 1], [0, 1, 0]]
          3x3 ที่แตกต่างกันของเมทริกซ์ 5x5

ดูเชื่อมต่อโดยสมบูรณ์แล้ว เลเยอร์ ในหลักสูตรการจำแนกรูปภาพเพื่อดูข้อมูลเพิ่มเติม

โครงข่ายระบบประสาทเทียมแบบ Convolutional

#image

โครงข่ายระบบประสาทเทียมซึ่งมีเลเยอร์อย่างน้อย 1 ชั้นเป็น Convolutional Layer โดยทั่วไปแล้ว เครือข่ายประสาทแบบ Convolutive จะประกอบด้วยชั้นต่อไปนี้

เครือข่ายประสาทแบบใช้ตัวคูณ (Convolutional Neural Network) ประสบความสําเร็จอย่างมากกับปัญหาบางประเภท เช่น การจดจํารูปภาพ

การดำเนินการแบบ Convolution

#image

การดำเนินการทางคณิตศาสตร์แบบ 2 ขั้นตอนต่อไปนี้

  1. การคูณทีละองค์ประกอบของฟิลเตอร์คอนเววลูชันกับส่วนของเมทริกซ์อินพุต (ส่วนแบ่งของเมทริกซ์อินพุตมีอันดับและ เป็นตัวกรองคอนโวลูชันัล)
  2. การรวมค่าทั้งหมดในเมทริกซ์ผลิตภัณฑ์ที่ได้

ตัวอย่างเช่น ลองพิจารณาเมทริกซ์อินพุต 5x5 ต่อไปนี้

เมทริกซ์ 5x5: [[128,97,53,201,198], [35,22,25,200,195]
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]

ลองจินตนาการถึงตัวกรอง Conv 2x2 ต่อไปนี้

เมทริกซ์ 2x2: [[1, 0], [0, 1]]

การดำเนินการแบบกรวย 1 รายการเกี่ยวข้องกับส่วน 2x2 เดียวของเมทริกซ์อินพุต ตัวอย่างเช่น สมมติว่าเราใช้ส่วนแบ่ง 2x2 ที่ส่วน ด้านบนซ้ายของเมทริกซ์อินพุต ดังนั้น การดำเนินการฟิวชันกับส่วนนี้จึงมีลักษณะดังนี้

การใช้ตัวกรองคอนโวลูชันัล [[1, 0], [0, 1]] ที่ด้านซ้ายบน
          ส่วน 2x2 ของเมทริกซ์อินพุตซึ่งก็คือ [[128,97], [35,22]]
          ตัวกรองคอนเวโลชันจะคงค่า 128 และ 22 ไว้ แต่ทำให้ค่า 97 และ 35 เป็น 0 ดังนั้น การดำเนินการคอนโวลูชัน (Convolution) จึงให้ผลลัพธ์
          ค่า 150 (128+22)

ชั้น Conv ประกอบด้วยชุดการดำเนินการ Conv โดยแต่ละรายการจะดำเนินการกับส่วนต่างๆ ของเมทริกซ์อินพุต

ต้นทุน

คำพ้องความหมายของ loss

การฝึกอบรมร่วมกัน

แนวทางการเรียนรู้แบบมีการควบคุมดูแล มีประโยชน์อย่างยิ่งเมื่อทุกเงื่อนไขต่อไปนี้เป็นจริง

การฝึกร่วมกันจึงช่วยขยายสัญญาณที่เป็นอิสระให้กับสัญญาณที่ชัดเจนขึ้น ตัวอย่างเช่น ลองพิจารณาโมเดลการจัดประเภทที่ จะจัดหมวดหมู่รถมือสองแต่ละคันเป็นดีหรือไม่ดี ฟีเจอร์การคาดการณ์ชุดหนึ่งอาจมุ่งเน้นที่ลักษณะโดยรวม เช่น ปี ยี่ห้อ และรุ่นของรถ ส่วนฟีเจอร์การคาดการณ์อีกชุดหนึ่งอาจมุ่งเน้นที่ประวัติการขับขี่ของผู้เป็นเจ้าของคนก่อนและประวัติการบำรุงรักษาของรถ

บทความวิจัยเกี่ยวกับการฝึกอบรมร่วมคือ การรวมข้อมูลที่ติดป้ายกำกับแล้วและไม่มีป้ายกำกับเข้ากับ การฝึกอบรมร่วมกันโดย บลมกับมิตเชลล์

ความเป็นธรรมแบบเทียบกับสิ่งที่ไม่ได้เกิดขึ้น

#fairness

เมตริกความยุติธรรมที่ตรวจสอบว่าตัวแยกประเภท สร้างผลลัพธ์สำหรับบุคคลคนหนึ่งเช่นเดียวกับอีกคนหนึ่ง บุคคลที่เหมือนกับคนแรก ยกเว้นบุคคลที่มีความเกี่ยวข้องกับ แอตทริบิวต์ที่ละเอียดอ่อน การประเมินตัวแยกประเภทเพื่อหาความยุติธรรมแบบเทียบเท่าสมมติฐานเป็นวิธีหนึ่งในการค้นหาแหล่งที่มาที่อาจทำให้เกิดอคติในโมเดล

โปรดดูข้อมูลเพิ่มเติมจากข้อใดข้อหนึ่งต่อไปนี้

อคติในการรายงาน

#fairness

ดูการให้น้ำหนักพิเศษกับการเลือก

ดอกไม้บานขัดข้อง

#language

ประโยคหรือวลีที่มีความหมายกำกวม ดอกไม้บานแตกนำเสนอปัญหาที่สำคัญในเรื่องธรรมชาติ ความเข้าใจด้านภาษา ตัวอย่างเช่น บรรทัดแรกแท่งทรงสูงสีแดงค้างไว้เป็น เกิดข้อขัดข้องเนื่องจากโมเดล NLU อาจตีความบรรทัดแรกได้ตรงตัว หรือ เปรียบเสมือน

นักวิจารณ์

#rl

คำพ้องความหมายของ Deep Q-Network

เอนโทรปีครอส

การทั่วไปของ Log Loss ไปใช้กับปัญหาการจัดประเภทหลายคลาส ครอสเอนโทรปี จะวัดความแตกต่างระหว่างการแจกแจงความน่าจะเป็น 2 แบบ ดูเพิ่มเติม ความยุ่งยาก

การทดสอบครอสตรวจสอบ

กลไกในการประมาณว่าโมเดลจะทํางานกับข้อมูลใหม่ได้ดีเพียงใด โดยทดสอบโมเดลกับชุดข้อมูลย่อยที่ไม่มีการทับซ้อนกันอย่างน้อย 1 ชุดซึ่งเก็บไว้จากชุดข้อมูลการฝึก

ฟังก์ชันการแจกแจงสะสม (CDF)

ฟังก์ชันที่กําหนดความถี่ของตัวอย่างที่น้อยกว่าหรือเท่ากับค่าเป้าหมาย ตัวอย่างเช่น ลองพิจารณาการแจกแจงปกติของค่าต่อเนื่อง CDF บอกคุณว่าตัวอย่างประมาณ 50% ควรน้อยกว่าหรือเท่ากับค่ามัธยฐาน และตัวอย่างประมาณ 84% ควรน้อยกว่าหรือเท่ากับค่าเบี่ยงเบนมาตรฐาน 1 เท่าเหนือค่ามัธยฐาน

D

การวิเคราะห์ข้อมูล

ทําความเข้าใจข้อมูลโดยพิจารณาจากตัวอย่าง การวัด และการแสดงข้อมูลเป็นภาพ การวิเคราะห์ข้อมูลจะมีประโยชน์อย่างยิ่งเมื่อได้รับชุดข้อมูลเป็นครั้งแรก ก่อนที่จะสร้างรูปแบบแรก นอกจากนี้ ยังมีความสำคัญอย่างยิ่งในการทําความเข้าใจการทดสอบและการแก้ไขข้อบกพร่องของระบบ

การเสริมข้อมูล

#image

การเพิ่มช่วงและจํานวนตัวอย่างการฝึกด้วยการเปลี่ยนรูปแบบตัวอย่างที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติม ตัวอย่างเช่น สมมติว่ารูปภาพเป็นหนึ่งใน features แต่ชุดข้อมูลกลับไม่ มีตัวอย่างรูปภาพที่เพียงพอเพื่อให้โมเดลเรียนรู้การเชื่อมโยงที่เป็นประโยชน์ ทางที่ดีคุณควรเพิ่มปริมาณที่เพียงพอ รูปภาพที่ติดป้ายกำกับลงในชุดข้อมูลเพื่อ ช่วยให้โมเดลของคุณฝึกได้อย่างถูกต้อง หากทำไม่ได้ การขยายข้อมูลจะหมุน ยืด และสะท้อนแต่ละรูปภาพเพื่อสร้างรูปภาพต้นฉบับหลายรูปแบบ ซึ่งอาจให้ข้อมูลที่ติดป้ายกำกับเพียงพอสำหรับการทําการฝึกที่ยอดเยี่ยม

DataFrame

#fundamentals

ประเภทข้อมูล pandas ที่ได้รับความนิยมสําหรับแสดงชุดข้อมูลในหน่วยความจํา

DataFrame คล้ายกับตารางหรือสเปรดชีต คอลัมน์แต่ละคอลัมน์ของ DataFrame จะมีชื่อ (ส่วนหัว) และแต่ละแถวจะระบุด้วยหมายเลขที่ไม่ซ้ำกัน

แต่ละคอลัมน์ใน DataFrame มีโครงสร้างเหมือนอาร์เรย์ 2 มิติ ยกเว้นที่แต่ละคอลัมน์สามารถกําหนดประเภทข้อมูลของตัวเองได้

ดูหน้าอ้างอิงอย่างเป็นทางการของ pandas.DataFrame ได้ด้วย

การประมวลผลข้อมูลแบบขนาน

วิธีปรับขนาดการฝึกหรือการอนุมาน ที่จำลองโมเดลทั้งโมเดลลงใน อุปกรณ์หลายเครื่องแล้วส่งข้อมูลอินพุตชุดย่อยไปยังอุปกรณ์แต่ละเครื่อง การทำงานขนานกันของข้อมูลอาจทำให้เกิดการฝึกและการอนุมานใน กลุ่มขนาด แต่ข้อมูลที่ทำงานพร้อมกันจำเป็นต้องมี มีขนาดเล็กพอที่จะพอดีกับอุปกรณ์ทั้งหมด

โดยปกติแล้วการทำงานแบบขนานของข้อมูลจะเร่งการฝึกอบรมและการทำนาย

ดูการทำงานพร้อมกันของโมเดลเพิ่มเติม

ชุดข้อมูลหรือชุดข้อมูล

#fundamentals

คอลเล็กชันข้อมูลดิบ ซึ่งโดยทั่วไป (แต่ไม่ได้เจาะจง) จะจัดอยู่ในชุดเดียว ในรูปแบบต่อไปนี้

  • สเปรดชีต
  • ไฟล์ในรูปแบบ CSV (ค่าที่คั่นด้วยคอมมา)

Dataset API (tf.data)

#TensorFlow

TensorFlow API ระดับสูงสําหรับการอ่านข้อมูลและการเปลี่ยนรูปแบบข้อมูลให้อยู่ในรูปแบบที่อัลกอริทึมของแมชชีนเลิร์นนิงต้องการ ออบเจ็กต์ tf.data.Dataset แสดงลำดับขององค์ประกอบที่ แต่ละองค์ประกอบจะมี Tensor อย่างน้อย 1 รายการ tf.data.Iterator ให้สิทธิ์เข้าถึงองค์ประกอบของ Dataset

ขอบเขตการตัดสินใจ

ตัวคั่นระหว่างคลาสที่เรียนรู้โดยโมเดลในคลาสแบบไบนารีหรือปัญหาการจัดประเภทแบบหลายคลาส ตัวอย่างเช่น ในรูปภาพต่อไปนี้ซึ่งแสดงปัญหาการจัดประเภทแบบ 2 กลุ่ม ขอบเขตการตัดสินคือเส้นแบ่งระหว่างคลาสสีส้มและคลาสสีน้ำเงิน

ขอบเขตที่ชัดเจนระหว่างชั้นเรียนหนึ่งกับอีกชั้นเรียนหนึ่ง

ศูนย์การตัดสินใจ

#df

โมเดลที่สร้างจากต้นไม้การตัดสินใจหลายรายการ ป่าการตัดสินใจจะทําการคาดการณ์โดยการรวบรวมการคาดการณ์ของต้นไม้การตัดสินใจ ประเภทที่นิยมของป่าการตัดสินใจได้แก่ ป่าไม้แบบสุ่มและต้นไม้ที่เพิ่มระดับแบบไล่ระดับสี

ดูข้อมูลเพิ่มเติมได้ที่ส่วนป่าการตัดสินใจในหลักสูตรป่าการตัดสินใจ

เกณฑ์การตัดสินใจ

ตรงกับเกณฑ์การจัดประเภท

แผนภูมิการตัดสินใจ

#df

โมเดลการเรียนรู้แบบควบคุมดูแลที่ประกอบด้วยชุดเงื่อนไขและใบที่จัดระเบียบเป็นลําดับชั้น ตัวอย่างเช่น ต่อไปนี้เป็นแผนผังการตัดสินใจ

แผนผังการตัดสินใจที่มีเงื่อนไข 4 ข้อจัดเรียง
          ตามลำดับชั้น ซึ่งนำไปสู่ 5 ใบ

เครื่องมือถอดรหัส

#language

โดยทั่วไปแล้ว ระบบ ML ใดก็ตามที่แปลงจากการแสดงผลที่ประมวลผลแล้ว หนาแน่น หรือภายในเป็นการแสดงผลที่ดิบ เบาบาง หรือภายนอกมากขึ้น

ตัวถอดรหัสมักจะเป็นส่วนประกอบของโมเดลที่ใหญ่กว่า ซึ่งมัก จับคู่กับโปรแกรมเปลี่ยนไฟล์แล้ว

ในงานแบบอนุกรมต่ออนุกรม ตัวถอดรหัสจะเริ่มต้นด้วยสถานะภายในที่เอนโค้ดเดอร์สร้างขึ้นเพื่อคาดการณ์ลำดับถัดไป

โปรดดูที่ Transformer สำหรับคำจำกัดความของตัวถอดรหัสภายใน สถาปัตยกรรม Transformer

ดูโมเดลภาษาขนาดใหญ่ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

โมเดลเชิงลึก

#fundamentals

โครงข่ายระบบประสาทเทียมที่มี เลเยอร์ที่ซ่อนอยู่

โมเดลเชิงลึกเรียกอีกอย่างว่าโครงข่ายประสาทแบบลึก

คอนทราสต์กับโมเดลแบบกว้าง

โครงข่ายประสาทแบบลึก

คำพ้องความหมายของ Deep Model

เครือข่าย Deep Q (DQN)

#rl

ใน การเรียนรู้ด้วย Q-Learning จะมีโครงข่ายประสาทแบบลึกที่คาดคะเนฟังก์ชัน Q

Critic เป็นคําพ้องความหมายของ Deep Q-Network

ความเท่าเทียมด้านข้อมูลประชากร

#fairness

เมตริกความเป็นธรรมที่เป็นไปตามข้อกำหนดหากผลการจัดประเภทของโมเดลไม่ขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อนที่ระบุ

เช่น หากทั้งชาวลิลลี่ปุตและชาวบราบิงแน็กสมัครเข้ามหาวิทยาลัยกลุบบัดบรีบ ความเป็นธรรมด้านข้อมูลประชากรจะเกิดขึ้นเมื่อเปอร์เซ็นต์ของชาวลิลลี่ปุตที่ได้รับอนุญาตเท่ากับเปอร์เซ็นต์ของชาวบราบิงแน็กที่ได้รับอนุญาต โดยไม่คำนึงว่ากลุ่มหนึ่งมีคุณวุฒิมากกว่าอีกกลุ่มโดยเฉลี่ยหรือไม่

ตัดกับโอกาสทางการขายที่เท่าเทียมกันและ ความเท่าเทียมของโอกาส ซึ่งช่วยให้ เป็นผลการจำแนกประเภท โดยรวมที่ขึ้นอยู่กับแอตทริบิวต์ที่มีความละเอียดอ่อน แต่ไม่อนุญาตให้มีผลลัพธ์การจัดประเภทสำหรับบาง ป้ายกำกับข้อมูลจากการสังเกตการณ์โดยตรงเพื่ออ้างอิงแอตทริบิวต์ที่ละเอียดอ่อน โปรดดู "การโจมตี เลือกปฏิบัติด้วยแมชชีนเลิร์นนิงที่ชาญฉลาดยิ่งขึ้น" เพื่อสร้างภาพ สำรวจข้อดีและข้อเสียเมื่อเพิ่มประสิทธิภาพเพื่อความเท่าเทียมกันของข้อมูลประชากร

ดูความยุติธรรม: ข้อมูลประชากร ความเท่าเทียม ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

การตัดเสียงรบกวน

#language

แนวทางทั่วไปสำหรับการเรียนรู้ภายใต้การควบคุมดูแลด้วยตนเอง ที่:

  1. มีการเพิ่มเสียงรบกวนในชุดข้อมูลอย่างไม่เป็นจริง
  2. โมเดลจะพยายามนำเสียงรบกวนออก

การกรองสัญญาณรบกวนช่วยให้เรียนรู้จากตัวอย่างที่ไม่มีป้ายกำกับได้ ชุดข้อมูลเดิมทำหน้าที่เป็นเป้าหมายหรือป้ายกำกับ และข้อมูลที่มีสัญญาณรบกวนเป็นอินพุต

โมเดลภาษาที่มีการปกปิดบางรุ่นใช้การกรองสัญญาณรบกวน ดังนี้

  1. ระบบจะเพิ่มสัญญาณรบกวนลงในประโยคที่ไม่มีป้ายกำกับโดยการปกปิดโทเค็นบางส่วน
  2. โมเดลจะพยายามคาดการณ์โทเค็นเดิม

องค์ประกอบที่หนาแน่น

#fundamentals

ฟีเจอร์ซึ่งมีค่าส่วนใหญ่หรือทั้งหมดไม่ใช่ 0 ซึ่งโดยปกติแล้วจะเป็น Tensor ของค่าทศนิยม ตัวอย่างเช่น URL ต่อไปนี้ Tensor ที่มี 10 องค์ประกอบเป็นแบบหนาแน่นเนื่องจากค่า 9 ค่าไม่ใช่ 0 ดังนี้

8 3 7 5 2 4 0 4 9 6

ตรงข้ามกับองค์ประกอบที่กระจัดกระจาย

เลเยอร์แบบหนาแน่น

คำพ้องความหมายของเลเยอร์แบบเชื่อมต่อทั้งหมด

ความลึก

#fundamentals

ผลรวมของสิ่งต่อไปนี้ในโครงข่ายระบบประสาทเทียม

เช่น เครือข่ายประสาทที่มีเลเยอร์ที่ซ่อนอยู่ 5 ชั้นและเลเยอร์เอาต์พุต 1 ชั้นจะมีระดับความลึก 6

โปรดทราบว่าเลเยอร์อินพุตไม่มีผลต่อความลึก

depthwise separutional neural Network (sepCNN)

#image

สถาปัตยกรรมโครงข่ายประสาทแบบ Convolutiveที่อิงตาม Inception แต่ใช้ Convolutive แบบแยกตามระดับความลึกแทนโมดูล Inception หรือที่เรียกว่า Xception

คอนโวลูชันที่แยกออกในระดับความลึก (ตัวย่อด้วยว่าคอนโวลูชันที่แยกได้) พิจารณาคอนโวลูชัน 3 มิติมาตรฐานเป็นการดำเนินการคอนโวลูชัน 2 รายการที่แยกกัน ที่มีประสิทธิภาพในการคำนวณสูงกว่า ได้แก่ คอนโวลูชันเชิงลึก ที่มีความลึก 1 (n เมนูแบบเลื่อนลง อันดับ 1) แล้วตามด้วย Conversion แบบจุด มีความยาวและความกว้าง 1 (1 NEWLINE 1 เท่า n)

ดูข้อมูลเพิ่มเติมได้ที่ Xception: Deep Learning with Depthwise Separable Convolutions

ป้ายกำกับที่ได้มา

คำพ้องความหมายของป้ายกำกับพร็อกซี

อุปกรณ์

#TensorFlow
#GoogleCloud

คำที่มากเกินไปซึ่งมีคำจำกัดความที่เป็นไปได้ 2 คำต่อไปนี้

  1. หมวดหมู่ฮาร์ดแวร์ที่เรียกใช้เซสชัน TensorFlow ได้ ซึ่งรวมถึง CPU, GPU และ TPU
  2. เมื่อฝึกโมเดล ML ในชิปเร่งความเร็ว (GPU หรือ TPU) ส่วนที่จัดการเทนเซอร์และการฝังของระบบ อุปกรณ์จะทำงานบนชิป Accelerator ในทางกลับกัน โฮสต์ โดยปกติจะทำงานบน CPU

Differential Privacy

ในแมชชีนเลิร์นนิง เราจะใช้แนวทางการลบข้อมูลระบุตัวบุคคลเพื่อปกป้องข้อมูลที่ละเอียดอ่อน (ตัวอย่างเช่น ข้อมูลส่วนบุคคลของแต่ละบุคคล) ที่รวมอยู่ใน ชุดการฝึกถูกเปิดเผย วิธีนี้ทำให้ ที่โมเดลไม่ได้เรียนรู้หรือจำรายละเอียด ส่วนบุคคล ซึ่งทำได้โดยการสุ่มตัวอย่างและเพิ่มสัญญาณรบกวนระหว่างโมเดล ซึ่งจะบดบังจุดข้อมูลแต่ละจุด เพื่อลดความเสี่ยงในการเปิดเผย ข้อมูลการฝึกที่ละเอียดอ่อน

นอกจากนี้ Differential Privacy ยังใช้นอกเหนือไปจากแมชชีนเลิร์นนิงด้วย ตัวอย่างเช่น ในบางครั้ง นักวิทยาศาสตร์ข้อมูลจะใช้ Differential Privacy เพื่อปกป้องข้อมูลส่วนบุคคล ความเป็นส่วนตัวเมื่อคำนวณสถิติการใช้งานผลิตภัณฑ์สำหรับกลุ่มประชากรที่แตกต่างกัน

การลดมิติข้อมูล

การลดจำนวนมิติข้อมูลที่ใช้แสดงถึงองค์ประกอบหนึ่งๆ ในเวกเตอร์ของจุดสนใจ ซึ่งโดยปกติแล้วจะเท่ากับ แปลงเป็นเวกเตอร์การฝัง

ขนาด

คำที่มากเกินไป ซึ่งมีคำจำกัดความต่อไปนี้

  • จำนวนระดับพิกัดใน Tensor สำหรับ ตัวอย่าง:

    • เวกเตอร์สเกลาร์จะมีมิติข้อมูลเป็น 0 เช่น ["Hello"]
    • เวกเตอร์มีมิติข้อมูลเดียว เช่น [3, 5, 7, 11]
    • เมทริกซ์มี 2 มิติ เช่น [[2, 4, 18], [5, 7, 14]] คุณสามารถระบุเซลล์ใดเซลล์หนึ่งในเวกเตอร์หนึ่งมิติได้โดยไม่ซ้ำกัน กับพิกัดเดียว คุณต้องมีพิกัด 2 พิกัดเพื่อระบุ เซลล์เฉพาะในเมทริกซ์ 2 มิติ
  • จำนวนรายการในเวกเตอร์ฟีเจอร์

  • จํานวนองค์ประกอบในเลเยอร์การฝัง

การแจ้งเตือนโดยตรง

#language
#generativeAI

คำพ้องของข้อความแจ้ง Zero Shot

องค์ประกอบที่แยกกัน

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ เช่น ฟีเจอร์ที่มีค่าเป็นได้เพียง สัตว์ ผัก หรือแร่เป็นฟีเจอร์แบบไม่ต่อเนื่อง (หรือแบบหมวดหมู่)

ตัดกับฟีเจอร์ต่อเนื่อง

โมเดลการแยกแยะ

โมเดลที่คาดคะเนป้ายกำกับจากชุดของป้ายกำกับหรือ ฟีเจอร์อื่นๆ เพิ่มเติม รูปแบบที่เลือกปฏิบัติอย่างเป็นทางการจะนิยาม ความน่าจะเป็นแบบมีเงื่อนไขของเอาต์พุตโดยพิจารณาจากฟีเจอร์และ weights; ซึ่งก็คือ

p(output | features, weights)

ตัวอย่างเช่น โมเดลที่คาดการณ์ว่าอีเมลเป็นสแปมจากฟีเจอร์ต่างๆ หรือไม่ และการยกน้ำหนัก เป็นรูปแบบการเลือกปฏิบัติ

โมเดลการเรียนรู้แบบควบคุมส่วนใหญ่ ซึ่งรวมถึงโมเดลการจัดประเภทและโมเดลการหาค่าประมาณ ล้วนเป็นโมเดลการแยกแยะ

คอนทราสต์กับโมเดล Generative

ดิสคริมิเนเตอร์

ระบบที่ระบุว่าตัวอย่างเป็นจริงหรือปลอม

หรือจะเป็นระบบย่อยภายในเครือข่าย Generative Adversarial ที่ระบุว่าตัวอย่างที่สร้างโดยGenerator นั้นจริงหรือปลอม

ดู The Disriminator ในหลักสูตร GAN สำหรับข้อมูลเพิ่มเติม

ผลกระทบที่แตกต่างกัน

#fairness

การตัดสินใจเกี่ยวกับผู้คนที่ส่งผลกระทบต่อประชากรย่อยกลุ่มต่างๆ อย่างไม่เป็นสัดส่วน โดยปกติแล้ว ปัญหานี้หมายถึงสถานการณ์ที่กระบวนการตัดสินใจแบบอัลกอริทึมส่งผลเสียหรือให้ประโยชน์แก่กลุ่มย่อยบางกลุ่มมากกว่ากลุ่มอื่นๆ

เช่น สมมติว่าอัลกอริทึมที่กำหนดตัวแปรของ Lilliputian การมีสิทธิ์รับสินเชื่อบ้านขนาดเล็กมีแนวโน้มที่จะแยกประเภทได้มากกว่า พวกเขา "ไม่มีสิทธิ์" หากที่อยู่จัดส่งมี รหัสไปรษณีย์ หากชาวลิลลี่ปุติที่เขียนเลขฐาน 2 ขึ้นก่อนมีแนวโน้มที่จะมีที่อยู่สำหรับจัดส่งที่มีรหัสไปรษณีย์นี้มากกว่าชาวลิลลี่ปุติที่เขียนเลขฐาน 2 ลงก่อน อัลกอริทึมนี้อาจส่งผลให้เกิดผลกระทบที่แตกต่างกัน

ซึ่งแตกต่างจากการปฏิบัติที่แตกต่างกัน ซึ่งมุ่งเน้นไปที่ความไม่เท่าเทียมที่ส่งผลให้ลักษณะของกลุ่มย่อย เป็นอินพุตที่ชัดแจ้งในกระบวนการตัดสินใจด้วยอัลกอริทึม

การรักษาที่แตกต่างกัน

#fairness

พิจารณาแอตทริบิวต์ที่มีความละเอียดอ่อนของบุคคลในกระบวนการตัดสินใจแบบอัลกอริทึมเพื่อให้ระบบจัดการกับกลุ่มย่อยของบุคคลที่แตกต่างกัน

เช่น ลองพิจารณาอัลกอริทึมที่ กำหนด Lilliputians การมีสิทธิ์รับสินเชื่อบ้านขนาดเล็กตาม ข้อมูลที่ให้ไว้ในใบสมัครสินเชื่อ หากอัลกอริทึมใช้องค์ประกอบ ความเกี่ยวข้องของ Lilliputian กับ Big-Endian หรือ Little-Endian เป็นอินพุต ดำเนินการปฏิบัติที่แตกต่างกันตามมิติข้อมูลดังกล่าว

ตัดกับผลกระทบที่แตกต่างกันซึ่งเน้น เกี่ยวกับความไม่เท่าเทียมในผลกระทบทางสังคมจากการตัดสินใจตามอัลกอริทึมที่มีต่อกลุ่มย่อย โดยไม่คำนึงว่ากลุ่มย่อยเหล่านั้นจะเป็นอินพุตสำหรับโมเดลหรือไม่

การกลั่น

#generativeAI

กระบวนการลดขนาดโมเดล 1 รายการ (เรียกว่าโมเดลหลัก) ให้เป็นโมเดลขนาดเล็กลง (เรียกว่าโมเดลย่อย) ซึ่งจําลองการคาดการณ์ของโมเดลเดิมให้ใกล้เคียงที่สุด การกลั่นมีประโยชน์เนื่องจากโมเดลขนาดเล็กมีข้อดีหลัก 2 ข้อเหนือกว่าโมเดลขนาดใหญ่ (ครู) ดังนี้

  • ใช้เวลาในการอนุมานเร็วขึ้น
  • ลดการใช้หน่วยความจำและพลังงาน

แต่การคาดคะเนของนักเรียนมักได้ไม่ดีเท่า การคาดคะเนของครู

การกลั่นจะฝึกโมเดลนักเรียนเพื่อลดฟังก์ชันการสูญเสียตามความแตกต่างระหว่างเอาต์พุตของการคาดการณ์ของโมเดลนักเรียนและโมเดลครู

เปรียบเทียบระหว่างการกลั่นกับคำต่อไปนี้

ดู LLM: การปรับแต่ง การกรอง และพรอมต์ วิศวกรรม ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

การเผยแพร่

ความถี่และช่วงของค่าต่างๆ สําหรับฟีเจอร์หรือป้ายกํากับหนึ่งๆ การกระจายบันทึกว่าค่าหนึ่งๆ มีแนวโน้มมากน้อยเพียงใด

ภาพต่อไปนี้แสดงฮิสโตแกรมของการแจกแจง 2 แบบ

  • ทางด้านซ้าย การกระจายของความมั่งคั่งตามกฎหมายอำนาจเทียบกับจำนวนคน การครอบครองความมั่งคั่งนั้น
  • ทางด้านขวา การแจกแจงความสูงปกติเทียบกับจำนวนคน การครอบครองความสูงนั้น

ฮิสโตแกรม 2 รายการ ฮิสโตแกรมหนึ่งแสดงการกระจายของกฎกำลังที่มี
          บนแกน x และจำนวนคนที่มีความมั่งคั่งนั้นบนแกน x
          แกน y คนส่วนใหญ่มีทรัพย์น้อยมาก ส่วนอีกไม่กี่คนมี
          ความมั่งคั่งมากมาย ส่วนฮิสโตแกรมอีกอันแสดงการแจกแจงแบบปกติที่มีความสูงบนแกน X และจำนวนคนที่มีความสูงนั้นบนแกน Y ผู้คนส่วนใหญ่จะกระจุกตัวอยู่ใกล้ค่าเฉลี่ย

การทำความเข้าใจการแจกแจงของฟีเจอร์และป้ายกำกับแต่ละรายการจะช่วยให้คุณกำหนดวิธีทำให้เป็นมาตรฐานค่าและตรวจหาค่าที่ผิดปกติได้

วลีไม่ได้อยู่ในชุดข้อมูลหมายถึงค่าที่ไม่ได้ปรากฏในชุดข้อมูลหรือพบได้น้อยมาก เช่น รูปดาวเสาร์จะเป็น ถือว่าไม่มีการกระจายสำหรับชุดข้อมูลที่ประกอบด้วยรูปภาพแมว

คลัสเตอร์แบบแบ่งตัว

#clustering

ดูการจัดกลุ่มตามลําดับชั้น

การสุ่มตัวอย่าง

#image

คำที่มากเกินไปอาจหมายถึงข้อใดข้อหนึ่งต่อไปนี้

  • การลดจํานวนข้อมูลในฟีเจอร์ใน เพื่อฝึกโมเดลได้อย่างมีประสิทธิภาพมากขึ้น ตัวอย่างเช่น ก่อนฝึกโมเดลการจดจำรูปภาพ ลดการสุ่มตัวอย่างความละเอียดสูง รูปภาพให้อยู่ในรูปแบบความละเอียดต่ำลง
  • การฝึกด้วยตัวอย่างคลาสที่มีจำนวนมากเกินไปในเปอร์เซ็นต์ที่ต่ำไม่สมส่วนเพื่อปรับปรุงการฝึกโมเดลในคลาสที่มีจำนวนน้อย เช่น ในชุดข้อมูลที่มีคลาสไม่สมดุล โมเดลมีแนวโน้มที่จะเรียนรู้เกี่ยวกับคลาสที่มีสมาชิกส่วนใหญ่มากเกินและเรียนรู้เกี่ยวกับคลาสที่มีสมาชิกน้อยไม่เพียงพอ ความช่วยเหลือในการดาวน์เกรด สร้างสมดุลให้กับการฝึกอบรมในชั้นเรียนส่วนใหญ่และชนกลุ่มน้อย

ดูชุดข้อมูล: ไม่สมดุล ชุดข้อมูล ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

DQN

#rl

ตัวย่อของ Deep Q-Network

กฎเกณฑ์การยกเลิก

รูปแบบการปรับให้เหมาะสมที่มีประโยชน์ในการฝึกโครงข่ายระบบประสาทเทียม การกำหนดกฎสำหรับการยกเลิก นำหน่วยที่เลือกแบบสุ่มจำนวนคงที่ในเครือข่ายออก สำหรับการไล่ระดับสี แบบเดียว ยิ่งมีหน่วยที่หยุดทำงานมากเท่าใด การทำให้ถูกต้องก็ยิ่งชัดเจนมากขึ้นเท่านั้น ซึ่งคล้ายกับการฝึกเครือข่ายเพื่อจำลอง กลุ่มเครือข่ายขนาดเล็กที่มีขนาดใหญ่มากเป็นเท่าตัว ดูรายละเอียดทั้งหมดได้ที่Dropout: วิธีง่ายๆ ในการป้องกันการที่เครือข่ายประสาทมีการประมาณมากเกินไป

ไดนามิก

#fundamentals

บางสิ่งที่ทำบ่อยหรือต่อเนื่อง คําว่าแบบไดนามิกและออนไลน์เป็นคําพ้องกันในแมชชีนเลิร์นนิง ต่อไปนี้คือการใช้งานแบบไดนามิกและออนไลน์ที่พบบ่อยในแมชชีนเลิร์นนิง

  • โมเดลแบบไดนามิก (หรือโมเดลออนไลน์) คือโมเดลที่ฝึกซ้ำบ่อยครั้งหรืออย่างต่อเนื่อง
  • การฝึกแบบไดนามิก (หรือการฝึกอบรมออนไลน์) คือกระบวนการฝึกอบรมบ่อยครั้งหรืออย่างต่อเนื่อง
  • การอนุมานแบบไดนามิก (หรือการอนุมานออนไลน์) คือกระบวนการสร้างการคาดการณ์ตามคําขอ

โมเดลแบบไดนามิก

#fundamentals

โมเดลที่ได้รับการฝึกใหม่บ่อยครั้ง (หรืออาจฝึกอย่างต่อเนื่อง) รูปแบบแบบไดนามิกคือ "ผู้เรียนรู้ตลอดชีวิต" ที่ปรับตัวให้เข้ากับข้อมูลที่เปลี่ยนแปลงอยู่ตลอดเวลา รูปแบบแบบไดนามิกเรียกอีกอย่างว่ารูปแบบออนไลน์

ตรงข้ามกับโมเดลแบบคงที่

E

การดำเนินการแบบ Eager

#TensorFlow

สภาพแวดล้อมการเขียนโปรแกรม TensorFlow ที่การดำเนินการจะทำงานทันที ในทางตรงกันข้าม การดำเนินการเรียกเข้า การเรียกใช้กราฟจะไม่ทำงานจนกว่าจะระบุ ประเมินผลแล้ว การดำเนินการอย่างตั้งใจคือ อินเทอร์เฟซที่จำเป็น เป็นอย่างมาก อย่างเช่นโค้ดในภาษาโปรแกรมส่วนใหญ่ โปรแกรมการดำเนินการที่ตั้งใจจะทำ โดยทั่วไปแล้วแก้ไขข้อบกพร่องได้ง่ายกว่าโปรแกรมดำเนินการแบบกราฟ

การหยุดก่อนกำหนด

#fundamentals

วิธีการการปรับให้เหมาะสมที่เกี่ยวกับการสิ้นสุดการฝึกก่อนที่การลดลงของการฝึกจะสิ้นสุดลง ในการหยุดกลางคัน คุณจะหยุดฝึกโมเดลโดยตั้งใจเมื่อการสูญเสียในชุดข้อมูลที่ใช้ตรวจสอบเริ่มเพิ่มขึ้น กล่าวคือเมื่อประสิทธิภาพการทั่วไปแย่ลง

ระยะห่างของการเคลื่อนที่ของโลก (EMD)

การวัดความคล้ายคลึงสัมพัทธ์ของการแจกแจง 2 รายการ ยิ่งระยะทางของเครื่องจักรขุดดินต่ำลง การแจกแจงก็จะยิ่งคล้ายกันมากขึ้น

แก้ไขระยะทาง

#language

การวัดว่าสตริงข้อความ 2 สตริงมีความคล้ายคลึงกันอย่างไร ในแมชชีนเลิร์นนิง ระยะห่างการแก้ไขมีประโยชน์เนื่องจากคำนวณได้ง่าย และเป็นวิธีที่มีประสิทธิภาพในการเปรียบเทียบสตริง 2 รายการที่ทราบว่าคล้ายกัน หรือเพื่อค้นหาสตริงที่คล้ายกับสตริงหนึ่งๆ

มีคำจำกัดความมากมายสำหรับระยะการแก้ไข แต่ละคำใช้สตริงที่แตกต่างกัน การดำเนินงาน ตัวอย่างเช่น พารามิเตอร์ ระยะทาง Levenshtein จะพิจารณาการลบ แทรก และแทนที่น้อยที่สุด

เช่น ระยะห่างระหว่าง Levenshtein ระหว่างคำว่า "หัวใจ" และ "ลูกดอก" เท่ากับ 3 เนื่องจากการแก้ไข 3 ครั้งต่อไปนี้เป็นการเปลี่ยนแปลงที่น้อยที่สุดที่จะเปลี่ยนเพียง 1 คำ เป็นอีกแบบคือ

  1. หัวใจ → deart (แทนที่ "h" ด้วย "d")
  2. deart → dart (ลบ "e")
  3. dart → darts (แทรก "s")

นิพจน์ Einsum

รูปแบบการเขียนที่มีประสิทธิภาพในการอธิบายวิธีรวม เทนเซอร์ 2 รายการเข้าด้วยกัน การรวม Tensor โดยการคูณองค์ประกอบของ 1 Tensor โดยองค์ประกอบของ Tensor อื่นๆ แล้วสรุปผลิตภัณฑ์ นิพจน์ Einsum ใช้สัญลักษณ์เพื่อระบุแกนของ Tensor แต่ละรายการ และสัญลักษณ์เดียวกันเหล่านั้นจะได้รับการเรียงลําดับใหม่เพื่อระบุรูปร่างของ Tensor ผลลัพธ์ใหม่

NumPy มีการติดตั้งใช้งาน Einsum ทั่วไป

เลเยอร์การฝัง

#language
#fundamentals

เลเยอร์ที่ซ่อนอยู่แบบพิเศษที่ฝึกด้วยฟีเจอร์เชิงหมวดหมู่มิติสูงเพื่อค่อยๆ เรียนรู้เวกเตอร์การฝังมิติข้อมูลต่ำ CANNOT TRANSLATE เลเยอร์การฝังช่วยให้โครงข่ายประสาทสามารถฝึกได้ไกลขึ้น มีประสิทธิภาพมากกว่าการฝึกอบรมเพียงฟีเจอร์เชิงหมวดหมู่ที่มีมิติเท่านั้น

ตัวอย่างเช่น ปัจจุบัน Earth รองรับพันธุ์ไม้ประมาณ 73,000 ชนิด สมมติว่าพันธุ์ไม้เป็นฟีเจอร์ในโมเดลของคุณ เลเยอร์อินพุตของโมเดลจึงมีเวกเตอร์แบบฮอตเวิร์กที่มีองค์ประกอบยาว 73,000 รายการ ตัวอย่างเช่น baobab อาจแสดงในลักษณะนี้

อาร์เรย์ที่มีองค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 รายการแรกจะมีค่า
     0. องค์ประกอบถัดไปจะมีค่า 1 องค์ประกอบ 66,767 รายการสุดท้ายมี
     ค่า 0

อาร์เรย์ที่มีองค์ประกอบ 73,000 รายการนั้นยาวมาก หากคุณไม่ได้เพิ่มเลเยอร์ที่ฝัง กับโมเดลนี้ การฝึกจะใช้เวลามากเนื่องจาก คูณ 72,999 เลือกเลเยอร์การฝังเพื่อ จากมิติข้อมูล 12 รายการ เลเยอร์การฝังจึงค่อยๆ เรียนรู้เวกเตอร์การฝังใหม่สําหรับต้นไม้แต่ละสายพันธุ์

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผล ลงในเลเยอร์ที่ฝัง

ดูการฝัง ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

พื้นที่ที่ฝัง

#language

ปริภูมิเวกเตอร์ 3 มิติที่แมปกับองค์ประกอบจากปริภูมิเวกเตอร์มิติที่สูงกว่า โดยหลักการแล้ว พื้นที่การฝังควรมีโครงสร้างที่ให้ผลลัพธ์ทางคณิตศาสตร์ที่สื่อความหมาย เช่น ในพื้นที่การฝังที่เหมาะสม การบวกและการลบการฝังจะช่วยแก้ปัญหาการเปรียบเทียบคำได้

ผลิตภัณฑ์จุด ของการฝัง 2 จุดเป็นการวัดความคล้ายคลึงกัน

เวกเตอร์การฝัง

#language

กล่าวโดยคร่าวๆ ก็คืออาร์เรย์ของตัวเลขทศนิยมที่มาจากเลเยอร์ใดก็ได้ ที่ซ่อนอยู่ซึ่งอธิบายอินพุตของเลเยอร์ที่ซ่อนอยู่นั้น บ่อยครั้งที่เวกเตอร์ที่ฝังคืออาร์เรย์ของจำนวนจุดลอยตัวที่ได้รับการฝึกใน เลเยอร์ที่ฝัง ตัวอย่างเช่น สมมติว่าเลเยอร์การฝังต้องเรียนรู้เวกเตอร์การฝังสําหรับต้นไม้แต่ละสายพันธุ์บนโลกซึ่งมีอยู่ 73,000 สายพันธุ์ อาจเป็น อาร์เรย์ต่อไปนี้คือเวกเตอร์การฝังสำหรับต้นบาวบับ

อาร์เรย์ที่มีองค์ประกอบ 12 รายการ โดยแต่ละรายการมีจำนวนทศนิยมระหว่าง 0.0 ถึง 1.0

เวกเตอร์การฝังไม่ใช่ตัวเลขสุ่ม เลเยอร์การฝังจะกําหนดค่าเหล่านี้ผ่านการฝึก คล้ายกับวิธีที่เครือข่ายประสาทเรียนรู้น้ำหนักอื่นๆ ในระหว่างการฝึก องค์ประกอบแต่ละรายการของอาร์เรย์คือคะแนนตามลักษณะบางอย่างของสายพันธุ์ต้นไม้ องค์ประกอบใดแสดงถึงลักษณะของสายพันธุ์ต้นไม้ ยากมาก ให้มนุษย์ได้ทราบ

ส่วนที่มีความโดดเด่นทางคณิตศาสตร์ของเวกเตอร์ที่ฝังอยู่นั้น รายการมีชุดของจำนวนทศนิยมที่คล้ายกัน ตัวอย่างเช่น คล้ายกัน ชนิดของต้นไม้มีชุดของจำนวนจุดลอยตัวที่คล้ายกันมากกว่า ชนิดของต้นไม้ที่ไม่คล้ายกัน ต้นสนซีดาร์และต้นสนสควอยเอียเป็นต้นไม้สายพันธุ์ที่เกี่ยวข้องกัน ดังนั้นชุดตัวเลขทศนิยมของต้นสนซีดาร์และต้นสนสควอยเอียจึงมีความคล้ายคลึงกันมากกว่าต้นสนซีดาร์กับต้นมะพร้าว ตัวเลขในเวกเตอร์การฝังจะเปลี่ยนแปลงทุกครั้งที่คุณฝึกโมเดลใหม่ แม้ว่าคุณจะฝึกโมเดลใหม่ด้วยอินพุตที่เหมือนกันก็ตาม

ฟังก์ชันการกระจายสะสมแบบเอมพิริคัล (eCDF หรือ EDF)

ฟังก์ชันการแจกแจงสะสมซึ่งอิงตามการวัดผลเชิงประจักษ์จากชุดข้อมูลจริง ค่าของแอตทริบิวต์ ที่จุดใดก็ได้บนแกน x คือเศษส่วนของการสังเกตใน ชุดข้อมูลที่น้อยกว่าหรือเท่ากับค่าที่ระบุ

การลดความเสี่ยงเชิงประจักษ์ (ERM)

การเลือกฟังก์ชันที่ลดการสูญเสียสูงสุดในชุดการฝึก ความเปรียบต่าง ด้วยการลดความเสี่ยงด้านโครงสร้างให้เหลือน้อยที่สุด

โปรแกรมเปลี่ยนไฟล์

#language

โดยทั่วไปแล้ว ระบบ ML ใดก็ตามที่แปลงจากการแสดงผลแบบดิบ เบาบาง หรือภายนอกเป็นการแสดงผลที่ประมวลผลแล้ว หนาแน่นขึ้น หรือภายในมากขึ้น

โปรแกรมเปลี่ยนไฟล์มักจะเป็นส่วนประกอบหนึ่งของโมเดลที่ใหญ่กว่า ซึ่งมัก จับคู่กับตัวถอดรหัสแล้ว Transformer บางรุ่น จับคู่โปรแกรมเปลี่ยนไฟล์กับตัวถอดรหัส แม้ว่า Transformer อื่นๆ จะใช้เฉพาะโปรแกรมเปลี่ยนไฟล์ หรือเฉพาะตัวถอดรหัสเท่านั้น

บางระบบใช้เอาต์พุตของโปรแกรมเปลี่ยนไฟล์เป็นอินพุตสำหรับการจัดประเภท หรือ ของ Google Cloud

ในงานแบบอนุกรมต่ออนุกรม ตัวเข้ารหัสจะรับลำดับอินพุตและแสดงผลสถานะภายใน (เวกเตอร์) จากนั้น ตัวถอดรหัสจะใช้สถานะภายในนั้นเพื่อคาดการณ์ลำดับถัดไป

โปรดดูคำจำกัดความของโปรแกรมเปลี่ยนไฟล์ใน Transformer สถาปัตยกรรม Transformer

ดู LLM: ภาษาขนาดใหญ่คืออะไร โมเดล ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

ชุด

คอลเล็กชันโมเดลที่ได้รับการฝึกอย่างอิสระโดยมีการคาดการณ์ เป็นค่าเฉลี่ยหรือสรุปรวม ในหลายกรณี การรวมกลุ่มจะให้การคาดการณ์ที่ดีกว่าโมเดลเดียว ตัวอย่างเช่น random Forest คือชุดที่สร้างขึ้นจาก แผนผังการตัดสินใจ โปรดทราบว่า กลุ่มคำปรึกษาเป็นกลุ่มแรก

ดูการสุ่ม ป่า ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

เอนโทรปี

#df

ใน ทฤษฎีสารสนเทศ คำอธิบายเกี่ยวกับความน่าจะเป็นที่คาดเดาไม่ได้ คืออะไร นอกจากนี้ เอนโทรปียังหมายถึงปริมาณ แต่ละรายการในตัวอย่าง การแจกแจงข้อมูลจะมีเอนโทรปีสูงสุดเมื่อค่าทั้งหมดของตัวแปรแบบสุ่มมีแนวโน้มเท่าๆ กัน

เอนโทรปีของชุดที่มีค่าที่เป็นไปได้ 2 ค่า ได้แก่ "0" และ "1" (เช่น ป้ายกำกับในปัญหาการจัดประเภทแบบไบนารี) มีสูตรดังนี้

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

โดยมี

  • H คือเอนโทรปี
  • p คือเศษส่วนของ "1" ตัวอย่าง
  • q คือเศษส่วน "0" ตัวอย่าง โปรดทราบว่า q = (1 - p)
  • โดยทั่วไป log จะเป็นบันทึก2 ในกรณีนี้ หน่วยของข้อมูลเชิงซ้อนคือบิต

ตัวอย่างเช่น สมมติว่า

  • ตัวอย่าง 100 รายการมีค่าเป็น "1"
  • ตัวอย่าง 300 รายการมีค่าเป็น "0"

ดังนั้น ค่าเอนโทรปีคือ

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 บิตต่อตัวอย่าง

ชุดข้อมูลที่สมดุลกันโดยสมบูรณ์ (เช่น "0" 200 ตัวและ "1" 200 ตัว) จะมีเอนโทรปี 1.0 บิตต่อตัวอย่าง เมื่อฉากเริ่มมีมากขึ้น ไม่สมดุล เอนโทรปีจะเคลื่อนไปสู่ 0.0

ในแผนผังการตัดสินใจ เอนโทรปีช่วยในการสร้างสูตร ข้อมูลที่ได้เพื่อช่วย splitter เลือกเงื่อนไข ในช่วงการเติบโตของแผนผังการตัดสินใจ

เปรียบเทียบเอนโทรปีกับ

เอนโทรปีมักเรียกว่าเอนโทรปีของแชนนอน

ดูข้อมูลเพิ่มเติมได้ในตัวแยกที่ตรงกันทั้งหมดสำหรับการแยกประเภทแบบ 2 กลุ่มที่มีฟีเจอร์ที่เป็นตัวเลขในหลักสูตรป่าการตัดสินใจ

สภาพแวดล้อม

#rl

ในการเรียนรู้ด้วยการทำซ้ำ โลกที่มีเอเจนต์ และอนุญาตให้เอเจนต์สังเกตสถานะของโลกนั้น ตัวอย่างเช่น โลกที่เรานำเสนออาจเป็นเกม เช่น หมากรุก หรือโลกทางกายภาพ เช่น เขาวงกต เมื่อตัวแทนใช้การดำเนินการกับสภาพแวดล้อม สภาพแวดล้อมจะเปลี่ยนสถานะไปมา

ตอน

#rl

ในการเรียนรู้แบบเสริมประสิทธิภาพ ความพยายามซ้ำๆ แต่ละครั้งของ agent เพื่อเรียนรู้สภาพแวดล้อม

Epoch

#fundamentals

ระยะเวลาการฝึกอบรมเต็มรูปแบบสำหรับชุดการฝึกทั้งหมด เพื่อให้ระบบประมวลผลตัวอย่างแต่ละรายการเพียงครั้งเดียว

Epoch แสดงจำนวนรอบการฝึก N/ขนาดกลุ่ม โดยที่ N คือจํานวนตัวอย่างทั้งหมด

ตัวอย่างเช่น สมมติว่า:

  • ชุดข้อมูลประกอบด้วยตัวอย่าง 1,000 รายการ
  • ขนาดกลุ่มมีตัวอย่าง 50 รายการ

ดังนั้น 1 ยุคจึงต้องมีการทําซ้ำ 20 ครั้ง

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: ตัวแปรพหุนามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

นโยบายการค้นหาแบบ epsilon greedy

#rl

ในการเรียนรู้แบบเสริมกำลัง นโยบายที่เป็นไปตาม นโยบายแบบสุ่มที่มีความน่าจะเป็นของ epsilon หรือ นโยบายโลภเป็นอย่างอื่น เช่น หาก epsilon มีค่า 0.9 นโยบายจะเป็นไปตามนโยบายแบบสุ่ม 90% ของเวลาและนโยบายแบบโลภ 10% ของเวลา

อัลกอริทึมจะลดค่าของ epsilon ในแต่ละรอบเพื่อเปลี่ยนจากการปฏิบัติตามนโยบายแบบสุ่มเป็นการปฏิบัติตามนโยบายแบบโลภ การเปลี่ยนนโยบายจะทำให้เอเจนต์สุ่มสำรวจสภาพแวดล้อมก่อน จากนั้นจึงใช้ประโยชน์จากผลการสุ่มสำรวจอย่างเต็มรูปแบบ

ความเท่าเทียมกันของโอกาส

#fairness

เมตริกความเป็นธรรมเพื่อประเมินว่าโมเดลคาดการณ์ผลลัพธ์ที่ต้องการได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่มีความละเอียดอ่อนหรือไม่ กล่าวคือ หากผลลัพธ์ที่ต้องการสำหรับโมเดลคือคลาสที่เป็นบวก เป้าหมายคืออัตราผลบวกจริงจะเหมือนกันสำหรับทุกกลุ่ม

ความเท่าเทียมของโอกาสเกี่ยวข้องกับความน่าจะเป็นที่เท่าเทียม ซึ่งกำหนดว่าทั้งอัตราผลบวกจริงและอัตราผลบวกลวงต้องเหมือนกันสำหรับทุกกลุ่ม

สมมติว่ามหาวิทยาลัย Glubbdubdrib ยอมรับทั้ง Lilliputians และ Brobdingnagians ในโปรแกรมคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมของชาวลิลลี่ปุตตินำเสนอหลักสูตรคณิตศาสตร์ที่มีประสิทธิภาพ และนักเรียนส่วนใหญ่มีสิทธิ์เข้าเรียนในมหาวิทยาลัย โรงเรียนมัธยมของชาวบราบิงกันไม่ได้เปิดสอนวิชาคณิตศาสตร์เลย ส่งผลให้นักเรียนมีจำนวนน้อยกว่ามากที่มีคุณสมบัติตรงตามข้อกำหนด โอกาสที่เท่าเทียมกันเป็นไปตามป้ายกำกับที่ต้องการว่า "ได้รับอนุญาต" เกี่ยวกับสัญชาติ (Lilliputian หรือ Brobdingnagian) หากนักเรียนที่มีสิทธิ์มีแนวโน้มที่จะได้รับอนุญาตเท่าๆ กัน ไม่ว่านักเรียนจะเป็น Lilliputian หรือ Brobdingnagian

ตัวอย่างเช่น สมมติว่าชาวลิลลิโพเชียน 100 คน และชาวบรอบดิงนาเจียน 100 คนใช้กับ มหาวิทยาลัย Glubbdubdrib University และผลการพิจารณาการสมัครงานมีดังนี้

ตาราง 1 ผู้สมัครจาก Lilliputian (90% ผ่านการรับรอง)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 45 3
ถูกปฏิเสธ 45 7
รวม 90 10
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับค่าเล่าเรียน: 45/90 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับค่าเล่าเรียน: 7/10 = 70%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Lilliputian ที่ได้รับค่าเล่าเรียน: (45+3)/100 = 48%

 

ตาราง 2 ผู้สมัคร Brobdingnagian (10% ผ่านเกณฑ์):

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 5 9
ถูกปฏิเสธ 5 81
รวม 10 90
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติที่เข้าศึกษา: 5/10 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่เข้าเกณฑ์ที่ถูกปฏิเสธ: 81/90 = 90%
เปอร์เซ็นต์รวมของนักเรียน Brobdingnagian ที่ยอมรับ: (5+9)/100 = 14%

ตัวอย่างก่อนหน้านี้แสดงถึงความเท่าเทียมของโอกาสในการยอมรับ เพราะมีทั้ง Lilliputians และ Brobdingnagians ที่มีคุณสมบัติ จะมีโอกาสได้รับการยอมรับ 50%

แม้ว่าจะเป็นไปตามหลักความเท่าเทียมกันของโอกาส แต่เมตริกความเท่าเทียม 2 รายการต่อไปนี้ไม่เป็นไปตามหลักดังกล่าว

  • ความเท่าเทียมกันของประชากร: Lilliputian และ ชาว Brobdingnagians ได้รับอนุญาตให้เข้ามหาวิทยาลัยในอัตราที่แตกต่างกัน 48% ของนักศึกษา Lilliputians ได้รับการยอมรับ แต่มีเพียง 14% ของ รับนักศึกษา Brobdingnagian
  • โอกาสที่เท่าเทียม: แม้ว่านักเรียน Lilliputian และ Brobdingnagian ที่มีสิทธิ์จะมีสิทธิ์ได้รับการยอมรับเท่าๆ กัน แต่ข้อจำกัดเพิ่มเติมที่ว่านักเรียน Lilliputian และ Brobdingnagian ที่ไม่มีสิทธิ์จะมีสิทธิ์ถูกปฏิเสธเท่าๆ กันนั้นไม่ได้รับการยอมรับ ผู้ที่มีคุณสมบัติไม่ตรงตามเกณฑ์ของ Lilliputians มีอัตราการถูกปฏิเสธ 70% ส่วนผู้ที่มีคุณสมบัติไม่ตรงตามเกณฑ์ของ Brobdingnagians มีอัตราการถูกปฏิเสธ 90%

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ความเท่าเทียมของโอกาสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โอกาสที่เท่ากัน

#fairness

เมตริกความเท่าเทียมเพื่อประเมินว่าโมเดลคาดการณ์ผลลัพธ์ได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่มีความละเอียดอ่อนทั้งในแง่ของคลาสบวกและคลาสลบ ไม่ใช่แค่คลาสใดคลาสหนึ่งโดยเฉพาะ กล่าวคือ ทั้งอัตราผลบวกจริง และ อัตราผลลบลวง ควรเท่ากันสำหรับ ทุกกลุ่ม

โอกาสที่เท่ากันจะเกี่ยวข้องกับ ความเท่าเทียมของโอกาส ซึ่งมุ่งเน้นไปที่ เกี่ยวกับอัตราข้อผิดพลาดของคลาสเดี่ยว (เชิงบวกหรือเชิงลบ)

ตัวอย่างเช่น สมมติว่ามหาวิทยาลัย Glubbdubdrib รับทั้งชาวลิลลี่ปุตและชาวบราบิงแนกเข้าโปรแกรมคณิตศาสตร์ที่เข้มงวด ศิลปะของ Lilliputians รอง โรงเรียนหลายแห่งมีหลักสูตรวิชาคณิตศาสตร์ที่มีประสิทธิภาพ และส่วนใหญ่ มีสิทธิ์เข้าร่วมโครงการของมหาวิทยาลัย โรงเรียนมัธยมของชาวบราบิงกันไม่ได้เปิดสอนวิชาคณิตศาสตร์เลย ส่งผลให้นักเรียนมีจำนวนน้อยกว่ามากที่มีคุณสมบัติตรงตามข้อกำหนด มีโอกาสที่เสมอกันในกรณีที่ไม่มี ไม่ว่าผู้สมัครจะเป็น Lilliputian หรือ Brobdingnagian หาก มีคุณสมบัติครบถ้วน รวมถึงมีแนวโน้ม ที่จะเข้าสู่โปรแกรมเท่าๆ กัน และหากไม่มีคุณสมบัติ ก็มีโอกาสถูกปฏิเสธไม่แพ้กัน

สมมติว่าชาวลิลลิพูเชียน 100 คนและชาวบรอบดิงนาเจีย 100 คนสมัครอยู่กับกลบบูบดริบ ผลการพิจารณาการเข้าเรียนในมหาวิทยาลัยและการรับเข้าศึกษามีดังนี้

ตารางที่ 3 ผู้สมัครจาก Lilliputian (90% ผ่านการรับรอง)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 45 2
ถูกปฏิเสธ 45 8
รวม 90 10
เปอร์เซ็นต์ของนักเรียนที่เข้าเกณฑ์ที่เข้ารับ: 45/90 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่เข้าเกณฑ์ที่ถูกปฏิเสธ: 8/10 = 80%
เปอร์เซ็นต์รวมของนักเรียน Lilliputian ที่เข้าเรียน: (45+2)/100 = 47%

 

ตารางที่ 4 ผู้สมัคร Brobdingnagian (10% ผ่านเกณฑ์):

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 5 18
ถูกปฏิเสธ 5 72
รวม 10 90
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 5/10 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 72/90 = 80%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Brobdingnagian ที่ได้รับอนุญาตให้เข้าเรียน: (5+18)/100 = 23%

เงื่อนไขความน่าจะเป็นที่เท่ากันเป็นไปตามเกณฑ์เนื่องจากทั้งนักเรียน Lilliputian และ Brobdingnagian ที่มีสิทธิ์มีโอกาส 50% ที่จะได้รับการยอมรับ และนักเรียน Lilliputian และ Brobdingnagian ที่ไม่มีสิทธิ์มีโอกาส 80% ที่จะถูกปฏิเสธ

เงื่อนไขความน่าจะเป็นที่เท่ากันอย่างเป็นทางการใน "ความเท่าเทียมกันของ โอกาสในการเรียนรู้ภายใต้การควบคุมดูแล" ดังนี้ "ตัวพยากรณ์ {/2} ตรงกับความเป็นไปได้ที่เท่าเทียมกันด้วยความเคารพ เป็นแอตทริบิวต์ A ที่ได้รับการคุ้มครอง และผลลัพธ์ Y หาก ¶ และ A เป็นอิสระจากกัน แบบมีเงื่อนไขใน Y"

Estimator

#TensorFlow

TensorFlow API ที่เลิกใช้งานแล้ว ใช้ tf.keras แทน Estimator

evals

#language
#generativeAI

ใช้เป็นหลักเป็นตัวย่อของการประเมิน LLM evals ย่อมาจากการประเมินทุกรูปแบบ

การประเมิน

#language
#generativeAI

กระบวนการวัดคุณภาพของรูปแบบหรือการเปรียบเทียบรูปแบบต่างๆ

หากต้องการประเมินโมเดลแมชชีนเลิร์นนิงที่มีการควบคุมดูแลโดยทั่วไปคุณจะต้องประเมินโมเดลนั้นเทียบกับชุดการตรวจสอบและชุดทดสอบ การประเมิน LLM โดยทั่วไปแล้ว จะต้องมีการประเมินคุณภาพและความปลอดภัยในระดับที่กว้างกว่า

ตัวอย่าง

#fundamentals

ค่าของฟีเจอร์ 1 แถวและป้ายกํากับ (ไม่บังคับ) ตัวอย่างในการเรียนรู้แบบควบคุมจะแบ่งออกเป็น 2 หมวดหมู่ทั่วไป ดังนี้

ตัวอย่างเช่น สมมติว่าคุณกําลังฝึกโมเดลเพื่อระบุอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตัวอย่างที่มีป้ายกำกับ 3 รายการมีดังนี้

ฟีเจอร์ ป้ายกำกับ
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 ดี
19 34 1020 ดีมาก
18 92 1012 แย่

ต่อไปนี้เป็นตัวอย่างที่ไม่มีป้ายกำกับ 3 รายการ

อุณหภูมิ ความชื้น ความกดอากาศ  
12 62 1014  
21 47 1017  
19 41 1021  

แถวของชุดข้อมูลมักเป็นแหล่งข้อมูลดิบสําหรับตัวอย่าง กล่าวคือ ตัวอย่างที่มักจะประกอบด้วยส่วนย่อยของคอลัมน์ใน ชุดข้อมูล นอกจากนี้ ฟีเจอร์ในตัวอย่างยังอาจรวมถึงฟีเจอร์สังเคราะห์ เช่น การครอสฟีเจอร์

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบควบคุมดูแลในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

เล่นซ้ำประสบการณ์

#rl

ในการเรียนรู้แบบเสริมกำลัง เราใช้เทคนิค DQN เพื่อ ลดความสัมพันธ์เชิงเวลาในข้อมูลการฝึก Agentจะจัดเก็บการเปลี่ยนสถานะในบัฟเฟอร์การบันทึกซ้ำ จากนั้นจะสุ่มตัวอย่างการเปลี่ยนสถานะจากบัฟเฟอร์การบันทึกซ้ำเพื่อสร้างข้อมูลการฝึก

อคติของผู้ทดลอง

#fairness

ดูอคติยืนยันความคิดตัวเอง

โจทย์การไล่ระดับสีระเบิด

#seq

แนวโน้มของการไล่ระดับสีใน โครงข่ายประสาทแบบลึก (โดยเฉพาะอย่างยิ่ง โครงข่ายประสาทแบบเกิดซ้ำ) สูงอย่างไม่น่าเชื่อ (สูง) การไล่ระดับสีที่ชันขึ้นมักทำให้มีการอัปเดตขนาดใหญ่มาก ลงในน้ำหนักของโหนดแต่ละรายการใน โครงข่ายประสาทแบบลึก

โมเดลที่ได้รับผลกระทบจากปัญหาการไล่ระดับสีระเบิดเริ่มยาก หรือเป็นไปไม่ได้ที่จะฝึก การตัดเฉดสีจะช่วยบรรเทาปัญหานี้ได้

เปรียบเทียบกับปัญหาการลดทอนความชัน

F

1

เมตริกการจัดประเภทแบบ 2 กลุ่ม "แบบรวม" ที่อาศัยทั้งความแม่นยำและความแม่นยำในการเรียกคืน สูตรมีดังนี้

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

ตัวอย่างเช่น ข้อมูลต่อไปนี้

  • precision = 0.6
  • การเรียกคืน = 0.4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

เมื่อความแม่นยำและความแม่นยำในการจดจำค่อนข้างคล้ายกัน (เช่น ในตัวอย่างก่อนหน้านี้) F1 จะใกล้เคียงกับค่าเฉลี่ย เมื่อความแม่นยำและการเรียกคืนแตกต่างกันอย่างมาก F1 จะใกล้เคียงกับค่าที่ต่ำลง เช่น

  • precision = 0.9
  • recall = 0.1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

ข้อจำกัดด้านความยุติธรรม

#fairness
การใช้เงื่อนไขจำกัดกับอัลกอริทึมเพื่อให้ได้คำจำกัดความอย่างน้อย 1 รายการ ของความเป็นธรรม ตัวอย่างข้อจำกัดด้านความยุติธรรม ได้แก่

เมตริกความยุติธรรม

#fairness

คําจํากัดความทางคณิตศาสตร์ของ "ความเป็นธรรม" ที่วัดผลได้ เมตริกความเป็นธรรมที่พบได้ทั่วไป ได้แก่

เมตริกความยุติธรรมหลายรายการใช้ร่วมกันไม่ได้ โปรดดูความเข้ากันไม่ได้ของเมตริกความยุติธรรม

ผลลบลวง (FN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบอย่างไม่ถูกต้อง ตัวอย่างเช่น โมเดล คาดว่าข้อความอีเมลหนึ่งๆ ไม่ใช่สแปม (คลาสเชิงลบ) แต่ข้อความอีเมลนั้นที่จริงแล้วเป็นสแปม

อัตราผลลบลวง

สัดส่วนของตัวอย่างที่เป็นบวกจริงที่โมเดลเข้าใจผิด ก็คาดการณ์คลาสเชิงลบได้ สูตรต่อไปนี้จะคํานวณอัตราเชิงลบที่ไม่ถูกต้อง

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

ดูข้อมูลเพิ่มเติมเกี่ยวกับเกณฑ์และตารางความสับสนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ผลบวกลวง (FP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสบวกอย่างไม่ถูกต้อง เช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ (คลาสเชิงบวก) แต่ข้อความอีเมลนั้นไม่ใช่จดหมายขยะจริงๆ

ดูข้อมูลเพิ่มเติมเกี่ยวกับเกณฑ์และตารางความสับสนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อัตราผลบวกลวง (FPR)

#fundamentals

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลคาดการณ์คลาสที่เป็นบวกอย่างไม่ถูกต้อง สูตรต่อไปนี้จะคํานวณอัตราผลบวกลวง

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

อัตราผลบวกลวงคือแกน x ในกราฟ ROC

ดูการจัดประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

ฟีเจอร์

#fundamentals

ตัวแปรอินพุตของโมเดลแมชชีนเลิร์นนิง ตัวอย่าง ประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ ตัวอย่างเช่น สมมติว่าคุณกําลังฝึกรูปแบบเพื่อระบุอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตารางต่อไปนี้แสดงตัวอย่าง 3 รายการ แต่ละตัวอย่างมี คุณลักษณะสามรายการ และป้ายกำกับ 1 รายการ:

ฟีเจอร์ ป้ายกำกับ
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 92
19 34 1020 84
18 92 1012 87

คอนทราสต์กับป้ายกำกับ

ดูข้อมูลเพิ่มเติมได้ที่การเรียนรู้แบบควบคุมดูแลในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

ไม้กางเขนเด่น

#fundamentals

ฟีเจอร์สังเคราะห์ที่เกิดจาก "การกากบาท" ฟีเจอร์ตามหมวดหมู่หรือฟีเจอร์แบบเก็บข้อมูล

ตัวอย่างเช่น ลองพิจารณาโมเดล "การคาดการณ์อารมณ์" ที่แสดงอุณหภูมิในหนึ่งในกลุ่ม 4 กลุ่มต่อไปนี้

  • freezing
  • chilly
  • temperate
  • warm

และแสดงถึงความเร็วลมในถังใดถังหนึ่งจาก 3 ถังต่อไปนี้

  • still
  • light
  • windy

โดยไม่มีเครื่องหมายกากบาทคุณลักษณะ โมเดลเชิงเส้นจะฝึกแยกกันในแต่ละองค์ประกอบ นำหน้าที่เก็บข้อมูลต่างๆ ถึง 7 แบบ ดังนั้น โมเดลจะฝึกจากตัวอย่าง เช่น freezing โดยไม่เกี่ยวข้องกับการฝึกจากตัวอย่าง เช่น windy

อีกทางเลือกหนึ่งคือ คุณอาจสร้างลักษณะการวัดอุณหภูมิ ความเร็วลม ฟีเจอร์สังเคราะห์นี้จะมี 12 อย่างที่เป็นไปได้ดังต่อไปนี้ มีดังนี้

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

ด้วยไม้ข้ามฟีเจอร์ โมเดลนี้จึงเรียนรู้ความแตกต่างทางอารมณ์ได้ ระหว่าง freezing-windy วันถึง freezing-still วัน

หากคุณสร้างฟีเจอร์สังเคราะห์จาก 2 ฟีเจอร์ซึ่งแต่ละฟีเจอร์มี ที่เก็บข้อมูลที่ต่างกัน ดังนั้นข้ามฟีเจอร์ที่ได้จะมีปริมาณมหาศาล ของชุดค่าผสมที่เป็นไปได้ เช่น หากฟีเจอร์หนึ่งมีที่เก็บข้อมูล 1,000 รายการ อีกจุดสนใจหนึ่งมีที่เก็บข้อมูล 2,000 ที่ และข้ามจุดสนใจที่ได้มี 2,000,000 ใหม่

อย่างเป็นทางการ ไม้กางเขนคือ ผลคูณคาร์ทีเซียน

การครอสฟีเจอร์มักใช้กับโมเดลเชิงเส้นและไม่ค่อยใช้กับเครือข่ายประสาท

ดูข้อมูลเพิ่มเติมที่ข้อมูลเชิงหมวดหมู่: ฟีเจอร์ครอสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Feature Engineering

#fundamentals
#TensorFlow

กระบวนการที่มีขั้นตอนต่อไปนี้

  1. พิจารณาว่าฟีเจอร์ใดบ้างที่อาจมีประโยชน์ในการเทรนโมเดล
  2. การแปลงข้อมูลดิบจากชุดข้อมูลเป็นเวอร์ชันที่มีประสิทธิภาพของ คุณลักษณะเหล่านั้น

ตัวอย่างเช่น คุณอาจพิจารณาว่า temperature อาจเป็นประโยชน์ จากนั้น คุณอาจลองใช้การแบ่งกลุ่มเพื่อเพิ่มประสิทธิภาพสิ่งที่โมเดลสามารถเรียนรู้จากช่วง temperature ที่ต่างกัน

บางครั้งเราเรียกวิศวกรรมฟีเจอร์ว่า การแยกฟีเจอร์หรือ ประสิทธิภาพการทำงาน

ดูข้อมูลเพิ่มเติมที่ข้อมูลตัวเลข: วิธีที่โมเดลนำเข้าข้อมูลโดยใช้เวกเตอร์ฟีเจอร์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การแยกฟีเจอร์

คําที่มีความหมายหลายอย่างซึ่งมีคําจํากัดความอย่างใดอย่างหนึ่งต่อไปนี้

ความสำคัญของฟีเจอร์

#df

คำพ้องความหมายของความสำคัญของตัวแปร

ชุดฟีเจอร์

#fundamentals

กลุ่มฟีเจอร์ที่แมชชีนเลิร์นนิงของคุณ model มีการฝึกทำงาน เช่น รหัสไปรษณีย์ ขนาดที่พัก และสภาพที่พักอาจประกอบกันเป็นชุดฟีเจอร์ง่ายๆ สําหรับโมเดลที่คาดการณ์ราคาที่อยู่อาศัย

ข้อมูลจำเพาะของฟีเจอร์

#TensorFlow

อธิบายข้อมูลที่จำเป็นในการดึงข้อมูลจากฟีเจอร์ จากบัฟเฟอร์โปรโตคอล tf.Example เนื่องจาก tf.Example บัฟเฟอร์โปรโตคอลเป็นเพียงที่เก็บข้อมูล คุณต้องระบุ ดังต่อไปนี้

  • ข้อมูลที่จะดึงมา (ซึ่งก็คือคีย์สำหรับฟีเจอร์)
  • ประเภทข้อมูล (เช่น ทศนิยมหรือจำนวนเต็ม)
  • ความยาว (คงที่หรือผันแปร)

เวกเตอร์องค์ประกอบ

#fundamentals

อาร์เรย์ของค่า feature ซึ่งประกอบด้วย ตัวอย่าง เวกเตอร์จุดสนใจเป็นอินพุตระหว่าง การฝึกทำงานและระหว่างการอนุมาน ตัวอย่างเช่น เวกเตอร์ลักษณะสําหรับโมเดลที่มี 2 ลักษณะที่แยกกันอาจมีลักษณะดังนี้

[0.92, 0.56]

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์
          เลเยอร์อินพุตมีโหนด 2 โหนด โดยโหนดหนึ่งมีค่า 0.92 และอีกโหนดมีค่า 0.56

ตัวอย่างแต่ละรายการระบุค่าที่แตกต่างกันสำหรับเวกเตอร์ลักษณะ ดังนั้นเวกเตอร์ลักษณะของตัวอย่างถัดไปจึงอาจเป็นดังนี้

[0.73, 0.49]

วิศวกรรมฟีเจอร์เป็นตัวกำหนดวิธีนำเสนอ ในเวกเตอร์จุดสนใจ เช่น ฟีเจอร์เชิงหมวดหมู่แบบไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าอาจแสดงด้วยการเข้ารหัส One-Hot ในกรณีนี้ ส่วนของเวกเตอร์ลักษณะสำหรับตัวอย่างหนึ่งๆ จะประกอบด้วย 0 4 ตัวและ 1.0 1 ตัวในตำแหน่งที่ 3 ดังนี้

[0.0, 0.0, 1.0, 0.0, 0.0]

อีกตัวอย่างหนึ่งคือสมมติว่าโมเดลของคุณประกอบด้วยฟีเจอร์ 3 รายการ ได้แก่

  • ฟีเจอร์เชิงหมวดหมู่แบบไบนารีซึ่งมีค่าที่เป็นไปได้ 5 ค่าที่แสดงด้วยการเข้ารหัสแบบฮอตเดียว เช่น [0.0, 1.0, 0.0, 0.0, 0.0]
  • ฟีเจอร์เชิงหมวดหมู่แบบไบนารีอีกรายการที่มีค่าที่เป็นไปได้3 ค่าซึ่งแสดงด้วยการเข้ารหัสแบบฮอตเดียว เช่น [0.0, 0.0, 1.0]
  • ฟีเจอร์จุดลอยตัว เช่น 8.3

ในกรณีนี้ เวกเตอร์ฟีเจอร์สำหรับแต่ละตัวอย่างจะแสดงแทน 9 ค่า เมื่อพิจารณาจากค่าตัวอย่างในรายการก่อนหน้า เวกเตอร์ลักษณะจะเป็นดังนี้

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

ดูข้อมูลเพิ่มเติมที่ข้อมูลตัวเลข: วิธีที่โมเดลนำเข้าข้อมูลโดยใช้เวกเตอร์ฟีเจอร์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การสร้างฟีเจอร์

กระบวนการดึงข้อมูลองค์ประกอบจากแหล่งที่มาของอินพุต เช่น เอกสารหรือวิดีโอ และการแมปองค์ประกอบเหล่านั้นเป็นเวกเตอร์องค์ประกอบ

ผู้เชี่ยวชาญด้าน ML บางรายใช้การสร้างฟีเจอร์เป็นคำพ้องกับการปรับแต่งฟีเจอร์หรือการดึงข้อมูลฟีเจอร์

การเรียนรู้แบบสมาพันธ์

แนวทางการใช้แมชชีนเลิร์นนิงแบบกระจายที่ฝึก โมเดลแมชชีนเลิร์นนิงโดยใช้ระบบกระจายศูนย์ ตัวอย่างที่อยู่ในอุปกรณ์ เช่น สมาร์ทโฟน ในการเรียนรู้แบบรวมศูนย์ อุปกรณ์บางส่วนจะดาวน์โหลดโมเดลปัจจุบันจากเซิร์ฟเวอร์ประสานงานส่วนกลาง อุปกรณ์จะใช้ตัวอย่างที่เก็บไว้ในอุปกรณ์เพื่อปรับปรุงโมเดล จากนั้นอุปกรณ์จะอัปโหลด การปรับปรุงโมเดล (ไม่ใช่ตัวอย่างการฝึก) สำหรับการประสานงาน ซึ่งจะรวมกับการอัปเดตอื่นๆ เพื่อให้ โมเดลทั่วโลก หลังจากการรวมแล้ว อัปเดตโมเดลที่คำนวณโดยอุปกรณ์จะไม่จำเป็นต้องใช้อีกต่อไปและสามารถทิ้งได้

เนื่องจากไม่เคยอัปโหลดตัวอย่างการฝึกอบรม การเรียนรู้แบบสมาพันธ์จึงเป็นไปตาม หลักการด้านความเป็นส่วนตัวในการรวบรวมข้อมูลที่มุ่งเน้นและขอบเขตการใช้ข้อมูล

หากต้องการข้อมูลเพิ่มเติมเกี่ยวกับการเรียนรู้แบบสมาพันธ์ โปรดดูบทแนะนำนี้

การเก็บฟีดแบ็กมาแก้ไข

#fundamentals

ในแมชชีนเลิร์นนิง สถานการณ์ที่การคาดการณ์ของโมเดลส่งผลต่อข้อมูลการฝึกของโมเดลเดียวกันหรือโมเดลอื่น ตัวอย่างเช่น โมเดลที่ แนะนำว่าภาพยนตร์จะมีผลต่อภาพยนตร์ที่คนดู จากนั้น ส่งผลต่อโมเดลการแนะนำภาพยนตร์ในลำดับต่อๆ มา

ดูระบบ ML การผลิต: คำถามสำหรับ ถาม ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

โครงข่ายระบบประสาทเทียมฟีดส่งต่อ (FFN)

โครงข่ายระบบประสาทเทียมที่ไม่มีการเชื่อมต่อแบบวนซ้ำหรือวนซ้ำ ตัวอย่างเช่น โครงข่ายประสาทแบบลึกดั้งเดิมคือ โครงข่ายระบบประสาทเทียมแบบส่งต่อฟีด ซึ่งต่างจากเครือข่ายประสาทแบบซ้ำซึ่งเป็นแบบวนซ้ำ

การเรียนรู้แบบตัวอย่างน้อย

แนวทางแมชชีนเลิร์นนิงที่มักใช้ เพื่อจำแนกออบเจ็กต์ ที่ออกแบบมาเพื่อฝึกตัวแยกประเภทที่มีประสิทธิภาพจาก ตัวอย่างการฝึกของคุณ

โปรดดูการเรียนรู้แบบจุดเดียวและ การเรียนรู้แบบ Zero shot

Few-Shot Prompting

#language
#generativeAI

พรอมต์ที่มีตัวอย่างมากกว่า 1 รายการ ("2-3" รายการ) ซึ่งแสดงวิธีที่โมเดลภาษาขนาดใหญ่ควรตอบ ตัวอย่างเช่น พรอมต์ยาวต่อไปนี้มี ตัวอย่างที่แสดงโมเดลภาษาขนาดใหญ่เกี่ยวกับวิธีตอบคำถาม

ส่วนต่างๆ ของพรอมต์ หมายเหตุ
สกุลเงินทางการของประเทศที่ระบุคืออะไร คำถามที่ต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR ตัวอย่างหนึ่ง
สหราชอาณาจักร: GBP อีกตัวอย่างหนึ่ง
อินเดีย: การค้นหาจริง

โดยทั่วไปแล้วพรอมต์แบบไม่กี่ช็อตจะให้ผลลัพธ์ที่ต้องการมากกว่าพรอมต์แบบไม่มีช็อตและพรอมต์แบบช็อตเดียว แต่การพรอมต์แบบไม่กี่คำต้องใช้พรอมต์ที่ยาวกว่า

การแจ้งเพียง 2-3 ช็อตเป็นการเรียนรู้แบบคร่าวๆ นำไปใช้กับการเรียนรู้จากพรอมต์

ดูข้อมูลเพิ่มเติมได้ที่การวิศวกรรมพรอมต์ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟิดเดิล

#language

ไลบรารีการกําหนดค่าที่ใช้ Python เป็นภาษาหลัก ซึ่งจะกําหนดค่าของฟังก์ชันและคลาสโดยไม่ต้องใช้โค้ดหรือโครงสร้างพื้นฐานที่แทรกแซง ในกรณีของ Pax และโค้ดเบส ML อื่นๆ ฟังก์ชันเหล่านี้และ คลาสจะเป็นตัวแทนของโมเดลและการฝึก ไฮเปอร์พารามิเตอร์

ฟิดเดิล ถือว่าโดยทั่วไปแล้วโค้ดเบสแมชชีนเลิร์นนิงแบ่งออกเป็นสิ่งต่อไปนี้

  • โค้ดไลบรารีซึ่งกําหนดเลเยอร์และเครื่องมือเพิ่มประสิทธิภาพ
  • "Glue" ชุดข้อมูล ซึ่งเรียกห้องสมุดและสายไฟเข้าด้วยกัน

Fiddle บันทึกโครงสร้างการเรียกใช้ของ Glue Code ในตัวแปรที่ยังไม่ผ่านการประเมินและ เปลี่ยนแปลงได้

การปรับแต่ง

#language
#image
#generativeAI

บัตรผ่านการฝึกอบรมเฉพาะงานชิ้นที่ 2 ที่ดำเนินการใน โมเดลที่ฝึกล่วงหน้าเพื่อปรับแต่งพารามิเตอร์สำหรับ Use Case ที่เฉพาะเจาะจง ตัวอย่างเช่น ลำดับการฝึกแบบเต็มสำหรับโมเดลภาษาขนาดใหญ่บางรายการมีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลภาษาขนาดใหญ่ด้วยชุดข้อมูลทั่วไปขนาดใหญ่ เช่น หน้า Wikipedia ภาษาอังกฤษทั้งหมด
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกไว้ล่วงหน้าให้ทํางานที่เฉพาะเจาะจง เช่น การตอบคําถามทางการแพทย์ การปรับแต่งนั้นมักเกี่ยวข้องกับ ตัวอย่างนับร้อยหรือนับพันรายการที่มุ่งเน้นเฉพาะงานนั้นๆ

อีกตัวอย่างหนึ่งคือลําดับการฝึกแบบเต็มสําหรับโมเดลรูปภาพขนาดใหญ่มีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลรูปภาพขนาดใหญ่บนรูปภาพทั่วไปขนาดใหญ่ เช่น ภาพทั้งหมดใน Wikimedia Commons
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกไว้ล่วงหน้าให้ทํางานเฉพาะ เช่น สร้างรูปภาพโลมาน้ำจืด

การปรับแต่งอาจใช้กลยุทธ์ต่อไปนี้ร่วมกัน

  • กำลังแก้ไขโมเดลที่มีอยู่ทั้งหมดของโมเดลที่ฝึกล่วงหน้า พารามิเตอร์ บางครั้งเรียกว่าการปรับแต่งอย่างละเอียด
  • การแก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลก่อนการฝึกบางส่วนเท่านั้น (โดยปกติคือเลเยอร์ที่อยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด) โดยไม่เปลี่ยนแปลงพารามิเตอร์อื่นๆ ที่มีอยู่ (โดยทั่วไปคือเลเยอร์ ใกล้เลเยอร์อินพุตมากที่สุด) โปรดดู การปรับแต่งประสิทธิภาพพารามิเตอร์
  • การเพิ่มเลเยอร์ โดยปกติจะวางไว้บนเลเยอร์ที่มีอยู่ซึ่งอยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด

การปรับแต่งเป็นรูปแบบหนึ่งของการเรียนรู้แบบโอน ดังนั้นการปรับแต่งอาจใช้ฟังก์ชันการสูญเสียหรือโมเดลประเภทอื่นที่แตกต่างจากที่ใช้ฝึกโมเดลที่ผ่านการฝึกอบรมไว้ล่วงหน้า ตัวอย่างเช่น คุณสามารถ ปรับแต่งโมเดลรูปภาพขนาดใหญ่ก่อนการฝึก เพื่อสร้างโมเดลการถดถอยที่ แสดงผลจำนวนนกในภาพอินพุต

เปรียบเทียบการปรับแต่งอย่างละเอียดกับคำต่อไปนี้

ดูการปรับแต่ง ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

เหลืองแฟลกซ์

#language

ไลบรารีโอเพนซอร์สที่มีประสิทธิภาพสูงสําหรับการเรียนรู้เชิงลึกซึ่งสร้างขึ้นจาก JAX Flax มีฟังก์ชันสำหรับการฝึกเครือข่ายประสาทเทียม รวมถึงวิธีการประเมินประสิทธิภาพของเครือข่าย

ผสมผ้าฝ้าย

#language

Transformer แบบโอเพนซอร์ส คลัง สร้างขึ้นใน Flax ที่ออกแบบมาเพื่อการประมวลผลภาษาธรรมชาติเป็นหลัก และการวิจัยสื่อหลากรูปแบบ

ลืมประตู

#seq

ส่วนหนึ่งของเซลล์ความจำระยะสั้นระยะยาวที่ควบคุมการไหลของข้อมูลผ่านเซลล์ "ไม่จำประตู" จะรักษาบริบทไว้ด้วยการตัดสินใจว่าจะทิ้งข้อมูลใด จากสถานะเซลล์

Softmax แบบเต็ม

คำพ้องความหมายของ softmax

แตกต่างจากการสุ่มตัวอย่างผู้สมัคร

ดูข้อมูลเพิ่มเติมได้ที่เครือข่ายประสาท: การแยกประเภทหลายคลาสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์

เลเยอร์ที่ซ่อนอยู่ ซึ่งโหนดแต่ละโหนดจะเชื่อมต่อกับทุกโหนดในเลเยอร์ที่ซ่อนอยู่ลำดับถัดไป

เลเยอร์แบบ Fully Connected เรียกอีกอย่างว่าเลเยอร์แบบหนาแน่น

การเปลี่ยนรูปแบบฟังก์ชัน

ฟังก์ชันที่ใช้ฟังก์ชันเป็นอินพุตและส่งกลับฟังก์ชันที่เปลี่ยนรูปแบบแล้ว เป็นเอาต์พุต JAX ใช้การเปลี่ยนรูปแบบฟังก์ชัน

G

GAN

ตัวย่อของ Generative adversarial เครือข่าย

การสรุป

#fundamentals

ความสามารถของโมเดลในการคาดการณ์ที่ถูกต้องในอุปกรณ์ใหม่ ข้อมูลที่ไม่เคยเห็นมาก่อน โมเดลที่สามารถทำให้เป็นแบบทั่วไปได้นั้นตรงข้ามกับ ของโมเดลที่ปรับมากเกินไป

ดูข้อมูลเพิ่มเติมได้ที่การทั่วไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Gemini

#language
#image
#generativeAI

ระบบนิเวศที่ประกอบด้วย AI ที่ล้ำหน้าที่สุดของ Google องค์ประกอบของระบบนิเวศนี้ รวมข้อมูลต่อไปนี้

  • รุ่นต่างๆ ของ Gemini
  • อินเทอร์เฟซการสนทนาแบบอินเทอร์แอกทีฟกับโมเดล Gemini ผู้ใช้จะพิมพ์พรอมต์และ Gemini จะตอบสนองต่อพรอมต์เหล่านั้น
  • Gemini API ต่างๆ
  • ผลิตภัณฑ์ทางธุรกิจต่างๆ ที่อิงตามโมเดล Gemini เช่น Gemini สำหรับ Google Cloud

โมเดล Gemini

#language
#image
#generativeAI

โมเดลมัลติโมดที่อิงตาม Transformer ที่ทันสมัยของ Google โมเดล Gemini ได้รับการออกแบบมาโดยเฉพาะเพื่อผสานรวมกับตัวแทน

ผู้ใช้สามารถโต้ตอบกับโมเดล Gemini ได้หลายวิธี เช่น อินเทอร์เฟซกล่องโต้ตอบแบบอินเทอร์แอกทีฟ และผ่าน SDK

เส้นโค้งทั่วไป

#fundamentals

ผังทั้งการลดลงของการฝึกและการลดลงของการตรวจสอบตามจำนวนการทำซ้ำ

กราฟทั่วไปจะช่วยให้คุณตรวจหาความเป็นไปได้ มากเกินไป ตัวอย่างเช่น เส้นโค้งทั่วไปต่อไปนี้บ่งชี้ว่ามีการจับคู่ที่มากเกินไปเนื่องจากความสูญเสียในการตรวจสอบจะสูงกว่าความสูญเสียในการฝึกอย่างมากในท้ายที่สุด

กราฟคาร์ทีเซียนที่แกน y ระบุว่าสูญเสียและแกน x
          คือ การทำซ้ำ จะมี 2 พล็อตปรากฏขึ้น หนึ่งแผนภาพแสดง
          การสูญเสียการฝึก และอีกรายการจะแสดงการสูญเสียการตรวจสอบ
          ทั้ง 2 แผนเริ่มต้นคล้ายคลึงกัน แต่ในที่สุดก็เกิดการสูญเสียการฝึกอบรม
          ตกลงต่ำกว่าการสูญเสียการตรวจสอบเป็นอย่างมาก

ดูข้อมูลเพิ่มเติมได้ที่การทั่วไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

รูปแบบเชิงเส้นทั่วไป

การสรุปเกี่ยวกับการถดถอยของกำลังสองน้อยที่สุด โดยอิงตาม เกาส์เซียน Noise เป็นเสียงอื่นๆ แบบพื้นฐานโดยพิจารณาจากสัญญาณรบกวนประเภทอื่นๆ เช่น เสียงรบกวนแบบ Poisson หรือ เสียงเชิงหมวดหมู่ ตัวอย่างของรูปแบบเชิงเส้นทั่วไป ได้แก่

คุณสามารถดูพารามิเตอร์ของรูปแบบเชิงเส้นทั่วไปได้จาก การเพิ่มประสิทธิภาพ Conv.

รูปแบบเชิงเส้นทั่วไปจะแสดงคุณสมบัติต่อไปนี้

  • การคาดการณ์ค่าเฉลี่ยของโมเดลการถดถอยแบบกำลังสองน้อยที่สุดที่ดีที่สุดจะเท่ากับป้ายกำกับค่าเฉลี่ยในข้อมูลการฝึก
  • ความน่าจะเป็นโดยเฉลี่ยที่คาดการณ์โดยการถดถอยแบบโลจิสติกส์ที่เหมาะสมที่สุด จะเท่ากับป้ายกำกับเฉลี่ยในข้อมูลการฝึก

พลังของรูปแบบเชิงเส้นทั่วไปจะจำกัดโดยฟีเจอร์ โมเดลเชิงเส้นทั่วไปไม่สามารถ "เรียนรู้ฟีเจอร์ใหม่" ได้ ต่างจากโมเดลเชิงลึก

เครือข่ายที่ไม่พึงประสงค์แบบ Generative (GAN)

ระบบสร้างข้อมูลใหม่ซึ่งตัวสร้างจะสร้างข้อมูล และตัวแยกจะระบุว่าข้อมูลที่สร้างขึ้นนั้นถูกต้องหรือไม่

ดูหลักสูตร Generative Adversarial Networks เพื่อดูข้อมูลเพิ่มเติม

Generative AI

#language
#image
#generativeAI

ช่องที่กำลังเปลี่ยนรูปแบบใหม่ซึ่งไม่มีคำจำกัดความอย่างเป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่เห็นด้วยว่าโมเดล Generative AI สามารถ สร้าง ("สร้าง") เนื้อหาที่มีลักษณะต่อไปนี้ทั้งหมด

  • ซับซ้อน
  • สอดคล้องกัน
  • เดิม

ตัวอย่างเช่น โมเดล Generative AI สามารถสร้างความซับซ้อน เรียงความหรือรูปภาพ

เทคโนโลยีบางรุ่นก่อนหน้านี้ รวมถึง LSTMs และ RNN ยังสามารถสร้างต้นฉบับและ ที่สอดคล้องกัน ผู้เชี่ยวชาญบางคนมองว่าเทคโนโลยียุคแรกๆ เหล่านี้เป็น Generative AI ขณะที่ผู้เชี่ยวชาญอีกกลุ่มหนึ่งเชื่อว่า Generative AI ที่แท้จริงต้องใช้เอาต์พุตที่ซับซ้อนกว่าที่เทคโนโลยียุคแรกๆ เหล่านั้นจะผลิตได้

ตรงข้ามกับ ML เชิงคาดการณ์

โมเดล Generative

ในทางปฏิบัติ โมเดลที่มีลักษณะอย่างใดอย่างหนึ่งต่อไปนี้

  • สร้าง (สร้าง) ตัวอย่างใหม่จากชุดข้อมูลการฝึก เช่น โมเดล Generative อาจสร้างบทกวีได้หลังจากฝึกกับชุดข้อมูลบทกวี ส่วนโปรแกรมสร้างของ เครือข่ายป้องกันปัญหาที่สร้างขึ้น ก็จัดอยู่ในหมวดหมู่นี้
  • พิจารณาความน่าจะเป็นที่ตัวอย่างใหม่มาจาก หรือสร้างขึ้นจากกลไกเดียวกับที่สร้าง ชุดการฝึก ตัวอย่างเช่น หลังจากการฝึกอบรม ชุดข้อมูลที่ประกอบด้วยประโยคภาษาอังกฤษ โมเดล Generative สามารถ พิจารณาความน่าจะเป็นที่ข้อมูลใหม่จะเป็นประโยคภาษาอังกฤษที่ถูกต้อง

ในทางทฤษฎีแล้ว โมเดล Generative สามารถแยกแยะการแจกแจงตัวอย่างหรือฟีเจอร์ที่เฉพาะเจาะจงในชุดข้อมูลได้ โดยการ

p(examples)

โมเดลการเรียนรู้ที่ไม่มีการควบคุมดูแลเป็นแบบ Generative

ตัดกับรูปแบบที่ไม่แบ่งแยก

โปรแกรมสร้างแผนผังไซต์

ระบบย่อยภายในเครือข่าย Generative Adversarial ที่สร้างตัวอย่างใหม่

ตรงข้ามกับรูปแบบการระบุแหล่งที่มาแบบเจาะจง

ความไม่บริสุทธิ์ของจีนี

#df

เมตริกที่คล้ายกับเอนโทรปี ตัวแยกใช้ค่าที่มาจากความไม่บริสุทธิ์ของ Gini หรือเอนโทรปีเพื่อสร้างเงื่อนไขสําหรับการจัดประเภทต้นไม้การตัดสินใจ ข้อมูลที่ได้รับมาจากเอนโทรปี ไม่มีคำศัพท์ที่เทียบเท่าซึ่งเป็นที่ยอมรับกันทั่วโลกสำหรับเมตริกที่ดึงมา จากความไม่บริสุทธิ์ของจีน แต่เมตริกที่ไม่มีชื่อนี้ก็มีความสำคัญพอๆ กับ ข้อมูลที่ได้รับ

ความไม่บริสุทธิ์ของจีน (Gini) เรียกอีกอย่างว่าดัชนีจินี หรือเรียกง่ายๆ ว่า จินี

ชุดข้อมูล Golden

ชุดข้อมูลที่ดูแลจัดการด้วยตนเองซึ่งบันทึกข้อมูลจากการสังเกตการณ์โดยตรง ทีมสามารถใช้ชุดข้อมูลโกลด์อย่างน้อย 1 ชุดเพื่อประเมินคุณภาพของโมเดล

ชุดข้อมูลโกลด์บางชุดจะจับภาพโดเมนย่อยที่แตกต่างกันของข้อมูลจริง เช่น ข้อมูลชุดทองสำหรับการแยกประเภทรูปภาพอาจจับภาพสภาพแสงและความละเอียดของรูปภาพ

GPT (Generative Pre-trained Transformer)

#language

ตระกูลโมเดลภาษาขนาดใหญ่ที่อิงตาม Transformer ซึ่งพัฒนาโดย OpenAI

รูปแบบ GPT สามารถใช้กับรูปแบบต่างๆ ได้ ซึ่งรวมถึง

  • การสร้างรูปภาพ (เช่น ImageGPT)
  • การสร้างรูปภาพจากข้อความ (เช่น DALL-E)

ไล่ระดับสี

เวกเตอร์ของอนุพันธ์บางส่วนที่เกี่ยวข้องกับ ตัวแปรอิสระทั้งหมด ในแมชชีนเลิร์นนิง การไล่ระดับสีคือ เวกเตอร์ของอนุพันธ์ย่อยของฟังก์ชันโมเดล เส้นลาดจะชี้ไปในทิศทางของการขึ้นที่ชันที่สุด

การไล่ระดับสีสะสม

เทคนิคBackpropagation ที่อัปเดตพารามิเตอร์เพียงครั้งเดียวต่อยุคแทนที่จะอัปเดตครั้งเดียวต่อการวนซ้ำ หลังการประมวลผล มินิแบตช์ แต่ละรายการ การไล่ระดับสี "การสะสม" จะเป็นการอัปเดตจำนวนการไล่ระดับสีทั้งหมดที่ทำงานอยู่ จากนั้น ประมวลผลมินิแบตช์ล่าสุดใน Epoch จากนั้นระบบจะอัปเดต พารามิเตอร์ที่ขึ้นอยู่กับจำนวนการเปลี่ยนแปลงการไล่ระดับสีทั้งหมด

การสะสม Gradient จะมีประโยชน์เมื่อขนาดกลุ่มมีขนาดใหญ่มากเมื่อเทียบกับปริมาณหน่วยความจําที่ใช้ได้สําหรับการฝึก เมื่อหน่วยความจําเป็นปัญหา แนวโน้มโดยปกติคือการลดขนาดกลุ่ม อย่างไรก็ตาม การลดขนาดกลุ่มใน Backpropagation ปกติจะเพิ่มขึ้น จำนวนการอัปเดตพารามิเตอร์ การสะสม Gradient ช่วยให้โมเดลหลีกเลี่ยงปัญหาเกี่ยวกับหน่วยความจําได้ แต่ก็ยังคงฝึกได้อย่างมีประสิทธิภาพ

ต้นไม้ (การตัดสินใจ) ที่เพิ่มประสิทธิภาพด้วย Gradient (GBT)

#df

ป่าการตัดสินใจประเภทหนึ่งซึ่งมีลักษณะดังนี้

ดูข้อมูลเพิ่มเติมเกี่ยวกับต้นไม้การตัดสินใจที่มีการเพิ่มประสิทธิภาพด้วย Gradient ในหลักสูตรป่าการตัดสินใจ

การบูสต์ด้วย Gradient

#df

อัลกอริทึมการฝึกที่ฝึกโมเดลที่มีประสิทธิภาพต่ำเพื่อปรับปรุงคุณภาพ (ลดการสูญเสีย) ของโมเดลที่มีประสิทธิภาพสูงซ้ำๆ ตัวอย่างเช่น โมเดลที่ไม่มีประสิทธิภาพอาจจะเป็นโมเดลแผนผังการตัดสินใจแบบเชิงเส้นหรือขนาดเล็กก็ได้ โมเดลที่มีประสิทธิภาพจะกลายเป็นผลรวมของโมเดลที่อ่อนแอซึ่งผ่านการฝึกก่อนหน้านี้ทั้งหมด

ในรูปแบบที่ง่ายที่สุดของการเพิ่มประสิทธิภาพด้วย Gradient Boosting จะมีการนําโมเดลที่มีประสิทธิภาพต่ำไปฝึกในแต่ละรอบเพื่อคาดการณ์ Gradient ของการสูญเสียของโมเดลที่มีประสิทธิภาพสูง จากนั้นระบบจะอัปเดตเอาต์พุตของโมเดลที่มีประสิทธิภาพสูงโดยการลบอนุพันธ์ที่คาดการณ์ไว้ ซึ่งคล้ายกับการลดอนุพันธ์

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

โดยมี

  • $F_{0}$ คือรูปแบบที่มีประสิทธิภาพในช่วงแรก
  • $F_{i+1}$ คือโมเดลที่มีประสิทธิภาพสูงสุดถัดไป
  • $F_{i}$ เป็นโมเดลที่แข็งแกร่งในปัจจุบัน
  • $\xi$ คือค่าระหว่าง 0.0 ถึง 1.0 ที่เรียกว่า การหดตัว ซึ่งเปรียบได้กับ อัตราการเรียนรู้ใน การไล่ระดับสี
  • $f_{i}$ คือโมเดลที่มีประสิทธิภาพต่ำซึ่งได้รับการฝึกให้คาดการณ์อนุพันธ์ของ Loss ของ $F_{i}$

รูปแบบสมัยใหม่ของการเพิ่มประสิทธิภาพด้วย Gradient Boosting ยังรวมอนุพันธ์ที่ 2 (Hessian) ของการสูญเสียไว้ในการคำนวณด้วย

แผนผังการตัดสินใจมักใช้เป็นโมเดลที่ไม่มีประสิทธิภาพใน การเพิ่มการไล่ระดับสี โปรดดู ต้นไม้ที่เพิ่มระดับ (การตัดสินใจ) ในการไล่ระดับสี

การตัดเฉดสี

#seq

กลไกที่ใช้กันโดยทั่วไปเพื่อบรรเทาปัญหาการเพิ่มขึ้นของ Gradient คือการจํากัด (การตัด) ค่าสูงสุดของ Gradient โดยใช้การลด Gradient เพื่อฝึกโมเดล

การลดค่าของ Gradient

#fundamentals

เทคนิคทางคณิตศาสตร์เพื่อลดการสูญเสีย วิธีการลดเชิงลาดจะปรับน้ำหนักและค่ากําหนดล่วงหน้าซ้ำๆ เพื่อค้นหาการผสมผสานที่ดีที่สุดเพื่อลดการสูญเสีย

การไล่ระดับสีเป็นค่าที่เก่ากว่าแมชชีนเลิร์นนิงมาก

โปรดดูการถดถอยเชิงเส้น: การไล่ระดับสี descent ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

กราฟ

#TensorFlow

ใน TensorFlow ข้อมูลจำเพาะการประมวลผล โหนดในกราฟแสดงถึงการดำเนินการ ขอบเป็นเส้นตรงและแสดงถึงการส่งผลลัพธ์ ของการดำเนินการ (Tensor) ในรูปแบบ ตัวถูกดำเนินการอื่น ใช้ TensorBoard เพื่อแสดงภาพกราฟ

Graph Execution

#TensorFlow

สภาพแวดล้อมการเขียนโปรแกรม TensorFlow ที่โปรแกรมสร้างเป็นครั้งแรก กราฟ แล้วดำเนินการกับกราฟนั้นทั้งหมดหรือบางส่วน การดำเนินการของกราฟเป็นโหมดการดำเนินการเริ่มต้นใน TensorFlow 1.x

แตกต่างจากการดำเนินการแบบตั้งใจ

นโยบายการแสวงหาประโยชน์

#rl

ในการเรียนรู้ด้วยการทำซ้ำ นโยบายที่เลือกการดำเนินการที่มีผลตอบแทนที่คาดไว้สูงสุดเสมอ

ข้อมูลที่เป็นความจริง

#fundamentals

เรียลลิตี้

สิ่งที่เกิดขึ้นจริง

ตัวอย่างเช่น ลองพิจารณาการจัดประเภทแบบไบนารี โมเดลที่คาดการณ์ว่านักศึกษากำลังเข้ามหาวิทยาลัยในปีแรก จะสำเร็จการศึกษาภายใน 6 ปี ข้อมูลจากการสังเกตการณ์โดยตรงสําหรับโมเดลนี้คือนักเรียนคนนั้นจบการศึกษาภายใน 6 ปีจริงหรือไม่

ความลำเอียงในการระบุแหล่งที่มาของกลุ่ม

#fairness

สมมติว่าสิ่งที่เป็นจริงสำหรับบุคคลหนึ่งก็เป็นจริงสำหรับทุกคนเช่นกัน ในกลุ่มนั้น ผลจากความลำเอียงในการระบุแหล่งที่มาของกลุ่มอาจทำให้รุนแรงขึ้นได้ หากเป็นการสุ่มตัวอย่างตามความสะดวก เพื่อเก็บรวบรวมข้อมูล ในตัวอย่างที่ไม่เป็นไปตามข้อกำหนด อาจมีการระบุแหล่งที่มาที่ไม่ตรงกับความเป็นจริง

ดูข้อมูลเพิ่มเติมที่อคติแบบนอกกลุ่มซึ่งกันและกัน และอคติในกลุ่ม นอกจากนี้ โปรดดูข้อมูลเพิ่มเติมจากหัวข้อความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

H

อาการหลอน

#language

การสร้างเอาต์พุตที่ดูน่าเชื่อถือแต่ข้อเท็จจริงไม่ถูกต้องโดยโมเดล Generative AI ที่อ้างว่ากำลังกล่าวอ้างเกี่ยวกับโลกแห่งความเป็นจริง ตัวอย่างเช่น โมเดล Generative AI ที่อ้างว่าบารัก โอบามาเสียชีวิตในปี 1865 ความไม่สมเหตุสมผล

การแฮช

ในแมชชีนเลิร์นนิง กระบวนการเก็บข้อมูล ข้อมูลเชิงหมวดหมู่ โดยเฉพาะอย่างยิ่งเมื่อตัวเลข ของหมวดหมู่ มีขนาดใหญ่ แต่จำนวนของหมวดหมู่ที่ปรากฏ ในชุดข้อมูลนั้นค่อนข้างเล็ก

ตัวอย่างเช่น Earth เป็นที่อยู่อาศัยของต้นไม้ประมาณ 73,000 ชนิด คุณสามารถ แสดงพันธุ์ไม้แต่ละชนิด 73,000 ชนิดใน 73,000 ชนิดแยกกัน ใหม่ หรือหากมีต้นไม้ชนิดนั้นเพียง 200 ชนิดปรากฏ ในชุดข้อมูล คุณอาจใช้แฮชชิงเพื่อแบ่งชนิดของต้นไม้เป็น อาจมีที่เก็บข้อมูล 500 รายการ

ถังเดียวอาจมีต้นไม้หลายชนิด เช่น การแฮชอาจจัดให้ต้นบาโอบาและต้นเมเปิลสีแดง ซึ่งเป็น 2 สายพันธุ์ที่แตกต่างกันทางพันธุกรรมไว้ในที่เก็บข้อมูลเดียวกัน อย่างไรก็ตาม การแฮชก็ยังเป็นวิธีที่ดีในการ จับคู่ชุดกลุ่มใหญ่กับที่เก็บข้อมูลจำนวนหนึ่งที่เลือก การแฮชจะเปลี่ยนฟีเจอร์เชิงหมวดหมู่ซึ่งมีค่าที่เป็นไปได้จํานวนมากให้มีค่าจํานวนน้อยลงมากโดยการจัดกลุ่มค่าในลักษณะที่แน่นอน

ดูข้อมูลเพิ่มเติมในข้อมูลเชิงหมวดหมู่: พจนานุกรมและการเข้ารหัสแบบฮอตเวิร์กในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การเรียนรู้

โซลูชันที่ใช้งานง่ายและรวดเร็วในการแก้ปัญหา เช่น "เรามีความแม่นยำ 86% เมื่อใช้วิธีการเฮิวริสติก เมื่อเราเปลี่ยนไปใช้ โครงข่ายระบบประสาทเทียมระดับลึก ความแม่นยำก็เพิ่มขึ้นถึง 98%"

เลเยอร์ที่ซ่อนอยู่

#fundamentals

เลเยอร์ในเครือข่ายประสาทเทียมระหว่างเลเยอร์อินพุต (ฟีเจอร์) กับเลเยอร์เอาต์พุต (การคาดการณ์) เลเยอร์ที่ซ่อนอยู่แต่ละเลเยอร์ประกอบด้วยเซลล์ประสาทอย่างน้อย 1 เซลล์ ตัวอย่างเช่น เครือข่ายประสาทต่อไปนี้มีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ โดยเลเยอร์แรกมีเซลล์ประสาท 3 เซลล์ และเลเยอร์ที่ 2 มีเซลล์ประสาท 2 เซลล์

4 เลเยอร์ เลเยอร์แรกคือเลเยอร์อินพุตที่มี
          ใหม่ๆ เลเยอร์ที่สองคือเลเยอร์ที่ซ่อนอยู่ซึ่งมี
          เซลล์ประสาท ชั้นที่ 3 เป็นชั้นที่ซ่อนอยู่ซึ่งมีเซลล์ประสาท 2 เซลล์ เลเยอร์ที่ 4 คือเลเยอร์เอาต์พุต แต่ละฟีเจอร์
          มีขอบ 3 ด้าน แต่ละเส้นนำไปยังเซลล์ประสาทที่ต่างกัน
          ในเลเยอร์ที่สอง เซลล์ประสาทแต่ละเซลล์ในชั้นที่ 2
          มีขอบ 2 ด้าน แต่ละเส้นนำไปยังเซลล์ประสาทที่ต่างกัน
          ในเลเยอร์ที่ 3 เซลล์ประสาทแต่ละเซลล์ในชั้นที่ 3 จะมีขอบ 1 เส้นซึ่งชี้ไปยังชั้นเอาต์พุต

โครงข่ายประสาทแบบลึกมีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 เลเยอร์ ตัวอย่างเช่น ภาพก่อนหน้าคือเครือข่ายประสาทเทียม (Deep Neural Network) เนื่องจากโมเดลมีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์

ดูข้อมูลเพิ่มเติมได้ที่โครงข่ายประสาท: โหนดและเลเยอร์ที่ซ่อนอยู่ในบทแนะนำเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

การจัดกลุ่มตามลําดับชั้น

#clustering

หมวดหมู่อัลกอริทึมการจัดกลุ่มที่สร้างลําดับชั้นของคลัสเตอร์ การจัดกลุ่มแบบลำดับชั้นเหมาะกับข้อมูลตามลำดับชั้น เช่น การจัดหมวดหมู่พฤกษศาสตร์ อัลกอริทึมการจัดกลุ่มตามลําดับชั้นมี 2 ประเภท ได้แก่

  • การคลัสเตอร์แบบรวมกลุ่มจะกำหนดตัวอย่างทั้งหมดไปยังคลัสเตอร์ของตัวเองก่อน จากนั้นจะผสานคลัสเตอร์ที่ใกล้เคียงที่สุดซ้ำๆ เพื่อสร้างต้นไม้ตามลําดับชั้น
  • คลัสเตอร์แบบแยกจะจัดกลุ่มตัวอย่างทั้งหมดเป็นคลัสเตอร์เดียวก่อน จากนั้นจึงแบ่งคลัสเตอร์ออกเป็นต้นไม้ตามลําดับชั้นซ้ำๆ

ตรงข้ามกับการจัดกลุ่มตามจุดศูนย์กลางมวล

ดูข้อมูลเพิ่มเติมเกี่ยวกับอัลกอริทึมการจัดกลุ่มในหลักสูตรการจัดกลุ่ม

บานพับขาด

ตระกูลฟังก์ชันการสูญเสียสําหรับการจัดประเภทที่ออกแบบมาเพื่อค้นหาขอบเขตการตัดสินให้อยู่ห่างจากตัวอย่างการฝึกแต่ละรายการมากที่สุด ด้วยเหตุนี้จึงเพิ่มระยะห่างระหว่างตัวอย่างกับขอบเขตให้มากที่สุด KSVM ใช้การสูญเสียแบบ hinge (หรือฟังก์ชันที่เกี่ยวข้อง เช่น การสูญเสียแบบ hinge ยกกำลัง 2) สำหรับการจัดประเภทแบบไบนารี ฟังก์ชันการสูญเสียบานพับ มีคำจำกัดความดังนี้

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

โดยที่ y คือป้ายกำกับจริง ซึ่งอาจเป็น -1 หรือ +1 และ y' คือเอาต์พุตดิบ ของรูปแบบตัวแยกประเภท

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ดังนั้น ผังความสูญเสียของ hinge เทียบกับ (y * y') จะมีลักษณะดังนี้

พล็อตคาร์ทีเซียนที่ประกอบด้วยเส้นแบ่ง 2 ส่วน แท็ก
          ของเส้นตรงเริ่มต้นที่ (-3, 4) และสิ้นสุดที่ (1, 0) ส่วนเส้นที่ 2 เริ่มต้นที่ (1, 0) และต่อเนื่องไปอย่างไม่มีที่สิ้นสุดด้วยความชัน 0

อคติจากข้อมูลที่ผ่านมา

#fairness

อคติประเภทหนึ่งที่มีอยู่แล้วในโลกและมี ได้กลายเป็นชุดข้อมูล อคติเหล่านี้มีแนวโน้มที่จะสะท้อนถึง การเหมารวมทางวัฒนธรรม ความไม่เสมอภาคทางประชากร และอคติที่มีต่อบางอย่าง กลุ่มโซเชียลต่างๆ

ตัวอย่างเช่น ลองพิจารณาโมเดลการจัดประเภทที่ คาดการณ์ว่าผู้สมัครสินเชื่อจะผิดนัดชำระหนี้ ซึ่ง ซึ่งได้รับการฝึกอบรมเกี่ยวกับข้อมูลเริ่มต้นสินเชื่อในอดีตจากช่วงทศวรรษ 1980 จากธนาคารท้องถิ่นใน ชุมชนต่างๆ หากอดีตผู้สมัครจากชุมชน A มีจำนวนมากกว่า 6 เท่า มีแนวโน้มที่จะขอสินเชื่อมากกว่าผู้สมัครจากชุมชน B ซึ่งเป็นโมเดล อาจได้เรียนรู้ถึงอคติที่ผ่านมา ซึ่งส่งผลให้โมเดลมีแนวโน้มที่จะ อนุมัติเงินกู้ในชุมชน A แม้ว่าเงื่อนไขที่ผ่านมาจะส่งผล ในอัตราเริ่มต้นที่สูงขึ้นของชุมชนนั้นไม่มีความเกี่ยวข้องอีกต่อไป

ดูข้อมูลเพิ่มเติมได้ในความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ข้อมูลกลุ่มควบคุม

ตัวอย่างที่ไม่ได้นํามาใช้โดยเจตนา ("เก็บไว้") ในระหว่างการฝึก ชุดข้อมูลที่ใช้ตรวจสอบและชุดข้อมูลทดสอบเป็นตัวอย่างของข้อมูลทดสอบ ข้อมูลการคงไว้ชั่วคราว ช่วยประเมินความสามารถของโมเดลในการนำเสนอข้อมูลทั่วไปกับข้อมูลอื่นนอกเหนือจาก ข้อมูลที่ได้รับการฝึก การสูญเสียสิทธิ์ ค่าประมาณของการสูญเสียจากชุดข้อมูลที่มองไม่เห็นมากกว่าการสูญเสียจาก ชุดการฝึกของคุณ

ผู้จัด

#TensorFlow
#GoogleCloud

เมื่อฝึกโมเดล ML ในชิปเร่งความเร็ว (GPU หรือ TPU) ส่วนของระบบที่ควบคุมทั้ง 2 รายการต่อไปนี้

  • ขั้นตอนโดยรวมของโค้ด
  • การดึงและการเปลี่ยนรูปแบบของไปป์ไลน์อินพุต

โฮสต์มักจะทำงานบน CPU ไม่ใช่ชิป Accelerator เวลา device จัดการ tensor ในอุปกรณ์ ชิปเร่ง

ไฮเปอร์พารามิเตอร์

#fundamentals

ตัวแปรที่คุณหรือบริการปรับแต่งไฮเปอร์พารามิเตอร์ ปรับในระหว่างการฝึกโมเดลต่อเนื่อง ตัวอย่างเช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์ คุณสามารถ ตั้งค่าอัตราการเรียนรู้เป็น 0.01 ก่อนเซสชันการฝึกอบรม 1 เซสชัน หากคุณ หากค่า 0.01 สูงเกินไป คุณอาจต้องตั้งค่าการเรียนรู้ ให้เป็น 0.003 สำหรับเซสชันการฝึกอบรมครั้งต่อไป

ในทางตรงกันข้าม พารามิเตอร์คือน้ำหนักและค่ากําหนดต่างๆ ที่โมเดลเรียนรู้ระหว่างการฝึก

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้น: ตัวแปรพหุนามในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ไฮเปอร์เพลน

ขอบเขตที่แบ่งพื้นที่ทำงานออกเป็น 2 พื้นที่ย่อย ตัวอย่างเช่น บรรทัดคือ ไฮเปอร์เพลนที่มี 2 มิติ และระนาบเป็นไฮเปอร์เพลนที่มี 3 มิติ ในแมชชีนเลิร์นนิง โดยทั่วไปแล้ว ฮิปเพอร์เพลนคือขอบเขตที่แยกพื้นที่สูงมิติ Kernel Support Vector Machine ใช้ Hyperplane เพื่อแยกคลาสเชิงบวกออกจากคลาสเชิงลบ ซึ่งมักจะอยู่ในพื้นที่มิติสูง

I

i.i.d.

ตัวย่อของเผยแพร่โดยอิสระและเหมือนกันทุกประการ

การรู้จำรูปภาพ

#image

กระบวนการจัดประเภทวัตถุ ลวดลาย หรือแนวคิดในรูปภาพ การจดจำรูปภาพยังเรียกอีกอย่างว่าการจัดประเภทรูปภาพ

สำหรับข้อมูลเพิ่มเติม โปรดดู แนวทางปฏิบัติ ML: การจัดประเภทรูปภาพ

ดูแนวทางปฏิบัติ ML: การจัดประเภทรูปภาพ หลักสูตร เพื่อดูข้อมูลเพิ่มเติม

ชุดข้อมูลที่ไม่สมดุล

คำพ้องความหมายของชุดข้อมูลที่มีกลุ่มไม่สมดุล

อคติโดยไม่รู้ตัว

#fairness

สร้างการเชื่อมโยงหรือสมมติฐานโดยอาศัยความคิดของผู้ใช้โดยอัตโนมัติ โมเดลและความทรงจำต่างๆ อคติโดยปริยายอาจส่งผลกระทบต่อสิ่งต่อไปนี้

  • วิธีรวบรวมและแยกประเภทข้อมูล
  • การออกแบบและการพัฒนาระบบแมชชีนเลิร์นนิง

เช่น เมื่อสร้างตัวแยกประเภทเพื่อระบุรูปภาพงานแต่งงาน วิศวกรอาจใช้ชุดสีขาวในรูปภาพเป็นฟีเจอร์ อย่างไรก็ตาม ชุดเดรสสีขาวเป็นธรรมเนียมปฏิบัติในบางยุคเท่านั้นและ ในบางวัฒนธรรม

ดูข้อมูลเพิ่มเติมที่การให้น้ำหนักพิเศษกับการยืนยัน

imputation

การคำนวณมูลค่าในรูปแบบสั้นๆ

ความไม่เข้ากันได้ของเมตริกความยุติธรรม

#fairness

แนวคิดที่ว่าแนวคิดบางอย่างเกี่ยวกับความยุติธรรมนั้นใช้ร่วมกันไม่ได้และไม่สามารถบรรลุพร้อมกัน ด้วยเหตุนี้ จึงไม่มีเมตริกที่เป็นสากลเพียงเมตริกเดียวสำหรับวัดความเป็นธรรมซึ่งใช้ได้กับปัญหา ML ทั้งหมด

แม้ว่าเรื่องนี้อาจฟังดูท้อแท้ แต่การที่เมตริกความยุติธรรมใช้ร่วมกันไม่ได้ไม่ได้หมายความว่าความพยายามด้านความยุติธรรมจะไร้ผล แต่แนะนําว่าต้องกําหนดความยุติธรรมตามบริบทสําหรับปัญหา ML หนึ่งๆ โดยมีเป้าหมายเพื่อป้องกันอันตรายที่เฉพาะเจาะจงสําหรับ Use Case นั้นๆ

ดูการอภิปรายหัวข้อนี้อย่างละเอียดได้ในบทความ"On the (im)possibility of fairness"

การเรียนรู้ในบริบท

#language
#generativeAI

คำพ้องความหมายของ Few-Shot Prompting

กระจายอย่างอิสระและเหมือนกันทุกประการ (i.i.d)

#fundamentals

ข้อมูลที่ดึงมาจากการแจกแจงที่ไม่เปลี่ยนแปลง และค่าแต่ละค่าที่ดึงมานั้นไม่ขึ้นอยู่กับค่าที่ดึงมาก่อนหน้านี้ รหัส คือก๊าซอุดมคติ ของเครื่อง การเรียนรู้—โครงสร้างทางคณิตศาสตร์ที่มีประโยชน์แต่แทบจะไม่เคยพบคำตอบที่แน่ชัด ในโลกแห่งความเป็นจริง เช่น การแจกแจงผู้เข้าชมหน้าเว็บอาจเป็นแบบ i.i.d. ในช่วงเวลาสั้นๆ กล่าวคือ การแจกแจงไม่เปลี่ยนแปลงในช่วงเวลาสั้นๆ นั้น และโดยทั่วไปการเข้าชมของบุคคลหนึ่งจะไม่เกี่ยวข้องกับการเข้าชมของอีกคนหนึ่ง แต่ถ้าคุณขยายกรอบเวลานั้น ความแตกต่างตามฤดูกาลในผู้เข้าชมหน้าเว็บอาจปรากฏขึ้น

โปรดดูความไม่เป็นเชิงเส้นด้วย

ความยุติธรรมต่อบุคคล

#fairness

เมตริกความเป็นธรรมที่ตรวจสอบว่ามีการจัดประเภทบุคคลธรรมดาที่คล้ายกันหรือไม่ คล้ายๆ กัน เช่น Brobdingnagian Academy อาจต้องการทำให้ ความเป็นธรรมของบุคคลโดยดูแลให้นักเรียน 2 คนที่มีคะแนนเท่ากัน และคะแนนสอบที่ได้มาตรฐานก็มีแนวโน้ม ที่จะรับนักศึกษาได้เท่าๆ กัน

โปรดทราบว่าความยุติธรรมของแต่ละบุคคลขึ้นอยู่กับวิธีที่คุณกำหนด "ความคล้ายคลึง" ทั้งหมด (ในกรณีนี้คือคะแนนและคะแนนสอบ) และคุณอาจเสี่ยงที่จะทำให้เกิดปัญหาความยุติธรรมใหม่ๆ หากเมตริกความคล้ายคลึงของคุณขาดข้อมูลสำคัญ (เช่น ความยากของหลักสูตรของนักเรียน)

ดูการพูดคุยเรื่องความยุติธรรมของแต่ละบุคคลอย่างละเอียดได้ที่"ความยุติธรรมผ่านความรู้"

การให้เหตุผล

#fundamentals

ในแมชชีนเลิร์นนิง กระบวนการทำนายโดยใช้โมเดลที่ผ่านการฝึกกับตัวอย่างที่ไม่มีป้ายกำกับ

ข้อมูลอนุมานมีความหมายที่แตกต่างออกไปในสถิติ ดูรายละเอียดได้ในบทความบทความใน Wikipedia เกี่ยวกับการอนุมานทางสถิติ

ดูการเรียนรู้ภายใต้การควบคุมดูแล ในหลักสูตรข้อมูลเบื้องต้นเกี่ยวกับ ML เพื่อดูบทบาทของการอนุมานในการควบคุมดูแล ระบบการเรียนรู้

เส้นทางการอนุมาน

#df

ในแผนผังการตัดสินใจ ระหว่างการอนุมาน เส้นทางที่ตัวอย่างหนึ่งๆ ใช้จาก root เป็น เงื่อนไข อื่นๆ โดยสิ้นสุดด้วย ใบไม้ ตัวอย่างเช่น ในแผนผังการตัดสินใจต่อไปนี้ ลูกศรที่หนาขึ้นแสดงเส้นทางการอนุมานสําหรับตัวอย่างที่มีค่าฟีเจอร์ดังต่อไปนี้

  • x = 7
  • y = 12
  • z = -3

เส้นทางอนุมานในภาพประกอบต่อไปนี้จะเคลื่อนผ่าน ก่อนที่จะถึงใบ (Zeta)

แผนผังการตัดสินใจที่ประกอบด้วยเงื่อนไข 4 ข้อและใบ 5 ใบ
          เงื่อนไขรูทคือ (x > 0) เนื่องจากคำตอบคือ &quot;ใช่&quot; เส้นทางการอนุมานจึงเดินทางจากรูทไปยังเงื่อนไขถัดไป (y > 0)
          เนื่องจากคำตอบคือ &quot;ใช่&quot; เส้นทางการอนุมานจึงไปยังเงื่อนไขถัดไป (z > 0) เนื่องจากคำตอบคือ &quot;ไม่&quot; เส้นทางการอนุมาน
          เดินทางไปที่โหนดเทอร์มินัล ซึ่งก็คือใบไม้ (Zeta)

ลูกศรหนา 3 เส้นแสดงเส้นทางการอนุมาน

ดูข้อมูลเพิ่มเติมเกี่ยวกับแผนผังการตัดสินใจในหลักสูตรป่าการตัดสินใจ

ข้อมูลที่ได้รับ

#df

ในกลุ่มการตัดสินใจ ความแตกต่างระหว่าง เอนโทรปีของโหนดและการถ่วงน้ำหนัก (ตามจำนวนตัวอย่าง) ผลรวมของเอนโทรปีของโหนดย่อย เอนโทรปีของโหนดคือเอนโทรปี ของตัวอย่างในโหนดนั้น

ตัวอย่างเช่น ลองพิจารณาค่าเอนโทรปีต่อไปนี้

  • เอนโทรปีของโหนดหลัก = 0.6
  • เอนโทรปีของโหนดย่อย 1 รายการที่มีตัวอย่างที่เกี่ยวข้อง 16 รายการ = 0.2
  • เอนโทรปีของโหนดย่อยอีกโหนดหนึ่งซึ่งมีตัวอย่างที่เกี่ยวข้อง 24 รายการ = 0.1

ดังนั้น 40% ของตัวอย่างอยู่ในโหนดย่อย 1 โหนดและ 60% อยู่ในโหนด โหนดย่อยอื่นๆ ดังนั้น

  • ผลรวมของเอนโทรปีถ่วงน้ำหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

ดังนั้น ข้อมูลที่ได้รับคือ

  • ข้อมูลที่ได้รับ = เอนโทรปีของโหนดหลัก - ผลรวมเอนโทรปีแบบถ่วงน้ำหนักของโหนดย่อย
  • ข้อมูลที่ได้รับ = 0.6 - 0.14 = 0.46

ผู้ดูแลส่วนใหญ่พยายามสร้างเงื่อนไข ซึ่งช่วยเพิ่มประสิทธิภาพในการได้รับข้อมูลสูงสุด

อคติต่อกลุ่มใน

#fairness

การลำเอียงเข้าข้างกลุ่มหรือลักษณะของตนเอง หากผู้ทดสอบหรือผู้ให้คะแนนเป็นเพื่อน ครอบครัว หรือเพื่อนร่วมงานของนักพัฒนาซอฟต์แวร์แมชชีนเลิร์นนิง ความลำเอียงในกลุ่มอาจทำให้การทดสอบผลิตภัณฑ์หรือชุดข้อมูลเป็นโมฆะ

ความลำเอียงภายในกลุ่มเป็นรูปแบบของความลำเอียงในการระบุแหล่งที่มาของกลุ่ม โปรดดูอคติความเหมือนกันของกลุ่มนอกด้วย

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ประเภทของอคติในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

เครื่องมือสร้างอินพุต

กลไกการโหลดข้อมูลเข้าไปใน โครงข่ายประสาท

โปรแกรมสร้างอินพุตอาจมองว่าเป็นองค์ประกอบที่มีหน้าที่ประมวลผล ข้อมูลดิบเป็น Tensor ซึ่งได้รับการทำซ้ำเพื่อสร้างกลุ่มสำหรับ การฝึกอบรม การประเมิน และการอนุมาน

เลเยอร์อินพุต

#fundamentals

เลเยอร์ของเครือข่ายประสาทเทียมที่มีเวกเตอร์องค์ประกอบ ซึ่งก็คือเลเยอร์อินพุต มีตัวอย่างสำหรับการฝึกอบรมหรือ การอนุมาน ตัวอย่างเช่น เลเยอร์อินพุตใน โครงข่ายระบบประสาทเทียมประกอบด้วย 2 ฟีเจอร์ ได้แก่

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

เงื่อนไขในเซ็ต

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขที่ทดสอบการมีอยู่ของรายการหนึ่งๆ ในชุดรายการ ตัวอย่างเช่น เงื่อนไขในชุดคำสั่งต่อไปนี้

  house-style in [tudor, colonial, cape]

ระหว่างการอนุมาน หากค่าของฟีเจอร์แบบบ้าน คือ tudor หรือ colonial หรือ cape เงื่อนไขนี้จะประเมินเป็น "ใช่" ถ้า ค่าของฟีเจอร์แบบบ้านคือสิ่งอื่นๆ (เช่น ranch) เงื่อนไขนี้จะประเมินเป็น "ไม่"

โดยทั่วไปแล้ว เงื่อนไขในชุดมักจะทําให้ต้นไม้การตัดสินใจมีประสิทธิภาพมากกว่าเงื่อนไขที่ทดสอบฟีเจอร์ที่เข้ารหัสแบบฮอตเวิร์ก

อินสแตนซ์

คำพ้องความหมายของ example

การปรับแต่งคำสั่ง

#generativeAI

รูปแบบการปรับแต่งแบบละเอียดที่ช่วยปรับปรุงความสามารถของโมเดล Generative AI ในการทําตามคําสั่ง การปรับแต่งการสอนเกี่ยวข้องกับการฝึกโมเดลในชุด ข้อความแจ้งวิธีการ โดยปกติจะครอบคลุม งานที่หลากหลาย โมเดลที่ปรับตามคำสั่งที่ได้จึงมีแนวโน้มที่จะสร้างคำตอบที่เป็นประโยชน์สำหรับพรอมต์แบบไม่ใช้ตัวอย่างในงานต่างๆ

เปรียบเทียบระหว่าง

ความสามารถในการตีความ

#fundamentals

ความสามารถในการอธิบายหรือนำเสนอการให้เหตุผลของโมเดล ML ใน ที่มนุษย์เข้าใจได้

ตัวอย่างเช่น โมเดลการถดถอยเชิงเส้นส่วนใหญ่มีความหมายสูง (คุณต้องดูน้ำหนักที่ฝึกสำหรับ feature.) ป่าการตัดสินใจยังตีความได้เป็นอย่างดีด้วย อย่างไรก็ตาม บางโมเดล ต้องอาศัยการแสดงผลที่ซับซ้อนเพื่อให้ตีความได้

คุณสามารถใช้เครื่องมือการตีความการเรียนรู้ (LIT)เพื่อตีความโมเดล ML

ความสอดคล้องกันระหว่างผู้ประเมิน

การวัดความถี่ที่เจ้าหน้าที่ตรวจสอบยอมรับเมื่อทํางาน หากผู้ตรวจสอบไม่เห็นด้วย คุณอาจต้องปรับปรุงวิธีการงาน บางครั้งเรียกว่าข้อตกลงระหว่างผู้เขียนคำอธิบายประกอบ หรือ ความเสถียรของราคาระหว่างผู้ใช้ (Inter-rater) ดูเพิ่มเติม ของโคเฮน kappa ซึ่งเป็นวิธีวัดข้อตกลงระหว่างผู้ประเมินราคาสูงสุดวิธีหนึ่งที่ได้รับความนิยมมากที่สุด

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงหมวดหมู่: ปัญหาที่พบได้ทั่วไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

Intersection over Union (IoU)

#image

อินเตอร์เซกชันของ 2 เซตหารด้วยสหภาพ ในภารกิจการตรวจจับภาพด้วยแมชชีนเลิร์นนิง ระบบจะใช้ IoU เพื่อวัดความแม่นยำของกรอบขอบเขตที่คาดการณ์ไว้ของโมเดลเทียบกับกรอบขอบเขตข้อมูลจากการสังเกตการณ์โดยตรง ในกรณีนี้ IoU สำหรับ 2 ช่องคืออัตราส่วนระหว่างพื้นที่ที่ทับซ้อนกันและพื้นที่ทั้งหมด และ ค่าจะอยู่ในช่วง 0 (ไม่มีการทับซ้อนกันของกรอบล้อมรอบที่คาดการณ์ไว้และข้อมูลจากภาคพื้นดิน กรอบล้อมรอบ) กับ 1 (กรอบล้อมรอบที่คาดการณ์ไว้และกรอบล้อมรอบสำหรับความจริงภาคพื้นดินมี พิกัดเดียวกัน)

ตัวอย่างเช่น ในรูปภาพด้านล่าง

  • กรอบขอบเขตที่คาดการณ์ (พิกัดที่กําหนดขอบเขตตำแหน่งที่โมเดลคาดการณ์ว่าโต๊ะข้างเตียงในภาพวาดอยู่) จะแสดงเป็นเส้นขอบสีม่วง
  • กรอบล้อมรอบสำหรับข้อมูลจากภาคพื้นดิน (พิกัดที่ระบุสถานที่กลางคืน ตารางในภาพวาดจะอยู่จริง) มีเส้นขอบเป็นสีเขียว

ภาพแวนโก๊ะวาดภาพ &quot;ห้องนอนของวินเซนต์&quot; ในอาร์ลส์ โดยมี 2 ภาพที่แตกต่างกัน
          กล่องล้อมรอบโต๊ะข้างเตียงข้างเตียง ข้อมูลที่เป็นความจริง
          กรอบล้อมรอบ (สีเขียว) จะล้อมรอบโต๊ะในค่ำคืนนั้นอย่างเหมาะเจาะ 
          กรอบล้อมรอบที่คาดการณ์ไว้ (สีม่วง) ถูกชดเชยลง 50% และไปทางขวา
          ของข้อมูลจากการสังเกตการณ์โดยตรง ล้อมรอบไตรมาสขวาล่าง
          อีกโต๊ะ แต่พลาดโต๊ะที่เหลือ

ในที่นี้ จุดตัดของกรอบขอบเขตสำหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างซ้าย) คือ 1 และสหภาพของกรอบขอบเขตสำหรับการคาดการณ์และข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างขวา) คือ 7 ดังนั้น IoU จึงเป็น \(\frac{1}{7}\)

รูปภาพเดียวกันกับด้านบน แต่แบ่งกรอบล้อมรอบแต่ละกรอบออกเป็น 4 ส่วน โดยรวมมีทั้งหมด 7 จตุภาค เนื่องจากจตุภาคด้านขวาล่างของกรอบล้อมรอบข้อมูลจากการสังเกตการณ์โดยตรงและจตุภาคด้านซ้ายบนของกรอบล้อมรอบที่คาดการณ์ไว้ซ้อนทับกัน ส่วนทับซ้อนนี้ (ไฮไลต์ด้วยสีเขียว) แสดงถึงจุดตัดและมีพื้นที่เท่ากับ 1 รูปภาพเดียวกันกับด้านบน แต่แบ่งกรอบล้อมรอบแต่ละกรอบออกเป็น 4 ส่วน มีทั้งหมด 7 จตุภาค ตามด้านขวาล่าง
          ควอแดรนท์ของกรอบล้อมรอบสำหรับความจริงภาคพื้นดินและด้านซ้ายบน
          จตุภาคของกรอบล้อมรอบที่คาดการณ์ไว้ทับซ้อนกัน
          พื้นที่ภายในทั้งหมดที่ล้อมรอบด้วยกรอบขอบทั้ง 2 รูป (ไฮไลต์ด้วยสีเขียว) แสดงถึงสหพันธ์ และมีเนื้อที่ 7

IoU

ตัวย่อของทางแยกเหนือสหภาพ

เมทริกซ์รายการ

#recsystems

ในระบบการแนะนำ หมายถึงเวกเตอร์การฝังซึ่งเป็นเมทริกซ์ที่สร้างขึ้นจากการแยกองค์ประกอบเมทริกซ์ซึ่งเก็บสัญญาณแฝงเกี่ยวกับรายการแต่ละรายการ แต่ละแถวของเมทริกซ์รายการจะเก็บค่าแฝงเดี่ยว สำหรับทุกรายการ ตัวอย่างเช่น ลองพิจารณาระบบการแนะนำภาพยนตร์ แต่ละคอลัมน์ในเมทริกซ์รายการจะแสดงภาพยนตร์ 1 เรื่อง สัญญาณแฝง อาจแสดงถึงประเภท หรืออาจตีความได้ยากขึ้น ที่เกี่ยวข้องกับการโต้ตอบที่ซับซ้อนระหว่างประเภท ดาว อายุของภาพยนตร์ หรือปัจจัยอื่นๆ

เมทริกซ์รายการมีจำนวนคอลัมน์เท่ากับเป้าหมาย เมทริกซ์ที่กำลังแยกตัวประกอบ ตัวอย่างเช่น ระบบแนะนำภาพยนตร์ที่ประเมินภาพยนตร์ 10,000 เรื่อง จะมีเมทริกซ์รายการ 10,000 คอลัมน์

รายการ

#recsystems

ในระบบการแนะนำ เอนทิตีที่ ที่ระบบแนะนำ เช่น วิดีโอคือสินค้าที่วิดีโอจัดเก็บ ขณะที่หนังสือคือรายการที่ร้านหนังสือแนะนำ

การทำซ้ำ

#fundamentals

การอัปเดตพารามิเตอร์โมเดล 1 ครั้ง ซึ่งก็คือ น้ำหนักและอคติ ระหว่าง การฝึกอบรม ขนาดกลุ่มจะกำหนด จำนวนตัวอย่างที่ประมวลผลโมเดลในการทำซ้ำครั้งเดียว ตัวอย่างเช่น หากขนาดกลุ่มคือ 20 โมเดลจะประมวลผลตัวอย่าง 20 รายการก่อน การปรับพารามิเตอร์

เมื่อฝึกโครงข่ายระบบประสาทเทียม การทำซ้ำ 1 ครั้งจะประกอบด้วย 2 รอบ ดังนี้

  1. การส่งต่อเพื่อประเมินการสูญเสียในบATCH เดียว
  2. การส่งย้อนหลัง (backpropagation) เพื่อปรับ พารามิเตอร์ของโมเดลตามการสูญเสียและอัตราการเรียนรู้

J

JAX

ไลบรารีการประมวลผลอาร์เรย์ ที่นำมารวมกัน XLA (Accelerated Linear Algebra) และการหาอนุพันธ์อัตโนมัติ เพื่อการประมวลผลตัวเลขประสิทธิภาพสูง JAX มอบโซลูชันที่เรียบง่ายและมีประสิทธิภาพ API สำหรับการเขียนโค้ดตัวเลขแบบเร่งพร้อมการแปลงที่ประกอบกันได้ JAX มีฟีเจอร์ต่างๆ เช่น

  • grad (การแยกความแตกต่างโดยอัตโนมัติ)
  • jit (การคอมไพล์แบบทันท่วงที)
  • vmap (การเปลี่ยนเป็นเวกเตอร์หรือการจัดกลุ่มอัตโนมัติ)
  • pmap (การขนานการทำงาน)

JAX เป็นภาษาสําหรับแสดงและประกอบการเปลี่ยนรูปแบบของโค้ดเชิงตัวเลข ซึ่งคล้ายกับไลบรารี NumPy ของ Python แต่มีขอบเขตกว้างกว่ามาก (อันที่จริงแล้ว ไลบรารี .numpy ใน JAX มีฟังก์ชันการทำงานเทียบเท่า แต่เขียนใหม่ทั้งหมดจากไลบรารี NumPy ของ Python)

JAX เหมาะอย่างยิ่งสำหรับการเร่งงานแมชชีนเลิร์นนิงจำนวนมาก โดยเปลี่ยนรูปแบบโมเดลและข้อมูลให้อยู่ในรูปแบบที่เหมาะสำหรับการทำงานควบคู่กันไป ในชิป Accelerator ของ GPU และ TPU

ไลบรารี Flax, Optax, Pax และอื่นๆ อีกมากมายสร้างขึ้นบนโครงสร้างพื้นฐาน JAX

K

Keras

Python Machine Learning API ที่ได้รับความนิยม Keras ทำงานบนเฟรมเวิร์กการเรียนรู้เชิงลึกหลายเฟรมเวิร์ก รวมถึง TensorFlow ซึ่งจะพร้อมใช้งานเป็น tf.keras

เครื่อง Kernel Support Vector (KSVM)

อัลกอริทึมการจัดประเภทที่พยายามเพิ่มระยะห่างระหว่างคลาสเชิงบวกและคลาสเชิงลบให้มากที่สุดโดยการแมปเวกเตอร์ข้อมูลอินพุตไปยังพื้นที่เชิงมิติที่สูงกว่า เช่น ลองพิจารณาการจัดหมวดหมู่ ที่ชุดข้อมูลอินพุต มีฟีเจอร์เป็นร้อย KSVM สามารถจับคู่องค์ประกอบเหล่านั้นภายในเป็นพื้นที่ 1 ล้านมิติข้อมูลเพื่อเพิ่มระยะห่างระหว่างคลาสเชิงบวกและเชิงลบให้มากที่สุด KSVM ใช้ฟังก์ชันการสูญเสียที่เรียกว่า การสูญเสียบานพับ

ประเด็นสำคัญ

#image

พิกัดขององค์ประกอบบางอย่างในรูปภาพ เช่น สำหรับโมเดลการจดจำรูปภาพที่แยกแยะพันธุ์ดอกไม้ จุดสังเกตอาจเป็นจุดศูนย์กลางของกลีบแต่ละกลีบ ลำต้น เกสร และอื่นๆ

การทดสอบไขว้แบบ k-fold

อัลกอริทึมสำหรับการคาดการณ์ความสามารถของโมเดลในการ ทั่วไปกับข้อมูลใหม่ ส่วน k ใน k- Fold หมายถึง จำนวนกลุ่มที่เท่ากันที่คุณแบ่งตัวอย่างของชุดข้อมูลออก ซึ่งก็คือการฝึก และทดสอบโมเดล k ครั้ง ในแต่ละรอบของการฝึกและทดสอบ จะมีกลุ่มอื่นเป็นชุดทดสอบ และกลุ่มที่เหลือทั้งหมดจะเป็นชุดการฝึก หลังจากการฝึกและทดสอบ k รอบแล้ว คุณจะคํานวณค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของเมตริกการทดสอบที่เลือก

เช่น สมมติว่าชุดข้อมูลประกอบด้วยตัวอย่าง 120 รายการ สมมติว่า คุณตัดสินใจตั้ง k เป็น 4 ดังนั้นหลังจากสับตัวอย่างแล้ว ให้แบ่งชุดข้อมูลออกเป็น 4 กลุ่มเท่าๆ กันโดยแต่ละกลุ่มมี 30 ตัวอย่าง แล้วทำการฝึกและทดสอบ 4 รอบ ดังนี้

ชุดข้อมูลแบ่งออกเป็น 4 กลุ่มตัวอย่างเท่าๆ กัน ในรอบที่ 1
          จะใช้ 3 กลุ่มแรกสำหรับการฝึกและกลุ่มสุดท้าย
          ใช้สำหรับการทดสอบ ในรอบที่ 2 จะมีการใช้กลุ่มแรก 2 กลุ่มและกลุ่มสุดท้ายเพื่อการฝึกอบรม ส่วนกลุ่มที่ 3 จะใช้เพื่อทดสอบ ในรอบที่ 3 กลุ่มแรกและ 2 กลุ่มสุดท้ายจะใช้สำหรับการฝึกอบรม ส่วนกลุ่มที่ 2 จะใช้สำหรับทดสอบ
          ในรอบที่ 4 กลุ่มแรกจะใช้สำหรับการทดสอบ ขณะที่รอบสุดท้าย
          จะใช้เพียง 3 กลุ่มสำหรับการฝึก

เช่น ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (MSE) อาจ เป็นเมตริกที่มีความหมายมากที่สุดสำหรับโมเดลการถดถอยเชิงเส้น คุณจึงจะพบค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของ MSE ใน 4 รอบ

K-means

#clustering

อัลกอริทึม clustering ยอดนิยมที่จัดกลุ่มตัวอย่าง ในการเรียนรู้แบบไม่มีการควบคุมดูแล โดยทั่วไปแล้ว อัลกอริทึม k-means จะทำสิ่งต่อไปนี้

  • กำหนดจุดศูนย์กลาง k จุดที่ดีที่สุด (เรียกว่าจุดศูนย์กลางมวล) ซ้ำๆ
  • กำหนดแต่ละตัวอย่างให้กับเซนทรอยด์ที่ใกล้ที่สุด ตัวอย่างซึ่งอยู่ใกล้ที่สุด เซนทรอยด์เดียวกันอยู่ในกลุ่มเดียวกัน

อัลกอริทึม K-Means จะเลือกตำแหน่งจุดศูนย์กลางเพื่อลดค่าสะสมของสี่เหลี่ยมจัตุรัสของระยะทางจากตัวอย่างแต่ละรายการไปยังจุดศูนย์กลางที่ใกล้ที่สุด

ตัวอย่างเช่น ลองดูผังความสูงของสุนัขเทียบกับความกว้างของสุนัขต่อไปนี้

พล็อตคาร์ทีเซียนที่มีจุดข้อมูลหลายสิบจุด

ถ้า k=3 อัลกอริทึม k-means จะกำหนดเซนทรอยด์ 3 เซนทรอยด์ ระบบจะกําหนดตัวอย่างแต่ละรายการให้กับจุดศูนย์กลางที่ใกล้ที่สุด ซึ่งจะให้กลุ่ม 3 กลุ่มดังนี้

ผังพิกัดคาร์ทีเซียนเดียวกับในภาพก่อนหน้า ยกเว้นว่ามีการเพิ่มจุดศูนย์กลาง 3 จุด
          ระบบจะจัดกลุ่มจุดข้อมูลก่อนหน้าออกเป็น 3 กลุ่มที่แยกกัน โดยแต่ละกลุ่มจะแสดงจุดข้อมูลที่ใกล้กับจุดศูนย์กลางหนึ่งๆ มากที่สุด

สมมติว่าผู้ผลิตต้องการกำหนดขนาดที่เหมาะสมสำหรับเสื้อสเวตเตอร์ขนาดเล็ก กลาง และใหญ่สำหรับสุนัข ศูนย์กลาง 3 จุดจะระบุความสูงและค่าเฉลี่ยความกว้างของสุนัขแต่ละตัวในคลัสเตอร์นั้น ดังนั้น ผู้ผลิตจึงควรกำหนดขนาดเสื้อสเวตเตอร์ตามจุดศูนย์กลางมวล 3 จุดดังกล่าว โปรดทราบว่าโดยปกติแล้ว จุดศูนย์กลางของคลัสเตอร์ไม่ใช่ตัวอย่างในคลัสเตอร์

ภาพประกอบก่อนหน้านี้แสดง K-Means สำหรับตัวอย่างที่มีเพียง 2 องค์ประกอบ (ความสูงและความกว้าง) โปรดทราบว่า k-means สามารถจัดกลุ่มตัวอย่างได้ ผ่านฟีเจอร์มากมาย

ค่ามัธยฐานแบบ K

#clustering

อัลกอริทึมการจัดกลุ่มเกี่ยวข้องอย่างใกล้ชิดกับ k-means ความแตกต่างในทางปฏิบัติระหว่างทั้ง 2 แบบมีดังนี้

  • ใน k-means ระบบจะกำหนดจุดศูนย์กลางโดยการลดผลรวมของกำลังสองของระยะทางระหว่างจุดศูนย์กลางที่เป็นไปได้กับตัวอย่างแต่ละรายการ
  • ในค่ามัธยฐาน k เซนทรอยด์จะกําหนดโดยการลดผลรวมของค่า ระยะห่างระหว่างตัวเลือกเซนทรอยด์และตัวอย่างแต่ละรายการ

โปรดทราบว่าคำจำกัดความของระยะทางก็แตกต่างกันดังนี้

  • k-means ต้องอาศัย ระยะทางแบบยุคลิดจาก เซนทรอยด์ไปยังตัวอย่าง (ใน 2 มิติ ยุคลิด ระยะทาง หมายถึง การใช้ทฤษฎีบทพีทาโกรัสเพื่อคำนวณ ด้านตรงข้ามมุมฉาก) เช่น ระยะทาง k หมายถึงระหว่าง (2,2) และ (5,-2) จะเป็น
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • ค่ามัธยฐาน k อาศัย ระยะทางในแมนฮัตตัน จากจุดศูนย์กลางไปยังตัวอย่าง ระยะทางนี้คือผลรวมของค่า Delta สัมบูรณ์ในแต่ละมิติข้อมูล เช่น ค่ามัธยฐาน k ระยะทางระหว่าง (2,2) และ (5,-2) จะเท่ากับ
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

การกำหนดกฎ L0

#fundamentals

การถ่วงน้ำหนักประเภทหนึ่งที่ลงโทษจํานวนทั้งหมดของน้ำหนักที่ไม่ใช่ 0 ในโมเดล เช่น โมเดลที่มีน้ำหนักที่ไม่ใช่ 0 จำนวน 11 รายการจะได้รับค่าปรับมากกว่าโมเดลที่คล้ายกันซึ่งมีน้ำหนักที่ไม่ใช่ 0 จำนวน 10 รายการ

บางครั้งการถ่วงน้ำหนัก L0 เรียกว่าการถ่วงน้ำหนักตาม L0-norm

แพ้ L1

#fundamentals

ฟังก์ชันการขาดหายที่คำนวณค่าสัมบูรณ์ ของความแตกต่างระหว่างค่า label จริงกับ ค่าที่โมเดลคาดการณ์ได้ ตัวอย่างเช่น นี่คือ การคำนวณหาการขาดทุน L1 สำหรับกลุ่ม 1 จาก 5 ตัวอย่าง

มูลค่าที่แท้จริงของตัวอย่าง ค่าที่คาดการณ์ของโมเดล ค่าสัมบูรณ์ของเดลต้า
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 แพ้

ผลต่าง L1 ไวต่อค่าผิดปกติน้อยกว่าผลต่าง L2

ค่าเฉลี่ยความผิดพลาดสัมบูรณ์คือค่าเฉลี่ยของการสูญเสีย L1 ต่อตัวอย่าง

การกำหนดกฎ L1

#fundamentals

การทำให้สมดุลประเภทหนึ่งที่ลงโทษน้ำหนักตามสัดส่วนกับผลรวมของค่าสัมบูรณ์ของน้ำหนัก การปรับ L1 ช่วยเพิ่มน้ำหนักของฟีเจอร์ที่ไม่เกี่ยวข้องหรือเกี่ยวข้องเพียงเล็กน้อยเป็น 0 ฟีเจอร์ที่มี น้ำหนักที่เป็น 0 จะถูกลบออกจากโมเดลอย่างถูกต้อง

ตรงข้ามกับ Regularization แบบ L2

L2 แพ้

#fundamentals

ฟังก์ชันการขาดหาย ที่ใช้คำนวณกำลังสอง ของความแตกต่างระหว่างค่า label จริงกับ ค่าที่โมเดลคาดการณ์ได้ ตัวอย่างเช่น นี่คือ การคำนวณการขาดทุน L2 สำหรับกลุ่ม 1 จาก 5 ตัวอย่าง

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ไว้ของโมเดล สี่เหลี่ยมจัตุรัสของเดลต้า
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 แพ้

เนื่องจากการยกกำลังสองจะทำให้การสูญเสีย L2 ขยายผลของ ค่าผิดปกติ กล่าวคือ การสูญเสีย L2 จะตอบสนองต่อการคาดการณ์ที่ไม่ดีได้มากกว่า การลดลงของ L1 เช่น อัตราส่วนการสูญเสีย L1 ของกลุ่มก่อนหน้าจะเป็น 8 ไม่ใช่ 16 โปรดสังเกตว่า บัญชี Outlier มีค่าเป็น 9 จาก 16 รายการ

โมเดลการถดถอยมักจะใช้การสูญเสีย L2 เป็นฟังก์ชันการสูญเสีย

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง คือค่าเฉลี่ย L2 การสูญเสียต่อตัวอย่าง ความสูญเสียแบบยกกำลังสองเป็นชื่อเรียกอีกอย่างของความสูญเสีย L2

การกำหนดกฎ L2

#fundamentals

การทำให้สม่ำเสมอประเภทหนึ่งที่ลงโทษน้ำหนักตามสัดส่วนกับผลรวมของค่าสัมบูรณ์ของน้ำหนัก การกำหนดกฎ L2 จะช่วยเพิ่มน้ำหนักค่าผิดปกติ (ค่าผิดปกติ ที่มีค่าบวกสูงหรือค่าลบต่ำ) ใกล้เคียง 0 แต่ไม่ใช่ 0 ฟีเจอร์ที่มีค่าเข้าใกล้ 0 มากจะยังคงอยู่ในโมเดล แต่จะไม่มีผลต่อการคาดการณ์ของโมเดลมากนัก

การปรับ L2 จะช่วยปรับปรุงการทั่วไปในโมเดลเชิงเส้นเสมอ

คอนทราสต์กับการกำหนดมาตรฐาน L1

ป้ายกำกับ

#fundamentals

ในแมชชีนเลิร์นนิงที่ควบคุมดูแล ส่วนตัวอย่างที่เป็น "คำตอบ" หรือ "ผลลัพธ์"

ตัวอย่างที่ติดป้ายกำกับแต่ละรายการประกอบด้วย features และป้ายกำกับ เช่น ในชุดข้อมูลการตรวจจับสแปม ป้ายกํากับอาจเป็น "สแปม" หรือ "ไม่ใช่สแปม" ในชุดข้อมูลปริมาณฝน ป้ายกำกับอาจเป็นปริมาณ ที่ตกลงเป็นระยะเวลาหนึ่ง

ตัวอย่างที่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์อย่างน้อย 1 รายการและ label ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่างที่มีป้ายกำกับ 3 รายการจากโมเดลการประเมินมูลค่าบ้าน โดยแต่ละรายการมี 3 องค์ประกอบและ 1 ป้ายกำกับ

จำนวนห้องนอน จำนวนห้องน้ำ อายุบ้าน ราคาบ้าน (ป้ายกำกับ)
3 2 15 $345,000
2 1 72 179,000 ดอลลาร์
4 2 34 10,800,000 บาท

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล รูปแบบจะฝึกจากตัวอย่างที่ติดป้ายกำกับและทำการคาดการณ์จากตัวอย่างที่ไม่มีป้ายกำกับ

เปรียบเทียบตัวอย่างที่มีป้ายกำกับกับตัวอย่างที่ไม่มีป้ายกำกับ

การเปิดเผยข้อมูลป้ายกํากับ

ข้อบกพร่องในการออกแบบโมเดลซึ่งมีฟีเจอร์เป็นพร็อกซีสำหรับ label ตัวอย่างเช่น ลองพิจารณารูปแบบการจัดประเภทแบบ 2 กลุ่มซึ่งคาดการณ์ว่าผู้มีโอกาสเป็นลูกค้าจะซื้อผลิตภัณฑ์หนึ่งๆ หรือไม่ สมมติว่าหนึ่งในคุณลักษณะของโมเดลคือบูลีนชื่อ SpokeToCustomerAgent นอกจากนี้ สมมติว่าตัวแทนของลูกค้า ได้รับมอบหมายหลังจากที่ผู้มีโอกาสเป็นลูกค้าได้ซื้อ ผลิตภัณฑ์ ในระหว่างการฝึก โมเดลจะเรียนรู้การเชื่อมโยงระหว่าง SpokeToCustomerAgent กับป้ายกำกับอย่างรวดเร็ว

lambda

#fundamentals

คำพ้องความหมายของอัตราปกติ

แลมบ์ดาเป็นคำที่บรรจบกันมากเกินไป ในที่นี้เราจะมุ่งเน้นที่คำจำกัดความของคำนี้ในการปรับให้เหมาะสม

LaMDA (โมเดลภาษาสำหรับแอปพลิเคชันด้านการโต้ตอบ หรือ Language Model for Dialog Applications)

#language

โมเดลภาษาขนาดใหญ่ที่อิงตาม Transformer ซึ่งพัฒนาโดย Google และได้รับการฝึกจากชุดข้อมูลการสนทนาขนาดใหญ่ที่สามารถสร้างคำตอบแบบการสนทนาที่สมจริง

LaMDA: เทคโนโลยีการสนทนาที่ก้าวล้ำให้ภาพรวม

จุดสังเกต

#image

คำพ้องความหมายของประเด็นสำคัญ

โมเดลภาษา

#language

โมเดลที่ประมาณความน่าจะเป็นของโทเค็นหรือลำดับโทเค็นที่ปรากฏในลำดับโทเค็นที่ยาวขึ้น

โมเดลภาษาขนาดใหญ่

#language

เป็นโมเดลภาษาที่มีพารามิเตอร์จํานวนมากเป็นอย่างน้อย หรือพูดให้เข้าใจง่ายคือ โมเดลภาษาที่อิงตาม Transformer เช่น Gemini หรือ GPT

พื้นที่เชิงซ้อน

#language

คำพ้องความหมายของ การฝังพื้นที่

เลเยอร์

#fundamentals

ชุดเซลล์ประสาทในโครงข่ายประสาทเทียม เลเยอร์ทั่วไป 3 ประเภท ดังนี้

ตัวอย่างเช่น ภาพต่อไปนี้แสดงเครือข่ายประสาทที่มีเลเยอร์อินพุต 1 เลเยอร์ เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์

เครือข่ายประสาทที่มีเลเยอร์อินพุต 1 เลเยอร์ เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์ เลเยอร์อินพุตประกอบด้วยองค์ประกอบ 2 อย่าง แท็ก
          เลเยอร์ที่ซ่อนอยู่ประกอบด้วยเซลล์ประสาท 3 เซลล์และเลเยอร์ที่ซ่อนอยู่อีกชั้นหนึ่ง
          ประกอบด้วยเซลล์ประสาท 2 เซลล์ เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

ใน TensorFlow เลเยอร์ยังเป็นฟังก์ชัน Python ที่รับเทนเซอร์และตัวเลือกการกําหนดค่าเป็นอินพุต และสร้างเทนเซอร์อื่นๆ เป็นเอาต์พุต

Layer API (tf.layers)

#TensorFlow

TensorFlow API สำหรับสร้างโครงข่ายระบบประสาทเทียมระดับลึก เป็นองค์ประกอบของเลเยอร์ Layers API ช่วยให้คุณสร้างเลเยอร์ประเภทต่างๆ ได้ เช่น

Layers API เป็นไปตามรูปแบบ API ของเลเยอร์ Keras กล่าวคือ นอกเหนือจากคำนำหน้าที่แตกต่างกันแล้ว ฟังก์ชันทั้งหมดใน Layers API จะมีชื่อและลายเซ็นเหมือนกับฟังก์ชันใน Keras Layers API

ใบไม้

#df

ปลายทางใดก็ตามในแผนผังการตัดสินใจ เลิกชอบ condition ใบไม้ไม่ทำการทดสอบ แต่ใบไม้เป็นค่าคาดการณ์ที่เป็นไปได้ ใบไม้ยังเป็นโหนดปลายทางของเส้นทางการอนุมานด้วย

ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้มีใบ 3 ใบ

แผนผังการตัดสินใจที่มี 2 เงื่อนไขซึ่งนำไปสู่ 3 ใบ

เครื่องมือตีความการเรียนรู้ (LIT)

เครื่องมือการทำความเข้าใจโมเดลและการแสดงข้อมูลผ่านภาพแบบอินเทอร์แอกทีฟ

คุณใช้ LIT แบบโอเพนซอร์สเพื่อ ตีความโมเดลหรือแสดงภาพข้อความ รูปภาพ และ ข้อมูลแบบตาราง

อัตราการเรียนรู้

#fundamentals

จำนวนจุดลอยตัวที่บอกการไล่ระดับสี อัลกอริทึมอย่างหนักในการปรับน้ำหนักและน้ำหนักของ การปรับปรุงซ้ำ เช่น อัตราการเรียนรู้ 0.3 จะปรับน้ำหนักและค่ากําหนดให้มีประสิทธิภาพมากกว่าอัตราการเรียนรู้ 0.1 ถึง 3 เท่า

อัตราการเรียนรู้เป็นไฮเปอร์พารามิเตอร์ที่สําคัญ หากตั้งค่าไว้ อัตราการเรียนรู้ต่ำเกินไป การฝึกจะใช้เวลานานเกินไป หากตั้งค่าอัตราการเรียนรู้สูงเกินไป บ่อยครั้งที่การลดเชิงลาดจะประสบปัญหาในการบรรจบ

การถดถอยกำลังสองน้อยที่สุด

โมเดลการถดถอยเชิงเส้นที่ผ่านการฝึกโดยการลดการสูญเสีย L2

เชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่สามารถแทนค่าได้เพียงอย่างเดียว ผ่านการบวกและการคูณ

ผังความสัมพันธ์เชิงเส้นคือเส้น

ตัดกับnonlinear

รูปแบบเชิงเส้น

#fundamentals

โมเดลที่กำหนดน้ำหนัก 1 รายการต่อ featureเพื่อสร้างการคาดการณ์ (รูปแบบเชิงเส้นมีอคติด้วย) ในทางตรงกันข้าม ความสัมพันธ์ระหว่างฟีเจอร์กับการคาดการณ์ในโมเดลเชิงลึกมักไม่เป็นเชิงเส้น

โดยปกติแล้วรูปแบบเชิงเส้นจะง่ายต่อการฝึกและอื่นๆ ที่ตีความได้มากกว่าโมเดลเชิงลึก อย่างไรก็ตาม โมเดลเชิงลึกสามารถเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างฟีเจอร์ต่างๆ ได้

การถดถอยเชิงเส้นและ การถดถอยแบบโลจิสติกคือโมเดลเชิงเส้น 2 ประเภท

การถดถอยเชิงเส้น

#fundamentals

โมเดลแมชชีนเลิร์นนิงประเภทหนึ่งที่มีคุณสมบัติตรงตามทั้ง 2 ข้อต่อไปนี้

เปรียบเทียบการถดถอยเชิงเส้นกับการถดถอยแบบโลจิสติก นอกจากนี้ ให้เปรียบเทียบการถดถอยกับการจัดประเภท

LIT

ตัวย่อของเครื่องมือการตีความการเรียนรู้ (LIT) ซึ่งก่อนหน้านี้เรียกว่าเครื่องมือการตีความภาษา

LLM

#language
#generativeAI

ตัวย่อของโมเดลภาษาขนาดใหญ่

การประเมิน LLM (evals)

#language
#generativeAI

ชุดของเมตริกและการเปรียบเทียบสำหรับการประเมินประสิทธิภาพของ โมเดลภาษาขนาดใหญ่ (LLM) ในระดับสูง การประเมิน LLM:

  • ช่วยให้นักวิจัยระบุด้านที่ LLM จำเป็นต้องปรับปรุง
  • มีประโยชน์ในการเปรียบเทียบ LLM ต่างๆ และระบุ LLM ที่ดีที่สุดสำหรับ งานนั้นๆ โดยเฉพาะ
  • ช่วยให้มั่นใจว่า LLM นั้นปลอดภัยและใช้งานได้อย่างมีจริยธรรม

การถดถอยแบบโลจิสติก

#fundamentals

โมเดลการถดถอยประเภทหนึ่งที่คาดการณ์ความน่าจะเป็น โมเดลการถดถอยแบบโลจิสติกส์มีลักษณะดังต่อไปนี้

  • ป้ายกำกับเป็นหมวดหมู่ คำว่าโลจิสติก การถดถอยมักจะหมายถึงการถดถอยแบบลอจิสติกส์แบบไบนารี ซึ่งก็คือ เป็นโมเดลที่คำนวณความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้ 2 ค่า ตัวแปรที่พบไม่บ่อยนักคือการถดถอยเชิงเส้นโลจิสติกแบบหลายตัวแปร ซึ่งจะคํานวณความน่าจะเป็นของป้ายกํากับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า
  • ฟังก์ชันการสูญเสียระหว่างการฝึกคือ Log Loss (คุณสามารถวางหน่วยการสูญเสียบันทึกหลายหน่วยพร้อมกันสำหรับป้ายกำกับ ด้วยค่าที่เป็นไปได้มากกว่า 2 ค่า)
  • โมเดลนี้มีสถาปัตยกรรมแบบเชิงเส้น ไม่ใช่เครือข่ายประสาทเทียม อย่างไรก็ตาม ส่วนที่เหลือของคำจำกัดความนี้ยังมีผลกับ แบบจำลองเชิงลึกที่คาดการณ์ความน่าจะเป็น สำหรับป้ายกำกับเชิงหมวดหมู่

ตัวอย่างเช่น ลองพิจารณาโมเดลการถดถอยเชิงโลจิสติกส์ที่คำนวณความน่าจะเป็นที่อีเมลอินพุตจะเป็นสแปมหรือไม่สแปม ในระหว่างการอนุมาน สมมติว่าโมเดลคาดการณ์ 0.72 ดังนั้น รูปแบบจะประมาณค่าต่อไปนี้

  • มีโอกาส 72% ที่อีเมลจะเป็นสแปม
  • มีโอกาส 28% ที่อีเมลจะไม่เป็นสแปม

โมเดลการถดถอยเชิงเส้นใช้สถาปัตยกรรมแบบ 2 ขั้นตอนต่อไปนี้

  1. โมเดลสร้างการคาดการณ์ดิบ (y') โดยใช้ฟังก์ชันเชิงเส้น ของฟีเจอร์อินพุต
  2. โดยโมเดลจะใช้การคาดการณ์ดิบเป็นอินพุตสําหรับฟังก์ชัน sigmoid ซึ่งจะแปลงการคาดการณ์ดิบเป็นค่าระหว่าง 0 ถึง 1

โมเดลการถดถอยแบบโลจิสติกจะคาดการณ์จำนวนเช่นเดียวกับโมเดลการถดถอยอื่นๆ อย่างไรก็ตาม ตัวเลขนี้มักจะเป็นส่วนหนึ่งของการจัดประเภทแบบไบนารี ดังนี้

  • หากจำนวนที่คาดการณ์มากกว่า เกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสบวก
  • หากตัวเลขที่คาดการณ์ได้น้อยกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสเชิงลบ

Logits

เวกเตอร์ของการคาดการณ์ดิบ (ไม่ใช่แบบมาตรฐาน) ที่โมเดลการจัดประเภทสร้างขึ้น ซึ่งปกติแล้วระบบจะส่งต่อไปยังฟังก์ชันการทำให้มาตรฐาน หากโมเดลกำลังแก้โจทย์การจัดประเภทแบบหลายคลาส ตรรกะมักเป็นอินพุตของ softmax จากนั้นฟังก์ชัน Softmax จะสร้างเวกเตอร์ของความน่าจะเป็น (ที่ปรับมาตรฐานแล้ว) ที่มีค่า 1 ค่าสําหรับแต่ละคลาสที่เป็นไปได้

การสูญหายของบันทึก

#fundamentals

ฟังก์ชัน Loss ที่ใช้ในไบนารี การถดถอยแบบโลจิสติกส์

อัตราต่อรองลอการิทึม

#fundamentals

ลอการิทึมของอัตราต่อรองของเหตุการณ์บางอย่าง

Long Short-Term Memory (LSTM)

#seq

เซลล์ประเภทหนึ่งในเครือข่ายประสาทแบบซ้ำที่ใช้ประมวลผลลำดับข้อมูลในแอปพลิเคชันต่างๆ เช่น การจดจำลายมือ การแปลด้วยคอมพิวเตอร์ และการใส่คำบรรยายแทนเสียงในรูปภาพ LSTMs จัดการกับ ปัญหาการไล่ระดับสีที่หายไปซึ่งเกิดขึ้นเมื่อ การฝึก RNN เนื่องจากมีลำดับข้อมูลยาวโดยการเก็บประวัติใน สถานะหน่วยความจำภายในอิงตามอินพุตใหม่และบริบทจากเซลล์ก่อนหน้า ใน RNN

LoRA

#language
#generativeAI

ตัวย่อของความสามารถในการปรับตัวระดับต่ำ

แพ้

#fundamentals

ระหว่างการฝึกของ รูปแบบที่มีการควบคุมดูแล ซึ่งเป็นการวัดระยะทาง การคาดคะเนของโมเดลมาจากป้ายกำกับของโมเดล

ฟังก์ชันการสูญเสียจะคํานวณการสูญเสีย

ผู้รวบรวมข้อมูลการสูญเสีย

อัลกอริทึมประเภทหนึ่งของแมชชีนเลิร์นนิงที่ ปรับปรุงประสิทธิภาพของโมเดล ด้วยการรวมการคาดคะเนของหลายๆ โมเดลและ โดยใช้การคาดการณ์เหล่านั้นเพื่อสร้างการคาดคะเนรายการเดียว ด้วยเหตุนี้ เครื่องมือรวบรวมข้อมูลการสูญเสียจึงช่วยลดความแปรปรวนของการคาดการณ์และปรับปรุงความแม่นยำของการคาดการณ์ได้

กราฟแบบสูญเสียบางส่วน

#fundamentals

พล็อต loss ซึ่งเป็นฟังก์ชันของจำนวนการฝึก การทำซ้ำ พล็อตต่อไปนี้แสดงการขาดทุนโดยทั่วไป เส้นโค้ง:

กราฟคาร์ทีเซียนของการสูญเสียเทียบกับการทำซ้ำการฝึก แสดง
          การลดลงอย่างรวดเร็วในการทำซ้ำในช่วงแรก ตามด้วยการค่อยๆ เปลี่ยน
          แล้วมีความลาดชันแบบแบนราบในช่วงการทำซ้ำครั้งสุดท้าย

เส้นโค้งการสูญเสียจะช่วยคุณระบุได้ว่าเมื่อใดที่โมเดลกำลังเข้าใกล้หรือกำลังพอดีเกินไป

เส้นโค้งการสูญเสียสามารถแสดงการสูญเสียประเภทต่อไปนี้ทั้งหมด

โปรดดูเส้นโค้งทั่วไปด้วย

ฟังก์ชันการสูญเสียผู้ใช้

#fundamentals

ในระหว่างการฝึกทำงานหรือการทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่ใช้คำนวณ การสูญเสียไปกับตัวอย่างกลุ่ม ฟังก์ชันการสูญเสียการแสดงผลจะสูญเสียค่าที่ต่ำกว่า สำหรับโมเดลที่สามารถคาดการณ์ได้ดีกว่าโมเดลที่มี การคาดคะเนที่ไม่ดี

โดยทั่วไป เป้าหมายของการฝึกคือลดการสูญเสียที่ฟังก์ชันการสูญเสียแสดง

ฟังก์ชันการสูญเสียมีหลายประเภท เลือกฟังก์ชันการสูญเสียที่เหมาะสมสำหรับประเภทโมเดลที่คุณกําลังสร้าง เช่น

แพลตฟอร์มการสูญเสียพื้นที่

กราฟน้ำหนักเทียบกับน้ำหนักที่หายไป การลดเชิงลาดมีจุดมุ่งหมายเพื่อค้นหาน้ำหนักที่ทำให้พื้นผิวการสูญเสียอยู่ในระดับต่ำสุดในพื้นที่

ความสามารถในการปรับตัวระดับต่ำ (LoRA)

#language
#generativeAI

เทคนิคการใช้พารามิเตอร์อย่างมีประสิทธิภาพสำหรับ การปรับแต่งที่ "ค้าง" โมเดลที่ฝึกล่วงหน้า น้ำหนัก (ซึ่งไม่สามารถแก้ไขได้) จากนั้นจะแทรกชุดข้อมูลขนาดเล็ก ของน้ำหนักที่ฝึกได้ ลงในโมเดล น้ำหนักที่ฝึกได้ชุดนี้ (หรือที่เรียกว่า "อัปเดตเมทริกซ์") มีขนาดเล็กกว่าโมเดลฐานอย่างมาก และ จึงทำให้ฝึกอบรมได้เร็วขึ้นมาก

LoRA มีประโยชน์ดังนี้

  • ปรับปรุงคุณภาพการคาดการณ์ของโมเดลสำหรับโดเมนที่มีความละเอียด ใช้การปรับแต่ง
  • การปรับแต่งเร็วกว่าเทคนิคที่ต้องปรับแต่งโมเดลทั้งหมดอย่างละเอียด พารามิเตอร์
  • ลดต้นทุนการประมวลผลของการอนุมานด้วยการเปิดใช้การเรียกใช้โมเดลเฉพาะหลายรายการพร้อมกันซึ่งใช้โมเดลพื้นฐานเดียวกัน

LSTM

#seq

ตัวย่อของ Long Short-Term Memory

M

แมชชีนเลิร์นนิง

#fundamentals

โปรแกรมหรือระบบที่ฝึก model จากข้อมูลอินพุต โมเดลที่ผ่านการฝึกสามารถคาดการณ์ข้อมูลที่เป็นประโยชน์จากข้อมูลใหม่ (ไม่เคยเห็นมาก่อน) ซึ่งดึงมาจากการแจกแจงเดียวกันกับที่ใช้ฝึกโมเดล

แมชชีนเลิร์นนิงยังหมายถึงสาขาการศึกษาที่เกี่ยวข้องกับโปรแกรมหรือระบบเหล่านี้ด้วย

ชนกลุ่มใหญ่

#fundamentals

ยิ่งป้ายกำกับที่ใช้กันทั่วไปใน ชุดข้อมูลที่ไม่สมดุลกัน ตัวอย่างเช่น สำหรับชุดข้อมูลที่มีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงลบเป็นประเภทหลัก

คอนทราสต์กับชนกลุ่มน้อย

กระบวนการตัดสินใจแบบ Markov (MDP)

#rl

กราฟแสดงรูปแบบการตัดสินใจที่มีการตัดสินใจ (หรือการดำเนินการ) จะใช้ในการไปยังลำดับ รัฐ ภายใต้สมมติฐานที่ว่า การคงไว้ชั่วคราวในพร็อพเพอร์ตี้ Markov ในการเรียนรู้ด้วยการทำซ้ำ การเปลี่ยนสถานะเหล่านี้จะแสดงผลรางวัลที่เป็นตัวเลข

พร็อพเพอร์ตี้ของมาร์คอฟ

#rl

พร็อพเพอร์ตี้ของสภาพแวดล้อมบางอย่าง โดยที่สถานะ การเปลี่ยนแปลงจะกำหนดโดยข้อมูลที่โดยนัยใน สถานะปัจจุบันและการดำเนินการของตัวแทน

โมเดลภาษาที่มีการปกปิด

#language

โมเดลภาษาที่คาดการณ์ความน่าจะเป็นของโทเค็นที่เป็นไปได้ที่จะเติมช่องว่างในลำดับ ตัวอย่างเช่น รูปแบบภาษาที่มีการปกปิดสามารถคํานวณความน่าจะเป็นสําหรับคําที่เป็นไปได้เพื่อแทนที่ขีดล่างในประโยคต่อไปนี้

____ ในหมวกก็กลับมา

โดยปกติแล้ว เอกสารประกอบจะใช้สตริง "MASK" แทนขีดล่าง เช่น

"MASK" ในหมวกกลับมาแล้ว

โมเดลภาษาที่มีการปกปิดสมัยใหม่ส่วนใหญ่เป็นแบบแบบ 2 ทิศทาง

matplotlib

ไลบรารีการพล็อต Python 2D แบบโอเพนซอร์ส matplotlib ช่วยคุณเห็นภาพ ในแง่มุมต่างๆ ของแมชชีนเลิร์นนิง

การแยกตัวประกอบเมทริกซ์

#recsystems

ในทางคณิตศาสตร์ กลไกในการหาเมทริกซ์ที่ผลคูณของจุดมีค่าโดยประมาณ เมทริกซ์เป้าหมาย

ในระบบการแนะนำ มักมีการจัดเก็บการให้คะแนนของผู้ใช้สำหรับรายการในเมทริกซ์เป้าหมาย ตัวอย่างเช่น เป้าหมาย สำหรับระบบการแนะนำภาพยนตร์ อาจมีลักษณะดังนี้ ต่อท้าย โดยที่จำนวนเต็มบวกคือการให้คะแนนของผู้ใช้และ 0 หมายความว่าผู้ใช้ไม่ได้ให้คะแนนภาพยนตร์

  คาสซาบลางกา เรื่องราวของฟิลาเดลเฟีย แบล็ค แพนเธอร์ (Black Panther) Wonder Woman Pulp Fiction
ผู้ใช้ 1 5.0 3.0 0.0 2.0 0.0
ผู้ใช้ 2 4.0 0.0 0.0 1.0 5.0
ผู้ใช้ 3 3.0 1.0 4.0 5.0 0.0

ระบบการแนะนำภาพยนตร์มีเป้าหมายเพื่อคาดคะเนคะแนนของผู้ใช้สำหรับภาพยนตร์ที่ไม่มีการจัดประเภท เช่น ผู้ใช้ 1 จะชอบ Black Panther ไหม

แนวทางหนึ่งสำหรับระบบการแนะนำคือการใช้เมทริกซ์ การแยกตัวประกอบเพื่อสร้างเมทริกซ์ 2 รายการต่อไปนี้

ตัวอย่างเช่น การใช้การแยกตัวประกอบเมทริกซ์กับผู้ใช้ 3 รายและ 5 รายการของเรา อาจแสดงผลเมทริกซ์ผู้ใช้และเมทริกซ์รายการดังต่อไปนี้

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

ผลคูณจุดของเมทริกซ์ผู้ใช้และเมทริกซ์รายการจะให้เมทริกซ์การแนะนำที่มีทั้งคะแนนเดิมของผู้ใช้และค่าคาดการณ์สำหรับภาพยนตร์ที่ผู้ใช้แต่ละรายยังไม่ได้ดู เช่น ลองพิจารณาคะแนน Casablanca จากผู้ใช้ 1 ซึ่งเท่ากับ 5.0 ผลคูณจุดที่สอดคล้องกับเซลล์นั้นในเมทริกซ์คําแนะนําควรอยู่ในช่วงประมาณ 5.0 และผลคูณดังกล่าวคือ

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

ที่สำคัญกว่านั้นคือ ผู้ใช้ 1 จะชอบ Black Panther ไหม การหาผลคูณ แถวแรกและคอลัมน์ที่ 3 แสดงค่าที่คาดการณ์ คะแนน 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

โดยทั่วไปการแยกตัวประกอบเมทริกซ์จะให้เมทริกซ์ผู้ใช้และเมทริกซ์รายการ รวมกันแล้วมีขนาดกะทัดรัดมากกว่าเมทริกซ์เป้าหมายอย่างมาก

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ (MAE)

การสูญเสียโดยเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย L1 คํานวณค่าเฉลี่ยความผิดพลาดสัมบูรณ์ดังนี้

  1. คำนวณการสูญเสีย L1 ของกลุ่ม
  2. หารความสูญเสีย L1 ด้วยจํานวนตัวอย่างในชุด

ตัวอย่างเช่น ลองพิจารณาการคำนวณการสูญเสีย L1 ในตัวอย่าง 5 รายการต่อไปนี้

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ไว้ของโมเดล การสูญเสีย (ความแตกต่างระหว่างค่าจริงและที่คาดการณ์ไว้)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = แพ้ L1

ดังนั้น ผลลัพธ์ของ L1 คือ 8 และจำนวนตัวอย่างคือ 5 ดังนั้น ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์จึงเป็นดังนี้

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

เปรียบเทียบค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์กับความคลาดเคลื่อนเฉลี่ยกำลังสอง และค่าเฉลี่ยความคลาดเคลื่อนกำลังสองของราก

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (MSE)

การสูญเสียโดยเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย L2 คำนวณความคลาดเคลื่อนกำลังสองเฉลี่ยดังนี้

  1. คํานวณการสูญเสีย L2 สําหรับกลุ่ม
  2. หารความสูญเสีย L2 ด้วยจํานวนตัวอย่างในชุด

ตัวอย่างเช่น พิจารณาการสูญเสียสำหรับกลุ่มตัวอย่าง 5 ข้อต่อไปนี้

มูลค่าที่แท้จริง การคาดการณ์ของโมเดล แพ้ ผลต่างของค่ากำลังสอง
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = แพ้ L2

ดังนั้น ความคลาดเคลื่อนเฉลี่ยกำลังสองคือ

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง คือเครื่องมือเพิ่มประสิทธิภาพการฝึกยอดนิยม โดยเฉพาะการถดถอยเชิงเส้น

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสองของคอนทราสต์กับ ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ และ ข้อผิดพลาดค่าเฉลี่ยกำลังสอง

TensorFlow Playground ใช้ Mean Squared Error เพื่อคํานวณค่าการสูญเสีย

Mesh

#TensorFlow
#GoogleCloud

ในการเขียนโปรแกรม ML ควบคู่กันไป เป็นคำศัพท์ที่เกี่ยวข้องกับการกำหนดข้อมูลและ ลงในชิป TPU และกำหนดวิธีการชาร์ดหรือจำลองค่าเหล่านี้

Mesh เป็นคําที่มีความหมายหลายอย่าง ซึ่งอาจหมายถึงอย่างใดอย่างหนึ่งต่อไปนี้

  • เลย์เอาต์ทางกายภาพของชิป TPU
  • โครงสร้างเชิงตรรกะนามธรรมสำหรับการแมปข้อมูลและโมเดลไปยังชิป TPU

ไม่ว่าจะในกรณีใด จะมีการระบุเมชเป็นรูปร่าง

การเรียนรู้เมตา

#language

ชุดย่อยของแมชชีนเลิร์นนิงที่ค้นพบหรือปรับปรุงอัลกอริทึมการเรียนรู้ ระบบการเรียนรู้เมตายังสามารถมุ่งฝึกโมเดลให้เรียนรู้ งานจากข้อมูลเล็กน้อยหรือจากประสบการณ์ที่ได้รับในงานก่อนหน้า โดยทั่วไปแล้ว อัลกอริทึมการเรียนรู้เชิงเมตาจะพยายามทำสิ่งต่อไปนี้

  • ปรับปรุงหรือเรียนรู้ฟีเจอร์ที่วิศวกรเขียนขึ้นเอง (เช่น ตัวเริ่มต้นหรือเครื่องมือเพิ่มประสิทธิภาพ)
  • ประหยัดข้อมูลและการประมวลผลได้มากขึ้น
  • ปรับปรุงการสรุป

การเรียนรู้เมตาเกี่ยวข้องกับการเรียนรู้เพียงสั้นๆ

เมตริก

#TensorFlow

สถิติที่คุณสนใจ

วัตถุประสงค์คือเมตริกที่ระบบแมชชีนเลิร์นนิงพยายามเพิ่มประสิทธิภาพ

Metrics API (tf.metrics)

TensorFlow API สําหรับการประเมินโมเดล เช่น tf.metrics.accuracy จะกําหนดความถี่ที่การคาดการณ์ของโมเดลตรงกับป้ายกํากับ

มินิแบตช์

#fundamentals

ชุดย่อยขนาดเล็กที่เลือกแบบสุ่มของกลุ่มหนึ่งๆ จะประมวลผลใน 1 การปรับปรุงซ้ำ ขนาดกลุ่มของมินิแบตช์มักจะ ตั้งแต่ 10 ถึง 1,000 ตัวอย่าง

ตัวอย่างเช่น สมมติว่าชุดการฝึกทั้งชุด (ทั้งชุด) ประกอบด้วยตัวอย่าง 1,000 รายการ สมมติต่อไปว่าคุณตั้งค่าขนาดกลุ่มของมินิกลุ่มแต่ละกลุ่มเป็น 20 ดังนั้น การวนซ้ำแต่ละครั้งจะกำหนดการสูญเสียในตัวอย่าง 20 รายการแบบสุ่มจาก 1,000 รายการ จากนั้นจึงปรับน้ำหนักและความลำเอียงตามความเหมาะสม

การคำนวณความสูญเสียแบบมินิแบตช์จะมีประสิทธิภาพมากกว่า การสูญเสียสำหรับตัวอย่างทั้งหมดในแบตช์ทั้งหมด

การไล่ระดับสีแบบสโทแคสติกแบบมินิแบตช์

อัลกอริทึมการไล่ระดับสีที่ใช้ กลุ่มขนาดเล็ก กล่าวคือ วิธีการลดเชิงลาดแบบสุ่มเป็นกลุ่มเล็กๆ จะประมาณเชิงลาดตามข้อมูลชุดย่อยเล็กๆ ของข้อมูลการฝึก การลดเชิงลาดแบบสุ่มแบบปกติใช้มินิแบทช์ขนาด 1

ความเสียหายแบบ Minimax

ฟังก์ชันการสูญเสียค่าสำหรับ เครือข่ายโฆษณาที่เป็นมิตรต่อสิ่งแวดล้อม ตามครอสเอนโทรปีระหว่างการกระจาย ทั้งข้อมูลที่สร้างขึ้นและข้อมูลจริง

มีการใช้การสูญเสียการติดตั้งขั้นต่ำใน บทความแรกในการอธิบาย เครือข่ายที่ไม่พึงประสงค์ที่สร้างขึ้น

คลาสสำหรับชนกลุ่มน้อย

#fundamentals

ป้ายกำกับที่มีการใช้งานน้อยกว่าใน ชุดข้อมูลที่ไม่สมดุลกัน ตัวอย่างเช่น สำหรับชุดข้อมูลที่มีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงบวกคือชนกลุ่มน้อย

เปรียบเทียบกับคลาสส่วนใหญ่

ผู้เชี่ยวชาญหลากหลายสาขา

#language
#generativeAI

รูปแบบที่เพิ่มประสิทธิภาพของเครือข่ายประสาทเทียมโดยใช้เฉพาะชุดย่อยของพารามิเตอร์ (เรียกว่าผู้เชี่ยวชาญ) เพื่อประมวลผลโทเค็นอินพุตหรือตัวอย่างที่ระบุ ต การกำหนดเครือข่ายจะกำหนดเส้นทางโทเค็นหรือตัวอย่างอินพุตแต่ละรายการให้กับผู้เชี่ยวชาญที่เหมาะสม

โปรดดูรายละเอียดได้จากบทความต่อไปนี้

ML

ตัวย่อของแมชชีนเลิร์นนิง

MMIT

#language
#image
#generativeAI

ตัวย่อของ Multimodal Instruction-Tuned

MNIST

#image

ชุดข้อมูลสาธารณสมบัติที่ LeCun, Cortes และ Burges รวบรวมไว้ซึ่งมีรูปภาพ 60,000 ภาพ โดยแต่ละภาพแสดงวิธีที่มนุษย์เขียนตัวเลข 0-9 ด้วยตนเอง ระบบจะจัดเก็บรูปภาพแต่ละรูปเป็นอาร์เรย์จำนวนเต็มขนาด 28x28 โดยที่จำนวนเต็มแต่ละค่าจะเป็นค่าสีเทาระหว่าง 0 ถึง 255

MNIST คือชุดข้อมูล Canonical สำหรับแมชชีนเลิร์นนิง มักจะใช้เพื่อทดสอบ ของแมชชีนเลิร์นนิงจำนวนมาก โปรดดูรายละเอียดที่หัวข้อ MNIST Database of Handwrite Digits

รูปแบบ

#language

หมวดหมู่ข้อมูลระดับสูง เช่น ตัวเลข ข้อความ รูปภาพ วิดีโอ และ เสียงมีอยู่ด้วยกัน 5 วิธี

รุ่น

#fundamentals

โดยทั่วไปแล้ว หมายถึงโครงสร้างทางคณิตศาสตร์ที่ประมวลผลข้อมูลอินพุตและแสดงผลลัพธ์ กล่าวอย่างละเอียดคือ โมเดลคือชุดพารามิเตอร์และโครงสร้างที่จําเป็นสําหรับให้ระบบทําการคาดการณ์ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลใช้ตัวอย่างเป็นอินพุตและอนุมาน การคาดคะเนเป็นเอาต์พุต โมเดลแมชชีนเลิร์นนิงที่มีการควบคุมดูแลจะแตกต่างกันไปบ้าง เช่น

คุณสามารถบันทึก คืนค่า หรือทำสำเนาโมเดลได้

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลด้วย สร้างโมเดล ซึ่งโดยทั่วไปจะเป็นฟังก์ชันที่สามารถแมปตัวอย่างอินพุตกับ คลัสเตอร์ที่เหมาะสมที่สุด

ความจุของโมเดล

ความซับซ้อนของโจทย์ที่โมเดลเรียนรู้ได้ ยิ่งมีความซับซ้อนมากเท่าใด ปัญหาที่โมเดลสามารถเรียนรู้ได้ ความจุของโมเดลก็จะยิ่งสูงขึ้น โดยปกติแล้ว ความสามารถของโมเดลจะเพิ่มขึ้นตามจำนวนพารามิเตอร์ของโมเดล สำหรับ คำจำกัดความอย่างเป็นทางการของความจุของตัวแยกประเภท โปรดดู ขนาด VC

การต่อเรียงโมเดล

#generativeAI

ระบบที่เลือกโมเดลที่เหมาะสมสำหรับการอนุมานที่เฉพาะเจาะจง คำถาม

ลองจินตนาการถึงกลุ่มโมเดลที่มีตั้งแต่ขนาดใหญ่มาก (มีพารามิเตอร์จํานวนมาก) ไปจนถึงขนาดเล็กมาก (พารามิเตอร์จํานวนน้อยมาก) โมเดลขนาดใหญ่มากจะใช้ทรัพยากรการคำนวณมากกว่า การอนุมานได้มากกว่าโมเดลขนาดเล็ก อย่างไรก็ตาม ขนาดใหญ่มาก โดยทั่วไปโมเดลสามารถอนุมานคำขอที่ซับซ้อนกว่าโมเดลขนาดเล็กได้ การซ้อนโมเดลจะกําหนดความซับซ้อนของคําค้นหาการอนุมาน จากนั้นจะเลือกโมเดลที่เหมาะสมเพื่อดําเนินการอนุมาน แรงจูงใจหลักของการใช้โมเดลตามลำดับชั้นคือการลดต้นทุนการอนุมานโดยปกติแล้วระบบจะเลือกโมเดลขนาดเล็ก และเลือกโมเดลขนาดใหญ่สําหรับการค้นหาที่ซับซ้อนมากขึ้นเท่านั้น

ลองจินตนาการว่าโมเดลขนาดเล็กทํางานบนโทรศัพท์และโมเดลเวอร์ชันที่ใหญ่กว่าทํางานบนเซิร์ฟเวอร์ระยะไกล การเรียงต่อโมเดลที่ดีจะลดต้นทุนและเวลาในการตอบสนองได้ ทำให้โมเดลขนาดเล็กสามารถจัดการคำของ่ายๆ และเรียกเฉพาะ สำหรับจัดการคำขอที่ซับซ้อน

โปรดดูเราเตอร์จำลองด้วย

การทํางานแบบขนานของโมเดล

#language

วิธีปรับขนาดการฝึกหรือการทำนายที่วางส่วนต่างๆ ของโมเดลหนึ่งไว้ในอุปกรณ์ที่แตกต่างกัน การทำงานพร้อมกันของโมเดล จะเปิดใช้โมเดลที่ใหญ่เกินไปเพื่อให้พอดีกับอุปกรณ์ 1 เครื่อง

โดยทั่วไปแล้ว ระบบจะใช้การทำงานแบบขนานของโมเดลดังนี้

  1. ชาร์ด (แบ่ง) โมเดลออกเป็นส่วนเล็กๆ
  2. กระจายการฝึกของชิ้นส่วนขนาดเล็กเหล่านั้นในโปรเซสเซอร์หลายตัว โปรเซสเซอร์แต่ละตัวจะฝึกโมเดลส่วนของตัวเอง
  3. รวมผลลัพธ์เพื่อสร้างโมเดลเดียว

การทำงานแบบขนานของโมเดลจะทำให้การฝึกช้าลง

โปรดดูเพิ่มเติมที่ข้อมูลที่ทำงานพร้อมกัน

เราเตอร์โมเดล

#generativeAI

อัลกอริทึมที่กําหนดโมเดลที่เหมาะสมสําหรับการอนุมานในการจัดเรียงโมเดลตามลําดับชั้น โดยปกติแล้ว ตัวกำหนดเส้นทางโมเดลจะเป็นโมเดลแมชชีนเลิร์นนิงที่ค่อยๆ เรียนรู้วิธีเลือกโมเดลที่ดีที่สุดสําหรับอินพุตหนึ่งๆ แต่ในบางครั้งเราเตอร์โมเดลอาจง่ายกว่า ที่ไม่ใช่แมชชีนเลิร์นนิง

การฝึกโมเดล

กระบวนการระบุรูปแบบที่ดีที่สุด

สร้างกระแส

อัลกอริทึมการลดเชิงลาดที่มีความซับซ้อน ซึ่งขั้นตอนการเรียนรู้จะขึ้นอยู่กับอนุพันธ์ในขั้นตอนปัจจุบันเท่านั้น แต่ยังขึ้นอยู่กับอนุพันธ์ของขั้นตอนก่อนหน้าด้วย โมเมนตัมเกี่ยวข้องกับการคํานวณค่าเฉลี่ยเคลื่อนที่ถ่วงน้ำหนักแบบจํานวนจริงของอนุพันธ์เมื่อเวลาผ่านไป ซึ่งคล้ายกับโมเมนตัมในฟิสิกส์ บางครั้งแรงผลักดันทำให้ไม่สามารถเรียนรู้ ค้างอยู่ที่ตำแหน่งเล็กที่สุดในเครื่อง

MOE

#language
#image
#generativeAI

ตัวย่อของผู้เชี่ยวชาญแบบผสม

การจัดประเภทแบบหลายคลาส

#fundamentals

ในการเรียนรู้ภายใต้การควบคุมดูแล ปัญหาเรื่องการแยกประเภท ที่ชุดข้อมูลมีป้ายกำกับมากกว่า 2 คลาส ตัวอย่างเช่น ป้ายกำกับในชุดข้อมูล Iris ต้องเป็นคลาสใดคลาสหนึ่งต่อไปนี้

  • ไอริส เซโตซา
  • Iris virginica
  • สีไอริส

โมเดลที่ฝึกในชุดข้อมูล Iris ซึ่งคาดการณ์ประเภท Iris จากตัวอย่างใหม่จะทําการจัดประเภทแบบหลายคลาส

ในทางตรงกันข้าม ปัญหาการจำแนกที่จำแนกระหว่างปัญหาสองอย่าง คลาสเป็นโมเดลการจัดประเภทแบบไบนารี เช่น โมเดลอีเมลที่คาดคะเนสแปมหรือไม่ใช่สแปม เป็นโมเดลการจัดประเภทแบบไบนารี

ในปัญหาการคลัสเตอร์ การจัดประเภทแบบหลายคลาสหมายถึงคลัสเตอร์มากกว่า 2 คลัสเตอร์

การถดถอยแบบโลจิสติกหลายคลาส

การใช้การถดถอยเชิงเส้นโลจิสติกในปัญหาการจัดประเภทแบบหลายคลาส

การใส่ใจตนเองแบบหลายหัว

#language

ส่วนขยายของการเอาใจใส่ตนเองที่ใช้ กลไกความสนใจตนเองหลายครั้งสำหรับแต่ละตำแหน่งในลำดับอินพุต

Transformer เปิดตัวการใส่ใจตนเองแบบ Multi-Head

โมเดลหลายรูปแบบ

#language

โมเดลที่มีอินพุตและ/หรือเอาต์พุตที่มีรูปแบบมากกว่า 1 รูปแบบ ตัวอย่างเช่น พิจารณาโมเดลที่ใช้ทั้งรูปภาพและคําบรรยายแทนเสียง (โมดาลิตี 2 รายการ) เป็นฟีเจอร์ และแสดงผลคะแนนที่ระบุความเหมาะสมของคำบรรยายแทนเสียงสำหรับรูปภาพ อินพุตของโมเดลนี้เป็นแบบมัลติโมดัลและเอาต์พุตจะเป็นแบบเอกพจน์

ปรับแต่งคำสั่งแบบหลายรูปแบบ

#language

โมเดลปรับแต่งตามคำสั่งที่สามารถประมวลผลอินพุตได้นอกเหนือจากข้อความ เช่น รูปภาพ วิดีโอ และเสียง

การจัดประเภทพหุนาม

คำพ้องความหมายของการแยกประเภทแบบหลายชั้นเรียน

การถดถอยแบบหลายตัวแปร

คำพ้องความหมายของการถดถอยแบบโลจิสติกหลายคลาส

ทำงานหลายอย่างพร้อมกัน

เทคนิคแมชชีนเลิร์นนิงที่ฝึกโมเดลเดียวให้ทํางานหลายอย่าง

โมเดลแบบมัลติทาสก์สร้างจากการฝึกข้อมูลที่เหมาะสำหรับ เพื่อทำงานต่างๆ วิธีนี้ช่วยให้โมเดลเรียนรู้ที่จะแชร์ข้อมูลในภารกิจต่างๆ ซึ่งช่วยให้โมเดลเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้น

โมเดลที่ฝึกสำหรับงานหลายอย่างมักจะมีความสามารถในการสร้างข้อมูลทั่วไปที่ดีขึ้น และจัดการข้อมูลประเภทต่างๆ ได้อย่างมีประสิทธิภาพมากขึ้น

N

กับดัก NaN

เมื่อตัวเลข 1 รายการในโมเดลกลายเป็น NaN ระหว่างการฝึก ซึ่งทําให้ตัวเลขอื่นๆ จำนวนมากหรือทั้งหมดในโมเดลกลายเป็น NaN ในท้ายที่สุด

NaN เป็นตัวย่อของ Not a Number

ความเข้าใจภาษาธรรมชาติ

#language

การพิจารณาความตั้งใจของผู้ใช้ตามสิ่งที่ผู้ใช้พิมพ์หรือพูด เช่น เครื่องมือค้นหาใช้ความเข้าใจภาษาที่เป็นธรรมชาติเพื่อระบุว่าผู้ใช้กําลังค้นหาอะไรโดยอิงตามสิ่งที่ผู้ใช้พิมพ์หรือพูด

คลาสเชิงลบ

#fundamentals

ในการจัดประเภทแบบไบนารี คลาสหนึ่งจะเรียกว่าบวก และอีกคลาสหนึ่งจะเรียกว่าลบ คลาสที่เป็นบวกคือสิ่งหรือเหตุการณ์ที่โมเดลทดสอบ และคลาสที่เป็นลบคือความเป็นไปได้อื่นๆ เช่น

  • คลาสเชิงลบในการทดสอบทางการแพทย์อาจเป็น "ไม่ใช่เนื้องอก"
  • ระดับเชิงลบในตัวแยกประเภทอีเมลอาจ "ไม่ใช่สแปม"

คอนทราสต์กับคลาสเชิงบวก

การสุ่มตัวอย่างเชิงลบ

คำพ้องของการสุ่มตัวอย่างผู้สมัคร

Neural Architecture Search (NAS)

เทคนิคการออกแบบสถาปัตยกรรมของเครือข่ายประสาทเทียมโดยอัตโนมัติ อัลกอริทึมของ NAS สามารถลดเวลาและทรัพยากรที่จําเป็นในการฝึกโครงข่ายประสาทได้

โดยทั่วไปแล้ว NAS จะใช้สิ่งต่อไปนี้

  • พื้นที่สำหรับค้นหา ซึ่งเป็นชุดสถาปัตยกรรมที่เป็นไปได้
  • ฟังก์ชันการออกกำลังกาย ซึ่งเป็นการวัดว่า ที่ดำเนินการกับงานที่กำหนด

อัลกอริทึม NAS มักเริ่มต้นด้วยสถาปัตยกรรมที่เป็นไปได้ชุดเล็กๆ และค่อยๆ ขยายขอบเขตการค้นหาเมื่ออัลกอริทึมเรียนรู้เพิ่มเติมเกี่ยวกับสถาปัตยกรรมที่มีประสิทธิภาพ ฟังก์ชันการออกกำลังกายมักอิงตาม ประสิทธิภาพของสถาปัตยกรรมในชุดการฝึก และอัลกอริทึมทำงาน ที่มักได้รับการฝึกโดยใช้ การเรียนรู้แบบเสริมกำลัง

อัลกอริทึม NAS ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพในการค้นหาประสิทธิภาพสูง สำหรับงานที่หลากหลาย ซึ่งรวมถึงอิมเมจ classification การจำแนกประเภทข้อความ การแปลด้วยคอมพิวเตอร์

โครงข่ายระบบประสาทเทียม

#fundamentals

โมเดลที่มีอย่างน้อย 1 รายการ เลเยอร์ที่ซ่อนอยู่ โครงข่ายประสาทแบบลึกเป็นโครงข่ายประสาทประเภทหนึ่งที่มีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 เลเยอร์ ตัวอย่างเช่น แผนภาพต่อไปนี้แสดงเครือข่ายประสาทเทียมที่มีชั้นที่ซ่อนอยู่ 2 ชั้น

เครือข่ายประสาทที่มีชั้นอินพุต ชั้นซ่อน 2 ชั้น และชั้นเอาต์พุต

เซลล์ประสาทแต่ละเซลล์ในเครือข่ายประสาทจะเชื่อมต่อกับโหนดทั้งหมดในชั้นถัดไป ตัวอย่างเช่น ในแผนภาพก่อนหน้า โปรดสังเกตว่าเซลล์ประสาททั้ง 3 เซลล์ในเลเยอร์ซ่อนแรกเชื่อมต่อกับเซลล์ประสาททั้ง 2 เซลล์ในเลเยอร์ซ่อนที่สองแยกกัน

บางครั้งเราเรียกโครงข่ายประสาทที่ใช้ในคอมพิวเตอร์ว่าโครงข่ายประสาทเทียมเพื่อแยกความแตกต่างจากโครงข่ายประสาทที่พบในสมองและระบบประสาทอื่นๆ

เครือข่ายประสาทบางประเภทสามารถเลียนแบบความสัมพันธ์ที่ไม่ใช่เชิงเส้นที่ซับซ้อนมากระหว่างฟีเจอร์ต่างๆ กับป้ายกำกับ

โปรดดูโครงข่ายระบบประสาทเทียมแบบ Convolutional และ โครงข่ายระบบประสาทเทียมแบบเกิดซ้ำ

เซลล์ประสาท

#fundamentals

ในแมชชีนเลิร์นนิง หมายถึงหน่วยที่แยกต่างหากภายในเลเยอร์ที่ซ่อนอยู่ของเครือข่ายประสาทเทียม เซลล์ประสาทแต่ละเซลล์จะทำงานต่อไปนี้ การดำเนินการแบบ 2 ขั้นตอน:

  1. คํานวณผลรวมถ่วงน้ำหนักของค่าอินพุตที่คูณด้วยน้ำหนักที่สอดคล้องกัน
  2. ส่งผลรวมถ่วงน้ำหนักเป็นอินพุตไปยัง ฟังก์ชันการเปิดใช้งาน

เซลล์ประสาทในชั้นที่ซ่อนอยู่ชั้นแรกจะยอมรับอินพุตจากค่าฟีเจอร์ ในเลเยอร์อินพุต เซลล์ประสาทในชั้นซ่อนใดๆ นอกเหนือจากชั้นแรกจะรับอินพุตจากเซลล์ประสาทในชั้นซ่อนก่อนหน้า เช่น เซลล์ประสาทในเลเยอร์ซ่อนที่สองจะรับอินพุตจากเซลล์ประสาทในเลเยอร์ซ่อนแรก

ภาพประกอบต่อไปนี้ไฮไลต์เซลล์ประสาท 2 เซลล์และ อินพุต

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และ
          เลเยอร์เอาต์พุต มีไนรอน 2 ตัวที่ไฮไลต์อยู่ 1 ตัวในเลเยอร์ซ่อนแรกและอีก 1 ตัวในเลเยอร์ซ่อนที่สอง นิวรอนที่ไฮไลต์ในชั้นซ่อนแรกรับอินพุตจากทั้ง 2 ฟีเจอร์ในชั้นอินพุต เซลล์ประสาทที่ไฮไลต์ในชั้นซ่อนที่สองรับอินพุตจากเซลล์ประสาททั้ง 3 เซลล์ในชั้นซ่อนแรก

เซลล์ประสาทในโครงข่ายประสาทจะเลียนแบบพฤติกรรมของเซลล์ประสาทในสมองและ ส่วนอื่นๆ ของระบบประสาท

N-gram

#seq
#language

การเรียงลำดับของ N คำ เช่น จริงๆ แล้วบ้า คือ 2 กรัม เพราะ คำสั่งซื้อนั้นเกี่ยวข้อง แต่จริงๆ แล้วจริงๆ เป็น 2 กรัมที่ต่างจากจริงๆ แล้วบ้า

N ชื่อของ N-gram ประเภทนี้ ตัวอย่าง
2 Bigram หรือ 2 กรัม ไป ไป กินข้าวกลางวัน มื้อเย็น
3 3-gram กินมากเกินไป หนูตาบอด 3 ตัว ค่าโทร
4 4 กรัม เดินเล่นในสวนสาธารณะ ฝุ่นในสายลม เด็กชายกินถั่วเลนทิล

โมเดลการทำความเข้าใจภาษาธรรมชาติจำนวนมากใช้ N-gram เพื่อคาดคะเนคำถัดไปที่ผู้ใช้จะพิมพ์หรือพูด ตัวอย่างเช่น สมมติว่าผู้ใช้พิมพ์ 3Bดูด โมเดล NLU ที่อิงตามไตรแกรมมีแนวโน้มที่จะคาดการณ์ว่าผู้ใช้จะพิมพ์ mice เป็นคำถัดไป

เปรียบเทียบขนาด N กรัมกับกลุ่มคำ ที่ กลุ่มคำที่ไม่ได้เรียงลำดับ

NLU

#language

ตัวย่อของภาษาธรรมชาติ ความเข้าใจ

โหนด (แผนผังการตัดสินใจ)

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขหรือใบ

แผนผังการตัดสินใจที่มี 2 เงื่อนไขและ 3 ใบ

โหนด (โครงข่ายระบบประสาทเทียม)

#fundamentals

เซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่

โหนด (กราฟ TensorFlow)

#TensorFlow

การดำเนินการในกราฟ TensorFlow

เสียงรบกวน

พูดอย่างกว้างๆ คือ สิ่งใดก็ตามที่ทำให้สัญญาณในชุดข้อมูลไม่ชัดเจน สัญญาณรบกวนอาจเกิดขึ้นในข้อมูลได้หลายวิธี เช่น

  • เจ้าหน้าที่ตรวจสอบอาจติดป้ายกำกับผิดพลาด
  • มนุษย์และเครื่องมือบันทึกค่าฟีเจอร์ผิดพลาดหรือละเว้น

เงื่อนไขนอนไบนารี

#df

เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ ตัวอย่างเช่น เงื่อนไขที่ไม่ใช่แบบ 2 ค่าต่อไปนี้มีผลลัพธ์ที่เป็นไปได้ 3 รายการ

เงื่อนไข (number_of_legs = ?) ที่นำไปสู่ผลลัพธ์ที่เป็นไปได้ 3 รายการ ผลลัพธ์ 1 รายการ (number_of_legs = 8) นำไปสู่ใบไม้ที่มีชื่อว่าแมงมุม ผลลัพธ์ที่สอง (number_of_legs = 4) นำไปสู่
          ใบไม้ชื่อหมา ผลลัพธ์ที่ 3 (number_of_legs = 2) นำไปสู่ใบไม้ชื่อ penguin

nonlinear

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่ไม่สามารถแสดงได้โดยการบวกและการคูณเพียงอย่างเดียว ความสัมพันธ์เชิงเส้น แสดงเป็นเส้นได้ ความสัมพันธ์แบบ nonlinear จะใช้ไม่ได้ จะแสดงเป็นเส้น ตัวอย่างเช่น ลองพิจารณาโมเดล 2 รายการที่แต่ละโมเดลเชื่อมโยงฟีเจอร์เดียวกับป้ายกำกับเดียว โมเดลทางด้านซ้ายเป็นโมเดลเชิงเส้น ส่วนโมเดลทางด้านขวาเป็นโมเดลที่ไม่ใช่เชิงเส้น

ผัง 2 ผัง หนึ่งพล็อตคือเส้น 1 เส้น ดังนั้นจึงเป็นความสัมพันธ์เชิงเส้น
          ผังอีกผังเป็นเส้นโค้ง แสดงว่าเป็นความสัมพันธ์ที่ไม่ใช่เชิงเส้น

อคติจากการไม่ตอบ

#fairness

ดูการเลือกแบบลำเอียง

ความไม่คงที่

#fundamentals

ฟีเจอร์ที่มีค่าเปลี่ยนแปลงไปตามมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักจะเป็นเวลา ตัวอย่างเช่น ลองพิจารณาตัวอย่างของความไม่แน่นอนต่อไปนี้

  • จำนวนชุดว่ายน้ำที่ขายในร้านค้าหนึ่งๆ จะแตกต่างกันไปตามฤดูกาล
  • จำนวนผลไม้ที่เก็บเกี่ยวได้ในภูมิภาคหนึ่งๆ นั้นมีค่าเป็น 0 ตลอดทั้งปี แต่มีปริมาณมากในช่วงระยะเวลาสั้นๆ
  • อุณหภูมิเฉลี่ยต่อปีกำลังเปลี่ยนแปลงเนื่องจากการเปลี่ยนแปลงสภาพภูมิอากาศ

คอนทราสต์กับความเสถียร

การแปลงเป็นรูปแบบมาตรฐาน

#fundamentals

กล่าวโดยคร่าวๆ ก็คือกระบวนการแปลงช่วงค่าจริงของตัวแปรเป็นช่วงค่ามาตรฐาน เช่น

  • -1 ถึง +1
  • 0 ถึง 1
  • คะแนนมาตรฐาน (ประมาณ -3 ถึง +3)

ตัวอย่างเช่น สมมติว่าช่วงที่แท้จริงของค่าบางสถานที่คือ 800 ถึง 2,400 ในฐานะส่วนหนึ่งของฟีเจอร์วิศวกรรม คุณสามารถปรับค่าจริงให้อยู่ในระดับมาตรฐานได้ เช่น เป็น -1 ถึง +1

การทำให้เป็นมาตรฐานเป็นงานที่พบได้ทั่วไปในการสร้างฟีเจอร์ โดยทั่วไปแล้ว โมเดลจะฝึกได้เร็วขึ้น (และให้การคาดการณ์ที่ดีขึ้น) เมื่อฟีเจอร์ตัวเลขทั้งหมดในเวกเตอร์ฟีเจอร์มีช่วงใกล้เคียงกัน

ดูรายละเอียดเพิ่มเติมได้ที่ข้อบังคับเกี่ยวกับข้อมูลตัวเลข (Numerical Data) ของหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูการปรับมาตรฐานคะแนน Z ด้วย

การตรวจจับสิ่งแปลกใหม่

กระบวนการพิจารณาว่าตัวอย่าง (ใหม่) ใหม่มาจากเดียวกันหรือไม่ เป็นชุดการฝึก กล่าวคือ หลังจากการฝึกชุดข้อมูล การตรวจหาข้อมูลใหม่จะระบุว่าตัวอย่างใหม่ (ระหว่างการอนุมานหรือระหว่างการฝึกเพิ่มเติม) เป็นค่าผิดปกติหรือไม่

คอนทราสต์กับการตรวจจับ Outlier

ข้อมูลตัวเลข

#fundamentals

ฟีเจอร์ที่แสดงเป็นจำนวนเต็มหรือตัวเลขจริง เช่น โมเดลการประเมินมูลค่าบ้านอาจแสดงขนาดบ้าน (เป็นตารางฟุตหรือตารางเมตร) เป็นข้อมูลตัวเลข การนำเสนอ จุดสนใจแบบข้อมูลตัวเลขบ่งชี้ว่าค่าของจุดสนใจนั้น ความสัมพันธ์ทางคณิตศาสตร์กับป้ายกำกับ กล่าวคือ จํานวนตารางเมตรในบ้านอาจมีความสัมพันธ์ทางคณิตศาสตร์กับมูลค่าของบ้าน

ข้อมูลจำนวนเต็มบางรายการไม่ควรแสดงเป็นข้อมูลตัวเลข เช่น รหัสไปรษณีย์ในบางพื้นที่ของโลกเป็นจำนวนเต็ม แต่ไม่ควรแสดงรหัสไปรษณีย์ที่เป็นจำนวนเต็มเป็นข้อมูลตัวเลขในโมเดล นั่นเป็นเพราะ รหัสไปรษณีย์ของ 20000 ไม่ได้มีความสำคัญเป็นสองเท่า (หรือครึ่งหนึ่ง) เท่ากับรหัสไปรษณีย์ของ 10,000 นอกจากนี้ แม้ว่ารหัสไปรษณีย์ที่ต่างกัน จะมีความสัมพันธ์ มูลค่าอสังหาริมทรัพย์ เราไม่สามารถสรุปได้ว่ามูลค่าอสังหาริมทรัพย์ที่รหัสไปรษณีย์ 20000 มีค่าเป็น 2 เท่าของค่าอสังหาริมทรัพย์ที่รหัสไปรษณีย์ 10000 คุณควรแสดงรหัสไปรษณีย์เป็นข้อมูลเชิงหมวดหมู่แทน

บางครั้งเราเรียกฟีเจอร์ที่เป็นตัวเลข ฟีเจอร์อย่างต่อเนื่อง

NumPy

ไลบรารีคณิตศาสตร์แบบโอเพนซอร์ส ซึ่งให้การดำเนินการอาร์เรย์ที่มีประสิทธิภาพใน Python pandas สร้างขึ้นจาก NumPy

O

วัตถุประสงค์

เมตริกที่อัลกอริทึมพยายามเพิ่มประสิทธิภาพ

ฟังก์ชันวัตถุประสงค์

สูตรทางคณิตศาสตร์หรือเมตริกที่โมเดลมีจุดประสงค์เพื่อเพิ่มประสิทธิภาพ เช่น ฟังก์ชันวัตถุประสงค์สําหรับการหาค่าสัมประสิทธ์เชิงเส้นมักจะเป็นความสูญเสียค่าเฉลี่ยสี่เหลี่ยมจัตุรัส ดังนั้น เมื่อทำการฝึก แบบจำลองการถดถอยเชิงเส้น การฝึกมีเป้าหมายเพื่อลดการสูญเสียค่าเฉลี่ยกำลังสอง

ในบางกรณี เป้าหมายคือเพิ่มฟังก์ชันวัตถุประสงค์ให้มากที่สุด เช่น หากฟังก์ชันวัตถุประสงค์คือความถูกต้อง เป้าหมายคือเพื่อเพิ่มความแม่นยำสูงสุด

โปรดดูเพิ่มเติมที่ loss

เงื่อนไขเอียง

#df

ในแผนภูมิการตัดสินใจ เงื่อนไขที่เกี่ยวข้องกับฟีเจอร์มากกว่า 1 รายการ เช่น ถ้าทั้งความสูงและความกว้างเป็นองค์ประกอบทั้ง 2 อย่าง ต่อไปนี้คือเงื่อนไขแบบเอียง

  height > width

ตรงข้ามกับเงื่อนไขที่สอดคล้องกับแกน

ออฟไลน์

#fundamentals

คำพ้องความหมายของ static

การอนุมานออฟไลน์

#fundamentals

กระบวนการที่โมเดลสร้างการคาดการณ์เป็นกลุ่ม แล้วแคช (บันทึก) การคาดการณ์เหล่านั้น จากนั้น แอปจะสามารถเข้าถึง การคาดการณ์จากแคชแทนการเรียกใช้โมเดลอีกครั้ง

ตัวอย่างเช่น ลองพิจารณาโมเดลที่สร้างพยากรณ์อากาศท้องถิ่น (การคาดการณ์) 1 ครั้งทุก 4 ชั่วโมง หลังจากเรียกใช้แต่ละโมเดลแล้ว ระบบจะแคชการคาดการณ์สภาพอากาศในพื้นที่ทั้งหมด แอปสภาพอากาศจะดึงข้อมูลพยากรณ์อากาศจากแคช

การคํานวณผลลัพธ์แบบออฟไลน์เรียกอีกอย่างว่าการคํานวณผลลัพธ์แบบคงที่

ซึ่งแตกต่างจากการอนุมานออนไลน์

การเข้ารหัสแบบ One-hot

#fundamentals

การนำเสนอข้อมูลเชิงหมวดหมู่เป็นเวกเตอร์โดยที่

  • องค์ประกอบหนึ่งตั้งค่าเป็น 1
  • ส่วนองค์ประกอบอื่นๆ ทั้งหมดจะตั้งค่าเป็น 0

โดยทั่วไปแล้วจะใช้การเข้ารหัสแบบ One-Hot เพื่อแสดงสตริงหรือตัวระบุที่ มีชุดจำกัดของค่าที่เป็นไปได้ ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ Scandinavia มีค่าที่เป็นไปได้ 5 ค่า ดังนี้

  • "เดนมาร์ก"
  • "สวีเดน"
  • "นอร์เวย์"
  • "ฟินแลนด์"
  • "ไอซ์แลนด์"

การโค้ด One-Hot อาจแสดงค่า 5 ค่าแต่ละค่าดังนี้

country เวกเตอร์
"เดนมาร์ก" 1 0 0 0 0
"สวีเดน" 0 1 0 0 0
"นอร์เวย์" 0 0 1 0 0
"ฟินแลนด์" 0 0 0 1 0
"ไอซ์แลนด์" 0 0 0 0 1

การเข้ารหัสแบบ One-hot ทำให้โมเดลเรียนรู้การเชื่อมต่อได้ ตามแต่ละประเทศ 5 ประเทศ

การนำเสนอฟีเจอร์เป็นข้อมูลตัวเลขเป็นทางเลือกแทนการเข้ารหัสแบบฮอตเดียว แต่เราต้องขออภัยที่การนำเสนอ ตัวเลขของประเทศสแกนดิเนเวียไม่ใช่ตัวเลือกที่ดี ตัวอย่างเช่น ลองพิจารณาการแสดงตัวเลขต่อไปนี้

  • "เดนมาร์ก" คือ 0
  • "สวีเดน" เท่ากับ 1
  • "นอร์เวย์" คือ 2
  • "ฟินแลนด์" เท่ากับ 3
  • "ไอซ์แลนด์" เท่ากับ 4

เมื่อใช้การเข้ารหัสตัวเลข โมเดลจะตีความตัวเลขดิบทางคณิตศาสตร์และพยายามฝึกด้วยตัวเลขเหล่านั้น อย่างไรก็ตาม ประเทศไอซ์แลนด์มีจำนวนมากกว่า 2 เท่า (หรือครึ่งหนึ่งของ) อย่างนอร์เวย์ โมเดลจึงได้ข้อสรุปที่แปลกๆ

การเรียนรู้แบบครั้งเดียว

แนวทางแมชชีนเลิร์นนิงที่มักใช้ เพื่อจำแนกออบเจ็กต์ ที่ออกแบบมาเพื่อเรียนรู้ตัวแยกประเภทที่มีประสิทธิภาพจากตัวอย่างการฝึกเพียงตัวอย่างเดียว

โปรดดูการเรียนรู้คร่าวๆ และ การเรียนรู้แบบ Zero shot

One-Shot Prompting

#language
#generativeAI

พรอมต์ที่มีตัวอย่างรายการเดียวซึ่งแสดงวิธีที่โมเดลภาษาขนาดใหญ่ควรตอบกลับ ตัวอย่างเช่น พรอมต์ต่อไปนี้มีตัวอย่าง 1 รายการที่แสดงโมเดลภาษาขนาดใหญ่ ก็ควรตอบคำถามได้

ส่วนต่างๆ ของพรอมต์ หมายเหตุ
สกุลเงินทางการของประเทศที่ระบุคืออะไร คำถามที่ต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR ตัวอย่างหนึ่ง
อินเดีย: การค้นหาจริง

เปรียบเทียบพรอมต์แบบยิงครั้งเดียวกับเงื่อนไขต่อไปนี้

one-vs.-all

#fundamentals

เมื่อพิจารณาถึงปัญหาการจัดประเภทกับคลาส N แล้ว โซลูชันที่ประกอบด้วย N แยกกัน ตัวแยกประเภทแบบไบนารี - ตัวแยกประเภทแบบไบนารีหนึ่งตัวสำหรับ แต่ละผลลัพธ์ที่เป็นไปได้ เช่น สำหรับโมเดลที่แยกประเภทตัวอย่าง เป็นผลิตภัณฑ์สำหรับสัตว์ ผัก หรือแร่ธาตุ โซลูชันแบบหนึ่งต่อหนึ่งจะให้ผล ตัวแยกประเภทไบนารี 3 ตัวที่แยกกันดังต่อไปนี้

  • สัตว์กับไม่ใช่สัตว์
  • ผักกับไม่ใช่ผัก
  • แร่ธาตุกับไม่ใช่แร่ธาตุ

ออนไลน์

#fundamentals

คำพ้องความหมายของแบบไดนามิก

อนุมานออนไลน์

#fundamentals

สร้างการคาดการณ์ตามคําขอ ตัวอย่างเช่น สมมติว่าแอปส่งอินพุตไปยังโมเดลและส่งคำขอการคาดการณ์ ระบบที่ใช้การอนุมานออนไลน์จะตอบสนองต่อคำขอโดยการเรียกใช้ โมเดล (และส่งการคาดการณ์กลับไปยังแอป)

ซึ่งแตกต่างจากการอนุมานออฟไลน์

การดำเนินการ (op)

#TensorFlow

ใน TensorFlow กระบวนการใดๆ ที่สร้าง จัดการหรือทำลาย Tensor สำหรับ เช่น การคูณเมทริกซ์คือการดำเนินการที่ใช้ Tensor 2 ตัว และสร้าง Tensor ขึ้นมา 1 ตัวเป็นเอาต์พุต

ค่าภาษี

การประมวลผลแบบไล่ระดับสีและการเพิ่มประสิทธิภาพไลบรารีสำหรับ JAX Optax ช่วยให้การวิจัยง่ายขึ้นด้วยองค์ประกอบพื้นฐานที่นำมารวมกันใหม่ได้โดยใช้วิธีที่กำหนดเองเพื่อเพิ่มประสิทธิภาพโมเดลแบบพารามิเตอร์ เช่น เครือข่ายประสาทเทียม เป้าหมายอื่นๆ ได้แก่

  • การติดตั้งใช้งานคอมโพเนนต์หลักที่อ่านง่าย ผ่านการทดสอบอย่างดี และมีประสิทธิภาพ
  • ปรับปรุงประสิทธิภาพการทำงานด้วยความสามารถในการรวมคอมโพเนนต์ระดับล่างเข้าด้วยกันเป็นเครื่องมือเพิ่มประสิทธิภาพที่กำหนดเอง (หรือคอมโพเนนต์การประมวลผลแบบลาดอื่นๆ)
  • เร่งการนำแนวคิดใหม่ๆ มาใช้โดยทำให้ทุกคนมีส่วนร่วมได้อย่างง่ายดาย

เครื่องมือเพิ่มประสิทธิภาพ

การใช้งานอัลกอริทึมการลดเชิงลาดโดยเฉพาะ เครื่องมือเพิ่มประสิทธิภาพยอดนิยม ได้แก่

  • AdaGrad ย่อมาจาก ADAptive GRADient descent
  • Adam ซึ่งย่อมาจาก ADAptive with Momentum

อคติจากความเป็นตัวเดียวกันแบบนอกกลุ่ม

#fairness

แนวโน้มที่จะเห็นสมาชิกนอกกลุ่มเหมือนสมาชิกมากกว่าสมาชิกในกลุ่ม เมื่อเปรียบเทียบทัศนคติ ค่านิยม ลักษณะนิสัย และอื่นๆ ลักษณะพิเศษ กลุ่มในหมายถึงคนที่คุณโต้ตอบด้วยเป็นประจำ ส่วนกลุ่มนอกหมายถึงคนที่คุณไม่ได้โต้ตอบด้วยเป็นประจำ หากคุณสร้างชุดข้อมูลโดยขอให้ผู้คนระบุแอตทริบิวต์เกี่ยวกับกลุ่มนอก แอตทริบิวต์เหล่านั้นอาจมีความซับซ้อนน้อยกว่าและเป็นไปตามแบบแผนมากกว่าแอตทริบิวต์ที่ผู้เข้าร่วมระบุสำหรับบุคคลในกลุ่มของตน

เช่น ชาวลิลลี่พูตอาจอธิบายบ้านของชาวลิลลี่พูตคนอื่นๆ อย่างละเอียด โดยกล่าวถึงความแตกต่างเล็กๆ น้อยๆ ในสไตล์สถาปัตยกรรม หน้าต่าง ประตู และขนาด แต่ชาว Lilliputian คนเดียวกันก็อาจประกาศเพียงว่า ชาว Brobdingnagi ทุกคนอาศัยอยู่ในบ้านหลังเดียวกัน

อคติแบบนอกกลุ่มแบบเป็นเอกภาพคือรูปแบบหนึ่งของ การให้น้ำหนักการระบุแหล่งที่มาของกลุ่ม

ดูอคติในกลุ่มเพิ่มเติม

การตรวจหาค่าผิดปกติ

กระบวนการระบุค่าผิดปกติในชุดข้อมูลการฝึก

ตรงข้ามกับการตรวจหาเนื้อหาใหม่

ค่าผิดปกติ

ค่าที่อยู่ห่างจากค่าอื่นๆ ส่วนใหญ่ ในแมชชีนเลิร์นนิง ค่าต่อไปนี้ถือเป็นค่าผิดปกติ

  • ป้อนข้อมูลที่มีค่ามากกว่าค่าเบี่ยงเบนมาตรฐานประมาณ 3 ค่า จากค่าเฉลี่ย
  • น้ำหนักที่มีค่าสัมบูรณ์สูง
  • ค่าที่คาดการณ์ค่อนข้างห่างจากค่าจริง

ตัวอย่างเช่น สมมติว่า widget-price เป็นฟีเจอร์ของโมเดลหนึ่งๆ สมมติว่าค่าเฉลี่ย widget-price คือ 7 ยูโรและค่าเบี่ยงเบนมาตรฐานคือ 1 ยูโร ตัวอย่างที่มี widget-price เป็น 12 ยูโรหรือ 2 ยูโรจึงจะถือว่าเป็นค่าผิดปกติ เนื่องจากราคาแต่ละรายการดังกล่าวอยู่ห่างจากค่าเฉลี่ย 5 ค่าเบี่ยงเบนมาตรฐาน

ค่าผิดปกติมักเกิดจากการพิมพ์ผิดหรือข้อผิดพลาดอื่นๆ ในการป้อนข้อมูล ในกรณีอื่นๆ ค่าผิดปกติไม่ใช่ข้อผิดพลาด ทั้งนี้ ให้ความสำคัญกับส่วนเบี่ยงเบนมาตรฐาน 5 ค่า จากค่าเฉลี่ยนั้นน้อยมาก แต่แทบจะเป็นไปไม่ได้เลย

ค่าผิดปกติมักทำให้เกิดปัญหาในการฝึกโมเดล การตัดเป็นหนึ่งในวิธีจัดการค่าที่ผิดปกติ

การประเมินนอกกลุ่ม (การประเมิน OOB)

#df

กลไกในการประเมินคุณภาพของ กลุ่มการตัดสินใจโดยทดสอบ แผนผังการตัดสินใจเทียบกับ ตัวอย่าง ไม่ใช้ระหว่าง การฝึกอบรมสำหรับแผนผังการตัดสินใจดังกล่าว ตัวอย่างเช่น ใน แผนภาพต่อไปนี้ สังเกตว่าระบบจะฝึกแผนผังการตัดสินใจแต่ละแบบ ประมาณ 2 ใน 3 ของตัวอย่าง จากนั้นจึงประเมินกับ ตัวอย่างซึ่งเหลืออีก 1 ใน 3 ตัวอย่าง

ป่าการตัดสินใจที่ประกอบด้วยต้นไม้การตัดสินใจ 3 ต้น
          แผนผังการตัดสินใจหนึ่งจะฝึกกับ 2 ใน 3 ของตัวอย่าง
          แล้วใช้ 1 ใน 3 ที่เหลือในการประเมิน OOB
          แผนผังการตัดสินใจรายการที่ 2 ฝึกกับ 2 ใน 3 ที่ต่างกัน
          ตัวอย่างมากกว่าแผนผังการตัดสินใจก่อนหน้านี้ จากนั้น
          ใช้ 1 ใน 3 ของการประเมิน OOB ต่างจาก
          แผนผังการตัดสินใจก่อนหน้า

การประเมินนอกกรอบคือการประเมินที่ประหยัดและประหยัดค่าใช้จ่าย ค่าประมาณของกลไกการตรวจสอบข้ามแพลตฟอร์ม ในการทดสอบไขว้ ระบบจะฝึกโมเดล 1 โมเดลในแต่ละรอบการทดสอบไขว้ (เช่น ฝึกโมเดล 10 โมเดลในการทดสอบไขว้ 10 เท่า) เมื่อใช้การประเมิน OOB โมเดลเดียวจะได้รับการฝึก เนื่องจากการแบ่งกลุ่มจะเก็บข้อมูลบางส่วนจากต้นไม้แต่ละต้นไว้ในระหว่างการฝึก การประเมิน OOB จึงใช้ข้อมูลดังกล่าวเพื่อประมาณการทดสอบไขว้ได้

เลเยอร์เอาต์พุต

#fundamentals

"สุดท้าย" ของโครงข่ายประสาทได้ เลเยอร์เอาต์พุตจะมีการคาดการณ์

ภาพต่อไปนี้แสดงโครงข่ายประสาทแบบลึกขนาดเล็กที่มีชั้นอินพุต ชั้นซ่อน 2 ชั้น และชั้นเอาต์พุต

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต 1 ชั้น เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์อีก 1 ชั้น
          เลเยอร์เอาต์พุต เลเยอร์อินพุตประกอบด้วยองค์ประกอบ 2 อย่าง เลเยอร์ซ่อนแรกประกอบด้วยนิวรอน 3 ตัว และเลเยอร์ซ่อนที่สองประกอบด้วยนิวรอน 2 ตัว เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

Overfitting

#fundamentals

การสร้างโมเดลที่ตรงกับ ข้อมูลการฝึกอย่างใกล้ชิดมากจนโมเดลล้มเหลว คาดการณ์ข้อมูลใหม่ได้อย่างถูกต้อง

การกําหนดมาตรฐานอาจช่วยลดการใส่ชิ้นงานมากเกินไปได้ การฝึกด้วยชุดข้อมูลขนาดใหญ่และหลากหลายยังช่วยลดการจับคู่ที่มากเกินไปได้อีกด้วย

การสุ่มตัวอย่างมากเกินไป

การใช้ตัวอย่างของชนกลุ่มน้อยซ้ำ ในชุดข้อมูลที่ไม่สมดุลกันเพื่อ สร้างชุดการฝึกที่มีความสมดุลยิ่งขึ้น

ตัวอย่างเช่น พิจารณาปัญหาการจัดประเภทแบบ 2 กลุ่ม ซึ่งมีอัตราส่วนของคลาสส่วนใหญ่ต่อคลาสส่วนน้อยคือ 5,000:1 หากชุดข้อมูลมีตัวอย่าง 1 ล้านรายการ ชุดข้อมูลจะมีตัวอย่างของคลาสที่น้อยเพียงประมาณ 200 รายการ ซึ่งอาจน้อยเกินไปสำหรับการฝึกที่มีประสิทธิภาพ เพื่อก้าวข้ามความบกพร่องนี้ อาจทำให้ตัวอย่าง 200 ตัวอย่างมากเกินไป (ใช้ซ้ำ) หลายครั้ง ซึ่ง ตัวอย่างที่เพียงพอในการฝึกอบรมที่มีประโยชน์

คุณต้องระมัดระวังเรื่องการปรับมากเกินไปเมื่อ การสุ่มตัวอย่างมากเกินไป

ตัดกับการสุ่มตัวอย่างน้อยกว่า

P

ข้อมูลที่แพ็กไว้

วิธีการจัดเก็บข้อมูลอย่างมีประสิทธิภาพมากขึ้น

ข้อมูลที่แพ็กจะจัดเก็บข้อมูลโดยใช้รูปแบบที่บีบอัดหรือด้วยวิธีอื่นที่ช่วยให้เข้าถึงข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น ข้อมูลที่บรรจุมาจะลดปริมาณหน่วยความจำและการคำนวณที่จำเป็นสำหรับ เข้าถึงระเบียนดังกล่าว ซึ่งจะนำไปสู่การฝึกที่เร็วขึ้นและการอนุมานโมเดลที่มีประสิทธิภาพมากขึ้น

ข้อมูลที่แพ็กมักใช้ร่วมกับเทคนิคอื่นๆ เช่น การเพิ่มข้อมูลและการปรับให้เหมาะสม ซึ่งช่วยปรับปรุงประสิทธิภาพของโมเดลให้ดียิ่งขึ้น

แพนด้า

#fundamentals

API การวิเคราะห์ข้อมูลแบบคอลัมน์ที่สร้างขึ้นจาก numpy เฟรมเวิร์กแมชชีนเลิร์นนิงจํานวนมาก รวมถึง TensorFlow รองรับโครงสร้างข้อมูล pandas เป็นอินพุต ดูรายละเอียดได้ในเอกสารประกอบของ pandas

พารามิเตอร์

#fundamentals

น้ำหนักและความลำเอียงที่โมเดลเรียนรู้ระหว่างการฝึก เช่น ในรูปแบบการถดถอยเชิงเส้น พารามิเตอร์ประกอบด้วยค่าอคติ (b) และน้ำหนักทั้งหมด (w1, w2 และอื่นๆ) ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในทางตรงกันข้าม ไฮเปอร์พารามิเตอร์คือค่าที่คุณ (หรือบริการการปรับแต่งไฮเปอร์พารามิเตอร์) ระบุให้กับโมเดล เช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์

การปรับแต่งที่มีประสิทธิภาพในแง่พารามิเตอร์

#language
#generativeAI

ชุดเทคนิคในการปรับแต่งโมเดลภาษาที่ผ่านการฝึกล่วงหน้า (PLM) ขนาดใหญ่อย่างมีประสิทธิภาพมากกว่าการปรับแต่งแบบเต็ม ประสิทธิภาพของพารามิเตอร์ การปรับแต่งมักจะปรับแต่งได้น้อยกว่า พารามิเตอร์ มาก การปรับแต่ง แต่โดยทั่วไปแล้วก็จะสร้าง โมเดลภาษาขนาดใหญ่ที่มีประสิทธิภาพ รวมถึงโมเดลภาษาขนาดใหญ่ที่สร้างจาก ของ Google

เปรียบเทียบระหว่างการปรับแต่งที่มีประสิทธิภาพพารามิเตอร์กับ

การปรับแต่งที่มีประสิทธิภาพของพารามิเตอร์เรียกอีกอย่างว่าการปรับแต่งอย่างละเอียดที่มีประสิทธิภาพของพารามิเตอร์

เซิร์ฟเวอร์พารามิเตอร์ (PS)

#TensorFlow

งานที่ติดตามพารามิเตอร์ของโมเดลใน การตั้งค่าแบบกระจาย

การอัปเดตพารามิเตอร์

การดำเนินการปรับพารามิเตอร์ของโมเดลระหว่างการฝึก โดยปกติจะอยู่ในรอบเดียวของการลดเชิงลาด

อนุพันธ์ย่อย

อนุพันธ์ที่ตัวแปรทั้งหมดยกเว้นตัวใดตัวหนึ่งถือว่าเป็นค่าคงที่ เช่น อนุพันธ์บางส่วนของ f(x, y) เทียบกับ x คืออนุพันธ์ของ f ที่พิจารณาว่าเป็นฟังก์ชันของ x เพียงอย่างเดียว (นั่นคือ คงค่า y ไว้) ส่วนต่างย่อยของ f เทียบกับ x จะมุ่งเน้นที่การเปลี่ยนแปลงของ x เท่านั้น และละเว้นตัวแปรอื่นๆ ทั้งหมดในสมการ

อคติจากการมีส่วนร่วม

#fairness

ตรงกับอคติที่ไม่ตอบ ดูการเลือกแบบลำเอียง

กลยุทธ์การแบ่งพาร์ติชัน

อัลกอริทึมที่ใช้แบ่งตัวแปรในเซิร์ฟเวอร์พารามิเตอร์

Pax

เฟรมเวิร์กการเขียนโปรแกรมที่ออกแบบมาเพื่อฝึกโมเดลโครงข่ายระบบประสาทเทียมขนาดใหญ่มากจนครอบคลุม TPU ชิปเร่งความเร็ว ส่วน หรือพ็อด หลายรายการ

Pax สร้างจาก Flax ซึ่งสร้างขึ้นด้วย JAX

แผนภาพแสดงตําแหน่งของ Pax ในกองซอฟต์แวร์
          Pax สร้างขึ้นจาก JAX Pax ประกอบด้วย 3 ชั้น เลเยอร์ด้านล่างมี TensorStore และ Flax
          เลเยอร์กลางประกอบด้วย Optax และ Flaxformer เลเยอร์ด้านบนมีไลบรารีการประมาณของ Praxis Fiddle สร้างขึ้นจาก Pax

Perceptron

ระบบ (ฮาร์ดแวร์หรือซอฟต์แวร์) ที่ใช้ค่าอินพุตอย่างน้อย 1 ค่า เรียกใช้ฟังก์ชันกับผลรวมถ่วงน้ำหนักของอินพุต และคำนวณค่าเอาต์พุตเดียว ในแมชชีนเลิร์นนิง ฟังก์ชันมักจะไม่ใช่เชิงเส้น เช่น ReLU, sigmoid หรือ tanh ตัวอย่างเช่น Perceptron ต่อไปนี้อาศัยฟังก์ชันซิกมอยด์เพื่อประมวลผล ค่าที่ป้อน 3 ค่า ได้แก่

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

ในภาพประกอบต่อไปนี้ Perceptron จะรับอินพุต 3 รายการ โดยแต่ละรายการจะได้รับการแก้ไขโดยน้ำหนักก่อนที่จะเข้าสู่ Perceptron

Perceptron ที่รับอินพุต 3 รายการ แล้วคูณด้วย
          ยกน้ำหนัก เพอร์เซปตรอนจะแสดงผลค่าเดียว

เพอร์เซปตรอนคือเซลล์ประสาทในโครงข่ายประสาทเทียม

การแสดง

คำมากเกินไปซึ่งมีความหมายต่อไปนี้

  • ความหมายมาตรฐานในวิศวกรรมซอฟต์แวร์ กล่าวคือ ซอฟต์แวร์นี้ทำงานได้เร็ว (หรือมีประสิทธิภาพ) เพียงใด
  • ความหมายในแมชชีนเลิร์นนิง ประสิทธิภาพจะตอบคำถามที่ว่าโมเดลนี้ถูกต้องเพียงใด กล่าวคือ การคาดการณ์ของโมเดลนั้นแม่นยำเพียงใด

ความสำคัญของตัวแปรการจัดเรียงสับเปลี่ยน

#df

ความสำคัญของตัวแปรประเภทหนึ่งที่ประเมินการเพิ่มขึ้นของข้อผิดพลาดในการคาดการณ์ของโมเดลหลังจากการสับเปลี่ยนค่าของฟีเจอร์ ความสำคัญของตัวแปรการเรียงสับเปลี่ยนจะไม่อิงตามโมเดล เมตริก

ความงงงวย

การวัดประสิทธิภาพอย่างหนึ่งของโมเดลในการทํางาน เช่น สมมติว่างานของคุณคือการอ่านตัวอักษร 2-3 ตัวแรกของคำ ผู้ใช้กำลังพิมพ์บนแป้นพิมพ์ของโทรศัพท์ และเพื่อเสนอรายการที่เป็นไปได้ คำที่สมบูรณ์ งุนงง P สำหรับงานนี้คือจำนวนโดยประมาณ ที่คุณต้องเสนอเพื่อให้รายการของคุณมี คำที่ผู้ใช้พยายามพิมพ์

ความกำกวมเกี่ยวข้องกับCross-Entropy ดังนี้

$$P= 2^{-\text{cross entropy}}$$

ไปป์ไลน์

โครงสร้างพื้นฐานรอบๆ อัลกอริทึมแมชชีนเลิร์นนิง ไปป์ไลน์ รวมถึงการรวบรวมข้อมูล การจัดข้อมูลลงในไฟล์ข้อมูลการฝึก ฝึกโมเดลอย่างน้อย 1 โมเดล และการส่งออกโมเดลดังกล่าวไปยังเวอร์ชันที่ใช้งานจริง

การไปป์ท่อ

#language

รูปแบบของโมเดลคู่ขนานที่โมเดลของ การประมวลผลจะแบ่งออกเป็นระยะต่อเนื่องกันและดำเนินการตามแต่ละระยะ บนอุปกรณ์อื่น ขณะที่ระยะหนึ่งกำลังประมวลผลกลุ่มหนึ่ง ระยะก่อนหน้าจะประมวลผลกลุ่มถัดไปได้

โปรดดูการฝึกอบรมแบบเป็นขั้นด้วย

pjit

ฟังก์ชัน JAX ที่แยกโค้ดเพื่อเรียกใช้ใน ชิป Accelerator ผู้ใช้ส่งฟังก์ชันไปยัง pjit ซึ่งจะแสดงผลฟังก์ชันที่มีความหมายที่เทียบเท่า แต่คอมไพล์เป็นการคำนวณ XLA ที่ทำงานในอุปกรณ์หลายเครื่อง (เช่น GPU หรือแกน TPU)

pjit ช่วยให้ผู้ใช้ชาร์ดการคำนวณได้โดยไม่ต้องเขียนใหม่โดยใช้ พาร์ติชัน SPMD

ตั้งแต่เดือนมีนาคม 2023 pjit ได้รวมเข้ากับ jit แล้ว โปรดดู อาร์เรย์แบบกระจายและอัตโนมัติ การโหลดพร้อมกัน เพื่อดูรายละเอียดเพิ่มเติม

PLM

#language
#generativeAI

ตัวย่อของโมเดลภาษาที่ฝึกล่วงหน้า

Pmap

ฟังก์ชัน JAX ที่เรียกใช้สำเนาของฟังก์ชันอินพุต ในอุปกรณ์ฮาร์ดแวร์พื้นฐานหลายเครื่อง (CPU, GPU หรือ TPU) ที่มีค่าอินพุตต่างกัน pmap ใช้ SPMD

policy

#rl

ในการเรียนรู้แบบเสริมกำลัง การแมปความน่าจะเป็นของ ตัวแทน จากรัฐเป็นการดำเนินการ

การรวมกลุ่มกัน

#image

การลดเมทริกซ์ (หรือเมทริกซ์) ที่สร้างขึ้นโดยชั้น Conv ก่อนหน้าให้เป็นเมทริกซ์ขนาดเล็กลง การรวมกลุ่มมักจะต้องใช้ค่าสูงสุดหรือค่าเฉลี่ย ในพื้นที่ร่วม ตัวอย่างเช่น สมมติว่าเรามีเมทริกซ์ 3x3 ต่อไปนี้

เมทริกซ์ 3x3 [[5,3,1], [8,2,5], [9,4,3]]

การดำเนินการรวมกลุ่มจะแบ่งเมทริกซ์ออกเป็นส่วนๆ เช่นเดียวกับการดำเนินการ Conv จากนั้นจะเลื่อนการดำเนินการ Conv นั้นตามระยะ ตัวอย่างเช่น สมมติว่าการดำเนินการการรวมจะแบ่งเมทริกซ์การกรองย่อยออกเป็นส่วนๆ ขนาด 2x2 ที่มีระยะ 1x1 ดังที่แผนภาพต่อไปนี้แสดง การดำเนินการรวมมี 4 รายการ สมมติว่าการดำเนินการร่วมแต่ละรายการเลือกค่าสูงสุดของ 4 ในส่วนนั้น

เมทริกซ์อินพุตคือ 3x3 ซึ่งมีค่าดังนี้ [[5,3,1], [8,2,5], [9,4,3]]
          เมทริกซ์ย่อย 2x2 ด้านซ้ายบนของเมทริกซ์อินพุตคือ [[5,3], [8,2]] ดังนั้น
          การดำเนินการพูลด้านซ้ายบนจะให้ค่า 8 (ซึ่งเป็นค่า
          สูงสุด 5, 3, 8 และ 2) เมทริกซ์ย่อย 2x2 ด้านขวาบนของอินพุต
          เมทริกซ์คือ [[3,1], [2,5]] ดังนั้นการดำเนินการพูลทางด้านขวาบนจะให้ค่า
          ค่า 5 อนุมาตร 2x2 ที่ด้านซ้ายล่างของเมทริกซ์อินพุตคือ [[8,2], [9,4]] ดังนั้นการดำเนินการรวมข้อมูลด้านซ้ายล่างจึงให้ค่า 9 อนุมาตร 2x2 ที่ด้านขวาล่างของเมทริกซ์อินพุตคือ [[2,5], [4,3]] ดังนั้นการดำเนินการรวมที่ด้านขวาล่างจะให้ค่า 5 โดยสรุปแล้ว การดำเนินการรวมกลุ่มจะให้ผลลัพธ์เป็นเมทริกซ์ 2x2 ดังนี้
          [[8,5], [9,5]]

การรวมกลุ่มจะช่วยบังคับใช้ ความแปรปรวนของการแปลในเมทริกซ์อินพุต

การรวมกลุ่มสำหรับแอปพลิเคชัน Vision มีชื่อเรียกอย่างเป็นทางการว่าการรวมกลุ่มข้อมูลเชิงพื้นที่ แอปพลิเคชันอนุกรมเวลามักจะเรียกการรวมเป็นการรวบรวมข้อมูลชั่วคราว การรวมอย่างไม่เป็นทางการมักเรียกว่าการสุ่มตัวอย่างหรือการสุ่มตัวอย่าง

การเข้ารหัสตำแหน่ง

#language

เทคนิคในการเพิ่มข้อมูลเกี่ยวกับตําแหน่งของโทเค็นในลําดับไปยังการฝังของโทเค็น โมเดล Transformer ใช้การเข้ารหัสตำแหน่งเพื่อทำความเข้าใจความสัมพันธ์ระหว่างส่วนต่างๆ ของลำดับได้ดีขึ้น

การใช้งานการเข้ารหัสตำแหน่งโดยทั่วไปจะใช้ฟังก์ชันไซนัสซอยด์ (โดยเฉพาะอย่างยิ่ง ความถี่และแอมพลิจูดของฟังก์ชันไซนัสซอยด์ ซึ่งกำหนดโดยตำแหน่งของโทเค็นในลำดับ) เทคนิคนี้ช่วยให้โมเดล Transformer เรียนรู้ที่จะให้ความสำคัญกับส่วนต่างๆ ของลำดับตามตำแหน่งของส่วนนั้นๆ

คลาสเชิงบวก

#fundamentals

ชั้นเรียนที่คุณกำลังทดสอบ

เช่น คลาสที่เป็นบวกในโมเดลโรคมะเร็งอาจเป็น "เนื้องอก" คลาสที่เป็นบวกในตัวจัดประเภทอีเมลอาจเป็น "จดหมายขยะ"

ตรงข้ามกับคลาสที่เป็นลบ

หลังการประมวลผล

#fairness
#fundamentals

ปรับเอาต์พุตของโมเดลหลังจากเรียกใช้โมเดลแล้ว กระบวนการหลังการประมวลผลสามารถใช้เพื่อบังคับใช้ข้อจำกัดความเป็นธรรมได้โดยไม่ต้อง การดัดแปลงโมเดลด้วยตนเอง

เช่น ตัวอย่างหนึ่งอาจใช้การประมวลผลภายหลังกับตัวแยกประเภทแบบไบนารี ด้วยการตั้งค่าเกณฑ์การจัดประเภท ความเท่าเทียมของโอกาสจะคงเดิม สำหรับแอตทริบิวต์บางรายการ โดยตรวจสอบว่าอัตราผลบวกจริง จะเหมือนกันสำหรับค่าของแอตทริบิวต์นั้น

PR AUC (พื้นที่ใต้กราฟ PR)

พื้นที่ใต้กราฟที่หาค่าเฉลี่ยระหว่างค่าต่างๆ ของกราฟ Precision-Recall ซึ่งหาได้จากการวางจุด (ความแม่นยำ ความแม่นยำ) สำหรับค่าต่างๆ ของเกณฑ์การจัดประเภท PR AUC อาจเทียบเท่ากับความแม่นยำเฉลี่ยของโมเดล ทั้งนี้ขึ้นอยู่กับวิธีคํานวณ

Praxis

คลัง ML หลักที่มีประสิทธิภาพสูงของ Pax มักเป็น ที่เรียกว่า "ไลบรารีเลเยอร์"

Praxis ไม่ได้มีเพียงคำนิยามของคลาสเลเยอร์ แต่รวมถึง คอมโพเนนต์สนับสนุนของ Google ด้วย ซึ่งได้แก่

Praxis ให้คําจํากัดความของคลาส Model

ความแม่นยำ

เมตริกสําหรับโมเดลการจัดหมวดหมู่ที่ตอบคำถามต่อไปนี้

เมื่อโมเดลคาดการณ์คลาสเชิงบวก การคาดคะเนถูกต้องกี่เปอร์เซ็นต์

โดยมีสูตรดังนี้

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

โดยมี

  • ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้ถูกต้อง
  • ผลบวกลวงหมายความว่าโมเดลคาดการณ์คลาสเชิงบวกไม่ถูกต้อง

ตัวอย่างเช่น สมมติว่าโมเดลทำการคาดการณ์เชิงบวก 200 ครั้ง จากการคาดการณ์เชิงบวก 200 ข้อต่อไปนี้

  • 150 รายการเป็นผลบวกจริง
  • โดย 50 รายการเป็นผลบวกลวง

ในกรณีนี้

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

ตรงข้ามกับความแม่นยำและการจดจำ

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้อง

เส้นโค้ง Precision-Recall

เส้นโค้งของความแม่นยำเทียบกับความแม่นยำในการเรียกคืนที่เกณฑ์การจัดประเภทต่างๆ

การคาดการณ์

#fundamentals

เอาต์พุตของโมเดล เช่น

  • การคาดการณ์ของโมเดลการจัดประเภทแบบไบนารีจะเป็นค่าบวก หรือคลาสเชิงลบ
  • การคาดการณ์ของโมเดลการจัดประเภทแบบหลายคลาสคือ 1 คลาส
  • การคาดคะเนของโมเดลการถดถอยเชิงเส้นเป็นตัวเลข

อคติในการคาดการณ์

ค่าที่ระบุว่าห่างจากค่าเฉลี่ยของ การคาดคะเนมาจากค่าเฉลี่ยของป้ายกำกับ ในชุดข้อมูล

โปรดอย่าสับสนกับคำที่เป็นอคติในโมเดลแมชชีนเลิร์นนิง หรืออคติด้านจริยธรรมและความเป็นธรรม

ML การคาดการณ์

ระบบแมชชีนเลิร์นนิงมาตรฐาน ("คลาสสิก")

คำว่า ML เชิงคาดการณ์ไม่มีคำจำกัดความอย่างเป็นทางการ แต่คำนี้แยกหมวดหมู่ของระบบ ML ซึ่งไม่อิงตาม Generative AI

ความเท่าเทียมตามการคาดการณ์

#fairness

เมตริกความเป็นธรรมที่ตรวจสอบว่าอัตราความแม่นยำของโปรแกรมแยกประเภทหนึ่งๆ เทียบเท่ากันสำหรับกลุ่มย่อยที่พิจารณาหรือไม่

ตัวอย่างเช่น โมเดลที่คาดการณ์ว่าเข้ามหาวิทยาลัยจะตรงตาม ความเท่าเทียมตามการคาดการณ์สำหรับสัญชาติ หากอัตราความแม่นยำเท่ากัน สำหรับ Lilliputians และ Brobdingnagians

ความเท่าเทียมตามการคาดการณ์บางครั้งเรียกว่าความเท่าเทียมกันของอัตราตามการคาดการณ์

ดู "คำนิยาม Explained" (ส่วนที่ 3.2.1) เพื่อการพูดคุยอย่างละเอียดมากขึ้นเกี่ยวกับความเท่าเทียมในการคาดการณ์

อัตราที่เท่ากันตามการคาดการณ์

#fairness

อีกชื่อหนึ่งของความเท่าเทียมตามการคาดการณ์

การเตรียมข้อมูลล่วงหน้า

#fairness
การประมวลผลข้อมูลก่อนที่จะนำไปใช้ในการฝึกโมเดล การประมวลผลล่วงหน้าอาจ ทำได้ง่ายๆ อย่างการลบคำจากคลังข้อความภาษาอังกฤษ เกิดขึ้นในพจนานุกรมภาษาอังกฤษ หรืออาจจะซับซ้อนพอๆ กับการแสดงออก จุดข้อมูลในลักษณะที่จะกำจัดแอตทริบิวต์ที่มีความสัมพันธ์กัน โดยใช้แอตทริบิวต์ที่ละเอียดอ่อนให้มากที่สุดเท่าที่จะเป็นไปได้ การเตรียมข้อมูลล่วงหน้าจะช่วยให้เป็นไปตามข้อจำกัดด้านความเป็นธรรม

โมเดลที่ฝึกล่วงหน้า

#language
#image
#generativeAI

โมเดลหรือคอมโพเนนต์ของโมเดล (เช่น เวกเตอร์การฝัง) ที่ได้รับการฝึกแล้ว บางครั้งคุณจะป้อนเวกเตอร์ที่มีการฝังก่อนการฝึกลงใน โครงข่ายระบบประสาทเทียม บางครั้ง โมเดลจะฝึกเวกเตอร์การฝังเองแทนที่จะใช้การฝังที่ผ่านการฝึกไว้ล่วงหน้า

คำว่าโมเดลภาษาก่อนการฝึกหมายถึง โมเดลภาษาขนาดใหญ่ที่ได้ผ่านการทดสอบ การฝึกอบรมล่วงหน้า

การฝึกล่วงหน้า

#language
#image
#generativeAI

การฝึกโมเดลครั้งแรกในชุดข้อมูลขนาดใหญ่ โมเดลก่อนการฝึกบางรุ่น เป็นยักษ์จอมซุ่มและมักจะต้องได้รับการปรับปรุงผ่านการฝึกอบรมเพิ่มเติม ตัวอย่างเช่น ผู้เชี่ยวชาญด้าน ML อาจฝึกอบรม โมเดลภาษาขนาดใหญ่บนชุดข้อมูลข้อความขนาดใหญ่ เช่นหน้าภาษาอังกฤษทั้งหมดใน Wikipedia หลังจากการฝึกอบรมล่วงหน้า โมเดลผลลัพธ์อาจได้รับการปรับแต่งเพิ่มเติมผ่านเกณฑ์ต่อไปนี้ เทคนิค

ความเชื่อก่อนหน้า

สิ่งที่คุณเชื่อเกี่ยวกับข้อมูลก่อนที่จะเริ่มฝึก เช่น การปรับสมดุล 2 อาศัยความเชื่อก่อนหน้านี้ว่าน้ำหนักควรมีขนาดเล็กและกระจายตามปกติรอบๆ 0

แบบจำลองการถดถอยแบบความน่าจะเป็น

โมเดลการถดถอยซึ่งไม่เพียงใช้ น้ำหนักสำหรับแต่ละฟีเจอร์ แต่รวมถึง ความไม่แน่นอนของน้ำหนักนั้นเลย โมเดลการถดถอยความน่าจะเป็นทำให้เกิด การคาดคะเนและความไม่แน่นอนของการคาดคะเนนั้น ตัวอย่างเช่น โมเดลการถดถอยแบบความน่าจะเป็นอาจแสดงค่าการคาดคะเนของ 325 ที่มีค่า ค่าเบี่ยงเบนมาตรฐานเป็น 12 ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลการถดถอยแบบน่าจะเป็นได้ที่ Colab ใน tensorflow.org

ฟังก์ชันความหนาแน่นของความน่าจะเป็น

ฟังก์ชันที่ระบุความถี่ของตัวอย่างข้อมูลที่มีตาม ค่าหนึ่งๆ เมื่อค่าของชุดข้อมูลเป็นตัวเลขทศนิยมต่อเนื่อง การจับคู่ที่ตรงกันทั้งหมดจะเกิดขึ้นน้อยมาก อย่างไรก็ตาม การผสานรวมความน่าจะเป็น ฟังก์ชันความหนาแน่นจากค่า x ถึงค่า y ให้ค่าความถี่ที่คาดไว้ของ ตัวอย่างข้อมูลระหว่าง x ถึง y

ตัวอย่างเช่น พิจารณาการแจกแจงแบบปกติที่มีค่าเฉลี่ย 200 และค่าเบี่ยงเบนมาตรฐาน 30 เพื่อหาความถี่ที่คาดไว้ของตัวอย่างข้อมูล อยู่ภายในช่วง 211.4 ถึง 218.7 คุณสามารถผสานรวมความน่าจะเป็น ฟังก์ชันความหนาแน่นสำหรับการกระจายปกติจาก 211.4 ถึง 218.7

พรอมต์

#language
#generativeAI

ข้อความที่ป้อนเป็นอินพุตในโมเดลภาษาขนาดใหญ่ เพื่อกำหนดเงื่อนไขของโมเดลให้ทำงานในลักษณะต่างๆ พรอมต์อาจสั้นเป็น วลีหรือยาวโดยไม่มีกฎเกณฑ์ (เช่น ข้อความทั้งหมดในนิยาย) พรอมต์จะแบ่งออกเป็นหลายหมวดหมู่ ซึ่งรวมถึงหมวดหมู่ที่แสดงในตารางต่อไปนี้

หมวดหมู่ข้อความแจ้ง ตัวอย่าง หมายเหตุ
คำถาม นกพิราบบินได้เร็วแค่ไหน
โรงเรียนฝึกอบรม เขียนบทกวีตลกๆ เกี่ยวกับอาร์บิทราจ พรอมต์ที่ขอให้โมเดลภาษาขนาดใหญ่ทำบางอย่าง
ตัวอย่าง แปลโค้ด Markdown เป็น HTML ตัวอย่างเช่น
Markdown: * รายการย่อย
HTML: <ul> <li>รายการย่อย</li> </ul>
ประโยคแรกในพรอมต์ตัวอย่างนี้คือคำสั่ง ส่วนที่เหลือของข้อความแจ้งเป็นตัวอย่าง
บทบาท อธิบายเหตุผลที่ต้องใช้การไล่ระดับสีในการฝึกแมชชีนเลิร์นนิงเพื่อ ปริญญาเอกสาขาฟิสิกส์ ส่วนแรกของประโยคเป็นคำสั่ง วลี "เรียนปริญญาเอกในสาขาฟิสิกส์" คือส่วนของบทบาท
ป้อนข้อมูลบางส่วนสำหรับโมเดลให้เสร็จสมบูรณ์ นายกรัฐมนตรีของสหราชอาณาจักรอาศัยอยู่ที่ พรอมต์การป้อนข้อมูลบางส่วนอาจสิ้นสุดอย่างกะทันหัน (เช่น ตัวอย่างนี้) หรือลงท้ายด้วยขีดล่างก็ได้

โมเดล Generative AI สามารถตอบสนองต่อพรอมต์ด้วยข้อความ โค้ด รูปภาพ การฝัง วิดีโอ และแทบทุกสิ่ง

การเรียนรู้จากพรอมต์

#language
#generativeAI

ความสามารถของโมเดลบางรายการที่ช่วยให้ปรับลักษณะการทํางานเพื่อตอบสนองต่อการป้อนข้อความแบบไม่เจาะจง (พรอมต์) ได้ ในกระบวนทัศน์การเรียนรู้จากพรอมต์ทั่วไป โมเดลภาษาขนาดใหญ่ตอบสนองต่อพรอมต์โดย การสร้างข้อความ ตัวอย่างเช่น สมมติว่าผู้ใช้ป้อนพรอมต์ต่อไปนี้

สรุปกฎการเคลื่อนที่ข้อที่ 3 ของนิวตัน

โมเดลที่เรียนรู้ตามพรอมต์ไม่ได้ผ่านการฝึกมาเพื่อตอบพรอมต์ก่อนหน้าโดยเฉพาะ แต่โมเดลจะ "รู้" ข้อเท็จจริงมากมายเกี่ยวกับฟิสิกส์ กฎทั่วไปของภาษา และองค์ประกอบต่างๆ ของคำตอบที่เป็นประโยชน์โดยทั่วไป ความรู้ดังกล่าวเพียงพอที่จะให้ (หวังว่า) คำตอบ ความคิดเห็นเพิ่มเติมจากมนุษย์ ("คำตอบนั้นซับซ้อนเกินไป" หรือ "What's a impact?") ช่วยให้ระบบการเรียนรู้ที่ใช้พรอมต์บางระบบค่อยๆ เรียนรู้ได้ ปรับปรุงประโยชน์ของคำตอบได้

การออกแบบพรอมต์

#language
#generativeAI

คำพ้องของ prompt Engineering

พรอมต์วิศวกรรม

#language
#generativeAI

ศิลปะการสร้างข้อความแจ้งที่กระตุ้นให้เกิดคำตอบที่ต้องการ จากโมเดลภาษาขนาดใหญ่ มนุษย์ทำการดัดแปลงพรอมต์ การเขียนพรอมต์ที่มีโครงสร้างดีเป็นส่วนสําคัญในการรับคําตอบที่เป็นประโยชน์จากโมเดลภาษาขนาดใหญ่ การปรับแต่งข้อความแจ้งขึ้นอยู่กับหลายปัจจัย ได้แก่

  • ชุดข้อมูลที่ใช้ในการฝึกล่วงหน้าและอาจปรับแต่งโมเดลภาษาขนาดใหญ่
  • temperature และพารามิเตอร์การถอดรหัสอื่นๆ ที่โมเดลใช้ในการสร้างคำตอบ

โปรดดู ข้อมูลเบื้องต้นเกี่ยวกับการออกแบบพรอมต์ เพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับการเขียนพรอมต์ที่เป็นประโยชน์

การออกแบบพรอมต์เป็นคำพ้องความหมายของพรอมต์วิศวกรรม

การปรับแต่งพรอมต์

#language
#generativeAI

กลไกการปรับพารามิเตอร์อย่างมีประสิทธิภาพซึ่งจะเรียนรู้ "คำนำหน้า" ที่ระบบจะใส่ไว้ก่อนพรอมต์จริง

รูปแบบหนึ่งของการปรับแต่งพรอมต์ ซึ่งบางครั้งเรียกว่าการปรับแต่งคำนำหน้า คือการ ใส่คำนำหน้าที่ทุกเลเยอร์ ในทางตรงกันข้าม การปรับแต่งพรอมต์ส่วนใหญ่ เพิ่มคำนำหน้าลงในเลเยอร์อินพุต

ป้ายกำกับพร็อกซี

#fundamentals

ข้อมูลที่ใช้ในการประมาณป้ายกำกับที่ไม่มีในชุดข้อมูลโดยตรง

ตัวอย่างเช่น สมมติว่าคุณต้องฝึกโมเดลเพื่อคาดการณ์ระดับความเครียดของพนักงาน ชุดข้อมูลของคุณมีฟีเจอร์การคาดการณ์จำนวนมาก แต่ไม่มีป้ายกำกับชื่อระดับความเครียด คุณเลือก "อุบัติเหตุที่ทำงาน" เป็นป้ายกำกับแทนระดับความเครียด เพราะพนักงานที่มีความเครียดสูง มักจะใช้เวลามากกว่า มากกว่าพนักงานที่สงบนิ่ง หรือว่า อุบัติเหตุที่เกิดขึ้นในที่ทํางานอาจเพิ่มขึ้นและลดลงด้วยเหตุผลหลายประการ

ตัวอย่างที่สอง สมมติว่าคุณต้องการให้ฝนตกไหมเป็นป้ายกำกับบูลีน สำหรับชุดข้อมูล แต่ชุดข้อมูลไม่มีข้อมูลฝน หากมีรูปภาพ คุณอาจสร้างรูปภาพคนถือร่มเป็นป้ายกำกับพร็อกซีสำหรับฝนตกไหม ใช่ไหม ป้ายกำกับพร็อกซีที่ดีหรือไม่ เป็นไปได้ แต่ผู้คนในบางวัฒนธรรมอาจถือร่มเพื่อป้องกันแดดมากกว่าฝน

ป้ายกํากับพร็อกซีมักไม่สมบูรณ์ เลือกป้ายกำกับจริงแทนป้ายกำกับพร็อกซีเมื่อเป็นไปได้ อย่างไรก็ตาม เมื่อไม่มีป้ายกำกับจริง ให้เลือกป้ายกำกับพร็อกซีอย่างระมัดระวัง โดยเลือกป้ายกำกับพร็อกซีที่ไม่น่ากลัวที่สุด

พร็อกซี (แอตทริบิวต์ที่ละเอียดอ่อน)

#fairness
แอตทริบิวต์ที่ใช้เป็นส่วนเสริมสำหรับ แอตทริบิวต์ที่มีความละเอียดอ่อน เช่น ระบบอาจใช้รหัสไปรษณีย์ของบุคคลเป็นพร็อกซีสําหรับรายได้ เชื้อชาติ หรือชาติพันธุ์

ฟังก์ชันที่แท้จริง

ฟังก์ชันที่มีเอาต์พุตอิงตามอินพุตเท่านั้นและไม่มีผลข้างเคียง โดยเฉพาะอย่างยิ่ง ฟังก์ชัน Pure ไม่ได้ ใช้หรือเปลี่ยนแปลงสถานะระดับโลกใดๆ เช่น เนื้อหาของไฟล์ หรือค่าของตัวแปรที่อยู่นอกฟังก์ชัน

ฟังก์ชัน Pure สามารถใช้เพื่อสร้างโค้ดที่ปลอดภัยสำหรับเธรด ซึ่งมีประโยชน์เมื่อมีการแยกส่วนโค้ด model ไปยังชิปเร่งความเร็วหลายตัว

วิธีการเปลี่ยนรูปแบบฟังก์ชันของ JAX กำหนดให้ฟังก์ชันอินพุตต้องเป็นฟังก์ชันบริสุทธิ์

Q

ฟังก์ชัน Q

#rl

ในการเรียนรู้ด้วยการเพิ่มแรงเสริม ฟังก์ชันที่คาดการณ์ผลตอบแทนที่คาดไว้จากการดำเนินการในสถานะ จากนั้นทำตามนโยบายที่กำหนด

ฟังก์ชัน Q เรียกอีกอย่างว่าฟังก์ชันค่าสถานะการดําเนินการ

การเรียนรู้แบบ Q

#rl

ในการเรียนรู้ด้วยการเพิ่มประสิทธิภาพ อัลกอริทึมที่อนุญาตให้เอเจนต์เรียนรู้ฟังก์ชัน Q ที่ดีที่สุดของกระบวนการตัดสินใจแบบ Markov โดยใช้สมการ Bellman โมเดลกระบวนการตัดสินใจของมาร์คอฟ สภาพแวดล้อม

ควอนไทล์

ที่เก็บข้อมูลแต่ละรายการในการแบ่งกลุ่มข้อมูลตามควอร์ไทล์

การฝากข้อมูลควอนไทล์

การแจกแจงค่าของฟีเจอร์เป็นที่เก็บเพื่อให้แต่ละที่เก็บมีจำนวนตัวอย่างเท่ากัน (หรือเกือบเท่ากัน) ตัวอย่างเช่น รูปภาพต่อไปนี้แบ่ง 44 จุดออกเป็น 4 กลุ่ม โดยแต่ละกลุ่มมี 11 จุด เพื่อให้ที่เก็บข้อมูลแต่ละชุดในรูปมีฟิลด์ จำนวนจุดเท่ากัน ที่เก็บข้อมูลบางส่วนขยายความกว้างของค่า x ต่างกัน

จุดข้อมูล 44 จุดแบ่งออกเป็น 4 ที่เก็บข้อมูล จุดละ 11 จุด
          แม้ว่าแต่ละที่เก็บข้อมูลจะมีจุดข้อมูลเท่ากัน แต่ที่เก็บข้อมูลบางแห่งอาจมีค่าฟีเจอร์ที่หลากหลายกว่าที่เก็บข้อมูลอื่นๆ

การวัดปริมาณ

ข้อความที่มากเกินไปซึ่งอาจนำไปใช้ในลักษณะต่อไปนี้ได้

  • การใช้การฝากข้อมูลควอนไทล์ เกี่ยวกับฟีเจอร์ที่เฉพาะเจาะจง
  • การเปลี่ยนข้อมูลให้เป็น 0 และ 1 เพื่อการจัดเก็บ การฝึก และอนุมานที่รวดเร็วขึ้น เนื่องจากข้อมูลบูลีนมีความทนทานต่อสัญญาณรบกวนและข้อผิดพลาดมากกว่ารูปแบบอื่นๆ การแปลงเป็นจำนวนเต็มจึงช่วยเพิ่มความถูกต้องของโมเดลได้ เทคนิคการวัดขนาด ได้แก่ การปัดเศษ การตัดทอน และ binning
  • การลดจํานวนบิตที่ใช้จัดเก็บพารามิเตอร์ของโมเดล ตัวอย่างเช่น สมมติว่าพารามิเตอร์ของโมเดลได้รับการจัดเก็บเป็นจํานวนจุดลอยตัว 32 บิต การแปลงเชิงปริมาณจะแปลงพารามิเตอร์เหล่านั้นจาก 32 บิตเป็น 4, 8 หรือ 16 บิต การวัดช่วยลด ดังต่อไปนี้:

    • การใช้การประมวลผล หน่วยความจำ ดิสก์ และเครือข่าย
    • ได้เวลาอนุมานการคาดการณ์ล่วงหน้าแล้ว
    • การใช้พลังงาน

    อย่างไรก็ตาม บางครั้งการวัดปริมาณจะลดความถูกต้องของโมเดล การคาดการณ์

คิว

#TensorFlow

การดำเนินการของ TensorFlow ที่นำข้อมูลคิวไปใช้ ใหม่ มักใช้ใน I/O

R

RAG

#fundamentals

ตัวย่อของ Generation ที่เพิ่มการดึงข้อมูล

Random Forest

#df

ชุดค่าผสมของต้นไม้การตัดสินใจ ซึ่งแต่ละต้นได้รับการฝึกด้วยสัญญาณรบกวนแบบสุ่มที่เฉพาะเจาะจง เช่น การแบ่งกลุ่ม

ป่าสุ่มเป็นป่าการตัดสินใจประเภทหนึ่ง

นโยบายแบบสุ่ม

#rl

ในการเรียนรู้แบบเสริมกำลัง นโยบายที่เลือก action แบบสุ่ม

การจัดอันดับ

ประเภทของการเรียนรู้แบบมีการควบคุมดูแลประเภทหนึ่งที่ จุดประสงค์ของการจัดเรียงรายการคือ

ลําดับ (ลําดับชั้น)

ตำแหน่งตามลำดับของชั้นเรียนในโจทย์แมชชีนเลิร์นนิงที่จัดหมวดหมู่ จากสูงสุดไปต่ำสุด เช่น การจัดอันดับพฤติกรรม ระบบสามารถจัดอันดับรางวัลของสุนัขจากสูงสุด (สเต็ก) ถึง ต่ำสุด (ผักเคลที่ร่วงโรย)

rank (Tensor)

#TensorFlow

จำนวนมิติข้อมูลใน Tensor เช่น เวกเตอร์มีลําดับ 1, เมทริกซ์มีลําดับ 2 และจำนวนจริงมีลําดับ 0

โปรดอย่าสับสนกับลําดับ (ลําดับชั้น)

ผู้ให้คะแนน

#fundamentals

บุคคลที่ระบุป้ายกำกับสำหรับตัวอย่าง "ผู้กำกับเนื้อหา" เป็นชื่อเรียกผู้ให้คะแนนอีกชื่อหนึ่ง

การเรียกคืน

เมตริกสำหรับรูปแบบการจัดประเภทที่ตอบคำถาม คำถามต่อไปนี้

เมื่อข้อมูลจริงเป็นคลาสที่เป็นบวก เปอร์เซ็นต์การคาดการณ์ที่โมเดลระบุอย่างถูกต้องว่าเป็นคลาสที่เป็นบวกคือเท่าใด

สูตรมีดังนี้

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

โดยมี

  • ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสเชิงบวกอย่างถูกต้อง
  • ผลลบลวงหมายความว่าโมเดลคาดการณ์ผิดพลาดคลาสเชิงลบ

ตัวอย่างเช่น สมมติว่าโมเดลของคุณทำการคาดการณ์ 200 ครั้งในตัวอย่างที่มีข้อมูลพื้นความจริงเป็นคลาสที่เป็นบวก จากการคาดการณ์ 200 รายการนี้

  • 180 รายการเป็นผลบวกจริง
  • 20 เป็นผลลบลวง

ในกรณีนี้

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

ดูการจัดประเภท: ความถูกต้อง การจดจำ ความแม่นยำ และความเกี่ยวข้อง เมตริก เพื่อดูข้อมูลเพิ่มเติม

ระบบการแนะนำ

#recsystems

ระบบที่เลือกรายการที่ต้องการจำนวนไม่มากนักจากชุดข้อความขนาดใหญ่ให้กับผู้ใช้แต่ละราย ตัวอย่างเช่น ระบบการแนะนำวิดีโออาจแนะนำวิดีโอ 2 รายการจากคลังวิดีโอ 100,000 รายการ โดยเลือกCasablanca และThe Philadelphia Story สำหรับผู้ใช้รายหนึ่ง และWonder Woman และBlack Panther สำหรับอีกรายหนึ่ง ระบบการแนะนำวิดีโออาจ โดยอิงตามปัจจัยต่างๆ เช่น

  • ภาพยนตร์ที่ผู้ใช้ที่คล้ายกันเคยให้คะแนนหรือรับชม
  • ประเภท ผู้กำกับ นักแสดง กลุ่มประชากรเป้าหมาย...

Rectified Linear Unit (ReLU)

#fundamentals

ฟังก์ชันการเปิดใช้งานที่มีลักษณะการทำงานดังต่อไปนี้

  • หากอินพุตเป็นลบหรือ 0 เอาต์พุตจะเป็น 0
  • หากอินพุตเป็นค่าบวก เอาต์พุตจะเท่ากับอินพุต

เช่น

  • หากอินพุตคือ -3 เอาต์พุตจะเป็น 0
  • ถ้าอินพุตคือ +3 เอาต์พุตจะเป็น 3.0

นี่คือผัง ReLU

ผังพิกัดคาร์ทีเซียนของ 2 เส้น บรรทัดแรกมีค่า y คงที่ที่ 0 ซึ่งวิ่งไปตามแกน x จาก -infinity,0 ถึง 0,-0
          บรรทัดที่สองเริ่มต้นที่ 0,0 เส้นนี้มีความชัน +1 ดังนั้นจึงวิ่งจาก 0,0 ถึง +infinity,+infinity

ReLU เป็นฟังก์ชันการเปิดใช้งานที่ได้รับความนิยมมาก แม้จะมีลักษณะการทำงานที่เรียบง่าย ReLU ยังคงทำให้โครงข่ายประสาทเรียนรู้แบบnonlinearได้ ความสัมพันธ์ระหว่าง features กับป้ายกำกับ

โครงข่ายประสาทแบบซ้ำ

#seq

โครงข่ายระบบประสาทเทียมที่จงใจเรียกใช้หลายเครือข่าย โดยให้ส่วนต่างๆ ของแต่ละฟีดทำงานครั้งถัดไป โดยเฉพาะอย่างยิ่ง เลเยอร์ที่ซ่อนอยู่จากการเรียกใช้ครั้งก่อนทำให้แท็ก ลงในเลเยอร์ที่ซ่อนอยู่เดียวกันในการเรียกใช้ครั้งถัดไป เครือข่ายประสาทแบบซ้ำมีประโยชน์อย่างยิ่งในการประเมินลำดับ เพื่อให้ชั้นที่ซ่อนอยู่สามารถเรียนรู้จากการเรียกใช้เครือข่ายประสาทก่อนหน้านี้ในส่วนก่อนหน้าของลำดับ

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโครงข่ายประสาทแบบเกิดซ้ำที่ ทำงาน 4 ครั้ง โปรดสังเกตว่าค่าที่เรียนรู้ในเลเยอร์ที่ซ่อนอยู่จาก การเรียกใช้ครั้งแรกจะกลายเป็นส่วนหนึ่งของอินพุตไปยังเลเยอร์ที่ซ่อนอยู่ใน การวิ่งครั้งที่ 2 ในทำนองเดียวกัน ค่าเรียนรู้ในเลเยอร์ที่ซ่อนอยู่ของ การเรียกใช้ครั้งที่ 2 จะกลายเป็นส่วนหนึ่งของอินพุตไปยังเลเยอร์ที่ซ่อนอยู่เดียวกันใน การวิ่งครั้งที่ 3 ในวิธีนี้ โครงข่ายประสาทแบบเกิดซ้ำจะค่อยๆ ฝึกและ คาดการณ์ความหมายของลำดับทั้งหมดแทนที่จะคาดเดาเฉพาะความหมาย ของคำแต่ละคำได้

RNN ที่ทำงาน 4 ครั้งเพื่อประมวลผลคำที่ป้อน 4 คำ

โมเดลการถดถอย

#fundamentals

โมเดลที่สร้างการคาดการณ์ที่เป็นตัวเลข (ในทางตรงกันข้าม โมเดลการจัดประเภทจะสร้างการคาดการณ์ระดับชั้น) ตัวอย่างเช่น ต่อไปนี้คือโมเดลการถดถอยทั้งหมด

  • โมเดลที่คาดการณ์มูลค่าของบ้านหนึ่งๆ เช่น 423,000 ยูโร
  • โมเดลที่คาดการณ์อายุขัยเฉลี่ยของต้นไม้บางต้น เช่น 23.2 ปี
  • โมเดลที่คาดการณ์ปริมาณน้ำฝนที่ตกลงในเมืองหนึ่งๆ ในช่วง 6 ชั่วโมงข้างหน้า เช่น 0.18 นิ้ว

โมเดลการถดถอยที่พบได้ทั่วไป 2 ประเภท ได้แก่

โมเดลที่แสดงผลลัพธ์การคาดการณ์ที่เป็นตัวเลขไม่ใช่โมเดลการถดถอยเสมอไป ในบางกรณี การคาดคะเนตัวเลขเป็นเพียงโมเดลการจัดประเภทเท่านั้น ที่มีชื่อคลาสเป็นตัวเลข ตัวอย่างเช่น โมเดลที่คาดการณ์รหัสไปรษณีย์ที่เป็นตัวเลขเป็นโมเดลการจัดประเภท ไม่ใช่โมเดลการถดถอย

Regularization

#fundamentals

กลไกใดๆ ที่ช่วยลดการจับคู่ที่มากเกินไป ประเภทของการทำให้เป็นระเบียบที่ได้รับความนิยม ได้แก่

การปรับให้เหมาะสมยังหมายถึงการลดโทษความซับซ้อนของโมเดลได้ด้วย

อัตราปกติ

#fundamentals

ตัวเลขที่ระบุความสำคัญสัมพัทธ์ของ การทำให้เป็นรูปแบบเดิมในระหว่างการฝึก ยกระดับ อัตราการแปลงมาตรฐานช่วยลดการปรับมากเกินไปแต่อาจ ลดกำลังการคาดการณ์ของโมเดลลง ในทางกลับกัน การลดหรือละเว้น อัตรามาตรฐานจะทำให้มีการปรับมากเกินไป

การเรียนรู้แบบเสริมกำลัง (RL)

#rl

ตระกูลอัลกอริทึมที่เรียนรู้นโยบายที่เหมาะสมที่สุด โดยมีเป้าหมายเพื่อเพิ่มผลตอบแทนสูงสุดเมื่อโต้ตอบกับสภาพแวดล้อม เช่น รางวัลสูงสุดของเกมส่วนใหญ่คือการได้รับชัยชนะ ระบบการเรียนรู้ด้วยการทำซ้ำจะกลายเป็นผู้เชี่ยวชาญในการเล่นเกมที่ซับซ้อนได้โดยการประเมินลำดับของการเคลื่อนไหวในเกมก่อนหน้านี้ซึ่งนำไปสู่ชัยชนะและลำดับที่นำไปสู่การแพ้

การเรียนรู้แบบเสริมแรงจากความคิดเห็นของมนุษย์ (RLHF)

#generativeAI
#rl

ใช้ความคิดเห็นจากผู้ให้คะแนนที่เป็นมนุษย์เพื่อปรับปรุงคุณภาพของคำตอบของโมเดล เช่น กลไก RLHF อาจขอให้ผู้ใช้ให้คะแนนคุณภาพของคำตอบของโมเดลด้วยอีโมจิ 👍 หรือ 👎 จากนั้นระบบจะปรับการตอบสนองในอนาคต โดยอิงจากความคิดเห็นนั้น

ReLU

#fundamentals

ตัวย่อของ Rectified Linear Unit

บัฟเฟอร์การเล่นซ้ำ

#rl

ในอัลกอริทึมแบบ DQN หน่วยความจําที่เอเจนต์ใช้เพื่อจัดเก็บการเปลี่ยนสถานะเพื่อใช้ในการทําซ้ำประสบการณ์

ตัวจำลอง

สำเนาของชุดการฝึกหรือโมเดล ซึ่งมักจะอยู่ในเครื่องอื่น ตัวอย่างเช่น ระบบอาจใช้กลยุทธ์ต่อไปนี้ในการใช้การขนานกันของข้อมูล

  1. วางแบบจำลองของโมเดลที่มีอยู่ในเครื่องหลายเครื่อง
  2. ส่งชุดย่อยที่แตกต่างกันของชุดการฝึกไปยังสําเนาแต่ละรายการ
  3. รวมการอัปเดตพารามิเตอร์

อคติในการรายงาน

#fairness

ข้อเท็จจริงที่ว่าความถี่ในการเขียนเกี่ยวกับการกระทำ ผลลัพธ์หรือทรัพย์สินไม่ได้สะท้อนถึงชีวิตจริง ความถี่หรือระดับคุณสมบัติของพร็อพเพอร์ตี้ กลุ่มบุคคลบางกลุ่ม อคติในการรายงานอาจส่งผลต่อการเรียบเรียง จากข้อมูลที่ใช้เรียนรู้ระบบแมชชีนเลิร์นนิง

เช่น ในหนังสือ คำว่า laughed พบบ่อยกว่าbreathed โมเดลแมชชีนเลิร์นนิงที่ประมาณความถี่สัมพัทธ์ของการหัวเราะและการหายใจจากคลังหนังสืออาจพิจารณาว่าการหัวเราะพบบ่อยกว่าการหายใจ

การนำเสนอ

กระบวนการแมปข้อมูลกับฟีเจอร์ที่มีประโยชน์

การจัดอันดับใหม่

#recsystems

ระยะสุดท้ายของระบบการแนะนำ ซึ่งระบบอาจให้คะแนนรายการที่ได้รับคะแนนแล้วอีกครั้งตามอัลกอริทึมอื่นๆ (โดยทั่วไปไม่ใช่ ML) การจัดอันดับใหม่จะประเมินรายการที่สร้างขึ้นจากระยะการให้คะแนน โดยดำเนินการต่างๆ เช่น

  • การนำรายการที่ผู้ใช้ซื้อไปแล้วออก
  • เพิ่มคะแนนให้รายการใหม่ๆ

การสร้างที่เพิ่มการดึงข้อมูล (RAG)

#fundamentals

เทคนิคในการปรับปรุงคุณภาพ เอาต์พุตโมเดลภาษาขนาดใหญ่ (LLM) ด้วยแหล่งข้อมูลความรู้ที่ดึงมาหลังจากการฝึกโมเดล RAG ช่วยเพิ่มความแม่นยำของคำตอบ LLM โดยการอนุญาตให้ LLM ที่ผ่านการฝึกอบรมเข้าถึงข้อมูลที่ดึงมาจากฐานความรู้หรือเอกสารที่เชื่อถือได้

แรงจูงใจทั่วไปในการใช้การสร้างที่เสริมด้วยการดึงข้อมูลมีดังนี้

  • เพิ่มความแม่นยำของข้อเท็จจริงของคำตอบที่โมเดลสร้างขึ้น
  • การให้สิทธิ์เข้าถึงความรู้ที่โมเดลไม่ได้ฝึก
  • การเปลี่ยนความรู้ที่โมเดลใช้
  • การเปิดใช้โมเดลเพื่ออ้างอิงแหล่งที่มา

ตัวอย่างเช่น สมมติว่าแอปเคมีใช้ PaLM API เพื่อสร้างข้อมูลสรุปที่เกี่ยวข้องกับการค้นหาของผู้ใช้ เมื่อแบ็กเอนด์ของแอปได้รับการค้นหา แบ็กเอนด์จะดำเนินการดังนี้

  1. ค้นหาข้อมูล ("ดึง") ที่เกี่ยวข้องกับการค้นหาของผู้ใช้
  2. เพิ่ม ("การเสริม") ข้อมูลเคมีที่เกี่ยวข้องในข้อความค้นหาของผู้ใช้
  3. สั่งให้ LLM สร้างสรุปตามข้อมูลที่เพิ่มเข้ามา

รีเทิร์น

#rl

ในการเรียนรู้แบบเสริมกำลัง เมื่อเลือกนโยบายและสถานะหนึ่ง Return คือผลรวมของรางวัลทั้งหมดที่ agent คาดว่าจะได้รับเมื่อปฏิบัติตามนโยบายจาก state จนถึงตอนท้ายของตอน ตัวแทน คำนึงถึงความล่าช้าของรางวัลที่คาดไว้เนื่องจากการลดราคารางวัล ตามการเปลี่ยนแปลงของรัฐที่กำหนดเพื่อรับรางวัล

ดังนั้น หากปัจจัยส่วนลดคือ \(\gamma\)และ \(r_0, \ldots, r_{N}\) จะแสดงรางวัลจนกว่าจะจบตอน ซึ่งจะมีการคำนวณการคืนสินค้า ดังนี้

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

รางวัล

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ผลลัพธ์ที่เป็นตัวเลขของการทำการดำเนินการในสถานะตามที่สภาพแวดล้อมกำหนด

การปรับแนวสัน

คำพ้องความหมายของ Regularization แบบ 2 คําว่า วิธีการจัดกฎแนวสันมีการใช้บ่อยกว่าในสถิติเพียงอย่างเดียว ขณะที่ระบบมักจะใช้ L2 มาตรฐาน ในแมชชีนเลิร์นนิง

RNN

#seq

ตัวย่อของ โครงข่ายประสาทแบบย้อนกลับ

เส้นโค้ง ROC (Receiver Operating Characteristic)

#fundamentals

กราฟของอัตราผลบวกจริงเทียบกับอัตราผลบวกลวงสําหรับเกณฑ์การจัดประเภทแบบต่างๆ ในการจัดประเภทแบบไบนารี

รูปร่างของเส้นโค้ง ROC บ่งบอกถึงความสามารถของโมเดลการจัดประเภทแบบไบนารี เพื่อแยกคลาสเชิงบวกออกจากคลาสเชิงลบ สมมติว่าโมเดลการจัดประเภทแบบไบนารีแยกคลาสเชิงลบทั้งหมดออกจากคลาสเชิงบวกทั้งหมดได้อย่างสมบูรณ์

เส้นจำนวนที่มีตัวอย่างบวก 8 รายการทางด้านขวาและตัวอย่างลบ 7 รายการทางด้านซ้าย

กราฟ ROC สำหรับโมเดลก่อนหน้ามีลักษณะดังนี้

เส้นโค้ง ROC แกน x คืออัตราผลบวกลวงและแกน y
          คืออัตราผลบวกจริง เส้นโค้งมีรูปตัว L แบบกลับสี เส้นโค้ง
          เริ่มต้นที่ (0.0,0.0) และไปจนถึง (0.0,1.0) จากนั้นเส้นโค้งจะเปลี่ยนจาก (0.0,1.0) เป็น (1.0,1.0)

ในทางตรงกันข้าม ภาพต่อไปนี้แสดงกราฟค่าการถดถอยเชิงลอจิสติกส์ดิบสําหรับโมเดลที่แย่มากซึ่งแยกคลาสเชิงลบออกจากคลาสเชิงบวกไม่ได้เลย

เส้นจำนวนที่มีตัวอย่างบวกและคลาสลบ
          ที่มีการปะปนกันอย่างสมบูรณ์

เส้นโค้ง ROC สำหรับโมเดลนี้จะมีลักษณะดังนี้

เส้นโค้ง ROC ซึ่งที่จริงแล้วเป็นเส้นตรงจาก (0.0,0.0)
          เป็น (1.0,1.0)

ในขณะเดียวกัน เมื่อมองในโลกแห่งความเป็นจริง โมเดลการจัดประเภทแบบไบนารีส่วนใหญ่จะแยกประเภท คลาสบวกและลบในระดับหนึ่ง แต่มักจะไม่สมบูรณ์แบบ ดังนั้น กราฟ ROC ตามปกติจะอยู่ระหว่างปลายทั้งสองด้าน ได้แก่

เส้นโค้ง ROC แกน x คืออัตราผลบวกลวงและแกน y
          คืออัตราผลบวกจริง เส้นโค้ง ROC แสดงเป็นเส้นโค้งที่ผันผวนซึ่งลากผ่านจุดต่างๆ ของเข็มทิศจากตะวันตกไปเหนือ

จุดบนเส้นโค้ง ROC ที่ใกล้กับ (0.0,1.0) มากที่สุดจะระบุเกณฑ์การแยกประเภทที่เหมาะสมในทางทฤษฎี อย่างไรก็ตาม ปัญหาอื่นๆ ในชีวิตจริง มีผลต่อการเลือกเกณฑ์การจัดประเภทที่เหมาะสม ตัวอย่างเช่น ผลลบลวงอาจสร้างความเจ็บปวดมากกว่าผลบวกลวง

เมตริกตัวเลขที่เรียกว่า AUC จะสรุปเส้นโค้ง ROC เป็นค่าทศนิยมเดียว

การแสดงข้อความแจ้งบทบาท

#language
#generativeAI

ส่วนที่ไม่บังคับของข้อความแจ้งที่ระบุกลุ่มเป้าหมาย สำหรับคำตอบของโมเดล Generative AI ไม่มีบทบาท โมเดลภาษาขนาดใหญ่จะให้คำตอบที่อาจมีประโยชน์หรือไม่มีประโยชน์ สำหรับผู้ที่ถามคำถาม เมื่อมีพรอมต์บทบาท ภาษาขนาดใหญ่ สามารถตอบคำถามในลักษณะที่เหมาะสมและมีประโยชน์มากขึ้นสำหรับ ผู้ชมเป้าหมายที่เฉพาะเจาะจง ตัวอย่างเช่น ส่วนของพรอมต์บทบาทในพรอมต์ต่อไปนี้จะเป็นตัวหนา

  • สรุปบทความนี้สำหรับปริญญาเอกด้านเศรษฐศาสตร์
  • อธิบายวิธีการทำงานของน้ำขึ้นน้ำลงสำหรับเด็กอายุ 10 ปี
  • อธิบายวิกฤตการณ์ทางการเงินปี 2008 พูดเหมือนพูดกับเด็กเล็กหรือสุนัขพันธุ์โกลเด้นรีทรีฟเวอร์

รูท

#df

โหนดเริ่มต้น (โหนดแรก เงื่อนไข) ในแผนผังการตัดสินใจ ตามธรรมเนียมแล้ว แผนภาพจะวางรูทไว้ที่ด้านบนของแผนภูมิการตัดสินใจ เช่น

แผนภูมิการตัดสินใจที่มีเงื่อนไข 2 รายการและใบ 3 ใบ เงื่อนไขเริ่มต้น (x > 2) คือรูท

ไดเรกทอรีรูท

#TensorFlow

ไดเรกทอรีที่คุณระบุสำหรับไดเรกทอรีย่อยโฮสติ้งของ TensorFlow ไฟล์เช็คพอยท์และไฟล์เหตุการณ์หลายโมเดล

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)

#fundamentals

รากที่สองของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง

ความไม่แปรปรวนตามการหมุน

#image

ในปัญหาการจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพให้สำเร็จแม้ว่าการวางแนวของรูปภาพจะเปลี่ยนไป ตัวอย่างเช่น อัลกอริทึมจะยังสามารถระบุไม้เทนนิสได้ไม่ว่าจะชี้ขึ้นหรือไม่ ตะแคงข้างหรือลง โปรดทราบว่าความแปรปรวนแบบหมุนเวียนอาจไม่เป็นที่ต้องการเสมอไป ตัวอย่างเช่น 9 กลับหัวไม่ควรจัดเป็น 9

โปรดดูความแปรปรวนของการแปลและ ความแปรปรวนของขนาด

R-squared

เมตริกการถดถอยที่ระบุความแปรผันของ ป้ายกำกับเกิดจากฟีเจอร์แต่ละรายการหรือชุดฟีเจอร์ ค่า R-squared คือค่าระหว่าง 0 ถึง 1 ซึ่งคุณตีความได้ดังนี้

  • ค่า R-squared เป็น 0 หมายความว่าไม่มีรูปแบบใดๆ ของป้ายกำกับใดเนื่องจากค่า ของ Google Play
  • R-squared ของ 1 หมายความว่ารูปแบบทั้งหมดของป้ายกำกับเกิดจากค่า ของ Google Play
  • ค่า R-squared ระหว่าง 0 ถึง 1 บ่งบอกถึงระดับที่ความหลากหลายของป้ายกำกับสามารถคาดการณ์ได้จากฟีเจอร์หนึ่งๆ หรือชุดฟีเจอร์ เช่น ค่า R ยกกำลังสอง 0.10 หมายความว่าความแปรปรวน 10 เปอร์เซ็นต์ในป้ายกำกับเกิดจากชุดฟีเจอร์ ค่า R ยกกำลังสอง 0.20 หมายความว่า 20 เปอร์เซ็นต์เกิดจากชุดฟีเจอร์ และอื่นๆ

ค่า R ยกกำลังสองคือค่ากำลังสองของสัมประสิทธิ์สหสัมพันธ์ของ Pearson ระหว่างค่าที่โมเดลคาดการณ์ไว้กับข้อมูลจากการสังเกตการณ์โดยตรง

S

อคติในการสุ่มตัวอย่าง

#fairness

ดูการเลือกแบบลำเอียง

การสุ่มตัวอย่างแบบสุ่มตัวอย่างแทนที่

#df

วิธีการเลือกรายการจากชุดรายการที่เป็นไปได้ ซึ่งสามารถเลือกรายการเดียวกันได้หลายครั้ง วลี "มีการแทนที่" หมายความว่า ซึ่งหลังจากการเลือกแต่ละครั้ง รายการที่เลือกไว้จะถูกส่งคืนไปยังพูล จากรายการผู้สมัคร วิธีการผกผัน การสุ่มตัวอย่างโดยไม่แทนที่ หมายความว่าจะสามารถเลือกรายการหนึ่งๆ ได้เพียงครั้งเดียว

เช่น ลองพิจารณาชุดผลไม้ต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

สมมติว่าระบบสุ่มเลือก fig เป็นรายการแรก หากใช้การสุ่มตัวอย่างพร้อมการแทนที่ ระบบจะเลือก รายการที่ 2 จากชุดต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

ใช่ การตั้งค่าเหมือนเดิม ดังนั้นระบบอาจ เลือก fig อีกครั้ง

หากใช้การสุ่มตัวอย่างแบบไม่แทนที่ เมื่อเลือกตัวอย่างแล้ว คุณจะเลือกตัวอย่างนั้นไม่ได้อีก ตัวอย่างเช่น หากระบบสุ่มเลือก fig เป็นตัวอย่างแรก ระบบจะไม่เลือก fig อีกครั้ง ดังนั้น ระบบจะเลือกตัวอย่างที่ 2 จากชุด (ที่ลดลง) ต่อไปนี้

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

รูปแบบที่แนะนําสําหรับการบันทึกและการกู้คืนโมเดล TensorFlow SavedModel คือรูปแบบการเรียงอันดับแบบไม่ใช้ภาษา และสามารถกู้คืนได้ ซึ่งช่วยให้ ระบบและเครื่องมือระดับสูงในการผลิต ใช้ และเปลี่ยน TensorFlow

โปรดดูส่วนการบันทึกและการกู้คืน ในคู่มือโปรแกรมเมอร์ TensorFlow เพื่อดูรายละเอียดทั้งหมด

ประหยัด

#TensorFlow

ออบเจ็กต์ TensorFlow ซึ่งทำหน้าที่บันทึกจุดตรวจสอบโมเดล

สเกลาร์

ตัวเลขเดี่ยวหรือสตริงเดี่ยวที่แสดงเป็นเทนเซอร์อันดับ 0 ได้ ตัวอย่างเช่น บรรทัดโค้ดต่อไปนี้จะสร้างสเกลาร์ 1 รายการใน TensorFlow

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

การปรับขนาด

การเปลี่ยนรูปแบบทางคณิตศาสตร์หรือเทคนิคใดๆ ที่เปลี่ยนช่วงของป้ายกำกับและ/หรือค่าฟีเจอร์ การปรับขนาดบางรูปแบบมีประโยชน์มากสำหรับการเปลี่ยนรูปแบบ เช่น การทำให้เป็นมาตรฐาน

รูปแบบการปรับขนาดทั่วไปที่มีประโยชน์ในแมชชีนเลิร์นนิง ได้แก่

  • การแปลงเชิงเส้น ซึ่งโดยทั่วไปจะใช้การลบและการหารร่วมกันเพื่อแทนที่ค่าเดิมด้วยตัวเลขระหว่าง -1 ถึง +1 หรือระหว่าง 0 ถึง 1
  • การปรับขนาดลอการิทึม ซึ่งแทนที่ค่าเดิมด้วย ลอการิทึม
  • การปรับให้เป็นมาตรฐานตามคะแนน z ซึ่งแทนที่ค่าเดิมด้วยค่าทศนิยมที่แสดงจํานวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของฟีเจอร์นั้น

scikit-learn

แพลตฟอร์มแมชชีนเลิร์นนิงแบบโอเพนซอร์สยอดนิยม ดูข้อมูลได้ที่ scikit-learn.org

การให้คะแนน

#recsystems

ส่วนหนึ่งของระบบการแนะนำที่ให้ค่าหรือการจัดอันดับสำหรับรายการแต่ละรายการที่สร้างขึ้นจากระยะการสร้างผู้สมัคร

อคติในการเลือก

#fairness

ข้อผิดพลาดในข้อสรุปที่มาจากข้อมูลตัวอย่างเนื่องจากกระบวนการคัดเลือก ที่สร้างความแตกต่างอย่างเป็นระบบระหว่างกลุ่มตัวอย่างที่พบในข้อมูล และที่สังเกตไม่ได้ ความลำเอียงในการเลือกมีอยู่ในรูปแบบต่อไปนี้

  • อคติด้านความครอบคลุม: ประชากรที่แสดงในชุดข้อมูลไม่ตรงกับประชากรที่โมเดลแมชชีนเลิร์นนิงทำการคาดการณ์
  • การให้น้ำหนักพิเศษกับการสุ่มตัวอย่าง: ระบบจะไม่เก็บรวบรวมข้อมูลแบบสุ่มจากกลุ่มเป้าหมาย
  • อคติที่ไม่ตอบกลับ (หรือเรียกอีกอย่างว่า อคติในการเข้าร่วม): ผู้ใช้จาก บางกลุ่มเลือกไม่เข้าร่วมทำแบบสำรวจในอัตราที่ต่างจากผู้ใช้ กลุ่มอื่นๆ

ตัวอย่างเช่น สมมติว่าคุณกำลังสร้างโมเดลแมชชีนเลิร์นนิงที่คาดการณ์ความพึงพอใจของผู้คนที่มีต่อภาพยนตร์ หากต้องการรวบรวมข้อมูลการฝึก คุณแจกแบบสำรวจให้กับทุกคนที่อยู่แถวหน้าโรงหนัง ที่กำลังแสดงภาพยนตร์ ฟังดูแล้วอาจดูเหมือนเป็นวิธีที่สมเหตุสมผลในการรวบรวมชุดข้อมูล แต่การเก็บรวบรวมข้อมูลในรูปแบบนี้อาจทำให้เกิดการเลือกแบบลำเอียงในรูปแบบต่อไปนี้

  • ความลำเอียงด้านความครอบคลุม: การสุ่มตัวอย่างจากประชากรที่เลือกดูภาพยนตร์อาจทําให้การคาดการณ์ของโมเดลไม่สามารถนําไปใช้กับผู้ที่ไม่ได้แสดงความสนใจระดับนั้นในภาพยนตร์
  • การให้น้ำหนักพิเศษในการสุ่มตัวอย่าง: แทนที่จะสุ่มตัวอย่างแบบสุ่มจาก ประชากรที่ต้องการ (คนที่อยู่ในภาพยนตร์ทั้งหมด) คุณได้สุ่มตัวอย่างเท่านั้น คนที่อยู่แถวหน้าสุด เป็นไปได้ว่าผู้ที่นั่งแถวหน้าสนใจภาพยนตร์มากกว่าผู้ที่นั่งแถวอื่น
  • ความลำเอียงจากการไม่ตอบ: โดยทั่วไปแล้ว ผู้ที่ยึดมั่นในความคิดเห็นของตนมีแนวโน้มที่จะตอบแบบสํารวจที่ไม่บังคับบ่อยกว่าผู้ที่ยึดมั่นในความคิดเห็นของตนไม่มาก เนื่องจากแบบสํารวจภาพยนตร์เป็นแบบไม่บังคับ คำตอบจึงมีแนวโน้มที่จะเป็นแบบกระจาย 2 กลุ่มมากกว่าแบบกระจายปกติ (รูประฆัง)

การใส่ใจตนเอง (หรือที่เรียกว่าเลเยอร์การใส่ใจตนเอง)

#language

เลเยอร์เครือข่ายประสาทที่เปลี่ยนลําดับของ Embdedding (เช่น Embdedding โทเค็น) เป็นลําดับ Embdedding อื่น การฝังแต่ละรายการในลำดับเอาต์พุต สร้างขึ้นโดยการผสานรวมข้อมูลจากองค์ประกอบของลำดับอินพุต ผ่านกลไก Attention

ส่วน self ของ self-attention หมายถึงลำดับที่สนใจตัวมันเอง ไม่ใช่บริบทอื่น การใส่ใจตนเองเป็นหนึ่งในองค์ประกอบหลักของ Transformer และใช้คำศัพท์การค้นหาพจนานุกรม เช่น "การค้นหา" "คีย์" และ "ค่า"

เลเยอร์ความสนใจตนเองจะเริ่มต้นด้วยลำดับการนำเสนออินพุต ซึ่งก็คือ สำหรับแต่ละคำ การนําเสนออินพุตสําหรับคําอาจเป็นการฝังแบบง่าย สําหรับคําแต่ละคําในลําดับอินพุต เครือข่ายจะประเมินความเกี่ยวข้องของคํานั้นกับองค์ประกอบทุกรายการในลําดับคําทั้งหมด คะแนนความเกี่ยวข้องจะเป็นตัวกำหนดว่า คำนั้นๆ จะมีความหมายมากน้อยเพียงใด ประกอบด้วยการแทนคำอื่นๆ

ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

สัตว์ไม่ได้ข้ามถนนเนื่องจากเหนื่อยเกินไป

ภาพประกอบต่อไปนี้ (จาก Transformer: สถาปัตยกรรมโครงข่ายระบบประสาทเทียมใหม่สำหรับภาษา ทำความเข้าใจ) แสดงรูปแบบความสนใจของเลเยอร์ความสนใจตนเองสำหรับคำสรรพนามนี้ โดย ความมืดของแต่ละบรรทัดแสดงว่าแต่ละคำมีส่วนทำให้เกิด การนำเสนอ:

ประโยคต่อไปนี้ปรากฏขึ้น 2 ครั้ง: สัตว์ไม่ข้ามถนนเนื่องจากเหนื่อยเกินไป เส้นเชื่อมต่อคำสรรพนาม it ในประโยคหนึ่งกับโทเค็น 5 รายการ (The, animal, street, it และ period) ในประโยคอื่น  เส้นแบ่งระหว่างคำสรรพนาม
          และคำว่าสัตว์นั้นแข็งแกร่งที่สุด

เลเยอร์การใส่ใจตนเองจะไฮไลต์คำที่เกี่ยวข้องกับ "เนื้อหานั้น" ด้วยวิธีนี้ ชั้นความสนใจได้เรียนรู้วิธีไฮไลต์คำที่ หมายถึงการกำหนดน้ำหนักสูงสุดให้กับสัตว์

สําหรับลําดับ โทเค็น n รายการ การใส่ใจตนเองจะเปลี่ยนลําดับของ n รายการ embeddings แยกกันทีละรายการตามตําแหน่งในลําดับ

โปรดอ่านความสนใจและ การตั้งความสนใจของตนเองแบบหลายศีรษะ

การเรียนรู้ภายใต้การควบคุมดูแลด้วยตนเอง

กลุ่มเทคนิคในการเปลี่ยน ปัญหาแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล ให้เป็นปัญหาแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โดยการสร้างป้ายกำกับตัวแทนจาก ตัวอย่างที่ไม่มีป้ายกำกับ

โมเดลที่อิงตาม Transformer บางรุ่น เช่น BERT ใช้การเรียนรู้แบบควบคุมดูแลตนเอง

การฝึกอบรมแบบควบคุมดูแลด้วยตนเองเป็น การเรียนรู้แบบกึ่งมีการควบคุมดูแล

การฝึกอบรมด้วยตนเอง

รูปแบบหนึ่งของการเรียนรู้แบบควบคุมดูแลตนเองที่มีประโยชน์อย่างยิ่งเมื่อเงื่อนไขต่อไปนี้ทั้งหมดเป็นจริง

การฝึกด้วยตนเองจะทํางานโดยการทําซ้ำ 2 ขั้นตอนต่อไปนี้จนกว่าโมเดลจะหยุดปรับปรุง

  1. ใช้แมชชีนเลิร์นนิงที่มีการควบคุมดูแลเพื่อฝึกโมเดลด้วยตัวอย่างที่ติดป้ายกำกับ
  2. ใช้โมเดลที่สร้างในขั้นตอนที่ 1 เพื่อสร้างการคาดการณ์ (ป้ายกํากับ) ในตัวอย่างที่ไม่มีป้ายกํากับ โดยย้ายตัวอย่างที่มีความเชื่อมั่นสูงไปยังตัวอย่างที่มีป้ายกํากับซึ่งมีป้ายกํากับที่คาดการณ์

โปรดสังเกตว่าการทำซ้ำในขั้นตอนที่ 2 จะเพิ่มตัวอย่างที่มีป้ายกำกับสำหรับขั้นตอนที่ 1 ลงใน บนรถไฟ

การเรียนรู้ผ่านการควบคุมดูแลบางส่วน

การฝึกโมเดลด้วยข้อมูลที่มีตัวอย่างการฝึกบางส่วนมีป้ายกำกับ แต่ตัวอย่างอื่นๆ ไม่มี เทคนิคอย่างหนึ่งของการเรียนรู้แบบควบคุมบางส่วนคือการอนุมานป้ายกำกับสำหรับตัวอย่างที่ไม่มีป้ายกำกับ จากนั้นฝึกป้ายกำกับที่อนุมานเพื่อสร้างโมเดลใหม่ การเรียนรู้แบบกึ่งมีการควบคุมดูแลมีประโยชน์ในกรณีที่ป้ายกำกับมีราคาแพงในการรับ แต่ตัวอย่างที่ไม่ติดป้ายกำกับนั้น มีอยู่มากมาย

การฝึกตนเองเป็นเทคนิคหนึ่งสำหรับผู้ที่มีการควบคุมดูแลบางส่วน การเรียนรู้

แอตทริบิวต์ที่มีความละเอียดอ่อน

#fairness
คุณลักษณะที่เป็นมนุษย์ที่อาจได้รับพิจารณาพิเศษด้านกฎหมาย เหตุผลทางจริยธรรม ทางสังคม หรือส่วนตัว

การวิเคราะห์ความเห็น

#language

การใช้อัลกอริทึมสถิติหรือแมชชีนเลิร์นนิงเพื่อพิจารณาทัศนคติโดยรวมของกลุ่ม (เชิงบวกหรือเชิงลบ) ต่อบริการ ผลิตภัณฑ์ องค์กร หรือหัวข้อ ตัวอย่างเช่น การใช้ การทำความเข้าใจภาษาธรรมชาติ อัลกอริทึมสามารถทำการวิเคราะห์ความเห็นเกี่ยวกับความคิดเห็นที่เป็นข้อความ จากหลักสูตรของมหาวิทยาลัย เพื่อกำหนดระดับปริญญาที่นักศึกษา โดยทั่วไปชอบหรือไม่ชอบหลักสูตรนั้น

โมเดลลำดับ

#seq

โมเดลที่อินพุตมีความเกี่ยวข้องตามลำดับ ตัวอย่างเช่น การคาดการณ์ วิดีโอถัดไปที่ดูจากวิดีโอตามลำดับที่ดูก่อนหน้านี้

งานตามลำดับสู่ลำดับ

#language

งานที่จะแปลงลำดับอินพุตของโทเค็นเป็นลำดับเอาต์พุตของโทเค็น เช่น ลำดับต่อลำดับที่นิยมใช้กัน 2 ประเภท ได้แก่

  • นักแปล:
    • ตัวอย่างลำดับอินพุต: "ฉันรักคุณ"
    • ตัวอย่างลำดับเอาต์พุต: "Je t'aime"
  • การตอบคำถาม:
    • ตัวอย่างลำดับอินพุต: "ฉันต้องใช้รถของฉันในนิวยอร์กซิตี้ไหม"
    • ตัวอย่างลำดับเอาต์พุต: "ไม่ โปรดเก็บรถไว้ที่บ้าน"

หน่วยบริโภค

กระบวนการทําให้โมเดลที่ผ่านการฝึกพร้อมใช้งานเพื่อคาดการณ์ผ่านการอนุมานออนไลน์หรือการอนุมานแบบออฟไลน์

รูปร่าง (Tensor)

จำนวนขององค์ประกอบในมิติข้อมูลแต่ละรายการของ Tensor รูปร่างจะแสดงเป็นรายการจำนวนเต็ม ตัวอย่างเช่น เทนเซอร์ 2 มิติต่อไปนี้มีรูปร่างเป็น [3,4]

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow ใช้รูปแบบหลักแถว (สไตล์ C) เพื่อแสดงลำดับของ ขนาดต่างๆ ซึ่งเป็นสาเหตุที่ทำให้รูปร่างใน TensorFlow เป็น [3,4] แทนที่จะเป็น [4,3] กล่าวคือ ใน Tensor ของ TensorFlow แบบ 2 มิติ รูปร่างจะคือ [จํานวนแถว จํานวนคอลัมน์]

รูปร่างแบบคงที่คือรูปร่างของเทมพอร์ที่ทราบ ณ เวลาที่คอมไพล์

รูปร่างแบบไดนามิกไม่รู้จักในเวลาคอมไพล์ จึงขึ้นอยู่กับข้อมูลรันไทม์ Tensor อาจแสดงด้วย มิติข้อมูลตัวยึดตำแหน่งใน TensorFlow เช่น [3, ?]

ชาร์ด

#TensorFlow
#GoogleCloud

ส่วนย่อยเชิงตรรกะของชุดการฝึกหรือ model โดยทั่วไป กระบวนการบางอย่างจะสร้างกลุ่มย่อยโดยการแบ่งตัวอย่างหรือพารามิเตอร์ออกเป็นกลุ่มที่มีขนาดเท่าๆ กัน (โดยปกติ) จากนั้นระบบจะกำหนดชาร์ดแต่ละรายการให้กับคอมพิวเตอร์เครื่องอื่น

การชาร์ดดิ้งโมเดลเรียกว่าโมเดลคู่ขนาน การชาร์ดดิ้งข้อมูลเรียกว่าข้อมูลคู่ขนาน

การหดตัว

#df

พารามิเตอร์ไฮเปอร์พารามิเตอร์ใน การเพิ่มการไล่ระดับสีที่ควบคุม มากเกินไป การลดลงในการเพิ่มประสิทธิภาพด้วยการเพิ่มการลาดชันจะคล้ายกับอัตราการเรียนรู้ในการลดการลาดชัน การหดตัวเป็นทศนิยม ค่าระหว่าง 0.0 ถึง 1.0 ค่าการหดตัวที่ต่ำลงจะช่วยลดการพอดีมากเกินไปได้มากกว่าค่าการหดตัวที่สูง

ฟังก์ชัน Sigmoid

#fundamentals

ฟังก์ชันทางคณิตศาสตร์ที่ "บีบอัด" ค่าอินพุตให้อยู่ในช่วงที่จํากัด ซึ่งโดยทั่วไปคือ 0 ถึง 1 หรือ -1 ถึง +1 กล่าวคือ คุณสามารถส่งผ่านตัวเลขใดก็ได้ (2, 000, 000, ลบพันล้านก็ได้ ฯลฯ) ลงใน sigmoid และผลลัพธ์จะยังคงอยู่ใน ที่จำกัด ผังฟังก์ชันการเปิดใช้งาน Sigmoid มีลักษณะดังนี้

แผนภูมิโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมน
          -ไม่สิ้นสุด ถึง +บวก ในขณะที่ค่า y ครอบคลุมช่วงเกือบ 0 ถึง
          เกือบ 1. เมื่อ x เป็น 0, y จะเท่ากับ 0.5 ความชันของเส้นโค้งเสมอ
          เป็นบวก โดยมีความชันสูงสุดที่ 0,0.5 และค่อยๆ ลดลง
          มีความชันเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ฟังก์ชัน Sigmoid มีประโยชน์หลายอย่างในแมชชีนเลิร์นนิง ดังนี้

การวัดความคล้ายคลึง

#clustering

ในอัลกอริทึม clustering เมตริกที่ใช้ระบุ ตัวอย่างทั้งสองนั้นคล้ายคลึงกันเพียงใด (คล้ายคลึงกัน)

โปรแกรมเดียว/ข้อมูลหลายรายการ (SPMD)

เทคนิคการทำงานพร้อมกันที่ใช้การคำนวณเดียวกันในอินพุตที่ต่างกัน ข้อมูลพร้อมกันในอุปกรณ์ต่างๆ เป้าหมายของ SPMD คือเพื่อให้ได้ผลลัพธ์เร็วขึ้น ซึ่งเป็นรูปแบบการเขียนโปรแกรมแบบขนานที่พบบ่อยที่สุด

ความไม่เปลี่ยนแปลงตามขนาด

#image

ในปัญหาการจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพให้สำเร็จแม้ว่าขนาดของรูปภาพจะเปลี่ยนแปลงไป ตัวอย่างเช่น อัลกอริทึมยังคงสามารถระบุ ใช้ความละเอียด 2 ล้านพิกเซลหรือ 200,000 พิกเซล โปรดทราบว่า แม้แต่วิธีที่ดีที่สุด อัลกอริทึมการจัดประเภทรูปภาพยังคงมีขีดจำกัดด้านความแปรปรวนของขนาดในทางปฏิบัติ ตัวอย่างเช่น อัลกอริทึม (หรือมนุษย์) มักจะไม่แยกประเภท รูปภาพแมวที่ใช้เพียง 20 พิกเซล

ดูข้อมูลเพิ่มเติมได้ที่การคงที่แบบแปลและการคงที่แบบหมุน

การสเก็ตช์ภาพ

#clustering

ในแมชชีนเลิร์นนิงที่ไม่มีการกำกับดูแล ซึ่งเป็นหมวดหมู่อัลกอริทึมที่ทําการวิเคราะห์ความคล้ายคลึงเบื้องต้นจากตัวอย่าง อัลกอริทึมการร่างภาพใช้ฟังก์ชันแฮชที่คำนึงถึงตำแหน่งเพื่อระบุจุดที่มีแนวโน้มจะคล้ายกัน จากนั้นจึงจัดกลุ่มจุดเหล่านั้นเป็นกลุ่ม

การร่างภาพจะลดการประมวลผลที่จําเป็นสําหรับการคํานวณความคล้ายคลึงในชุดข้อมูลขนาดใหญ่ แทนที่จะคำนวณความคล้ายคลึงกันสำหรับทุกรายการ คู่ตัวอย่างในชุดข้อมูล เราจะคำนวณความคล้ายคลึงกันเฉพาะสำหรับแต่ละรายการ 2 จุดภายในที่เก็บข้อมูลแต่ละชุด

ข้ามแกรม

#language

n-gram ซึ่งอาจละ (หรือ "ข้าม") คำจากต้นฉบับ ซึ่งหมายความว่าแต่เดิม คำ N อาจไม่ได้อยู่ติดกัน เพิ่มเติม สัญลักษณ์ "k-skip-n-gram" เป็น n-gram ที่สามารถมีได้ถึง k คำ ถูกข้าม

เช่น "สุนัขจิ้งจอกที่ปราดเปรื่อง" มี 2 กรัมที่เป็นไปได้ดังนี้

  • "the quick"
  • "quick brown"
  • "หมาป่าสีน้ำตาล"

ตัวอย่าง "1 กรัม" คือคู่ของคำที่มีคำอื่นไม่เกิน 1 คำ ดังนั้น "สุนัขจิ้งจอกที่ปราดเปรียวสีน้ำตาล" มีคำ 1 ข้าม 2 กรัมดังนี้

  • "the brown"
  • "จิ้งจอกด่วน"

นอกจากนี้ 2-gram ทั้งหมดยังเป็น 1-skip-2-gram ด้วย เนื่องจากอาจข้ามได้น้อยกว่า 1 คำ

ปุ่มข้ามมีประโยชน์สำหรับการทำความเข้าใจบริบทรอบข้างของคำมากขึ้น ในตัวอย่างนี้ "fox" เชื่อมโยงโดยตรงกับ "quick" ในชุด 1-skip-2-grams แต่ไม่ได้อยู่ในชุด 2-grams

Skip-gram ช่วยฝึกโมเดลการฝังคำ

Softmax

#fundamentals

ฟังก์ชันที่กําหนดความน่าจะเป็นสําหรับแต่ละคลาสที่เป็นไปได้ในโมเดลการจัดประเภทแบบหลายคลาส ความน่าจะเป็นทั้งหมดจะเท่ากับ 1.0 ตัวอย่างเช่น ตารางต่อไปนี้แสดงวิธีที่ Softmax กระจาย ความน่าจะเป็นต่างๆ

รูปภาพคือ... Probability
สุนัข .85
แมว .13
ม้า .02

Softmax เรียกอีกอย่างว่า Full Softmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

การปรับแต่งพรอมต์แบบนุ่มนวล

#language
#generativeAI

เทคนิคการปรับโมเดลภาษาขนาดใหญ่สำหรับงานหนึ่งๆ โดยไม่ต้องปรับแต่งอย่างละเอียดซึ่งต้องใช้ทรัพยากรมาก การปรับพรอมต์แบบนุ่มจะปรับพรอมต์โดยอัตโนมัติเพื่อให้บรรลุเป้าหมายเดียวกันแทนที่จะฝึกน้ำหนักทั้งหมดในโมเดลใหม่

เมื่อได้รับพรอมต์ที่เป็นข้อความ การปรับพรอมต์แบบ Soft มักจะเพิ่มการฝังโทเค็นเพิ่มเติมต่อท้ายพรอมต์ และใช้ Backpropagation เพื่อเพิ่มประสิทธิภาพอินพุต

"ยาก" จะมีโทเค็นจริงแทนที่จะเป็นการฝังโทเค็น

องค์ประกอบที่กระจัดกระจาย

#language
#fundamentals

ฟีเจอร์ที่มีค่าเป็น 0 หรือเป็นค่าว่างเป็นส่วนใหญ่ ตัวอย่างเช่น ฟีเจอร์ที่มีค่า 1 ค่าเดียวและ 0 ล้านค่าเป็น 0 ล้านค่า Sparse ในทางตรงกันข้าม ฟีเจอร์แบบหนาแน่นมีค่าที่ไม่ใช่ 0 หรือว่างเป็นส่วนมาก

ในแมชชีนเลิร์นนิง ฟีเจอร์จำนวนที่ไม่น้อยก็คือฟีเจอร์จำนวนน้อย ฟีเจอร์เชิงหมวดหมู่มักจะเป็นฟีเจอร์ที่กระจัดกระจาย เช่น จากต้นไม้ 300 สายพันธุ์ที่เป็นไปได้ในป่า ตัวอย่างเดียวอาจระบุได้เพียงต้นเมเปิล หรือจากวิดีโอหลายล้านรายการ ของวิดีโอที่เป็นไปได้ในไลบรารีวิดีโอ ตัวอย่างหนึ่งอาจระบุ แค่ "Casablanca"

ในโมเดล โดยทั่วไปคุณแสดงฟีเจอร์แบบเบาบางด้วยการเข้ารหัสแบบฮอตเวิร์ก หากการเข้ารหัสแบบฮอตเวิร์กมีขนาดใหญ่ คุณอาจใส่เลเยอร์การฝังไว้ด้านบนการเข้ารหัสแบบฮอตเวิร์กเพื่อให้มีประสิทธิภาพมากขึ้น

การนำเสนอแบบกระจัดกระจาย

#language
#fundamentals

จัดเก็บเฉพาะตำแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์บางส่วน

ตัวอย่างเช่น สมมติว่าองค์ประกอบเชิงหมวดหมู่ชื่อ species ระบุสายพันธุ์ต้นไม้ 36 ชนิดในป่าแห่งหนึ่ง สมมติว่าแต่ละ example ระบุสปีชีส์เพียงชนิดเดียว

คุณสามารถใช้เวกเตอร์ร้อนเดียวเพื่อแสดงสปีชีส์ของต้นไม้ในแต่ละตัวอย่างได้ เวกเตอร์แบบฮอตเวิร์กเดียวจะมี 1 รายการเดียว (เพื่อแสดงถึงพันธุ์ไม้บางชนิดในตัวอย่างนั้น) และ 0 35 รายการ (เพื่อแสดงถึงพันธุ์ไม้ 35 ชนิดที่ไม่อยู่ในตัวอย่างนั้น) ดังนั้น การนำเสนอที่น่าสนใจ ของ maple อาจมีลักษณะเช่นนี้

เวกเตอร์ที่ตำแหน่ง 0 ถึง 23 มีค่าเป็น 0, ตำแหน่ง 24 มีค่าเป็น 1 และตำแหน่ง 25 ถึง 35 มีค่าเป็น 0

หรือการแสดงแบบเบาบางจะระบุตำแหน่งของพันธุ์นั้นๆ เท่านั้น หาก maple อยู่ที่ตำแหน่ง 24 การแสดงค่าเพียงเล็กน้อย ของ maple จะเป็นดังนี้

24

โปรดสังเกตว่าการแสดงผลแบบเบาบางมีความกะทัดรัดกว่าการแสดงผลแบบฮอตเวิร์ก

เวกเตอร์กระจัดกระจาย

#fundamentals

เวกเตอร์ที่มีค่าส่วนใหญ่เป็น 0 โปรดดูฟีเจอร์แบบเบาบางและความเบาบางด้วย

การขาดแคลนข้อมูล

จํานวนองค์ประกอบที่ตั้งค่าเป็น 0 (หรือ Null) ในเวกเตอร์หรือเมทริกซ์หารด้วยจํานวนรายการทั้งหมดในเวกเตอร์หรือเมทริกซ์นั้น ตัวอย่างเช่น ลองพิจารณาเมทริกซ์ที่มีองค์ประกอบ 100 รายการ ซึ่ง 98 เซลล์มีค่าเป็น 0 การคำนวณของ ดังนี้

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

ลักษณะที่มีอยู่น้อยหมายถึงการขาดแคลนของเวกเตอร์ลักษณะ การขาดแคลนโมเดลหมายถึงการขาดแคลนของน้ำหนักโมเดล

การรวมกลุ่มพิกัดทางภูมิศาสตร์

#image

ดูพูล

สปลิต

#df

ในแผนผังการตัดสินใจ จะเป็นอีกชื่อหนึ่งของ สภาพสินค้า

ตัวแยก

#df

ขณะฝึกแผนผังการตัดสินใจ รูทีน (และอัลกอริทึม) จะมีหน้าที่ค้นหาเงื่อนไขที่ดีที่สุดในแต่ละโหนด

SPMD

ตัวย่อของโปรแกรมเดียว / ข้อมูลหลายรายการ

ผลรวมของการสูญเสียบานพับกำลังสอง

รูปกำลังสองของการเสียบานพับ อัตราส่วนการสูญเสียแบบยกกำลังสองจะลงโทษค่าที่ผิดปกติรุนแรงกว่าอัตราส่วนการสูญเสียแบบยกกำลัง

ผลรวมของค่าสัมบูรณ์ของข้อผิดพลาด

#fundamentals

คำพ้องความหมายของ L2 Los

การฝึกอบรมแบบทีละขั้น

#language

กลยุทธ์การฝึกโมเดลตามลำดับขั้นตอนที่แยกกัน เป้าหมายอาจเป็น เพื่อเร่งกระบวนการฝึก หรือเพื่อให้โมเดลมีคุณภาพดีขึ้น

ภาพประกอบของวิธีการกองซ้อนแบบโพรเกรสซีฟแสดงอยู่ด้านล่าง

  • ขั้นที่ 1 มีเลเยอร์ที่ซ่อนอยู่ 3 เลเยอร์ ขั้นที่ 2 มีเลเยอร์ที่ซ่อนอยู่ 6 เลเยอร์ และ ขั้นที่ 3 มีเลเยอร์ที่ซ่อนอยู่ 12 เลเยอร์
  • ระยะที่ 2 จะเริ่มการฝึกด้วยน้ำหนักที่เรียนรู้ในเลเยอร์ที่ซ่อนอยู่ 3 เลเยอร์ของระยะที่ 1 ระยะที่ 3 จะเริ่มการฝึกด้วยน้ำหนักที่เรียนรู้ในเลเยอร์ที่ซ่อนอยู่ 6 เลเยอร์ของระยะที่ 2

3 ขั้นตอน ซึ่งติดป้ายกำกับว่าระยะที่ 1, ระยะที่ 2 และระยะ 3
          แต่ละระยะจะมีจำนวนเลเยอร์ต่างกัน: ระยะที่ 1 ประกอบด้วย
          3 เลเยอร์ ขั้นที่ 2 มี 6 เลเยอร์ และขั้นที่ 3 มี 12 เลเยอร์
          3 เลเยอร์จากขั้นที่ 1 จะกลายเป็น 3 เลเยอร์แรกของขั้นที่ 2
          ในทํานองเดียวกัน เลเยอร์ 6 ชั้นจากระยะที่ 2 จะกลายเป็นเลเยอร์ 6 ชั้นแรกของระยะที่ 3

ดูเพิ่มเติมได้ที่ไปป์ไลน์

รัฐ

#rl

ในการเรียนรู้ด้วยการทำซ้ำ ค่าพารามิเตอร์ที่อธิบายการกำหนดค่าปัจจุบันของสภาพแวดล้อม ซึ่งเอเจนต์ใช้เพื่อเลือกการดำเนินการ

ฟังก์ชันค่าสถานะการดําเนินการ

#rl

คำพ้องความหมายของ Q-function

คงที่

#fundamentals

การดำเนินการแบบครั้งเดียวแทนที่จะเป็นการดำเนินการอย่างต่อเนื่อง คำว่าคงที่และออฟไลน์เป็นคำพ้องความหมาย ต่อไปนี้เป็นการใช้งานทั่วไปของแบบคงที่และออฟไลน์ในเครื่อง การเรียนรู้:

  • โมเดลแบบคงที่ (หรือโมเดลออฟไลน์) คือโมเดลที่ได้รับการฝึกครั้งเดียว จากนั้น ไปสักพัก
  • การฝึกแบบคงที่ (หรือการฝึกแบบออฟไลน์) คือกระบวนการฝึกโมเดลแบบคงที่
  • การอนุมานแบบคงที่ (หรือการอนุมานแบบออฟไลน์) เป็นกระบวนการที่โมเดลสร้างการคาดการณ์หลายรายการพร้อมกัน

ตัดกับไดนามิก

การให้เหตุผลแบบคงที่

#fundamentals

คำพ้องความหมายของการอนุมานแบบออฟไลน์

ความคงที่

#fundamentals

ฟีเจอร์ที่ค่าไม่เปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักเกิดขึ้นตามเวลา ตัวอย่างเช่น ฟีเจอร์ที่มีค่าพอๆ กันในปี 2021 และ ปี 2023 จัดแสดงเรื่องราวที่ตรงไปตรงมา

ในโลกแห่งความเป็นจริง มีเพียงไม่กี่รายการที่แสดงความเป็นกลาง ฟีเจอร์เท่าๆ กัน มีความหมายเดียวกับความมั่นคง (เช่น ระดับน้ำทะเล) ที่เปลี่ยนแปลงเมื่อเวลาผ่านไป

คอนทราสต์กับ nonstationarity

ก้าว

การส่งต่อและส่งย้อนหลังของกลุ่มเดียว

ดูข้อมูลเพิ่มเติมเกี่ยวกับการส่งผ่านไปข้างหน้าและการส่งผ่านกลับได้ที่Backpropagation

ขนาดของขั้นบันได

คำพ้องความหมายของอัตราการเรียนรู้

การไล่ระดับสีแบบสโตแคติก (SGD)

#fundamentals

อัลกอริทึมการลดเชิงลาดซึ่งมีขนาดกลุ่มเท่ากับ 1 กล่าวคือ SGD จะฝึกจากตัวอย่างเดียวที่เลือกแบบสุ่มอย่างสม่ำเสมอจากชุดข้อมูลการฝึก

ระยะก้าว

#image

ในการดำเนินการแบบ Convolution หรือ Pooling เดลต้าในแต่ละมิติข้อมูลของชุดข้อมูลถัดไป ตัวอย่างเช่น ภาพเคลื่อนไหวต่อไปนี้ แสดงระยะ (1,1) ในระหว่างปฏิบัติการแบบคอนโวลูชัน (Convolutional) ดังนั้น ส่วนอินพุตถัดไปเริ่มที่ตำแหน่งด้านขวาของอินพุตก่อนหน้า ส่วนแบ่ง เมื่อการดำเนินการไปถึงขอบด้านขวา ชิ้นส่วนถัดไปทั้งหมดจะแสดง ไปทางซ้ายแต่ตำแหน่งด้านล่างลงไป

เมทริกซ์อินพุต 5x5 และตัวกรองคอนเวโลชัน 3x3 เนื่องจาก
     ระยะก้าวคือ (1,1) จะมีการใช้ตัวกรองคอนโวลูชัน (Convolutional) 9 ครั้ง ส่วนการแปลงคอนโวลูชันแรกจะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านซ้ายบนของเมทริกซ์อินพุต ส่วนที่สองจะประเมินเมทริกซ์ย่อย 3x3 ตรงกลางด้านบน ส่วนแบ่งคอนโวลูชัน (Convolutional) ลำดับที่ 3 ประเมินขนาด 3x3 ด้านบนขวา
     เมทริกซ์ย่อย  ส่วนตัดที่ 4 จะประเมินเมทริกซ์ย่อย 3x3 ทางด้านซ้ายตรงกลาง
     ส่วนที่หกที่ 5 จะประเมินเมทริกซ์ย่อย 3x3 ตรงกลาง ส่วนที่สอง
     ประเมินเมทริกซ์ย่อย 3x3 ตรงกลาง-ขวา ส่วนตัดที่ 7 จะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านซ้ายล่าง  ส่วนที่ 8 จะประเมิน
     เมทริกซ์ย่อย 3x3 จากด้านล่าง-กลาง ส่วนที่สิบจะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านขวาล่าง

ตัวอย่างก่อนหน้านี้แสดงการก้าว 2 มิติ หากเมทริกซ์อินพุตเป็นแบบ 3 มิติ ระยะห่างจะเป็นแบบ 3 มิติด้วย

การลดความเสี่ยงด้านโครงสร้าง (SRM)

อัลกอริทึมที่ทำให้เป้าหมาย 2 เป้าหมายสมดุลกัน:

  • ความจำเป็นในการสร้างโมเดลการคาดการณ์ที่ดีที่สุด (เช่น การสูญเสียต่ำสุด)
  • คุณต้องทำให้โมเดลเรียบง่ายที่สุดเท่าที่จะทำได้ (ตัวอย่างเช่น regularization)

ตัวอย่างเช่น ฟังก์ชันที่ลด Loss+regularization ใน คืออัลกอริทึมการลดความเสี่ยงเชิงโครงสร้าง

ตรงข้ามกับการลดความเสี่ยงเชิงประจักษ์

การสุ่มตัวอย่างย่อย

#image

ดูการรวม

โทเค็นคำย่อย

#language

ในโมเดลภาษา โทเค็นที่เป็น สตริงย่อยของคำ ซึ่งอาจเป็นทั้งคำ

เช่น คําอย่าง "แจกแจง" อาจแบ่งออกเป็น "รายการ" (รากคํา) และ "แจกแจง" (ส่วนต่อท้าย) ซึ่งแต่ละรายการจะแสดงด้วยโทเค็นของตัวเอง การแยกคำที่ไม่เป็นที่นิยมออกเป็นส่วนๆ ซึ่งเรียกว่า "คำย่อย" ทำให้ โมเดลภาษาเพื่อดำเนินการในส่วนส่วนประกอบของคำที่พบได้ทั่วไปมากขึ้น เช่น คำนำหน้าและคำต่อท้าย

ในทางกลับกัน คําทั่วไปอย่าง "going" อาจไม่แบ่งออกเป็นส่วนๆ และอาจแสดงด้วยโทเค็นเดียว

สรุป

#TensorFlow

ใน TensorFlow ค่าหรือชุดค่าที่คำนวณตามค่าที่เจาะจง step ซึ่งโดยปกติจะใช้สำหรับการติดตามเมตริกของโมเดลระหว่างการฝึก

แมชชีนเลิร์นนิงที่มีการควบคุมดูแล

#fundamentals

ฝึกโมเดลจากฟีเจอร์และ ป้ายกำกับที่เกี่ยวข้อง แมชชีนเลิร์นนิงที่มีการควบคุมดูแลคล้ายกัน ในการเรียนรู้แต่ละหัวข้อด้วยการศึกษาชุดคำถามและ คำตอบที่เกี่ยวข้อง หลังจากเชี่ยวชาญการเชื่อมโยงระหว่างคำถามกับคำตอบแล้ว นักเรียนจะตอบคำถามใหม่ (ที่ไม่เคยเห็นมาก่อน) ในหัวข้อเดียวกันได้

เปรียบเทียบกับแมชชีนเลิร์นนิงแบบไม่ควบคุมดูแล

ฟีเจอร์สังเคราะห์

#fundamentals

ฟีเจอร์ที่ไม่มีอยู่ในฟีเจอร์อินพุต แต่มี ประกอบขึ้นจากองค์ประกอบเหล่านั้นอย่างน้อย 1 อย่าง วิธีสร้างองค์ประกอบสังเคราะห์มีดังนี้

  • การจัดกลุ่มองค์ประกอบแบบต่อเนื่องลงในที่เก็บข้อมูลช่วง
  • การสร้างการครอสฟีเจอร์
  • การคูณ (หรือหาร) ค่าฟีเจอร์หนึ่งด้วยค่าฟีเจอร์อื่นๆ หรือคูณด้วยค่าของฟีเจอร์นั้นเอง ตัวอย่างเช่น หาก a และ b เป็นฟีเจอร์อินพุต ตัวอย่างฟีเจอร์สังเคราะห์มีดังนี้
    • ab
    • a2
  • การใช้ฟังก์ชันที่ไม่ใช่ตรีโกณมิติกับค่าองค์ประกอบ ตัวอย่างเช่น หาก c เป็นฟีเจอร์อินพุต ต่อไปนี้คือตัวอย่างของฟีเจอร์สังเคราะห์
    • sin(c)
    • ln(c)

ฟีเจอร์ที่สร้างโดยการปรับให้เป็นมาตรฐานหรือการปรับขนาด ไม่ถือว่าเป็นคุณลักษณะสังเคราะห์

T

T5

#language

โมเดลการโอนการเรียนรู้จากการแปลงข้อความเป็นข้อความ แนะนำโดย AI ของ Google ในปี 2020 T5 คือโมเดลโปรแกรมเปลี่ยนไฟล์-ตัวถอดรหัส ที่อิงจาก สถาปัตยกรรม Transformer ซึ่งได้รับการฝึกด้วยโมเดลขนาดใหญ่ ชุดข้อมูล โมเดลนี้มีประสิทธิภาพในงานการประมวลผลภาษาธรรมชาติที่หลากหลาย เช่น การสร้างข้อความ แปลภาษา และการตอบคำถามในลักษณะการสนทนา

T5 ได้ชื่อมาจากตัว T ทั้ง 5 ตัวใน "Text-to-Text Transfer Transformer"

T5X

#language

เฟรมเวิร์กแมชชีนเลิร์นนิงแบบโอเพนซอร์สที่ออกแบบ เพื่อสร้างและฝึกการประมวลผลภาษาธรรมชาติขนาดใหญ่ (NLP) T5 ใช้งานได้บน Codebase T5X (ซึ่งก็คือ สร้างขึ้นใน JAX และ Flax)

Q-learning แบบตาราง

#rl

ในการเรียนรู้แบบเสริมกำลัง ให้ใช้ Q-learning โดยใช้ตารางเพื่อจัดเก็บ ฟังก์ชัน Q สำหรับชุดค่าผสมแต่ละชุด state และการดำเนินการ

เป้าหมาย

คำพ้องความหมายของ label

เครือข่ายเป้าหมาย

#rl

ใน Deep Q-learning โครงข่ายประสาทที่เสถียร การประมาณโครงข่ายประสาทหลัก ที่โครงข่ายประสาทหลัก ใช้ฟังก์ชัน Q หรือนโยบาย จากนั้นคุณสามารถฝึกเครือข่ายหลักด้วยค่า Q ที่เครือข่ายเป้าหมายคาดการณ์ได้ ดังนั้น คุณจึงป้องกันลูปความคิดเห็นที่เกิดขึ้นเมื่อเครือข่ายหลักฝึกด้วยค่า Q ที่คาดการณ์ด้วยตนเอง การหลีกเลี่ยงความคิดเห็นนี้ ความเสถียรในการฝึกก็จะเพิ่มขึ้น

งาน

ปัญหาที่แก้ไขได้โดยใช้เทคนิคแมชชีนเลิร์นนิง เช่น

อุณหภูมิ

#language
#image
#generativeAI

พารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ควบคุมระดับของการสุ่ม ของเอาต์พุตโมเดล อุณหภูมิที่สูงขึ้น จะเกิดผลลัพธ์แบบสุ่มมากขึ้น ขณะที่อุณหภูมิที่ต่ำลง จะทำให้เอาต์พุตแบบสุ่มน้อยลง

การเลือกอุณหภูมิที่เหมาะสมที่สุดขึ้นอยู่กับแอปพลิเคชันเฉพาะและพร็อพเพอร์ตี้ที่ต้องการของเอาต์พุตของโมเดล เช่น คุณอาจเพิ่มอุณหภูมิเมื่อสร้างแอปพลิเคชันที่สร้างเอาต์พุตครีเอทีฟโฆษณา ในทางกลับกัน คุณอาจลดอุณหภูมิลงได้ เมื่อสร้างโมเดลที่จัดหมวดหมู่รูปภาพหรือข้อความเพื่อปรับปรุง ความถูกต้องและความสอดคล้องของโมเดล

อุณหภูมิมักจะใช้กับ softmax

ข้อมูลชั่วคราว

ข้อมูลที่บันทึกไว้ ณ เวลาต่างๆ เช่น ยอดขายเสื้อโค้ทกันหนาวที่บันทึกไว้ในแต่ละวันของปีจะเป็นข้อมูลตามช่วงเวลา

Tensor

#TensorFlow

โครงสร้างข้อมูลหลักในโปรแกรม TensorFlow เทนเซอร์เป็นโครงสร้างข้อมูล N มิติ (โดยที่ N อาจมีค่ามาก) ซึ่งมักเป็นจำนวนจริง เวกเตอร์ หรือเมทริกซ์ องค์ประกอบของ Tensor สามารถเก็บค่าจำนวนเต็ม ทศนิยม หรือสตริงได้

TensorBoard

#TensorFlow

แดชบอร์ดที่แสดงข้อมูลสรุปที่บันทึกไว้ระหว่างการเรียกใช้โปรแกรม TensorFlow อย่างน้อย 1 รายการ

TensorFlow

#TensorFlow

แพลตฟอร์มแมชชีนเลิร์นนิงแบบกระจายตัวขนาดใหญ่ นอกจากนี้ คำว่า "เทสลา" ยังหมายถึงเลเยอร์ API พื้นฐานในสแต็ก TensorFlow ซึ่งรองรับการคํานวณทั่วไปในกราฟการไหลของข้อมูล

แม้ว่า TensorFlow จะใช้สำหรับแมชชีนเลิร์นนิงเป็นหลัก แต่คุณก็อาจใช้ TensorFlow สำหรับงานที่ไม่ใช่ ML ที่ต้องมีการคำนวณตัวเลขโดยใช้ ของ Google Analytics

สนามเด็กเล่น TensorFlow

#TensorFlow

โปรแกรมที่แสดงภาพว่าไฮเปอร์พารามิเตอร์ต่างๆ ส่งผลต่อการฝึกโมเดล (โดยเฉพาะอย่างยิ่งการฝึกโครงข่ายประสาท) อย่างไร ไปที่ http://playground.tensorflow.org เพื่อทดลองใช้ TensorFlow Playground

TensorFlow Serving

#TensorFlow

แพลตฟอร์มสำหรับทำให้โมเดลที่ผ่านการฝึกใช้งานได้จริง

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

วงจรรวมเฉพาะแอปพลิเคชัน (ASIC) ที่ช่วยเพิ่มประสิทธิภาพ ของภาระงานใน แมชชีนเลิร์นนิง ASIC เหล่านี้จะนำไปใช้เป็น ชิป TPU หลายรายการบนอุปกรณ์ TPU

อันดับของ Tensor

#TensorFlow

ดูrank (Tensor)

รูปร่างของ Tensor

#TensorFlow

จำนวนองค์ประกอบที่ Tensor มีอยู่ในมิติข้อมูลต่างๆ ตัวอย่างเช่น [5, 10] Tensor มีรูปร่าง 5 ในมิติเดียวและ 10 ในอีกตำแหน่งหนึ่ง

ขนาด Tensor

#TensorFlow

จํานวนทั้งหมดของ Scalar ที่ Tensor มี ตัวอย่างเช่น [5, 10] Tensor มีขนาด 50

TensorStore

ไลบรารีสําหรับการอ่านและเขียนอาร์เรย์มิติหลายรายการขนาดใหญ่อย่างมีประสิทธิภาพ

เงื่อนไขการสิ้นสุด

#rl

ในการเรียนรู้ด้วยการทำซ้ำ เงื่อนไขที่ระบุว่าตอนจะสิ้นสุดเมื่อใด เช่น เมื่อตัวแทนถึงสถานะหนึ่งๆ หรือมีการเปลี่ยนสถานะเกินจำนวนเกณฑ์ ตัวอย่างเช่น ใน tic-tac-toe (รวมถึง หรือที่เรียกกันว่า "จุดกากบาท" และ "จุดตัด") ตอนจะสิ้นสุดลงเมื่อผู้เล่นทำเครื่องหมาย เว้นวรรคติดกัน 3 ครั้ง หรือเมื่อมีการทำเครื่องหมายเว้นวรรคทั้งหมด

ทดสอบ

#df

ในแผนผังการตัดสินใจ จะเป็นอีกชื่อหนึ่งของ สภาพสินค้า

การสูญเสียในการทดสอบ

#fundamentals

เมตริกที่แสดงถึงการสูญเสียของโมเดลเทียบกับชุดทดสอบ เมื่อสร้างโมเดล คุณมักจะพยายามลดการสูญเสียในการทดสอบ เนื่องจากความสูญเสียในการทดสอบที่ต่ำเป็นสัญญาณคุณภาพที่ชัดเจนกว่าความสูญเสียในการฝึกที่ต่ำหรือความสูญเสียในการทดสอบที่ต่ำ

บางครั้งช่องว่างระหว่างความสูญเสียในการทดสอบกับความสูญเสียในการฝึกหรือความสูญเสียในการตรวจสอบที่มากอาจบ่งบอกว่าคุณต้องเพิ่มอัตราการปรับสมดุล

ชุดทดสอบ

ชุดย่อยของdatasetที่สงวนไว้สำหรับการทดสอบ โมเดลที่ผ่านการฝึกแล้ว

แต่เดิมคุณจะแบ่งตัวอย่างในชุดข้อมูลออกเป็น 3 ส่วน ย่อยที่แตกต่างกัน:

ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นของชุดย่อยชุดใดชุดหนึ่งก่อนหน้านี้เท่านั้น เช่น ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดการฝึกและชุดทดสอบ

ชุดการฝึกและชุดตรวจสอบมีความเชื่อมโยงกับการฝึกโมเดลอย่างใกล้ชิด เนื่องจากชุดทดสอบเชื่อมโยงโดยอ้อมกับการฝึกเท่านั้น การสูญเสียการทดสอบเป็นเมตริกที่มีความลำเอียงและมีคุณภาพน้อยกว่า การสูญเสียการฝึกหรือการสูญเสียการตรวจสอบ

ช่วงข้อความ

#language

ช่วงดัชนีอาร์เรย์ที่เชื่อมโยงกับส่วนย่อยที่เฉพาะเจาะจงของสตริงข้อความ เช่น คำว่า good ในสตริง Python s="Be good now" ตรง ช่วงข้อความจาก 3 ถึง 6

tf.Example

#TensorFlow

มาตรฐาน บัฟเฟอร์โปรโตคอล สําหรับอธิบายข้อมูลอินพุตสําหรับการฝึกหรืออนุมานโมเดลแมชชีนเลิร์นนิง

tf.keras

#TensorFlow

การใช้งาน Keras ที่ผสานรวมกับ TensorFlow

เกณฑ์ (สำหรับแผนผังการตัดสินใจ)

#df

ในเงื่อนไขที่สอดคล้องกับแกน ค่าที่องค์ประกอบจะเปรียบเทียบด้วย เช่น 75 คือค่า ในเงื่อนไขต่อไปนี้

grade >= 75

การวิเคราะห์อนุกรมเวลา

#clustering

สาขาย่อยของแมชชีนเลิร์นนิงและสถิติที่วิเคราะห์ข้อมูลเชิงเวลา ปัญหาแมชชีนเลิร์นนิงหลายประเภทต้องใช้การวิเคราะห์อนุกรมเวลา ซึ่งรวมถึงการจัดประเภท การคลัสเตอร์ การคาดการณ์ และการตรวจหาความผิดปกติ เช่น คุณอาจใช้การวิเคราะห์อนุกรมเวลาเพื่อคาดการณ์ยอดขายเสื้อโค้ตกันหนาวในอนาคตตามเดือน โดยอิงตามข้อมูลยอดขายที่ผ่านมา

ช่วงเวลา

#seq

เซลล์ "แบบไม่ได้ม้วน" 1 เซลล์ภายในเครือข่ายประสาทแบบซ้ำ ตัวอย่างเช่น รูปต่อไปนี้จะแสดงขั้นตอน 3 ขั้น (มีป้ายกำกับด้วย ตัวห้อย t-1, t และ t+1):

ตอบสนองแบบ 3 ขั้นตอนในเครือข่ายประสาทเทียมแบบเกิดซ้ำ เอาต์พุตของช่วงเวลาแรกจะกลายเป็นอินพุตของช่วงเวลาที่ 2 เอาต์พุตของช่วงเวลาที่ 2 จะกลายเป็นอินพุตของช่วงเวลาที่ 3

โทเค็น

#language

ในโมเดลภาษา หน่วยอะตอมที่เป็นโมเดล และคาดการณ์ได้ โทเค็นมักจะเป็นหนึ่งใน ดังต่อไปนี้:

  • คำ เช่น วลี "สุนัขอย่างแมว" ประกอบด้วยคำ 3 คำ โทเค็น: "สุนัข" "ชอบ" และ "แมว"
  • อักขระ ตัวอย่างเช่น วลี "ปลาจักรยาน" ประกอบด้วย 9 โทเค็นอักขระ (โปรดทราบว่าช่องว่างนั้นนับเป็นหนึ่งในโทเค็น)
  • คำย่อย ซึ่งคำหนึ่งคำอาจเป็นโทเค็นเดียวหรือหลายโทเค็นก็ได้ คำย่อยประกอบด้วยคำหลัก คำนำหน้า หรือคำต่อท้าย ตัวอย่างเช่น โมเดลภาษาที่ใช้คำย่อยเป็นโทเค็นอาจดูคำว่า "สุนัข" เป็นโทเค็น 2 รายการ (รากคำว่า "สุนัข" และคำต่อท้ายพหูพจน์ "s") เหมือนเดิม โมเดลภาษาอาจมองเห็นคำเดียวที่ "สูงขึ้น" เป็นคำย่อยสองคำ ( รากคำ "สูง" และคำต่อท้าย "er")

ในโดเมนนอกโมเดลภาษา โทเค็นสามารถแสดง หน่วยอะตอม เช่น ในคอมพิวเตอร์วิทัศน์ โทเค็นอาจเป็นชุดย่อย รูปภาพ

Tower

องค์ประกอบของโครงข่ายประสาทแบบลึกที่เป็นโครงข่ายประสาทแบบลึก ในบางกรณี แต่ละหอคอยจะอ่านจาก กับแหล่งข้อมูลอิสระและเสาสัญญาณเหล่านั้นก็ยังคงเป็นอิสระจนกว่า รวมกันในเลเยอร์สุดท้าย ในกรณีอื่นๆ (ตัวอย่างเช่น ใน หอคอยโปรแกรมเปลี่ยนไฟล์และเครื่องมือถอดรหัสของ Transformers จำนวนมาก) หอคอยมีการเชื่อมต่อระหว่างกัน กันอยู่เสมอ

TPU

#TensorFlow
#GoogleCloud

ตัวย่อของ Tensor Processing Unit

ชิป TPU

#TensorFlow
#GoogleCloud

ตัวเร่งการอัลเจบราเชิงเส้นแบบโปรแกรมได้พร้อมหน่วยความจำแบนด์วิดท์สูงบนชิปซึ่งเพิ่มประสิทธิภาพสำหรับภาระงานแมชชีนเลิร์นนิง มีการใช้ชิป TPU หลายรายการในอุปกรณ์ TPU

อุปกรณ์ TPU

#TensorFlow
#GoogleCloud

แผงวงจรพิมพ์ (PCB) ที่มีชิป TPU หลายตัว อินเทอร์เฟซเครือข่ายที่มีแบนด์วิดท์สูง และฮาร์ดแวร์ระบายความร้อนของระบบ

ต้นแบบ TPU

#TensorFlow
#GoogleCloud

กระบวนการประสานงานกลางที่ทำงานบนเครื่องโฮสต์ที่ส่งและ รับข้อมูล ผลลัพธ์ โปรแกรม ประสิทธิภาพ และข้อมูลการทำงานของระบบ ให้แก่ผู้ปฏิบัติงาน TPU ต้นแบบ TPU จะจัดการการตั้งค่าด้วย และการปิดอุปกรณ์ TPU

โหนด TPU

#TensorFlow
#GoogleCloud

ทรัพยากร TPU บน Google Cloud พร้อม ประเภท TPU นอต TPU จะเชื่อมต่อกับเครือข่าย VPC จากเครือข่าย VPC แบบเพียร์ โหนด TPU คือทรัพยากรที่กำหนดไว้ใน Cloud TPU API

พ็อด TPU

#TensorFlow
#GoogleCloud

การกําหนดค่าที่เฉพาะเจาะจงของอุปกรณ์ TPU ในศูนย์ข้อมูลของ Google อุปกรณ์ทั้งหมดในพ็อด TPU เชื่อมต่อกันอยู่ ผ่านเครือข่ายความเร็วสูงโดยเฉพาะ พ็อด TPU เป็นการกำหนดค่าอุปกรณ์ TPU ขนาดใหญ่ที่สุดที่ใช้ได้กับ TPU เวอร์ชันหนึ่งๆ

ทรัพยากร TPU

#TensorFlow
#GoogleCloud

เอนทิตี TPU บน Google Cloud ที่คุณสร้าง จัดการ หรือใช้ สำหรับ ตัวอย่างเช่น โหนด TPU และประเภท TPU ทรัพยากร TPU

ส่วนแบ่ง TPU

#TensorFlow
#GoogleCloud

ส่วนแบ่ง TPU เป็นเศษส่วนย่อยของอุปกรณ์ TPU ใน TPU Pod อุปกรณ์ทั้งหมดในเสี้ยว TPU จะเชื่อมต่อกันผ่านเครือข่ายความเร็วสูงเฉพาะ

ประเภท TPU

#TensorFlow
#GoogleCloud

การกําหนดค่าอุปกรณ์ TPU อย่างน้อย 1 เครื่องที่มีฮาร์ดแวร์ TPU เวอร์ชันที่เฉพาะเจาะจง คุณเลือกประเภท TPU เมื่อสร้าง โหนด TPU บน Google Cloud เช่น v2-8 ประเภท TPU คืออุปกรณ์ TPU v2 เดี่ยวที่มี 8 คอร์ ประเภท TPU v3-2048 มี 256 อุปกรณ์ TPU v3 ที่ใช้เครือข่ายซึ่งมีทั้งหมด 2048 แกน ประเภท TPU คือทรัพยากร ที่กำหนดไว้ใน Cloud TPU API

ผู้ปฏิบัติงาน TPU

#TensorFlow
#GoogleCloud

กระบวนการที่ทำงานบนเครื่องโฮสต์และเรียกใช้โปรแกรมแมชชีนเลิร์นนิงในอุปกรณ์ TPU

การฝึกอบรม

#fundamentals

กระบวนการกำหนดพารามิเตอร์ (น้ำหนักและค่ากําหนด) ที่เหมาะสมซึ่งประกอบกันเป็นโมเดล ระหว่างการฝึก ระบบจะอ่านตัวอย่างและค่อยๆ ปรับพารามิเตอร์ การฝึกอบรมจะใช้ตัวอย่างแต่ละรายการตั้งแต่ 2-3 ครั้งไปจนถึงหลายพันล้านครั้ง

การสูญเสียจากการฝึก

#fundamentals

เมตริกที่แสดงถึงการสูญเสียของโมเดลระหว่างการทำซ้ำการฝึกหนึ่งๆ เช่น สมมติว่าฟังก์ชันการสูญเสียคือ ความคลาดเคลื่อนกำลังสองเฉลี่ย ตัวอย่างเช่น การสูญเสียในการฝึก (ข้อผิดพลาดค่าเฉลี่ยสี่เหลี่ยมจัตุรัส) ของการทำซ้ำครั้งที่ 10 คือ 2.2 และการสูญเสียในการฝึกของการทำซ้ำครั้งที่ 100 คือ 1.9

กราฟ Lost แสดงการสูญเสียการฝึกเทียบกับจำนวน ซ้ำหลายครั้ง เส้นโค้งการสูญเสียจะให้คำแนะนำต่อไปนี้เกี่ยวกับการฝึก

  • กราฟที่ชันลงหมายความว่าโมเดลมีการปรับปรุง
  • เส้นลาดขึ้นหมายความว่าโมเดลมีประสิทธิภาพแย่ลง
  • เส้นลาดชันที่ราบเรียบหมายความว่าโมเดลบรรลุการบรรจบแล้ว

ตัวอย่างเช่น เส้นโค้ง Loss ในอุดมคติต่อไปนี้ แสดง:

  • เส้นลาดลงชันในช่วงเริ่มต้น ซึ่งหมายความว่าโมเดลได้รับการปรับปรุงอย่างรวดเร็ว
  • เส้นลาดชันที่ค่อยๆ ราบลง (แต่ยังคงลดลง) จนใกล้ถึงช่วงสิ้นสุดการฝึก ซึ่งหมายความว่ามีการปรับปรุงโมเดลอย่างต่อเนื่องในอัตราที่ช้ากว่าช่วงการทำซ้ำครั้งแรก
  • เส้นลาดชันที่ราบเรียบในช่วงท้ายของการฝึก ซึ่งบ่งบอกถึงการบรรจบ

ผังของการสูญเสียของการฝึกเทียบกับจำนวนรอบ เส้นโค้งการสูญเสียนี้เริ่มต้นด้วยเส้นลาดชันชันลง ความชันจะค่อยๆ แบนจน
     ความชันจะกลายเป็น 0

แม้ว่าการสูญเสียระหว่างการฝึกจะมีความสำคัญ แต่โปรดดูการทั่วไปด้วย

ความคลาดเคลื่อนระหว่างการฝึกและการให้บริการ

#fundamentals

ความแตกต่างระหว่างประสิทธิภาพของรูปแบบในระหว่าง การฝึกทำงานและประสิทธิภาพของโมเดลเดียวกันในระหว่าง การแสดงผล

ชุดการฝึก

#fundamentals

ชุดย่อยของชุดข้อมูลที่ใช้ฝึกโมเดล

โดยทั่วไปแล้ว ตัวอย่างในชุดข้อมูลจะแบ่งออกเป็นชุดย่อย 3 ชุดที่แตกต่างกัน ดังนี้

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นของ ชุดย่อยที่อยู่ก่อนหน้า เช่น ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดการฝึกและชุดทดสอบ

เส้นทาง

#rl

ในการเรียนรู้แบบเสริมกำลัง ลำดับของ tuples ที่สื่อถึง ลำดับของการเปลี่ยนสถานะของ agent โดยแต่ละ Tuple จะสอดคล้องกับสถานะ, action, รางวัล และสถานะถัดไปสำหรับการเปลี่ยนแปลงสถานะที่กำหนด

ถ่ายทอดการเรียนรู้

การโอนข้อมูลจากงานแมชชีนเลิร์นนิงงานหนึ่งไปยังอีกงานหนึ่ง เช่น ในการเรียนรู้แบบมัลติทาสก์ โมเดลเดียวแก้ปัญหาได้หลายอย่าง เช่น โมเดลเชิงลึกที่มีโหนดเอาต์พุตที่แตกต่างกันสำหรับ งานต่างๆ ได้ การถ่ายทอดการเรียนรู้อาจรวมถึงการโอนความรู้ จากโซลูชันงานที่ง่ายกว่าไปเป็นงานที่ซับซ้อนมากขึ้น หรือเกี่ยวข้องกับ ถ่ายโอนความรู้จากงานที่มีข้อมูลมากขึ้นไปยังที่ ข้อมูลจะน้อยลง

ระบบแมชชีนเลิร์นนิงส่วนใหญ่จะแก้ปัญหารายการเดียว การถ่ายทอดการเรียนรู้ ลูกน้อยก้าวไปสู่ปัญญาประดิษฐ์ (AI) ที่มีเพียงโปรแกรมเดียวช่วยแก้ปัญหา หลายงานได้

Transformer

#language

สถาปัตยกรรมโครงข่ายประสาทที่พัฒนาขึ้นโดย Google ซึ่งอาศัยกลไกการใส่ใจตนเองเพื่อเปลี่ยนลำดับของข้อมูลเชิงลึกอินพุตให้เป็นลำดับของข้อมูลเชิงลึกเอาต์พุตโดยไม่ต้องใช้การกรองข้อมูลหรือโครงข่ายประสาทแบบซ้ำ Transformer เปรียบเสมือนกองเลเยอร์ Self-Attention

ตัวเปลี่ยนรูปแบบอาจประกอบด้วยสิ่งต่อไปนี้

โปรแกรมเปลี่ยนไฟล์จะแปลงลำดับการฝังเป็นลำดับใหม่ของ ด้วยความยาวที่เท่ากัน ตัวเข้ารหัสประกอบด้วยเลเยอร์ N เลเยอร์ซึ่งเหมือนกัน โดยแต่ละเลเยอร์จะมีเลเยอร์ย่อย 2 เลเยอร์ ระบบจะใช้เลเยอร์ย่อย 2 เลเยอร์นี้ในแต่ละตําแหน่งของลําดับการฝังอินพุต ซึ่งจะเปลี่ยนองค์ประกอบแต่ละรายการของลําดับเป็นการฝังใหม่ เลเยอร์ย่อยของตัวเข้ารหัสแรกจะรวบรวมข้อมูลจากลำดับอินพุตต่างๆ เลเยอร์ย่อยโปรแกรมเปลี่ยนไฟล์ที่ 2 จะเปลี่ยนข้อมูลที่รวบรวมเป็นข้อมูลฝังเอาต์พุต

ตัวถอดรหัสจะแปลงลำดับอินพุตที่ฝังเป็นลำดับ การฝังเอาต์พุต อาจมีความยาวต่างกันก็ได้ ตัวถอดรหัสยังมีเลเยอร์ที่เหมือนกัน N ชั้นที่มีเลเยอร์ย่อย 3 ชั้น โดย 2 ชั้นนั้นคล้ายกับเลเยอร์ย่อยของตัวเข้ารหัส เลเยอร์ย่อยตัวถอดรหัสที่ 3 จะนำเอาเอาต์พุตของตัวเข้ารหัสไปใช้กับกลไกการใส่ใจตนเองเพื่อรวบรวมข้อมูลจากเอาต์พุตดังกล่าว

บล็อกโพสต์ Transformer: A Novel Network Architecture for Language การทำความเข้าใจ เป็นข้อมูลเบื้องต้นที่ดีเกี่ยวกับ Transformers

การเปลี่ยนรูปแบบ

#image

ในปัญหาการจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพให้สำเร็จแม้ว่าตำแหน่งของวัตถุภายในรูปภาพจะเปลี่ยนไป ตัวอย่างเช่น อัลกอริทึมยังคงสามารถระบุสุนัขได้ ไม่ว่าสุนัขจะอยู่ใน กึ่งกลางเฟรมหรือด้านซ้ายสุดของเฟรม

ดูข้อมูลเพิ่มเติมได้ที่การคงขนาดและการคงการหมุน

ไตรกรม

#seq
#language

N-gram โดยที่ N=3

ผลลบจริง (TN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบได้อย่างถูกต้อง เช่น โมเดลอนุมานว่า ข้อความอีเมลรายการหนึ่งไม่ใช่สแปม และข้อความอีเมลดังกล่าวนั้น ไม่ใช่สแปม

ผลบวกจริง (TP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสที่เป็นบวกได้อย่างถูกต้อง เช่น โมเดลอนุมานว่า ข้อความอีเมลรายการหนึ่งเป็นสแปม และข้อความอีเมลนั้นเป็นสแปมจริงๆ

อัตราผลบวกจริง (TPR)

#fundamentals

คำพ้องความหมายของ recall โดยการ

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

อัตราผลบวกจริงคือแกน y ในเส้นโค้ง ROC

U

การไม่ทราบ (สำหรับแอตทริบิวต์ที่มีความละเอียดอ่อน)

#fairness

สถานการณ์ที่มีแอตทริบิวต์ที่มีความละเอียดอ่อน แต่ไม่ได้รวมอยู่ในข้อมูลการฝึก เนื่องจากแอตทริบิวต์ที่มีความละเอียดอ่อน มักสัมพันธ์กับแอตทริบิวต์อื่นๆ ของข้อมูล ที่ไม่ทราบเกี่ยวกับแอตทริบิวต์ที่มีความละเอียดอ่อนก็ยังอาจ ผลกระทบที่แตกต่างกันสำหรับแอตทริบิวต์นั้น หรือละเมิดข้อจำกัดด้านความยุติธรรมอื่นๆ

ไม่เหมาะสม

#fundamentals

การสร้างโมเดลที่คาดการณ์ได้ไม่ดีเนื่องจากโมเดลไม่ได้จับความซับซ้อนของข้อมูลการฝึกอย่างเต็มรูปแบบ ปัญหาหลายอย่างอาจทําให้เกิดการประมาณที่น้อยเกินไปได้ ดังนี้

การสุ่มตัวอย่างที่ต่ำ

การนำตัวอย่างออกจากคลาสที่มีจำนวนมากกว่าในชุดข้อมูลที่คลาสไม่สมดุลเพื่อสร้างชุดข้อมูลการฝึกที่สมดุลมากขึ้น

ตัวอย่างเช่น พิจารณาชุดข้อมูลที่มีอัตราส่วนของคลาสส่วนใหญ่ต่อคลาสส่วนน้อยคือ 20:1 หากต้องการลดความไม่สมดุลของคลาสนี้ คุณอาจสร้างชุดการฝึกที่มีตัวอย่างของคลาสที่มีจำนวนน้อยทั้งหมด แต่มีตัวอย่างของคลาสที่มีจำนวนมากเพียงหนึ่งในสิบ ซึ่งจะสร้างสัดส่วนคลาสของชุดการฝึกเป็น 2:1 การที่เราทำตัวอย่างน้อยเกินไป จึงช่วยให้ ชุดการฝึกที่สมดุลอาจสร้างโมเดลที่ดียิ่งขึ้น หรือชุดการฝึกที่สมดุลมากขึ้นนี้อาจมีตัวอย่างไม่เพียงพอที่จะฝึกโมเดลที่มีประสิทธิภาพ

ตรงข้ามกับการสุ่มตัวอย่างมากเกินไป

ทิศทางเดียว

#language

ระบบที่ประเมินเฉพาะข้อความที่อยู่ก่อนส่วนเป้าหมายของข้อความ ในทางตรงกันข้าม ระบบแบบ 2 ทิศทางจะประเมินทั้งข้อความที่อยู่ก่อนและอยู่หลังส่วนของข้อความเป้าหมาย ดูรายละเอียดเพิ่มเติมได้ที่แบบ 2 ทาง

โมเดลภาษาแบบทิศทางเดียว

#language

โมเดลภาษาที่อิงความน่าจะเป็นตามโทเค็นที่ปรากฏก่อนโทเค็นเป้าหมายเท่านั้น ไม่ใช่หลัง เปรียบเทียบกับโมเดลภาษาแบบ 2 ทิศทาง

ตัวอย่างที่ไม่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มี features แต่ไม่มี label ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่างที่ไม่มีป้ายกำกับจากบ้าน 3 ตัวอย่าง รูปแบบการประเมินราคา แต่ละแบบมีคุณลักษณะ 3 แบบแต่ไม่มีมูลค่าบ้าน

จำนวนห้องนอน จำนวนห้องน้ำ อายุบ้าน
3 2 15
2 1 72
4 2 34

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกบนตัวอย่างที่ติดป้ายกำกับแล้วและทำการคาดการณ์ ตัวอย่างที่ไม่มีป้ายกำกับ

อยู่ในการควบคุมดูแลบางส่วนและ การเรียนรู้ที่ไม่ได้อยู่ภายใต้การควบคุมดูแล รวมทั้งใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการฝึก

เปรียบเทียบตัวอย่างที่ไม่มีป้ายกำกับกับตัวอย่างที่มีป้ายกำกับ

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

#clustering
#fundamentals

การฝึก model เพื่อค้นหารูปแบบในชุดข้อมูล โดยทั่วไปจะเป็น ชุดข้อมูลที่ไม่มีป้ายกำกับ

การใช้งานที่พบบ่อยที่สุดของแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลคือ ข้อมูล cluster ออกเป็นกลุ่มตัวอย่างที่คล้ายกัน เช่น อัลกอริทึมแมชชีนเลิร์นนิงแบบไม่ควบคุมดูแลสามารถจัดกลุ่มเพลงตามคุณสมบัติต่างๆ ของเพลง กลุ่มที่ได้จะกลายเป็นอินพุตสําหรับอัลกอริทึมของแมชชีนเลิร์นนิงอื่นๆ (เช่น บริการแนะนําเพลง) การจัดกลุ่มจะมีประโยชน์เมื่อป้ายกำกับที่มีประโยชน์มีไม่มากหรือไม่มีเลย เช่น ในโดเมนต่างๆ เช่น การป้องกันการละเมิดและการประพฤติมิชอบ กลุ่มจะช่วยมนุษย์เข้าใจข้อมูลได้ดีขึ้น

ซึ่งแตกต่างจากแมชชีนเลิร์นนิงที่มีการควบคุมดูแล

การประมาณการเพิ่มขึ้น

เทคนิคการประมาณที่ใช้กันโดยทั่วไปทางการตลาด ซึ่งประมาณ "ผลเชิงสาเหตุ" (หรือที่เรียกว่า "ผลที่เพิ่มขึ้น") ของ "การรักษา" ต่อ "บุคคล" ต่อไปนี้เป็นตัวอย่างสองตัวอย่าง:

  • แพทย์อาจใช้การประมาณการเพิ่มขึ้นเพื่อคาดการณ์จำนวนการเสียชีวิตที่ลดลง (ผลกระทบโดยทั่วไป) ของกระบวนการทางการแพทย์ (การรักษา) ขึ้นอยู่กับ อายุและประวัติทางการแพทย์ของผู้ป่วย (บุคคลทั่วไป)
  • นักการตลาดอาจใช้การประมาณการเพิ่มขึ้นเพื่อคาดการณ์การเพิ่มขึ้นของ ความน่าจะเป็นของการซื้อ (ผลกระทบโดยทั่วไป) เนื่องจากการโฆษณา (การปฏิบัติ) ต่อบุคคล (บุคคลทั่วไป)

การประมาณการเพิ่มขึ้นแตกต่างจากการแยกประเภทหรือ การถดถอยในป้ายกำกับบางป้าย (เช่น ครึ่ง ของป้ายกำกับในกลุ่มทดสอบแบบไบนารี) มักจะหายไปในการประมาณการเพิ่มขึ้น ตัวอย่างเช่น ผู้ป่วยอาจได้รับการรักษาหรือไม่ได้รับการรักษาก็ได้ เราจึงสังเกตได้เพียงว่าผู้ป่วยจะหายหรือไม่หายในสถานการณ์ใดสถานการณ์หนึ่งเท่านั้น (แต่ไม่สามารถสังเกตได้ทั้งสองสถานการณ์) ข้อได้เปรียบหลักของโมเดลการเพิ่มขึ้นคือสามารถสร้างการคาดการณ์ สำหรับสถานการณ์ที่ไม่สามารถสังเกตการณ์ได้ (ข้อโต้แย้ง) แล้วนำมาใช้คำนวณ ผลกระทบโดยทั่วไป

การเพิ่มน้ำหนัก

การใช้น้ำหนักกับคลาส downsampled ให้เท่ากับ ให้กับปัจจัยที่คุณใช้สุ่มตัวอย่าง

เมทริกซ์ผู้ใช้

#recsystems

ในระบบการแนะนำ เวกเตอร์การฝังที่สร้างขึ้นโดยการแยกองค์ประกอบเมทริกซ์ซึ่งเก็บสัญญาณแฝงเกี่ยวกับค่ากําหนดของผู้ใช้ แต่ละแถวของเมทริกซ์ผู้ใช้จะเก็บข้อมูลเกี่ยวกับ ความแรงของสัญญาณแฝงต่างๆ สำหรับผู้ใช้รายเดียว ตัวอย่างเช่น ลองพิจารณาระบบการแนะนำภาพยนตร์ ในระบบนี้ สัญญาณแฝงในเมทริกซ์ของผู้ใช้อาจแสดงถึงความสนใจของผู้ใช้แต่ละราย สำหรับบางประเภท หรืออาจตีความสัญญาณที่เกี่ยวข้องกับ การโต้ตอบที่ซับซ้อนในหลายๆ ปัจจัย

เมทริกซ์ผู้ใช้จะมีคอลัมน์สำหรับฟีเจอร์แฝงแต่ละรายการและแถวสำหรับผู้ใช้แต่ละราย กล่าวคือ เมทริกซ์ผู้ใช้มีจํานวนแถวเท่ากับเมทริกซ์เป้าหมายที่แยกปัจจัย เช่น ระบุภาพยนตร์ ระบบการแนะนำวิดีโอสำหรับผู้ใช้ 1,000,000 คน เมทริกซ์ผู้ใช้จะมี 1,000,000 แถว

V

การตรวจสอบความถูกต้อง

#fundamentals

การประเมินคุณภาพของโมเดลในขั้นต้น การตรวจสอบจะตรวจสอบคุณภาพของการคาดการณ์ของโมเดลเทียบกับชุดข้อมูลที่ใช้ตรวจสอบ

เนื่องจากชุดที่ใช้ตรวจสอบแตกต่างจากชุดข้อมูลการฝึก การทดสอบจึงช่วยป้องกันการประมาณค่ามากเกินไป

คุณอาจคิดว่าการประเมินโมเดลเทียบกับชุดข้อมูลการตรวจสอบเป็นการทดสอบรอบแรก และการประเมินโมเดลเทียบกับชุดทดสอบเป็นการทดสอบรอบที่ 2

การสูญเสียการตรวจสอบ

#fundamentals

เมตริกที่แสดงการสูญเสียของโมเดลใน ชุดการตรวจสอบในช่วงเวลา การปรับปรุงการฝึก

โปรดดูกราฟทั่วไปเพิ่มเติม

ชุดการตรวจสอบ

#fundamentals

ชุดย่อยของชุดข้อมูลที่ทําการประเมินเบื้องต้นกับโมเดลที่ผ่านการฝึก โดยปกติแล้ว คุณจะต้องประเมินโมเดลที่ผ่านการฝึกอบรมกับชุดข้อมูลการตรวจสอบหลายครั้งก่อนที่จะประเมินโมเดลกับชุดทดสอบ

แต่เดิม คุณแบ่งตัวอย่างในชุดข้อมูลออกเป็น 3 ส่วน ย่อยที่แตกต่างกัน:

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นของ ชุดย่อยที่อยู่ก่อนหน้า ตัวอย่างเช่น มีตัวอย่างหนึ่งที่ไม่ควรเป็น ทั้งชุดการฝึกและชุดการตรวจสอบ

การประมาณค่า

กระบวนการแทนที่ค่าที่ขาดหายไปด้วยค่าทดแทนที่ยอมรับได้ เมื่อไม่มีค่า คุณอาจทิ้งทั้งตัวอย่างหรือใช้การประมาณค่าเพื่อกู้คืนตัวอย่างก็ได้

ตัวอย่างเช่น ลองพิจารณาชุดข้อมูลที่มีฟีเจอร์ temperature ที่ ควรได้รับการบันทึกทุกชั่วโมง อย่างไรก็ตาม ค่าอุณหภูมิที่อ่านได้ไม่พร้อมใช้งานในช่วงเวลาหนึ่งๆ ส่วนของชุดข้อมูลมีดังนี้

การประทับเวลา อุณหภูมิ
1680561000 10
1680564600 12
1680568200 ขาดหายไป
1680571800 20
1680575400 21
1680579000 21

ระบบอาจลบตัวอย่างที่ขาดหายไปหรือสื่อให้เข้าใจผิด อุณหภูมิเป็น 12, 16, 18 หรือ 20 ขึ้นอยู่กับอัลกอริทึมการคำนวณ

ปัญหาการไล่ระดับสีที่หายไป

#seq

แนวโน้มการไล่ระดับสีของเลเยอร์ที่ซ่อนอยู่ในช่วงต้น ของโครงข่ายประสาทระดับลึกบางเครือข่ายจนกลายเป็น แบนราบ (ต่ำ) อย่างไม่น่าเชื่อ การที่ Gradient ลดลงเรื่อยๆ จะทําให้การเปลี่ยนแปลงน้ำหนักของโหนดในโครงข่ายประสาทแบบลึกลดลงเรื่อยๆ ซึ่งทําให้การเรียนรู้น้อยลงหรือไม่มีเลย โมเดลที่ได้รับผลกระทบจากปัญหาการไล่ระดับสีที่หายไป จะฝึกอบรมได้ยากหรือทำไม่ได้เลย เซลล์ Long Short-Term Memory ช่วยแก้ปัญหานี้ได้

เปรียบเทียบกับปัญหาการเพิ่มขึ้นของ Gradient

ความสำคัญของตัวแปร

#df

ชุดคะแนนที่ระบุความสำคัญแบบสัมพัทธ์ของฟีเจอร์แต่ละรายการต่อโมเดล

เช่น ลองพิจารณาแผนผังการตัดสินใจที่ ประเมินราคาบ้าน สมมติว่าแผนผังการตัดสินใจนี้ใช้ฟีเจอร์ 3 อย่าง ได้แก่ ขนาด อายุ และสไตล์ หากชุดความสำคัญของตัวแปร สำหรับคุณลักษณะทั้ง 3 แห่งให้คำนวณ {size=5.8, age=2.5, style=4.7} แล้ว ขนาดมีความสำคัญมากกว่าสำหรับ ต้นไม้การตัดสินใจมากกว่าอายุหรือสไตล์

เมตริกความสำคัญของตัวแปรต่างๆ มีอยู่ ซึ่งสามารถให้ข้อมูลแก่ผู้เชี่ยวชาญด้าน ML เกี่ยวกับแง่มุมต่างๆ ของโมเดล

ตัวแปรอัตโนมัติ (VAE)

#language

Autoencoder ประเภทหนึ่งที่ใช้ประโยชน์จากความคลาดเคลื่อนระหว่างอินพุตและเอาต์พุตเพื่อสร้างอินพุตเวอร์ชันที่แก้ไขแล้ว ตัวแปรอัตโนมัติมีประโยชน์สําหรับ Generative AI

VAE จะอิงตามการอนุมานเชิงแปรผัน ซึ่งเป็นเทคนิคในการประมาณค่า พารามิเตอร์ของโมเดลความน่าจะเป็น

เวกเตอร์

คำมากเกินไป ซึ่งมีความหมายต่างกันไปในเชิงคณิตศาสตร์ต่างๆ และวิทยาศาสตร์ ในแมชชีนเลิร์นนิง เวกเตอร์จะมีพร็อพเพอร์ตี้ 2 อย่าง ได้แก่

  • ประเภทข้อมูล: เวกเตอร์ในแมชชีนเลิร์นนิงมักจะเก็บเลขทศนิยมไว้
  • จำนวนองค์ประกอบ: นี่คือความยาวของเวกเตอร์หรือมิติข้อมูลของเวกเตอร์

ตัวอย่างเช่น พิจารณาเวกเตอร์ลักษณะที่มีตัวเลขทศนิยม 8 รายการ เวกเตอร์องค์ประกอบนี้มีความยาวหรือมิติข้อมูล 8 โปรดทราบว่าเวกเตอร์แมชชีนเลิร์นนิงมักจะมีมิติข้อมูลจำนวนมาก

คุณสามารถแสดงข้อมูลประเภทต่างๆ เป็นเวกเตอร์ได้ เช่น

  • ตำแหน่งใดๆ บนพื้นผิวโลกสามารถแสดงเป็นเวกเตอร์ 2 มิติได้ โดยมิติข้อมูลหนึ่งคือละติจูดและอีกมิติหนึ่งคือลองจิจูด
  • ราคาปัจจุบันของหุ้นแต่ละตัว 500 ตัวจะแสดงเป็นเวกเตอร์ 500 มิติ
  • แสดงการแจกแจงความน่าจะเป็นของคลาสในจำนวนที่จำกัดได้ เป็นเวกเตอร์ ตัวอย่างเช่น ระบบการแยกประเภทแบบหลายคลาสที่ คาดการณ์ว่าสีเอาต์พุต 1 ใน 3 สี (แดง เขียว หรือเหลือง) จะแสดงผลค่า เวกเตอร์ (0.3, 0.2, 0.5) เพื่อหมายถึง P[red]=0.3, P[green]=0.2, P[yellow]=0.5

เวกเตอร์สามารถเชื่อมถึงกันได้ ดังนั้น สื่อประเภทต่างๆ อาจ แสดงเป็นเวกเตอร์เดียว บางโมเดลจะทำงานโดยตรงกับการเชื่อมต่อการเข้ารหัสแบบฮอตเวิร์กหลายรายการ

หน่วยประมวลผลเฉพาะทาง เช่น TPU ได้รับการเพิ่มประสิทธิภาพให้ทำงานได้ การดำเนินการทางคณิตศาสตร์เกี่ยวกับเวกเตอร์

เวกเตอร์คือเทนเซอร์ที่มีอันดับ 1

W

การสูญเสีย Wasserstein

ฟังก์ชันการสูญเสียอย่างหนึ่งที่ใช้กันโดยทั่วไปในเครือข่าย Generative Adversarial ซึ่งอิงตามระยะทาง Earth Mover's Distance ระหว่างการแจกแจงข้อมูลที่สร้างและข้อมูลจริง

น้ำหนัก

#fundamentals

ค่าที่โมเดลคูณด้วยค่าอื่น การฝึกเป็นกระบวนการพิจารณาน้ำหนักที่เหมาะสมของโมเดล การอนุมานเป็นกระบวนการใช้น้ำหนักที่เรียนรู้เพื่อ ทำการคาดคะเน

วิธีการถ่วงน้ำหนักแบบสลับขั้นต่ำ (WALS)

#recsystems

อัลกอริทึมสำหรับการลดฟังก์ชันวัตถุประสงค์ในระหว่างการแยกองค์ประกอบเมทริกซ์ในระบบการแนะนำ ซึ่งช่วยให้สามารถลดน้ำหนักตัวอย่างที่ขาดหายไปได้ WALS ช่วยลดน้ำหนัก ความคลาดเคลื่อนกำลังสองระหว่างเมทริกซ์เดิมกับการสร้างใหม่โดย สลับระหว่างการแก้ไขการแยกตัวประกอบแถวและการแยกตัวประกอบคอลัมน์ การเพิ่มประสิทธิภาพแต่ละรายการเหล่านี้สามารถคลี่คลายได้ด้วยวิธีหาค่าประมาณเชิงเส้นน้อย การเพิ่มประสิทธิภาพแบบโคเวกซ์ โปรดดูรายละเอียดที่ หลักสูตรระบบการแนะนำวิดีโอ

ผลรวมถ่วงน้ำหนัก

#fundamentals

ผลรวมของค่าอินพุตที่เกี่ยวข้องทั้งหมดที่คูณด้วยน้ำหนักที่สอดคล้องกัน ตัวอย่างเช่น สมมติว่าอินพุตที่เกี่ยวข้องประกอบด้วยข้อมูลต่อไปนี้

ค่าที่ป้อน น้ำหนักอินพุต
2 -1.3
-1 0.6
3 0.4

ดังนั้น ผลรวมถ่วงน้ำหนักจึงเป็นดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

ผลรวมถ่วงน้ำหนักคืออาร์กิวเมนต์อินพุตของฟังก์ชันการเปิดใช้งาน

โมเดลแบบกว้าง

รูปแบบเชิงเส้นที่มักมี ฟีเจอร์การป้อนข้อมูลบางส่วน เราเรียกรูปแบบนี้ว่า "กว้าง" เนื่องจากเป็นเครือข่ายประสาทเทียมประเภทพิเศษที่มีอินพุตจํานวนมากซึ่งเชื่อมต่อกับโหนดเอาต์พุตโดยตรง โมเดลแบบกว้าง มักจะแก้ไขข้อบกพร่องและตรวจสอบได้ง่ายกว่าโมเดลเชิงลึก แม้ว่าโมเดลแบบกว้างจะไม่สามารถแสดงลักษณะที่ไม่ใช่เชิงเส้นผ่านเลเยอร์ที่ซ่อนอยู่ แต่ก็สามารถใช้การเปลี่ยนรูปแบบ เช่น การครอสฟีเจอร์ และการแบ่งกลุ่มเพื่อประมาณลักษณะที่ไม่ใช่เชิงเส้นในลักษณะต่างๆ

ตรงข้ามกับโมเดลเชิงลึก

ความกว้าง

จำนวนเซลล์ประสาทในเลเยอร์หนึ่งๆ ของโครงข่ายประสาท

ภูมิปัญญาของฝูงชน

#df

แนวคิดที่ค่าเฉลี่ยความคิดเห็นหรือค่าประมาณของคนกลุ่มใหญ่ ของผู้คน ("ฝูงชน") มักให้ผลลัพธ์ที่ดีอย่างน่าประหลาดใจ เช่น เกมที่ผู้คนต้องเดาจำนวนถั่วเยลลี่ที่บรรจุในโถขนาดใหญ่ แม้ว่าบุคคลส่วนใหญ่ การเดาจะไม่แม่นยำ ค่าเฉลี่ยของการคาดเดาทั้งหมด ที่แสดงให้เห็นอย่างประหลาดใจว่า ใกล้เคียงกับจำนวนที่แท้จริง ลูกอมเยลลี่ในโหล

ชุดค่าผสมเป็นซอฟต์แวร์ที่ทำงานคล้ายกับภูมิปัญญาของมวลชน แม้ว่าโมเดลแต่ละรายการจะคาดการณ์อย่างไม่ถูกต้อง แต่การหาค่าเฉลี่ยของการคาดการณ์ของโมเดลหลายรายการมักจะให้ผลการคาดการณ์ที่แม่นยำอย่างน่าประหลาดใจ ตัวอย่างเช่น แม้ว่าต้นไม้การตัดสินใจแต่ละต้นอาจทําการคาดการณ์ได้ไม่ดี แต่ป่าการตัดสินใจมักจะทําการคาดการณ์ได้ดีมาก

การฝังคำ

#language

การนำเสนอคําแต่ละคำในชุดคําภายในเวกเตอร์การฝัง กล่าวคือ การนำเสนอคําแต่ละคําเป็นเวกเตอร์ของค่าตัวเลขทศนิยมระหว่าง 0.0 ถึง 1.0 คำที่มีความหมายคล้ายกันจะมีการแสดงผลที่คล้ายกันมากกว่าคำที่มีความหมายต่างกัน เช่น แครอท คึ่นช่าย และแตงกวา การเป็นตัวแทนที่คล้ายกัน ซึ่งจะแตกต่างอย่างมากจากการนำเสนอ ของเครื่องบิน แว่นกันแดด และยาสีฟัน

X

XLA (พีชคณิตเชิงเส้นแบบเร่ง)

คอมไพเลอร์แมชชีนเลิร์นนิงแบบโอเพนซอร์สสําหรับ GPU, CPU และโปรแกรมเร่งความเร็ว ML

คอมไพเลอร์ XLA ใช้โมเดลจากเฟรมเวิร์ก ML ที่ได้รับความนิยม เช่น PyTorch TensorFlow และ JAX แล้วเพิ่มประสิทธิภาพให้ เพื่อการดำเนินการประสิทธิภาพสูงในแพลตฟอร์มฮาร์ดแวร์ต่างๆ เช่น Accelerator ของ GPU, CPU และ ML

Z

การเรียนรู้แบบ Zero Shot

การฝึกแมชชีนเลิร์นนิงประเภทหนึ่งที่ model อนุมานการคาดคะเนสำหรับงาน ว่าไม่ได้ฝึกไว้โดยเฉพาะอยู่แล้ว กล่าวคือ โมเดล ได้รับตัวอย่างการฝึกเฉพาะงาน แต่ระบบถามถึง เพื่ออนุมานสำหรับงานนั้น

ข้อความแจ้งการตั้งค่า Zero-shot

#language
#generativeAI

พรอมต์ที่ไม่ได้แสดงตัวอย่างวิธีที่คุณต้องการให้โมเดลภาษาขนาดใหญ่ตอบกลับ เช่น

ส่วนต่างๆ ของพรอมต์ 1 รายการ หมายเหตุ
สกุลเงินทางการของประเทศที่ระบุคืออะไร คำถามที่คุณต้องการให้ LLM ตอบ
อินเดีย: คําค้นหาจริง

โมเดลภาษาขนาดใหญ่อาจตอบสนองด้วยสิ่งต่อไปนี้

  • รูปี
  • INR
  • รูปีอินเดีย
  • รูปี
  • รูปีอินเดีย

คำตอบทั้งหมดถูกต้อง แต่คุณอาจต้องการรูปแบบที่เฉพาะเจาะจง

เปรียบเทียบและเปรียบต่างกับการแสดงข้อความแจ้ง Zero Shot กับคำต่อไปนี้

การปรับคะแนนมาตรฐาน Z-Score

#fundamentals

เทคนิคการปรับขนาดที่ใช้แทนค่า ฟีเจอร์ดิบด้วยค่าทศนิยมที่แสดงจํานวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของฟีเจอร์นั้น ตัวอย่างเช่น พิจารณาฟีเจอร์ที่มีค่าเฉลี่ย 800 และค่าความเบี่ยงเบนมาตรฐาน 100 ตารางต่อไปนี้แสดงวิธีที่การหาค่า Z-Score มาตรฐานจะจับคู่ค่าดิบกับ Z-Score

ค่าดิบ คะแนนมาตรฐาน (Z-Score)
800 0
950 +1.5
575 -2.25

จากนั้นโมเดลแมชชีนเลิร์นนิงจะทำการฝึกด้วยคะแนนมาตรฐาน (Z-Score) สำหรับฟีเจอร์นั้นแทนค่าดิบ