อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง

อภิธานศัพท์นี้ให้คำจำกัดความคำศัพท์ทั่วไปเกี่ยวกับแมชชีนเลิร์นนิง รวมถึง คำศัพท์เฉพาะของ TensorFlow

A

การเลิกรา

เทคนิคในการประเมินความสำคัญของฟีเจอร์ หรือคอมโพเนนต์โดยนำออกจากโมเดลชั่วคราว จากนั้น ฝึกโมเดลอีกครั้งโดยไม่มีฟีเจอร์หรือคอมโพเนนต์ดังกล่าว และหากโมเดลที่ฝึก มีประสิทธิภาพแย่ลงมาก ส่งผลให้ฟีเจอร์หรือคอมโพเนนต์ที่นำออก อาจมีความสำคัญ

ตัวอย่างเช่น สมมติว่าคุณฝึก รูปแบบการแยกประเภท ฟีเจอร์ 10 รายการ และทำให้ได้ความแม่นยำ 88% ใน ชุดทดสอบ ในการตรวจสอบความสำคัญ จากคุณลักษณะแรก คุณสามารถฝึกโมเดลอีกครั้งโดยใช้ ใหม่ๆ หากโมเดลที่ฝึกย่อยทำงานแย่กว่าอย่างมาก (ตัวอย่างเช่น 55%) ฟีเจอร์ที่นำออกไปแล้วอาจมีความสำคัญ ในทางกลับกัน ถ้าโมเดลที่ฝึกย่อยมีประสิทธิภาพดี ฟีเจอร์นั้นอาจ ไม่ค่อยสำคัญ

การคว่ำบาตรยังช่วยกำหนดความสำคัญของสิ่งต่อไปนี้

  • คอมโพเนนต์ที่ใหญ่กว่า เช่น ระบบย่อยทั้งหมดของระบบ ML ที่ใหญ่กว่า
  • กระบวนการหรือเทคนิค เช่น ขั้นตอนการประมวลผลข้อมูลล่วงหน้า

ในทั้งสองกรณี คุณจะสังเกตได้ว่าประสิทธิภาพของระบบเปลี่ยนแปลงไปอย่างไร (หรือ ไม่เปลี่ยนแปลง) หลังจากที่คุณนำคอมโพเนนต์ออก

การทดสอบ A/B

วิธีทางสถิติในการเปรียบเทียบเทคนิค 2 อย่าง (ขึ้นไป) ซึ่งก็คือ A และ B โดยทั่วไป A คือเทคนิคที่มีอยู่แล้ว และ B เป็นเทคนิคใหม่ การทดสอบ A/B ไม่เพียงแต่เป็นตัวกำหนดว่าเทคนิคใดมีประสิทธิภาพมากกว่าเท่านั้น แต่ว่าความแตกต่างมีนัยสำคัญทางสถิติหรือไม่

การทดสอบ A/B มักจะเปรียบเทียบเมตริกเดียวกับ 2 เทคนิค ตัวอย่างเช่น การเปรียบเทียบความแม่นยำของโมเดลสำหรับ เทคนิค อย่างไรก็ตาม การทดสอบ A/B ยังสามารถเปรียบเทียบจำนวนที่จำกัดใดๆ เมตริกต่างๆ

ชิป Accelerator

#GoogleCloud

หมวดหมู่ของส่วนประกอบฮาร์ดแวร์เฉพาะทางที่ออกแบบมาเพื่อให้ทำงานสำคัญ การคำนวณที่จำเป็นสำหรับอัลกอริทึมการเรียนรู้เชิงลึก

ชิป Accelerator (หรือเรียกสั้นๆ ว่า Accelerator) สามารถทําได้อย่างมาก เพิ่มความเร็วและประสิทธิภาพของงานการฝึกและการอนุมาน เมื่อเทียบกับ CPU ที่ใช้ทั่วไป เหมาะสำหรับการฝึก โครงข่ายประสาทและงานด้านการประมวลผลที่คล้ายกัน

ตัวอย่างชิป Accelerator ได้แก่

  • หน่วยประมวลผล Tensor ของ Google (TPU) ที่มีฮาร์ดแวร์เฉพาะ สำหรับการเรียนรู้เชิงลึก
  • GPU ของ NVIDIA ซึ่งแม้จะออกแบบมาสำหรับการประมวลผลกราฟิกในตอนแรก ได้รับการออกแบบมาเพื่อทำให้สามารถประมวลผลพร้อมกัน ช่วยเพิ่มความเร็วในการประมวลผล

ความแม่นยำ

#fundamentals

จำนวนการคาดคะเนการจัดประเภทที่ถูกต้องหารด้วย ด้วยจำนวนการคาดการณ์ทั้งหมด โดยการ

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

ตัวอย่างเช่น โมเดลที่ทำการคาดการณ์ถูกต้อง 40 รายการและไม่ถูกต้อง 10 รายการ การคาดการณ์จะมีความถูกต้องดังนี้

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

การจัดประเภทแบบไบนารีระบุชื่อที่เจาะจง สำหรับการคาดคะเนที่ถูกต้องในหมวดหมู่ต่างๆ และ การคาดคะเนที่ไม่ถูกต้อง ดังนั้น สูตรความแม่นยำในการจัดประเภทเลขฐานสอง ดังนี้

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

โดยมี

  • TP คือจำนวนผลบวกจริง (การคาดคะเนที่ถูกต้อง)
  • TN คือจำนวนผลลบจริง (การคาดคะเนที่ถูกต้อง)
  • FP คือจำนวนผลบวกลวง (การคาดการณ์ที่ไม่ถูกต้อง)
  • FN คือจำนวนผลลบลวง (การคาดคะเนที่ไม่ถูกต้อง)

เปรียบเทียบความแม่นยำกับ ความแม่นยำและ การเรียกคืน

ดูการจัดประเภท: ความถูกต้อง การจดจำ ความแม่นยำ และความเกี่ยวข้อง เมตริก ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

การดำเนินการ

#rl

ในการเรียนรู้แบบเสริมกำลัง กลไกที่ Agent การเปลี่ยนระหว่างรัฐของ สภาพแวดล้อม ตัวแทนจะเลือกการดำเนินการโดยใช้ policy

ฟังก์ชันการเปิดใช้งาน

#fundamentals

ฟังก์ชันที่ช่วยให้โครงข่ายประสาทเรียนรู้ได้ ความสัมพันธ์แบบnonlinear (ซับซ้อน) ระหว่างฟีเจอร์ต่างๆ และป้ายกำกับ

ฟังก์ชันการเปิดใช้งานยอดนิยม ได้แก่

พล็อตฟังก์ชันเปิดใช้งานจะไม่ใช่เส้นตรงเดี่ยวๆ ตัวอย่างเช่น พล็อตของฟังก์ชันการเปิดใช้งาน ReLU ประกอบด้วย เส้นตรง 2 เส้น:

พล็อตตัวการ์ตูนที่มี 2 บรรทัด บรรทัดแรกมีค่าคงที่
          ค่า y เป็น 0 วิ่งตามแกน x จาก -infinity, 0 ถึง 0,-0
          บรรทัดที่ 2 จะเริ่มที่ 0,0 เส้นนี้มีความชันของ +1 ดังนั้น
          ก็จะมีตั้งแต่ 0,0 ถึง +infinity,+infinity

พล็อตฟังก์ชันการเปิดใช้งาน Sigmoid มีลักษณะดังนี้

แผนภูมิโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมน
          -ไม่สิ้นสุด ถึง +บวก ในขณะที่ค่า y ครอบคลุมช่วงเกือบ 0 ถึง
          เกือบ 1. เมื่อ x เท่ากับ 0 แล้ว y จะเท่ากับ 0.5 ความชันของเส้นโค้งเสมอ
          เป็นบวก โดยมีความชันสูงสุดที่ 0,0.5 และค่อยๆ ลดลง
          มีความชันเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

โปรดดูเครือข่ายระบบประสาท: การเปิดใช้งาน ฟังก์ชัน ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

การเรียนรู้แบบลงมือปฏิบัติ

แนวทางการฝึกอบรมที่ อัลกอริทึมจะเลือกข้อมูลบางอย่างที่อัลกอริทึมจะเรียนรู้ การเรียนรู้แบบลงมือปฏิบัติ มีประโยชน์อย่างยิ่งเมื่อตัวอย่างที่ติดป้ายกำกับ หามาได้ยากหรือแพง แทนที่จะค่อยๆ มองหาความหลากหลาย กลุ่มตัวอย่างที่มีป้ายกำกับ อัลกอริทึมการเรียนรู้แบบลงมือปฏิบัติจะเลือกค้นหา ตัวอย่างกลุ่มเฉพาะที่จำเป็นสำหรับการเรียนรู้

AdaGrad

อัลกอริทึมการไล่ระดับสีที่ซับซ้อน ซึ่งจะปรับสเกลใหม่ การไล่ระดับสีของแต่ละพารามิเตอร์ ซึ่งให้แต่ละพารามิเตอร์ได้อย่างมีประสิทธิภาพ อัตราการเรียนรู้อิสระ ดูคำอธิบายแบบเต็มได้ที่ บทความของ AdaGrad นี้

ตัวแทน

#rl

ในการเรียนรู้แบบเสริมกำลัง เอนทิตีที่ใช้ นโยบายเพื่อเพิ่มผลตอบแทนที่คาดว่าจะได้รับจาก การเปลี่ยนผ่านระหว่างรัฐ สภาพแวดล้อม

โดยทั่วไป ตัวแทนคือซอฟต์แวร์ที่วางแผนและดำเนินการ การดำเนินการต่างๆ เพื่อบรรลุเป้าหมาย พร้อมความสามารถในการปรับให้เข้ากับการเปลี่ยนแปลง ในสิ่งแวดล้อมนั้นๆ เช่น Agent ที่ใช้ LLM อาจใช้ LLM เพื่อสร้างแผนแทนการใช้นโยบายการเรียนรู้แบบเสริมกำลัง

คลัสเตอร์แบบรวบยอด

#clustering

ดูการจัดกลุ่มแบบลำดับชั้น

การตรวจจับความผิดปกติ

กระบวนการระบุค่าผิดปกติ ตัวอย่างเช่น หากค่าเฉลี่ย สำหรับฟีเจอร์บางอย่างคือ 100 โดยส่วนเบี่ยงเบนมาตรฐานเป็น 10 การตรวจจับความผิดปกติควรแจ้งค่า 200 ว่าเป็นค่าที่น่าสงสัย

AR

ตัวย่อของ Augmented Reality

พื้นที่ใต้กราฟ PR

โปรดดูPR AUC (พื้นที่ภายใต้กราฟ PR)

พื้นที่ใต้กราฟ ROC

โปรดดู AUC (พื้นที่ใต้กราฟ ROC)

ปัญญาประดิษฐ์ (AI)

กลไกที่ไม่ได้เกิดจากมนุษย์ ซึ่งแสดงให้เห็นถึงการแก้ปัญหาอย่างกว้างขวาง ความคิดสร้างสรรค์ การปรับตัว ตัวอย่างเช่น โปรแกรมที่แสดงการประดิษฐ์ ปัญญาชนทั่วไปสามารถแปลข้อความ เรียบเรียงซิมโฟนี และเก่งกาจ เกมที่ยังไม่ได้คิดค้นขึ้น

ปัญญาประดิษฐ์ (AI)

#fundamentals

โปรแกรมหรือโมเดลที่ไม่ได้เกิดจากมนุษย์ซึ่งแก้ไขงานที่ซับซ้อนได้ ตัวอย่างเช่น โปรแกรมหรือโมเดลที่แปลข้อความ หรือโปรแกรมหรือโมเดลที่ ระบุโรคจากภาพรังสีวิทยาแสดงให้เห็นปัญญาประดิษฐ์ (AI)

อย่างเป็นทางการนั้น แมชชีนเลิร์นนิงเป็นสาขาย่อยของการประดิษฐ์ ความฉลาด อย่างไรก็ตาม ในช่วงไม่กี่ปีที่ผ่านมา องค์กรบางแห่งได้เริ่มใช้ ปัญญาประดิษฐ์ (AI) และแมชชีนเลิร์นนิงแทนกันได้

โปรดทราบ

#language

กลไกที่ใช้ในโครงข่ายระบบประสาทเทียมที่ระบุว่า ความสำคัญของคำบางคำหรือส่วนหนึ่งของคำ การบีบอัดโปรดทราบ ปริมาณข้อมูลที่โมเดลต้องการเพื่อคาดการณ์โทเค็น/คำถัดไป กลไกความสนใจโดยทั่วไปอาจประกอบด้วย ผลรวมถ่วงน้ำหนักจากชุดอินพุต โดยที่ฟิลด์ น้ำหนักสำหรับอินพุตแต่ละรายการจะคำนวณโดยส่วนอื่นของ โครงข่ายระบบประสาทเทียม

นอกจากนี้ควรอ่านการใส่ใจตนเองและ multi-head-Attention ซึ่งเป็น องค์ประกอบพื้นฐานของ Transformers

ดู LLM: ภาษาขนาดใหญ่คืออะไร คืออะไร ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อดูข้อมูลเพิ่มเติมเกี่ยวกับการจดจ่อกับตนเอง

แอตทริบิวต์

#fairness

คำพ้องความหมายของ feature

ในด้านความเป็นธรรมของแมชชีนเลิร์นนิง แอตทริบิวต์ที่มักหมายถึง ลักษณะเฉพาะที่เกี่ยวข้องกับบุคคล

การสุ่มตัวอย่างแอตทริบิวต์

#df

กลวิธีสำหรับการฝึกกลุ่มผู้ทำการตัดสินใจที่แต่ละฝ่าย แผนผังการตัดสินใจจะพิจารณาเฉพาะชุดย่อยแบบสุ่มของความเป็นไปได้ ฟีเจอร์ต่างๆ เมื่อดูข้อมูลเกี่ยวกับสภาพสินค้า โดยทั่วไปแล้ว ชุดย่อยของฟีเจอร์แต่ละชุดจะถูกสุ่มตัวอย่างสำหรับแต่ละฟีเจอร์ node ในทางตรงกันข้าม เมื่อฝึกแผนผังการตัดสินใจ โดยไม่มีการสุ่มตัวอย่างแอตทริบิวต์ ระบบจะพิจารณาฟีเจอร์ที่เป็นไปได้ทั้งหมดสำหรับแต่ละโหนด

AUC (พื้นที่ใต้กราฟ ROC)

#fundamentals

ตัวเลขระหว่าง 0.0 ถึง 1.0 แสดงถึง ของโมเดลการจัดประเภทแบบไบนารี ความสามารถในการแยกชั้นเรียนเชิงบวกออกจาก คลาสเชิงลบ ยิ่ง AUC ใกล้เคียงกับ 1.0 มากเท่าใด AUC ก็จะยิ่งสามารถแยกโมเดลได้ดียิ่งขึ้น ชั้นเรียนอื่นๆ ได้

เช่น ภาพประกอบต่อไปนี้แสดงโมเดลตัวแยกประเภท ที่แยกคลาสบวก (วงรีสีเขียว) ออกจากคลาสลบ (สี่เหลี่ยมผืนผ้าสีม่วง) ได้อย่างลงตัว โมเดลที่สมบูรณ์แบบอย่างไม่สมจริงนี้มี AUC ของ 1.0:

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 8 ด้านที่ด้านหนึ่งและ
          ตัวอย่างเชิงลบ 9 ตัวอย่างในอีกด้านหนึ่ง

ในทางกลับกัน ภาพประกอบต่อไปนี้แสดงผลการค้นหาสําหรับตัวแยกประเภท ที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มี AUC เท่ากับ 0.5:

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลำดับของตัวอย่างคือค่าบวก ค่าลบ
          แง่บวก, แง่ลบ, แง่บวก, แง่บวก, แง่ลบ, เชิงบวก
          เชิงลบ เชิงบวก เชิงลบ

ใช่ โมเดลก่อนหน้ามี AUC เท่ากับ 0.5 ไม่ใช่ 0.0

โมเดลส่วนใหญ่จะอยู่ระหว่างปลายทั้งสองด้าน ตัวอย่างเช่น พารามิเตอร์ รูปแบบต่อไปนี้จะแยกรายการเชิงบวกออกจากเชิงลบ ดังนั้น มี AUC อยู่ระหว่าง 0.5 ถึง 1.0:

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลำดับของตัวอย่างคือเชิงลบ ลบ ลบ ลบ
          แง่บวก, แง่บวก, แง่บวก, แง่บวก, แง่บวก, แง่บวก
          เชิงบวก

AUC จะไม่ประมวลผลค่าที่คุณกำหนดสำหรับ เกณฑ์การแยกประเภท โดย AUC แทน จะพิจารณาเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมด

ดูการจัดประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

Augmented Reality

#image

เทคโนโลยีที่แทนที่รูปภาพที่สร้างโดยคอมพิวเตอร์ในมุมมองของผู้ใช้ กับโลกแห่งความเป็นจริง จึงให้มุมมองแบบผสม

โปรแกรมเปลี่ยนไฟล์อัตโนมัติ

#language
#image

ระบบที่เรียนรู้ที่จะแยกข้อมูลที่สำคัญที่สุดจาก อินพุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นทั้งโปรแกรมเปลี่ยนไฟล์และ ตัวถอดรหัส โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะใช้กระบวนการ 2 ขั้นตอนต่อไปนี้

  1. โปรแกรมเปลี่ยนไฟล์จะจับคู่อินพุตกับมิติข้อมูลที่ต่ำกว่า (โดยปกติ) แบบสูญเสียบางส่วน (ระดับกลาง)
  2. ตัวถอดรหัสจะสร้างอินพุตต้นฉบับในเวอร์ชันแบบสูญเสียบางส่วนด้วยการแมป รูปแบบมิติข้อมูลที่ต่ำกว่าให้เป็นมิติที่สูงขึ้นแบบเดิม รูปแบบอินพุต

โปรแกรมเปลี่ยนไฟล์อัตโนมัติได้รับการฝึกจากต้นทางถึงปลายทางโดยให้เครื่องมือถอดรหัส สร้างอินพุตต้นฉบับจากรูปแบบระดับกลางของโปรแกรมเปลี่ยนไฟล์ ให้ใกล้เคียงที่สุดเท่าที่จะทำได้ เนื่องจากรูปแบบระดับกลางมีขนาดเล็กกว่า (มีมิติต่ำ) กว่ารูปแบบเดิม โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะถูกบังคับให้ เพื่อเรียนรู้ว่าข้อมูลในอินพุตใดที่จำเป็น และเอาต์พุตก็จะไม่ จะเหมือนกับข้อมูลที่ป้อนไว้ทุกประการ

เช่น

  • หากข้อมูลที่ป้อนเป็นกราฟิก การคัดลอกที่ไม่ตรงกันทุกประการจะมีลักษณะคล้ายกับ กราฟิกต้นฉบับ แต่มีการแก้ไขบ้าง บางที ข้อความที่ไม่ตรงทั้งหมดจะนำนอยส์ออกจากกราฟิกต้นฉบับหรือเติมแต่ง ไม่มีพิกเซลบางส่วน
  • หากข้อมูลอินพุตเป็นข้อความ โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะสร้างข้อความใหม่ที่ เลียนแบบ (แต่ไม่เหมือนกัน) กับข้อความต้นฉบับ

ดูข้อมูลเพิ่มเติมที่โปรแกรมเปลี่ยนไฟล์อัตโนมัติเวอร์ชันต่างๆ

อคติจากการทำงานอัตโนมัติ

#fairness

เมื่อผู้มีอำนาจตัดสินใจให้คะแนนคำแนะนำแบบอัตโนมัติ ระบบการตัดสินใจเหนือข้อมูลที่สร้างขึ้นโดยไม่มีการทำงานอัตโนมัติ แม้แต่ เมื่อระบบตัดสินใจอัตโนมัติเกิดข้อผิดพลาด

ดูความเป็นธรรม: ประเภทของ อคติ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

AutoML

กระบวนการอัตโนมัติทั้งหมดเพื่อสร้างแมชชีนเลิร์นนิง รุ่น AutoML จะทำงานได้โดยอัตโนมัติ เช่น

  • ค้นหารูปแบบที่เหมาะสมที่สุด
  • ปรับแต่ง Hyperparameters
  • เตรียมข้อมูล (รวมถึงการดำเนินการ feature Engineering)
  • ทำให้โมเดลที่ได้ใช้งานได้

AutoML มีประโยชน์สำหรับนักวิทยาศาสตร์ข้อมูล เพราะช่วยประหยัดเวลา ในการพัฒนากระบวนการทำงานของแมชชีนเลิร์นนิง และปรับปรุงการคาดการณ์ ความแม่นยำ นอกจากนี้ยังมีประโยชน์สำหรับผู้ที่ไม่ใช่ผู้เชี่ยวชาญด้วย เพราะจะทำให้ งานด้านแมชชีนเลิร์นนิง ที่เข้าถึงได้มากขึ้น

ดูเครื่องอัตโนมัติ การเรียนรู้ (AutoML) ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

โมเดลถดถอยอัตโนมัติ

#language
#image
#generativeAI

โมเดลที่อนุมานการคาดคะเนโดยอิงตามเดิมของโมเดลนี้ การคาดการณ์ เช่น โมเดลภาษาแบบถดถอยอัตโนมัติจะคาดการณ์ โทเค็นตามโทเค็นที่คาดการณ์ไว้ก่อนหน้านี้ แบบ Transformer ทั้งหมด โมเดลภาษาขนาดใหญ่จะถดถอยอัตโนมัติ

ในทางตรงกันข้าม โมเดลรูปภาพที่ใช้ GAN จะไม่ถดถอยโดยอัตโนมัติ เนื่องจากสร้างรูปภาพใน Forward Pass รายการเดียวและไม่ทำซ้ำใน ขั้นตอน อย่างไรก็ตาม การสร้างรูปภาพบางรูปแบบจะถดถอยโดยอัตโนมัติเนื่องจาก เพื่อสร้างรูปภาพได้เป็นขั้นตอน

การสูญเสียเสริม

ฟังก์ชัน Loss ที่ใช้ร่วมกับ หลักของโครงข่ายระบบประสาทเทียม ของโมเดล ฟังก์ชันการสูญเสียการใช้งาน ซึ่งช่วยเร่งการฝึกในระหว่าง การทำซ้ำตั้งแต่เนิ่นๆ เมื่อน้ำหนักได้รับการเริ่มต้นแบบสุ่ม

ฟังก์ชันการสูญเสียข้อมูลเสริมจะพุชการไล่ระดับสีที่มีประสิทธิภาพ ไปยังเลเยอร์ก่อนหน้านี้ ซึ่งช่วยให้ การสนทนาระหว่างการฝึกอบรม ด้วยการต่อสู้กับปัญหาการไล่ระดับสีที่หายไป

ความแม่นยำเฉลี่ย

เมตริกสำหรับการสรุปประสิทธิภาพของลำดับผลลัพธ์ที่จัดอันดับ ความแม่นยำเฉลี่ยคำนวณโดยการหาค่าเฉลี่ยของ precision สำหรับผลลัพธ์ที่เกี่ยวข้องแต่ละรายการ (ผลลัพธ์แต่ละรายการจะมีค่า รายการที่จัดอันดับซึ่งมีความอ่อนไหวเพิ่มขึ้นเมื่อเทียบกับผลลัพธ์ก่อนหน้า)

โปรดดูเพิ่มเติมที่พื้นที่ใต้กราฟ PR

เงื่อนไขตามแกน

#df

เงื่อนไขในแผนผังการตัดสินใจ ที่มีฟีเจอร์เดียวเท่านั้น ตัวอย่างเช่น หากพื้นที่ คือคุณลักษณะ ตามด้วยเงื่อนไขที่จัดตามแกน:

area > 200

ตัดกับเงื่อนไขแบบเอียง

B

Backpropagation

#fundamentals

อัลกอริทึมที่ใช้ การไล่ระดับสีใน โครงข่ายระบบประสาทเทียม

การฝึกโครงข่ายระบบประสาทเทียมต้องอาศัยการทำซ้ำหลายอย่าง ของวงจร 2 ช่องทางต่อไปนี้

  1. ในระหว่างการส่งต่อ ระบบจะประมวลผลกลุ่ม ตัวอย่าง เพื่อเพิ่มผลตอบแทนจากการคาดการณ์ ระบบจะเปรียบเทียบ ให้กับค่า label แต่ละค่า ความแตกต่างระหว่าง การคาดการณ์และค่าป้ายกำกับคือ loss สำหรับตัวอย่างนั้น ระบบจะรวบรวมการสูญเสียสำหรับตัวอย่างทั้งหมดเพื่อคำนวณผลรวม สำหรับแบตช์ปัจจุบัน
  2. ในระหว่างบัตรผ่านย้อนหลัง (backpropagation) ระบบจะลดการขาดทุนลง เพื่อปรับน้ำหนักของเซลล์ประสาททั้งหมดใน เลเยอร์ที่ซ่อนอยู่

โครงข่ายประสาทมักประกอบด้วยเซลล์ประสาทจำนวนมากในชั้นที่ซ่อนอยู่หลายชั้น เซลล์ประสาทแต่ละเซลล์ก่อให้เกิดการสูญเสียโดยรวมในรูปแบบที่แตกต่างกันไป Backpropagation จะกำหนดว่าจะเพิ่มหรือลดน้ำหนัก ที่ใช้กับเซลล์ประสาทเฉพาะหนึ่งๆ

อัตราการเรียนรู้คือตัวคูณที่ควบคุม องศาที่การข้ามย้อนกลับแต่ละรายการจะเพิ่มหรือลดน้ำหนักของแต่ละรายการ อัตราการเรียนรู้ที่สูงจะเพิ่มหรือลดน้ำหนักแต่ละรายการมากกว่า และมีอัตราการเรียนรู้ในน้อย

ในแคลคูลัส การใช้ Backpropagation จะประมวลผล กฎลูกโซ่ จากแคลคูลัส นั่นก็คือ Backpropagation จะคำนวณ อนุพันธ์บางส่วนของข้อผิดพลาดกับ พารามิเตอร์แต่ละรายการ

หลายปีที่ผ่านมา ผู้ปฏิบัติงานด้าน ML ต้องเขียนโค้ดเพื่อใช้ Backpropagation ตอนนี้ ML API ที่ทันสมัยอย่าง Keras มีการใช้งาน Backpropagation ให้กับคุณแล้ว ในที่สุด

ดูโครงข่ายระบบประสาทเทียม ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

การถุง

#df

วิธีการฝึกชุดรวมโดยที่แต่ละชุด โมเดลองค์ประกอบจะฝึกในชุดย่อยแบบสุ่มของการฝึก ตัวอย่าง สุ่มตัวอย่างพร้อมการแทนที่ ตัวอย่างเช่น random Forest คือคอลเล็กชันของ ต้นไม้การตัดสินใจฝึกโดยใช้การบรรจุสัมภาระ

คำว่า bagging เป็นคำสั้นๆ ของ bootstrap aggregat

ดูป่าแบบสุ่ม ในหลักสูตร Decision Forests สำหรับข้อมูลเพิ่มเติม

ถุงคำ

#language

การนำเสนอคำในวลีหรือข้อความ โดยไม่คำนึงถึงคำสั่งซื้อ ตัวอย่างเช่น ถุงคำแสดงถึง วลีสามวลีต่อไปนี้เหมือนกันทุกประการ:

  • สุนัขกระโดด
  • สุนัขกระโดด
  • สุนัขกระโดด

แต่ละคำจะแมปกับดัชนีในเวกเตอร์แบบกระจัดกระจาย โดยที่ เวกเตอร์จะมีดัชนีสำหรับทุกคำในคำศัพท์ ตัวอย่างเช่น วลีที่ สุนัขกระโดด จับคู่กับเวกเตอร์จุดสนใจที่ไม่ใช่ 0 ในดัชนีทั้ง 3 รายการที่ตรงกับคำว่า the, dog และ jumps ค่าที่ไม่ใช่ 0 อาจเป็นค่าใดก็ได้ต่อไปนี้

  • A 1 เพื่อแสดงการมีอยู่ของคำ
  • จำนวนครั้งที่คำปรากฏในกระเป๋า ตัวอย่างเช่น ถ้าวลีคือสุนัขสีแดงเป็นสุนัขที่มีขนสีแดง ทั้งสองคำ น้ำตาลแดง และ สุนัข จะแสดงเป็น 2 ในขณะที่คำอื่นๆ จะแสดงเป็น จะแสดงเป็น 1
  • ค่าอื่นๆ เช่น ลอการิทึมของจำนวนของ จำนวนครั้งที่คำปรากฏในกระเป๋า

พื้นฐาน

โมเดลใช้เป็นจุดอ้างอิงสำหรับการเปรียบเทียบว่าโมเดลอื่นได้ดีเพียงใด โมเดล (โดยทั่วไปจะเป็นรูปแบบที่ซับซ้อนกว่า) ตัวอย่างเช่น โมเดลการถดถอยแบบโลจิสติกส์อาจทำหน้าที่เป็น เกณฑ์พื้นฐานที่ดีสำหรับโมเดลเชิงลึก

สำหรับปัญหาเฉพาะหนึ่งๆ เกณฑ์พื้นฐานจะช่วยสร้างแบบจำลองให้กับนักพัฒนาซอฟต์แวร์ในเชิงปริมาณ ประสิทธิภาพที่คาดหวังขั้นต่ำที่รูปแบบใหม่จะต้องทำให้สำเร็จสำหรับโมเดลใหม่ เป็นโมเดลที่มีประโยชน์

กลุ่ม

#fundamentals

ชุดตัวอย่างที่ใช้ในการฝึก 1 รายการ การปรับปรุงซ้ำ ขนาดกลุ่มจะกำหนดจำนวนตัวอย่างใน กลุ่ม

ดู epoch สำหรับคำอธิบายว่ากลุ่มเกี่ยวข้องกับ Epoch

โปรดดูการถดถอยเชิงเส้น ไฮเปอร์พารามิเตอร์ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

การอนุมานแบบกลุ่ม

#TensorFlow
#GoogleCloud

กระบวนการในการคาดการณ์การอนุมานในหลายข้อมูล ตัวอย่างที่ไม่มีป้ายกำกับแบ่งออกเป็นส่วนย่อยๆ เซ็ตย่อย ("กลุ่ม")

การอนุมานแบบกลุ่มสามารถใช้ประโยชน์จากคุณลักษณะการโหลดพร้อมกันของ ชิป Accelerator ซึ่งก็คือ Accelerator หลายรายการ สามารถอนุมานการคาดคะเนในกลุ่มต่างๆ ที่ไม่มีป้ายกำกับพร้อมกันได้ ตัวอย่าง ซึ่งทำให้จำนวนการอนุมานต่อวินาทีเพิ่มสูงขึ้นอย่างมาก

ดูระบบ ML เวอร์ชันที่ใช้งานจริง: แบบคงที่กับไดนามิก การอนุมาน ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

การแปลงแบบกลุ่มให้เป็นมาตรฐาน

การปรับมาตรฐานอินพุตหรือเอาต์พุตของ ฟังก์ชันการเปิดใช้งานใน เลเยอร์ที่ซ่อนอยู่ สามารถแปลงแบตช์ให้เป็นมาตรฐานได้ มีประโยชน์ดังต่อไปนี้

ขนาดกลุ่ม

#fundamentals

จำนวนตัวอย่างในกลุ่ม ตัวอย่างเช่น หากขนาดกลุ่มคือ 100 โมเดลจะประมวลผล 100 ตัวอย่างต่อการปรับปรุง 1 ครั้ง

กลยุทธ์เกี่ยวกับขนาดกลุ่มยอดนิยมมีดังนี้

  • Stochastic Gradient Descent (SGD) ซึ่งขนาดกลุ่มคือ 1
  • ทั้งกลุ่ม ซึ่งขนาดกลุ่มคือจำนวนตัวอย่างทั้งหมด ชุดการฝึก ตัวอย่างเช่น หากชุดการฝึก มีตัวอย่าง 1 ล้านตัวอย่าง ขนาดกลุ่มจะเท่ากับ 1 ล้าน ตัวอย่าง การใช้ทั้งกลุ่มมักเป็นกลยุทธ์ที่ไร้ประสิทธิภาพ
  • มินิแบตช์ที่ขนาดกลุ่มมักจะอยู่ระหว่าง 10 และ 1000 มักเป็นกลยุทธ์ที่มีประสิทธิภาพมากที่สุด

โปรดดูข้อมูลเพิ่มเติมดังต่อไปนี้

โครงข่ายประสาทแบบเบย์

โครงข่ายระบบประสาทเทียมที่เป็นไปได้ซึ่งครอบคลุม ความไม่แน่นอนในน้ำหนักและเอาต์พุต โครงข่ายระบบประสาทเทียมมาตรฐาน โดยทั่วไปโมเดลการถดถอยจะคาดการณ์ค่าสเกลาร์ เช่น โมเดลมาตรฐานคาดการณ์ราคาบ้าน 853,000 ครั้ง ในทางตรงกันข้าม โครงข่ายประสาทแบบเบย์คาดการณ์การกระจายของ ค่า; ตัวอย่างเช่น แบบจำลอง Bayesian คาดการณ์ราคาบ้านไว้ที่ 853,000 กับ ค่าเบี่ยงเบนมาตรฐานเป็น 67,200

โครงข่ายประสาทแบบเบย์ต้องอาศัย เบส์ ทฤษฎีบท เพื่อคำนวณความไม่แน่นอนในน้ำหนักและการคาดการณ์ ระบบประสาทแบบเบย์ เครือข่ายอาจมีประโยชน์เมื่อจำเป็นต้องระบุปริมาณความไม่แน่นอน เช่น แบบจำลองที่เกี่ยวข้องกับเภสัชภัณฑ์ โครงข่ายประสาทแบบเบย์ก็ช่วยได้ ป้องกันไม่ให้เกิดการปรับมากเกินไป

การเพิ่มประสิทธิภาพ Bayesian

โมเดลการถดถอยของความน่าจะเป็น เทคนิคในการเพิ่มประสิทธิภาพให้กับการประมวลผลที่มีต้นทุนสูง ฟังก์ชันวัตถุประสงค์โดยการเพิ่มประสิทธิภาพตัวแทนแทน ซึ่งจะวัดค่าความไม่แน่นอนโดยใช้เทคนิคการเรียนรู้แบบเบส์ ตั้งแต่ปี การเพิ่มประสิทธิภาพแบบ Bayesian มีราคาแพงมาก ซึ่งโดยปกติแล้วจะใช้เพื่อเพิ่มประสิทธิภาพ งานที่ต้องทำการประเมินราคาแพงซึ่งมีพารามิเตอร์เพียงไม่กี่รายการ เช่น การเลือก Hyperparameters

สมการของเบลล์แมน

#rl

ในการเสริมสร้างการเรียนรู้ อัตลักษณ์ต่อไปนี้คือสิ่งที่สอดคล้องกับ ฟังก์ชัน Q

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

อัลกอริทึมการเรียนรู้แบบเสริมกำลังนำวิธีนี้ไปใช้ เพื่อสร้าง Q-learning ผ่านกฎการอัปเดตต่อไปนี้

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

นอกเหนือจากการเรียนรู้แบบเสริมกำลังแล้ว สมการ Bellman ยังสามารถนำไปใช้เพื่อ การเขียนโปรแกรมแบบไดนามิก โปรดดู ข้อมูล Wikipedia สำหรับสมการ Bellman

BERT (โปรแกรมเปลี่ยนไฟล์แบบ 2 ทิศทาง ภาพแทนของ Transformers)

#language

สถาปัตยกรรมโมเดลสำหรับการนําเสนอข้อความ ผู้ที่ได้รับการฝึก โมเดล BERT สามารถทำหน้าที่เป็นส่วนหนึ่งของโมเดลที่ใหญ่กว่าสำหรับการจำแนกประเภทข้อความ หรือ งาน ML อื่นๆ

BERT มีลักษณะเฉพาะดังต่อไปนี้

รายละเอียดปลีกย่อยของ BERT ได้แก่

  • ALBERT ซึ่งเป็นตัวย่อของ A Light BERT
  • LaBSE
วันที่

ดู Open Sourcing BERT: การฝึกอบรมล่วงหน้าที่ทันสมัยสำหรับภาษาธรรมชาติ กำลังประมวลผล เพื่อดูภาพรวมของ BERT

อคติ (จริยธรรม/ความยุติธรรม)

#fairness
#fundamentals

1. การใช้คำสเตอริโอ อคติ หรือความชอบต่อบางสิ่งบางอย่าง ผู้คน หรือกลุ่มอื่นมากกว่าผู้อื่น การให้น้ำหนักพิเศษเหล่านี้อาจส่งผลต่อการเก็บรวบรวมและ การตีความข้อมูล การออกแบบระบบ และการโต้ตอบของผู้ใช้ ด้วยระบบ รูปแบบของอคติประเภทนี้มีดังนี้

2. ข้อผิดพลาดที่เป็นระบบซึ่งเกิดขึ้นจากการสุ่มตัวอย่างหรือขั้นตอนการรายงาน รูปแบบของอคติประเภทนี้มีดังนี้

อย่าสับสนกับคำที่ให้น้ำหนักพิเศษในโมเดลแมชชีนเลิร์นนิง หรืออคติจากการคาดคะเน

ดูความเป็นธรรม: ประเภทของ อคติ หากต้องการข้อมูลเพิ่มเติม

คำที่ให้น้ำหนักพิเศษ (ทางคณิตศาสตร์) หรือการให้น้ำหนักพิเศษ

#fundamentals

จุดตัดหรือออฟเซ็ตจากต้นทาง การให้น้ำหนักพิเศษคือพารามิเตอร์ใน โมเดลแมชชีนเลิร์นนิง ซึ่งมีสัญลักษณ์เป็น ดังต่อไปนี้:

  • 0

ตัวอย่างเช่น ความลำเอียงคือ b ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในบรรทัด 2 มิติอย่างง่าย การให้น้ำหนักพิเศษหมายถึง "จุดตัดแกน y" เท่านั้น ตัวอย่างเช่น ความเอนเอียงของเส้นในภาพประกอบต่อไปนี้คือ 2

พล็อตเส้นที่มีความลาดชัน 0.5 และมีความเอนเอียง (จุดตัด y) เป็น 2

มีการให้น้ำหนักพิเศษเนื่องจากมีบางโมเดลที่เริ่มต้นจากต้นทาง (0,0) ตัวอย่างเช่น สมมติว่าสวนสนุกแห่งหนึ่งมีค่าใช้จ่าย 2 ยูโรสำหรับเข้าชมและอีก 0.5 ยูโรต่อทุกชั่วโมงที่ลูกค้าเข้าพัก ดังนั้น โมเดลที่แมปฟิลด์ ต้นทุนรวมมีความลำเอียงเป็น 2 เนื่องจากต้นทุนต่ำสุดคือ 2 ยูโร

อย่าสับสนระหว่างการให้อคติกับการให้อคติในจริยธรรมและความยุติธรรม หรืออคติจากการคาดคะเน

โปรดดูการถดถอยเชิงเส้น ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

แบบ 2 ทาง

#language

คำที่ใช้อธิบายระบบที่ประเมินข้อความที่อยู่ก่อนหน้า และติดตามส่วนเป้าหมายของข้อความ ในทางกลับกัน ระบบ unidirectional เท่านั้น ประเมินข้อความที่อยู่ก่อนส่วนเป้าหมายของข้อความ

ตัวอย่างเช่น ลองพิจารณาโมเดลภาษามาสก์ที่ ต้องกำหนดความน่าจะเป็นของคำหรือกลุ่มคำที่แทนเส้นใต้ใน คำถามต่อไปนี้

_____ กับคุณคืออะไร

โมเดลภาษาแบบทิศทางเดียวจะต้องกำหนดฐานความน่าจะเป็นเท่านั้น ในบริบทของคำว่า "อะไร" "เป็น" และ "" ในทางตรงกันข้าม โมเดลภาษาแบบ 2 ทิศทางอาจได้รับบริบทจาก "with" เช่นกัน และ "คุณ" ซึ่งอาจช่วยให้โมเดลสร้างการคาดการณ์ที่ดีขึ้นได้

โมเดลภาษาแบบ 2 ทิศทาง

#language

โมเดลภาษาที่กำหนดความน่าจะเป็นที่ โทเค็นที่ระบุปรากฏอยู่ในตำแหน่งที่กำหนดในข้อความที่ตัดตอนมาจากข้อความ ข้อความก่อนหน้าและด้านล่าง

Bigram

#seq
#language

N-gram ที่มี N=2

การจัดประเภทแบบไบนารี

#fundamentals

งานประเภทการแยกประเภทที่ คาดการณ์ว่าคลาสใดคลาสหนึ่งจาก 2 คลาสที่แยกจากกันได้:

ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิง 2 โมเดลต่อไปนี้มีประสิทธิภาพ การจัดประเภทแบบไบนารี:

  • โมเดลที่กำหนดว่าข้อความอีเมล spam (คลาสเชิงบวก) หรือ ไม่ใช่จดหมายขยะ (คลาสเชิงลบ)
  • โมเดลที่ประเมินอาการทางการแพทย์เพื่อตัดสินว่าผู้ป่วย มีโรคบางอย่าง (คลาสเชิงบวก) หรือไม่มีโรคนั้น โรค (ระดับเชิงลบ)

แตกต่างจากการแยกประเภทแบบหลายคลาส

โปรดดูการถดถอยแบบโลจิสติกและ เกณฑ์การแยกประเภท

ดูการจัดประเภท ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

เงื่อนไขไบนารี

#df

เงื่อนไขในแผนผังการตัดสินใจ ซึ่งมีผลลัพธ์ที่เป็นไปได้เพียง 2 รายการ โดยทั่วไปแล้วคือ ใช่หรือไม่ใช่ ตัวอย่างเช่น ต่อไปนี้คือเงื่อนไขแบบไบนารี

temperature >= 100

ตัดกับเงื่อนไขที่ไม่ใช่ไบนารี

ดูประเภทของเงื่อนไข ในหลักสูตร Decision Forests สำหรับข้อมูลเพิ่มเติม

Binning

คำพ้องความหมายของ bucketing

BLEU (การศึกษาด้านการประเมินแบบ 2 ภาษา)

#language

คะแนนจะอยู่ระหว่าง 0.0 ถึง 1.0 ซึ่งแสดงถึงคุณภาพของการแปล ระหว่างภาษามนุษย์ 2 ภาษา (เช่น ระหว่างภาษาอังกฤษและรัสเซีย) BLEU คะแนน 1.0 หมายความว่าคำแปลนั้นสมบูรณ์แบบ คะแนน BLEU ที่ 0.0 แสดงว่า การแปลที่แย่มาก

การเพิ่มพลัง

เทคนิคแมชชีนเลิร์นนิงที่รวมเอาชุดข้อมูลอย่างง่ายและ ไม่ค่อยถูกต้อง (เรียกว่าตัวแยกประเภทที่ "อ่อน") ลงใน ตัวแยกประเภทที่มีความแม่นยำสูง (ตัวแยกประเภท "รัดกุม") ตาม ยกน้ำหนักตัวอย่าง ของโมเดลที่กำลังมีอยู่ในปัจจุบัน จัดประเภทไม่ถูกต้อง

ดู การไล่ระดับสีการตัดสินใจ ต้นไม้ล่ะ ในหลักสูตร Decision Forests สำหรับข้อมูลเพิ่มเติม

กรอบล้อมรอบ

#image

ในรูปภาพ พิกัด (x, y) ของสี่เหลี่ยมผืนผ้ารอบพื้นที่ของ เช่น สุนัขในรูปภาพด้านล่าง

ภาพสุนัขนั่งบนโซฟา กรอบล้อมรอบสีเขียว
          พร้อมพิกัดด้านซ้ายบน (275, 1271) และขวาล่าง
          พิกัด (2954, 2761) ติดรอบลำตัวของสุนัข

การบรอดแคสต์ข้อความ

การขยายรูปร่างของตัวถูกดำเนินการในการคำนวณทางคณิตศาสตร์แบบเมทริกซ์เป็น มิติข้อมูลที่ใช้งานร่วมกันได้สำหรับการดำเนินการนั้น ตัวอย่างเช่น พีชคณิตเชิงเส้นกำหนดให้ตัวถูกดำเนินการ 2 ตัวในการบวกเมทริกซ์ ต้องมีขนาดเดียวกัน จึงไม่สามารถเพิ่มเมทริกซ์ของรูปทรงได้ (m, n) กับเวกเตอร์ของความยาว n การออกอากาศจะเปิดใช้งานโดย ขยายเวกเตอร์ของความยาว n ไปยังเมทริกซ์ของรูปทรงแบบเสมือน (m, n) โดยใช้ จำลองค่าเดียวกันลงในแต่ละคอลัมน์

ตัวอย่างเช่น จากคำนิยามต่อไปนี้ พีชคณิตเชิงเส้นห้าม A+B เนื่องจาก A และ B มีมิติข้อมูลต่างกัน

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

อย่างไรก็ตาม การออกอากาศจะทำให้สามารถทำงาน A+B ได้โดยการขยาย B ไปยังสิ่งใดต่อไปนี้ทางออนไลน์

 [[2, 2, 2],
  [2, 2, 2]]

ดังนั้น ในขณะนี้ A+B จึงเป็นการดำเนินการที่ถูกต้อง:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

ดูคำอธิบายต่อไปนี้สำหรับ ที่ประกาศใน NumPy เพื่อดูรายละเอียดเพิ่มเติม

การฝากข้อมูล

#fundamentals

การแปลงฟีเจอร์เดียวเป็นฟีเจอร์ไบนารีหลายรายการ ที่เรียกว่าที่เก็บข้อมูลหรือถัง ซึ่งมักอิงตามช่วงค่า คุณลักษณะที่ถูกตัด โดยทั่วไปจะเป็น ฟีเจอร์ต่อเนื่อง

เช่น แทนที่จะแสดงอุณหภูมิเป็น 1 คุณลักษณะจุดลอยตัวอย่างต่อเนื่อง คุณตัดช่วงของอุณหภูมิได้ ลงในที่เก็บข้อมูลแยกกัน เช่น

  • <= 10 องศาเซลเซียส แปลว่า "หนาว"
  • อุณหภูมิของ 11-24 องศาเซลเซียสคือ "อากาศอบอุ่น"
  • >= 25 องศาเซลเซียสหมายถึง "อุ่น"

โมเดลจะดำเนินการกับทุกค่าในที่เก็บข้อมูลเดียวกันในลักษณะเดียวกัน สำหรับ ตัวอย่างเช่น ทั้งค่า 13 และ 22 อยู่ในที่เก็บข้อมูลแบบปานกลาง ดังนั้นค่า จะถือว่าทั้งสองค่าเหมือนกัน

ดูข้อมูลตัวเลข การทิ้ง ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

C

เลเยอร์การปรับเทียบ

การปรับค่าใช้จ่ายหลังการคาดการณ์ ซึ่งมักจะครอบคลุม อคติจากการคาดคะเน การคาดการณ์ที่ปรับแล้วและ ความน่าจะเป็นควรตรงกับการกระจายของชุดป้ายกำกับที่สังเกตได้

รุ่นของผู้สมัคร

#recsystems

คำแนะนำชุดเริ่มต้นที่ ระบบการแนะนำ ตัวอย่างเช่น ลองพิจารณา ร้านหนังสือที่มีหนังสือกว่า 100,000 เล่ม ขั้นตอนการสร้างผู้สมัคร รายการหนังสือที่เหมาะกับผู้ใช้แต่ละคนที่มีขนาดเล็กกว่ามาก เช่น 500 เล่ม แต่ถึงกระนั้น หนังสือ 500 เล่มเป็นจำนวนที่มากเกินกว่าที่จะแนะนำให้แก่ผู้ใช้ได้ ลำดับต่อมา ซึ่งมีราคาแพงกว่า ระยะต่างๆ ของระบบการแนะนำ (เช่น การให้คะแนนและ ทำอันดับใหม่) ลด 500 เหล่านั้นให้เหลือน้อยที่สุด ชุดคำแนะนำที่มีประโยชน์มากขึ้น

ดูการสร้างผู้สมัคร ภาพรวม ในหลักสูตรระบบการแนะนำวิดีโอเพื่อดูข้อมูลเพิ่มเติม

การสุ่มตัวอย่างผู้สมัครรับเลือกตั้ง

การเพิ่มประสิทธิภาพเวลาการฝึกที่คำนวณความน่าจะเป็นสำหรับ ป้ายกำกับ เชิงบวก เช่น softmax แต่สำหรับการสุ่มเท่านั้น ตัวอย่างของป้ายกำกับเชิงลบ ตัวอย่างเช่น ให้ตัวอย่างที่ชื่อว่า beagle และ สุนัข การสุ่มตัวอย่างของผู้สมัครจะคำนวณความน่าจะเป็นที่คาดการณ์ไว้ และข้อกำหนดการสูญเสียที่เกี่ยวข้องสำหรับ

  • บีเกิล
  • สุนัข
  • ชุดย่อยแบบสุ่มของคลาสเชิงลบที่เหลืออยู่ (เช่น cat lollipop, fence)

แนวคิดก็คือ คลาสเชิงลบสามารถเรียนรู้จากได้ไม่บ่อยนัก เช่น การสนับสนุนในเชิงลบ ชั้นเรียนเชิงบวกจะได้รับผลบวกที่เหมาะสมเสมอ มากขึ้นอย่างมาก และนี่ก็เป็นสิ่งที่สังเกตได้แบบประจักษ์

การสุ่มตัวอย่างของผู้สมัครมีประสิทธิภาพในการคำนวณมากกว่าอัลกอริทึมการฝึก ที่ประมวลผลการคาดการณ์สำหรับคลาสเชิงลบทั้งหมด โดยเฉพาะอย่างยิ่งเมื่อ จำนวนคลาสเชิงลบสูงมาก

ข้อมูลเชิงหมวดหมู่

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ที่เฉพาะเจาะจง ตัวอย่างเช่น พิจารณาฟีเจอร์เชิงหมวดหมู่ชื่อ traffic-light-state ซึ่งทำได้เพียง มีค่าที่เป็นไปได้ 1 ใน 3 ค่าต่อไปนี้

  • red
  • yellow
  • green

การแสดง traffic-light-state เป็นฟีเจอร์เชิงหมวดหมู่ โมเดลจะเรียนรู้ ผลกระทบของred, green และyellowที่แตกต่างกันต่อพฤติกรรมของผู้ขับ

บางครั้งเราเรียกฟีเจอร์เชิงหมวดหมู่ ฟีเจอร์แยกกัน

ตัดกับข้อมูลตัวเลข

ดูการทำงานกับหมวดหมู่ ข้อมูล ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

โมเดลภาษาทั่วไป

#language

คำพ้องของ unidirectional Language Model

ดูโมเดลภาษาแบบ 2 ทิศทางเพื่อ เปรียบเทียบความแตกต่างของแนวทางการกำหนดทิศทางต่างๆ ในโมเดลภาษา

เซนทรอยด์

#clustering

ศูนย์กลางของคลัสเตอร์ตามที่กำหนดโดย k-means หรือ มัธยฐาน k-median เช่น หาก k คือ 3 อัลกอริทึม k-means หรือ k-median จะค้นหาเซนทรอยด์ 3 เซนทรอยด์

ดูอัลกอริทึมของคลัสเตอร์ ในหลักสูตรคลัสเตอร์สำหรับข้อมูลเพิ่มเติม

คลัสเตอร์แบบเซนทรอยด์

#clustering

หมวดหมู่ของอัลกอริทึม clustering ที่จัดระเบียบข้อมูล เป็นคลัสเตอร์ที่ไม่มีลำดับชั้น k-means เป็นวิธีที่กว้างที่สุด ใช้อัลกอริทึมการจัดกลุ่มแบบเซนทรอยด์

คอนทราสต์กับการจัดกลุ่มแบบลำดับชั้น อัลกอริทึม

ดูอัลกอริทึมของคลัสเตอร์ ในหลักสูตรคลัสเตอร์สำหรับข้อมูลเพิ่มเติม

การสร้างพรอมต์แบบเชนความคิด

#language
#generativeAI

เทคนิควิศวกรรมพรอมต์ที่ส่งเสริม โมเดลภาษาขนาดใหญ่ (LLM) เพื่ออธิบาย การให้เหตุผล ทีละขั้นตอน ตัวอย่างเช่น ลองพิจารณาพรอมต์ต่อไปนี้ การจ่ายเงิน ความสนใจเป็นพิเศษกับประโยคที่สอง:

คนขับจะมีแรงขับเท่าใดในรถที่มีแรงขับจาก 0 ถึง 60 ไมล์ต่อชั่วโมงใน 7 วินาทีใช่ไหม แสดงการคำนวณที่เกี่ยวข้องทั้งหมดในคำตอบ

คำตอบของ LLM น่าจะดังนี้

  • แสดงลำดับของสูตรฟิสิกส์ การใส่ค่า 0, 60 และ 7 ในสถานที่ที่เหมาะสม
  • อธิบายว่าทำไมมันจึงเลือกสูตรเหล่านั้นและตัวแปรต่างๆ หมายถึงอะไร

การแจ้งเตือนแบบเชนความคิดบังคับให้ LLM ทำการคำนวณทั้งหมด ซึ่งอาจทำให้ได้คำตอบที่ถูกต้องมากขึ้น นอกจากนี้ เครือข่ายความคิด ช่วยให้ผู้ใช้ตรวจสอบขั้นตอนของ LLM เพื่อดูว่า หรือว่าคำตอบนั้นไม่สมเหตุสมผล

แชท

#language
#generativeAI

เนื้อหาที่มีการสนทนาโต้ตอบกลับไปกลับมาด้วยระบบ ML มักจะเป็น โมเดลภาษาขนาดใหญ่ การโต้ตอบก่อนหน้าในแชท (สิ่งที่คุณพิมพ์และวิธีการที่โมเดลภาษาขนาดใหญ่ตอบกลับ) จะกลายเป็น บริบทสำหรับส่วนต่อๆ ไปของแชท

แชทบ็อตเป็นแอปพลิเคชันของโมเดลภาษาขนาดใหญ่

จุดตรวจ

ข้อมูลที่บันทึกสถานะพารามิเตอร์ของโมเดล ในระหว่างการฝึกหรือหลังเสร็จสิ้นการฝึก ตัวอย่างเช่น ระหว่างการฝึก คุณสามารถ

  1. หยุดการฝึก อาจโดยตั้งใจหรืออาจเกิดขึ้นจาก ข้อผิดพลาดบางอย่าง
  2. จับภาพจุดตรวจ
  3. หลังจากนั้นให้โหลดจุดตรวจสอบซ้ำ ซึ่งอาจเป็นไปได้ในฮาร์ดแวร์อื่น
  4. เริ่มการฝึกใหม่
วันที่

คลาส

#fundamentals

หมวดหมู่ที่มีป้ายกำกับได้ เช่น

โมเดลการจัดประเภทจะคาดการณ์คลาส ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์จำนวน แทนที่จะเป็นชั้นเรียน

ดูการจัดประเภท ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

โมเดลการจัดประเภท

#fundamentals

โมเดลที่การคาดการณ์เป็น class ตัวอย่างรูปแบบการจัดประเภททั้งหมดมีดังนี้

  • โมเดลที่คาดการณ์ภาษาของประโยคอินพุต (ภาษาฝรั่งเศส ภาษาสเปนนะ อิตาลี)
  • โมเดลที่คาดการณ์ชนิดของต้นไม้ (Maple? โอ๊ก? เบาบับไหม)
  • โมเดลที่คาดการณ์คลาสบวกหรือลบสำหรับ ภาวะทางการแพทย์

ในทางตรงกันข้าม โมเดลการถดถอยคาดการณ์จำนวน แทนที่จะเป็นชั้นเรียน

รูปแบบการจัดหมวดหมู่ที่ใช้กันทั่วไปมี 2 ประเภท ได้แก่

เกณฑ์การจัดประเภท

#fundamentals

ในการจัดประเภทแบบไบนารี ตัวเลขระหว่าง 0 ถึง 1 ซึ่งจะแปลงเอาต์พุตดิบของ โมเดลการถดถอยแบบโลจิสติก เพื่อคาดการณ์ คลาสเชิงบวก หรือคลาสเชิงลบ โปรดทราบว่าเกณฑ์การจัดประเภทเป็นค่าที่มนุษย์เลือก ไม่ใช่ค่าที่เลือกโดยการฝึกโมเดล

โมเดลการถดถอยแบบโลจิสติกจะแสดงค่าดิบระหว่าง 0 ถึง 1 จากนั้นให้ทำดังนี้

  • หากค่าดิบนี้มากกว่าเกณฑ์การจัดประเภท ให้ทำดังนี้ ระบบจะคาดการณ์คลาสเชิงบวก
  • หากค่าดิบนี้น้อยกว่าเกณฑ์การจัดประเภทแล้ว ส่วนชั้นลบก็คาดการณ์ไว้

ตัวอย่างเช่น สมมติว่าเกณฑ์การจัดประเภทคือ 0.8 หากค่าดิบ มีค่าเป็น 0.9 โมเดลจะคาดการณ์คลาสบวก ถ้าค่าดิบคือ 0.7 โมเดลจะคาดการณ์คลาสลบ

ตัวเลือกเกณฑ์การจัดประเภทจะมีผลต่อจำนวน การตรวจสอบที่ผิดพลาด และ ผลลบลวง

ดูเกณฑ์และความสับสน เมทริกซ์ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

ชุดข้อมูลที่ไม่สมดุล

#fundamentals

ชุดข้อมูลสำหรับปัญหาการจัดประเภทที่มีจำนวนรวมของ ของ label ของแต่ละคลาสแตกต่างกันอย่างมาก เช่น ลองพิจารณาชุดข้อมูลการจัดประเภทแบบไบนารีที่มีป้ายกำกับ 2 รายการ แบ่งออกได้ดังนี้

  • ป้ายกำกับเชิงลบ 1,000,000 ป้าย
  • ป้ายกำกับเชิงบวก 10 รายการ

อัตราส่วนของค่าลบต่อป้ายกำกับเชิงบวกคือ 100,000 ต่อ 1 ดังนั้น เป็นชุดข้อมูลที่ไม่สมดุลกัน

ในทางตรงกันข้าม ชุดข้อมูลต่อไปนี้ไม่ใช่ความสมดุลของคลาสเนื่องจาก อัตราส่วนของป้ายกำกับเชิงลบต่อป้ายกำกับเชิงบวกค่อนข้างใกล้เคียงกับ 1:

  • 517 ป้ายกำกับเชิงลบ
  • 483 ป้ายกำกับเชิงบวก

ชุดข้อมูลแบบหลายคลาสอาจมีความไม่สมดุลของคลาส ตัวอย่างเช่น URL ต่อไปนี้ ชุดข้อมูลการแยกประเภทแบบหลายคลาสจะไม่สมดุลเนื่องจากป้ายกำกับ 1 รายการ มีตัวอย่างมากกว่า 2 แบบ

  • ป้ายกำกับ 1,000,000 ป้ายที่มีคลาสเป็น "สีเขียว"
  • 200 ป้ายกำกับที่มีคลาสเป็น "สีม่วง"
  • ป้ายกำกับ 350 รายการที่มีคลาส "สีส้ม"

โปรดดูเอนโทรปี คลาสส่วนใหญ่ และชนกลุ่มน้อย

การตัดคลิป

#fundamentals

เทคนิคในการจัดการค่าที่ผิดปกติโดยการดำเนินการ ข้อใดข้อหนึ่งหรือทั้ง 2 ข้อต่อไปนี้

  • การลดค่า feature ที่มากกว่าค่าสูงสุด ลงไปเป็นเกณฑ์สูงสุดได้
  • การเพิ่มค่าฟีเจอร์ที่น้อยกว่าเกณฑ์ขั้นต่ำจนถึงระดับนั้น เกณฑ์ขั้นต่ำ

ตัวอย่างเช่น สมมติว่ามีค่า <0.5% สำหรับสถานที่ใดสถานที่หนึ่ง อยู่นอกช่วง 40–60 ในกรณีนี้ คุณสามารถดำเนินการดังต่อไปนี้

  • ตัดค่าทั้งหมดที่เกิน 60 (เกณฑ์สูงสุด) ให้เท่ากับ 60
  • ตัดค่าทั้งหมดที่ต่ำกว่า 40 (เกณฑ์ขั้นต่ำ) ให้เท่ากับ 40

ค่าผิดปกติอาจทำให้โมเดลเสียหาย ซึ่งบางครั้งก็ทำให้เกิดน้ำหนัก เพิ่มขึ้นอีกในระหว่างการฝึก ค่าผิดปกติบางอย่างอาจทำให้มีผลเสียอย่างมาก อย่างความแม่นยำ การตัดคลิปเป็นเทคนิคที่ใช้กันทั่วไปในการจํากัด ความเสียหาย

แรงการไล่ระดับสี ค่าการไล่ระดับสีภายในช่วงที่กำหนดระหว่างการฝึก

ดูข้อมูลตัวเลข การปรับให้สอดคล้องตามมาตรฐาน ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

Cloud TPU

#TensorFlow
#GoogleCloud

ตัวเร่งฮาร์ดแวร์เฉพาะทางที่ออกแบบมาเพื่อเพิ่มความเร็วของเครื่อง ภาระงานที่เรียนรู้ บน Google Cloud

คลัสเตอร์

#clustering

การจัดกลุ่มตัวอย่างที่เกี่ยวข้อง โดยเฉพาะในระหว่าง การเรียนรู้แบบไม่มีการควบคุมดูแล เมื่อ ตัวอย่างได้รับการจัดกลุ่ม มนุษย์อาจระบุความหมายให้กับแต่ละคลัสเตอร์หรือไม่ก็ได้

มีอัลกอริทึมคลัสเตอร์จำนวนมาก เช่น k-means ตัวอย่างกลุ่มอัลกอริทึมตามระยะใกล้ centroid ดังที่แสดงในแผนภาพต่อไปนี้

กราฟ 2 มิติที่แกน x กำกับไว้ว่าความกว้างต้นไม้
          และแกน y มีป้ายกำกับว่าความสูงของต้นไม้ กราฟมี
          เซนทรอยด์และจุดข้อมูลหลายสิบจุด จุดข้อมูลคือ
          ที่จัดหมวดหมู่ตามความใกล้ชิด ซึ่งก็คือจุดข้อมูล
          ที่อยู่ใกล้กับหนึ่งเซนทรอยด์มากที่สุดจะได้รับการจัดหมวดหมู่เป็นคลัสเตอร์ 1 ในขณะที่คลัสเตอร์เหล่านั้น
          ที่อยู่ใกล้กับเซนทรอยด์อื่นมากที่สุดจะได้รับการจัดหมวดหมู่เป็นคลัสเตอร์ 2

จากนั้นนักวิจัยที่เป็นมนุษย์สามารถตรวจสอบคลัสเตอร์ดังกล่าว ตัวอย่างเช่น ติดป้ายกำกับคลัสเตอร์ 1 เป็น "ต้นไม้แคระ" และคลัสเตอร์ 2 เป็น "ต้นไม้ขนาดเต็ม"

อีกตัวอย่างหนึ่ง ลองพิจารณาอัลกอริทึมการจัดคลัสเตอร์ตาม ตัวอย่างระยะห่างจากจุดศูนย์กลาง มีภาพประกอบดังนี้

จุดข้อมูลหลายสิบจุดจัดเรียงเป็นวงรอบศูนย์กลาง ซึ่งเกือบ
          เหมือนมีรูรอบๆ กึ่งกลางของกระดานปาเป้า วงแหวนชั้นในสุด
          ของจุดข้อมูลจัดอยู่ในหมวดหมู่คลัสเตอร์ 1, วงแหวนตรงกลาง
          ได้รับการจัดหมวดหมู่เป็นคลัสเตอร์ 2 และวงนอกสุดเป็น
          คลัสเตอร์ 3

โปรดดูหลักสูตรคลัสเตอร์ เพื่อดูข้อมูลเพิ่มเติม

การปรับตัวร่วมกัน

เมื่อเซลล์ประสาทคาดการณ์รูปแบบในข้อมูลการฝึกโดยใช้ เกือบจะพึ่งพาเอาต์พุตของเซลล์ประสาทอื่นๆ โดยเฉพาะ แทนที่จะต้องพึ่งพา เกี่ยวกับพฤติกรรมโดยรวมของเครือข่าย เมื่อรูปแบบที่ทำให้เกิดการปรับตัวร่วมกัน ไม่ได้อยู่ในข้อมูลการตรวจสอบความถูกต้อง การปรับตัวร่วมกันก็จะทำให้เกิดการใช้งานที่มากเกินไป กฎเกณฑ์การยกเลิกการเป็นสมาชิกลดการปรับตัวร่วมกัน เนื่องจากการหลั่งออกมาทำให้เซลล์ประสาทไม่สามารถพึ่งพาเซลล์ประสาทตัวอื่นเพียงอย่างเดียวได้

การกรองแบบทำงานร่วมกัน

#recsystems

การคาดเดาความสนใจของผู้ใช้รายเดียว ตามความสนใจของผู้ใช้คนอื่นๆ การกรองการทำงานร่วมกัน มักใช้ในระบบการแนะนำ

ดูการทำงานร่วมกัน การกรอง ในหลักสูตรระบบการแนะนำวิดีโอเพื่อดูข้อมูลเพิ่มเติม

การเปลี่ยนแปลงแนวคิด

การเปลี่ยนแปลงความสัมพันธ์ระหว่างฟีเจอร์และป้ายกำกับ เมื่อเวลาผ่านไป แนวคิดอาจลดทอนคุณภาพของโมเดล

ในระหว่างการฝึก โมเดลจะเรียนรู้ความสัมพันธ์ระหว่างฟีเจอร์กับ ป้ายกำกับในชุดการฝึก หากป้ายกำกับในชุดการฝึกเป็น พร็อกซีที่ดีสำหรับการใช้งานจริง โมเดลควรชดเชย การคาดการณ์ในโลกแห่งความเป็นจริง แต่เนื่องจากความคลาดเคลื่อนของแนวคิด การคาดการณ์มีแนวโน้มจะลดลงเมื่อเวลาผ่านไป

ตัวอย่างเช่น ลองพิจารณาการจัดประเภทแบบไบนารี ที่คาดการณ์ว่ารถบางรุ่นนั้น "ประหยัดน้ำมัน" หรือไม่ ฟีเจอร์ดังกล่าวอาจมีลักษณะดังนี้

  • น้ำหนักรถยนต์
  • การบีบอัดเครื่องมือ
  • ประเภทการแพร่เชื้อ

ในขณะที่ป้ายกำกับเป็น

  • ประหยัดเชื้อเพลิง
  • ไม่ประหยัดเชื้อเพลิง

อย่างไรก็ตาม แนวคิดของ "รถประหยัดน้ำมัน" เก็บ กำลังเปลี่ยนแปลง รถรุ่นหนึ่งที่มีป้ายกำกับว่าประหยัดน้ำมันในปี 1994 มักจะ จะมีป้ายกำกับว่าไม่ประหยัดเชื้อเพลิงในปี 2024 โมเดลที่มีปัญหาการผันผวนของแนวคิด การคาดคะเนจึงมีประโยชน์น้อยลงเรื่อยๆ เมื่อเวลาผ่านไป

เปรียบเทียบระหว่าง nonstationarity

เงื่อนไข

#df

ในแผนผังการตัดสินใจ โหนดที่ ประเมินนิพจน์ ตัวอย่างเช่น ส่วนต่างๆ ต่อไปนี้ของ แผนผังการตัดสินใจมี 2 เงื่อนไขดังนี้

แผนผังการตัดสินใจที่ประกอบด้วยเงื่อนไข 2 ข้อ คือ (x > 0) และ
          (y > 0)

เงื่อนไขเรียกอีกอย่างว่าการแยกหรือการทดสอบ

เปรียบเทียบเงื่อนไขกับ leaf

และดู:

ดูประเภทของเงื่อนไข ในหลักสูตร Decision Forests สำหรับข้อมูลเพิ่มเติม

การพูดคุย

#language

คำพ้องความหมายของความไม่สมเหตุสมผล

การสับสนอาจเป็นศัพท์เทคนิคที่ถูกต้องกว่าคำไม่สมเหตุสมผล อย่างไรก็ตาม ความไม่สมเหตุสมผลก็ได้รับความนิยมเป็นอย่างแรก

การกำหนดค่า

กระบวนการกำหนดมูลค่าพร็อพเพอร์ตี้เริ่มต้นที่ใช้ในการฝึกโมเดล ซึ่งรวมถึง

ในโปรเจ็กต์แมชชีนเลิร์นนิง การกำหนดค่าจะทำได้ผ่าน ไฟล์การกำหนดค่าหรือใช้ไลบรารีการกำหนดค่า ดังตัวอย่างต่อไปนี้

อคติยืนยันความคิดตัวเอง

#fairness

แนวโน้มในการค้นหา ตีความ เห็นชอบ และจดจำข้อมูลใน ที่ช่วยยืนยันความเชื่อหรือสมมติฐานที่มี นักพัฒนาแมชชีนเลิร์นนิงอาจรวบรวมหรือติดป้ายกำกับโดยไม่ได้ตั้งใจ ข้อมูลในลักษณะที่มีอิทธิพลต่อผลลัพธ์ที่สนับสนุนตน ความเชื่อ อคติยืนยันเข้ามาเป็นอคติโดยปริยายรูปแบบหนึ่ง

อคติของผู้ทำการทดสอบคืออคติการยืนยันรูปแบบหนึ่งซึ่ง ผู้ทดสอบจะฝึกโมเดลต่อไปจนกว่าจะมีรุ่น สมมติฐานนั้นได้รับการยืนยันแล้ว

เมทริกซ์ความสับสน

#fundamentals

ตาราง NxN ที่สรุปจำนวนการคาดการณ์ที่ถูกต้องและไม่ถูกต้อง ที่โมเดลการแยกประเภทสร้างขึ้น ตัวอย่างเช่น ลองพิจารณาเมทริกซ์ความสับสนต่อไปนี้สำหรับ โมเดลการจัดประเภทแบบไบนารี:

เนื้องอก (คาดการณ์ไว้) ไม่ใช่เนื้องอก (คาดการณ์ไว้)
เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 18 (TP) 1 (FN)
ไม่ใช่เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 6 (FP) 452 (เทนเนสซี)

เมทริกซ์ความสับสนก่อนหน้าจะแสดงข้อมูลต่อไปนี้

  • จากการคาดการณ์ 19 รายการที่มีข้อมูลที่เป็นความจริงว่าเป็นเนื้องอก โมเดลมีการจัดประเภท 18 อย่างถูกต้องและจัดประเภท 1 ไม่ถูกต้อง
  • จากการคาดการณ์ 458 รายการว่าข้อมูลที่ได้จากการสังเกตการณ์นั้นไม่ใช่เนื้องอก ซึ่งเป็นโมเดลจำลอง จัดประเภท 452 อย่างถูกต้อง และจัดประเภทไม่ถูกต้อง 6

เมทริกซ์ความสับสนสำหรับการจัดประเภทแบบหลายคลาส สามารถช่วยให้คุณระบุรูปแบบของข้อผิดพลาดได้ เช่น ลองพิจารณาเมทริกซ์ความสับสนต่อไปนี้สําหรับ 3 คลาส โมเดลการจัดประเภทแบบหลายคลาสที่จัดหมวดหมู่ไอริสที่แตกต่างกัน 3 ประเภท (Virginica, Versicolor และ Setosa) เมื่อข้อมูลจากการสังเกตการณ์โดยตรงคือเวอร์จินิกา เมทริกซ์ความสับสนแสดงให้เห็นว่าโมเดลนั้นมีแนวโน้มที่จะเกิดความเข้าใจผิดมากกว่า คาดการณ์ Versicolor ก่อน Setosa

  Setosa (ที่คาดการณ์ไว้) เวอร์ชันสี (ที่คาดการณ์ไว้) เวอร์จินิกา (ที่คาดการณ์)
Setosa (ข้อมูลจากภาคพื้นดิน) 88 12 0
Versicolor (ข้อมูลที่เป็นความจริง) 6 141 7
เวอร์จิเนีย (ข้อมูลจากการสังเกตการณ์โดยตรง) 2 27 109

อีกตัวอย่างหนึ่งคือ เมทริกซ์ความสับสนอาจแสดงให้เห็นว่าโมเดลได้รับการฝึก เพื่อจดจำตัวเลขที่เขียนด้วยลายมือ มักจะหมายถึงตัวเลข 9 แทนที่จะเป็น 4 โดยไม่ได้ตั้งใจ หรือคาดการณ์ 1 แทนที่จะเป็น 7 โดยไม่ได้ตั้งใจ

เมทริกซ์ความสับสนมีข้อมูลเพียงพอที่จะคำนวณ เมตริกประสิทธิภาพที่หลากหลาย เช่น ความแม่นยํา และความอ่อนไหว

การแยกวิเคราะห์เขตเลือกตั้ง

#language

การแบ่งประโยคออกเป็นโครงสร้างทางไวยากรณ์ที่เล็กลง ("ส่วนประกอบ") ส่วนหลังจากนี้ของระบบ ML เช่น โมเดลความเข้าใจภาษาธรรมชาติ สามารถแยกวิเคราะห์ประชาชนได้ง่ายกว่าประโยคต้นฉบับ ตัวอย่างเช่น ให้พิจารณาประโยคต่อไปนี้

เพื่อนฉันเลี้ยงแมวไว้ 2 ตัว

โปรแกรมแยกวิเคราะห์เขตเลือกตั้งสามารถแบ่งประโยคนี้เป็นประโยคต่อไปนี้ มีองค์ประกอบ 2 ส่วน ได้แก่

  • เพื่อนของฉันเป็นคำนาม
  • รับเลี้ยงแมวสองตัวเป็นวลีกริยา

สามารถแบ่งเขตเลือกตั้งย่อยออกไปเป็นสภาผู้แทนราษฎรที่เล็กลงได้ เช่น วลีที่มีคำกริยา

รับเลี้ยงแมว 2 ตัว

สามารถแยกย่อยเพิ่มเติมออกเป็น

  • adopted คือคำกริยา
  • two cats เป็นคำนามอีกวลีหนึ่ง

การฝังภาษาที่มีบริบท

#language
#generativeAI

การฝังที่เข้าใกล้ "ความเข้าใจ" คำ และวลีต่างๆ ในแบบที่เจ้าของภาษาพูดได้ ภาษาตามบริบท การฝังสามารถเข้าใจไวยากรณ์ ความหมาย และบริบทที่ซับซ้อนได้

เช่น ลองฝังคำว่า cow ในภาษาอังกฤษ การฝังที่เก่ากว่า เช่น word2vec แสดงถึงภาษาอังกฤษ ในลักษณะที่ระยะห่างในพื้นที่การฝัง จากวัวถึงวัวใกล้เคียงกับระยะทางจากแกะ (แกะตัวเมีย) ถึง แกะ (แกะตัวผู้) หรือจากตัวเมียเป็นตัวผู้ ภาษาตามบริบท การฝังวิดีโออาจก้าวล้ำไปอีกขั้น เพียงตระหนักว่าบางครั้งผู้ใช้ภาษาอังกฤษ ใช้คำว่าวัวแบบสบายๆ เพื่อหมายถึงวัวหรือวัว

หน้าต่างบริบท

#language
#generativeAI

จำนวนโทเค็นที่โมเดลประมวลผลได้ใน ข้อความแจ้ง ยิ่งหน้าต่างบริบทมีขนาดใหญ่เท่าใด ข้อมูลก็จะยิ่งมากขึ้นเท่านั้น โมเดลนี้สามารถใช้เพื่อให้คำตอบที่สอดคล้องกันและสอดคล้องกัน ลงในข้อความแจ้ง

ฟีเจอร์ต่อเนื่อง

#fundamentals

ฟีเจอร์ที่มีจุดลอยตัวซึ่งมีช่วงที่เป็นไปได้ไม่จำกัด ค่าต่างๆ เช่น อุณหภูมิหรือน้ำหนัก

ตัดกับฟีเจอร์ที่ไม่ต่อเนื่อง

การสุ่มตัวอย่างแบบตามสะดวก

การใช้ชุดข้อมูลที่ไม่ได้รวบรวมทางวิทยาศาสตร์เพื่อเรียกใช้งานอย่างรวดเร็ว หลายรายการ ในภายหลังจำเป็นต้องเปลี่ยนไปใช้ข้อมูลที่รวบรวมเชิงวิทยาศาสตร์ ชุดข้อมูล

ลู่เข้า

#fundamentals

สถานะถึงตอนที่ค่า loss เปลี่ยนแปลงน้อยมากหรือ ไม่ได้เลยในการทำซ้ำแต่ละครั้ง ตัวอย่างเช่น URL ต่อไปนี้ loss Curvey แนะนำการบรรจบกันที่ประมาณ 700 รอบ

พล็อตคาร์ทีเซียน แกน X หายไป แกน Y คือจำนวนการฝึก
          ซ้ำหลายครั้ง การสูญเสียจะสูงมากในช่วงปรับปรุงครั้งแรก แต่
          ลดลงอย่างรวดเร็ว หลังจากทำซ้ำประมาณ 100 ครั้ง การสูญเสียยังคง
          จากมากไปน้อย แต่ค่อยๆ เพิ่มขึ้น หลังจากทำซ้ำๆ ประมาณ 700 ครั้ง
          ก็จะไม่หายไป

การโอนโมเดลเมื่อการฝึกเพิ่มเติมไม่ ปรับปรุงโมเดล

ในการเรียนรู้เชิงลึก บางครั้งค่าการสูญเสียจะคงที่หรือ เกือบจะดีเลยสำหรับการทำซ้ำหลายครั้งก่อนที่จะมากไปน้อย ในช่วงระยะเวลาที่ยาวนาน ของค่าการสูญเสียคงที่ คุณอาจเข้าใจการบรรจบกันที่ผิดชั่วคราว

โปรดดูการหยุดก่อนกำหนดเพิ่มเติม

ดู การบรรจบกันและการสูญเสียโมเดล เส้นโค้ง ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

ฟังก์ชัน Convex

ฟังก์ชันที่พื้นที่ด้านบนของกราฟของฟังก์ชันคือ Conv. Set ฟังก์ชันนูนต้นแบบคือ มีรูปร่างคล้ายตัวอักษร U ตัวอย่างเช่น URL ต่อไปนี้ เป็นฟังก์ชันนูนทั้งหมด:

เส้นโค้งรูปตัว U แต่ละเส้นมีจุดต่ำสุดจุดเดียว

ในทางตรงกันข้าม ฟังก์ชันต่อไปนี้จะไม่นูน โปรดสังเกตวิธีการตั้งค่า ภูมิภาคเหนือกราฟไม่ได้เป็นชุดนูน

เส้นโค้งรูปตัว W ที่มีจุดต่ำสุดในเครื่อง 2 จุด

ฟังก์ชันนูนอย่างเคร่งครัดจะมีจุดต่ำสุดภายในพื้นที่ 1 จุดเท่านั้น ก็ยังคงเป็นจุดต่ำสุดทั่วโลก ฟังก์ชันรูปตัว U แบบคลาสสิกคือ ฟังก์ชันนูนอย่างเคร่งครัด อย่างไรก็ตาม บางฟังก์ชันนูน (เช่น เส้นตรง) ไม่ได้เป็นรูปตัว U

ดูการบรรจบกันและการนูน ฟังก์ชัน ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

การเพิ่มประสิทธิภาพ Convex

กระบวนการใช้เทคนิคทางคณิตศาสตร์ เช่น การไล่ระดับสีเพื่อค้นหา ค่าต่ำสุดของ ฟังก์ชัน Conv. การวิจัยจำนวนมากในด้านแมชชีนเลิร์นนิงมุ่งเน้นที่การสร้างรูปแบบ ไปเป็นโจทย์การเพิ่มประสิทธิภาพแบบนูน และในการแก้ปัญหาเหล่านั้น มีประสิทธิภาพมากขึ้น

ดูรายละเอียดทั้งหมดได้ที่ Boyd และ Vandenberghe Convex การเพิ่มประสิทธิภาพ

ชุดนูน

ส่วนย่อยของปริภูมิยุคลิดที่เส้นแบ่งระหว่าง 2 จุดใน ยังคงอยู่ภายในเซตย่อยทั้งหมด ตัวอย่างเช่น โฆษณา 2 รายการต่อไปนี้ รูปร่างคือชุดนูน:

ภาพสี่เหลี่ยมผืนผ้า 1 ภาพ อีกภาพของวงรี

ในทางตรงกันข้าม รูปร่าง 2 รายการต่อไปนี้ไม่ใช่ชุดนูน

ภาพแผนภูมิวงกลม 1 ภาพที่มีชิ้นส่วนขาดหายไป
          อีกภาพหนึ่งของรูปหลายเหลี่ยมที่ผิดปกติ

คอนโวลูชัน

#image

ในทางคณิตศาสตร์ พูดง่ายๆ ก็คือ เป็นการผสมผสานฟังก์ชัน 2 อย่าง อยู่ในเครื่อง การเรียนรู้ ซึ่งคอนโวลูชัน (Convolution) ผสมผสานคอนโวลูชัน ตัวกรองเมทริกซ์อินพุต เพื่อฝึกน้ำหนัก

คำว่า "Convolution" ในการเรียนรู้ของเครื่อง หมายถึงการดำเนินการเชิงควบคุม หรือ Convolutional Layer

หากไม่มีคอนโวลูชัน อัลกอริทึมแมชชีนเลิร์นนิงจะต้องเรียนรู้ น้ำหนักแยกกันสำหรับทุกเซลล์ใน tensor ขนาดใหญ่ ตัวอย่างเช่น การฝึกอัลกอริทึมแมชชีนเลิร์นนิงบนรูปภาพขนาด 2K x 2K จะถูกบังคับให้ หาน้ำหนักแยกกัน 4 ล้านครั้ง ต้องขอบคุณ Convolutions ซึ่งเป็นแมชชีนเลิร์นนิง อัลกอริทึมจะค้นหาน้ำหนักของทุกเซลล์ในเซลล์ convolutional filter ซึ่งช่วยลด หน่วยความจำที่ต้องใช้ในการฝึกโมเดล เมื่อตัวกรองคอนโวลูชัน (Convolutional) ระบบจะจำลองข้อมูลในเซลล์ต่างๆ โดยการคูณเซลล์ ตามตัวกรอง

ดูขอแนะนำระบบประสาทเทียม Convolutional เครือข่าย ในหลักสูตรการจำแนกรูปภาพเพื่อดูข้อมูลเพิ่มเติม

ตัวกรองคอนโวลูชัน (Convolutional)

#image

นักแสดงคนหนึ่งในภาพยนตร์ การดำเนินการเชิงควบคุม (นักแสดงอีกคน เป็นชิ้นส่วนของเมทริกซ์อินพุต) ตัวกรองคอนโวลูชัน (Convolutional) คือเมทริกซ์ที่มี rank เท่ากับเมทริกซ์อินพุต แต่มีรูปร่างเล็กกว่า ตัวอย่างเช่น ในเมทริกซ์อินพุต 28x28 ตัวกรองอาจเป็นเมทริกซ์ 2 มิติแบบใดก็ได้ ที่มีขนาดเล็กกว่า 28x28

ในการจัดการถ่ายภาพ เซลล์ทั้งหมดในฟิลเตอร์คอนโวลูชัน (Convolutional) โดยทั่วไปจะเป็นรูปแบบคงที่ของเลข 1 และ 0 ในเรื่องแมชชีนเลิร์นนิง ตัวกรองคอนโวลูชัน (Convolutional) มักมีตัวเลขสุ่มที่มีค่าเป็น 2 ชุด จากนั้น รถไฟเครือข่ายเป็นค่าที่เหมาะสม

โปรดดูConvolution ในหลักสูตรการจำแนกรูปภาพเพื่อดูข้อมูลเพิ่มเติม

ชั้นคอนโวลูชัน (Convolutional)

#image

ชั้นของโครงข่ายประสาทแบบลึกซึ่ง Convolutional filter จะส่งต่ออินพุต เมตริกซ์ ตัวอย่างเช่น ลองพิจารณาโฆษณาขนาด 3x3 ต่อไปนี้ Convolutional filter:

เมทริกซ์ 3x3 ที่มีค่าต่อไปนี้ [[0,1,0], [1,0,1], [0,1,0]]

ภาพเคลื่อนไหวต่อไปนี้แสดงเลเยอร์คอนโวลูชัน (Convolutional Layer) ที่ประกอบด้วย 9 การดำเนินการแบบคอนโวลูชัน (Convolutional) ที่เกี่ยวข้องกับเมทริกซ์อินพุต 5x5 โปรดสังเกตว่าแต่ละ การดำเนินการแบบ Convolution จะทำงานกับเมทริกซ์อินพุตขนาด 3x3 ที่ต่างกัน เมทริกซ์ 3x3 ที่ได้ (ทางขวา) ประกอบด้วยผลลัพธ์ของ 9 การดำเนินการแบบคอนโวลูชัน (Convolution:)

ภาพเคลื่อนไหวแสดงเมทริกซ์ 2 รายการ เมทริกซ์แรกคือ 5x5
          เมทริกซ์: [[128,97,53,201,198], [35,22,25,200,195]
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]
          เมทริกซ์ที่สองคือเมทริกซ์ 3x3
          [[181,303,618], [115,338,605], [169,351,560]]
          เมทริกซ์ที่สองคำนวณโดยใช้คอนโวลูชันัล (Convolutional)
          ฟิลเตอร์ [[0, 1, 0], [1, 0, 1], [0, 1, 0]]
          3x3 ที่แตกต่างกันของเมทริกซ์ 5x5

โปรดดูหัวข้อเชื่อมต่อเต็มรูปแบบ เลเยอร์ ในหลักสูตรการจำแนกรูปภาพเพื่อดูข้อมูลเพิ่มเติม

โครงข่ายระบบประสาทเทียมแบบ Convolutional

#image

โครงข่ายระบบประสาทเทียมซึ่งมีเลเยอร์อย่างน้อย 1 ชั้นเป็น Convolutional Layer Convolutional โดยทั่วไป โครงข่ายระบบประสาทเทียมนั้นประกอบด้วยการผสมระหว่างเลเยอร์ต่อไปนี้

โครงข่ายระบบประสาทเทียมแบบ Convolutional ประสบความสำเร็จอย่างมากในบางรูปแบบ ของปัญหาบางอย่าง เช่น การจดจำภาพ

ปฏิบัติการแบบคอนโวลูชัน (Convolutional)

#image

การดำเนินการทางคณิตศาสตร์ 2 ขั้นตอนต่อไปนี้

  1. การคูณองค์ประกอบ Convolutional filter และชิ้นส่วนของ เมทริกซ์อินพุต (ส่วนแบ่งของเมทริกซ์อินพุตมีอันดับและ เป็นตัวกรองคอนโวลูชันัล)
  2. ผลรวมค่าทั้งหมดในเมทริกซ์ผลคูณที่ได้

ตัวอย่างเช่น โปรดพิจารณาเมทริกซ์อินพุต 5x5 ต่อไปนี้

เมทริกซ์ 5x5: [[128,97,53,201,198], [35,22,25,200,195]
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]

ทีนี้ลองนึกภาพตัวกรองคอนโวลูชันัลขนาด 2x2 ต่อไปนี้

เมทริกซ์ 2x2: [[1, 0], [0, 1]]

การดำเนินการคอนโวลูชัน (Convolutional) แต่ละรายการจะเกี่ยวข้องกับส่วนแบ่งขนาด 2x2 เพียงส่วนเดียว เมทริกซ์อินพุต ตัวอย่างเช่น สมมติว่าเราใช้ส่วนแบ่ง 2x2 ที่ส่วน ด้านบนซ้ายของเมทริกซ์อินพุต ดังนั้น การดำเนินการคอนโวลูชัน (Convolution) ส่วนนี้จะมีลักษณะดังต่อไปนี้

การใช้ตัวกรองคอนโวลูชันัล [[1, 0], [0, 1]] ที่ด้านซ้ายบน
          ส่วน 2x2 ของเมทริกซ์อินพุตซึ่งก็คือ [[128,97], [35,22]]
          ตัวกรองคอนโวลูชัน (Convolutional) จะคงค่า 128 และ 22 ไว้เหมือนเดิม แต่ค่าเป็น 0
          97 และ 35 ดังนั้น การดำเนินการคอนโวลูชัน (Convolution) จึงให้ผลลัพธ์
          ค่า 150 (128+22)

เลเยอร์ Convolution ประกอบด้วยแท็ก ชุดการดำเนินการคอนโวลูชันัล โดยแต่ละชุดจะทำหน้าที่แยกส่วน ของเมทริกซ์อินพุต

ต้นทุน

คำพ้องความหมายของ loss

การฝึกอบรมร่วมกัน

แนวทางการเรียนรู้แบบมีการควบคุมดูแล มีประโยชน์อย่างยิ่งเมื่อทุกเงื่อนไขต่อไปนี้เป็นจริง

การฝึกร่วมกันจึงช่วยขยายสัญญาณที่เป็นอิสระให้กับสัญญาณที่ชัดเจนขึ้น ตัวอย่างเช่น ลองพิจารณาโมเดลการจัดประเภทที่ จะจัดหมวดหมู่รถมือสองแต่ละคันเป็นดีหรือไม่ดี 1 ชุด ฟีเจอร์ตามการคาดการณ์อาจเน้นที่ลักษณะโดยรวม เช่น ปี ยี่ห้อและรุ่นรถยนต์ ชุดฟีเจอร์การคาดการณ์อีกชุดหนึ่งอาจมุ่งเน้นที่ บันทึกการขับขี่ของเจ้าของคนก่อนหน้าและประวัติการบำรุงรักษาของรถ

บทความวิจัยเกี่ยวกับการฝึกอบรมร่วมคือ การรวมข้อมูลที่ติดป้ายกำกับแล้วและไม่มีป้ายกำกับเข้ากับ การฝึกอบรมร่วมกันโดย บลมกับมิตเชลล์

ความเป็นธรรมต่อต้านข้อเท็จจริง

#fairness

เมตริกความยุติธรรมที่ตรวจสอบว่าตัวแยกประเภท สร้างผลลัพธ์สำหรับบุคคลคนหนึ่งเช่นเดียวกับอีกคนหนึ่ง บุคคลที่เหมือนกับคนแรก ยกเว้นบุคคลที่มีความเกี่ยวข้องกับ แอตทริบิวต์ที่ละเอียดอ่อน การประเมินตัวแยกประเภทสำหรับ ความยุติธรรมซึ่งเป็นการต่อต้าน คือวิธีหนึ่งในการเปิดเผยแหล่งที่มาที่เป็นไปได้ของ อคติในโมเดล

โปรดดูข้อมูลเพิ่มเติมจากข้อใดข้อหนึ่งต่อไปนี้

อคติเรื่องความครอบคลุม

#fairness

ดูการให้น้ำหนักพิเศษกับการเลือก

ดอกไม้บานขัดข้อง

#language

ประโยคหรือวลีที่มีความหมายกำกวม ดอกไม้บานแตกนำเสนอปัญหาที่สำคัญในเรื่องธรรมชาติ ความเข้าใจด้านภาษา ตัวอย่างเช่น บรรทัดแรกแท่งทรงสูงสีแดงค้างไว้เป็น เกิดข้อขัดข้องเนื่องจากโมเดล NLU อาจตีความบรรทัดแรกได้ตรงตัว หรือ เปรียบเสมือน

นักวิจารณ์

#rl

คำพ้องความหมายของ Deep Q-Network

ครอสเอนโทรปี

การสรุปข้อมูลการสูญหายบันทึกกับ ปัญหาการจัดประเภทแบบหลายคลาส ครอสเอนโทรปี จะวัดความแตกต่างระหว่างการแจกแจงความน่าจะเป็น 2 แบบ ดูเพิ่มเติม ความซับซ้อน

การตรวจสอบความถูกต้องข้ามกัน

กลไกในการประมาณว่าโมเดลเป็นที่ยอมรับโดยทั่วไป ข้อมูลใหม่โดยการทดสอบโมเดลกับชุดย่อยข้อมูลที่ไม่ทับซ้อนกันอย่างน้อย 1 ชุด ถูกระงับจากชุดการฝึก

ฟังก์ชันการกระจายสะสม (CDF)

ฟังก์ชันที่กำหนดความถี่ของตัวอย่างน้อยกว่าหรือเท่ากับ ค่าเป้าหมาย เช่น ลองพิจารณาการกระจายค่าต่อเนื่องแบบปกติ CDF แจ้งให้คุณทราบว่าประมาณ 50% ของตัวอย่างควรน้อยกว่าหรือเท่ากับ กับค่าเฉลี่ยและประมาณ 84% ของตัวอย่างควรน้อยกว่าหรือเท่ากับ เป็น 1 ส่วนเบี่ยงเบนมาตรฐานสูงกว่าค่าเฉลี่ย

D

การวิเคราะห์ข้อมูล

ทำความเข้าใจข้อมูลด้วยการพิจารณาตัวอย่าง การวัดผล และการแสดงข้อมูลผ่านภาพ การวิเคราะห์ข้อมูลจะมีประโยชน์เป็นพิเศษเมื่อ ได้รับชุดข้อมูลครั้งแรก ก่อนที่จะสร้างโมเดลแรก และยังสำคัญต่อการทำความเข้าใจการทดสอบและการแก้ไขปัญหา ระบบ

การเสริมข้อมูล

#image

เพิ่มช่วงและตัวเลขของ ตัวอย่างการฝึกอบรม โดยการเปลี่ยนรูปแบบที่มีอยู่ examples เพื่อสร้างตัวอย่างเพิ่มเติม ตัวอย่างเช่น สมมติว่ารูปภาพเป็นหนึ่งใน features แต่ชุดข้อมูลกลับไม่ มีตัวอย่างรูปภาพที่เพียงพอเพื่อให้โมเดลเรียนรู้การเชื่อมโยงที่เป็นประโยชน์ ทางที่ดีคุณควรเพิ่มปริมาณที่เพียงพอ รูปภาพที่ติดป้ายกำกับลงในชุดข้อมูลเพื่อ ช่วยให้โมเดลของคุณฝึกได้อย่างถูกต้อง หากทำไม่ได้ ให้ใช้การเสริมข้อมูล สามารถหมุน ยืด และแสดงแต่ละภาพเพื่อสร้างรูปแบบต่างๆ ของ ภาพต้นฉบับ ซึ่งอาจมีข้อมูลป้ายกำกับเพียงพอที่จะทำให้เป็น การฝึกอบรม

DataFrame

#fundamentals

ประเภทข้อมูลของ pandas ที่ได้รับความนิยมสำหรับการแสดง ชุดข้อมูลในหน่วยความจำ

DataFrame คล้ายกับตารางหรือสเปรดชีต แต่ละคอลัมน์ของ DataFrame มีชื่อ (ส่วนหัว) และแต่ละแถวจะระบุด้วย หมายเลขที่ไม่ซ้ำ

แต่ละคอลัมน์ใน DataFrame มีโครงสร้างเหมือนกับอาร์เรย์ 2 มิติ ยกเว้นว่า แต่ละคอลัมน์จะกำหนดประเภทข้อมูลของตัวเองได้

ดูอย่างเป็นทางการ การอ้างอิง pandas.DataFrame

การทำงานขนานกันของข้อมูล

วิธีปรับขนาดการฝึกหรือการอนุมาน ที่จำลองโมเดลทั้งโมเดลลงใน อุปกรณ์หลายเครื่องแล้วส่งข้อมูลอินพุตชุดย่อยไปยังอุปกรณ์แต่ละเครื่อง การทำงานขนานกันของข้อมูลอาจทำให้เกิดการฝึกและการอนุมานใน กลุ่มขนาด แต่ข้อมูลที่ทำงานพร้อมกันจำเป็นต้องมี มีขนาดเล็กพอที่จะพอดีกับอุปกรณ์ทั้งหมด

โดยทั่วไปแล้วข้อมูลที่ทำงานขนานกันจะช่วยให้การฝึกและการอนุมานเร็วขึ้น

ดูการทำงานพร้อมกันของโมเดลเพิ่มเติม

ชุดข้อมูลหรือชุดข้อมูล

#fundamentals

คอลเล็กชันข้อมูลดิบ ซึ่งโดยทั่วไป (แต่ไม่ได้เจาะจง) จะจัดอยู่ในชุดเดียว ในรูปแบบต่อไปนี้

  • สเปรดชีต
  • ไฟล์ในรูปแบบ CSV (ค่าที่คั่นด้วยคอมมา)

Dataset API (tf.data)

#TensorFlow

TensorFlow API ระดับสูงสำหรับการอ่านข้อมูลและ การเปลี่ยนรูปแบบให้อยู่ในรูปแบบที่อัลกอริทึมแมชชีนเลิร์นนิงต้องการ ออบเจ็กต์ tf.data.Dataset แสดงลำดับขององค์ประกอบที่ แต่ละองค์ประกอบจะมี Tensor อย่างน้อย 1 รายการ tf.data.Iterator ให้สิทธิ์เข้าถึงองค์ประกอบของ Dataset

ขอบเขตการตัดสินใจ

ตัวคั่นระหว่าง ชั้นเรียนที่มีการเรียนรู้โดย model ใน ไบนารีคลาสหรือ โจทย์การจัดประเภทแบบหลายชั้นเรียน ตัวอย่างเช่น ในภาพต่อไปนี้ซึ่งแสดงถึงปัญหาการจัดประเภทแบบไบนารี ขอบเขตการตัดสินใจคือพรมแดนระหว่างชนชั้นสีส้มกับ คลาสสีน้ำเงิน:

ขอบเขตที่กำหนดไว้อย่างชัดเจนระหว่างชั้นเรียนหนึ่งกับอีกชั้นหนึ่ง

ศูนย์การตัดสินใจ

#df

โมเดลที่สร้างจากแผนผังการตัดสินใจหลายข้อ กลุ่มการตัดสินใจทำการคาดคะเนโดยการรวมการคาดคะเนของ ต้นไม้ที่ตัดสินใจได้ ประเภทที่นิยมของป่าการตัดสินใจได้แก่ ป่าไม้แบบสุ่มและต้นไม้ที่เพิ่มระดับแบบไล่ระดับสี

โปรดดูคำตัดสิน ป่า ในหลักสูตร Decision Forests เพื่อดูข้อมูลเพิ่มเติม

เกณฑ์การตัดสินใจ

คำพ้องความหมายของเกณฑ์การจัดประเภท

แผนผังการตัดสินใจ

#df

โมเดลการเรียนรู้ภายใต้การควบคุมดูแลซึ่งประกอบด้วยชุด เงื่อนไขและทิ้งตามลําดับชั้น ตัวอย่างเช่น ต่อไปนี้เป็นแผนผังการตัดสินใจ

แผนผังการตัดสินใจที่มีเงื่อนไข 4 ข้อจัดเรียง
          ตามลำดับชั้น ซึ่งนำไปสู่ 5 ใบ

ตัวถอดรหัส

#language

โดยทั่วไปแล้ว ระบบ ML ใดๆ ที่แปลงจากระบบที่ประมวลผลแล้ว หนาแน่น หรือ การเป็นตัวแทนภายใน การเป็นตัวแทนที่เข้าใจอย่างแท้จริง หรือคลุมเครือมากขึ้น

ตัวถอดรหัสมักจะเป็นส่วนประกอบของโมเดลที่ใหญ่กว่า ซึ่งมัก จับคู่กับโปรแกรมเปลี่ยนไฟล์แล้ว

ในงานเกี่ยวกับลำดับต่อลำดับ เครื่องมือถอดรหัส เริ่มต้นด้วยสถานะภายในที่โปรแกรมเปลี่ยนไฟล์สร้างขึ้นเพื่อคาดการณ์สถานะถัดไป ตามลำดับ

โปรดดู Transformer สำหรับคำจำกัดความของตัวถอดรหัสภายใน สถาปัตยกรรม Transformer

ดูโมเดลภาษาขนาดใหญ่ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

โมเดลเชิงลึก

#fundamentals

โครงข่ายระบบประสาทเทียมที่มี เลเยอร์ที่ซ่อนอยู่

โมเดลที่มีความลึกเรียกอีกอย่างว่าโครงข่ายประสาทแบบลึก

คอนทราสต์กับโมเดลแบบกว้าง

โครงข่ายประสาทแบบลึก

คำพ้องความหมายของ Deep Model

Deep Q-Network (DQN)

#rl

ใน Q-learning โครงข่ายประสาทในระดับลึก ที่คาดการณ์ฟังก์ชัน Q

Critic คือคำพ้องความหมายของ Deep Q-Network

ความเท่าเทียมกันของข้อมูลประชากร

#fairness

เมตริกความยุติธรรมที่พึงพอใจหาก ผลการจัดประเภทของโมเดลไม่ได้ขึ้นอยู่กับ แอตทริบิวต์ที่มีความละเอียดอ่อนที่ระบุ

ตัวอย่างเช่น ถ้าทั้ง Lilliputians และ Brobdingnagians ใช้ได้กับ มหาวิทยาลัย Glubbdubdrib ความเท่าเทียมของประชากรจะมีความเท่าเทียมกันของประชากรหากเปอร์เซ็นต์ ของ Lilliputians ที่ได้รับการยอมรับนั้นเท่ากับเปอร์เซ็นต์ของจำนวน Brobdingnagians ยอมรับ ไม่ว่าโดยเฉลี่ยแล้วกลุ่มหนึ่งๆ จะมีคุณสมบัติมากกว่า มากกว่ากัน

ตัดกับ ความน่าจะเป็นที่เท่ากัน และ ความเท่าเทียมของโอกาส ซึ่งช่วยให้ เป็นผลการจำแนกประเภท โดยรวมที่ขึ้นอยู่กับแอตทริบิวต์ที่มีความละเอียดอ่อน แต่ไม่อนุญาตผลลัพธ์การแยกประเภทสำหรับบางประเภท ป้ายกำกับข้อมูลจากการสังเกตการณ์โดยตรงเพื่ออ้างอิงแอตทริบิวต์ที่ละเอียดอ่อน โปรดดู "การโจมตี เลือกปฏิบัติด้วยแมชชีนเลิร์นนิงที่ชาญฉลาดยิ่งขึ้น" เพื่อสร้างภาพ สำรวจข้อดีและข้อเสียเมื่อเพิ่มประสิทธิภาพเพื่อความเท่าเทียมกันของข้อมูลประชากร

ดูความยุติธรรม: ข้อมูลประชากร ความเท่าเทียม ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

การตัดเสียงรบกวน

#language

แนวทางทั่วไปสำหรับการเรียนรู้ภายใต้การควบคุมดูแลด้วยตนเอง ที่:

  1. มีการเพิ่มเสียงรบกวนในชุดข้อมูลอย่างไม่เป็นจริง
  2. โมเดล จะพยายามนำสัญญาณรบกวนออก

การตัดเสียงรบกวนช่วยให้เรียนรู้จากตัวอย่างที่ไม่มีป้ายกำกับได้ ชุดข้อมูลเดิมทำหน้าที่เป็นเป้าหมายหรือ ป้ายกำกับ และ ข้อมูลที่รบกวนเป็นอินพุต

โมเดลภาษาที่มีการมาสก์บางรุ่นใช้การลดเสียงรบกวน ดังนี้

  1. มีการเพิ่มเสียงรบกวนในประโยคที่ไม่มีป้ายกำกับโดยปลอมตัวขึ้น โทเค็น
  2. โมเดลจะพยายามคาดการณ์โทเค็นเดิม

องค์ประกอบที่หนาแน่น

#fundamentals

ฟีเจอร์ที่ค่าส่วนใหญ่หรือค่าทั้งหมดไม่ใช่ 0 โดยทั่วไป Tensor ของค่าจุดลอยตัว ตัวอย่างเช่น URL ต่อไปนี้ Tensor ที่มี 10 องค์ประกอบเป็นแบบหนาแน่นเนื่องจากค่า 9 ค่าไม่ใช่ 0 ดังนี้

8 3 7 5 2 4 0 4 9 6

ตัดกับฟีเจอร์บางส่วน

เลเยอร์ที่หนาแน่น

คำพ้องของเลเยอร์ที่เชื่อมต่อโดยสมบูรณ์

ความลึก

#fundamentals

ผลรวมของสิ่งต่อไปนี้ในโครงข่ายระบบประสาทเทียม

เช่น โครงข่ายระบบประสาทเทียมที่มีเลเยอร์ซ่อนอยู่ 5 ชั้น และเลเยอร์เอาต์พุต 1 ชั้น มีความลึก 6 ระดับ

โปรดสังเกตว่าเลเยอร์อินพุตไม่ มีผลต่อความลึก

Deepwise separutional Neural Network (SepCNN)

#image

โครงข่ายระบบประสาทเทียมแบบ Convolutional ที่ใช้สถาปัตยกรรม Inception แต่แทนที่โมดูล Inception ด้วย Deepwise Separated Convolution หรือที่เรียกว่า Xception

คอนโวลูชันที่แยกวิเคราะห์ได้แบบลึก (ตัวย่อก็เรียกว่าคอนโวลูชันที่แยกได้) พิจารณาคอนโวลูชัน 3 มิติมาตรฐานเป็นการดำเนินการคอนโวลูชัน 2 รายการที่แยกกัน ที่มีประสิทธิภาพในการคำนวณสูงกว่า ได้แก่ คอนโวลูชันเชิงลึก ที่มีความลึก 1 (n อันดับ Exchange 1) ตามด้วย 2 เป็นคอนโวลูชันแบบจุด มีความยาวและความกว้าง 1 (1 อันดับ ผู้ลงโฆษณาสามารถสูงถึง 1 คูณ)

ดูข้อมูลเพิ่มเติมได้ที่ Xception: Deep Learning with Depthwise Separable คอนโวลูชัน (Convolutions)

ป้ายกำกับที่ได้มา

คำพ้องความหมายของป้ายกำกับพร็อกซี

อุปกรณ์

#TensorFlow
#GoogleCloud

คำที่มากเกินไปซึ่งมีคำจำกัดความที่เป็นไปได้ 2 คำดังต่อไปนี้

  1. หมวดหมู่ของฮาร์ดแวร์ที่เรียกใช้เซสชัน TensorFlow ได้มีดังนี้ CPU, GPU และ TPU
  2. เมื่อฝึกโมเดล ML บนชิป Accelerator (GPU หรือ TPU) ซึ่งเป็นส่วนของระบบที่ชักจูง tensor และ การฝัง อุปกรณ์จะทำงานบนชิป Accelerator ในทางกลับกัน โฮสต์ โดยปกติจะทำงานบน CPU

Differential Privacy

ในแมชชีนเลิร์นนิง เราจะใช้แนวทางการลบข้อมูลระบุตัวบุคคลเพื่อปกป้องข้อมูลที่ละเอียดอ่อน (ตัวอย่างเช่น ข้อมูลส่วนบุคคลของแต่ละบุคคล) ที่รวมอยู่ใน ชุดการฝึกถูกเปิดเผย วิธีนี้ทำให้ ที่โมเดลไม่ได้เรียนรู้หรือจำรายละเอียด ส่วนบุคคล ซึ่งทำได้โดยการสุ่มตัวอย่างและเพิ่มสัญญาณรบกวนระหว่างโมเดล ซึ่งสามารถบดบังจุดข้อมูลแต่ละจุด เพื่อลดความเสี่ยงในการเปิดเผย ข้อมูลการฝึกที่ละเอียดอ่อน

นอกจากนี้ยังมีการใช้ Differential Privacy ภายนอกแมชชีนเลิร์นนิงด้วย ตัวอย่างเช่น ในบางครั้ง นักวิทยาศาสตร์ข้อมูลจะใช้ Differential Privacy เพื่อปกป้องข้อมูลส่วนบุคคล ความเป็นส่วนตัวเมื่อคำนวณสถิติการใช้งานผลิตภัณฑ์สำหรับกลุ่มประชากรที่แตกต่างกัน

การลดมิติข้อมูล

การลดจำนวนมิติข้อมูลที่ใช้แสดงถึงองค์ประกอบหนึ่งๆ ในเวกเตอร์ของจุดสนใจ ซึ่งโดยปกติแล้วจะเท่ากับ แปลงเป็นเวกเตอร์การฝัง

ขนาด

คำที่มากเกินไป ซึ่งมีคำจำกัดความต่อไปนี้

  • จำนวนระดับพิกัดใน Tensor สำหรับ ตัวอย่าง:

    • สเกลาร์มีมิติข้อมูลเป็น 0 ตัวอย่างเช่น ["Hello"]
    • เวกเตอร์มี 1 มิติ ตัวอย่างเช่น [3, 5, 7, 11]
    • เมทริกซ์มี 2 มิติ ตัวอย่างเช่น [[2, 4, 18], [5, 7, 14]] คุณสามารถระบุเซลล์ใดเซลล์หนึ่งในเวกเตอร์หนึ่งมิติได้โดยไม่ซ้ำกัน กับพิกัดเดียว คุณต้องมีพิกัด 2 พิกัดเพื่อระบุ เซลล์เฉพาะในเมทริกซ์ 2 มิติ
  • จำนวนรายการในเวกเตอร์ฟีเจอร์

  • จำนวนองค์ประกอบในเลเยอร์การฝัง

การแสดงข้อความแจ้งโดยตรง

#language
#generativeAI

คำพ้องของข้อความแจ้ง Zero Shot

องค์ประกอบที่แยกกัน

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ ตัวอย่างเช่น สถานที่ซึ่งมีคุณค่าเป็นสัตว์ ผัก หรือแร่ธาตุเท่านั้น คุณลักษณะที่แยกกันโดยสิ้นเชิง (หรือเชิงหมวดหมู่)

ตัดกับฟีเจอร์ต่อเนื่อง

รูปแบบการเลือกปฏิบัติ

โมเดลที่คาดคะเนป้ายกำกับจากชุดของป้ายกำกับหรือ ฟีเจอร์อื่นๆ เพิ่มเติม รูปแบบที่เลือกปฏิบัติอย่างเป็นทางการจะนิยาม ความน่าจะเป็นแบบมีเงื่อนไขของเอาต์พุตโดยพิจารณาจากฟีเจอร์และ weights; ซึ่งก็คือ

p(output | features, weights)

ตัวอย่างเช่น โมเดลที่คาดการณ์ว่าอีเมลเป็นสแปมจากฟีเจอร์ต่างๆ หรือไม่ และการยกน้ำหนัก เป็นรูปแบบการเลือกปฏิบัติ

โมเดลการเรียนรู้ภายใต้การควบคุมดูแลส่วนใหญ่ รวมถึงการแยกประเภท และโมเดลการถดถอยเป็นรูปแบบที่เน้นการเลือกปฏิบัติ

คอนทราสต์กับโมเดล Generative

ดิสคริมิเนเตอร์

ระบบที่กําหนดว่าตัวอย่างนั้นจริงหรือปลอม

อีกระบบหนึ่งคือระบบย่อยภายใน Generative adversarial เครือข่ายที่กำหนดว่า ตัวอย่างที่สร้างโดยโปรแกรมสร้างนั้นมีอยู่จริงหรือปลอม

ดู The Disriminator ในหลักสูตร GAN สำหรับข้อมูลเพิ่มเติม

ผลกระทบที่แตกต่างกัน

#fairness

การตัดสินใจเกี่ยวกับผู้คนที่ส่งผลต่อประชากรที่ต่างกัน ในสัดส่วนที่สัมพันธ์กัน ซึ่งมักจะหมายถึงสถานการณ์ ที่กระบวนการตัดสินใจตามหลักอัลกอริทึมส่งผลเสียหรือได้ประโยชน์ กลุ่มย่อยมากกว่ากลุ่มอื่นๆ

เช่น สมมติว่าอัลกอริทึมที่กำหนดตัวแปรของ Lilliputian การมีสิทธิ์รับสินเชื่อบ้านขนาดเล็กมีแนวโน้มที่จะแยกประเภทได้มากกว่า พวกเขา "ไม่มีสิทธิ์" หากที่อยู่จัดส่งมี รหัสไปรษณีย์ หากคนประเภท Big-Endian Lilliputians มีแนวโน้มที่จะ ที่มีรหัสไปรษณีย์นี้ มากกว่า Little-Endian Lilliputians อัลกอริทึมนี้อาจทำให้เกิดผลกระทบที่แตกต่างกัน

ซึ่งแตกต่างจากการปฏิบัติที่แตกต่างกัน ซึ่งมุ่งเน้นไปที่ความไม่เท่าเทียมกันที่เกิดขึ้นเมื่อลักษณะของกลุ่มย่อย เป็นอินพุตที่ชัดแจ้งในกระบวนการตัดสินใจด้วยอัลกอริทึม

การรักษาที่แตกต่างกัน

#fairness

ตัวประกอบวัตถุ แอตทริบิวต์ที่ละเอียดอ่อน ในกระบวนการตัดสินใจตามอัลกอริทึม เพื่อให้กลุ่มย่อยต่างๆ คนจะได้รับการปฏิบัติที่แตกต่างกัน

เช่น ลองพิจารณาอัลกอริทึมที่ กำหนด Lilliputians การมีสิทธิ์รับสินเชื่อบ้านขนาดเล็กตาม ข้อมูลที่ให้ไว้ในใบสมัครสินเชื่อ หากอัลกอริทึมใช้องค์ประกอบ ความเกี่ยวข้องของ Lilliputian กับ Big-Endian หรือ Little-Endian เป็นอินพุต ดำเนินการปฏิบัติที่แตกต่างกันตามมิติข้อมูลดังกล่าว

ตัดกับผลกระทบที่แตกต่างกันซึ่งเน้น เกี่ยวกับความไม่เท่าเทียมในผลกระทบทางสังคมจากการตัดสินใจตามอัลกอริทึมที่มีต่อกลุ่มย่อย โดยไม่คำนึงว่ากลุ่มย่อยเหล่านั้นจะเป็นอินพุตสำหรับโมเดลหรือไม่

การกลั่น

#generativeAI

กระบวนการลดขนาดของโมเดล 1 รายการ (หรือที่เรียกว่า ครู) ลงในโมเดลขนาดเล็ก (เรียกว่านักเรียน) ที่จำลอง การคาดการณ์ของโมเดลต้นฉบับอย่างซื่อสัตย์ที่สุด น้ำกลั่น มีประโยชน์เนื่องจากรูปแบบที่เล็กกว่ามีข้อดีที่สำคัญ 2 ประการเมื่อเทียบกับรูปแบบที่ใหญ่กว่า โมเดล (ครู):

  • เวลาในการอนุมานที่เร็วขึ้น
  • ลดการใช้พลังงานและหน่วยความจำ

แต่การคาดคะเนของนักเรียนมักได้ไม่ดีเท่า การคาดคะเนของครู

การกลั่นจะฝึกโมเดลของนักเรียนเพื่อลด ฟังก์ชันการสูญเสียตามความแตกต่างระหว่างเอาต์พุต ของโมเดลของนักเรียนและครู

เปรียบเทียบระหว่างการกลั่นกับคำต่อไปนี้

ดู LLM: การปรับแต่ง การกรอง และพรอมต์ วิศวกรรม ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

การเผยแพร่

ความถี่และช่วงของค่าที่แตกต่างกันสำหรับ feature หรือ label การกระจายบันทึกว่าค่าหนึ่งๆ มีแนวโน้มมากน้อยเพียงใด

ภาพต่อไปนี้แสดงฮิสโตแกรมของการแจกแจง 2 แบบ

  • ทางด้านซ้าย การกระจายของความมั่งคั่งตามกฎหมายอำนาจเทียบกับจำนวนคน การครอบครองความมั่งคั่งนั้น
  • ทางด้านขวา การแจกแจงความสูงปกติเทียบกับจำนวนคน การครอบครองความสูงนั้น

ฮิสโตแกรม 2 ตัว ฮิสโตแกรมหนึ่งแสดงการกระจายของกฎกำลังที่มี
          บนแกน x และจำนวนคนที่มี ความมั่งคั่งนั้นบนแกน x
          แกน y คนส่วนใหญ่มีทรัพย์น้อยมาก ส่วนอีกไม่กี่คนมี
          ความมั่งคั่งมากมาย ฮิสโตแกรมอีกตัวแสดงการกระจายตามปกติ
          บนแกน x และจำนวนคนที่มีความสูงนั้น
          บนแกน y คนส่วนใหญ่กระจุกตัวอยู่ใกล้ค่าเฉลี่ย

การทำความเข้าใจแต่ละฟีเจอร์และการเผยแพร่ของค่ายเพลงสามารถช่วยให้คุณระบุวิธีการ เพื่อทำให้เป็นมาตรฐานและตรวจหาค่าที่ผิดปกติ

วลีไม่อยู่ในการกระจายหมายถึงค่าที่ไม่ปรากฏในคอลัมน์ หรือพบได้น้อยมาก เช่น รูปดาวเสาร์จะเป็น ถือว่าไม่มีการกระจายสำหรับชุดข้อมูลที่ประกอบด้วยรูปภาพแมว

คลัสเตอร์แบบแบ่งตัว

#clustering

ดูการจัดกลุ่มแบบลำดับชั้น

การสุ่มตัวอย่าง

#image

คำที่มากเกินไปอาจหมายถึงข้อใดข้อหนึ่งต่อไปนี้

  • การลดจํานวนข้อมูลในฟีเจอร์ใน เพื่อฝึกโมเดลได้อย่างมีประสิทธิภาพมากขึ้น ตัวอย่างเช่น ก่อนฝึกโมเดลการจดจำรูปภาพ ลดการสุ่มตัวอย่างความละเอียดสูง รูปภาพให้อยู่ในรูปแบบความละเอียดต่ำลง
  • การฝึกกับเปอร์เซ็นต์ที่ต่ำอย่างไม่เป็นสัดส่วนของตัวแทน ชั้นเรียน ตัวอย่างเพื่อปรับปรุงการฝึกโมเดลในชั้นเรียนที่ได้รับโอกาสน้อย ตัวอย่างเช่น ในคลาสที่ไม่สมดุล ชุดข้อมูล โมเดลมีแนวโน้มที่จะเรียนรู้ได้อย่างมากเกี่ยวกับ กลุ่มใหญ่ แต่ไม่เพียงพอเกี่ยวกับ ชนกลุ่มน้อย ความช่วยเหลือในการดาวน์เกรด สร้างสมดุลให้กับการฝึกอบรมในชั้นเรียนส่วนใหญ่และชนกลุ่มน้อย

ดูชุดข้อมูล: ไม่สมดุล ชุดข้อมูล ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

DQN

#rl

ตัวย่อของ Deep Q-Network

กฎเกณฑ์การยกเลิก

รูปแบบของการทำให้เป็นมาตรฐานซึ่งมีประโยชน์ในการฝึก โครงข่ายระบบประสาทเทียม การกำหนดกฎสำหรับการยกเลิก นำหน่วยที่เลือกแบบสุ่มจำนวนคงที่ในเครือข่ายออก สำหรับการไล่ระดับสี แบบเดียว ยิ่งยูนิตตกหล่นมากเท่าไหร่ก็ยิ่งดี กฎเกณฑ์ ซึ่งคล้ายกับการฝึกเครือข่ายเพื่อจำลอง กลุ่มเครือข่ายขนาดเล็กที่มีขนาดใหญ่มากเป็นเท่าตัว ดูรายละเอียดทั้งหมดได้ที่ การยกเลิกการเชื่อมต่อ: วิธีง่ายๆ ในการป้องกันไม่ให้เครือข่ายระบบประสาท มากเกินไป

ไดนามิก

#fundamentals

บางสิ่งที่ทำบ่อยหรือต่อเนื่อง คำว่าไดนามิกและออนไลน์เป็นคำพ้องความหมายในแมชชีนเลิร์นนิง ตัวอย่างการใช้งานทั่วไปของแบบไดนามิกและออนไลน์ในเครื่อง การเรียนรู้:

  • โมเดลแบบไดนามิก (หรือโมเดลออนไลน์) คือโมเดล ที่มีการฝึกบ่อยๆ หรืออย่างต่อเนื่อง
  • การฝึกอบรมแบบไดนามิก (หรือการฝึกอบรมออนไลน์) เป็นกระบวนการฝึกอบรม บ่อยครั้งหรือต่อเนื่อง
  • การอนุมานแบบไดนามิก (หรือการอนุมานออนไลน์) เป็นกระบวนการของ สร้างการคาดการณ์ตามคำขอ

โมเดลแบบไดนามิก

#fundamentals

โมเดลที่บ่อย (อาจจะอย่างต่อเนื่องก็ได้) ฝึก โมเดลแบบไดนามิกคือ "ผู้เรียนรู้ตลอดชีวิต" นั่น ปรับตัวเข้ากับข้อมูลที่มีการเปลี่ยนแปลงอยู่ตลอดเวลา โมเดลแบบไดนามิกเรียกอีกอย่างว่า รูปแบบออนไลน์

คอนทราสต์กับโมเดลแบบคงที่

E

Eager Execution

#TensorFlow

สภาพแวดล้อมการเขียนโปรแกรม TensorFlow ที่การดำเนินการ ทำงานทันที ในทางตรงกันข้าม การดำเนินการเรียกเข้า การเรียกใช้กราฟจะไม่ทำงานจนกว่าจะระบุ ประเมินผลแล้ว การดำเนินการอย่างตั้งใจคือ อินเทอร์เฟซที่จำเป็น เป็นอย่างมาก อย่างเช่นโค้ดในภาษาโปรแกรมส่วนใหญ่ โปรแกรมการดำเนินการที่ตั้งใจจะทำ โดยทั่วไปแล้วแก้ไขข้อบกพร่องได้ง่ายกว่าโปรแกรมดำเนินการแบบกราฟ

การหยุดก่อนกำหนด

#fundamentals

วิธีการสำหรับการทำให้เป็นมาตรฐานที่เกี่ยวข้องกับการสิ้นสุด การฝึก ก่อนสิ้นสุดการฝึก ลดลง ในการหยุดก่อนกำหนด คุณต้องหยุดฝึกโมเดลโดยเจตนา เมื่อการสูญเสียในชุดข้อมูลการตรวจสอบเริ่มต้น increase; ซึ่งก็คือเมื่อ ประสิทธิภาพการทั่วไปแย่ลง

ระยะห่างของการเคลื่อนที่ของโลก (EMD)

การวัดความคล้ายคลึงสัมพัทธ์ของการแจกแจง 2 รายการ ยิ่งระยะห่างของตัวย้ายโลกต่ำลงเท่าใด การแจกแจงก็จะคล้ายคลึงกันมากขึ้นเท่านั้น

แก้ไขระยะทาง

#language

การวัดว่าสตริงข้อความ 2 สตริงมีความคล้ายคลึงกันอย่างไร ในแมชชีนเลิร์นนิง การแก้ไขระยะทางมีประโยชน์เนื่องจาก ประมวลผล และวิธีที่มีประสิทธิภาพในการเปรียบเทียบสองสตริงที่ทราบว่า คล้ายกันหรือค้นหาสตริงที่คล้ายกับสตริงที่ระบุ

มีคำจำกัดความมากมายสำหรับระยะการแก้ไข โดยแต่ละคำใช้สตริงที่แตกต่างกัน ตัวอย่างเช่น พารามิเตอร์ ระยะทาง Levenshtein จะพิจารณาการลบ แทรก และแทนที่น้อยที่สุด

เช่น ระยะห่างระหว่าง Levenshtein ระหว่างคำว่า "หัวใจ" และ "ลูกดอก" เท่ากับ 3 เนื่องจากการแก้ไข 3 ครั้งต่อไปนี้เป็นการเปลี่ยนแปลงที่น้อยที่สุดที่จะเปลี่ยนเพียง 1 คำ เป็นอีกแบบคือ

  1. หัวใจ → deart (แทนที่ "h" ด้วย "d")
  2. deart → dart (ลบ "e")
  3. ลูกดอก → ลูกดอก (แทรกคำว่า "s")

สัญลักษณ์ Einsum

สัญลักษณ์ที่มีประสิทธิภาพในการอธิบายว่า tensor 2 อย่าง รวมกัน รวม tensor โดยการคูณองค์ประกอบของ 1 Tensor โดยองค์ประกอบของ Tensor อื่นๆ แล้วสรุปผลิตภัณฑ์ สัญกรณ์ Einsum ใช้สัญลักษณ์ในการระบุแกนของ Tensor และแกน สัญลักษณ์เดียวกันถูกจัดเรียงใหม่เพื่อระบุรูปร่างของ Tensor ที่เป็นผลลัพธ์ใหม่

NumPy มีการติดตั้งใช้งาน Einsum ทั่วไป

เลเยอร์ที่ฝัง

#language
#fundamentals

เลเยอร์ที่ซ่อนอยู่พิเศษซึ่งฝึกบน ฟีเจอร์หมวดหมู่ที่มีมิติข้อมูลสูงเพื่อ ค่อยๆ เรียนรู้เกี่ยวกับเวกเตอร์ที่ฝังมิติข้อมูลที่ต่ำลง CANNOT TRANSLATE เลเยอร์การฝังช่วยให้โครงข่ายประสาทสามารถฝึกได้ไกลขึ้น มีประสิทธิภาพมากกว่าการฝึกอบรมเพียงฟีเจอร์เชิงหมวดหมู่ที่มีมิติเท่านั้น

ตัวอย่างเช่น ปัจจุบัน Earth สนับสนุนชนิดต้นไม้ประมาณ 73,000 ชนิด สมมติว่า ชนิดต้นไม้เป็นคุณลักษณะในโมเดลของคุณ ดังนั้นโมเดลของคุณ เลเยอร์อินพุตจะมีเวกเตอร์หนึ่งฮอต 73,000 ยาวหลายองค์ประกอบ ตัวอย่างเช่น baobab อาจแสดงในลักษณะนี้

อาร์เรย์ที่มีองค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 รายการแรกจะมีค่า
     0. องค์ประกอบถัดไปจะมีค่า 1 องค์ประกอบ 66,767 รายการสุดท้ายมี
     ค่า 0

อาร์เรย์ 73,000 องค์ประกอบนั้นใช้เวลานานมาก หากคุณไม่ได้เพิ่มเลเยอร์ที่ฝัง กับโมเดลนี้ การฝึกจะใช้เวลานานมากเนื่องจาก คูณ 72,999 เลือกเลเยอร์การฝังเพื่อ จากมิติข้อมูล 12 รายการ เลเยอร์ที่ฝังจะค่อยๆ เรียนรู้ เวกเตอร์ที่ฝังใหม่ สำหรับชนิดของต้นไม้แต่ละชนิด

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผล ลงในเลเยอร์ที่ฝัง

ดูการฝัง ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

พื้นที่ที่ฝัง

#language

พื้นที่เวกเตอร์ d ของมิติข้อมูลที่แสดงจากมิติที่สูงกว่า ที่ตรงกับพื้นที่เวกเตอร์ โดยหลักการแล้ว พื้นที่ที่ฝังจะมี ที่ให้ผลลัพธ์ทางคณิตศาสตร์ที่มีความหมาย ตัวอย่างเช่น ในพื้นที่การฝังที่เหมาะสม การบวกและการลบการฝัง จะช่วยแก้ไขงานด้านการเทียบคำ

ผลิตภัณฑ์จุด ของการฝัง 2 จุดเป็นการวัดความคล้ายคลึงกัน

เวกเตอร์การฝัง

#language

พูดกว้างๆ ก็คืออาร์เรย์ของจำนวนลอยตัวที่มาจากอะไรก็ได้ เลเยอร์ที่ซ่อนอยู่ที่อธิบายอินพุตของเลเยอร์ที่ซ่อนอยู่ บ่อยครั้งที่เวกเตอร์ที่ฝังคืออาร์เรย์ของจำนวนจุดลอยตัวที่ได้รับการฝึกใน เลเยอร์ที่ฝัง ตัวอย่างเช่น สมมติว่าเลเยอร์ที่ฝังเรียนรู้ การฝังเวกเตอร์สำหรับชนิดของต้นไม้แต่ละชนิดจากทั้งหมด 73,000 ชนิดบนโลก บางที อาร์เรย์ต่อไปนี้คือเวกเตอร์การฝังสำหรับต้นบาวบับ

อาร์เรย์ขององค์ประกอบ 12 รายการ แต่ละรายการมีตัวเลขทศนิยม
          ระหว่าง 0.0 ถึง 1.0

เวกเตอร์ที่ฝังไม่ใช่กลุ่มของตัวเลขสุ่ม เลเยอร์ที่ฝัง กำหนดค่าเหล่านี้ผ่านการฝึก ซึ่งคล้ายกับวิธีการ โครงข่ายประสาทจะเรียนรู้การถ่วงน้ำหนักอื่นๆ ในระหว่างการฝึก องค์ประกอบแต่ละรายการของ อาร์เรย์ คือการให้คะแนนคุณลักษณะบางอย่างของชนิดพันธุ์ไม้ ซึ่ง แสดงว่าต้นไม้ชนิดใด ลักษณะเฉพาะ ยากมาก ให้มนุษย์ได้ทราบ

ส่วนที่มีความโดดเด่นทางคณิตศาสตร์ของเวกเตอร์ที่ฝังอยู่นั้น รายการมีชุดของจำนวนทศนิยมที่คล้ายกัน ตัวอย่างเช่น คล้ายกัน ชนิดของต้นไม้มีชุดของจำนวนจุดลอยตัวที่คล้ายกันมากกว่า ชนิดของต้นไม้ที่ไม่คล้ายกัน เรดวูดและซีคัวยาเป็นชนิดของต้นไม้ที่เกี่ยวข้อง เพื่อให้ได้ชุดตัวเลขทศนิยมที่คล้ายกันมากกว่า ต้นเรดวูดและต้นมะพร้าว ตัวเลขในเวกเตอร์ที่ฝังจะ เปลี่ยนทุกครั้งที่คุณฝึกโมเดลอีกครั้ง แม้ว่าคุณจะฝึกโมเดลอีกครั้งก็ตาม ด้วยอินพุตที่เหมือนกัน

ฟังก์ชันการกระจายสะสมแบบเอมพิริคัล (eCDF หรือ EDF)

ฟังก์ชันการแจกแจงสะสม อิงตามการวัดแบบทดลองจากชุดข้อมูลจริง ค่าของแอตทริบิวต์ ที่จุดใดก็ได้บนแกน x คือเศษส่วนของการสังเกตใน ชุดข้อมูลที่น้อยกว่าหรือเท่ากับค่าที่ระบุ

การลดความเสี่ยงแบบเอมพิริคัล (Erm)

การเลือกฟังก์ชันที่ลดการสูญเสียสูงสุดในชุดการฝึก ความเปรียบต่าง ด้วยการลดความเสี่ยงด้านโครงสร้างให้เหลือน้อยที่สุด

โปรแกรมเปลี่ยนไฟล์

#language

โดยทั่วไป ระบบ ML ใดๆ ที่แปลงจากข้อมูลดิบ บางส่วน หรือภายนอก เป็นตัวแทนที่ผ่านการประมวลผล ความหนาแน่น หรือชัดเจน มากยิ่งขึ้น

โปรแกรมเปลี่ยนไฟล์มักจะเป็นส่วนประกอบหนึ่งของโมเดลที่ใหญ่กว่า ซึ่งมัก จับคู่กับตัวถอดรหัสแล้ว Transformer บางรุ่น จับคู่โปรแกรมเปลี่ยนไฟล์กับตัวถอดรหัส แม้ว่า Transformer อื่นๆ จะใช้เฉพาะโปรแกรมเปลี่ยนไฟล์ หรือเฉพาะตัวถอดรหัสเท่านั้น

บางระบบใช้เอาต์พุตของโปรแกรมเปลี่ยนไฟล์เป็นอินพุตสำหรับการจัดประเภท หรือ ของ Google Cloud

ในงานเกี่ยวกับลำดับต่อลำดับ โปรแกรมเปลี่ยนไฟล์ รับลำดับอินพุตและส่งคืนสถานะภายใน (เวกเตอร์) จากนั้น ตัวถอดรหัสจะใช้สถานะภายในดังกล่าวเพื่อคาดการณ์ลำดับถัดไป

โปรดดู Transformer สำหรับคำจำกัดความของโปรแกรมเปลี่ยนไฟล์ใน สถาปัตยกรรม Transformer

ดู LLM: ภาษาขนาดใหญ่คืออะไร โมเดล ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

ชุด

คอลเล็กชันโมเดลที่ได้รับการฝึกอย่างอิสระโดยมีการคาดการณ์ เป็นค่าเฉลี่ยหรือสรุปรวม ในหลายกรณี ทั้งชุดให้ผลลัพธ์ที่ดีกว่า การคาดการณ์มากกว่า โมเดลเดียว ตัวอย่างเช่น random Forest คือชุดที่สร้างขึ้นจาก แผนผังการตัดสินใจ โปรดทราบว่า กลุ่มผู้ตัดสินคือตัวประกอบต่างๆ

ดูการสุ่ม ป่า ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

เอนโทรปี

#df

ใน ทฤษฎีสารสนเทศ คำอธิบายเกี่ยวกับความน่าจะเป็นที่คาดเดาไม่ได้ คืออะไร นอกจากนี้ เอนโทรปียังหมายถึงปริมาณ แต่ละรายการในตัวอย่าง การกระจายมี เอนโทรปีสูงสุดที่เป็นไปได้เมื่อค่าของตัวแปรสุ่มทั้งหมด พอๆ กัน

เอนโทรปีของเซตที่มีค่าที่เป็นไปได้ 2 ค่าเป็น "0" และ "1" (เช่น ป้ายกำกับในโจทย์การจัดประเภทแบบไบนารี) มีสูตรต่อไปนี้

H = -p log p - q log q = -p log p - (1-p) * บันทึก (1-p)

โดยมี

  • H คือเอนโทรปี
  • p คือเศษส่วนของ "1" ตัวอย่าง
  • q คือเศษส่วน "0" ตัวอย่าง โปรดทราบว่า q = (1 - p)
  • log โดยทั่วไปคือบันทึก2 ในกรณีนี้เอนโทรปี หน่วยเล็กน้อย

ตัวอย่างเช่น สมมติว่า:

  • ตัวอย่าง 100 รายการมีค่า "1"
  • ตัวอย่าง 300 รายการมีค่า "0"

ดังนั้น ค่าเอนโทรปีคือ

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 บิตต่อตัวอย่าง

ชุดที่สมดุลกันพอดี (เช่น 200 "0" และ 200 "1") จะมีเอนโทรปีขนาด 1.0 บิตต่อตัวอย่าง เมื่อฉากเริ่มมีมากขึ้น ไม่สมดุล เอนโทรปีจะเคลื่อนไปสู่ 0.0

ในแผนผังการตัดสินใจ เอนโทรปีช่วยในการสร้างสูตร ข้อมูลที่ได้เพื่อช่วย splitter เลือกเงื่อนไข ในช่วงการเติบโตของแผนผังการตัดสินใจ

เปรียบเทียบเอนโทรปีกับ

เอนโทรปีมักเรียกว่าเอนโทรปีของแชนนอน

ดูตัวแยกแบบตรงทั้งหมดสำหรับการจัดประเภทไบนารีด้วยตัวเลข ฟีเจอร์ ในหลักสูตร Decision Forests สำหรับข้อมูลเพิ่มเติม

สภาพแวดล้อม

#rl

ในการเรียนรู้แบบเสริมกำลัง โลกที่มี agent และช่วยให้ตัวแทนสามารถสังเกตสถานะของโลกนั้นได้ ตัวอย่างเช่น โลกที่เรานำเสนออาจเป็นเกม เช่น หมากรุก หรือโลกทางกายภาพ เช่น เขาวงกต เมื่อ Agent ใช้การดำเนินการกับสภาพแวดล้อม สภาวะแวดล้อมก็จะเปลี่ยนผ่านระหว่างรัฐต่างๆ

ตอน

#rl

ในการเรียนรู้แบบเสริมประสิทธิภาพ ความพยายามซ้ำๆ แต่ละครั้งของ agent เพื่อเรียนรู้สภาพแวดล้อม

Epoch

#fundamentals

ระยะเวลาการฝึกอบรมเต็มรูปแบบสำหรับชุดการฝึกทั้งหมด เพื่อให้ระบบประมวลผลตัวอย่างแต่ละรายการเพียงครั้งเดียว

Epoch แสดง N/ขนาดกลุ่ม การปรับปรุงการฝึกอบรม โดยที่ N คือ จำนวนตัวอย่างทั้งหมด

ตัวอย่างเช่น สมมติว่า:

  • ชุดข้อมูลประกอบด้วยตัวอย่าง 1,000 รายการ
  • ขนาดกลุ่มมีตัวอย่าง 50 รายการ

ดังนั้น Epoch เดียวจะต้องมีการทำซ้ำ 20 ครั้ง

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

โปรดดูการถดถอยเชิงเส้น ไฮเปอร์พารามิเตอร์ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

นโยบายความโลภของ Epsilon

#rl

ในการเรียนรู้แบบเสริมกำลัง นโยบายที่เป็นไปตาม นโยบายแบบสุ่มที่มีความน่าจะเป็นของ epsilon หรือ นโยบายโลภเป็นอย่างอื่น เช่น หาก epsilon คือ 0.9 นโยบายดังกล่าวจะเป็นไปตามนโยบายแบบสุ่ม 90% ของเวลาทั้งหมดและละโมบ นโยบาย 10% ของเวลาทั้งหมด

อัลกอริทึมจะลดค่าของ epsilon ตามลำดับตอนต่อเนื่องกัน ในการเปลี่ยนการปฏิบัติตามนโยบายแบบสุ่ม ไปเป็นการปฏิบัติตามนโยบายเพื่อละโมบ โดย เปลี่ยนนโยบาย ตัวแทนจะสุ่มสำรวจสภาพแวดล้อมและ ก็แสวงหาประโยชน์จากผลการสำรวจแบบสุ่ม

ความเท่าเทียมกันของโอกาส

#fairness

เมตริกความยุติธรรมที่ใช้ประเมินว่ารูปแบบ คาดการณ์ผลลัพธ์ที่ต้องการอย่างเท่าเทียมกันสำหรับค่าต่างๆ ของ แอตทริบิวต์ที่มีความละเอียดอ่อน กล่าวคือ หาก ผลลัพธ์ที่ต้องการสำหรับโมเดลคือคลาสเชิงบวก เป้าหมายคือการมีอัตราผลบวกจริงเป็น เหมือนกันทุกกลุ่ม

ความเท่าเทียมกันของโอกาสเกี่ยวข้องกับโอกาสอย่างเท่าเทียม ซึ่งกำหนดให้ทั้งอัตราบวกที่แท้จริง อัตราผลบวกลวงจะเหมือนกันในทุกกลุ่ม

สมมติว่ามหาวิทยาลัย Glubbdubdrib ยอมรับทั้ง Lilliputians และ Brobdingnagians ในโปรแกรมคณิตศาสตร์ที่เข้มงวด ศิลปะของ Lilliputians โรงเรียนมัธยมศึกษาตอนต้นเสนอ หลักสูตรคณิตศาสตร์ที่มีประสิทธิภาพ และนักเรียนส่วนใหญ่ เข้าเรียนในโปรแกรม มหาวิทยาลัย โบรบดิงนาเจียน โรงเรียนมัธยมศึกษาไม่ได้ สอนวิชาคณิตศาสตร์เลย ด้วยเหตุนี้ นักเรียนจึงน้อยลง มีคุณสมบัติเหมาะสม ความเท่าเทียมกันของโอกาสสำหรับป้ายกำกับที่ต้องการของ "ยอมรับ" เกี่ยวกับสัญชาติ (Lilliputian หรือ Brobdingnagian) นักเรียนที่มีคุณสมบัติเข้าเกณฑ์จะมีโอกาสได้เข้าเรียนเท่าๆ กัน ไม่ว่ากรณีใดก็ตาม พวกเขาเป็นชาวลิลลิโพเชียนหรือโบรบดิงนาเจี่ยน

ตัวอย่างเช่น สมมติว่าชาวลิลลิโพเชียน 100 คน และชาวบรอบดิงนาเจียน 100 คนใช้กับ มหาวิทยาลัย Glubbdubdrib University และผลการพิจารณาการสมัครงานมีดังนี้

ตาราง 1 ผู้สมัครจาก Lilliputian (90% ผ่านการรับรอง)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 45 3
ถูกปฏิเสธ 45 7
รวม 90 10
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติที่เข้าศึกษา: 45/90 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่เข้าเกณฑ์ที่ถูกปฏิเสธ: 7/10 = 70%
เปอร์เซ็นต์รวมของนักเรียน Lilliputian ที่เข้าเรียน: (45+3)/100 = 48%

 

ตาราง 2 ผู้สมัคร Brobdingnagian (10% ผ่านเกณฑ์):

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 5 9
ถูกปฏิเสธ 5 81
รวม 10 90
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติที่เข้าศึกษา: 5/10 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่เข้าเกณฑ์ที่ถูกปฏิเสธ: 81/90 = 90%
เปอร์เซ็นต์รวมของนักเรียน Brobdingnagian ที่ยอมรับ: (5+9)/100 = 14%

ตัวอย่างก่อนหน้านี้แสดงถึงความเท่าเทียมของโอกาสในการยอมรับ เพราะมีทั้ง Lilliputians และ Brobdingnagians ที่มีคุณสมบัติ จะมีโอกาสได้รับการยอมรับ 50%

แม้จะได้รับความเท่าเทียมด้านโอกาส แต่เมตริกด้านความเป็นธรรม 2 รายการต่อไปนี้ ไม่พอใจ:

  • ความเท่าเทียมกันของประชากร: Lilliputian และ ชาว Brobdingnagians ได้รับอนุญาตให้เข้ามหาวิทยาลัยในอัตราที่แตกต่างกัน 48% ของนักศึกษา Lilliputians ได้รับการยอมรับ แต่มีเพียง 14% ของ รับนักศึกษา Brobdingnagian
  • โอกาสที่เท่าเทียมกัน: ขณะที่ Lilliputian ผู้เข้ารอบ และนักเรียน Brobdingnagian ก็มีโอกาสเหมือนกัน ข้อจำกัดเพิ่มเติมที่ Lilliputian ที่ไม่ได้รับการรับรองและ พวก Brobdingnagiads มีโอกาสถูกปฏิเสธเหมือนกัน พอใจ ลิลลิโพเชียนที่ไม่เข้าเกณฑ์จะมีอัตราการปฏิเสธ 70% Brobdingnagians ที่ไม่ได้รับการรับรองมีอัตราการปฏิเสธ 90%

ดูความเป็นธรรม: ความเท่าเทียมของ โอกาส ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

อัตราต่อรองแบบอีควอไลเซอร์

#fairness

เมตริกความเป็นธรรมที่ใช้ประเมินว่าโมเดลคาดการณ์ผลลัพธ์อย่างเท่าเทียมหรือไม่ เหมาะสำหรับทุกค่าของแอตทริบิวต์ที่มีความละเอียดอ่อนที่มี ตามคลาสเชิงบวกและ คลาสเชิงลบ - ไม่ใช่แค่คลาสใดคลาสหนึ่ง โดยเฉพาะ กล่าวคือ ทั้งอัตราผลบวกจริง และ อัตราผลลบลวง ควรเท่ากันสำหรับ ทุกกลุ่ม

โอกาสที่เท่ากันจะเกี่ยวข้องกับ ความเท่าเทียมของโอกาส ซึ่งมุ่งเน้นไปที่ เกี่ยวกับอัตราข้อผิดพลาดของคลาสเดี่ยว (เชิงบวกหรือเชิงลบ)

ตัวอย่างเช่น สมมติว่ามหาวิทยาลัย Glubbdubdrib ยอมรับทั้ง Lilliputians และ Brobdingnagians ไปเป็นโปรแกรมคณิตศาสตร์ที่เข้มงวด ศิลปะของ Lilliputians รอง โรงเรียนหลายแห่งมีหลักสูตรวิชาคณิตศาสตร์ที่มีประสิทธิภาพ และส่วนใหญ่ มีสิทธิ์เข้าร่วมโครงการของมหาวิทยาลัย โบรบดิงนาเจียน รอง โรงเรียนไม่มีชั้นเรียนคณิตศาสตร์เลย ดังนั้น โรงเรียนจึง นักเรียนมีคุณสมบัติเหมาะสม มีโอกาสที่เสมอกันในกรณีที่ไม่มี ไม่ว่าผู้สมัครจะเป็น Lilliputian หรือ Brobdingnagian หาก มีคุณสมบัติครบถ้วน รวมถึงมีแนวโน้ม ที่จะเข้าสู่โปรแกรมเท่าๆ กัน และหากไม่มีคุณสมบัติ ก็มีโอกาสถูกปฏิเสธไม่แพ้กัน

สมมติว่าชาวลิลลิพูเชียน 100 คนและชาวบรอบดิงนาเจีย 100 คนสมัครอยู่กับกลบบูบดริบ ผลการพิจารณาการเข้าเรียนในมหาวิทยาลัยและการรับเข้าศึกษามีดังนี้

ตารางที่ 3 ผู้สมัครจาก Lilliputian (90% ผ่านการรับรอง)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 45 2
ถูกปฏิเสธ 45 8
รวม 90 10
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติที่เข้าศึกษา: 45/90 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่เข้าเกณฑ์ที่ถูกปฏิเสธ: 8/10 = 80%
เปอร์เซ็นต์รวมของนักเรียน Lilliputian ที่เข้าเรียน: (45+2)/100 = 47%

 

ตาราง 4 ผู้สมัคร Brobdingnagian (10% ผ่านเกณฑ์):

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 5 18
ถูกปฏิเสธ 5 72
รวม 10 90
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติที่เข้าศึกษา: 5/10 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่เข้าเกณฑ์ที่ถูกปฏิเสธ: 72/90 = 80%
เปอร์เซ็นต์รวมของนักเรียน Brobdingnagian ที่ยอมรับ: (5+18)/100 = 23%

เนื้อที่มีโอกาสชนะเท่ากันเพราะใช้ Lilliputian และ Brobdingnagian ที่ผ่านการรับรองได้ นักเรียนทั้ง 50% มีโอกาส 50% ที่จะเข้าเรียนและ Lilliputian ที่ไม่ผ่านการรับรอง และ Brobdingnagian มีโอกาสถูกปฏิเสธถึง 80%

เงื่อนไขความน่าจะเป็นที่เท่ากันอย่างเป็นทางการใน "ความเท่าเทียมของ โอกาสในการเรียนรู้ภายใต้การควบคุมดูแล" ดังนี้ "ตัวพยากรณ์ {/2} ตรงกับความเป็นไปได้ที่เท่าเทียมกันด้วยความเคารพ เป็นแอตทริบิวต์ A ที่ได้รับการปกป้อง และผลลัพธ์ Y หากเป็นอิสระจากกัน แบบมีเงื่อนไขใน Y"

เครื่องมือประมาณค่า

#TensorFlow

TensorFlow API ที่เลิกใช้งานแล้ว ใช้ tf.keras แทน เครื่องมือประมาณค่า

Eval

#language
#generativeAI

มักใช้เป็นตัวย่อสำหรับการประเมิน LLM ที่กว้างๆ คำว่า evals คือตัวย่อของรูปแบบใดๆ ของ evaluation

การประเมิน

#language
#generativeAI

ขั้นตอนการวัดคุณภาพของโมเดลหรือเปรียบเทียบรูปแบบต่างๆ เปรียบเทียบกันเอง

เพื่อประเมินแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลอื่นมักจะประเมินตามชุดการตรวจสอบ และชุดทดสอบ การประเมิน LLM โดยทั่วไปแล้ว จะต้องมีการประเมินคุณภาพและความปลอดภัยในระดับที่กว้างกว่า

ตัวอย่าง

#fundamentals

ค่าของฟีเจอร์ 1 แถวและอาจ ป้ายกำกับ ตัวอย่างใน การเรียนรู้แบบมีการควบคุมดูแลแบ่งออกเป็น 2 แบบ หมวดหมู่ทั่วไป

เช่น สมมติว่าคุณกำลังฝึกโมเดลเพื่อระบุอิทธิพล ของสภาพอากาศในคะแนนสอบของนักเรียน เรามีตัวอย่างที่มีป้ายกำกับ 3 แบบ ดังนี้

ฟีเจอร์ ป้ายกำกับ
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 ดี
19 34 1020 ดีมาก
18 92 1012 แย่

ต่อไปนี้เป็นตัวอย่างที่ไม่มีป้ายกำกับ 3 รายการ

อุณหภูมิ ความชื้น ความกดอากาศ  
12 62 1014  
21 47 1017  
19 41 1021  

โดยทั่วไปแล้ว แถวของชุดข้อมูลจะเป็นแหล่งที่มาดิบของตัวอย่าง กล่าวคือ ตัวอย่างที่มักจะประกอบด้วยส่วนย่อยของคอลัมน์ใน ชุดข้อมูล ยิ่งไปกว่านั้น คุณลักษณะในตัวอย่างยังประกอบด้วย ฟีเจอร์สังเคราะห์ เช่น ข้ามฟีเจอร์

ดูการเรียนรู้ภายใต้การควบคุมดูแลใน เพื่อดูข้อมูลเพิ่มเติมเกี่ยวข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง

สัมผัสประสบการณ์การเล่นซ้ำ

#rl

ในการเรียนรู้แบบเสริมกำลัง เราใช้เทคนิค DQN เพื่อ ลดความสัมพันธ์เชิงเวลาในข้อมูลการฝึก agent จัดเก็บการเปลี่ยนสถานะไว้ในบัฟเฟอร์การเล่นซ้ำ จากนั้น ตัวอย่างจะเปลี่ยนจากบัฟเฟอร์การเล่นซ้ำเพื่อสร้างข้อมูลการฝึก

อคติของผู้ทดลอง

#fairness

ดูการให้น้ำหนักการยืนยัน

โจทย์การไล่ระดับสีระเบิด

#seq

แนวโน้มของการไล่ระดับสีใน โครงข่ายประสาทแบบลึก (โดยเฉพาะอย่างยิ่ง โครงข่ายประสาทแบบเกิดซ้ำ) สูงอย่างไม่น่าเชื่อ (สูง) การไล่ระดับสีที่ชันขึ้นมักทำให้มีการอัปเดตขนาดใหญ่มาก กับน้ำหนักของโหนดแต่ละรายการใน โครงข่ายประสาทแบบลึก

โมเดลที่ได้รับผลกระทบจากปัญหาการไล่ระดับสีระเบิดเริ่มยาก หรือเป็นไปไม่ได้ที่จะฝึก การไล่ระดับสี จะช่วยลดปัญหานี้ได้

เปรียบเทียบกับโจทย์การไล่ระดับสีที่หายไป

F

1

"ภาพรวม" เมตริกการจัดประเภทแบบไบนารีที่ ขึ้นอยู่กับทั้งความแม่นยําและความอ่อนไหว โดยมีสูตรดังนี้

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

ตัวอย่างเช่น

  • ความแม่นยำ = 0.6
  • การเรียกคืน = 0.4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

เมื่อความแม่นยำและความอ่อนไหวใกล้เคียงกันมาก (ดังตัวอย่างก่อนหน้านี้) F1 มีค่าใกล้เคียงกับค่าเฉลี่ย เมื่อความแม่นยำและความอ่อนไหวต่างกัน อย่างมีนัยสำคัญ F1 จะใกล้เคียงกับค่าที่ต่ำกว่า เช่น

  • ความแม่นยำ = 0.9
  • การเรียกคืน = 0.1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

ข้อจำกัดความเป็นธรรม

#fairness
การใช้เงื่อนไขจำกัดกับอัลกอริทึมเพื่อให้ได้คำจำกัดความอย่างน้อย 1 รายการ ของความเป็นธรรม ตัวอย่างข้อจํากัดด้านความเป็นธรรมมีดังนี้

เมตริกความเป็นธรรม

#fairness

คำจำกัดความทางคณิตศาสตร์ของ "ความยุติธรรม" ที่วัดได้ ตัวอย่างเมตริกด้านความเป็นธรรมที่ใช้กันโดยทั่วไปมีดังนี้

เมตริกด้านความเป็นธรรมจำนวนมากแยกออกจากกันโดยสิ้นเชิง ดู เมตริกความเป็นธรรมที่ใช้ร่วมกันไม่ได้

ผลลบลวง (FN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์อย่างไม่ถูกต้อง Negative Class ตัวอย่างเช่น โมเดล คาดว่าข้อความอีเมลหนึ่งๆ ไม่ใช่สแปม (คลาสเชิงลบ) แต่ข้อความอีเมลนั้นที่จริงแล้วเป็นสแปม

อัตราผลลบลวง

สัดส่วนของตัวอย่างที่เป็นบวกจริงที่โมเดลเข้าใจผิด ก็คาดการณ์คลาสเชิงลบได้ สูตรต่อไปนี้จะคำนวณค่า false อัตราลบ:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

ดูเกณฑ์และความสับสน เมทริกซ์ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

ผลบวกลวง (FP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์อย่างไม่ถูกต้อง คลาสเชิงบวก ตัวอย่างเช่น โมเดลจะคาดการณ์ ว่าข้อความอีเมลรายการหนึ่งคือสแปม (คลาสเชิงบวก) แต่ ข้อความอีเมลนี้ไม่ใช่สแปม

ดูเกณฑ์และความสับสน เมทริกซ์ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

อัตราผลบวกลวง (FPR)

#fundamentals

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลเข้าใจผิด ก็คาดการณ์ชั้นเรียนเชิงบวกได้ สูตรต่อไปนี้จะคำนวณค่า false อัตราเชิงบวก:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

อัตราผลบวกลวงคือแกน x ในกราฟ ROC

ดูการจัดประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

ฟีเจอร์

#fundamentals

ตัวแปรอินพุตของโมเดลแมชชีนเลิร์นนิง ตัวอย่าง ประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ ตัวอย่างเช่น สมมติว่าคุณกำลังฝึก เพื่อระบุอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตารางต่อไปนี้แสดงตัวอย่าง 3 รายการ แต่ละตัวอย่างมี คุณลักษณะสามรายการ และป้ายกำกับ 1 รายการ:

ฟีเจอร์ ป้ายกำกับ
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 92
19 34 1020 84
18 92 1012 87

คอนทราสต์กับป้ายกำกับ

ดูการเรียนรู้ภายใต้การควบคุมดูแล ในข้อมูลเบื้องต้นเกี่ยวกับแมชชีนเลิร์นนิง โปรดรับทราบข้อมูลเพิ่มเติม

ไม้กางเขนเด่น

#fundamentals

ฟีเจอร์สังเคราะห์ที่เกิดจาก "การกากบาท" ฟีเจอร์ตามหมวดหมู่หรือฟีเจอร์แบบเก็บข้อมูล

เช่น ลองพิจารณา "การพยากรณ์อารมณ์" โมเดลที่แสดงถึง อุณหภูมิในที่เก็บข้อมูล 1 ใน 4 รายการต่อไปนี้

  • freezing
  • chilly
  • temperate
  • warm

และแสดงถึงความเร็วลมในถังใดถังหนึ่งจาก 3 ถังต่อไปนี้

  • still
  • light
  • windy

โดยไม่มีเครื่องหมายกากบาทคุณลักษณะ โมเดลเชิงเส้นจะฝึกแยกกันในแต่ละองค์ประกอบ นำหน้าที่เก็บข้อมูลต่างๆ ถึง 7 แบบ ตัวอย่างเช่น โมเดลจะฝึก freezing โดยไม่ขึ้นอยู่กับการฝึก เช่น windy

อีกทางเลือกหนึ่งคือ คุณอาจสร้างลักษณะการวัดอุณหภูมิ ความเร็วลม ฟีเจอร์สังเคราะห์นี้จะมี 12 อย่างที่เป็นไปได้ดังต่อไปนี้ มีดังนี้

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

ด้วยไม้ข้ามฟีเจอร์ โมเดลนี้จึงเรียนรู้ความแตกต่างทางอารมณ์ได้ ระหว่าง freezing-windy วันถึง freezing-still วัน

หากคุณสร้างฟีเจอร์สังเคราะห์จาก 2 ฟีเจอร์ซึ่งแต่ละฟีเจอร์มี ที่เก็บข้อมูลที่ต่างกัน ดังนั้นข้ามฟีเจอร์ที่ได้จะมีปริมาณมหาศาล ของชุดค่าผสมที่เป็นไปได้ เช่น หากฟีเจอร์หนึ่งมีที่เก็บข้อมูล 1,000 รายการ อีกจุดสนใจหนึ่งมีที่เก็บข้อมูล 2,000 ที่ และข้ามจุดสนใจที่ได้มี 2,000,000 ใหม่

อย่างเป็นทางการ ไม้กางเขนคือ ผลคูณคาร์ทีเซียน

เครื่องหมายกากบาทจุดสนใจส่วนใหญ่ใช้กับโมเดลเชิงเส้นและไม่ค่อยใช้ กับโครงข่ายประสาท

ดูข้อมูลเชิงหมวดหมู่: ฟีเจอร์ ไม้กางเขน ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

Feature Engineering

#fundamentals
#TensorFlow

กระบวนการที่มีขั้นตอนต่อไปนี้

  1. พิจารณาว่าฟีเจอร์ใดอาจเป็นประโยชน์ ในการฝึกโมเดล
  2. การแปลงข้อมูลดิบจากชุดข้อมูลเป็นเวอร์ชันที่มีประสิทธิภาพของ คุณลักษณะเหล่านั้น

ตัวอย่างเช่น คุณอาจพิจารณาว่า temperature อาจเป็นประโยชน์ จากนั้นคุณอาจทดสอบกับ bucketing เพื่อเพิ่มประสิทธิภาพสิ่งที่โมเดลสามารถเรียนรู้จากช่วง temperature ต่างๆ

บางครั้งเราเรียกวิศวกรรมฟีเจอร์ว่า การแยกฟีเจอร์หรือ ประสิทธิภาพการทำงาน

ดูข้อมูลตัวเลข: วิธีที่โมเดลนำเข้าข้อมูลโดยใช้ฟีเจอร์ เวกเตอร์ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

การแยกฟีเจอร์

คำที่มากเกินไปมีคำจำกัดความอย่างใดอย่างหนึ่งต่อไปนี้

ความสำคัญของฟีเจอร์

#df

คำพ้องความหมายของความสำคัญของตัวแปร

ชุดฟีเจอร์

#fundamentals

กลุ่มฟีเจอร์ที่แมชชีนเลิร์นนิงของคุณ การฝึกของ model ตัวอย่างเช่น รหัสไปรษณีย์ ขนาดที่พัก และสภาพของอสังหาริมทรัพย์อาจ ประกอบด้วยชุดฟีเจอร์ง่ายๆ สำหรับโมเดลที่คาดการณ์ราคาที่อยู่อาศัย

ข้อมูลจำเพาะของฟีเจอร์

#TensorFlow

อธิบายข้อมูลที่จำเป็นในการดึงข้อมูลจากฟีเจอร์ จากบัฟเฟอร์โปรโตคอล tf.Example เนื่องจาก tf.Example บัฟเฟอร์โปรโตคอลเป็นเพียงที่เก็บข้อมูล คุณต้องระบุ ดังต่อไปนี้

  • ข้อมูลที่จะดึงมา (ซึ่งก็คือคีย์สำหรับฟีเจอร์)
  • ประเภทข้อมูล (เช่น ทศนิยมหรือจำนวนเต็ม)
  • ความยาว (คงที่หรือแปรผัน)

เวกเตอร์ฟีเจอร์

#fundamentals

อาร์เรย์ของค่า feature ซึ่งประกอบด้วย ตัวอย่าง เวกเตอร์จุดสนใจเป็นอินพุตระหว่าง การฝึกทำงาน และระหว่างการอนุมาน ตัวอย่างเช่น เวกเตอร์จุดสนใจสำหรับโมเดลที่มีคุณลักษณะสองอย่างที่แยกจากกัน อาจเป็น:

[0.92, 0.56]

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์
          เลเยอร์อินพุตมี 2 โหนด โดยแต่ละโหนดมีค่า
          0.92 และอีกค่ามีค่า 0.56

แต่ละตัวอย่างจะให้ค่าที่ต่างกันสำหรับเวกเตอร์ของจุดสนใจ ดังนั้น เวกเตอร์ของฟีเจอร์สำหรับตัวอย่างถัดไปอาจมีลักษณะดังนี้

[0.73, 0.49]

วิศวกรรมฟีเจอร์เป็นตัวกำหนดวิธีนำเสนอ ในเวกเตอร์จุดสนใจ ตัวอย่างเช่น ฟีเจอร์เชิงหมวดหมู่แบบไบนารีที่มี ค่าที่เป็นไปได้ 5 ค่าอาจแสดงด้วย การเข้ารหัสแบบฮอตเดียว ในกรณีนี้ ส่วนของ เวกเตอร์ของจุดสนใจสำหรับตัวอย่างหนึ่งๆ จะประกอบด้วยเลข 0 จำนวน 4 ตัวและ 1.0 เดียวในตำแหน่งที่ 3 ดังนี้

[0.0, 0.0, 1.0, 0.0, 0.0]

อีกตัวอย่างหนึ่ง สมมติว่าโมเดลของคุณมี 3 ฟีเจอร์:

  • ฟีเจอร์เชิงหมวดหมู่ไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าซึ่งแสดงด้วย การเข้ารหัสแบบ One-hot ตัวอย่างเช่น [0.0, 1.0, 0.0, 0.0, 0.0]
  • ฟีเจอร์เชิงหมวดหมู่ไบนารีอีกอย่างหนึ่งซึ่งมีค่าที่เป็นไปได้ 3 ค่า ด้วยการเข้ารหัสแบบฮอตเดียว ตัวอย่างเช่น [0.0, 0.0, 1.0]
  • คุณลักษณะที่เป็นจุดลอยตัว ตัวอย่างเช่น 8.3

ในกรณีนี้ เวกเตอร์ฟีเจอร์สำหรับแต่ละตัวอย่างจะแสดงแทน 9 ค่า จากค่าตัวอย่างในรายการก่อนหน้า เวกเตอร์ของจุดสนใจจะเป็น

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

ดูข้อมูลตัวเลข: วิธีที่โมเดลนำเข้าข้อมูลโดยใช้ฟีเจอร์ เวกเตอร์ ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

คุณสมบัติ

กระบวนการดึงฟีเจอร์ออกจากแหล่งที่มาของอินพุต เช่น เอกสารหรือวิดีโอ และจับคู่ฟีเจอร์เหล่านั้นกับ เวกเตอร์ฟีเจอร์

ผู้เชี่ยวชาญด้าน ML บางคนใช้คุณสมบัติตามธรรมชาติเป็นคำพ้องความหมายสำหรับ feature Engineering หรือ การแยกฟีเจอร์

การเรียนรู้แบบสมาพันธ์

แนวทางการใช้แมชชีนเลิร์นนิงแบบกระจายที่ฝึก โมเดลแมชชีนเลิร์นนิงโดยใช้ระบบกระจายศูนย์ ตัวอย่างที่อยู่ในอุปกรณ์ เช่น สมาร์ทโฟน ในการเรียนรู้แบบรวมศูนย์ อุปกรณ์บางส่วนจะดาวน์โหลดโมเดลปัจจุบัน จากเซิร์ฟเวอร์ประสานงานส่วนกลาง อุปกรณ์ใช้ตัวอย่างที่จัดเก็บไว้ ในอุปกรณ์เพื่อปรับปรุงโมเดล จากนั้นอุปกรณ์จะอัปโหลด การปรับปรุงโมเดล (ไม่ใช่ตัวอย่างการฝึก) สำหรับการประสานงาน ซึ่งจะรวมกับการอัปเดตอื่นๆ เพื่อให้ โมเดลทั่วโลก หลังจากการรวมแล้ว โมเดลจะอัปเดตที่คํานวณโดยอุปกรณ์ ที่ไม่จำเป็นอีกต่อไป และทิ้งได้

เนื่องจากไม่เคยอัปโหลดตัวอย่างการฝึกอบรม การเรียนรู้แบบสมาพันธ์จึงเป็นไปตาม หลักการด้านความเป็นส่วนตัวในการรวบรวมข้อมูลที่มุ่งเน้นและขอบเขตการใช้ข้อมูล

หากต้องการข้อมูลเพิ่มเติมเกี่ยวกับการเรียนรู้แบบสมาพันธ์ โปรดดูบทแนะนำนี้

การเก็บฟีดแบ็กมาแก้ไข

#fundamentals

ในแมชชีนเลิร์นนิง สถานการณ์ที่การคาดการณ์ของโมเดลส่งผลต่อ สำหรับโมเดลเดียวกันหรือโมเดลอื่น ตัวอย่างเช่น โมเดลที่ แนะนำว่าภาพยนตร์จะมีผลต่อภาพยนตร์ที่คนดู ซึ่งจะเป็น ส่งผลต่อโมเดลการแนะนำภาพยนตร์ในลำดับต่อๆ มา

ดูระบบ ML การผลิต: คำถามสำหรับ ถาม ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

โครงข่ายระบบประสาทเทียมฟีดส่งต่อ (FFN)

โครงข่ายระบบประสาทเทียมที่ไม่มีการเชื่อมต่อแบบวนซ้ำหรือวนซ้ำ ตัวอย่างเช่น โครงข่ายประสาทแบบลึกดั้งเดิมคือ โครงข่ายระบบประสาทเทียมแบบส่งต่อฟีด ตัดกับระบบประสาทเทียมที่เกิดขึ้นซ้ำ เครือข่าย ซึ่งเป็นแบบวนซ้ำ

การเรียนรู้แบบ 2-3 ช็อต

แนวทางแมชชีนเลิร์นนิงที่มักใช้ เพื่อจำแนกออบเจ็กต์ ที่ออกแบบมาเพื่อฝึกตัวแยกประเภทที่มีประสิทธิภาพจาก ตัวอย่างการฝึกของคุณ

โปรดดูการเรียนรู้แบบจุดเดียวและ การเรียนรู้แบบ Zero shot

ข้อความแจ้งใน 2-3 ช็อต

#language
#generativeAI

ข้อความแจ้งที่มีตัวอย่างมากกว่า 1 รายการ ("2-3") รายการ เพื่อสาธิตให้เห็นว่าโมเดลภาษาขนาดใหญ่ ควรตอบสนอง ตัวอย่างเช่น พรอมต์ยาวต่อไปนี้มี ตัวอย่างที่แสดงโมเดลภาษาขนาดใหญ่เกี่ยวกับวิธีตอบคำถาม

ส่วนต่างๆ ของพรอมต์ หมายเหตุ
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร คำถามที่ต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR ตัวอย่าง 1 รายการ
สหราชอาณาจักร: GBP อีกตัวอย่างหนึ่ง
อินเดีย: การค้นหาจริง

โดยทั่วไปแล้ว การใส่ข้อความแจ้งเพียงน้อยครั้งจะให้ผลลัพธ์ที่น่าพอใจมากกว่า การแสดงข้อความแจ้งแบบ Zero shot และ การส่งข้อความแจ้งแบบครั้งเดียว อย่างไรก็ตาม การแสดงข้อความแจ้งเพียง 2-3 ช็อต ต้องใช้ข้อความแจ้งที่ยาวกว่านี้

การแจ้งเพียง 2-3 ช็อตเป็นการเรียนรู้แบบคร่าวๆ นำไปใช้กับการเรียนรู้จากพรอมต์

โปรดดูพรอมต์ วิศวกรรม ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

ฟิดเดิล

#language

ไลบรารีการกำหนดค่าที่ใช้ Python เป็นหลักซึ่งตั้งค่า ค่าของฟังก์ชันและคลาสที่ไม่มีโค้ดหรือโครงสร้างพื้นฐานที่รุกล้ำเข้ามา ในกรณีของ Pax และโค้ดเบส ML อื่นๆ ฟังก์ชันเหล่านี้และ คลาสจะเป็นตัวแทนของโมเดลและการฝึก ไฮเปอร์พารามิเตอร์

ฟิดเดิล ถือว่าโดยทั่วไปแล้วโค้ดเบสแมชชีนเลิร์นนิงแบ่งออกเป็นสิ่งต่อไปนี้

  • โค้ดไลบรารี ซึ่งระบุเลเยอร์และเครื่องมือเพิ่มประสิทธิภาพ
  • "Glue" ชุดข้อมูล ซึ่งเรียกห้องสมุดและสายไฟเข้าด้วยกัน

Fiddle บันทึกโครงสร้างการเรียกใช้ของ Glue Code ในตัวแปรที่ยังไม่ผ่านการประเมินและ เปลี่ยนแปลงได้

การปรับแต่ง

#language
#image
#generativeAI

บัตรผ่านการฝึกอบรมเฉพาะงานชิ้นที่ 2 ที่ดำเนินการใน โมเดลที่ฝึกล่วงหน้าเพื่อปรับแต่งพารามิเตอร์สำหรับ Use Case ที่เฉพาะเจาะจง ตัวอย่างเช่น ลำดับการฝึกที่สมบูรณ์สำหรับ โมเดลภาษาขนาดใหญ่มีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลภาษาขนาดใหญ่ด้วยชุดข้อมูลทั่วไปขนาดใหญ่ เช่น หน้า Wikipedia ภาษาอังกฤษทั้งหมด
  2. การปรับแต่ง: ฝึกโมเดลก่อนการฝึกเพื่อทำงานที่ต้องการ เช่น การตอบคำถามทางการแพทย์ การปรับแต่งนั้นมักเกี่ยวข้องกับ ตัวอย่างนับร้อยหรือพันรายการที่มุ่งเน้นเฉพาะงานนั้นๆ

อีกตัวอย่างหนึ่งคือลำดับการฝึกที่สมบูรณ์สำหรับโมเดลรูปภาพขนาดใหญ่ ดังต่อไปนี้:

  1. การฝึกล่วงหน้า: ฝึกโมเดลรูปภาพขนาดใหญ่บนรูปภาพทั่วไปขนาดใหญ่ เช่น ภาพทั้งหมดใน Wikimedia Commons
  2. การปรับแต่ง: ฝึกโมเดลก่อนการฝึกเพื่อทำงานที่ต้องการ เช่น การสร้างรูปวาฬเพชฌฆาต

การปรับแต่งจะนำกลยุทธ์ต่อไปนี้ผสมกันในรูปแบบใดก็ได้

  • การแก้ไขโมเดลที่มีอยู่ก่อนการฝึกที่มีอยู่ทั้งหมด พารามิเตอร์ ซึ่งในบางครั้งเรียกว่าการปรับแต่งอย่างละเอียด
  • การแก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลก่อนการฝึกบางส่วนเท่านั้น (โดยปกติคือเลเยอร์ที่อยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด) โดยไม่เปลี่ยนแปลงพารามิเตอร์อื่นๆ ที่มีอยู่ (โดยทั่วไปคือเลเยอร์ ใกล้เลเยอร์อินพุตมากที่สุด) โปรดดู การปรับแต่งประสิทธิภาพพารามิเตอร์
  • การเพิ่มเลเยอร์อีก โดยทั่วไปจะอยู่ด้านบนของเลเยอร์ที่มีอยู่ที่อยู่ใกล้กับเลเยอร์ เลเยอร์เอาต์พุต

การปรับแต่งเป็นการเรียนรู้การโอนรูปแบบหนึ่ง ด้วยเหตุนี้ การปรับแต่งอย่างละเอียดอาจใช้ฟังก์ชันการสูญเสียข้อมูลหรือโมเดลอื่น ประเภทที่นอกเหนือจากที่ใช้ในการฝึกโมเดลก่อนการฝึก ตัวอย่างเช่น คุณสามารถ ปรับแต่งโมเดลรูปภาพขนาดใหญ่ก่อนการฝึก เพื่อสร้างโมเดลการถดถอยที่ แสดงผลจำนวนนกในภาพอินพุต

เปรียบเทียบการปรับแต่งอย่างละเอียดกับคำต่อไปนี้

ดูการปรับแต่ง ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงเพื่อขอข้อมูลเพิ่มเติม

เหลืองแฟลกซ์

#language

โอเพนซอร์สประสิทธิภาพสูง ไลบรารีสำหรับ การเรียนรู้เชิงลึกที่สร้างต่อยอดจาก JAX แฟลกซ์มีฟังก์ชันการทำงาน สำหรับการฝึก โครงข่ายประสาท รวมถึง เป็นวิธีการประเมินประสิทธิภาพ

Flaxformer

#language

Transformer แบบโอเพนซอร์ส คลัง สร้างขึ้นบน Flax ที่ออกแบบมาเพื่อการประมวลผลภาษาธรรมชาติเป็นหลัก และการวิจัยสื่อหลากรูปแบบ

ลืมประตู

#seq

ส่วนของหน่วยความจำระยะสั้น เซลล์ที่ควบคุมการไหลของข้อมูลผ่านเซลล์ ไม่ต้องจำประตูไว้ รักษาบริบทด้วยการตัดสินใจว่าจะทิ้งข้อมูลใด จากสถานะเซลล์

Softmax เต็มรูปแบบ

คำพ้องความหมายของ softmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

เลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์

เลเยอร์ที่ซ่อนอยู่ซึ่งแต่ละโหนด เชื่อมต่อกับทุกโหนดในเลเยอร์ที่ซ่อนอยู่ถัดไป

เลเยอร์ที่เชื่อมต่ออย่างเต็มรูปแบบเรียกอีกอย่างว่าเลเยอร์หนาแน่น

การเปลี่ยนรูปแบบฟังก์ชัน

ฟังก์ชันที่ใช้ฟังก์ชันเป็นอินพุตและส่งกลับฟังก์ชันที่เปลี่ยนรูปแบบแล้ว เป็นเอาต์พุต JAX ใช้การเปลี่ยนรูปแบบฟังก์ชัน

G

GAN

ตัวย่อของ Generative adversarial เครือข่าย

การสรุป

#fundamentals

ความสามารถของโมเดลในการคาดการณ์ที่ถูกต้องในอุปกรณ์ใหม่ ข้อมูลที่ไม่เคยเห็นมาก่อน โมเดลที่สามารถทำให้เป็นแบบทั่วไปได้นั้นตรงข้ามกับ ของโมเดลที่ปรับมากเกินไป

Gemini

#language
#image
#generativeAI

ระบบนิเวศที่ประกอบด้วย AI ที่ล้ำหน้าที่สุดของ Google องค์ประกอบของระบบนิเวศนี้ รวมข้อมูลต่อไปนี้

  • รุ่นต่างๆ ของ Gemini
  • อินเทอร์เฟซการสนทนาแบบอินเทอร์แอกทีฟสำหรับโมเดล Gemini ผู้ใช้จะพิมพ์พรอมต์แล้ว Gemini จะตอบสนองต่อพรอมต์เหล่านั้น
  • Gemini API มากมาย
  • ผลิตภัณฑ์ทางธุรกิจต่างๆ ที่อิงจากโมเดล Gemini ตัวอย่างเช่น Gemini สำหรับ Google Cloud
วันที่

โมเดล Gemini

#language
#image
#generativeAI

เทคโนโลยี Transformer ที่ทันสมัยของ Google โมเดลสื่อหลากรูปแบบ โมเดล Gemini มีไว้สำหรับ ที่ออกแบบมาเพื่อผสานรวมกับ agent

ผู้ใช้สามารถโต้ตอบกับโมเดล Gemini ได้หลายวิธี เช่น อินเทอร์เฟซกล่องโต้ตอบแบบอินเทอร์แอกทีฟ และผ่าน SDK

เส้นโค้งทั่วไป

#fundamentals

พล็อตของทั้งการสูญเสียการฝึกหัดและ การสูญเสียการตรวจสอบเป็นฟังก์ชันของจำนวน การทำซ้ำ

กราฟทั่วไปจะช่วยให้คุณตรวจหาความเป็นไปได้ มากเกินไป ตัวอย่างเช่น URL ต่อไปนี้ เส้นโค้งทั่วไปแนะนำให้มีการปรับมากเกินไป เนื่องจากการสูญเสียการตรวจสอบ จะสูงกว่าการสูญเสียการฝึกอย่างมีนัยสำคัญ

กราฟคาร์ทีเซียนที่แกน y ระบุว่าสูญเสียและแกน x
          คือ การทำซ้ำ จะมี 2 พล็อตปรากฏขึ้น หนึ่งแผนภาพแสดง
          การสูญเสียการฝึก และอีกรายการจะแสดงการสูญเสียการตรวจสอบ
          ทั้ง 2 แผนเริ่มต้นคล้ายคลึงกัน แต่ในที่สุดก็เกิดการสูญเสียการฝึกอบรม
          ตกลงต่ำกว่าการสูญเสียการตรวจสอบเป็นอย่างมาก

รูปแบบเชิงเส้นทั่วไป

การสรุปเกี่ยวกับการถดถอยของกำลังสองน้อยที่สุด โดยอิงตาม เกาส์เซียน Noise เป็นเสียงอื่นๆ แบบพื้นฐานโดยพิจารณาจากสัญญาณรบกวนประเภทอื่นๆ เช่น เสียงรบกวนแบบ Poisson หรือ เสียงเชิงหมวดหมู่ ตัวอย่างของรูปแบบเชิงเส้นทั่วไป ได้แก่

คุณสามารถดูพารามิเตอร์ของรูปแบบเชิงเส้นทั่วไปได้จาก การเพิ่มประสิทธิภาพ Conv.

รูปแบบเชิงเส้นทั่วไปจะแสดงคุณสมบัติต่อไปนี้

  • การคาดคะเนเฉลี่ยของโมเดลการถดถอยกำลังสองน้อยที่สุดที่เหมาะสมที่สุดคือ เท่ากับป้ายกำกับเฉลี่ยในข้อมูลการฝึก
  • ความน่าจะเป็นโดยเฉลี่ยที่คาดการณ์โดยการถดถอยแบบโลจิสติกส์ที่เหมาะสมที่สุด จะเท่ากับป้ายกำกับเฉลี่ยในข้อมูลการฝึก

พลังของรูปแบบเชิงเส้นทั่วไปจะจำกัดโดยฟีเจอร์ เลิกชอบ โมเดลลึก รูปแบบเชิงเส้นทั่วไปไม่สามารถ "เรียนรู้ฟีเจอร์ใหม่ๆ" ได้

เครือข่ายที่ไม่พึงประสงค์แบบ Generative (GAN)

ระบบสำหรับสร้างข้อมูลใหม่ที่โปรแกรมสร้างสร้างขึ้น และเครื่องมือเลือกปฏิบัติเป็นตัวกำหนดว่า ข้อมูลที่สร้างถูกต้องหรือไม่ถูกต้อง

Generative AI

#language
#image
#generativeAI

ช่องที่กำลังเปลี่ยนรูปแบบใหม่ซึ่งไม่มีคำจำกัดความอย่างเป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่เห็นด้วยว่าโมเดล Generative AI สามารถ สร้าง ("สร้าง") เนื้อหาที่มีลักษณะต่อไปนี้ทั้งหมด

  • ซับซ้อน
  • สอดคล้องกัน
  • เดิม

เช่น โมเดล Generative AI สามารถสร้างความซับซ้อน เรียงความหรือรูปภาพ

เทคโนโลยีบางรุ่นก่อนหน้านี้ รวมถึง LSTMs และ RNN ยังสามารถสร้างต้นฉบับและ ที่สอดคล้องกัน ผู้เชี่ยวชาญบางคนมองว่าเทคโนโลยีรุ่นก่อนหน้าเหล่านี้คือ ในขณะที่ Generative AI บางคนรู้สึกว่า Generative AI ที่แท้จริงนั้นต้องการความซับซ้อนกว่า มากกว่าที่เทคโนโลยีรุ่นก่อนๆ จะสร้างขึ้นได้

เปรียบเทียบกับ ML ที่คาดการณ์

โมเดลจาก Generative AI

ในทางปฏิบัติ โมเดลนี้จะกระทำการอย่างใดอย่างหนึ่งต่อไปนี้

  • สร้าง (สร้าง) ตัวอย่างใหม่จากชุดข้อมูลการฝึก เช่น โมเดล Generative อาจสร้างบทกวีหลังการฝึก เกี่ยวกับชุดข้อมูลของบทกวี ส่วนโปรแกรมสร้างของ เครือข่ายป้องกันปัญหาที่สร้างขึ้น ก็จัดอยู่ในหมวดหมู่นี้
  • พิจารณาความน่าจะเป็นที่ตัวอย่างใหม่มาจาก หรือสร้างขึ้นจากกลไกเดียวกันกับที่สร้าง ชุดการฝึก ตัวอย่างเช่น หลังจากการฝึกอบรม ชุดข้อมูลที่ประกอบด้วยประโยคภาษาอังกฤษ โมเดล Generative สามารถ พิจารณาความน่าจะเป็นที่ข้อมูลใหม่จะเป็นประโยคภาษาอังกฤษที่ถูกต้อง

โมเดล Generative AI สามารถแยกแยะการกระจายของตัวอย่างในทางทฤษฎี หรือฟีเจอร์หนึ่งๆ ในชุดข้อมูล โดยการ

p(examples)

โมเดลการเรียนรู้ที่ไม่มีการควบคุมดูแลเป็นแบบ Generative

ตัดกับรูปแบบที่ไม่แบ่งแยก

โปรแกรมสร้างแผนผังไซต์

ระบบย่อยภายใน Generative Adversarial เครือข่าย ที่สร้างตัวอย่างใหม่

คอนทราสต์กับรูปแบบการเลือกปฏิบัติ

ความไม่บริสุทธิ์ของจีน

#df

เมตริกที่คล้ายกับเอนโทรปี สปลิตเตอร์ ใช้ค่าที่ได้จากความไม่บริสุทธิ์ของจีน (Gini) หรือเอนโทรปีในการเขียนข้อความ เงื่อนไขสำหรับการจัดประเภท แผนผังการตัดสินใจ ข้อมูลที่ได้รับมาจากเอนโทรปี ไม่มีคำศัพท์ที่เทียบเท่าซึ่งเป็นที่ยอมรับกันโดยทั่วไปสำหรับเมตริกที่ดึงมา จากความไม่บริสุทธิ์ของจีน แต่เมตริกที่ไม่มีชื่อนี้ก็มีความสำคัญพอๆ กับ ข้อมูลที่ได้รับ

ความไม่บริสุทธิ์ของจีน (Gini) เรียกอีกอย่างว่าดัชนีจินี หรือเรียกง่ายๆ ว่า จินี

ชุดข้อมูล Golden

ชุดข้อมูลที่มีการดูแลจัดการด้วยตนเองซึ่งบันทึกข้อมูลที่เป็นความจริง ทีมสามารถใช้ชุดข้อมูลทองคำอย่างน้อย 1 ชุดเพื่อประเมินคุณภาพของโมเดล

ชุดข้อมูลทองคำบางรายการจะจับข้อมูลโดเมนย่อยของข้อมูลจากการสังเกตการณ์โดยตรง ตัวอย่างเช่น ชุดข้อมูลสีทองสำหรับการจัดประเภทรูปภาพอาจจับภาพสภาพแสง และความละเอียดของภาพ

GPT (Transformer ที่ฝึกล่วงหน้าด้วย Generative)

#language

ตระกูลเกม Transformer โมเดลภาษาขนาดใหญ่ที่พัฒนาโดย OpenAI

ตัวแปร GPT ใช้ได้กับวิธีการหลายวิธี ได้แก่

  • การสร้างรูปภาพ (เช่น ImageGPT)
  • การสร้างข้อความเป็นรูปภาพ (เช่น DALL-E)

ไล่ระดับสี

เวกเตอร์ของอนุพันธ์บางส่วนที่เกี่ยวข้องกับ ตัวแปรอิสระทั้งหมด ในแมชชีนเลิร์นนิง การไล่ระดับสีคือ เวกเตอร์ของอนุพันธ์ย่อยของฟังก์ชันโมเดล จุดไล่ระดับสี ในทิศทางที่ชันขึ้น

การไล่ระดับสีสะสม

เทคนิค backpropagation ที่อัปเดตพารามิเตอร์ พารามิเตอร์เพียง 1 ครั้งต่อ Epoch แทนที่จะเป็น 1 ครั้งต่อ Epoch ซ้ำได้ หลังการประมวลผล มินิแบตช์ แต่ละรายการ การไล่ระดับสี "การสะสม" จะเป็นการอัปเดตการไล่ระดับสีทั้งหมดที่ทำงานอยู่ จากนั้น ประมวลผลมินิแบตช์ล่าสุดใน Epoch จากนั้นระบบจะอัปเดต พารามิเตอร์ที่ขึ้นอยู่กับจำนวนการเปลี่ยนแปลงการไล่ระดับสีทั้งหมด

การเก็บค่าการไล่ระดับสีจะมีประโยชน์เมื่อขนาดกลุ่มเท่ากับ มีขนาดใหญ่มากเมื่อเทียบกับปริมาณหน่วยความจำที่ใช้ได้สำหรับการฝึก เมื่อเกิดปัญหาเกี่ยวกับหน่วยความจำ แนวโน้มโดยทั่วไปคือการลดขนาดกลุ่ม อย่างไรก็ตาม การลดขนาดกลุ่มใน Backpropagation ปกติจะเพิ่มขึ้น จำนวนการอัปเดตพารามิเตอร์ การสะสมการไล่ระดับสีจะเปิดใช้โมเดล เพื่อหลีกเลี่ยงปัญหาเกี่ยวกับความจำ แต่ยังคงฝึกได้อย่างมีประสิทธิภาพ

ต้นไม้ที่เพิ่มระดับ (การตัดสินใจ) แบบไล่ระดับสี (GBT)

#df

ผลการตัดสินประเภทหนึ่งที่มีลักษณะดังนี้

การเพิ่มพลังการไล่ระดับสี

#df

อัลกอริทึมการฝึกที่มีการฝึกโมเดลที่อ่อนแอให้ทำซ้ำ ปรับปรุงคุณภาพ (ลดการสูญเสีย) ของโมเดลที่มีประสิทธิภาพ ตัวอย่างเช่น โมเดลที่ไม่มีประสิทธิภาพอาจจะเป็นโมเดลแผนผังการตัดสินใจแบบเชิงเส้นหรือขนาดเล็กก็ได้ โมเดลที่มีประสิทธิภาพจะกลายเป็นผลรวมของโมเดลที่อ่อนแอซึ่งผ่านการฝึกก่อนหน้านี้ทั้งหมด

ในรูปแบบการเพิ่มการไล่ระดับสีที่ง่ายที่สุด โมเดลที่อ่อนแอลงในการทำซ้ำแต่ละครั้ง ได้รับการฝึกให้คาดการณ์การไล่ระดับสีการสูญเสียของโมเดลที่ดี จากนั้น เอาต์พุตของโมเดลที่มีประสิทธิภาพจะอัปเดตโดยการลบการไล่ระดับสีที่คาดการณ์ไว้ คล้ายกับการไล่ระดับสี

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

โดยมี

  • $F_{0}$ คือรูปแบบที่มีประสิทธิภาพในช่วงแรก
  • $F_{i+1}$ คือโมเดลถัดไปที่แข็งแกร่ง
  • $F_{i}$ เป็นโมเดลที่แข็งแกร่งในปัจจุบัน
  • $\xi$ คือค่าระหว่าง 0.0 ถึง 1.0 ที่เรียกว่า การหดตัว ซึ่งเปรียบได้กับ อัตราการเรียนรู้ใน การไล่ระดับสี
  • $f_{i}$ คือโมเดลแบบอ่อนที่ได้รับการฝึกให้คาดการณ์การไล่ระดับสีการสูญเสียของ $F_{i}$

รูปแบบใหม่ๆ ของการไล่ระดับสีแบบสมัยใหม่ยังรวมอนุพันธ์ลำดับที่ 2 ด้วย (Hessian) ของการสูญเสียในการคำนวณ

แผนผังการตัดสินใจมักใช้เป็นโมเดลที่ไม่มีประสิทธิภาพใน การเพิ่มการไล่ระดับสี โปรดดู ต้นไม้ที่เพิ่มระดับ (การตัดสินใจ) ในการไล่ระดับสี

การไล่ระดับสี

#seq

กลไกที่ใช้กันโดยทั่วไปในการลด ปัญหาการไล่ระดับสีแบบระเบิดโดยที่ไม่ได้เกิดขึ้นจริง การจำกัด (การตัด) ค่าสูงสุดของการไล่ระดับสีเมื่อใช้ ไล่ระดับสีเพื่อฝึกโมเดล

การไล่ระดับสี

#fundamentals

เทคนิคทางคณิตศาสตร์เพื่อลด Loss ให้เหลือน้อยที่สุด การไล่ระดับสีแบบไล่ระดับสีจะปรับซ้ำๆ น้ำหนักและอคติ ค่อยๆ ค้นหาชุดค่าผสมที่ดีที่สุดเพื่อลดการสูญเสีย

การไล่ระดับสีเป็นค่าที่เก่ากว่าแมชชีนเลิร์นนิงมาก

กราฟ

#TensorFlow

ใน TensorFlow ซึ่งเป็นข้อมูลจำเพาะด้านการคำนวณ โหนดในกราฟ แสดงถึงการดำเนินงาน ขอบเป็นเส้นตรงและแสดงถึงการส่งผลลัพธ์ ของการดำเนินการ (Tensor) ในรูปแบบ ตัวถูกดำเนินการอื่น ใช้ TensorBoard เพื่อแสดงภาพกราฟ

Graph Execution

#TensorFlow

สภาพแวดล้อมการเขียนโปรแกรม TensorFlow ที่โปรแกรมสร้างเป็นครั้งแรก กราฟ แล้วดำเนินการกับกราฟนั้นทั้งหมดหรือบางส่วน กราฟ คือโหมดการดำเนินการเริ่มต้นใน TensorFlow 1.x

แตกต่างจากการดำเนินการแบบตั้งใจ

นโยบายอันละโมบ

#rl

ในการเรียนรู้แบบสนับสนุน นโยบายที่เลือก การดำเนินการที่มีผลตอบแทนสูงสุดที่คาดไว้

ข้อมูลที่เป็นความจริง

#fundamentals

เรียลลิตี้

สิ่งที่เกิดขึ้นจริง

ตัวอย่างเช่น ลองพิจารณาการจัดประเภทแบบไบนารี โมเดลที่คาดการณ์ว่านักศึกษากำลังเข้ามหาวิทยาลัยในปีแรก จะสำเร็จการศึกษาภายใน 6 ปี ข้อมูลจากการสังเกตการณ์โดยตรงสำหรับโมเดลนี้คือ ไม่ใช่ว่านักศึกษาจบการศึกษาภายใน 6 ปีจริงๆ

ความลำเอียงในการระบุแหล่งที่มาของกลุ่ม

#fairness

สมมติว่าสิ่งที่เป็นจริงสำหรับบุคคลหนึ่งก็เป็นจริงสำหรับทุกคนเช่นกัน ในกลุ่มนั้น ผลจากความลำเอียงในการระบุแหล่งที่มาของกลุ่มอาจทำให้รุนแรงขึ้นได้ หากเป็นการสุ่มตัวอย่างตามความสะดวก เพื่อเก็บรวบรวมข้อมูล ในตัวอย่างที่ไม่ใช่ตัวแทน การระบุแหล่งที่มา อาจไม่สะท้อนถึงความเป็นจริง

ดูข้อมูลเพิ่มเติมที่อคติแบบนอกกลุ่มซึ่งกันและกัน และอคติในกลุ่ม

H

ความไม่สมเหตุสมผล

#language

การสร้างผลลัพธ์ที่ดูสมเหตุสมผลแต่ไม่ถูกต้องตามข้อเท็จจริงโดย โมเดล Generative AI ที่อ้างว่าจะสร้าง ความจริงเกี่ยวกับโลกความเป็นจริง ตัวอย่างเช่น โมเดล Generative AI ที่อ้างว่าบารัก โอบามาเสียชีวิตในปี 1865 ความไม่สมเหตุสมผล

การแฮช

ในแมชชีนเลิร์นนิง กระบวนการเก็บข้อมูล ข้อมูลเชิงหมวดหมู่ โดยเฉพาะอย่างยิ่งเมื่อตัวเลข ของหมวดหมู่ มีขนาดใหญ่ แต่จำนวนของหมวดหมู่ที่ปรากฏ ในชุดข้อมูลนั้นค่อนข้างเล็ก

ตัวอย่างเช่น Earth เป็นที่อยู่อาศัยของต้นไม้ประมาณ 73,000 ชนิด คุณสามารถ แสดงพันธุ์ไม้แต่ละชนิดจากทั้งหมด 73,000 ชนิดใน 73,000 สายพันธุ์ ใหม่ หรือหากมีต้นไม้ชนิดนั้นเพียง 200 ชนิดปรากฏ ในชุดข้อมูล คุณอาจใช้แฮชชิงเพื่อแบ่งชนิดของต้นไม้เป็น อาจมีที่เก็บข้อมูล 500 รายการ

ถังเดียวอาจมีต้นไม้หลายชนิด เช่น การแฮช อาจวางต้นเบาบับและเมเปิลแดง ซึ่ง 2 ชนิดนี้มีความคล้ายคลึงกันทางพันธุกรรม ชนิดต่างๆ ลงในถังเดียวกัน อย่างไรก็ตาม การแฮชก็ยังเป็นวิธีที่ดีในการ จับคู่ชุดกลุ่มใหญ่กับที่เก็บข้อมูลจำนวนหนึ่งที่เลือก การแฮชเปลี่ยน คุณลักษณะเชิงหมวดหมู่ ที่มีค่าที่เป็นไปได้จำนวนมากลงใน จำนวนค่าที่มีค่าน้อยลงโดยการจัดกลุ่มค่าในแอตทริบิวต์ เชิงกำหนด

การเรียนรู้

วิธีการแก้ปัญหาที่ง่ายและรวดเร็ว ตัวอย่างเช่น "การเรียนรู้ของเราทำให้มีความแม่นยำถึง 86% เมื่อเราเปลี่ยนไปใช้ โครงข่ายระบบประสาทเทียมระดับลึก ความแม่นยำก็เพิ่มขึ้นถึง 98%"

เลเยอร์ที่ซ่อนอยู่

#fundamentals

เลเยอร์ในโครงข่ายระบบประสาทเทียมระหว่าง เลเยอร์อินพุต (ฟีเจอร์) และ เลเยอร์เอาต์พุต (การคาดการณ์) เลเยอร์ที่ซ่อนอยู่แต่ละเลเยอร์ประกอบด้วยเซลล์ประสาทอย่างน้อย 1 เซลล์ ตัวอย่างเช่น โครงข่ายระบบประสาทเทียมต่อไปนี้มีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ เซลล์แรกมีเซลล์ประสาท 3 เซลล์ และเซลล์ที่สองมีเซลล์ประสาท 2 เซลล์ ได้แก่

4 เลเยอร์ เลเยอร์แรกคือเลเยอร์อินพุตที่มี
          ใหม่ๆ เลเยอร์ที่สองคือเลเยอร์ที่ซ่อนอยู่ซึ่งมี
          เซลล์ประสาท เลเยอร์ที่สามคือเลเยอร์ที่ซ่อนอยู่ซึ่งมี
          เซลล์ประสาท เลเยอร์ที่ 4 คือเลเยอร์เอาต์พุต แต่ละฟีเจอร์
          มีขอบ 3 ด้าน แต่ละเส้นนำไปยังเซลล์ประสาทที่ต่างกัน
          ในเลเยอร์ที่สอง เซลล์ประสาทแต่ละเซลล์ในชั้นที่ 2
          มีขอบ 2 ด้าน แต่ละเส้นนำไปยังเซลล์ประสาทที่ต่างกัน
          ในเลเยอร์ที่ 3 เซลล์ประสาทแต่ละเซลล์ในชั้นที่ 3 ประกอบด้วย
          ขอบด้านหนึ่ง แต่ละด้านชี้ไปยังเลเยอร์เอาต์พุต

โครงข่ายประสาทแบบลึกมีมากกว่า 1 เครือข่าย เลเยอร์ที่ซ่อนอยู่ เช่น ภาพประกอบก่อนหน้าเป็นระบบประสาทเทียมระดับลึก เครือข่ายได้เนื่องจากโมเดลมีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์

การจัดกลุ่มแบบลำดับชั้น

#clustering

หมวดหมู่ของอัลกอริทึม clustering ที่สร้างแผนผังต้นไม้ ของคลัสเตอร์ การจัดกลุ่มแบบลำดับชั้นเหมาะกับข้อมูลแบบลำดับชั้น เช่น การจัดหมวดหมู่พฤกษศาสตร์ ลำดับชั้นมีด้วยกัน 2 ประเภท อัลกอริทึมการจัดกลุ่ม:

  • คลัสเตอร์แบบรวบรวมจะกำหนดตัวอย่างทั้งหมดให้กับคลัสเตอร์ของตัวเองก่อน และผสานคลัสเตอร์ที่ใกล้ที่สุดซ้ำๆ เพื่อสร้างลำดับชั้น ต้นไม้
  • คลัสเตอร์แบบแยกย่อยจะจัดกลุ่มตัวอย่างทั้งหมดเป็นคลัสเตอร์เดียวก่อน แล้วตามด้วย แบ่งคลัสเตอร์แบบวนซ้ำเป็นต้นไม้แบบลำดับชั้น

คอนทราสต์กับคลัสเตอร์แบบเซนทรอยด์

การสูญเสียบานพับ

กลุ่มฟังก์ชัน loss ของ classification ซึ่งมีขึ้นเพื่อค้นหา ขอบเขตการตัดสินใจห่างออกไปมากที่สุด จากตัวอย่างการฝึกอบรมแต่ละรายการ ดังนั้นจึงเพิ่มส่วนต่างกำไรระหว่างตัวอย่างและขอบเขตให้ได้สูงสุด KSVM ใช้บานพับแบบยึด (หรือฟังก์ชันที่เกี่ยวข้อง เช่น การสูญเสียบานพับยกกำลังสอง) สำหรับการจัดประเภทแบบไบนารี ฟังก์ชันการสูญเสียบานพับ มีคำจำกัดความดังนี้

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

โดยที่ y คือป้ายกำกับจริง ซึ่งอาจเป็น -1 หรือ +1 และ y' คือเอาต์พุตดิบ ของรูปแบบตัวแยกประเภท

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ดังนั้น พล็อตของการสูญเสียบานพับเทียบกับ (y * y") มีลักษณะดังนี้

พล็อตคาร์ทีเซียนที่ประกอบด้วยเส้นแบ่ง 2 ส่วน แท็ก
          ของเส้นตรงเริ่มต้นที่ (-3, 4) และสิ้นสุดที่ (1, 0) บรรทัดที่สอง
          กลุ่มเริ่มต้นที่ (1, 0) และต่อไปเรื่อยๆ ไม่สิ้นสุดโดยที่มีความชัน
          0

อคติในอดีต

#fairness

อคติประเภทหนึ่งที่มีอยู่แล้วในโลกและมี เข้าไปในชุดข้อมูล อคติเหล่านี้มีแนวโน้มที่จะสะท้อนถึง การเหมารวมทางวัฒนธรรม ความไม่เสมอภาคทางประชากร และอคติที่มีต่อบางอย่าง กลุ่มโซเชียลต่างๆ

ตัวอย่างเช่น ลองพิจารณาโมเดลการจัดประเภทที่ คาดการณ์ว่าผู้สมัครสินเชื่อจะผิดนัดชำระหนี้ ซึ่ง ซึ่งได้รับการฝึกอบรมเกี่ยวกับข้อมูลเริ่มต้นสินเชื่อในอดีตจากช่วงทศวรรษ 1980 จากธนาคารท้องถิ่นใน ชุมชนต่างๆ หากอดีตผู้สมัครจากชุมชน A มีจำนวนมากกว่า 6 เท่า มีแนวโน้มที่จะขอสินเชื่อมากกว่าผู้สมัครจากชุมชน B ซึ่งเป็นโมเดล อาจได้เรียนรู้ถึงอคติที่ผ่านมา ซึ่งส่งผลให้โมเดลมีแนวโน้มที่จะ อนุมัติเงินกู้ในชุมชน A แม้ว่าเงื่อนไขที่ผ่านมาจะส่งผล ในอัตราเริ่มต้นที่สูงขึ้นของชุมชนนั้นไม่มีความเกี่ยวข้องอีกต่อไป

ระงับข้อมูล

ตัวอย่าง ไม่ได้มีเจตนาที่จะใช้ ("ระงับ") ระหว่างการฝึก ชุดข้อมูลการตรวจสอบความถูกต้องและ ชุดข้อมูลทดสอบคือตัวอย่างของข้อมูลการคงไว้ชั่วคราว ข้อมูลการคงไว้ชั่วคราว ช่วยประเมินความสามารถของโมเดลในการนำเสนอข้อมูลทั่วไปกับข้อมูลอื่นนอกเหนือจาก ข้อมูลที่ได้รับการฝึก การสูญเสียสิทธิ์ ค่าประมาณของการสูญเสียจากชุดข้อมูลที่มองไม่เห็นมากกว่าการสูญเสียจาก ชุดการฝึกของคุณ

ผู้จัด

#TensorFlow
#GoogleCloud

เมื่อฝึกโมเดล ML บนชิป Accelerator (GPU หรือ TPU) ส่วนของระบบ ที่ควบคุมทั้ง 2 รายการต่อไปนี้

  • ขั้นตอนโดยรวมของโค้ด
  • การดึงและการเปลี่ยนรูปแบบของไปป์ไลน์อินพุต

โฮสต์มักจะทำงานบน CPU ไม่ใช่ชิป Accelerator เวลา device จัดการ tensor ในอุปกรณ์ ชิปเร่ง

ไฮเปอร์พารามิเตอร์

#fundamentals

ตัวแปรที่คุณหรือบริการปรับแต่งไฮเปอร์พารามิเตอร์ ปรับในระหว่างการฝึกโมเดลต่อเนื่อง ตัวอย่างเช่น อัตราการเรียนรู้เป็นไฮเปอร์พารามิเตอร์ คุณสามารถ ตั้งค่าอัตราการเรียนรู้เป็น 0.01 ก่อนเซสชันการฝึกอบรม 1 เซสชัน หากคุณ หากค่า 0.01 สูงเกินไป คุณอาจต้องตั้งค่าการเรียนรู้ ให้เป็น 0.003 สำหรับเซสชันการฝึกอบรมครั้งต่อไป

ในทางตรงกันข้าม พารามิเตอร์จะเป็น น้ำหนักและอคติที่โมเดล เรียนรู้ระหว่างการฝึกอบรม

ไฮเปอร์เพลน

ขอบเขตที่แบ่งพื้นที่ทำงานออกเป็น 2 พื้นที่ย่อย ตัวอย่างเช่น บรรทัดคือ ไฮเปอร์เพลนที่มี 2 มิติ และระนาบเป็นไฮเปอร์เพลนที่มี 3 มิติ โดยทั่วไปแล้ว ในแมชชีนเลิร์นนิง ไฮเปอร์เพลนคือขอบเขตที่แยก ที่มีมิติสูง การใช้เครื่องสร้างเวกเตอร์การสนับสนุนเคอร์เนล ไฮไลท์ที่แยกชั้นเรียนเชิงบวกออกจากชั้นเรียนเชิงลบ ซึ่งมักจะอยู่ใน ที่มีมิติสูง

I

i.i.d.

ตัวย่อของเผยแพร่โดยอิสระและเหมือนกันทุกประการ

การรู้จำรูปภาพ

#image

กระบวนการที่จัดหมวดหมู่ออบเจ็กต์ รูปแบบ หรือแนวคิดในรูปภาพ การจดจำรูปภาพยังเรียกอีกอย่างว่าการจัดประเภทรูปภาพ

สำหรับข้อมูลเพิ่มเติม โปรดดู แนวทางปฏิบัติ ML: การจัดประเภทรูปภาพ

ชุดข้อมูลที่ไม่สมดุล

คำพ้องความหมายของชุดข้อมูลที่ไม่สมดุลระดับคลาส

อคติโดยไม่รู้ตัว

#fairness

สร้างการเชื่อมโยงหรือสมมติฐานโดยอาศัยความคิดของผู้ใช้โดยอัตโนมัติ โมเดลและความทรงจำต่างๆ อคติโดยปริยายอาจส่งผลกระทบต่อสิ่งต่อไปนี้

  • วิธีรวบรวมและแยกประเภทข้อมูล
  • วิธีออกแบบและพัฒนาระบบแมชชีนเลิร์นนิง

เช่น เมื่อคุณสร้างตัวแยกประเภทเพื่อระบุรูปภาพงานแต่งงาน วิศวกรอาจใช้การแสดงชุดเดรสสีขาวในรูปภาพเป็นองค์ประกอบ อย่างไรก็ตาม ชุดเดรสสีขาวเป็นธรรมเนียมปฏิบัติในบางยุคเท่านั้นและ ในบางวัฒนธรรม

ดูการให้น้ำหนักพิเศษกับการยืนยันเพิ่มเติม

การพินิจ

การคำนวณมูลค่าในรูปแบบสั้นๆ

เมตริกความเป็นธรรมไม่สามารถเข้ากันได้

#fairness

มีแนวคิดที่ว่าแนวคิดเรื่องความเป็นธรรมบางเรื่องไม่สามารถใช้ร่วมกันได้และ อาจพึงพอใจพร้อมกันไม่ได้ ดังนั้นจึงไม่มี เมตริกสากลสำหรับวัดความเป็นธรรมในเชิงปริมาณ ที่ใช้กับโจทย์ ML ทั้งหมดได้

แม้ว่านี่อาจดูไม่น่าพึงพอใจ แต่เมตริกด้านความเป็นธรรมไม่สามารถเข้ากันได้ ไม่ได้กล่าวเป็นนัยว่าความพยายามเพื่อความเป็นธรรมนั้นไร้ผล แต่แนะนำ ความยุติธรรมจะต้องได้รับการกำหนดตามบริบทสำหรับปัญหา ML ที่ระบุด้วย เพื่อการป้องกันอันตรายต่อกรณีการใช้งานนั้นๆ

ดู "บน (im)" เพื่อพูดคุยเกี่ยวกับหัวข้อนี้โดยละเอียดมากขึ้น

การเรียนรู้ในบริบท

#language
#generativeAI

คำพ้องความหมายของข้อความแจ้งไม่กี่ช็อต

กระจายอย่างอิสระและเหมือนกันทุกประการ (i.i.d)

#fundamentals

ข้อมูลมาจากการกระจายที่ไม่เปลี่ยนแปลง และที่แต่ละค่า ที่วาดไม่ได้ขึ้นอยู่กับค่าที่วาดไว้ก่อนหน้านี้ รหัส คือก๊าซอุดมคติ ของเครื่อง การเรียนรู้—โครงสร้างทางคณิตศาสตร์ที่มีประโยชน์ แต่แทบจะไม่เคยพบคำตอบที่แน่ชัด ในโลกแห่งความเป็นจริง ตัวอย่างเช่น การกระจายของผู้เข้าชมไปยังหน้าเว็บ อาจเป็นรหัส ในช่วงเวลาสั้นๆ ซึ่งก็คือการกระจายจะไม่ ในช่วงเวลาสั้นๆ นั้นและการเข้าชมของบุคคลหนึ่งมักจะ โดยไม่ขึ้นอยู่กับการเข้าชมของผู้อื่น แต่ถ้าคุณขยายกรอบเวลานั้น ความแตกต่างตามฤดูกาลในผู้เข้าชมหน้าเว็บอาจปรากฏขึ้น

ดู nonstationarity เพิ่มเติม

ความเป็นธรรมส่วนบุคคล

#fairness

เมตริกความเป็นธรรมที่ตรวจสอบว่ามีการจัดประเภทบุคคลธรรมดาที่คล้ายกันหรือไม่ คล้ายๆ กัน ตัวอย่างเช่น Brobdingnagian Academy อาจต้องการ ความเป็นธรรมของบุคคลโดยดูแลให้นักเรียน 2 คนที่มีคะแนนเท่ากัน และคะแนนสอบที่ได้มาตรฐานจะมีโอกาสได้รับคนเข้าเรียนเท่ากัน

โปรดทราบว่าความยุติธรรมส่วนบุคคลขึ้นอยู่กับวิธีที่คุณนิยามคำว่า "ความคล้ายคลึง" ทั้งหมด (ในกรณีนี้คือคะแนน และคะแนนสอบ) และคุณอาจเสี่ยงต่อ นำเสนอปัญหาความเป็นธรรมใหม่ หากเมตริกความคล้ายคลึงกันขาดข้อมูลสำคัญ (เช่น ความเข้มงวดของหลักสูตรของนักเรียน)

ดู "ความเป็นธรรม Through การรับรู้" สำหรับการอภิปรายเกี่ยวกับความเป็นธรรมส่วนบุคคลอย่างละเอียดยิ่งขึ้น

การอนุมาน

#fundamentals

ในแมชชีนเลิร์นนิง กระบวนการคาดการณ์โดย การใช้โมเดลที่ฝึกแล้วกับตัวอย่างที่ไม่มีป้ายกำกับ

การอนุมานมีความหมายในสถิติต่างกันเล็กน้อย โปรดดู บทความวิกิพีเดียเกี่ยวกับการอนุมานทางสถิติ

เส้นทางการอนุมาน

#df

ในแผนผังการตัดสินใจ ระหว่างการอนุมาน เส้นทางที่ตัวอย่างหนึ่งๆ ใช้จาก root เป็น เงื่อนไข อื่นๆ โดยสิ้นสุดด้วย ใบไม้ ตัวอย่างเช่น ในแผนผังการตัดสินใจต่อไปนี้ ฟิลด์ ลูกศรที่หนาขึ้นจะแสดงเส้นทางการอนุมานสำหรับตัวอย่างดังต่อไปนี้ ค่าฟีเจอร์:

  • x = 7
  • ปี = 12
  • z = -3

เส้นทางอนุมานในภาพประกอบต่อไปนี้จะเคลื่อนผ่าน ก่อนที่จะถึงใบ (Zeta)

แผนผังการตัดสินใจที่มี 4 เงื่อนไขและ 5 ใบ
          เงื่อนไขรูทคือ (x > 0) เนื่องจากคำตอบคือ ใช่
          เส้นทางอนุมานจะเดินทางจากรากไปยังเงื่อนไขถัดไป (y > 0)
          เนื่องจากคำตอบคือ ใช่ เส้นทางอนุมานจะเดินทางไปยัง
          เงื่อนไขถัดไป (z > 0) เนื่องจากคำตอบคือ &quot;ไม่&quot; เส้นทางการอนุมาน
          เดินทางไปที่โหนดเทอร์มินัล ซึ่งก็คือใบไม้ (Zeta)

ลูกศรหนา 3 อันแสดงเส้นทางการอนุมาน

ข้อมูลที่ได้รับ

#df

ในกลุ่มการตัดสินใจ ความแตกต่างระหว่าง เอนโทรปีของโหนดและการถ่วงน้ำหนัก (ตามจำนวนตัวอย่าง) ผลรวมของเอนโทรปีของโหนดย่อย เอนโทรปีของโหนดคือเอนโทรปี ของตัวอย่างในโหนดนั้น

เช่น ลองพิจารณาค่าเอนโทรปีต่อไปนี้

  • เอนโทรปีของโหนดหลัก = 0.6
  • เอนโทรปีของโหนดย่อยหนึ่งโหนดที่มีตัวอย่างที่เกี่ยวข้อง 16 ตัวอย่าง = 0.2
  • เอนโทรปีของโหนดย่อยอื่นที่มีตัวอย่างที่เกี่ยวข้อง 24 รายการ = 0.1

ดังนั้น 40% ของตัวอย่างอยู่ในโหนดย่อย 1 โหนดและ 60% อยู่ในโหนด โหนดย่อยอื่นๆ ดังนั้น

  • ผลรวมเอนโทรปีถ่วงน้ำหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

ดังนั้น ข้อมูลที่ได้รับมีดังนี้

  • ข้อมูลที่ได้รับ = เอนโทรปีของโหนดหลัก - ผลรวมเอนโทรปีแบบถ่วงน้ำหนักของโหนดย่อย
  • ข้อมูลที่ได้รับ = 0.6 - 0.14 = 0.46

ผู้ดูแลส่วนใหญ่พยายามสร้างเงื่อนไข ซึ่งช่วยเพิ่มประสิทธิภาพในการได้รับข้อมูลสูงสุด

อคติในกลุ่ม

#fairness

การแสดงความไม่ลำเอียงต่อกลุ่มของตนเองหรือลักษณะเฉพาะของตนเอง หากผู้ทดสอบหรือผู้ตรวจสอบประกอบด้วยเพื่อนของนักพัฒนาแอปแมชชีนเลิร์นนิง ครอบครัว หรือเพื่อนร่วมงาน ดังนั้นอคติภายในกลุ่มอาจทำให้การทดสอบผลิตภัณฑ์เป็นโมฆะ หรือชุดข้อมูล

อคติภายในกลุ่มคือ การให้น้ำหนักการระบุแหล่งที่มาของกลุ่ม ดูข้อมูลเพิ่มเติมได้ในอคติแบบเอกพันธ์ุ

โปรแกรมสร้างอินพุต

กลไกการโหลดข้อมูลเข้าไปใน โครงข่ายประสาท

โปรแกรมสร้างอินพุตอาจมองว่าเป็นองค์ประกอบที่มีหน้าที่ประมวลผล ข้อมูลดิบเป็น Tensor ซึ่งได้รับการทำซ้ำเพื่อสร้างกลุ่มสำหรับ การฝึกอบรม การประเมิน และการอนุมาน

เลเยอร์อินพุต

#fundamentals

เลเยอร์ของโครงข่ายประสาทที่ จะมีเวกเตอร์ของฟีเจอร์ ซึ่งก็คือเลเยอร์อินพุต มีตัวอย่างสำหรับการฝึกอบรมหรือ การอนุมาน ตัวอย่างเช่น เลเยอร์อินพุตใน โครงข่ายระบบประสาทเทียมประกอบด้วย 2 ฟีเจอร์ ได้แก่

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

เงื่อนไขในเซ็ต

#df

เงื่อนไขในแผนผังการตัดสินใจ ที่ทดสอบการมี 1 รายการในชุดรายการ ตัวอย่างเช่น ต่อไปนี้คือเงื่อนไขที่ตั้งไว้

  house-style in [tudor, colonial, cape]

ระหว่างการอนุมาน หากค่าของฟีเจอร์แบบบ้าน คือ tudor หรือ colonial หรือ cape เงื่อนไขนี้จะประเมินเป็น "ใช่" ถ้า ค่าของฟีเจอร์แบบบ้านคือสิ่งอื่นๆ (เช่น ranch) เงื่อนไขนี้จะประเมินเป็น "ไม่"

เงื่อนไขที่ตั้งไว้มักทำให้แผนผังการตัดสินใจมีประสิทธิภาพมากกว่า เงื่อนไขที่จะทดสอบฟีเจอร์เข้ารหัสแบบฮอตเดียว

อินสแตนซ์

คำพ้องของ example

การปรับแต่งคำสั่ง

#generativeAI

รูปแบบหนึ่งของการปรับแต่งที่ช่วยปรับปรุง ความสามารถในการติดตามของโมเดล Generative AI วิธีทำ การปรับแต่งการสอนเกี่ยวข้องกับการฝึกโมเดลในชุด ข้อความแจ้งวิธีการ โดยปกติจะครอบคลุม งานที่หลากหลาย จากนั้น แบบจำลองที่ปรับตามคำสั่งจึงมีแนวโน้มที่จะ สร้างคำตอบที่เป็นประโยชน์สำหรับพรอมต์แบบ Zero Shot สำหรับงานต่างๆ มากมาย

เปรียบเทียบระหว่าง

ความสามารถในการตีความ

#fundamentals

ความสามารถในการอธิบายหรือนำเสนอการให้เหตุผลของโมเดล ML ใน ที่มนุษย์เข้าใจได้

ตัวอย่างเช่น โมเดลการถดถอยเชิงเส้นส่วนใหญ่จะมี ที่ตีความได้ (คุณต้องดูน้ำหนักที่ฝึกสำหรับ feature.) ป่าการตัดสินใจยังตีความได้เป็นอย่างดีด้วย อย่างไรก็ตาม บางโมเดล ต้องอาศัยการแสดงผลที่ซับซ้อนเพื่อให้ตีความได้

คุณสามารถใช้ เครื่องมือตีความการเรียนรู้ (LIT) เพื่อตีความโมเดล ML

ข้อตกลงระหว่างผู้ตรวจสอบราคา

การวัดความถี่ที่เจ้าหน้าที่ตรวจสอบยอมรับเมื่อทํางาน หากผู้ตรวจสอบไม่เห็นด้วย คุณอาจต้องปรับปรุงวิธีการงาน บางครั้งเรียกว่าข้อตกลงระหว่างผู้เขียนคำอธิบายประกอบ หรือ ความเสถียรของราคาระหว่างผู้ใช้ (Inter-rater) ดูเพิ่มเติม ของโคเฮน kappa ซึ่งเป็นวิธีวัดข้อตกลงระหว่างผู้ประเมินราคาสูงสุดวิธีหนึ่งที่ได้รับความนิยมมากที่สุด

ทางแยกเหนือสหภาพ (IoU)

#image

อินเตอร์เซกชันของ 2 เซตหารด้วยสหภาพ ในแมชชีนเลิร์นนิง งานตรวจหารูปภาพ IoU ใช้เพื่อวัดความแม่นยำของโมเดล กรอบล้อมรอบที่คาดการณ์ไว้ตาม กรอบล้อมรอบ ground-truth ในกรณีนี้ IoU สำหรับ 2 ช่องคืออัตราส่วนระหว่างพื้นที่ที่ทับซ้อนกันและพื้นที่ทั้งหมด และ ค่าจะอยู่ในช่วง 0 (ไม่มีการทับซ้อนกันของกรอบล้อมรอบที่คาดการณ์ไว้และข้อมูลจากภาคพื้นดิน กรอบล้อมรอบ) กับ 1 (กรอบล้อมรอบที่คาดการณ์ไว้และกรอบล้อมรอบสำหรับความจริงภาคพื้นดินมี พิกัดเดียวกัน)

ตัวอย่างเช่น ในรูปภาพด้านล่าง

  • กรอบล้อมรอบที่คาดการณ์ไว้ (พิกัดที่ใช้จำกัดตำแหน่งของโมเดล คาดว่าโต๊ะกลางคืนในภาพวาดจะอยู่) มีเส้นขอบเป็นสีม่วง
  • กรอบล้อมรอบสำหรับข้อมูลจากภาคพื้นดิน (พิกัดที่ระบุสถานที่กลางคืน ตารางในภาพวาดจะอยู่จริง) มีเส้นขอบเป็นสีเขียว

ภาพแวนโก๊ะวาดภาพ &quot;ห้องนอนของวินเซนต์&quot; ในอาร์ลส์ โดยมี 2 ภาพที่แตกต่างกัน
          กล่องล้อมรอบโต๊ะกลางเตียง ข้อมูลที่เป็นความจริง
          กรอบล้อมรอบ (สีเขียว) จะล้อมรอบโต๊ะในค่ำคืนนั้นอย่างเหมาะเจาะ 
          กรอบล้อมรอบที่คาดการณ์ไว้ (สีม่วง) ถูกชดเชยลง 50% และไปทางขวา
          ของข้อมูลจากการสังเกตการณ์โดยตรง ล้อมรอบไตรมาสขวาล่าง
          อีกโต๊ะ แต่พลาดโต๊ะที่เหลือ

ในที่นี้ จุดตัดของกรอบล้อมรอบสำหรับการคาดคะเนและข้อมูลจากการสังเกตการณ์โดยตรง (ด้านล่างซ้าย) คือ 1 และการรวมของกรอบล้อมรอบสำหรับการคาดการณ์และ ข้อมูลที่เป็นความจริง (ด้านล่างขวา) เท่ากับ 7 ดังนั้น IoU คือ \(\frac{1}{7}\)

รูปภาพเหมือนกับด้านบน แต่มีกรอบล้อมรอบแต่ละกรอบแบ่งออกเป็น 4 ช่อง
          จตุภาค มีทั้งหมด 7 จตุภาค ตามด้านขวาล่าง
          ควอแดรนท์ของกรอบล้อมรอบสำหรับความจริงภาคพื้นดินและด้านซ้ายบน
          จตุภาคของกรอบล้อมรอบที่คาดการณ์ไว้ทับซ้อนกัน ช่วงเวลานี้
          ส่วนที่ซ้อนทับกัน (ไฮไลต์สีเขียว) แสดงถึง
          ทางแยก และมีพื้นที่เท่ากับ 1 รูปภาพเหมือนกับด้านบน แต่มีกรอบล้อมรอบแต่ละกรอบแบ่งออกเป็น 4 ช่อง
          จตุภาค มีทั้งหมด 7 จตุภาค ตามด้านขวาล่าง
          ควอแดรนท์ของกรอบล้อมรอบสำหรับความจริงภาคพื้นดินและด้านซ้ายบน
          จตุภาคของกรอบล้อมรอบที่คาดการณ์ไว้ทับซ้อนกัน
          ด้านในทั้งหมดอยู่ภายในกรอบล้อมรอบทั้ง 2 ช่อง
          (ไฮไลต์สีเขียว) แสดงถึงสหภาพ และมี
          พื้นที่ 7

IoU

ตัวย่อของทางแยกเหนือสหภาพ

เมทริกซ์รายการ

#recsystems

ในระบบการแนะนำ เมทริกซ์ของเวกเตอร์การฝังที่สร้างโดย การแยกตัวประกอบเมทริกซ์ ที่มีสัญญาณแฝงเกี่ยวกับสินค้าแต่ละรายการ แต่ละแถวของเมทริกซ์รายการจะเก็บค่าแฝงเดี่ยว สำหรับทุกรายการ ตัวอย่างเช่น ลองพิจารณาระบบการแนะนำภาพยนตร์ แต่ละคอลัมน์ ในเมทริกซ์รายการจะแสดงภาพยนตร์เรื่องเดียว สัญญาณแฝง อาจแสดงถึงประเภท หรืออาจตีความได้ยากขึ้น ที่เกี่ยวข้องกับการโต้ตอบที่ซับซ้อนระหว่างประเภท ดาว อายุของภาพยนตร์ หรือปัจจัยอื่นๆ

เมทริกซ์รายการมีจำนวนคอลัมน์เท่ากับเป้าหมาย เมทริกซ์ที่กำลังแยกตัวประกอบ เช่น ระบุภาพยนตร์ ระบบการแนะนำที่ประเมินภาพยนตร์ 10,000 เรื่อง เมทริกซ์รายการจะมี 10,000 คอลัมน์

รายการ

#recsystems

ในระบบการแนะนำ เอนทิตีที่ ที่ระบบแนะนำ เช่น วิดีโอคือสินค้าที่วิดีโอจัดเก็บ ขณะที่หนังสือคือรายการที่ร้านหนังสือแนะนำ

การทำซ้ำ

#fundamentals

การอัปเดตพารามิเตอร์ model เพียงครั้งเดียว ซึ่งก็คือ น้ำหนักและอคติ ระหว่าง การฝึกอบรม ขนาดกลุ่มจะกำหนด จำนวนตัวอย่างที่ประมวลผลโมเดลในการทำซ้ำครั้งเดียว ตัวอย่างเช่น หากขนาดกลุ่มคือ 20 โมเดลจะประมวลผลตัวอย่าง 20 รายการก่อน การปรับพารามิเตอร์

เมื่อฝึกโครงข่ายระบบประสาทเทียม การทำซ้ำครั้งเดียว เกี่ยวข้องกับบัตร 2 ประเภทต่อไปนี้

  1. การส่งต่อสำหรับประเมินการสูญเสียในกลุ่มเดียว
  2. การส่งย้อนหลัง (backpropagation) เพื่อปรับ พารามิเตอร์ของโมเดลตามการสูญเสียและอัตราการเรียนรู้

J

JAX

ไลบรารีการประมวลผลอาร์เรย์ ที่นำมารวมกัน XLA (Accelerated Linear Algebra) และการหาอนุพันธ์อัตโนมัติ เพื่อการประมวลผลตัวเลขประสิทธิภาพสูง JAX มอบโซลูชันที่เรียบง่ายและมีประสิทธิภาพ API สำหรับการเขียนโค้ดตัวเลขแบบเร่งพร้อมการแปลงที่ประกอบกันได้ JAX มีฟีเจอร์อย่างเช่น

  • grad (การแยกความแตกต่างโดยอัตโนมัติ)
  • jit (รวมคลิปแบบทันใจ)
  • vmap (การสร้างเวกเตอร์หรือแบบกลุ่มโดยอัตโนมัติ)
  • pmap (การโหลดพร้อมกัน)

JAX เป็นภาษาสำหรับแสดงและประกอบการแปลงทางตัวเลข โค้ดก็คล้ายๆ กัน แต่จะมีขอบเขตใหญ่กว่ามาก เมื่อเทียบกับ NumPy ของ Python ไลบรารี (อันที่จริงแล้ว ไลบรารี .numpy ภายใต้ JAX มีฟังก์ชันการทำงานที่เทียบเท่ากัน แต่เป็นไลบรารี Python NumPy เวอร์ชันที่เขียนขึ้นใหม่ทั้งหมด)

JAX เหมาะอย่างยิ่งสำหรับการเร่งงานแมชชีนเลิร์นนิงจำนวนมาก โดยเปลี่ยนรูปแบบโมเดลและข้อมูลให้อยู่ในรูปแบบที่เหมาะสำหรับการทำงานควบคู่กันไป ในชิป Accelerator ของ GPU และ TPU

Flax, Optax, Pax และอื่นๆ อีกมากมาย ไลบรารีนี้สร้างขึ้นด้วยโครงสร้างพื้นฐาน JAX

K

Keras

API แมชชีนเลิร์นนิงของ Python ยอดนิยม Keras ทำงานบน เฟรมเวิร์กการเรียนรู้เชิงลึกมากมาย รวมถึง TensorFlow เพื่อสร้าง พร้อมใช้งานเป็น tf.keras

เครื่อง Kernel Support Vector (KSVM)

อัลกอริทึมการจัดประเภทที่พยายามเพิ่มอัตรากำไรสูงสุดระหว่าง เชิงบวกและ คลาสที่เป็นลบโดยการจับคู่เวกเตอร์ข้อมูลอินพุต ไปยังพื้นที่ที่มีมิติสูงขึ้นได้ เช่น ลองพิจารณาการจัดหมวดหมู่ ที่ชุดข้อมูลอินพุต มีฟีเจอร์เป็นร้อย หากต้องการเพิ่มอัตรากำไรสูงสุดระหว่าง ชนชั้นเชิงบวกและเชิงลบ โดย KSVM สามารถจับคู่คุณลักษณะเหล่านั้นเป็นการภายใน พื้นที่ล้านมิติ KSVM ใช้ฟังก์ชันการสูญเสียที่เรียกว่า การสูญเสียบานพับ

คีย์พอยท์

#image

พิกัดของจุดสนใจหนึ่งๆ ในรูปภาพ ตัวอย่างเช่น สำหรับ โมเดลการจดจำรูปภาพที่แยกความแตกต่าง ชนิดดอกไม้ จุดสำคัญอาจอยู่ตรงกลางของกลีบแต่ละกลีบ ลำต้น เกสรตัวผู้ค่ะ เป็นต้น

การตรวจสอบกากบาทในมุมพับ

อัลกอริทึมสำหรับการคาดการณ์ความสามารถของโมเดลในการ ทั่วไปกับข้อมูลใหม่ ส่วน k ใน k- Fold หมายถึง จำนวนกลุ่มที่เท่ากันที่คุณแบ่งตัวอย่างของชุดข้อมูลออก ซึ่งก็คือการฝึก และทดสอบโมเดล k ครั้ง สำหรับการฝึกอบรมและการทดสอบแต่ละรอบ คนละกลุ่มคือชุดทดสอบ และกลุ่มที่เหลือทั้งหมดจะกลายเป็นชุดฝึกอบรม ตั้งค่า หลังจาก k รอบของการฝึกและการทดสอบ คุณคำนวณค่าเฉลี่ยและ ค่าเบี่ยงเบนมาตรฐานของเมตริกการทดสอบที่เลือก

เช่น สมมติว่าชุดข้อมูลประกอบด้วยตัวอย่าง 120 รายการ สมมติว่า คุณตัดสินใจตั้ง k เป็น 4 ดังนั้น หลังจากสุ่มตัวอย่างแล้ว แบ่งชุดข้อมูลออกเป็น 4 กลุ่มเท่าๆ กัน ตัวอย่าง 30 รายการ และดำเนินการ 4 รายการ รอบการฝึกอบรมและการทดสอบ:

ชุดข้อมูลแบ่งออกเป็น 4 กลุ่มตัวอย่างเท่าๆ กัน ในรอบที่ 1
          จะใช้ 3 กลุ่มแรกสำหรับการฝึกและกลุ่มสุดท้าย
          ใช้สำหรับการทดสอบ ในรอบที่ 2 2 กลุ่มแรกและรอบสุดท้าย
          กลุ่มที่ใช้สำหรับการฝึก ส่วนกลุ่มที่ 3 ใช้สำหรับ
          การทดสอบ ในรอบที่ 3 กลุ่มแรกและ 2 กลุ่มสุดท้ายคือ
          ใช้ในการฝึก ส่วนกลุ่มที่สองใช้สำหรับการทดสอบ
          ในรอบที่ 4 กลุ่มแรกจะใช้สำหรับการทดสอบ ขณะที่รอบสุดท้าย
          จะใช้เพียง 3 กลุ่มสำหรับการฝึก

เช่น ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (MSE) อาจ เป็นเมตริกที่มีความหมายมากที่สุดสำหรับโมเดลการถดถอยเชิงเส้น ดังนั้นคุณจึง จะค้นหาค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของ MSE จากทั้ง 4 รอบ

K-means

#clustering

อัลกอริทึม clustering ยอดนิยมที่จัดกลุ่มตัวอย่าง ในการเรียนรู้แบบไม่มีการควบคุมดูแล โดยทั่วไปแล้ว อัลกอริทึม k-means จะทำสิ่งต่อไปนี้

  • พิจารณาจุดศูนย์กลางที่ดีที่สุด (K Center Point) ที่ดีที่สุดอย่างสม่ำเสมอ เป็น เซนทรอยด์)
  • กำหนดแต่ละตัวอย่างให้กับเซนทรอยด์ที่ใกล้ที่สุด ตัวอย่างซึ่งอยู่ใกล้ที่สุด เซนทรอยด์เดียวกันอยู่ในกลุ่มเดียวกัน

อัลกอริทึม K-means จะเลือกตำแหน่งเซนทรอยด์เพื่อลดการสะสมให้เหลือน้อยที่สุด สี่เหลี่ยมจัตุรัสของระยะทางจากแต่ละตัวอย่างถึงจุดศูนย์กลางที่ใกล้ที่สุด

ตัวอย่างเช่น ลองพิจารณาแผนภาพความสูงสุนัขเทียบกับความกว้างของสุนัขต่อไปนี้

พล็อตคาร์ทีเซียนที่มีจุดข้อมูลหลายสิบจุด

ถ้า k=3 อัลกอริทึม k-means จะกำหนดเซนทรอยด์ 3 เซนทรอยด์ ตัวอย่างแต่ละรายการ จะกำหนดให้เซนทรอยด์ที่ใกล้ที่สุดและได้ผลลัพธ์ 3 กลุ่มคือ

พล็อตคาร์ทีเซียนเดียวกับในภาพประกอบก่อนหน้า ยกเว้น
          โดยเพิ่มเซนทรอยด์ 3 จุด
          จุดข้อมูลก่อนหน้านี้แบ่งออกเป็น 3 กลุ่มที่แตกต่างกัน
          โดยแต่ละกลุ่มจะแสดงจุดข้อมูลที่อยู่ใกล้กับ
          เซนทรอยด์

สมมติว่าผู้ผลิตรายหนึ่งต้องการกำหนดขนาดที่เหมาะกับขนาดเล็ก เสื้อสเวตเตอร์ขนาดกลางและขนาดใหญ่สำหรับสุนัข จุดศูนย์กลาง 3 จุดจะระบุค่าเฉลี่ย ความสูงและความกว้างเฉลี่ยของสุนัขแต่ละตัวในกลุ่มนั้น ดังนั้น ผู้ผลิต ก็ควรจะมีขนาดเสื้อสเวตเตอร์อยู่ที่บริเวณเซนทรอยด์ทั้ง 3 จุดนั้น โปรดทราบว่า โดยทั่วไปเซนทรอยด์ของคลัสเตอร์จะไม่ใช่ตัวอย่างในคลัสเตอร์

ภาพประกอบก่อนหน้าแสดง k-mean สำหรับตัวอย่างที่มีเฉพาะ คุณลักษณะ 2 ประการ (ความสูงและความกว้าง) โปรดทราบว่า k-means สามารถจัดกลุ่มตัวอย่างได้ ผ่านฟีเจอร์มากมาย

มัธยฐาน k

#clustering

อัลกอริทึมการจัดกลุ่มเกี่ยวข้องอย่างใกล้ชิดกับ k-means ความแตกต่างในทางปฏิบัติระหว่างทั้ง 2 แบบมีดังนี้

  • ใน k-mean เซนทรอยด์จะกําหนดโดยการลดผลรวมของค่า สี่เหลี่ยมจัตุรัสของระยะห่างระหว่างตัวเลือกเซนทรอยด์กับแต่ละจุด ตัวอย่าง
  • ในค่ามัธยฐาน k เซนทรอยด์จะกําหนดโดยการลดผลรวมของค่า ระยะห่างระหว่างตัวเลือกเซนทรอยด์และตัวอย่างแต่ละรายการ

โปรดทราบว่าคำจำกัดความของระยะทางก็แตกต่างกันดังนี้

  • k-means ต้องอาศัย ระยะทางแบบยุคลิดจาก เซนทรอยด์ไปยังตัวอย่าง (ใน 2 มิติ ยุคลิด ระยะทาง หมายถึง การใช้ทฤษฎีบทพีทาโกรัสเพื่อคำนวณ ด้านตรงข้ามมุมฉาก) เช่น ระยะทาง k หมายถึงระหว่าง (2,2) และ (5,-2) จะเป็น
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • ค่ามัธยฐาน k อาศัย ระยะทางในแมนฮัตตัน จากจุดศูนย์กลางไปยังตัวอย่าง ระยะทางนี้คือผลรวมของ สัมบูรณ์เดลต้าในแต่ละมิติข้อมูล เช่น ค่ามัธยฐาน k ระยะทางระหว่าง (2,2) และ (5,-2) จะเท่ากับ
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

การกำหนดกฎ L0

#fundamentals

การเปลี่ยนรูปแบบปกติประเภทหนึ่งที่ ลงโทษจำนวนทั้งหมดของน้ำหนักที่ไม่ใช่ 0 โมเดล ตัวอย่างเช่น โมเดลที่มีน้ำหนักที่ไม่ใช่ 0 เท่ากับ 11 จะถูกลงโทษมากกว่าโมเดลที่คล้ายกันที่มีน้ำหนัก 10 หน่วย

บางครั้งการกำหนดกฎ L0 จะเรียกว่าการกำหนดมาตรฐาน L0-norm

L1 แพ้

#fundamentals

ฟังก์ชันการขาดหายที่คำนวณค่าสัมบูรณ์ ของความแตกต่างระหว่างค่า label จริงกับ ค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น นี่คือ การคำนวณหาการขาดทุน L1 สำหรับกลุ่ม 1 จาก 5 ตัวอย่าง

มูลค่าที่แท้จริงของตัวอย่าง ค่าที่คาดการณ์ไว้ของโมเดล ค่าสัมบูรณ์ของเดลต้า
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 แพ้

การขาดทุน L1 มีความไวต่อค่าผิดปกติน้อยกว่า มากกว่า L2 ที่สูญเสียไป

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์เป็นค่าเฉลี่ย L1 การสูญเสียต่อตัวอย่าง

การกำหนดกฎ L1

#fundamentals

การจำกัดเนื้อหาประเภทหนึ่งที่ให้โทษ น้ำหนักตามสัดส่วนของผลรวมของค่าสัมบูรณ์ของ ยกน้ำหนัก การกำหนดมาตรฐาน L1 ช่วยเพิ่มน้ำหนักของ หรือฟีเจอร์แทบจะไม่เกี่ยวข้องกับค่า 0 ฟีเจอร์ที่มี น้ำหนักที่เป็น 0 จะถูกลบออกจากโมเดลอย่างถูกต้อง

คอนทราสต์กับการกำหนดมาตรฐาน L2

L2 แพ้

#fundamentals

ฟังก์ชันการขาดหาย ที่ใช้คำนวณกำลังสอง ของความแตกต่างระหว่างค่า label จริงกับ ค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น นี่คือ การคำนวณการขาดทุน L2 สำหรับกลุ่ม 1 จาก 5 ตัวอย่าง

มูลค่าที่แท้จริงของตัวอย่าง ค่าที่คาดการณ์ไว้ของโมเดล สี่เหลี่ยมจัตุรัสของเดลต้า
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 แพ้

เนื่องจากการยกกำลังสองจะทำให้การสูญเสีย L2 ขยายผลของ ค่าผิดปกติ กล่าวคือ การแพ้ L2 จะตอบสนองต่อการคาดการณ์ที่ไม่ดีได้มากกว่า การลดลงของ L1 เช่น การขาดทุน L1 สำหรับชุดก่อนหน้าจะเป็น 8 แทนที่จะเป็น 16 โปรดสังเกตว่า บัญชี Outlier มีค่าเป็น 9 จาก 16 รายการ

โมเดลการถดถอยมักจะใช้การสูญเสีย L2 เป็นฟังก์ชันการสูญเสีย

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง คือค่าเฉลี่ย L2 การสูญเสียต่อตัวอย่าง การสูญเสียแบบแบ่งเป็นสองส่วนเป็นอีกชื่อหนึ่งของการสูญเสียแบบ L2

การกำหนดกฎ L2

#fundamentals

การจำกัดเนื้อหาประเภทหนึ่งที่ให้โทษ น้ำหนักตามสัดส่วนของผลรวมของสี่เหลี่ยมจัตุรัสของน้ำหนัก การกำหนดมาตรฐาน L2 จะช่วยดึงน้ำหนักค่าผิดปกติ (ค่าผิดปกติ ที่มีค่าบวกสูงหรือค่าลบต่ำ) ใกล้เคียง 0 แต่ไม่ใช่ 0 ฟีเจอร์ที่มีค่าเข้าใกล้ 0 มากจะยังคงอยู่ในโมเดล แต่จะไม่มีผลต่อการคาดการณ์ของโมเดลมากนัก

การกำหนดกฎ L2 จะปรับปรุงการสรุปแบบกว้างๆ เสมอ รูปแบบเชิงเส้น

คอนทราสต์กับการกำหนดมาตรฐาน L1

ป้ายกำกับ

#fundamentals

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล "รับสาย" หรือ "ผลลัพธ์" ของตัวอย่าง

ตัวอย่างที่ติดป้ายกำกับแต่ละรายการประกอบด้วย features และป้ายกำกับ เช่น ในสแปม ชุดข้อมูลการตรวจจับ ป้ายกำกับอาจเป็น "สแปม" หรือ "ไม่ใช่สแปม" ในชุดข้อมูลปริมาณฝน ป้ายกำกับอาจเป็นปริมาณ ที่ตกลงเป็นระยะเวลาหนึ่ง

ตัวอย่างที่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์อย่างน้อย 1 รายการและ label ตัวอย่างเช่น ตารางต่อไปนี้จะแสดง ตัวอย่างที่มีป้ายกำกับจากแบบจำลองการประเมินราคาบ้าน โดยแต่ละแบบจะมีคุณลักษณะ 3 อย่าง และป้ายกำกับ 1 รายการ:

จำนวนห้องนอน จำนวนห้องน้ำ อายุบ้าน ราคาบ้าน (ป้ายกำกับ)
3 2 15 10,350,000 บาท
2 1 72 179,000 ดอลลาร์
4 2 34 10,800,000 บาท

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกบนตัวอย่างที่ติดป้ายกำกับแล้วและทำการคาดการณ์ ตัวอย่างที่ไม่มีป้ายกำกับ

เปรียบเทียบตัวอย่างที่มีป้ายกำกับกับตัวอย่างที่ไม่มีป้ายกำกับ

การรั่วไหลของป้ายกำกับ

ข้อบกพร่องในการออกแบบโมเดลซึ่งมีฟีเจอร์เป็นพร็อกซีสำหรับ label ตัวอย่างเช่น ลองพิจารณา โมเดลการจัดประเภทแบบไบนารีที่คาดการณ์ ผู้มีโอกาสเป็นลูกค้าจะซื้อผลิตภัณฑ์หนึ่งๆ หรือไม่ สมมติว่าหนึ่งในคุณลักษณะของโมเดลคือบูลีนชื่อ SpokeToCustomerAgent นอกจากนี้ สมมติว่าตัวแทนของลูกค้า ได้รับมอบหมายหลังจากที่ผู้มีโอกาสเป็นลูกค้าได้ซื้อ ผลิตภัณฑ์ ระหว่างการฝึก โมเดลจะเรียนรู้การเชื่อมโยงอย่างรวดเร็ว ระหว่าง SpokeToCustomerAgent และป้ายกำกับ

แลมบ์ดา

#fundamentals

คำพ้องความหมายของอัตราการทำให้เป็นมาตรฐาน

แลมบ์ดาเป็นคำที่บรรจบกันมากเกินไป ในที่นี้เราจะเน้นที่ ภายในการกำหนดรูปแบบ

LaMDA (โมเดลภาษาสำหรับแอปพลิเคชันด้านการสนทนา)

#language

เกมจากTransformer โมเดลภาษาขนาดใหญ่ที่พัฒนาโดย Google ผ่านการฝึกอบรมเกี่ยวกับ ชุดข้อมูลการสนทนาขนาดใหญ่ที่สามารถสร้างการตอบกลับแบบสนทนาที่สมจริง

LaMDA: การสนทนาเกี่ยวกับความสำเร็จของเรา เทคโนโลยีจะให้ภาพรวม

จุดสังเกต

#image

คำพ้องความหมายของ keypoints

โมเดลภาษา

#language

โมเดลที่ประมาณความน่าจะเป็นของโทเค็น หรือลำดับโทเค็นที่เกิดขึ้นตามลำดับของโทเค็นที่ยาวกว่า

โมเดลภาษาขนาดใหญ่

#language

อย่างน้อยที่สุด โมเดลภาษาที่มีตัวเลขสูงมาก ของพารามิเตอร์ โมเดลภาษาแบบ Transformer เช่น Gemini หรือ GPT

พื้นที่แฝง

#language

คำพ้องความหมายของ การฝังพื้นที่

เลเยอร์

#fundamentals

ชุดเซลล์ประสาทใน โครงข่ายระบบประสาทเทียม เลเยอร์ทั่วไป 3 ประเภท ดังนี้

ตัวอย่างเช่น ภาพประกอบต่อไปนี้แสดงโครงข่ายระบบประสาทเทียมที่มี เลเยอร์อินพุต 1 เลเยอร์ เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต 1 ชั้น เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์อีก 1 ชั้น
          เลเยอร์เอาต์พุต เลเยอร์อินพุตประกอบด้วย 2 ฟีเจอร์ แท็ก
          เลเยอร์ที่ซ่อนอยู่ประกอบด้วยเซลล์ประสาท 3 เซลล์และเลเยอร์ที่ซ่อนอยู่อีกชั้นหนึ่ง
          ประกอบด้วยเซลล์ประสาท 2 เซลล์ เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

ใน TensorFlow เลเยอร์ยังเป็นฟังก์ชัน Python ที่ใช้เวลา Tensors และตัวเลือกการกำหนดค่าเป็นอินพุตและ สร้าง Tensor อื่นๆ เป็นเอาต์พุต

Layer API (tf.layers)

#TensorFlow

TensorFlow API สำหรับสร้างโครงข่ายระบบประสาทเทียมระดับลึก เป็นองค์ประกอบของเลเยอร์ API เลเยอร์ช่วยให้คุณสร้าง เลเยอร์ประเภทต่างๆ เช่น

dataLayer API จะเป็นไปตามรูปแบบ API ของเลเยอร์ของ Keras กล่าวคือนอกเหนือจากคํานําหน้าที่แตกต่างกันแล้ว ฟังก์ชันทั้งหมดใน Layers API มีชื่อและลายเซ็นเหมือนคู่หูใน Keras API เลเยอร์

ใบไม้

#df

ปลายทางใดก็ตามในแผนผังการตัดสินใจ เลิกชอบ condition ใบไม้ไม่ทำการทดสอบ แต่ใบไม้เป็นการคาดการณ์ที่เป็นไปได้ Leaf ก็เป็นเทอร์มินัลด้วย โหนดของเส้นทางการอนุมาน

ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้มีใบ 3 ใบ

แผนผังการตัดสินใจที่มี 2 เงื่อนไขซึ่งนำไปสู่ 3 ใบ

เครื่องมือตีความการเรียนรู้ (LIT)

เครื่องมือการทำความเข้าใจโมเดลและการแสดงข้อมูลผ่านภาพแบบอินเทอร์แอกทีฟ

คุณใช้ LIT แบบโอเพนซอร์สเพื่อ ตีความโมเดลหรือแสดงภาพข้อความ รูปภาพ และ ข้อมูลแบบตาราง

อัตราการเรียนรู้

#fundamentals

จำนวนจุดลอยตัวที่บอกการไล่ระดับสี อัลกอริทึมอย่างหนักในการปรับน้ำหนักและน้ำหนักของ การปรับปรุงซ้ำ เช่น อัตราการเรียนรู้ที่ 0.3 ปรับน้ำหนักและน้ำหนักพิเศษได้มากกว่าอัตราการเรียนรู้ถึง 3 เท่า 0.1

อัตราการเรียนรู้คือพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่สำคัญ หากตั้งค่าไว้ อัตราการเรียนรู้ต่ำเกินไป การฝึกจะใช้เวลานานเกินไป ถ้า คุณตั้งค่าอัตราการเรียนรู้สูงเกินไป การไล่ระดับสีมักมีปัญหา ที่จะถึงการสนทนา

การถดถอยกำลังสองน้อยที่สุด

โมเดลการถดถอยเชิงเส้นที่ได้รับการฝึกโดยการลด การสูญเสียสิทธิ์ L2

เชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่สามารถแทนค่าได้เพียงอย่างเดียว ผ่านการบวกและการคูณ

พล็อตความสัมพันธ์เชิงเส้นคือเส้น

ตัดกับnonlinear

รูปแบบเชิงเส้น

#fundamentals

โมเดลที่กำหนดน้ำหนัก 1 รายการต่อ featureเพื่อสร้างการคาดการณ์ (รูปแบบเชิงเส้นมีอคติด้วย) ในทางตรงกันข้าม ความสัมพันธ์ของฟีเจอร์กับการคาดการณ์ในโมเดลเชิงลึก มักเป็นnonlinear

โดยปกติแล้วรูปแบบเชิงเส้นจะง่ายต่อการฝึกและอื่นๆ ที่ตีความได้มากกว่าโมเดลเชิงลึก อย่างไรก็ตาม โมเดลเชิงลึกสามารถเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างฟีเจอร์ต่างๆ ได้

การถดถอยเชิงเส้นและ การถดถอยแบบโลจิสติกคือโมเดลเชิงเส้น 2 ประเภท

การถดถอยเชิงเส้น

#fundamentals

โมเดลแมชชีนเลิร์นนิงประเภทหนึ่งที่ทั้ง 2 เงื่อนไขต่อไปนี้เป็นจริง

เปรียบเทียบการถดถอยเชิงเส้นกับการถดถอยแบบโลจิสติก นอกจากนี้ยังเปรียบเทียบการถดถอยกับการแยกประเภทด้วย

LIT

ตัวย่อสำหรับ Learning Interpretability Tool (LIT), ซึ่งก่อนหน้านี้เรียกว่าเครื่องมือแปลความหมายภาษา

LLM

#language
#generativeAI

ตัวย่อของโมเดลภาษาขนาดใหญ่

การประเมิน LLM (การประเมิน)

#language
#generativeAI

ชุดของเมตริกและการเปรียบเทียบสำหรับการประเมินประสิทธิภาพของ โมเดลภาษาขนาดใหญ่ (LLM) ในระดับสูง การประเมิน LLM:

  • ช่วยนักวิจัยระบุจุดที่ต้องปรับปรุง LLM
  • มีประโยชน์ในการเปรียบเทียบ LLM ต่างๆ และระบุ LLM ที่ดีที่สุดสำหรับ งานนั้นๆ โดยเฉพาะ
  • ช่วยให้มั่นใจได้ว่า LLM มีความปลอดภัยและมีจรรยาบรรณในการใช้งาน
วันที่

การถดถอยแบบโลจิสติก

#fundamentals

ประเภทหนึ่งของโมเดลการถดถอยซึ่งคาดการณ์ความน่าจะเป็น โมเดลการถดถอยแบบโลจิสติกส์มีลักษณะดังต่อไปนี้

  • ป้ายกำกับเป็นหมวดหมู่ คำว่าโลจิสติก การถดถอยมักจะหมายถึงการถดถอยแบบโลจิสติกแบบไบนารี ซึ่งก็คือ เป็นโมเดลที่คำนวณความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้ 2 ค่า ระบบจะคำนวณตัวแปรที่พบน้อยกว่า การถดถอยแบบโลจิสติกแบบพหุนาม ความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า
  • ฟังก์ชันการสูญหายระหว่างการฝึกคือ บันทึกการสูญหาย (คุณสามารถวางหน่วยการสูญหายของบันทึกหลายหน่วยพร้อมกันสำหรับป้ายกำกับ ด้วยค่าที่เป็นไปได้มากกว่า 2 ค่า)
  • โมเดลนี้มีสถาปัตยกรรมเชิงเส้น ไม่ใช่โครงข่ายระบบประสาทเทียมระดับลึก อย่างไรก็ตาม ส่วนที่เหลือของคำจำกัดความนี้ยังมีผลกับ แบบจำลองความลึกที่คาดการณ์ความน่าจะเป็น สำหรับป้ายกำกับเชิงหมวดหมู่

ตัวอย่างเช่น ลองพิจารณาโมเดลการถดถอยแบบโลจิสติกที่คำนวณค่า ความเป็นไปได้ที่อีเมลอินพุตจะเป็นสแปมหรือไม่ใช่สแปม ระหว่างการอนุมาน สมมติว่าโมเดลคาดการณ์ 0.72 ดังนั้น ฟิลด์ กำลังประเมินโมเดล:

  • มีโอกาส 72% ที่อีเมลจะเป็นสแปม
  • มีโอกาส 28% ที่อีเมลจะไม่เป็นสแปม

โมเดลการถดถอยแบบโลจิสติกใช้สถาปัตยกรรม 2 ขั้นตอนต่อไปนี้

  1. โมเดลสร้างการคาดการณ์ดิบ (y') โดยใช้ฟังก์ชันเชิงเส้น ของฟีเจอร์อินพุต
  2. โมเดลใช้การคาดการณ์ดิบนั้นเป็นอินพุตของ ฟังก์ชัน sigmoid ซึ่งแปลงข้อมูลดิบ เป็นค่าระหว่าง 0 ถึง 1 เท่านั้น

โมเดลการถดถอยแบบโลจิสติกจะคาดการณ์จำนวนเช่นเดียวกับโมเดลการถดถอยอื่นๆ อย่างไรก็ตาม ตัวเลขนี้มักจะเป็นส่วนหนึ่งของการจัดประเภทแบบไบนารี ดังนี้

  • หากจำนวนที่คาดการณ์มากกว่า เกณฑ์การแยกประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสบวก
  • หากจำนวนที่คาดการณ์น้อยกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสลบ

Logits

เวกเตอร์ของการคาดการณ์ดิบ (ไม่ใช่ค่ามาตรฐาน) ที่การแยกประเภท โมเดลที่สร้างขึ้น ซึ่งโดยทั่วไปจะส่งต่อไปเป็นฟังก์ชันการทำให้เป็นมาตรฐาน หากโมเดลกำลังแก้โจทย์การจัดประเภทแบบหลายคลาส ลอจิตมักจะเป็นอินพุตของข้อมูล softmax จากนั้นฟังก์ชัน softmax จะสร้างเวกเตอร์ของ (ทำให้เป็นมาตรฐาน) ความน่าจะเป็นที่มีค่า 1 ค่าสำหรับแต่ละคลาสที่เป็นไปได้

การสูญหายของบันทึก

#fundamentals

ฟังก์ชัน Loss ที่ใช้ในไบนารี การถดถอยแบบโลจิสติกส์

อัตราต่อรองลอการิทึม

#fundamentals

ลอการิทึมของความน่าจะเป็นของเหตุการณ์บางอย่าง

หน่วยความจำระยะสั้น (LSTM)

#seq

ประเภทของเซลล์ใน ใช้โครงข่ายระบบประสาทเทียมแบบเกิดซ้ำเพื่อประมวลผล ลำดับของข้อมูลในแอปพลิเคชันต่างๆ เช่น การจดจำลายมือ เครื่องคอมพิวเตอร์ การแปล และคำอธิบายภาพ LSTMs จัดการกับ ปัญหาการไล่ระดับสีที่หายไปซึ่งเกิดขึ้นเมื่อ การฝึก RNN เนื่องจากมีลำดับข้อมูลที่ใช้เวลานานด้วยการเก็บประวัติใน สถานะหน่วยความจำภายในอิงตามอินพุตใหม่และบริบทจากเซลล์ก่อนหน้า ใน RNN

LoRA

#language
#generativeAI

ตัวย่อของความสามารถในการปรับตัวระดับต่ำ

แพ้

#fundamentals

ระหว่างการฝึกของ รูปแบบที่มีการควบคุมดูแล ซึ่งเป็นการวัดระยะทาง การคาดคะเนของโมเดลมาจากป้ายกำกับของโมเดล

ฟังก์ชันการสูญเสียจะคำนวณการสูญเสีย

ผู้รวบรวมข้อมูลการสูญเสีย

อัลกอริทึมประเภทหนึ่งของแมชชีนเลิร์นนิงที่ ปรับปรุงประสิทธิภาพของโมเดล ด้วยการรวมการคาดคะเนของหลายๆ โมเดลและ โดยใช้การคาดการณ์เหล่านั้นเพื่อสร้างการคาดคะเนรายการเดียว ด้วยเหตุนี้ ผู้รวบรวมข้อมูลการสูญเสียสามารถลดความแปรปรวนของการคาดการณ์และ ปรับปรุงความแม่นยําของการคาดการณ์

กราฟแบบสูญเสียบางส่วน

#fundamentals

พล็อต loss ซึ่งเป็นฟังก์ชันของจำนวนการฝึก การทำซ้ำ พล็อตต่อไปนี้แสดงการขาดทุนโดยทั่วไป เส้นโค้ง:

กราฟคาร์ทีเซียนของการสูญเสียเทียบกับการทำซ้ำการฝึก แสดง
          การลดลงอย่างรวดเร็วในการทำซ้ำในช่วงแรก ตามด้วยการค่อยๆ เปลี่ยน
          แล้วมีความลาดชันแบบแบนราบในช่วงการทำซ้ำครั้งสุดท้าย

กราฟโค้งมนจะช่วยบอกได้ว่าโมเดลของคุณกำลัง การสนทนาหรือการปรับมากเกินไป

เส้นโค้งการสูญเสียสามารถพล็อตค่าความสูญเสียทุกประเภทต่อไปนี้

โปรดดูกราฟทั่วไปด้วย

ฟังก์ชันการสูญเสียผู้ใช้

#fundamentals

ในระหว่างการฝึกอบรมหรือการทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่ใช้คำนวณ การสูญเสียไปกับตัวอย่างกลุ่ม ฟังก์ชันการสูญเสียการแสดงผลจะสูญเสียค่าที่ต่ำกว่า สำหรับโมเดลที่สามารถคาดการณ์ได้ดีกว่าโมเดลที่มี การคาดคะเนที่ไม่ดี

โดยทั่วไปเป้าหมายของการฝึกคือเพื่อลดการสูญเสียความสามารถในการทำงาน ที่เกินออกมา

มีฟังก์ชันการสูญเสียการใช้งานหลายประเภท เลือกการสูญเสียที่เหมาะสม สำหรับประเภทโมเดลที่คุณกำลังสร้าง เช่น

แพลตฟอร์มการสูญเสียพื้นที่

กราฟแสดงน้ำหนักกับการสูญเสีย การไล่ระดับสีมุ่ง เพื่อหาน้ำหนักที่พื้นที่สูญเสียค่าต่ำสุดในพื้นที่

ความสามารถในการปรับตัวระดับต่ำ (LoRA)

#language
#generativeAI

อัลกอริทึมสำหรับการแสดง การปรับแต่งประสิทธิภาพพารามิเตอร์ที่ ปรับแต่งเฉพาะชุดย่อยของ พารามิเตอร์ของโมเดลภาษาขนาดใหญ่ LoRA มีประโยชน์ดังนี้

  • การปรับแต่งเร็วกว่าเทคนิคที่ต้องปรับแต่งโมเดลทั้งหมดอย่างละเอียด พารามิเตอร์
  • ลดต้นทุนการคำนวณของการอนุมานใน โมเดลที่ปรับแต่งแล้ว

โมเดลที่ปรับแต่งด้วย LoRA จะรักษาหรือปรับปรุงคุณภาพของการคาดการณ์

LoRA จะเปิดใช้เวอร์ชันพิเศษที่หลากหลายของโมเดล

LSTM

#seq

ตัวย่อของหน่วยความจำระยะสั้น

M

แมชชีนเลิร์นนิง

#fundamentals

โปรแกรมหรือระบบที่ฝึก model จากข้อมูลอินพุต โมเดลที่ผ่านการฝึกจะทำสิ่งต่อไปนี้ได้ ทำการคาดคะเนที่เป็นประโยชน์จากข้อมูลใหม่ (ที่ไม่เคยเห็น) ที่มาจาก การกระจายเดียวกับที่ใช้ในการฝึกโมเดล

แมชชีนเลิร์นนิงหมายถึงสาขาวิชาที่เกี่ยวข้องด้วยเช่นกัน โปรแกรมหรือระบบเหล่านี้

ชนกลุ่มใหญ่

#fundamentals

ยิ่งป้ายกำกับที่ใช้กันทั่วไปใน ชุดข้อมูลที่ไม่สมดุลกัน ตัวอย่างเช่น สำหรับชุดข้อมูลที่มีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงลบเป็นประเภทหลัก

คอนทราสต์กับชนกลุ่มน้อย

กระบวนการตัดสินใจของ Markov (MDP)

#rl

กราฟแสดงรูปแบบการตัดสินใจที่มีการตัดสินใจ (หรือการดำเนินการ) จะใช้ในการไปยังลำดับ รัฐ ภายใต้สมมติฐานที่ว่า การคงไว้ชั่วคราวในพร็อพเพอร์ตี้ Markov ใน การเรียนรู้แบบเสริมกำลัง การเปลี่ยนแปลงเหล่านี้ ระหว่างรัฐจะแสดงรางวัลที่เป็นตัวเลข

พร็อพเพอร์ตี้ของมาร์คอฟ

#rl

พร็อพเพอร์ตี้ของสภาพแวดล้อมบางอย่าง โดยที่สถานะ การเปลี่ยนแปลงจะกำหนดโดยข้อมูลที่โดยนัยใน สถานะปัจจุบันและการดำเนินการของตัวแทน

โมเดลภาษามาสก์

#language

โมเดลภาษาที่คาดการณ์ความน่าจะเป็นของ โทเค็นของผู้สมัครเพื่อเติมในช่องว่างตามลำดับ ตัวอย่างเช่น โมเดลภาษามาสก์สามารถคำนวณความน่าจะเป็นของคำที่รอการพิจารณา เพื่อแทนที่เส้นใต้ในประโยคต่อไปนี้

____ ในหมวกก็กลับมา

โดยปกติแล้ว วรรณกรรมจะใช้สตริง "MASK" แทนเส้นใต้ เช่น

"MASK" ที่ใส่หมวกกลับมา

โมเดลภาษาที่มีการมาสก์สมัยใหม่ส่วนใหญ่จะเป็นแบบ2 ทิศทาง

Matplotlib

ไลบรารีการพล็อต Python 2D แบบโอเพนซอร์ส matplotlib ช่วยคุณเห็นภาพ ในแง่มุมต่างๆ ของแมชชีนเลิร์นนิง

การแยกตัวประกอบเมทริกซ์

#recsystems

ในทางคณิตศาสตร์ กลไกในการหาเมทริกซ์ที่ผลคูณของจุดมีค่าโดยประมาณ เมทริกซ์เป้าหมาย

ในระบบการแนะนำ เมทริกซ์เป้าหมาย ที่ระงับผู้ใช้ไว้ การให้คะแนนใน items ตัวอย่างเช่น เป้าหมาย สำหรับระบบการแนะนำภาพยนตร์ อาจมีลักษณะดังนี้ ต่อท้าย โดยที่จำนวนเต็มบวกคือการให้คะแนนของผู้ใช้และ 0 หมายความว่าผู้ใช้ไม่ได้ให้คะแนนภาพยนตร์

  คาสซาบลางกา เรื่องราวของฟิลาเดลเฟีย แบล็ค แพนเธอร์ (Black Panther) ผู้หญิงมหัศจรรย์ นิยายเกี่ยวกับเนื้อเรื่อง
ผู้ใช้ 1 5.0 3.0 0.0 2.0 0.0
ผู้ใช้ 2 4.0 0.0 0.0 1.0 5.0
ผู้ใช้ 3 3.0 1.0 4.0 5.0 0.0

ระบบการแนะนำภาพยนตร์นี้มีวัตถุประสงค์เพื่อคาดการณ์การให้คะแนนของผู้ใช้สำหรับ ภาพยนตร์ที่ไม่มีการจัดประเภท เช่น ผู้ใช้ 1 จะชอบ Black Panther ไหม

แนวทางหนึ่งสำหรับระบบการแนะนำคือการใช้เมทริกซ์ การแยกตัวประกอบเพื่อสร้างเมทริกซ์ 2 รายการต่อไปนี้

ตัวอย่างเช่น การใช้การแยกตัวประกอบเมทริกซ์กับผู้ใช้ 3 รายและ 5 รายการของเรา อาจแสดงผลเมทริกซ์ผู้ใช้และเมทริกซ์รายการดังต่อไปนี้

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

ผลคูณของจุดของเมทริกซ์ผู้ใช้และเมทริกซ์รายการจะแสดงคำแนะนำ เมทริกซ์ที่ไม่เพียงมีการให้คะแนนของผู้ใช้ดั้งเดิมเท่านั้น แต่ยังรวมถึงการคาดการณ์ สำหรับภาพยนตร์ที่ผู้ใช้แต่ละรายไม่ได้ดู เช่น ลองพิจารณาคะแนน Casablanca จากผู้ใช้ 1 ซึ่งเท่ากับ 5.0 จุด ของผลิตภัณฑ์ที่เกี่ยวข้องกับเซลล์นั้นในเมทริกซ์คำแนะนำ หวังว่าจะอยู่ที่ราวๆ 5.0 และก็

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

ยิ่งไปกว่านั้น ผู้ใช้ 1 จะชอบ Black Panther ไหม การหาผลคูณ แถวแรกและคอลัมน์ที่ 3 แสดงค่าที่คาดการณ์ คะแนน 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

การแยกตัวประกอบเมทริกซ์มักให้เมทริกซ์ผู้ใช้และเมทริกซ์รายการ รวมกันแล้วมีขนาดกะทัดรัดมากกว่าเมทริกซ์เป้าหมายอย่างมาก

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ (MAE)

การสูญเสียเฉลี่ยต่อตัวอย่างเมื่อการสูญหายของ L1 คือ คำนวณค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ดังนี้

  1. คำนวณการขาดทุน L1 ของแบทช์
  2. หารค่าสูญเสีย L1 ด้วยจำนวนตัวอย่างในกลุ่ม

ตัวอย่างเช่น ลองพิจารณาการคำนวณการขาดทุน L1 ใน กลุ่มตัวอย่าง 5 ตัวอย่างต่อไปนี้

มูลค่าที่แท้จริงของตัวอย่าง ค่าที่คาดการณ์ไว้ของโมเดล การสูญเสีย (ความแตกต่างระหว่างค่าจริงและที่คาดการณ์ไว้)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 แพ้

ดังนั้น L1 จึงเป็น 8 และจำนวนตัวอย่างคือ 5 ดังนั้น ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์จึงเป็นดังนี้

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ของคอนทราสต์กับข้อผิดพลาดค่าเฉลี่ยกำลังสอง และ ข้อผิดพลาดค่าเฉลี่ยกำลังสอง

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (MSE)

การสูญเสียเฉลี่ยต่อตัวอย่างเมื่อการขาดทุน L2 คือ คำนวณความคลาดเคลื่อนกำลังสองเฉลี่ยดังนี้

  1. คำนวณการขาดทุน L2 ของแบทช์
  2. หารค่า L2 ด้วยจำนวนตัวอย่างในกลุ่ม

ตัวอย่างเช่น พิจารณาการสูญเสียสำหรับกลุ่มตัวอย่าง 5 ข้อต่อไปนี้

มูลค่าที่แท้จริง การคาดการณ์ของโมเดล แพ้ แพ้ในสี่เหลี่ยม
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 แพ้

ดังนั้น ความคลาดเคลื่อนค่าเฉลี่ยกำลังสองคือ

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง คือเครื่องมือเพิ่มประสิทธิภาพการฝึกยอดนิยม โดยเฉพาะการถดถอยเชิงเส้น

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสองของคอนทราสต์กับ ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ และ ข้อผิดพลาดค่าเฉลี่ยกำลังสอง

TensorFlow Playground ใช้ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง เพื่อคำนวณค่าการสูญเสีย

Mesh

#TensorFlow
#GoogleCloud

ในการเขียนโปรแกรม ML ควบคู่กันไป เป็นคำศัพท์ที่เกี่ยวข้องกับการกำหนดข้อมูลและ ลงในชิป TPU และกำหนดวิธีการชาร์ดหรือจำลองค่าเหล่านี้

Mesh เป็นคำที่มีคนใช้งานหนักเกินไป ซึ่งอาจหมายถึงข้อใดข้อหนึ่งต่อไปนี้

  • เลย์เอาต์ทางกายภาพของชิป TPU
  • โครงสร้างเชิงตรรกะแบบนามธรรมสำหรับการแมปข้อมูลและโมเดลกับ TPU ชิป

ไม่ว่าในกรณีใดก็ตาม ตาข่ายจะถูกระบุเป็นรูปร่าง

การเรียนรู้เมตา

#language

ชุดย่อยของแมชชีนเลิร์นนิงที่ค้นพบหรือปรับปรุงอัลกอริทึมการเรียนรู้ ระบบการเรียนรู้เมตายังสามารถมุ่งฝึกโมเดลให้เรียนรู้ งานจากข้อมูลเล็กน้อยหรือจากประสบการณ์ที่ได้รับในงานก่อนหน้า โดยทั่วไป อัลกอริทึมของการเรียนรู้เมตาจะพยายามทำให้สำเร็จดังต่อไปนี้

  • ปรับปรุงหรือเรียนรู้ฟีเจอร์ที่ออกแบบเองด้วยมือ (เช่น โปรแกรมเริ่มต้นหรือ เครื่องมือเพิ่มประสิทธิภาพ)
  • ประหยัดข้อมูลและการประมวลผลได้มากขึ้น
  • ปรับปรุงการสรุป

การเรียนรู้เมตาเกี่ยวข้องกับการเรียนรู้เพียงสั้นๆ

เมตริก

#TensorFlow

สถิติที่คุณสนใจ

วัตถุประสงค์คือเมตริกที่ระบบแมชชีนเลิร์นนิง พยายามเพิ่มประสิทธิภาพ

Metrics API (tf.metrics)

TensorFlow API สำหรับการประเมินโมเดล เช่น tf.metrics.accuracy จะกำหนดความถี่ในการจับคู่การคาดการณ์ของโมเดล

มินิแบตช์

#fundamentals

ชุดย่อยขนาดเล็กที่เลือกแบบสุ่มของกลุ่มหนึ่งๆ จะประมวลผลใน 1 การปรับปรุงซ้ำ ขนาดกลุ่มของมินิแบตช์มักจะ 10-1,000 ตัวอย่าง

ตัวอย่างเช่น สมมติว่าชุดการฝึกทั้งชุด (ทั้งชุด) ประกอบด้วยตัวอย่าง 1,000 รายการ นอกจากนี้ สมมติว่าคุณตั้งค่า ขนาดกลุ่มของมินิแบตช์แต่ละชุดถึง 20 ดังนั้น แต่ละ การทำซ้ำจะพิจารณาการสูญเสียแบบสุ่มจำนวน 20 ตัวอย่างจาก 1,000 ตัวอย่างแล้ว จะปรับน้ำหนักและอคติให้เหมาะสม

การคำนวณความสูญเสียแบบมินิแบตช์จะมีประสิทธิภาพมากกว่า การสูญเสียสำหรับตัวอย่างทั้งหมดในแบตช์ทั้งหมด

การไล่ระดับสีแบบสโทแคสติกแบบมินิแบตช์

อัลกอริทึมการไล่ระดับสีที่ใช้ กลุ่มขนาดเล็ก กล่าวคือ มินิแบตช์ สตอกคาติก การไล่ระดับสีแบบไล่ระดับสีจะประมาณการไล่ระดับสีโดยดูจากค่าย่อยขนาดเล็กของ ข้อมูลการฝึกอบรม การไล่ระดับสีแบบสโตแคสติกปกติจะใช้ กลุ่มขนาดเล็กขนาด 1

Minimax สูญหาย

ฟังก์ชันการสูญหายสำหรับ เครือข่ายโฆษณาที่เป็นมิตรต่อสิ่งแวดล้อม ตามครอสเอนโทรปีระหว่างการกระจาย ทั้งข้อมูลที่สร้างขึ้นและข้อมูลจริง

มีการใช้การสูญเสียการติดตั้งขั้นต่ำใน บทความแรกในการอธิบาย เครือข่ายที่ไม่พึงประสงค์ที่สร้างขึ้น

ชนกลุ่มน้อย

#fundamentals

ป้ายกำกับที่มีการใช้งานน้อยกว่าใน ชุดข้อมูลที่ไม่สมดุลกัน ตัวอย่างเช่น สำหรับชุดข้อมูลที่มีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงบวกคือชนกลุ่มน้อย

คอนทราสต์กับคลาสส่วนใหญ่

ทั้งผู้เชี่ยวชาญ

#language
#generativeAI

แผนการเพิ่มประสิทธิภาพโครงข่ายระบบประสาทเทียมโดยใช้ โดยใช้เพียงชุดย่อยของพารามิเตอร์ (หรือเรียกว่าผู้เชี่ยวชาญ) เพื่อประมวลผล โทเค็นหรือตัวอย่างอินพุตหนึ่งๆ ต การกำหนดเครือข่ายจะกำหนดเส้นทางโทเค็นหรือตัวอย่างอินพุตแต่ละรายการให้กับผู้เชี่ยวชาญที่เหมาะสม

โปรดดูรายละเอียดได้จากบทความต่อไปนี้

ML

ตัวย่อของแมชชีนเลิร์นนิง

MMIT

#language
#image
#generativeAI

ตัวย่อสำหรับ มีการปรับแต่งการสอนหลายรูปแบบ

MNIST

#image

ชุดข้อมูลสาธารณสมบัติที่รวบรวมโดย LeCun, Cortes และ Burges ที่มี ภาพ 60,000 ภาพ แต่ละภาพแสดงให้เห็นว่ามนุษย์เขียน ตัวเลขตั้งแต่ 0-9 รูปภาพแต่ละรูปจะจัดเก็บเป็นจำนวนเต็ม 28x28 โดยที่ จำนวนเต็มแต่ละรายการจะมีค่าเป็นโทนสีเทาอยู่ระหว่าง 0 ถึง 255

MNIST คือชุดข้อมูล Canonical สำหรับแมชชีนเลิร์นนิง มักจะใช้เพื่อทดสอบ ของแมชชีนเลิร์นนิงจำนวนมาก โปรดดูรายละเอียดที่หัวข้อ MNIST Database of Handwrite Digits

รูปแบบ

#language

หมวดหมู่ข้อมูลระดับสูง เช่น ตัวเลข ข้อความ รูปภาพ วิดีโอ และ เสียงมีอยู่ด้วยกัน 5 วิธี

รุ่น

#fundamentals

โดยทั่วไปแล้ว โครงสร้างทางคณิตศาสตร์ใดๆ ที่ประมวลผลข้อมูลอินพุตและส่งกลับ เอาต์พุต มีการใช้วลีในรูปแบบที่แตกต่างกัน โมเดลคือชุดของพารามิเตอร์และโครงสร้าง ที่จำเป็นสำหรับระบบในการคาดการณ์ ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลใช้ตัวอย่างเป็นอินพุตและอนุมาน การคาดคะเนเป็นเอาต์พุต ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล รุ่นต่างๆ จะแตกต่างกันบ้าง เช่น

คุณสามารถบันทึก คืนค่า หรือทำสำเนาโมเดลได้

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลด้วย สร้างโมเดล ซึ่งโดยทั่วไปจะเป็นฟังก์ชันที่สามารถแมปตัวอย่างอินพุตกับ คลัสเตอร์ที่เหมาะสมที่สุด

ความจุโมเดล

ความซับซ้อนของโจทย์ที่โมเดลเรียนรู้ได้ ยิ่งมีความซับซ้อนมากเท่าใด ปัญหาที่โมเดลสามารถเรียนรู้ได้ ความจุของโมเดลก็จะยิ่งสูงขึ้น โมเดล ความจุมักจะเพิ่มขึ้นตามพารามิเตอร์โมเดล สำหรับ คำจำกัดความอย่างเป็นทางการของความจุของตัวแยกประเภท โปรดดู ขนาด VC

การต่อเรียงโมเดล

#generativeAI

ระบบที่เลือกโมเดลที่เหมาะสมสำหรับการอนุมานที่เฉพาะเจาะจง คำถาม

ลองนึกถึงกลุ่มโมเดล ซึ่งมีขนาดใหญ่มาก (จำนวนมาก parameters) ให้เล็กลงมาก (พารามิเตอร์น้อยกว่านี้มาก) โมเดลขนาดใหญ่มากจะใช้ทรัพยากรการคำนวณมากกว่า การอนุมานได้มากกว่าโมเดลขนาดเล็ก แต่ขนาดใหญ่มาก โดยทั่วไปโมเดลสามารถอนุมานคำขอที่ซับซ้อนกว่าโมเดลขนาดเล็กได้ การต่อเรียงโมเดลจะกำหนดความซับซ้อนของการค้นหาการอนุมาน จากนั้น จะเลือกโมเดลที่เหมาะสมในการดำเนินการอนุมาน แรงจูงใจหลักของการเรียงต่อโมเดลคือ การลดต้นทุนการอนุมานลง โดยมักจะเลือกโมเดลที่เล็กกว่า และเลือกเฉพาะโมเดลที่ใหญ่กว่า ที่ซับซ้อนขึ้น

ลองนึกภาพว่าโมเดลขนาดเล็กทำงานบนโทรศัพท์และรุ่นที่ใหญ่กว่าของรุ่นนั้น ทำงานบนเซิร์ฟเวอร์ระยะไกล การเรียงต่อโมเดลที่ดีจะลดต้นทุนและเวลาในการตอบสนองได้ ทำให้โมเดลขนาดเล็กสามารถจัดการคำของ่ายๆ และเรียกเฉพาะ สำหรับจัดการคำขอที่ซับซ้อน

ดูเพิ่มเติมได้ที่เราเตอร์โมเดล

การทำงานพร้อมกันของโมเดล

#language

วิธีปรับขนาดการฝึกหรือการอนุมานที่อิงจากส่วนต่างๆ ของการฝึก model ในอุปกรณ์ต่างๆ กัน การทำงานพร้อมกันของโมเดล จะเปิดใช้โมเดลที่ใหญ่เกินไปเพื่อให้พอดีกับอุปกรณ์ 1 เครื่อง

หากต้องการใช้โมเดลคู่ขนาน ระบบมักจะดำเนินการดังต่อไปนี้

  1. ชาร์ด (แบ่ง) โมเดลออกเป็นส่วนเล็กๆ
  2. กระจายการฝึกของชิ้นส่วนขนาดเล็กเหล่านั้นในโปรเซสเซอร์หลายตัว ตัวประมวลผลแต่ละตัวจะฝึกส่วนของโมเดลของตัวเอง
  3. รวมผลลัพธ์เพื่อสร้างรูปแบบเดียว

โมเดลคู่ขนานทำให้การฝึกช้าลง

โปรดดูเพิ่มเติมที่ข้อมูลที่ทำงานพร้อมกัน

เราเตอร์โมเดล

#generativeAI

อัลกอริทึมที่กำหนดโมเดลในอุดมคติ การอนุมานในแบบต่อเรียงซ้อน โดยทั่วไปแล้ว เราเตอร์โมเดลก็คือโมเดลแมชชีนเลิร์นนิง ค่อยๆ เรียนรู้เกี่ยวกับวิธีเลือกรูปแบบที่ดีที่สุดสำหรับอินพุตหนึ่งๆ แต่ในบางครั้งเราเตอร์โมเดลอาจง่ายกว่า ที่ไม่ใช่แมชชีนเลิร์นนิง

การฝึกโมเดล

กระบวนการเลือกโมเดลที่ดีที่สุด

สร้างกระแส

อัลกอริทึมการไล่ระดับสีแบบซับซ้อนซึ่งขั้นตอนการเรียนรู้จะขึ้นอยู่กับ ไม่เพียงในอนุพันธ์ในขั้นตอนปัจจุบันเท่านั้น แต่รวมถึงอนุพันธ์ด้วย ของขั้นตอนที่เกิดขึ้นก่อนหน้า โมเมนตัมเกี่ยวข้องกับการประมวลผล ค่าเฉลี่ยเคลื่อนที่แบบทวีคูณของการไล่ระดับสีในช่วงเวลาที่ผ่านมา คล้ายๆ กัน สู่โมเมนตัมในฟิสิกส์ ในบางครั้ง โมเมนตัมส่งผลให้ไม่สามารถเรียนรู้ ค้างอยู่ที่ตำแหน่งเล็กที่สุดในเครื่อง

MOE

#language
#image
#generativeAI

ตัวย่อของผู้เชี่ยวชาญแบบผสม

การจัดประเภทแบบหลายคลาส

#fundamentals

ในการเรียนรู้ที่มีการควบคุมดูแล ปัญหาเรื่องการแยกประเภท ที่ชุดข้อมูลมีป้ายกำกับมากกว่า 2 คลาส ตัวอย่างเช่น ป้ายกำกับในชุดข้อมูล Iris ต้องเป็นอย่างใดอย่างหนึ่งต่อไปนี้ 3 ชั้นเรียน ได้แก่

  • ไอริส เซโตซา
  • ดอกไอริสบริสุทธิ์
  • สีไอริส

โมเดลที่ได้รับการฝึกในชุดข้อมูล Iris ซึ่งคาดการณ์ประเภท Iris ในตัวอย่างใหม่ ทำการแยกประเภทแบบหลายคลาส

ในทางตรงกันข้าม ปัญหาการจำแนกที่จำแนกระหว่างปัญหาสองอย่าง คลาสเป็นโมเดลการจัดประเภทแบบไบนารี เช่น โมเดลอีเมลที่คาดคะเนสแปมหรือไม่ใช่สแปม เป็นโมเดลการจัดประเภทแบบไบนารี

ในโจทย์คลัสเตอร์ การจัดประเภทแบบหลายคลาสอ้างอิงข้อมูลมากกว่า 2 คลัสเตอร์

การถดถอยแบบโลจิสติกแบบหลายคลาส

การใช้การถดถอยแบบโลจิสติกใน ปัญหาการแยกประเภทแบบหลายคลาส

ความสนใจตนเองแบบหลายศีรษะ

#language

ส่วนขยายของการเอาใจใส่ตนเองที่ใช้ กลไกการทำงานด้วยตนเองหลายครั้งสำหรับแต่ละตำแหน่งในลำดับอินพุต

Transformers เปิดตัวความสนใจในตัวระบบแบบหลายหัว

โมเดลสื่อหลากรูปแบบ

#language

โมเดลที่มีอินพุตและ/หรือเอาต์พุตมีมากกว่า 1 รายการ วิธีการ ตัวอย่างเช่น ลองพิจารณาโมเดลที่นำทั้ง คำบรรยายรูปภาพและข้อความ (2 วิธี) เป็นฟีเจอร์ และ จะแสดงคะแนนที่ระบุว่าคำอธิบายข้อความมีความเหมาะสมสำหรับภาพมากน้อยเพียงใด อินพุตของโมเดลนี้เป็นแบบมัลติโมดัลและเอาต์พุตจะเป็นแบบเอกพจน์

ปรับการสอนหลายรูปแบบ

#language

โมเดลที่ปรับแต่งวิธีการซึ่งประมวลผลอินพุตได้ นอกเหนือไปจากข้อความ เช่น รูปภาพ วิดีโอ และเสียง

การจัดประเภทพหุนาม

คำพ้องความหมายของการแยกประเภทแบบหลายชั้นเรียน

การถดถอยพหุนาม

คำพ้องสำหรับ การถดถอยแบบโลจิสติกแบบหลายคลาส

ทำงานหลายอย่างพร้อมกัน

เทคนิคแมชชีนเลิร์นนิงที่มีโมเดลเดียว ได้รับการฝึกให้ทำหลายงาน

โมเดลแบบมัลติทาสก์สร้างจากการฝึกข้อมูลที่เหมาะสำหรับ เพื่อทำงานต่างๆ ซึ่งจะช่วยให้โมเดลเรียนรู้ที่จะแชร์ ข้อมูลตลอดงาน ซึ่งช่วยให้โมเดลเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้น

โมเดลที่ได้รับการฝึกสำหรับงานหลายอย่างมักมีความสามารถในการสรุปข้อมูลได้ดีขึ้น และมีประสิทธิภาพมากขึ้นในการจัดการข้อมูลประเภทต่างๆ

N

กับดัก NaN

เมื่อตัวเลขในโมเดลของคุณเปลี่ยนเป็น NaN ในระหว่างการฝึก ซึ่งทำให้ตัวเลขอื่นๆ จำนวนมากหรือทั้งหมดในโมเดลของคุณ กลายเป็น NaN ในท้ายที่สุด

NaN เป็นตัวย่อของ Not a Number

ความเข้าใจภาษาธรรมชาติ

#language

การพิจารณาความตั้งใจของผู้ใช้ตามสิ่งที่ผู้ใช้พิมพ์หรือพูด ตัวอย่างเช่น เครื่องมือค้นหาใช้ความเข้าใจภาษาที่เป็นธรรมชาติเพื่อ ระบุสิ่งที่ผู้ใช้กำลังค้นหาตามสิ่งที่ผู้ใช้พิมพ์หรือพูด

คลาสเชิงลบ

#fundamentals

ในการจัดประเภทแบบไบนารี คลาสหนึ่งคือ เรียกว่าเชิงบวกและอีกข้อความเรียกว่าเชิงลบ คลาสเชิงบวกคือ สิ่งของหรือเหตุการณ์ที่โมเดลกำลังทดสอบ และคลาสเชิงลบคือ ที่เป็นไปได้อื่นๆ เช่น

  • กลุ่มระดับลบในการทดสอบทางการแพทย์อาจเป็น "ไม่ใช่เนื้องอก"
  • ระดับเชิงลบในตัวแยกประเภทอีเมลอาจ "ไม่ใช่สแปม"

คอนทราสต์กับคลาสเชิงบวก

การสุ่มตัวอย่างเชิงลบ

คำพ้องของการสุ่มตัวอย่างผู้สมัคร

Neural Architecture Search (NAS)

เทคนิคในการออกแบบสถาปัตยกรรม โครงข่ายระบบประสาทเทียม อัลกอริทึมของ NAS สามารถลดจำนวน ของเวลาและทรัพยากรที่จำเป็นต่อการฝึกโครงข่ายประสาท

โดยทั่วไปแล้ว NAS จะใช้สิ่งต่อไปนี้

  • พื้นที่สำหรับค้นหา ซึ่งเป็นชุดสถาปัตยกรรมที่เป็นไปได้
  • ฟังก์ชันการออกกำลังกาย ซึ่งเป็นการวัดว่า ที่ดำเนินการกับงานที่กำหนด

อัลกอริทึมของ NAS มักเริ่มต้นด้วยกลุ่ม สถาปัตยกรรมที่เป็นไปได้ และ ค่อยๆ ขยายพื้นที่การค้นหาเมื่ออัลกอริทึมเรียนรู้ เกี่ยวกับสิ่งที่ สถาปัตยกรรมเหล่านี้ มีประสิทธิภาพ ฟังก์ชันการออกกำลังกายมักอิงตาม ประสิทธิภาพของสถาปัตยกรรมในชุดการฝึก และอัลกอริทึมทำงาน ที่มักได้รับการฝึกโดยใช้ การเรียนรู้แบบเสริมกำลัง

อัลกอริทึม NAS ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพในการค้นหาประสิทธิภาพสูง สำหรับงานที่หลากหลาย ซึ่งรวมถึงอิมเมจ classification การจำแนกประเภทข้อความ การแปลด้วยคอมพิวเตอร์

โครงข่ายระบบประสาทเทียม

#fundamentals

โมเดลที่มีอย่างน้อย 1 รายการ เลเยอร์ที่ซ่อนอยู่ โครงข่ายประสาทแบบลึกเป็นโครงข่ายระบบประสาทเทียมประเภทหนึ่ง ที่มีเลเยอร์ที่ซ่อนไว้มากกว่า 1 เลเยอร์ เช่น แผนภาพต่อไปนี้ แสดงโครงข่ายประสาทแบบลึกที่มีเลเยอร์ที่ซ่อนอยู่ 2 ชั้น

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และ
          เลเยอร์เอาต์พุต

เซลล์ประสาทแต่ละเซลล์ในเครือข่ายประสาทเทียมจะเชื่อมต่อกับโหนดทั้งหมดในชั้นถัดไป ตัวอย่างเช่น ในแผนภาพก่อนหน้านี้ ให้สังเกตว่าเซลล์ประสาททั้ง 3 เซลล์ ในชั้นที่ซ่อนอยู่ ส่วนแรกจะเชื่อมต่อกับเซลล์ประสาททั้งสองชั้นแยกกัน เลเยอร์ที่ 2 ที่ซ่อนอยู่

บางครั้งเราเรียกโครงข่ายประสาทที่ใช้งานในคอมพิวเตอร์ โครงข่ายระบบประสาทเทียมเพื่อแยกความแตกต่าง โครงข่ายประสาทที่พบในสมองและระบบประสาทอื่นๆ

โครงข่ายระบบประสาทเทียมบางเครือข่ายอาจเลียนแบบความสัมพันธ์ที่ไม่ใช่เชิงเส้นซึ่งมีความซับซ้อนอย่างยิ่ง ระหว่างฟีเจอร์ต่างๆ กับป้ายกำกับ

โปรดดูโครงข่ายระบบประสาทเทียมแบบ Convolutional และ โครงข่ายระบบประสาทเทียมแบบเกิดซ้ำ

เซลล์ประสาท

#fundamentals

ในแมชชีนเลิร์นนิง หน่วยที่โดดเด่นภายในเลเยอร์ที่ซ่อนอยู่ ของโครงข่ายประสาท เซลล์ประสาทแต่ละเซลล์จะทำงานต่อไปนี้ การดำเนินการแบบ 2 ขั้นตอน:

  1. คำนวณผลรวมถ่วงน้ำหนักของค่าอินพุตคูณด้วย ตามน้ำหนักที่เกี่ยวข้อง
  2. ส่งผลรวมถ่วงน้ำหนักเป็นอินพุตไปยัง ฟังก์ชันการเปิดใช้งาน

เซลล์ประสาทในชั้นที่ซ่อนอยู่ชั้นแรกจะยอมรับอินพุตจากค่าฟีเจอร์ ในเลเยอร์อินพุต เซลล์ประสาทในชั้นที่ซ่อนอยู่นอกเหนือนี้ กลุ่มแรกจะยอมรับอินพุตจากเซลล์ประสาทในชั้นที่ซ่อนอยู่ก่อนหน้านี้ เช่น เซลล์ประสาทในชั้นที่ 2 ที่ซ่อนอยู่จะยอมรับอินพุตจาก เซลล์ประสาทในชั้นที่ซ่อนอยู่

ภาพประกอบต่อไปนี้ไฮไลต์เซลล์ประสาท 2 เซลล์และ อินพุต

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และ
          เลเยอร์เอาต์พุต มีการไฮไลต์เซลล์ประสาท 2 เซลล์ โดยเซลล์หนึ่งใน
          ที่ซ่อนอยู่ และอีกเลเยอร์หนึ่ง
ในเลเยอร์ที่ซ่อนอยู่อีกชั้นหนึ่ง ไฮไลต์
          เซลล์ประสาทในชั้นที่ซ่อนอยู่ชั้นแรกรับอินพุตจากทั้ง 2 ลักษณะ
          ในเลเยอร์อินพุต เซลล์ประสาทที่ไฮไลต์ในชั้นที่ 2 ที่ซ่อนอยู่
          รับอินพุตจากเซลล์ประสาท 3 เซลล์ที่ซ่อนอยู่ใน

เซลล์ประสาทในโครงข่ายประสาทจะเลียนแบบพฤติกรรมของเซลล์ประสาทในสมองและ ส่วนอื่นๆ ของระบบประสาท

เอ็นกรัม

#seq
#language

การเรียงลำดับของ N คำ เช่น บ้าจริง คือ 2 กรัม เพราะ คำสั่งซื้อนั้นเกี่ยวข้อง แต่จริงๆ แล้วจริงๆ เป็น 2 กรัมที่ต่างจากจริงๆ แล้วบ้า

N ชื่อของ N-gram ประเภทนี้ ตัวอย่าง
2 Bigram หรือ 2 กรัม ไป ไป กินข้าวกลางวัน มื้อเย็น
3 ไตรแกรม หรือ 3 กรัม กินมากเกินไป หนูตาบอด 3 ตัว ค่าโทร
4 4 กรัม เดินเล่นในสวนสาธารณะ สัมผัสสายลม เด็กหนุ่มกินถั่วเลนทิล

การทำความเข้าใจภาษาธรรมชาติหลายๆ อย่าง โมเดลอาศัยหน่วย N กรัมในการคาดการณ์คำถัดไปที่ผู้ใช้จะพิมพ์ หรือพูด ตัวอย่างเช่น สมมติว่าผู้ใช้พิมพ์ 3Bดูด โมเดล NLU ที่ใช้ Trigrams น่าจะคาดการณ์ได้ว่า ผู้ใช้จะพิมพ์คำว่า เมาส์

เปรียบเทียบขนาด N กรัมกับกลุ่มคำ ที่ กลุ่มคำที่ไม่ได้เรียงลำดับ

NLU

#language

ตัวย่อของภาษาธรรมชาติ ความเข้าใจ

โหนด (แผนผังการตัดสินใจ)

#df

ในแผนผังการตัดสินใจกำหนดตัวแปรใดก็ได้ สภาพสินค้าหรือ leaf

แผนผังการตัดสินใจที่มี 2 เงื่อนไขและ 3 ใบ

โหนด (โครงข่ายระบบประสาทเทียม)

#fundamentals

เซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่

โหนด (TensorFlow กราฟ)

#TensorFlow

การดำเนินการในกราฟ TensorFlow

เสียงรบกวน

หรือพูดกว้างๆ ก็คือทุกสิ่งที่บดบังสัญญาณในชุดข้อมูล เสียงรบกวน สามารถนำมาใช้กับข้อมูลได้หลายวิธี เช่น

  • เจ้าหน้าที่ตรวจสอบอาจติดป้ายกำกับผิดพลาด
  • มนุษย์และเครื่องมือบันทึกค่าฟีเจอร์ผิดพลาดหรือละเว้น

เงื่อนไขนอนไบนารี

#df

เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ ตัวอย่างเช่น เงื่อนไขที่ไม่ใช่แบบไบนารีต่อไปนี้มีได้ 3 เงื่อนไข ผลลัพธ์:

เงื่อนไข (number_of_legs = ?) ซึ่งนำไปสู่ 3 รายการที่เป็นไปได้
          ผลลัพธ์ ผลลัพธ์ 1 รายการ (number_of_legs = 8) นำไปสู่ใบไม้
          สไปเดอร์ ผลลัพธ์ที่สอง (number_of_legs = 4) นำไปสู่
          ใบไม้ชื่อสุนัข ผลลัพธ์ที่สาม (number_of_legs = 2) นำไปสู่
          ใบไม้ที่ชื่อว่าเพนกวิน

nonlinear

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปซึ่งไม่สามารถแสดงได้เพียงอย่างเดียว ผ่านการบวกและการคูณ ความสัมพันธ์เชิงเส้น แสดงเป็นเส้นได้ ความสัมพันธ์แบบ nonlinear จะใช้ไม่ได้ จะแสดงเป็นเส้น ตัวอย่างเช่น ลองพิจารณาโมเดล 2 รูปแบบที่เกี่ยวข้องกัน ฟีเจอร์เดียวไปยังป้ายกำกับเดียว รูปแบบทางด้านซ้ายเป็นเส้นตรง และรูปแบบทางด้านขวาไม่เป็นเชิงเส้น

2 พล็อต หนึ่งพล็อตคือเส้น 1 เส้น ดังนั้นจึงเป็นความสัมพันธ์เชิงเส้น
          อีกพล็อตเป็นเส้นโค้ง ดังนั้นจึงเป็นความสัมพันธ์แบบไม่เชิงเส้น

อคติจากการไม่ตอบ

#fairness

ดูการให้น้ำหนักพิเศษกับการเลือก

Nonstationarity

#fundamentals

คุณลักษณะที่มีค่าเปลี่ยนแปลงไปในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักเกิดขึ้นในเวลา ตัวอย่างเช่น ลองพิจารณาตัวอย่างของความไม่แน่นอนต่อไปนี้

  • จำนวนชุดว่ายน้ำที่ขายในบางร้านจะแตกต่างกันไปตามฤดูกาล
  • ปริมาณผลไม้ชนิดใดชนิดหนึ่งที่เก็บเกี่ยวในภูมิภาคหนึ่งๆ มีค่าเป็น 0 สำหรับช่วงเวลาส่วนใหญ่ของปี แต่มีค่ามากกว่าเป็นระยะเวลาสั้นๆ
  • อุณหภูมิเฉลี่ยต่อปีกำลังเปลี่ยนแปลงเนื่องจากการเปลี่ยนแปลงสภาพภูมิอากาศ

คอนทราสต์กับความเสถียร

การแปลงเป็นรูปแบบมาตรฐาน

#fundamentals

พูดกว้างๆ ก็คือกระบวนการแปลงช่วงจริงของตัวแปร ในช่วงของค่ามาตรฐาน เช่น

  • -1 ถึง +1
  • 0 ถึง 1
  • คะแนน Z (ประมาณ -3 ถึง +3)

ตัวอย่างเช่น สมมติว่าช่วงที่แท้จริงของค่าบางสถานที่คือ 800 ถึง 2,400 ในฐานะส่วนหนึ่งของฟีเจอร์วิศวกรรม คุณสามารถปรับค่าจริงให้อยู่ในระดับมาตรฐานได้ เช่น เป็น -1 ถึง +1

การปรับให้สอดคล้องตามมาตรฐานเป็นงานทั่วไปใน Feature Engineering โมเดลมักจะฝึกได้เร็วกว่า (และสร้างการคาดการณ์ที่ดีขึ้น) เมื่อทุกคุณลักษณะตัวเลขใน เวกเตอร์ฟีเจอร์ มีช่วงเดียวกันโดยประมาณ

การตรวจจับสิ่งแปลกใหม่

กระบวนการพิจารณาว่าตัวอย่าง (ใหม่) ใหม่มาจากเดียวกันหรือไม่ เป็นชุดการฝึก กล่าวคือ หลังจาก ของชุดการฝึก การตรวจจับความแปลกใหม่จะพิจารณาว่าใหม่หรือไม่ ตัวอย่าง (ระหว่างการอนุมานหรือระหว่างการฝึกอบรมเพิ่มเติม) คือ outlier

ตัดกับการตรวจจับ Outlier

ข้อมูลตัวเลข

#fundamentals

ฟีเจอร์ที่แสดงเป็นจำนวนเต็มหรือจำนวนที่มีค่าจริง ตัวอย่างเช่น โมเดลการประเมินราคาบ้านอาจแสดงขนาด ของบ้าน (เป็นตารางฟุตหรือตารางเมตร) เป็นข้อมูลตัวเลข การนำเสนอ จุดสนใจแบบข้อมูลตัวเลขบ่งบอกว่าค่าของจุดสนใจนั้น ความสัมพันธ์ทางคณิตศาสตร์กับป้ายกำกับ กล่าวคือ จำนวนตารางเมตรในบ้านอาจมี ความสัมพันธ์ทางคณิตศาสตร์กับมูลค่าของบ้าน

ข้อมูลที่เป็นจำนวนเต็มเท่านั้นไม่ควรแสดงเป็นข้อมูลตัวเลข ตัวอย่างเช่น รหัสไปรษณีย์ในบางพื้นที่ของโลกเป็นจำนวนเต็ม แต่จำนวนเต็มไปรษณีย์ ไม่ควรแสดงเป็นข้อมูลตัวเลขในโมเดล นั่นเป็นเพราะ รหัสไปรษณีย์ของ 20000 ไม่ได้มีความสำคัญเป็นสองเท่า (หรือครึ่งหนึ่ง) เท่ากับรหัสไปรษณีย์ของ 10,000 นอกจากนี้ แม้ว่ารหัสไปรษณีย์ที่ต่างกัน จะมีความสัมพันธ์ มูลค่าอสังหาริมทรัพย์ เราไม่สามารถสรุปได้ว่ามูลค่าอสังหาริมทรัพย์ในรหัสไปรษณีย์ 20000 มีค่าเป็น 2 เท่าของค่าอสังหาริมทรัพย์ที่รหัสไปรษณีย์ 10000 รหัสไปรษณีย์ควรแสดงเป็นข้อมูลเชิงหมวดหมู่ แทน

บางครั้งเราเรียกฟีเจอร์ที่เป็นตัวเลข ฟีเจอร์อย่างต่อเนื่อง

NumPy

ไลบรารีคณิตศาสตร์แบบโอเพนซอร์ส ซึ่งให้การดำเนินการอาร์เรย์ที่มีประสิทธิภาพใน Python pandas สร้างขึ้นจาก NumPy

O

วัตถุประสงค์

เมตริกที่อัลกอริทึมพยายามเพิ่มประสิทธิภาพ

ฟังก์ชันวัตถุประสงค์

สูตรทางคณิตศาสตร์หรือเมตริกที่โมเดลมีจุดประสงค์เพื่อเพิ่มประสิทธิภาพ ตัวอย่างเช่น ฟังก์ชันวัตถุประสงค์สำหรับ การถดถอยเชิงเส้นมักจะ ค่าเฉลี่ยการสูญเสียกำลังสอง ดังนั้น เมื่อทำการฝึก แบบจำลองการถดถอยเชิงเส้น การฝึกมีเป้าหมายเพื่อลดการสูญเสียค่าเฉลี่ยกำลังสอง

ในบางกรณี เป้าหมายคือการขยายฟังก์ชันวัตถุประสงค์ ตัวอย่างเช่น หากฟังก์ชันวัตถุประสงค์คือความถูกต้อง เป้าหมายจะเป็น เพื่อเพิ่มความแม่นยำสูงสุด

โปรดดูเพิ่มเติมที่ loss

เงื่อนไขเอียง

#df

ในแผนผังการตัดสินใจ สภาพสินค้าที่เกี่ยวข้องกับมากกว่า 1 ฟีเจอร์ เช่น ถ้าทั้งความสูงและความกว้างเป็นองค์ประกอบทั้ง 2 อย่าง ต่อไปนี้คือเงื่อนไขแบบเอียง

  height > width

ตัดกับเงื่อนไขที่อยู่ในแนวแกน

ออฟไลน์

#fundamentals

คำพ้องความหมายของ static

การอนุมานออฟไลน์

#fundamentals

กระบวนการของโมเดลที่สร้างการคาดการณ์ชุดหนึ่ง จากนั้นแคช (บันทึก) การคาดการณ์เหล่านั้น จากนั้น แอปจะสามารถเข้าถึง การคาดการณ์จากแคชแทนการเรียกใช้โมเดลอีกครั้ง

ตัวอย่างเช่น ลองพิจารณาโมเดลที่สร้างพยากรณ์อากาศท้องถิ่น (การคาดการณ์) 1 ครั้งทุก 4 ชั่วโมง หลังจากเรียกใช้แต่ละโมเดล แคชการพยากรณ์อากาศในท้องถิ่นทั้งหมด แอปสภาพอากาศดึงข้อมูลพยากรณ์อากาศ ออกจากแคช

การอนุมานแบบออฟไลน์เรียกอีกอย่างว่าการอนุมานแบบคงที่

ซึ่งแตกต่างจากการอนุมานออนไลน์

การเข้ารหัสแบบ One-hot

#fundamentals

นำเสนอข้อมูลเชิงกลุ่มเป็นเวกเตอร์ที่มีสิ่งต่อไปนี้

  • องค์ประกอบ 1 รายการได้รับการตั้งค่าเป็น 1
  • ส่วนองค์ประกอบอื่นๆ ทั้งหมดจะตั้งเป็น 0

โดยทั่วไปแล้วจะใช้การเข้ารหัสแบบ One-Hot เพื่อแสดงสตริงหรือตัวระบุที่ มีชุดจำกัดของค่าที่เป็นไปได้ ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ที่ชื่อ Scandinavia มีค่าที่เป็นไปได้ 5 ค่าดังนี้

  • "เดนมาร์ก"
  • "สวีเดน"
  • "นอร์เวย์"
  • "ฟินแลนด์"
  • "ไอซ์แลนด์"

การเข้ารหัสแบบ 1 แบบ Hot สามารถแสดงแต่ละค่าทั้ง 5 แบบดังต่อไปนี้

country เวกเตอร์
"เดนมาร์ก" 1 0 0 0 0
"สวีเดน" 0 1 0 0 0
"นอร์เวย์" 0 0 1 0 0
"ฟินแลนด์" 0 0 0 1 0
"ไอซ์แลนด์" 0 0 0 0 1

การเข้ารหัสแบบ One-hot ทำให้โมเดลเรียนรู้การเชื่อมต่อได้ ตามแต่ละประเทศ 5 ประเทศ

การนำเสนอฟีเจอร์เป็นข้อมูลตัวเลขคือ แทนการเข้ารหัสแบบ Single-hot แต่เราต้องขออภัยที่การนำเสนอ ตัวเลขของประเทศสแกนดิเนเวียไม่ใช่ตัวเลือกที่ดี ตัวอย่างเช่น ให้พิจารณาใช้ตัวเลขดังต่อไปนี้

  • "เดนมาร์ก" เท่ากับ 0
  • "สวีเดน" เท่ากับ 1
  • "นอร์เวย์" เท่ากับ 2
  • "ฟินแลนด์" เท่ากับ 3
  • "ไอซ์แลนด์" เท่ากับ 4

เมื่อใช้การเข้ารหัสตัวเลข โมเดลจะแปลตัวเลขดิบ โดยใช้คณิตศาสตร์ และจะพยายามฝึกฝนตัวเลขเหล่านั้น อย่างไรก็ตาม ประเทศไอซ์แลนด์มีจำนวนมากกว่า 2 เท่า (หรือครึ่งหนึ่ง) อย่างนอร์เวย์ โมเดลจึงได้ข้อสรุปที่แปลกๆ

การเรียนรู้แบบจุดเดียว

แนวทางแมชชีนเลิร์นนิงที่มักใช้ เพื่อจำแนกออบเจ็กต์ ที่ออกแบบมาเพื่อเรียนรู้ตัวแยกประเภทที่มีประสิทธิภาพจากตัวอย่างการฝึกเพียงตัวอย่างเดียว

โปรดดูการเรียนรู้คร่าวๆ และ การเรียนรู้แบบ Zero shot

การแสดงข้อความแจ้งแบบครั้งเดียว

#language
#generativeAI

ข้อความแจ้งที่มีหนึ่งตัวอย่างที่แสดงให้เห็นว่า โมเดลภาษาขนาดใหญ่ควรตอบสนอง ตัวอย่างเช่น พรอมต์ต่อไปนี้มีตัวอย่าง 1 รายการที่แสดงโมเดลภาษาขนาดใหญ่ ก็ควรตอบคำถามได้

ส่วนต่างๆ ของพรอมต์ หมายเหตุ
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร คำถามที่ต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR ตัวอย่าง 1 รายการ
อินเดีย: การค้นหาจริง

เปรียบเทียบระหว่างพรอมต์แบบช็อตเดียวกับคำต่อไปนี้

หนึ่งเทียบกับทั้งหมด

#fundamentals

เมื่อพิจารณาถึงปัญหาการจัดประเภทกับคลาส N แล้ว โซลูชันที่ประกอบด้วย N แยกกัน ตัวแยกประเภทแบบไบนารี - ตัวแยกประเภทแบบไบนารีหนึ่งตัวสำหรับ แต่ละผลลัพธ์ที่เป็นไปได้ เช่น สำหรับโมเดลที่แยกประเภทตัวอย่าง เป็นผลิตภัณฑ์สำหรับสัตว์ ผัก หรือแร่ธาตุ โซลูชันแบบหนึ่งต่อหนึ่งจะให้ผล ตัวแยกประเภทไบนารี 3 แบบที่แยกกันดังต่อไปนี้

  • สัตว์กับไม่ใช่สัตว์
  • ผักกับไม่มีผัก
  • แร่ธาตุกับไม่ใช่แร่ธาตุ

ออนไลน์

#fundamentals

คำพ้องความหมายของ dynamic

การอนุมานออนไลน์

#fundamentals

สร้างการคาดการณ์ตามคำขอ ตัวอย่างเช่น สมมติว่าแอปส่งผ่านอินพุตไปยังโมเดลและออกคำขอสำหรับ การคาดคะเน ระบบที่ใช้การอนุมานออนไลน์จะตอบสนองต่อคำขอโดยการเรียกใช้ โมเดล (และส่งการคาดการณ์กลับไปยังแอป)

ซึ่งแตกต่างจากการอนุมานออฟไลน์

การดำเนินการ (การดำเนินการ)

#TensorFlow

ใน TensorFlow กระบวนการใดๆ ที่สร้าง จัดการหรือทำลาย Tensor สำหรับ เช่น การคูณเมทริกซ์คือการดำเนินการที่ใช้ Tensor 2 ตัว และสร้าง Tensor ขึ้นมา 1 ตัวเป็นเอาต์พุต

ค่าภาษี

การประมวลผลแบบไล่ระดับสีและการเพิ่มประสิทธิภาพไลบรารีสำหรับ JAX Optax สนับสนุนการวิจัยด้วยการสร้างองค์ประกอบที่สามารถ รวมกันในลักษณะที่กำหนดเองเพื่อเพิ่มประสิทธิภาพรูปแบบการระบุแหล่งที่มา เช่น โครงข่ายประสาทแบบลึก เป้าหมายอื่นๆ ได้แก่

  • การนำเสนอการติดตั้งใช้งานที่อ่านได้ ผ่านการทดสอบมาเป็นอย่างดี และมีประสิทธิภาพ คอมโพเนนต์หลัก
  • เพิ่มประสิทธิภาพการทำงานโดยทำให้ส่วนผสมอยู่ในระดับต่ำได้ ลงในเครื่องมือเพิ่มประสิทธิภาพที่กำหนดเอง (หรือองค์ประกอบการประมวลผลการไล่ระดับสีอื่นๆ)
  • ผลักดันการนำแนวคิดใหม่ๆ มาใช้อย่างรวดเร็วโดยทำให้ทุกคนเป็นเรื่องง่าย เพื่อมีส่วนร่วม

เครื่องมือเพิ่มประสิทธิภาพ

การใช้งานการไล่ระดับสีที่เจาะจง อัลกอริทึม เครื่องมือเพิ่มประสิทธิภาพยอดนิยม ได้แก่

  • AdaGrad ซึ่งย่อมาจาก ADAptive GRADient descent
  • Adam ซึ่งย่อมาจาก ADAptive with Momentum

อคติจากความเป็นตัวเดียวกันแบบนอกกลุ่ม

#fairness

แนวโน้มที่จะเห็นสมาชิกนอกกลุ่มเหมือนสมาชิกมากกว่าสมาชิกในกลุ่ม เมื่อเปรียบเทียบทัศนคติ ค่านิยม ลักษณะนิสัย และอื่นๆ ลักษณะพิเศษ ในกลุ่มหมายถึงคนที่คุณโต้ตอบด้วยเป็นประจำ out-group หมายถึงคนที่คุณไม่ได้โต้ตอบด้วยเป็นประจำ หากคุณ สร้างชุดข้อมูลโดยขอให้ผู้คนระบุแอตทริบิวต์เกี่ยวกับ ออกไปนอกกลุ่ม แอตทริบิวต์เหล่านั้นอาจมีความแตกต่างกันน้อยมากและมีความเหมารวมมากขึ้น มากกว่าแอตทริบิวต์ที่ผู้เข้าร่วมแสดงสำหรับบุคคลในกลุ่ม

เช่น Lilliputians อาจอธิบายถึงบ้านของ Lilliputian คนอื่นๆ อย่างละเอียด โดยอ้างอิงความแตกต่างเล็กๆ น้อยๆ ในรูปแบบสถาปัตยกรรม หน้าต่าง ประตู และขนาด แต่ชาวลิลลิโพเชียนคนเดียวกันนี้อาจประกาศเพียงว่า ชาว Brobdingnagi ทุกคนอาศัยอยู่ในบ้านหลังเดียวกัน

อคติแบบนอกกลุ่มแบบเป็นเอกภาพคือรูปแบบหนึ่งของ การให้น้ำหนักการระบุแหล่งที่มาของกลุ่ม

ดูอคติในกลุ่มเพิ่มเติม

การตรวจจับ Outlier

กระบวนการระบุค่าผิดปกติในชุดข้อมูล ชุดการฝึก

คอนทราสต์กับการตรวจจับสิ่งแปลกใหม่

ค่าผิดปกติ

ค่าที่อยู่ไกลจากค่าอื่นๆ ส่วนใหญ่ ในแมชชีนเลิร์นนิง ค่าผิดปกติมีดังนี้

  • ป้อนข้อมูลที่มีค่ามากกว่าค่าเบี่ยงเบนมาตรฐานประมาณ 3 ค่า จากค่าเฉลี่ย
  • น้ำหนักที่มีค่าสัมบูรณ์สูง
  • ค่าที่คาดการณ์ค่อนข้างห่างจากค่าจริง

ตัวอย่างเช่น สมมติว่า widget-price เป็นฟีเจอร์ของโมเดลหนึ่งๆ สมมติว่าค่าเฉลี่ย widget-price คือ 7 ยูโรพร้อมค่าเบี่ยงเบนมาตรฐาน 1 ยูโร ตัวอย่างที่มี widget-price เป็น 12 ยูโรหรือ 2 ยูโร จะถือว่าเป็นค่าผิดปกติ เนื่องจากราคาแต่ละรายการนั้น 5 ค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย

ค่าผิดปกติมักเกิดจากการพิมพ์ผิดหรือข้อผิดพลาดอื่นๆ ในการป้อนข้อมูล ในกรณีอื่นๆ ค่าผิดปกติไม่ใช่ข้อผิดพลาด ทั้งนี้ ให้ความสำคัญกับส่วนเบี่ยงเบนมาตรฐาน 5 ค่า จากค่าเฉลี่ยนั้นหายาก แต่แทบจะเป็นไปไม่ได้เลย

ค่าผิดปกติมักทำให้เกิดปัญหาในการฝึกโมเดล การตัดคลิป เป็นวิธีหนึ่งในการจัดการค่าผิดปกติ

การประเมินก่อนหลัง (การประเมิน OOB)

#df

กลไกในการประเมินคุณภาพของ กลุ่มการตัดสินใจโดยทดสอบ แผนผังการตัดสินใจเทียบกับ ตัวอย่าง ไม่ใช้ระหว่าง การฝึกแผนผังการตัดสินใจนั้น ตัวอย่างเช่น ใน แผนภาพต่อไปนี้ สังเกตว่าระบบจะฝึกแผนผังการตัดสินใจแต่ละแบบ ประมาณ 2 ใน 3 ของตัวอย่าง จากนั้นจึงประเมินกับ ตัวอย่างซึ่งเหลืออีก 1 ใน 3 ตัวอย่าง

ป่าการตัดสินใจที่ประกอบด้วยต้นไม้การตัดสินใจ 3 ต้น
          แผนผังการตัดสินใจหนึ่งจะฝึกกับ 2 ใน 3 ของตัวอย่าง
          แล้วใช้ 1 ใน 3 ที่เหลือในการประเมิน OOB
          แผนผังการตัดสินใจรายการที่ 2 ฝึกกับ 2 ใน 3 ที่ต่างกัน
          ตัวอย่างมากกว่าแผนผังการตัดสินใจก่อนหน้านี้ จากนั้น
          ใช้ 1 ใน 3 ของการประเมิน OOB ต่างจาก
          แผนผังการตัดสินใจก่อนหน้า

การประเมินนอกกรอบคือการประเมินที่ประหยัดและประหยัดค่าใช้จ่าย ค่าประมาณของกลไกการตรวจสอบข้ามแพลตฟอร์ม ในการตรวจสอบข้ามแพลตฟอร์ม ระบบจะฝึกโมเดล 1 รายการสำหรับการตรวจสอบความถูกต้องแต่ละรอบแต่ละรอบ (เช่น จะมีการฝึกโมเดล 10 รายการในการตรวจสอบการตรวจสอบความถูกต้องแบบกากบาท 10 ครั้ง) เมื่อใช้การประเมิน OOB โมเดลเดียวจะได้รับการฝึก เพราะการแบ็กกิ้ง ระงับข้อมูลบางส่วนจากแต่ละแผนผังในระหว่างการฝึก การประเมิน OOB สามารถใช้ ข้อมูลดังกล่าวเพื่อประมาณการตรวจสอบความถูกต้อง

เลเยอร์เอาต์พุต

#fundamentals

"สุดท้าย" ของโครงข่ายประสาทได้ เลเยอร์เอาต์พุตจะมีการคาดการณ์

ภาพประกอบต่อไปนี้แสดงโครงข่ายประสาทแบบลึกขนาดเล็กที่มีอินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์ ดังนี้

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต 1 ชั้น เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์อีก 1 ชั้น
          เลเยอร์เอาต์พุต เลเยอร์อินพุตประกอบด้วย 2 ฟีเจอร์ แท็ก
          เลเยอร์ที่ซ่อนอยู่ประกอบด้วยเซลล์ประสาท 3 เซลล์และเลเยอร์ที่ซ่อนอยู่อีกชั้นหนึ่ง
          ประกอบด้วยเซลล์ประสาท 2 เซลล์ เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

Overfitting

#fundamentals

การสร้างโมเดลที่ตรงกับ ข้อมูลการฝึกอย่างใกล้ชิดมากจนโมเดลล้มเหลว คาดการณ์ข้อมูลใหม่ได้อย่างถูกต้อง

การกําหนดเกณฑ์มาตรฐานอาจช่วยลดการใส่ชิ้นงานมากเกินไปได้ นอกจากนี้ การฝึกในชุดฝึกอบรมขนาดใหญ่และหลากหลายยังช่วยลดการทำงานที่มากเกินไปได้

การสุ่มตัวอย่างมากเกินไป

การใช้ตัวอย่างของชนกลุ่มน้อยซ้ำ ในชุดข้อมูลที่ไม่สมดุลกันเพื่อ สร้างชุดการฝึกที่มีความสมดุลยิ่งขึ้น

ตัวอย่างเช่น ลองพิจารณาการจัดประเภทแบบไบนารี ปัญหาที่อัตราส่วนของคลาสส่วนใหญ่ต่อค่า ชนกลุ่มน้อยคือ 5,000:1 หากชุดข้อมูลประกอบด้วยตัวอย่าง 1 ล้านตัวอย่าง ชุดข้อมูลประกอบด้วยตัวอย่างของชนกลุ่มน้อยประมาณ 200 รายการ ซึ่งอาจ จำนวนตัวอย่างน้อยเกินไปสำหรับการฝึกที่มีประสิทธิภาพ เพื่อก้าวข้ามความบกพร่องนี้ อาจทำให้ตัวอย่าง 200 ตัวอย่างมากเกินไป (ใช้ซ้ำ) หลายครั้ง ซึ่ง ตัวอย่างที่เพียงพอในการฝึกอบรมที่เป็นประโยชน์

คุณต้องระมัดระวังเรื่องการปรับมากเกินไปเมื่อ การสุ่มตัวอย่างมากเกินไป

ตัดกับการสุ่มตัวอย่างน้อยกว่า

P

ข้อมูลที่แพ็กไว้

วิธีการจัดเก็บข้อมูลอย่างมีประสิทธิภาพมากขึ้น

ข้อมูลที่บรรจุมาอย่างดีจะจัดเก็บข้อมูลโดยใช้รูปแบบที่บีบอัดหรือในรูปแบบ ด้วยวิธีอื่นที่ช่วยให้เข้าถึงได้อย่างมีประสิทธิภาพมากขึ้น ข้อมูลที่บรรจุมาจะลดปริมาณหน่วยความจำและการคำนวณที่จำเป็นสำหรับ เข้าถึงได้ง่ายขึ้น ซึ่งจะนำไปสู่การฝึกที่เร็วขึ้นและการอนุมานโมเดลที่มีประสิทธิภาพมากขึ้น

ข้อมูลที่บรรจุมักจะใช้กับเทคนิคอื่นๆ เช่น การเสริมข้อมูลและ regularization ซึ่งช่วยเพิ่มประสิทธิภาพให้กับ รุ่น

แพนด้า

#fundamentals

API การวิเคราะห์ข้อมูลแบบคอลัมน์ที่สร้างขึ้นจาก numpy เฟรมเวิร์กแมชชีนเลิร์นนิงจำนวนมาก ซึ่งรวมถึง TensorFlow ซึ่งสนับสนุนโครงสร้างข้อมูลของแพนด้าเป็นอินพุต โปรดดู เอกสารประกอบของ pandas เพื่อดูรายละเอียด

พารามิเตอร์

#fundamentals

น้ำหนักและอคติที่โมเดลเรียนรู้ระหว่าง การฝึกอบรม ตัวอย่างเช่น ใน การถดถอยเชิงเส้น พารามิเตอร์จะประกอบด้วย การให้น้ำหนักพิเศษ (b) และน้ำหนักทั้งหมด (w1, w2, และต่อไปเรื่อยๆ) ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในทางตรงกันข้าม hyperparameter จะเป็นค่าที่ คุณ (หรือบริการปรับแต่งไฮเปอร์พารามิเตอร์) ให้กับโมเดล เช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์

การปรับแต่งประสิทธิภาพพารามิเตอร์

#language
#generativeAI

ชุดเทคนิคในการปรับแต่ง โมเดลภาษาก่อนการฝึก (PLM) มีประสิทธิภาพมากกว่าการปรับแต่งแบบเต็มรูปแบบ ประสิทธิภาพของพารามิเตอร์ การปรับแต่งมักจะปรับแต่งได้น้อยกว่า พารามิเตอร์ มาก การปรับแต่ง แต่โดยทั่วไปแล้วก็จะสร้าง โมเดลภาษาขนาดใหญ่ที่มีประสิทธิภาพ รวมถึงโมเดลภาษาขนาดใหญ่ที่สร้างจาก ของ Google

เปรียบเทียบระหว่างการปรับแต่งที่มีประสิทธิภาพพารามิเตอร์กับ

การปรับแต่งอย่างมีประสิทธิภาพพารามิเตอร์เรียกอีกอย่างว่าการปรับแต่งโดยละเอียดโดยใช้พารามิเตอร์

เซิร์ฟเวอร์พารามิเตอร์ (PS)

#TensorFlow

งานที่ติดตามพารามิเตอร์ของโมเดลใน การตั้งค่าแบบกระจาย

การอัปเดตพารามิเตอร์

การดำเนินการปรับพารามิเตอร์ของโมเดลระหว่าง โดยปกติภายใน 1 ครั้ง การไล่ระดับสี

อนุพันธ์ย่อย

อนุพันธ์ที่ตัวแปรทั้งหมดยกเว้นตัวใดตัวหนึ่งถือว่าเป็นค่าคงที่ เช่น อนุพันธ์ย่อยของ f(x, y) เทียบกับ x คือค่า อนุพันธ์ของ f ที่จัดว่าเป็นฟังก์ชันของ x เพียงอย่างเดียว (กล่าวคือ การเก็บ y ไว้ คงที่) อนุพันธ์ย่อยของ f ที่เกี่ยวข้องกับ x จะมุ่งเน้นเฉพาะ วิธีที่ x เปลี่ยนแปลงและละเว้นตัวแปรอื่นๆ ทั้งหมดในสมการ

อคติจากการมีส่วนร่วม

#fairness

คำพ้องความหมายของความลำเอียงที่ไม่ตอบกลับ ดูการให้น้ำหนักพิเศษกับการเลือก

กลยุทธ์การแบ่งพาร์ติชัน

อัลกอริทึมที่แบ่งตัวแปร เซิร์ฟเวอร์พารามิเตอร์

Pax

เฟรมเวิร์กการเขียนโปรแกรมที่ออกแบบมาเพื่อการฝึกอบรมขนาดใหญ่ โมเดลโครงข่ายระบบประสาทเทียม ขนาดใหญ่มาก ครอบคลุม TPU หลายระดับ ชิป Accelerator สไลซ์ หรือ พ็อด

Pax สร้างจาก Flax ซึ่งสร้างขึ้นด้วย JAX

แผนภาพแสดงตำแหน่งของ Pax ในสแต็กซอฟต์แวร์
          Pax สร้างขึ้นจาก JAX Pax เองประกอบด้วย 3
          หลายเลเยอร์ เลเยอร์ด้านล่างมี TensorStore และ Flax
          ชั้นกลางประกอบด้วย Optax และ Flaxformer สูงสุด
          มีไลบรารีการสร้างแบบจำลอง Praxis สร้างฟิดเดิลแล้ว
          ที่อยู่ด้านบนของ Pax

Perceptron

ระบบ (ฮาร์ดแวร์หรือซอฟต์แวร์) ที่ใช้ค่าอินพุตอย่างน้อย 1 ค่า จะเรียกใช้ฟังก์ชันกับผลรวมถ่วงน้ำหนักของอินพุต และประมวลผลอินพุต ค่าเอาต์พุต ในแมชชีนเลิร์นนิง ฟังก์ชันมักจะไม่ใช่เชิงเส้น เช่น ReLU, sigmoid หรือ tanh ตัวอย่างเช่น Perceptron ต่อไปนี้อาศัยฟังก์ชันซิกมอยด์เพื่อประมวลผล ค่าที่ป้อน 3 ค่า ได้แก่

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

ในภาพประกอบต่อไปนี้ Perceptron จะใช้อินพุต 3 รายการ โดยแต่ละอินพุต จะถูกปรับด้วยน้ำหนักก่อนป้อน Perceptron ดังนี้

Perceptron ที่รับอินพุต 3 รายการ แล้วคูณด้วย
          ยกน้ำหนัก Perceptron จะแสดงค่าเดียว

Perceptrons คือเซลล์ประสาทใน โครงข่ายระบบประสาทเทียม

การแสดง

คำที่มากเกินไปซึ่งมีความหมายต่อไปนี้

  • ความหมายมาตรฐานภายในวิศวกรรมซอฟต์แวร์ ได้แก่ ความเร็ว (หรือมีประสิทธิภาพ) ซอฟต์แวร์นี้ทำงานอยู่หรือไม่
  • ความหมายในแมชชีนเลิร์นนิง ในที่นี้ ประสิทธิภาพจะช่วยตอบคำถาม คำถามต่อไปนี้: โมเดลนี้ถูกต้องเพียงใด นั่นคือ การคาดการณ์ของโมเดลดีแค่ไหน

ความสำคัญของตัวแปรการเรียงสับเปลี่ยน

#df

ลำดับความสำคัญของตัวแปรประเภทหนึ่งที่ประเมิน ข้อผิดพลาดการคาดการณ์ที่เพิ่มขึ้นของโมเดลหลังจากเปลี่ยนค่า ของฟีเจอร์ ความสำคัญของตัวแปรการเรียงสับเปลี่ยนจะไม่อิงตามโมเดล เมตริก

งุนงง

ข้อมูลวัดว่าโมเดลทำงานได้ดีเพียงใด เช่น สมมติว่างานของคุณคือการอ่านตัวอักษร 2-3 ตัวแรกของคำ ผู้ใช้กำลังพิมพ์บนแป้นพิมพ์ของโทรศัพท์ และเพื่อเสนอรายการที่เป็นไปได้ คำที่สมบูรณ์ งุนงง P สำหรับงานนี้คือจำนวนโดยประมาณ ที่คุณต้องเสนอเพื่อให้รายการของคุณมี คำที่ผู้ใช้พยายามพิมพ์

ความซับซ้อนเกี่ยวข้องกับครอสเอนโทรปีดังนี้

$$P= 2^{-\text{cross entropy}}$$

ไปป์ไลน์

โครงสร้างพื้นฐานที่ห้อมล้อมอัลกอริทึมแมชชีนเลิร์นนิง ไปป์ไลน์ รวมถึงการรวบรวมข้อมูล การจัดข้อมูลลงในไฟล์ข้อมูลการฝึก ฝึกโมเดลอย่างน้อย 1 โมเดล และการส่งออกโมเดลดังกล่าวไปยังเวอร์ชันที่ใช้งานจริง

การไปป์ท่อ

#language

รูปแบบของโมเดลคู่ขนานที่โมเดลของ การประมวลผลจะแบ่งออกเป็นระยะต่อเนื่องกันและดำเนินการตามแต่ละระยะ บนอุปกรณ์อื่น ขณะที่ขั้นตอนกำลังประมวลผล 1 กลุ่ม พารามิเตอร์ สามารถทำงานกับแบตช์ถัดไปได้

ดูการฝึกอบรมแบบทีละขั้นเพิ่มเติม

Pjit

ฟังก์ชัน JAX ที่แยกโค้ดเพื่อเรียกใช้ใน ชิป Accelerator ผู้ใช้ส่งฟังก์ชันไปยัง pjit ซึ่งจะแสดงผลฟังก์ชันที่มีความหมายเทียบเท่ากันแต่ถูกคอมไพล์ ลงในการประมวลผล XLA ที่ทำงานในอุปกรณ์หลายเครื่อง (เช่น GPU หรือแกน TPU)

pjit ช่วยให้ผู้ใช้ชาร์ดการคำนวณได้โดยไม่ต้องเขียนใหม่โดยใช้ พาร์ติชัน SPMD

ตั้งแต่เดือนมีนาคม 2023 เราได้ผสานรวม pjit กับ jit แล้ว โปรดดู อาร์เรย์แบบกระจายและอัตโนมัติ การโหลดพร้อมกัน เพื่อดูรายละเอียดเพิ่มเติม

PLM

#language
#generativeAI

ตัวย่อของโมเดลภาษาก่อนการฝึก

Pmap

ฟังก์ชัน JAX ที่เรียกใช้สำเนาของฟังก์ชันอินพุต ในอุปกรณ์ฮาร์ดแวร์พื้นฐานหลายเครื่อง (CPU, GPU หรือ TPU) ที่มีค่าอินพุตต่างกัน pmap ใช้ SPMD

policy

#rl

ในการเรียนรู้แบบเสริมกำลัง การแมปความน่าจะเป็นของ ตัวแทน จากสถานะเป็นการดำเนินการ

การรวมกลุ่มกัน

#image

การลดเมทริกซ์ (หรือเมทริกซ์) ที่สร้างโดย convolutional Layer ให้เป็นเมทริกซ์ที่เล็กลง การรวมกลุ่มมักจะต้องใช้ค่าสูงสุดหรือค่าเฉลี่ย ในพื้นที่ร่วม ตัวอย่างเช่น สมมติว่าเรามี เมทริกซ์ 3x3 ต่อไปนี้

เมทริกซ์ 3x3 [[5,3,1], [8,2,5], [9,4,3]]

การดำเนินการร่วมก็เหมือนกับการดำเนินการคอนโวลูชัน (Convolutional) จะแบ่งว่า เมทริกซ์เป็นชิ้นๆ แล้วสไลด์ที่การดำเนินการคอนโวลูชันโดย ความก้าวหน้า ตัวอย่างเช่น สมมติว่าการดำเนินการจัดกลุ่ม แบ่งเมทริกซ์คอนโวลูชันัล (Convolutional Matrix) ออกเป็น 2 ส่วน 1 ส่วนที่มีจังหวะการก้าว 1x1 ดังที่แสดงในแผนภาพต่อไปนี้ ได้มีการสรุปข้อมูลเกิดขึ้น 4 รายการ สมมติว่าการดำเนินการร่วมแต่ละรายการเลือกค่าสูงสุดของ 4 ในส่วนนั้น

เมทริกซ์อินพุตคือ 3x3 ซึ่งมีค่าดังนี้ [[5,3,1], [8,2,5], [9,4,3]]
          เมทริกซ์ย่อย 2x2 ด้านซ้ายบนของเมทริกซ์อินพุตคือ [[5,3], [8,2]] ดังนั้น
          การดำเนินการพูลด้านซ้ายบนจะให้ค่า 8 (ซึ่งเป็นค่า
          สูงสุด 5, 3, 8 และ 2) เมทริกซ์ย่อย 2x2 ด้านขวาบนของอินพุต
          เมทริกซ์คือ [[3,1], [2,5]] ดังนั้นการดำเนินการพูลทางด้านขวาบนจะให้ค่า
          ค่า 5 เมทริกซ์ย่อยขนาด 2x2 ด้านซ้ายล่างของเมทริกซ์อินพุตคือ
          [[8,2], [9,4]] ดังนั้นการดำเนินการพูลด้านซ้ายล่างจะให้ค่า
          10. เมทริกซ์ย่อยขนาด 2x2 ด้านขวาล่างของเมทริกซ์อินพุตคือ
          [[2,5], [4,3]] ดังนั้นการดำเนินการจัดกลุ่มทางด้านขวาล่างจะให้ค่า
          5. สรุปคือการดำเนินการพูลจะแสดงผลเมทริกซ์ 2x2
          [[8,5], [9,5]]

การรวมกลุ่มจะช่วยบังคับใช้ ความแปรปรวนของการแปลในเมทริกซ์อินพุต

การรวมกลุ่มสำหรับแอปพลิเคชัน Vision มีชื่อเรียกอย่างเป็นทางการว่าการรวมกลุ่มข้อมูลเชิงพื้นที่ แอปพลิเคชันอนุกรมเวลามักจะเรียกการรวมเป็นการรวบรวมข้อมูลชั่วคราว การรวมอย่างไม่เป็นทางการมักเรียกว่าการสุ่มตัวอย่างหรือการสุ่มตัวอย่าง

การเข้ารหัสตำแหน่ง

#language

เทคนิคในการเพิ่มข้อมูลเกี่ยวกับตำแหน่งของโทเค็นตามลำดับเพื่อ กับการฝังโทเค็น โมเดลหม้อแปลงใช้ตำแหน่ง เพื่อทำความเข้าใจความสัมพันธ์ระหว่างส่วนต่างๆ ของ ตามลำดับ

การใช้งานการเข้ารหัสตำแหน่งโดยทั่วไปจะใช้ฟังก์ชันไซนัสซอยด์ (โดยเฉพาะอย่างยิ่ง ความถี่และแอมพลิจูดของฟังก์ชันไซนัสซอยด์ ซึ่งกำหนดโดยตำแหน่งของโทเค็นในลำดับ) เทคนิคนี้ ทำให้โมเดล Transformer ได้เรียนรู้ที่จะมีส่วนร่วมในส่วนต่างๆ ของ ตามลำดับตามตำแหน่ง

คลาสเชิงบวก

#fundamentals

ชั้นเรียนที่คุณกำลังทดสอบ

ตัวอย่างเช่น คลาสเชิงบวกในรูปแบบมะเร็งอาจเป็น "เนื้องอก" ประเภทเชิงบวกในตัวแยกประเภทอีเมลอาจเป็น "สแปม"

ตัดกับคลาสเชิงลบ

หลังการประมวลผล

#fairness
#fundamentals

ปรับเอาต์พุตของโมเดลหลังจากเรียกใช้โมเดลแล้ว กระบวนการหลังการประมวลผลสามารถใช้เพื่อบังคับใช้ข้อจำกัดความเป็นธรรมได้โดยไม่ต้อง การดัดแปลงโมเดลด้วยตนเอง

ตัวอย่างเช่น รายการหนึ่งอาจใช้การประมวลผลภายหลังกับตัวแยกประเภทแบบไบนารี ด้วยการตั้งค่าเกณฑ์การจัดประเภท ความเท่าเทียมของโอกาสจะคงเดิม สำหรับแอตทริบิวต์บางรายการ โดยตรวจสอบว่าอัตราผลบวกจริง เหมือนกันสำหรับค่าของแอตทริบิวต์นั้น

PR AUC (พื้นที่ใต้กราฟ PR)

พื้นที่ใต้การประมาณค่า กราฟ Precision-Recall ที่ได้จากการวางแผน (ความอ่อนไหว ความแม่นยำ) สำหรับค่าต่างๆ ของ เกณฑ์การแยกประเภท ขึ้นอยู่กับวิธีการ คำนวณโดย PR AUC อาจเทียบเท่ากับ ความแม่นยำเฉลี่ยของโมเดล

Praxis

ไลบรารี ML หลักและประสิทธิภาพสูงของ Pax มักเป็น ที่เรียกว่า "ไลบรารีเลเยอร์"

Praxis ไม่ได้มีเพียงคำนิยามของคลาสเลเยอร์ แต่รวมถึง คอมโพเนนต์สนับสนุนของ Google ด้วย ซึ่งได้แก่

Praxis ให้คำจำกัดความของคลาสโมเดล

ความแม่นยำ

เมตริกสำหรับรูปแบบการจัดประเภทที่ตอบคำถาม คำถามต่อไปนี้

เมื่อโมเดลคาดการณ์คลาสเชิงบวก การคาดคะเนถูกต้องกี่เปอร์เซ็นต์

โดยมีสูตรดังนี้

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

โดยมี

  • ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสเชิงบวกอย่างถูกต้อง
  • ผลบวกลวงหมายความว่าโมเดลคาดการณ์คลาสเชิงบวกไม่ถูกต้อง

ตัวอย่างเช่น สมมติว่าโมเดลทำการคาดการณ์เชิงบวก 200 ครั้ง จากการคาดการณ์เชิงบวก 200 ข้อต่อไปนี้

  • โดย 150 คนเป็นผลบวกจริง
  • โดย 50 รายการเป็นผลบวกลวง

ในกรณีนี้

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

ตัดกับความแม่นยำและความอ่อนไหว

ดูการจัดประเภท: ความถูกต้อง การจดจำ ความแม่นยำ และความเกี่ยวข้อง เมตริก เพื่อดูข้อมูลเพิ่มเติม

กราฟ Precision-Recall

เส้นโค้งของความแม่นยําเทียบกับความอ่อนไหวที่แตกต่างกัน เกณฑ์การจัดประเภท

การคาดการณ์

#fundamentals

เอาต์พุตของโมเดล เช่น

  • การคาดการณ์ของโมเดลการจัดประเภทแบบไบนารีจะเป็นค่าบวก หรือคลาสเชิงลบ
  • การคาดการณ์ของโมเดลการจัดประเภทแบบหลายคลาสคือ 1 คลาส
  • การคาดคะเนของโมเดลการถดถอยเชิงเส้นเป็นตัวเลข

อคติในการคาดการณ์

ค่าที่ระบุว่าห่างจากค่าเฉลี่ยของ การคาดคะเนมาจากค่าเฉลี่ยของป้ายกำกับ ในชุดข้อมูล

อย่าสับสนกับคำที่ให้น้ำหนักพิเศษในโมเดลแมชชีนเลิร์นนิง หรือมีอคติทางจริยธรรมและความยุติธรรม

ML การคาดการณ์

ระบบแมชชีนเลิร์นนิงมาตรฐาน ("คลาสสิก") ทุกประเภท

คำว่า ML เชิงคาดการณ์ไม่มีคำจำกัดความอย่างเป็นทางการ แต่คำนี้แยกหมวดหมู่ของระบบ ML ซึ่งไม่อิงตาม Generative AI

ความเท่าเทียมตามการคาดการณ์

#fairness

เมตริกความยุติธรรมที่ตรวจสอบว่า สำหรับตัวแยกประเภทหนึ่งๆ อัตราความแม่นยํา เทียบเท่ากับกลุ่มย่อยภายใต้การพิจารณา

ตัวอย่างเช่น โมเดลที่คาดการณ์ว่าเข้ามหาวิทยาลัยจะตรงตาม ความเท่าเทียมตามการคาดการณ์สำหรับสัญชาติ หากอัตราความแม่นยำเท่ากัน สำหรับ Lilliputians และ Brobdingnagians

ความเท่าเทียมตามการคาดการณ์บางครั้งเรียกว่าความเท่าเทียมกันของอัตราตามการคาดการณ์

ดู "คำนิยาม Explained" (ส่วนที่ 3.2.1) สำหรับการพูดคุยอย่างละเอียดเกี่ยวกับ ความเท่าเทียมในการคาดการณ์

ความเท่าเทียมกันของอัตราที่คาดการณ์

#fairness

อีกชื่อหนึ่งของความเท่าเทียมตามการคาดการณ์

การประมวลผลล่วงหน้า

#fairness
การประมวลผลข้อมูลก่อนที่จะนำไปใช้ในการฝึกโมเดล การประมวลผลล่วงหน้าอาจ ทำได้ง่ายๆ อย่างการลบคำจากคลังข้อความภาษาอังกฤษ เกิดขึ้นในพจนานุกรมภาษาอังกฤษ หรืออาจจะซับซ้อนพอๆ กับการแสดงออก จุดข้อมูลในลักษณะที่จะกำจัดแอตทริบิวต์ที่มีความสัมพันธ์กัน โดยใช้แอตทริบิวต์ที่ละเอียดอ่อนให้มากที่สุดเท่าที่จะเป็นไปได้ การประมวลผลล่วงหน้าจะช่วยให้เป็นไปตามข้อจำกัดเกี่ยวกับความยุติธรรมได้

โมเดลก่อนการฝึก

#language
#image
#generativeAI

โมเดลหรือคอมโพเนนต์ของโมเดล (เช่น เวกเตอร์การฝัง) ที่ได้รับการฝึกแล้ว บางครั้งคุณจะป้อนเวกเตอร์ที่มีการฝังก่อนการฝึกลงใน โครงข่ายระบบประสาทเทียม แต่บางครั้ง โมเดลของคุณจะฝึก ฝังเวกเตอร์ด้วยตนเอง แทนที่จะใช้การฝังที่ได้รับการฝึกล่วงหน้า

คำว่าโมเดลภาษาก่อนการฝึกหมายถึง โมเดลภาษาขนาดใหญ่ที่ได้ผ่านการทดสอบ การฝึกอบรมล่วงหน้า

การฝึกล่วงหน้า

#language
#image
#generativeAI

การฝึกเริ่มต้นของโมเดลในชุดข้อมูลขนาดใหญ่ โมเดลก่อนการฝึกบางรุ่น เป็นยักษ์จอมซุ่มและมักจะต้องได้รับการปรับปรุงผ่านการฝึกอบรมเพิ่มเติม ตัวอย่างเช่น ผู้เชี่ยวชาญด้าน ML อาจฝึกอบรม โมเดลภาษาขนาดใหญ่บนชุดข้อมูลข้อความขนาดใหญ่ เช่นหน้าภาษาอังกฤษทั้งหมดใน Wikipedia หลังจากการฝึกอบรมล่วงหน้า โมเดลผลลัพธ์อาจได้รับการปรับแต่งเพิ่มเติมผ่านเกณฑ์ต่อไปนี้ เทคนิค

ความเชื่อเดิม

สิ่งที่คุณเชื่อเกี่ยวกับข้อมูลก่อนที่จะเริ่มการฝึกอบรมเกี่ยวกับข้อมูลนั้น ตัวอย่างเช่น การกำหนดมาตรฐาน L2 จะอิงตาม มีความเชื่อก่อนหน้านี้ว่าน้ำหนักควรมีขนาดเล็กและตามปกติ กระจายรอบ 0

แบบจำลองการถดถอยแบบความน่าจะเป็น

โมเดลการถดถอยซึ่งไม่เพียงใช้ น้ำหนักสำหรับแต่ละฟีเจอร์ แต่รวมถึง ความไม่แน่นอนของน้ำหนักนั้นเลย โมเดลการถดถอยความน่าจะเป็นทำให้เกิด การคาดคะเนและความไม่แน่นอนของการคาดคะเนนั้น ตัวอย่างเช่น โมเดลการถดถอยแบบความน่าจะเป็นอาจแสดงค่าการคาดคะเนของ 325 ที่มีค่า ค่าเบี่ยงเบนมาตรฐานเป็น 12 ดูข้อมูลเพิ่มเติมเกี่ยวกับความน่าจะเป็นในการถดถอย โปรดดู Colab นี้ใน tensorflow.org.

ฟังก์ชันความหนาแน่นของความน่าจะเป็น

ฟังก์ชันที่ระบุความถี่ของตัวอย่างข้อมูลที่มีตาม ค่าหนึ่งๆ เมื่อค่าของชุดข้อมูลคือจุดลอยตัวอย่างต่อเนื่อง รายการที่ตรงกันทั้งหมด แทบจะไม่เกิดขึ้น อย่างไรก็ตาม การผสานรวมความน่าจะเป็น ฟังก์ชันความหนาแน่นจากค่า x ถึงค่า y ให้ค่าความถี่ที่คาดไว้ของ ตัวอย่างข้อมูลระหว่าง x ถึง y

ตัวอย่างเช่น ลองพิจารณาการแจกแจงปกติที่มีค่าเฉลี่ยเท่ากับ 200 และ ส่วนเบี่ยงเบนมาตรฐานเป็น 30 เพื่อหาความถี่ที่คาดไว้ของตัวอย่างข้อมูล อยู่ภายในช่วง 211.4 ถึง 218.7 คุณสามารถผสานรวมความน่าจะเป็น ฟังก์ชันความหนาแน่นสำหรับการกระจายปกติจาก 211.4 ถึง 218.7

ข้อความแจ้ง

#language
#generativeAI

ข้อความที่ป้อนเป็นอินพุตในโมเดลภาษาขนาดใหญ่ เพื่อกำหนดเงื่อนไขของโมเดลให้ทำงานในลักษณะต่างๆ พรอมต์อาจสั้นเป็น วลีหรือยาวโดยไม่มีกฎเกณฑ์ (เช่น ข้อความทั้งหมดในนิยาย) พรอมต์ แบ่งออกเป็นหลายหมวดหมู่ ซึ่งรวมถึงหมวดหมู่ที่แสดงในตารางต่อไปนี้

หมวดหมู่ข้อความแจ้ง ตัวอย่าง หมายเหตุ
คำถาม นกพิราบบินได้เร็วแค่ไหน
โรงเรียนฝึกอบรม เขียนกลอนตลกๆ เกี่ยวกับการหากำไร พรอมต์ที่ขอให้โมเดลภาษาขนาดใหญ่ทำบางอย่าง
ตัวอย่าง แปลโค้ดมาร์กดาวน์เป็น HTML ดังตัวอย่างต่อไปนี้
มาร์กดาวน์: * รายการ
HTML: <ul> <li>รายการ</li> &lt;/ul&gt;
ประโยคแรกในพรอมต์ตัวอย่างนี้คือคำสั่ง ส่วนที่เหลือของข้อความแจ้งเป็นตัวอย่าง
บทบาท อธิบายเหตุผลที่ต้องใช้การไล่ระดับสีในการฝึกแมชชีนเลิร์นนิงเพื่อ ปริญญาเอกสาขาฟิสิกส์ ส่วนแรกของประโยคเป็นคำสั่ง วลี "เรียนปริญญาเอกในสาขาฟิสิกส์" คือส่วนของบทบาท
ป้อนข้อมูลบางส่วนสำหรับโมเดลให้เสร็จสมบูรณ์ นายกรัฐมนตรีของสหราชอาณาจักรอาศัยอยู่ที่ พรอมต์อินพุตบางส่วนอาจสิ้นสุดลงทันที (ดังตัวอย่างนี้) หรือลงท้ายด้วยขีดล่างก็ได้

โมเดล Generative AI สามารถตอบสนองต่อพรอมต์ด้วยข้อความ โค้ด รูปภาพ การฝัง วิดีโอ หรือแทบจะทุกอย่าง

การเรียนรู้จากพรอมต์

#language
#generativeAI

ความสามารถของโมเดลบางรูปแบบที่ช่วยให้ปรับเปลี่ยนได้ พฤติกรรมของผู้ใช้ตามการป้อนข้อความที่กำหนดเอง (พรอมต์) ในกระบวนทัศน์การเรียนรู้จากพรอมต์ทั่วไป โมเดลภาษาขนาดใหญ่ตอบสนองต่อพรอมต์โดย การสร้างข้อความ เช่น สมมติว่าผู้ใช้ป้อนพรอมต์ต่อไปนี้

สรุปกฎการเคลื่อนที่ข้อที่ 3 ของนิวตัน

โมเดลที่สามารถเรียนรู้จากพรอมต์ไม่ได้มีการฝึกให้ตอบคำถามโดยเฉพาะ ข้อความแจ้งก่อนหน้า แต่โมเดล "รู้" ข้อเท็จจริงมากมายเกี่ยวกับฟิสิกส์ เกี่ยวกับกฎภาษาทั่วไปได้มากมาย และพูดถึงสิ่งที่ประกอบขึ้นเป็นโดยทั่วไปแล้ว คำตอบที่มีประโยชน์ ความรู้ดังกล่าวเพียงพอที่จะให้ (หวังว่า) คำตอบ ความคิดเห็นเพิ่มเติมจากมนุษย์ ("คำตอบนั้นซับซ้อนเกินไป" หรือ "What's a impact?") ช่วยให้ระบบการเรียนรู้ที่ใช้พรอมต์บางระบบค่อยๆ เรียนรู้ได้ ปรับปรุงประโยชน์ของคำตอบได้

การออกแบบพรอมต์

#language
#generativeAI

คำพ้องของ prompt Engineering

พรอมต์วิศวกรรม

#language
#generativeAI

ศิลปะการสร้างข้อความแจ้งที่กระตุ้นให้เกิดคำตอบที่ต้องการ จากโมเดลภาษาขนาดใหญ่ มนุษย์แสดงพรอมต์ วิศวกรรมศาสตร์ การเขียนพรอมต์แบบมีโครงสร้างที่ดีเป็นส่วนสำคัญในการสร้างความมั่นใจ คำตอบที่เป็นประโยชน์จากโมเดลภาษาขนาดใหญ่ วิศวกรรมพรอมต์ขึ้นอยู่กับ หลายปัจจัย ได้แก่

  • ชุดข้อมูลที่ใช้ในการฝึกล่วงหน้าและอาจ ปรับแต่งโมเดลภาษาขนาดใหญ่
  • temperature และพารามิเตอร์การถอดรหัสอื่นๆ ที่ โมเดลใช้ในการสร้างคำตอบ

โปรดดู ข้อมูลเบื้องต้นเกี่ยวกับการออกแบบพรอมต์ เพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับการเขียนพรอมต์ที่เป็นประโยชน์

การออกแบบพรอมต์เป็นคำพ้องความหมายของพรอมต์วิศวกรรม

การปรับแต่งพรอมต์

#language
#generativeAI

กลไกการปรับแต่งประสิทธิภาพของพารามิเตอร์ ที่เรียนรู้ "คำนำหน้า" ที่ระบบเพิ่มไว้ข้างหน้า ข้อความแจ้งจริง

รูปแบบหนึ่งของการปรับแต่งพรอมต์ ซึ่งบางครั้งเรียกว่าการปรับแต่งคำนำหน้า คือการ ใส่คำนำหน้าที่ทุกเลเยอร์ ในทางตรงกันข้าม การปรับแต่งพรอมต์ส่วนใหญ่ เพิ่มคำนำหน้าลงในเลเยอร์อินพุต

ป้ายกำกับพร็อกซี

#fundamentals

ข้อมูลที่ใช้ในการประมาณป้ายกำกับที่ไม่มีในชุดข้อมูลโดยตรง

ตัวอย่างเช่น สมมติว่าคุณต้องฝึกโมเดลเพื่อคาดการณ์พนักงาน ความเครียด ชุดข้อมูลของคุณมีฟีเจอร์การคาดการณ์มากมาย ไม่มีป้ายกำกับที่ชื่อระดับความเครียด ไม่ต้องกังวล คุณเลือก "อุบัติเหตุในที่ทำงาน" เป็นป้ายกำกับพร็อกซีสำหรับ ความเครียด เพราะพนักงานที่มีความเครียดสูง มักจะใช้เวลามากกว่า มากกว่าพนักงานที่สงบนิ่ง หรือว่า อาจเกิดอุบัติเหตุในที่ทำงาน เพิ่มขึ้นและลดลงจากหลายสาเหตุ

ตัวอย่างที่สอง สมมติว่าคุณต้องการให้ฝนตกไหมเป็นป้ายกำกับบูลีน สำหรับชุดข้อมูล แต่ชุดข้อมูลไม่มีข้อมูลฝน ถ้า มีภาพถ่ายให้ใช้งาน คุณอาจสร้างภาพคน พกร่มเป็นป้ายกำกับพร็อกซีว่าฝนตกไหม ใช่ไหม ป้ายกำกับพร็อกซีที่ดีหรือไม่ ก็จริง แต่คนในบางวัฒนธรรมอาจ มีแนวโน้มที่จะพกร่มเพื่อป้องกันแสงแดดมากกว่าฝน

ป้ายกำกับพร็อกซีมักจะไม่สมบูรณ์ หากเป็นไปได้ ให้เลือกป้ายกำกับจริงแทน ป้ายกำกับพร็อกซี ซึ่งหมายความว่าเมื่อไม่มีป้ายกำกับจริง ให้เลือกพร็อกซี ติดป้ายกำกับอย่างระมัดระวัง โดยเลือกตัวเลือก, ป้ายกำกับพร็อกซีที่ไม่แม่นยำที่สุด

พร็อกซี (แอตทริบิวต์ที่ละเอียดอ่อน)

#fairness
แอตทริบิวต์ที่ใช้เป็นส่วนเสริมสำหรับ แอตทริบิวต์ที่มีความละเอียดอ่อน ตัวอย่างเช่น รหัสไปรษณีย์ของบุคคลธรรมดาสามารถใช้เป็นค่าตอบแทนสำหรับรายได้ เชื้อชาติ หรือชาติพันธุ์

ฟังก์ชันที่แท้จริง

ฟังก์ชันที่เอาต์พุตจะอิงตามอินพุตเท่านั้น และไม่มีด้านใดด้านหนึ่ง เอฟเฟกต์ โดยเฉพาะอย่างยิ่ง ฟังก์ชัน Pure ไม่ได้ ใช้หรือเปลี่ยนแปลงสถานะระดับโลกใดๆ เช่น เนื้อหาของไฟล์ หรือค่าของตัวแปรที่อยู่นอกฟังก์ชัน

แต่ใช้ฟังก์ชันที่แท้จริงในการสร้างโค้ดสำหรับความปลอดภัยของชุดข้อความได้ ซึ่งเป็นข้อดี เมื่อชาร์ดดิ้งโค้ด model ในหลาย ชิป Accelerator

วิธีการเปลี่ยนรูปแบบฟังก์ชันของ JAX ต้องใช้ ว่าฟังก์ชันอินพุตเป็นฟังก์ชันที่สมบูรณ์

Q

ฟังก์ชัน Q

#rl

ในการเรียนรู้แบบเสริมกำลัง ฟังก์ชันที่ คาดการณ์ผลตอบแทนที่คาดว่าจะได้รับจากการ การดำเนินการใน state จากนั้นทำตามนโยบายที่กำหนด

ฟังก์ชัน Q เรียกอีกอย่างว่าฟังก์ชันค่าสถานะการดำเนินการ

Q-learning

#rl

ในการเรียนรู้แบบเสริมกำลัง อัลกอริทึมที่ อนุญาต agent เพื่อเรียนรู้ฟังก์ชัน Q ที่เหมาะสมที่สุด กระบวนการตัดสินใจของมาร์คอฟด้วยการใช้ สมการ Bellman โมเดลกระบวนการตัดสินใจของมาร์คอฟ สภาพแวดล้อม

ควอนไทล์

ที่เก็บข้อมูลแต่ละรายการในที่เก็บข้อมูลแบบควอนไทล์

การฝากข้อมูลควอนไทล์

กระจายค่าของฟีเจอร์ลงในที่เก็บข้อมูล เพื่อให้แต่ละที่เก็บข้อมูล ที่เก็บข้อมูลจะมีตัวอย่างจำนวนเท่ากัน (หรือเกือบเท่ากัน) ตัวอย่างเช่น รูปต่อไปนี้แบ่ง 44 จุดออกเป็น 4 จุด โดยแต่ละถัง มี 11 คะแนน เพื่อให้ที่เก็บข้อมูลแต่ละชุดในรูปมีฟิลด์ จำนวนจุดเท่ากัน ที่เก็บข้อมูลบางส่วนขยายความกว้างของค่า x ต่างกัน

จุดข้อมูล 44 จุดแบ่งออกเป็น 4 ที่เก็บข้อมูล จุดละ 11 จุด
          แม้ว่าที่เก็บข้อมูลแต่ละชุดจะมีจำนวนจุดข้อมูลเท่ากัน
          ที่เก็บข้อมูลบางรายการมีช่วงของค่าฟีเจอร์ที่หลากหลายกว่าค่าอื่น
          ใหม่

การวัดขนาด

ข้อความที่มากเกินไปซึ่งอาจนำไปใช้ในลักษณะต่อไปนี้ได้

  • การใช้การฝากข้อมูลควอนไทล์ เกี่ยวกับฟีเจอร์ที่เฉพาะเจาะจง
  • เปลี่ยนข้อมูลให้เป็น 0 และ 0 เพื่อให้จัดเก็บ ฝึก และ และใช้การอนุมาน เนื่องจากข้อมูลบูลีนมีประสิทธิภาพต่อสัญญาณรบกวนและข้อผิดพลาดมากกว่า ในรูปแบบอื่นๆ การวัดปริมาณจะช่วยปรับปรุงความถูกต้องของโมเดลได้ เทคนิคการวัดขนาด ได้แก่ การปัดเศษ การตัดทอน และ binning
  • การลดจำนวนบิตที่ใช้ในการจัดเก็บโมเดล parameters ตัวอย่างเช่น สมมติว่าพารามิเตอร์ของโมเดลคือ จัดเก็บเป็นตัวเลขทศนิยม 32 บิต การวัดปริมาณจะแปลง ซึ่งมีตั้งแต่ 32 บิตไปจนถึง 4, 8 หรือ 16 บิต การวัดช่วยลด ดังต่อไปนี้:

    • การใช้การประมวลผล หน่วยความจำ ดิสก์ และเครือข่าย
    • ได้เวลาอนุมานการคาดการณ์ล่วงหน้าแล้ว
    • การใช้พลังงาน

    อย่างไรก็ตาม บางครั้งการวัดปริมาณจะลดความถูกต้องของโมเดล การคาดการณ์

คิว

#TensorFlow

การดำเนินการของ TensorFlow ที่นำข้อมูลคิวไปใช้ ใหม่ มักใช้ใน I/O

R

RAG

#fundamentals

ตัวย่อสำหรับ รุ่นที่รองรับการดึงข้อมูล

สุ่มป่า

#df

ชุดต้นไม้การตัดสินใจใน ซึ่งแผนผังการตัดสินใจแต่ละรายการจะได้รับการฝึก ด้วยความผันผวนแบบสุ่มที่เฉพาะเจาะจง เช่น การแบ็กกิ้ง

ป่าสุ่มเป็นป่าการตัดสินใจประเภทหนึ่ง

นโยบายแบบสุ่ม

#rl

ในการเรียนรู้แบบเสริมกำลัง นโยบายที่เลือก action แบบสุ่ม

การจัดอันดับ

ประเภทของการเรียนรู้แบบมีการควบคุมดูแลประเภทหนึ่งที่ จุดประสงค์ของการจัดเรียงรายการคือ

อันดับ (ลำดับ)

ตำแหน่งตามลำดับของชั้นเรียนในโจทย์แมชชีนเลิร์นนิงที่จัดหมวดหมู่ จากสูงสุดไปต่ำสุด เช่น การจัดอันดับพฤติกรรม ระบบสามารถจัดอันดับรางวัลของสุนัขจากสูงสุด (สเต็ก) ถึง ต่ำสุด (ผักเคลที่ร่วงโรย)

อันดับ (Tensor)

#TensorFlow

จำนวนมิติข้อมูลใน Tensor ตัวอย่างเช่น สเกลาร์มีอันดับ 0 เวกเตอร์มีอันดับ 1 และเมทริกซ์มีอันดับ 2

โปรดอย่าสับสนกับอันดับ (ลำดับ)

ผู้ให้คะแนน

#fundamentals

บุคคลที่ให้ป้ายกำกับสำหรับตัวอย่าง "ผู้เขียนคำอธิบายประกอบ" เป็นอีกชื่อหนึ่งของผู้ตรวจสอบ

การเรียกคืน

เมตริกสำหรับรูปแบบการจัดประเภทที่ตอบคำถาม คำถามต่อไปนี้

เมื่อข้อมูลที่เป็นความจริง คลาสเชิงบวก เปอร์เซ็นต์การคาดคะเนที่ทำ โมเดลระบุว่าเป็นคลาสเชิงบวกได้ถูกต้องหรือไม่

โดยมีสูตรดังนี้

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

โดยมี

  • ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสเชิงบวกอย่างถูกต้อง
  • ผลลบลวงหมายความว่าโมเดลมีข้อผิดพลาดคาดการณ์ คลาสเชิงลบ

ตัวอย่างเช่น สมมติว่าโมเดลของคุณทำการคาดการณ์ 200 รายการในตัวอย่างที่ ข้อมูลจากการสังเกตการณ์โดยตรงเป็นชั้นเรียนเชิงบวก จากการคาดการณ์ 200 ข้อต่อไปนี้

  • คะแนน 180 เป็นผลบวกจริง
  • 20 เป็นผลลบลวง

ในกรณีนี้

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

ดูการจัดประเภท: ความถูกต้อง การจดจำ ความแม่นยำ และความเกี่ยวข้อง เมตริก เพื่อดูข้อมูลเพิ่มเติม

ระบบการแนะนำ

#recsystems

ระบบที่เลือกกลุ่มที่ต้องการสำหรับผู้ใช้แต่ละราย items จากคลังข้อมูลขนาดใหญ่ ตัวอย่างเช่น ระบบการแนะนำวิดีโออาจแนะนำวิดีโอ 2 รายการ จากคลังวิดีโอกว่า 100,000 รายการ เลือกคาซาบลังกา และ The Philadelphia Story สำหรับผู้ใช้ 1 ราย และ Wondergirl และ Black Panther สำหรับอีกเวอร์ชัน ระบบการแนะนำวิดีโออาจ จะอิงตามคำแนะนำจากปัจจัยต่างๆ เช่น

  • ภาพยนตร์ที่ผู้ใช้ที่คล้ายกันเคยให้คะแนนหรือรับชม
  • ประเภท ผู้กำกับ นักแสดง กลุ่มประชากรเป้าหมาย...

หน่วยเชิงเส้นแบบหยัก (ReLU)

#fundamentals

ฟังก์ชันเปิดใช้งานที่มีลักษณะการทำงานดังต่อไปนี้

  • หากอินพุตเป็นลบหรือ 0 เอาต์พุตจะเป็น 0
  • หากอินพุตเป็นบวก เอาต์พุตจะเท่ากับอินพุต

เช่น

  • หากอินพุตเป็น -3 เอาต์พุตจะเป็น 0
  • ถ้าอินพุตคือ +3 เอาต์พุตจะเป็น 3.0

นี่คือโครงเรื่อง ReLU

พล็อตตัวการ์ตูนที่มี 2 บรรทัด บรรทัดแรกมีค่าคงที่
          ค่า y เป็น 0 วิ่งตามแกน x จาก -infinity, 0 ถึง 0,-0
          บรรทัดที่ 2 จะเริ่มที่ 0,0 เส้นนี้มีความชันของ +1 ดังนั้น
          ก็จะมีตั้งแต่ 0,0 ถึง +infinity,+infinity

ReLU เป็นฟังก์ชันเปิดใช้งานที่ได้รับความนิยมอย่างมาก แม้จะมีลักษณะการทำงานที่เรียบง่าย ReLU ยังคงทำให้โครงข่ายประสาทเรียนรู้แบบnonlinearได้ ความสัมพันธ์ระหว่าง features กับป้ายกำกับ

โครงข่ายระบบประสาทเทียมแบบเกิดซ้ำ

#seq

โครงข่ายระบบประสาทเทียมที่จงใจเรียกใช้หลายเครือข่าย โดยให้ส่วนต่างๆ ของแต่ละฟีดทำงานครั้งถัดไป โดยเฉพาะอย่างยิ่ง เลเยอร์ที่ซ่อนอยู่จากการเรียกใช้ครั้งก่อนทำให้แท็ก ลงในเลเยอร์ที่ซ่อนอยู่เดียวกันในการเรียกใช้ครั้งถัดไป โครงข่ายประสาทแบบเกิดซ้ำ มีประโยชน์อย่างยิ่งในการประเมินลำดับ เพื่อให้เลเยอร์ที่ซ่อนอยู่ สามารถเรียนรู้จากการเรียกใช้โครงข่ายระบบประสาทเทียมก่อนหน้านี้ ตามลำดับ

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโครงข่ายประสาทแบบเกิดซ้ำที่ ทำงาน 4 ครั้ง โปรดสังเกตว่าค่าที่เรียนรู้ในเลเยอร์ที่ซ่อนอยู่จาก การเรียกใช้ครั้งแรกจะกลายเป็นส่วนหนึ่งของอินพุตไปยังเลเยอร์ที่ซ่อนอยู่ใน การวิ่งครั้งที่ 2 ในทำนองเดียวกัน ค่าเรียนรู้ในเลเยอร์ที่ซ่อนอยู่ของ การเรียกใช้ครั้งที่ 2 จะกลายเป็นส่วนหนึ่งของอินพุตไปยังเลเยอร์ที่ซ่อนอยู่เดียวกันใน การวิ่งครั้งที่ 3 ในวิธีนี้ โครงข่ายประสาทแบบเกิดซ้ำจะค่อยๆ ฝึกและ คาดการณ์ความหมายของลำดับทั้งหมดแทนที่จะแสดงความหมายเพียงอย่างเดียว ของคำแต่ละคำได้

RNN ที่ทำงาน 4 ครั้งเพื่อประมวลผลคำที่ป้อน 4 คำ

โมเดลการถดถอย

#fundamentals

โมเดลที่สร้างการคาดการณ์เชิงตัวเลขแบบไม่เป็นทางการ (ในทางตรงกันข้าม โมเดลการแยกประเภทจะสร้างคลาส prediction.) ตัวอย่างเช่น ต่อไปนี้คือโมเดลการถดถอยทั้งหมด

  • โมเดลที่คาดการณ์มูลค่าของบ้านหนึ่งๆ เช่น 423,000 ยูโร
  • โมเดลที่คาดการณ์อายุคาดเฉลี่ยของต้นไม้บางต้น เช่น 23.2 ปี
  • โมเดลที่คาดการณ์ปริมาณน้ำฝนที่จะลดลงในเมืองหนึ่งๆ ในอีก 6 ชั่วโมงข้างหน้า เช่น 0.18 นิ้ว

โมเดลการถดถอยที่พบบ่อย 2 ประเภท ได้แก่

โมเดลบางส่วนที่แสดงการคาดการณ์เชิงตัวเลขจะไม่เป็นโมเดลการถดถอย ในบางกรณี การคาดคะเนตัวเลขเป็นเพียงโมเดลการจัดประเภทเท่านั้น ที่มีชื่อคลาสเป็นตัวเลข ตัวอย่างเช่น โมเดลที่คาดการณ์ว่า รหัสไปรษณีย์ที่เป็นตัวเลขคือโมเดลการจัดประเภท ไม่ใช่รูปแบบการถดถอย

Regularization

#fundamentals

กลไกที่ลดการปรับมากเกินไป ประเภทการกำหนดมาตรฐานซึ่งเป็นที่นิยม ได้แก่

การกำหนดมาตรฐานยังอาจหมายถึงบทลงโทษสำหรับความซับซ้อนของโมเดล

อัตราปกติ

#fundamentals

ตัวเลขที่ระบุความสำคัญสัมพัทธ์ของ การทำให้เป็นรูปแบบเดิมในระหว่างการฝึก ยกระดับ อัตราการแปลงมาตรฐานช่วยลดการปรับมากเกินไปแต่อาจ ลดกำลังการคาดการณ์ของโมเดลลง ในทางกลับกัน การลดหรือละเว้น อัตรามาตรฐานจะทำให้มีการปรับมากเกินไป

การเรียนรู้แบบเสริมกำลัง (RL)

#rl

กลุ่มอัลกอริทึมที่เรียนรู้นโยบายที่เหมาะสม ซึ่งมีเป้าหมาย คือการเพิ่มผลตอบแทนให้ได้สูงสุดเมื่อโต้ตอบกับ สภาพแวดล้อม ตัวอย่างเช่น รางวัลสูงสุดของเกมส่วนใหญ่คือชัยชนะ ระบบการเรียนรู้แบบเสริมกำลังจะกลายเป็นผู้เชี่ยวชาญในการเล่นที่ซับซ้อน ด้วยการประเมินการดำเนินเกมก่อนหน้าเป็นลำดับ ซึ่งในที่สุดแล้ว ซึ่งนำไปสู่ชัยชนะและลำดับความพ่ายแพ้ในที่สุด

การเรียนรู้แบบเสริมกำลังจากความคิดเห็นของมนุษย์ (RLHF)

#generativeAI
#rl

ใช้ความคิดเห็นจากเจ้าหน้าที่ตรวจสอบเพื่อปรับปรุงคุณภาพของคำตอบของโมเดล ตัวอย่างเช่น กลไก RLHF ขอให้ผู้ใช้ให้คะแนนคุณภาพของโมเดล คำตอบด้วยอีโมจิ 👍 หรือ 👎 จากนั้นระบบจะปรับการตอบสนองในอนาคต โดยอิงจากความคิดเห็นนั้น

ReLU

#fundamentals

ตัวย่อของหน่วยเชิงเส้นที่แก้ไขแล้ว

บัฟเฟอร์การเล่นซ้ำ

#rl

ในอัลกอริทึมที่คล้ายกับ DQN หน่วยความจำที่ Agent ใช้ เก็บการเปลี่ยนสถานะเพื่อใช้ใน การเล่นซ้ำ

ตัวจำลอง

สำเนาของชุดการฝึกหรือโมเดล ซึ่งมักจะอยู่ในเครื่องอื่น ตัวอย่างเช่น ระบบอาจใช้สิ่งต่อไปนี้ กลยุทธ์สำหรับการใช้ข้อมูลพร้อมกัน ได้แก่

  1. วางแบบจำลองของโมเดลที่มีอยู่ในเครื่องหลายเครื่อง
  2. ส่งชุดย่อยของชุดการฝึกที่แตกต่างกันไปยังตัวจำลองแต่ละรายการ
  3. รวบรวมการอัปเดตพารามิเตอร์

อคติในการรายงาน

#fairness

ข้อเท็จจริงที่ว่าความถี่ในการเขียนเกี่ยวกับการกระทำ ผลลัพธ์หรือทรัพย์สินไม่ได้สะท้อนถึงความเป็นจริง ความถี่หรือระดับคุณสมบัติของพร็อพเพอร์ตี้ กลุ่มบุคคลบางกลุ่ม อคติในการรายงานอาจส่งผลต่อการเรียบเรียง จากข้อมูลที่ใช้เรียนรู้ระบบแมชชีนเลิร์นนิง

ตัวอย่างเช่น ในหนังสือ คำว่าหัวเราะจะแพร่หลายมากกว่า หายใจ โมเดลแมชชีนเลิร์นนิงที่ประมาณความถี่สัมพัทธ์ของ การหัวเราะและการหายใจจากคลังหนังสือก็คงเป็นตัวกำหนด การหัวเราะนั้นแพร่หลายกว่าการหายใจ

การนำเสนอ

กระบวนการจับคู่ข้อมูลกับฟีเจอร์ที่มีประโยชน์

การจัดอันดับใหม่

#recsystems

ขั้นตอนสุดท้ายของระบบการแนะนำ ซึ่งในระหว่างนี้ อาจมีการให้คะแนนใหม่ตามรายการการให้คะแนนอื่นๆ (มักจะไม่ใช่ ML) การจัดอันดับใหม่จะประเมินรายการเนื้อหา ที่สร้างขึ้นจากระยะการให้คะแนน ดำเนินการต่างๆ เช่น

  • การกำจัดสินค้าที่ผู้ใช้ซื้อแล้ว
  • เพิ่มคะแนนให้รายการใหม่ๆ

การสร้างแบบเสริมการดึงข้อมูล (RAG)

#fundamentals

เทคนิคในการปรับปรุงคุณภาพ เอาต์พุตโมเดลภาษาขนาดใหญ่ (LLM) ด้วยแหล่งข้อมูลความรู้ที่ดึงมาหลังจากการฝึกโมเดล RAG ช่วยเพิ่มความแม่นยำในการตอบสนองของ LLM ด้วยการมอบ LLM ที่ผ่านการฝึกแล้ว เข้าถึงข้อมูลที่ดึงมาจากฐานความรู้หรือเอกสารที่เชื่อถือได้

แรงจูงใจทั่วไปในการใช้การสร้างที่เสริมด้วยการดึงข้อมูลมีดังนี้

  • เพิ่มความถูกต้องข้อเท็จจริงของคำตอบที่โมเดลสร้างขึ้น
  • ให้สิทธิ์เข้าถึงความรู้ที่โมเดลไม่ได้รับการฝึก
  • เปลี่ยนความรู้ที่โมเดลใช้
  • กำลังเปิดใช้โมเดลเพื่ออ้างอิงแหล่งที่มา

ตัวอย่างเช่น สมมติว่าแอปเคมีใช้คอลัมน์ PaLM API เพื่อสร้างข้อมูลสรุป ที่เกี่ยวข้องกับการค้นหาของผู้ใช้ เมื่อแบ็กเอนด์ของแอปได้รับคำค้นหา แบ็กเอนด์จะดำเนินการต่อไปนี้

  1. ค้นหาข้อมูล ("ดึง") ที่เกี่ยวข้องกับการค้นหาของผู้ใช้
  2. เพิ่ม ("การเสริม") ข้อมูลเคมีที่เกี่ยวข้องในข้อความค้นหาของผู้ใช้
  3. สั่งให้ LLM สร้างสรุปตามข้อมูลที่เพิ่มเข้ามา

รีเทิร์น

#rl

ในการเรียนรู้แบบเสริมกำลัง เมื่อเลือกนโยบายและสถานะหนึ่ง Return คือผลรวมของรางวัลทั้งหมดที่ agent คาดว่าจะได้รับเมื่อปฏิบัติตามนโยบายจาก state จนถึงตอนท้ายของตอน ตัวแทน คำนึงถึงความล่าช้าของรางวัลที่คาดไว้เนื่องจากการลดราคารางวัล ตามการเปลี่ยนแปลงของรัฐที่กำหนดเพื่อรับรางวัล

ดังนั้น หากปัจจัยส่วนลดคือ \(\gamma\)และ \(r_0, \ldots, r_{N}\) จะแสดงรางวัลจนกว่าจะจบตอน ซึ่งจะมีการคำนวณการคืนสินค้า ดังนี้

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

รางวัล

#rl

ในการเรียนรู้แบบเสริมกำลัง ตัวเลขผลลัพธ์ที่ได้จากการศึกษา action ในสถานะ ตามที่ระบุโดย สภาพแวดล้อม

วิธีการจัดแนวสัน

คำพ้องความหมายของ L2 regularization คําว่า วิธีการจัดกฎแนวสันมีการใช้บ่อยกว่าในสถิติเพียงอย่างเดียว ขณะที่ระบบมักจะใช้ L2 มาตรฐาน ในแมชชีนเลิร์นนิง

RNN

#seq

ตัวย่อของโครงข่ายประสาทแบบเกิดซ้ำ

เส้นโค้ง ROC (ลักษณะในการทำงานของตัวรับ)

#fundamentals

กราฟของอัตราผลบวกจริงเทียบกับ อัตราผลบวกลวงสำหรับค่าที่แตกต่างกัน เกณฑ์การจัดประเภทในไบนารี การจำแนกประเภท

รูปร่างของเส้นโค้ง ROC บ่งบอกถึงความสามารถของโมเดลการจัดประเภทแบบไบนารี เพื่อแยกคลาสเชิงบวกออกจากคลาสเชิงลบ ตัวอย่างเช่น โมเดลการจัดประเภทแบบไบนารีจะแยกตัวแปรเชิงลบทั้งหมด จากชั้นเรียนเชิงบวกทั้งหมด ได้แก่

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 8 ตัวอย่างอยู่ด้านขวาและ
          ตัวอย่างเชิงลบ 7 รายการทางด้านซ้าย

กราฟ ROC สำหรับโมเดลก่อนหน้ามีลักษณะดังนี้

เส้นโค้ง ROC แกน x คืออัตราผลบวกลวงและแกน y
          คืออัตราผลบวกจริง เส้นโค้งมีรูปตัว L แบบกลับสี เส้นโค้ง
          เริ่มต้นที่ (0.0,0.0) และไปจนถึง (0.0,1.0) จากนั้นเส้นโค้ง
          เปลี่ยนจาก (0.0,1.0) เป็น (1.0,1.0)

ในทางตรงกันข้าม ภาพประกอบต่อไปนี้แสดงกราฟการถดถอยแบบโลจิสติกส์แบบข้อมูลดิบ สำหรับโมเดลที่แย่ซึ่งไม่สามารถแยกคลาสเชิงลบออกจาก ชั้นเรียนเชิงบวกเลย:

เส้นจำนวนที่มีตัวอย่างบวกและคลาสลบ
          ที่มีการปะปนกันอย่างสมบูรณ์

เส้นโค้ง ROC สำหรับโมเดลนี้จะมีลักษณะดังนี้

เส้นโค้ง ROC ซึ่งที่จริงแล้วเป็นเส้นตรงจาก (0.0,0.0)
          เป็น (1.0,1.0)

ในขณะเดียวกัน เมื่อมองในโลกแห่งความเป็นจริง โมเดลการจัดประเภทแบบไบนารีส่วนใหญ่จะแยกประเภท คลาสบวกและลบในระดับหนึ่ง แต่มักจะไม่สมบูรณ์แบบ ดังนั้น กราฟ ROC ตามปกติจะอยู่ระหว่างปลายทั้งสองด้าน ได้แก่

เส้นโค้ง ROC แกน x คืออัตราผลบวกลวงและแกน y
          คืออัตราผลบวกจริง กราฟ ROC โคจรคล้ายโค้งที่สั่นไหว
          เดินทางข้ามเข็มทิศจากทิศตะวันตกไปยังทิศเหนือ

จุดบนกราฟ ROC ที่ใกล้เคียงที่สุด (0.0,1.0) ในทางทฤษฎีจะระบุค่า เกณฑ์การจัดประเภทที่เหมาะสม อย่างไรก็ตาม ปัญหาอื่นๆ ในชีวิตจริง มีผลต่อการเลือกเกณฑ์การจัดประเภทที่เหมาะสม ตัวอย่างเช่น ผลลบลวงอาจสร้างความเจ็บปวดมากกว่าผลบวกลวง

เมตริกเชิงตัวเลขที่เรียกว่า AUC จะสรุปเส้นโค้ง ROC เป็น ค่าทศนิยมค่าเดียว

การแสดงข้อความแจ้งบทบาท

#language
#generativeAI

ส่วนที่ไม่บังคับของข้อความแจ้งที่ระบุกลุ่มเป้าหมาย สำหรับคำตอบของโมเดล Generative AI ไม่มีบทบาท โมเดลภาษาขนาดใหญ่จะให้คำตอบที่อาจมีประโยชน์หรือไม่มีประโยชน์ สำหรับผู้ที่ถามคำถาม เมื่อมีพรอมต์บทบาท ภาษาขนาดใหญ่ สามารถตอบคำถามในลักษณะที่เหมาะสมและมีประโยชน์มากขึ้นสำหรับ ผู้ชมเป้าหมายที่เฉพาะเจาะจง ตัวอย่างเช่น ส่วนข้อความแจ้งเกี่ยวกับบทบาทของข้อมูลต่อไปนี้ พรอมต์จะเป็นตัวหนา

  • สรุปบทความนี้สำหรับปริญญาเอกด้านเศรษฐศาสตร์
  • อธิบายวิธีการทำงานของกระแสน้ำสำหรับเด็กอายุ 10 ปี
  • อธิบายวิกฤตการณ์ทางการเงินปี 2008 พูดในแบบที่คุณกับเด็กเล็ก หรือโกลเด้นรีทรีฟเวอร์

รูท

#df

โหนดเริ่มต้น (โหนดแรก เงื่อนไข) ในแผนผังการตัดสินใจ โดยปกติ แผนภาพจะใส่รากไว้ที่ด้านบนสุดของแผนผังการตัดสินใจ เช่น

แผนผังการตัดสินใจที่มี 2 เงื่อนไขและ 3 ใบ 
          เงื่อนไขเริ่มต้น (x > 2) คือราก

ไดเรกทอรีราก

#TensorFlow

ไดเรกทอรีที่คุณระบุสำหรับไดเรกทอรีย่อยโฮสติ้งของ TensorFlow ไฟล์จุดตรวจสอบและไฟล์เหตุการณ์หลายโมเดล

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)

#fundamentals

รากที่สองของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง

ความแปรปรวนของการหมุน

#image

ในการแก้ปัญหาการจำแนกประเภทรูปภาพ ความสามารถของอัลกอริทึมในการ จัดประเภทรูปภาพแม้ว่าการวางแนวของรูปภาพจะเปลี่ยนไปก็ตาม ตัวอย่างเช่น อัลกอริทึมจะยังสามารถระบุไม้เทนนิสได้ไม่ว่าจะชี้ขึ้นหรือไม่ ตะแคงข้างหรือลง โปรดทราบว่าความแปรปรวนแบบหมุนเวียนอาจไม่เป็นที่ต้องการเสมอไป ตัวอย่างเช่น 9 กลับหัวไม่ควรจัดเป็น 9

โปรดดูความแปรปรวนของการแปลและ ความแปรปรวนของขนาด

R-squared

เมตริกการถดถอยที่ระบุความแปรผันของ ป้ายกำกับเกิดจากฟีเจอร์แต่ละรายการหรือชุดฟีเจอร์ R-squared เป็นค่าระหว่าง 0 ถึง 1 ซึ่งแปลความหมายได้ดังนี้

  • ค่า R-squared เป็น 0 หมายความว่าไม่มีรูปแบบใดของป้ายกำกับใดเกิดค่าใดค่าหนึ่งจากค่า ของ Google Play
  • R-squared ของ 1 หมายความว่ารูปแบบทั้งหมดของป้ายกำกับเกิดจากค่า ของ Google Play
  • ค่า R-squared ระหว่าง 0 ถึง 1 แสดงถึงขอบเขตของค่า สามารถคาดการณ์รูปแบบต่างๆ จากคุณลักษณะหนึ่งๆ หรือชุดคุณลักษณะได้ ตัวอย่างเช่น ค่า R-squared 1 ค่า 0.10 หมายความว่า 10 เปอร์เซ็นต์ของค่าความแปรปรวน ในป้ายกำกับ เนื่องจากชุดคุณลักษณะ ค่า R-squared เป็น 0.20 หมายความว่า 20 เปอร์เซ็นต์เกิดจากชุดฟีเจอร์ และอื่นๆ

R-squared คือกำลังสองของ สหสัมพันธ์แบบเพียร์สัน ค่าสัมประสิทธิ์ ระหว่างค่าที่โมเดลคาดการณ์กับข้อมูลที่เป็นความจริง

S

การให้น้ำหนักพิเศษในการสุ่มตัวอย่าง

#fairness

ดูการให้น้ำหนักพิเศษกับการเลือก

การสุ่มตัวอย่างพร้อมการแทนที่

#df

วิธีเลือกรายการจากชุดของรายการที่แนะนำ สามารถเลือกได้หลายครั้ง วลี "มีการแทนที่" หมายความว่า ซึ่งหลังจากการเลือกแต่ละครั้ง รายการที่เลือกจะถูกกลับไปยังพูล จากรายการผู้สมัคร วิธีการผกผัน การสุ่มตัวอย่างโดยไม่แทนที่ หมายความว่าจะสามารถเลือกรายการหนึ่งๆ ได้เพียงครั้งเดียว

เช่น ลองพิจารณาชุดผลไม้ต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

สมมติว่าระบบสุ่มเลือก fig เป็นรายการแรก หากใช้การสุ่มตัวอย่างพร้อมการแทนที่ ระบบจะเลือก รายการที่ 2 จากชุดต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

ใช่ การตั้งค่าเหมือนเดิม ดังนั้นระบบอาจ เลือก fig อีกครั้ง

หากใช้การสุ่มตัวอย่างโดยไม่มีการแทนที่ เมื่อเลือกตัวอย่างแล้ว จะไม่สามารถเลือกตัวอย่างได้ เลือกอีกครั้ง ตัวอย่างเช่น ถ้าระบบสุ่มเลือก fig เป็น ตัวอย่างแรก แล้วจะเลือก fig ไม่ได้อีก ดังนั้นระบบ จะเลือกตัวอย่างที่สองจากชุดต่อไปนี้ (ลดลง)

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

รูปแบบที่แนะนำสำหรับการบันทึกและกู้คืนโมเดล TensorFlow SavedModel คือรูปแบบการเรียงอันดับแบบไม่ใช้ภาษา และสามารถกู้คืนได้ ซึ่งช่วยให้ ระบบและเครื่องมือระดับสูงในการผลิต ใช้ และเปลี่ยน TensorFlow

โปรดดูส่วนการบันทึกและการกู้คืน ในคู่มือโปรแกรมเมอร์ TensorFlow เพื่อดูรายละเอียดทั้งหมด

ประหยัด

#TensorFlow

ออบเจ็กต์ TensorFlow ซึ่งทำหน้าที่บันทึกจุดตรวจสอบโมเดล

สเกลาร์

ตัวเลขเดี่ยวหรือสตริงเดียวที่สามารถแทนค่า tensor ของ rank 0 ตัวอย่างเช่น URL ต่อไปนี้ แต่ละบรรทัดของโค้ดจะสร้างสเกลาร์ 1 สเกลใน TensorFlow ดังนี้

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

การปรับขนาด

การแปลงทางคณิตศาสตร์หรือเทคนิคที่เปลี่ยนช่วงของป้ายกำกับ และ/หรือค่าของฟีเจอร์ การปรับขนาดบางรูปแบบมีประโยชน์มากสำหรับการเปลี่ยนรูปแบบ เช่น การทำให้เป็นมาตรฐาน

รูปแบบทั่วไปในการปรับขนาดที่มีประโยชน์ในแมชชีนเลิร์นนิงมีดังนี้

  • การปรับขนาดเชิงเส้น ซึ่งโดยทั่วไปจะใช้การผสมกับการลบและ เพื่อแทนที่ค่าเดิมด้วยตัวเลขระหว่าง -1 ถึง +1 หรือ ระหว่าง 0 ถึง 1
  • การปรับขนาดลอการิทึม ซึ่งแทนที่ค่าเดิมด้วย ลอการิทึม
  • การแปลงค่ามาตรฐาน Z-Score ซึ่งแทนที่ฟังก์ชัน ค่าเดิมซึ่งมีค่าทศนิยมซึ่งแสดงจำนวนของ ค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของจุดสนใจนั้น

Scikit-Learn

แพลตฟอร์มแมชชีนเลิร์นนิงแบบโอเพนซอร์สยอดนิยม โปรดดู scikit-learn.org

การให้คะแนน

#recsystems

ส่วนของระบบการแนะนำที่ จะให้ค่าหรือการจัดอันดับสำหรับแต่ละรายการที่ผลิตโดย การสร้างผู้สมัคร

อคติจากการเลือก

#fairness

ข้อผิดพลาดในข้อสรุปที่มาจากข้อมูลตัวอย่างเนื่องจากกระบวนการคัดเลือก ที่สร้างความแตกต่างอย่างเป็นระบบระหว่างกลุ่มตัวอย่างที่พบในข้อมูล และที่สังเกตไม่ได้ ความลำเอียงในการเลือกมีรูปแบบดังต่อไปนี้

  • อคติในการครอบคลุม: ประชากรที่แสดงในชุดข้อมูลไม่รวม จับคู่ประชากรที่โมเดลแมชชีนเลิร์นนิงกำลังสร้าง การคาดคะเนของ Google
  • การให้น้ำหนักพิเศษกับการสุ่มตัวอย่าง: ระบบจะไม่เก็บรวบรวมข้อมูลแบบสุ่มจากกลุ่มเป้าหมาย
  • อคติที่ไม่ตอบกลับ (หรือเรียกอีกอย่างว่า อคติในการเข้าร่วม): ผู้ใช้จาก บางกลุ่มเลือกไม่เข้าร่วมทำแบบสำรวจในอัตราที่ต่างจากผู้ใช้ กลุ่มอื่นๆ

เช่น สมมติว่าคุณกำลังสร้างโมเดลแมชชีนเลิร์นนิงที่คาดการณ์ ความเพลิดเพลินของผู้คน เกี่ยวกับภาพยนตร์ หากต้องการรวบรวมข้อมูลการฝึก คุณแจกแบบสำรวจให้กับทุกคนที่อยู่แถวหน้าโรงหนัง ที่กำลังแสดงภาพยนตร์ นี่อาจฟังดูไม่สมเหตุสมผล เพื่อรวบรวมชุดข้อมูล แต่การเก็บรวบรวมข้อมูลในรูปแบบนี้อาจ ทำให้เกิดความลำเอียงในการเลือกรูปแบบต่อไปนี้

  • อคติที่ครอบคลุม: การสุ่มตัวอย่างจากกลุ่มประชากรที่เลือกดู การคาดคะเนของโมเดลของคุณอาจไม่ครอบคลุมคนทั่วไป ที่ไม่ได้แสดงความสนใจระดับนั้นในภาพยนตร์
  • การให้น้ำหนักพิเศษในการสุ่มตัวอย่าง: แทนที่จะสุ่มตัวอย่างแบบสุ่มจาก ประชากรที่ต้องการ (คนที่อยู่ในภาพยนตร์ทั้งหมด) คุณได้สุ่มตัวอย่างเท่านั้น คนที่อยู่แถวหน้าสุด เป็นไปได้ว่าคนที่นั่ง แถวหน้าสนใจภาพยนตร์เรื่องนี้มากกว่าผู้ที่อยู่ใน แถวอื่นๆ
  • อคติที่ไม่ได้ตอบกลับ: โดยทั่วไปคนที่มีความคิดเห็นรุนแรงมีแนวโน้ม ให้ตอบกลับแบบสำรวจทางเลือกได้บ่อยกว่าคนที่มีวุฒิภาวะเล็กน้อย ความคิดเห็นของคุณ และเนื่องจากแบบสำรวจภาพยนตร์เป็นแบบไม่บังคับ คำตอบ มีแนวโน้มที่จะทำให้เกิด การเผยแพร่แบบสองโมดัล การกระจายตามปกติ (รูปกระดิ่ง)

การจดจ่อกับตนเอง (หรือเรียกว่า เลเยอร์ความสนใจตนเอง)

#language

ชั้นโครงข่ายระบบประสาทเทียมที่เปลี่ยนลำดับของ การฝัง (เช่น การฝัง โทเค็น) ลงในการฝังอีกลำดับ การฝังแต่ละรายการในลำดับเอาต์พุต สร้างขึ้นโดยการผสานรวมข้อมูลจากองค์ประกอบของลำดับอินพุต ผ่านกลไก Attention

ส่วนตัวเองของการดึงดูดตนเองหมายถึงลำดับการเข้าร่วม แทนบริบทอื่นๆ บางอย่าง การใส่ใจตนเองเป็นหนึ่งใน องค์ประกอบที่ใช้สร้างสรรค์สำหรับ Transformers และใช้การค้นหาพจนานุกรม คำศัพท์อย่าง "query", "key" และ "value"

เลเยอร์ความสนใจตนเองจะเริ่มต้นด้วยลำดับการนำเสนออินพุต ซึ่งก็คือ สำหรับแต่ละคำ การนำเสนออินพุตสำหรับคำอาจเป็น การฝังวิดีโอ สำหรับแต่ละคำในลำดับอินพุต เครือข่าย จะแสดงความเกี่ยวข้องของคำกับทุกองค์ประกอบในลำดับทั้งหมดของ คำ คะแนนความเกี่ยวข้องจะเป็นตัวกำหนดว่า คำนั้นๆ จะมีความหมายมากน้อยเพียงใด ประกอบด้วยการแทนคำอื่นๆ

ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

สัตว์ตัวนี้ไม่เดินข้ามถนนเพราะเหนื่อยเกินไป

ภาพประกอบต่อไปนี้ (จาก Transformer: สถาปัตยกรรมโครงข่ายระบบประสาทเทียมใหม่สำหรับภาษา ทำความเข้าใจ) แสดงรูปแบบความสนใจของเลเยอร์ความสนใจตนเองสำหรับคำสรรพนามนี้ โดย ความมืดของแต่ละบรรทัดแสดงว่าแต่ละคำมีส่วนทำให้เกิด การนำเสนอ:

ประโยคต่อไปนี้ปรากฏขึ้น 2 ครั้ง: สัตว์ตัวนั้นไม่ได้ข้าม
          เพราะมันเหนื่อยเกินไป บรรทัดเชื่อมคำสรรพนาม
          1 ประโยคถึง 5 โทเค็น (The, สัตว์, ถนน, มัน และ
          เครื่องหมายจุด) ในประโยคอื่น  เส้นแบ่งระหว่างคำสรรพนาม
          และคำว่าสัตว์นั้นแข็งแกร่งที่สุด

เลเยอร์การใส่ใจตนเองจะไฮไลต์คำที่เกี่ยวข้องกับ "เนื้อหานั้น" ด้วยวิธีนี้ ชั้นความสนใจได้เรียนรู้วิธีไฮไลต์คำที่ หมายถึงการกำหนดน้ำหนักสูงสุดให้กับสัตว์

สำหรับลำดับของ n โทเค็น ความสนใจตนเองจะแปลงลำดับ ของการฝัง n ครั้งแยกกัน หนึ่งครั้งที่แต่ละตำแหน่งในลำดับ

โปรดอ่านความสนใจและ การดึงดูดความสนใจในตัว (Multi-head)

การเรียนรู้ภายใต้การควบคุมดูแลด้วยตนเอง

กลุ่มเทคนิคในการเปลี่ยน ปัญหาแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล ให้เป็นปัญหาแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โดยการสร้างป้ายกำกับตัวแทนจาก ตัวอย่างที่ไม่มีป้ายกำกับ

โมเดลที่ใช้ Transformer บางรุ่น เช่น BERT ใช้ การเรียนรู้ด้วยตนเอง

การฝึกอบรมแบบควบคุมดูแลด้วยตนเองเป็น การเรียนรู้แบบกึ่งมีการควบคุมดูแล

การฝึกตนเอง

การเรียนรู้แบบควบคุมดูแลด้วยตนเองรูปแบบหนึ่งที่ มีประโยชน์อย่างยิ่งเมื่อทุกเงื่อนไขต่อไปนี้เป็นจริง

การฝึกด้วยตนเองทำงานโดยทำซ้ำใน 2 ขั้นตอนต่อไปนี้จนกว่าจะเห็นรูปแบบ หยุดการปรับปรุง:

  1. ใช้แมชชีนเลิร์นนิงที่มีการควบคุมดูแลเพื่อ ฝึกโมเดลในตัวอย่างที่ติดป้ายกำกับ
  2. ใช้โมเดลที่สร้างในขั้นตอนที่ 1 เพื่อสร้างการคาดการณ์ (ป้ายกำกับ) บน ตัวอย่างที่ไม่มีป้ายกำกับ ย้ายตัวอย่างที่มีความเชื่อมั่นสูงไป ตัวอย่างที่มีป้ายกำกับที่มีป้ายกำกับที่คาดการณ์

โปรดสังเกตว่าการทำซ้ำในขั้นตอนที่ 2 จะเพิ่มตัวอย่างที่มีป้ายกำกับสำหรับขั้นตอนที่ 1 ลงใน บนรถไฟ

การเรียนรู้ผ่านการควบคุมดูแลบางส่วน

การฝึกโมเดลบนข้อมูลที่ตัวอย่างการฝึกบางส่วนมีป้ายกำกับแต่ คนอื่นๆ ก็ไม่มี เทคนิคหนึ่งสำหรับการเรียนรู้ที่มีการควบคุมดูแลบางส่วนคือการอนุมานป้ายกำกับสำหรับ ตัวอย่างที่ไม่มีป้ายกำกับ แล้วฝึกกับป้ายกำกับที่อนุมานเพื่อสร้างป้ายกำกับใหม่ โมเดล การเรียนรู้แบบกึ่งมีการควบคุมดูแลมีประโยชน์ในกรณีที่ป้ายกำกับมีราคาแพงในการรับ แต่ตัวอย่างที่ไม่ติดป้ายกำกับนั้น มีอยู่มากมาย

การฝึกตนเองเป็นเทคนิคหนึ่งสำหรับผู้ที่มีการควบคุมดูแลบางส่วน การเรียนรู้

แอตทริบิวต์ที่มีความละเอียดอ่อน

#fairness
คุณลักษณะที่เป็นมนุษย์ที่อาจได้รับพิจารณาพิเศษด้านกฎหมาย เหตุผลด้านจริยธรรม ทางสังคม หรือส่วนตัว

การวิเคราะห์ความเห็น

#language

การใช้อัลกอริทึมทางสถิติหรือแมชชีนเลิร์นนิงในการกำหนด ทัศนคติโดยรวมไม่ว่าจะเป็นเชิงบวกหรือเชิงลบต่อบริการ ผลิตภัณฑ์ องค์กร หรือหัวข้อ ตัวอย่างเช่น การใช้ การทำความเข้าใจภาษาธรรมชาติ อัลกอริทึมสามารถทำการวิเคราะห์ความเห็นเกี่ยวกับความคิดเห็นที่เป็นข้อความ จากหลักสูตรของมหาวิทยาลัย เพื่อกำหนดระดับปริญญาที่นักศึกษา โดยทั่วไปชอบหรือไม่ชอบหลักสูตรนั้น

โมเดลลำดับ

#seq

โมเดลที่อินพุตมีการขึ้นต่อกันตามลำดับ ตัวอย่างเช่น การคาดการณ์ วิดีโอถัดไปที่ดูจากวิดีโอตามลำดับที่ดูก่อนหน้านี้

งานตามลำดับสู่ลำดับ

#language

งานที่แปลงลำดับอินพุตของโทเค็นเป็นเอาต์พุต ลำดับโทเค็น เช่น ลำดับต่อลำดับที่นิยมใช้กัน 2 ประเภท ได้แก่

  • นักแปล:
    • ตัวอย่างลำดับการป้อนข้อมูล: "ฉันรักคุณ"
    • ตัวอย่างลำดับเอาต์พุต: "Je t'aime"
  • การตอบคำถาม:
    • ตัวอย่างลำดับอินพุต: "ฉันต้องใช้รถของฉันในนิวยอร์กซิตี้ไหม"
    • ตัวอย่างลำดับเอาต์พุต: "ไม่ โปรดเก็บรถไว้ที่บ้าน"

หน่วยบริโภค

กระบวนการทำให้โมเดลที่ผ่านการฝึกใช้งานได้เพื่อให้การคาดการณ์ผ่าน การอนุมานออนไลน์หรือ การอนุมานออฟไลน์

รูปร่าง (Tensor)

จำนวนขององค์ประกอบในมิติข้อมูลแต่ละรายการของ Tensor รูปร่างจะแสดงเป็นรายการจำนวนเต็ม ตัวอย่างเช่น Tensor สองมิติต่อไปนี้มีรูปร่างเป็น [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow ใช้รูปแบบหลักแถว (สไตล์ C) เพื่อแสดงลำดับของ ขนาดต่างๆ ซึ่งเป็นสาเหตุที่ทำให้รูปร่างใน TensorFlow เป็น [3,4] แทนที่จะเป็น [4,3] กล่าวอีกนัยหนึ่งคือ ใน TensorFlow Tensor แบบ 2 มิติ คือ [จำนวนแถว จำนวนคอลัมน์]

รูปร่างคงที่คือรูปร่าง Tensor ที่ทราบในเวลาคอมไพล์

รูปร่างแบบไดนามิกจะไม่ทราบเวลาคอมไพล์ และ จึงขึ้นอยู่กับข้อมูลขณะรันไทม์ Tensor อาจแสดงด้วย มิติข้อมูลตัวยึดตำแหน่งใน TensorFlow เช่น [3, ?]

ชาร์ด

#TensorFlow
#GoogleCloud

ส่วนย่อยเชิงตรรกะของชุดการฝึกหรือ model โดยปกติแล้ว กระบวนการบางส่วนจะสร้างชาร์ดโดยการแบ่ง ตัวอย่าง หรือพารามิเตอร์ลงใน (โดยปกติ) กลุ่มที่มีขนาดเท่ากัน จากนั้นระบบจะกำหนดชาร์ดแต่ละรายการให้กับคอมพิวเตอร์เครื่องอื่น

การชาร์ดดิ้งโมเดลเรียกว่าโมเดลคู่ขนาน การชาร์ดดิ้งข้อมูลเรียกว่าข้อมูลคู่ขนาน

การหดตัว

#df

พารามิเตอร์ไฮเปอร์พารามิเตอร์ใน การเพิ่มการไล่ระดับสีที่ควบคุม มากเกินไป การหดตัวในการเพิ่มการไล่ระดับสี คล้ายกับอัตราการเรียนรู้ใน การไล่ระดับสี การหดตัวเป็นทศนิยม ค่าระหว่าง 0.0 ถึง 1.0 ค่าการหดตัวที่ต่ำลงจะช่วยลดการใช้มากเกินไป มากกว่าค่าการหดตัวที่มากกว่า

ฟังก์ชันซิกมอยด์

#fundamentals

ฟังก์ชันทางคณิตศาสตร์ที่ "ขีดทับ" ค่าอินพุตในช่วงที่จำกัด โดยทั่วไป 0 ถึง 1 หรือ -1 ถึง +1 กล่าวคือ คุณสามารถส่งผ่านตัวเลขใดก็ได้ (2, 000, 000, ลบพันล้านก็ได้ ฯลฯ) ลงใน sigmoid และผลลัพธ์จะยังคงอยู่ใน ที่จำกัด พล็อตฟังก์ชันการเปิดใช้งาน Sigmoid มีลักษณะดังนี้

แผนภูมิโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมน
          -ไม่สิ้นสุด ถึง +บวก ในขณะที่ค่า y ครอบคลุมช่วงเกือบ 0 ถึง
          เกือบ 1. เมื่อ x เท่ากับ 0 แล้ว y จะเท่ากับ 0.5 ความชันของเส้นโค้งเสมอ
          เป็นบวก โดยมีความชันสูงสุดที่ 0,0.5 และค่อยๆ ลดลง
          มีความชันเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ฟังก์ชัน Sigmoid มีประโยชน์หลายอย่างในแมชชีนเลิร์นนิง ได้แก่

การวัดความคล้ายคลึงกัน

#clustering

ในอัลกอริทึม clustering เมตริกที่ใช้ระบุ ตัวอย่างทั้งสองนั้นคล้ายคลึงกันเพียงใด (คล้ายคลึงกัน)

โปรแกรมเดียว / ข้อมูลหลายข้อมูล (SPMD)

เทคนิคการทำงานพร้อมกันที่ใช้การคำนวณเดียวกันในอินพุตที่ต่างกัน ข้อมูลพร้อมกันในอุปกรณ์ต่างๆ เป้าหมายของ SPMD คือการได้รับผลลัพธ์ ได้เร็วขึ้น โดยเป็นรูปแบบที่ใช้กันมากที่สุดในการจัดโปรแกรมคู่ขนาน

ความแปรปรวนของขนาด

#image

ในการแก้ปัญหาการจำแนกประเภทรูปภาพ ความสามารถของอัลกอริทึมในการ จัดประเภทรูปภาพแม้ว่าขนาดของรูปภาพจะเปลี่ยนไป ตัวอย่างเช่น อัลกอริทึมยังคงสามารถระบุ ใช้ความละเอียด 2 ล้านพิกเซลหรือ 200,000 พิกเซล โปรดทราบว่า แม้แต่วิธีที่ดีที่สุด อัลกอริทึมการจัดประเภทรูปภาพยังคงมีขีดจำกัดด้านความแปรปรวนของขนาดในทางปฏิบัติ ตัวอย่างเช่น อัลกอริทึม (หรือมนุษย์) มักจะไม่แยกประเภท รูปภาพแมวที่ใช้เพียง 20 พิกเซล

โปรดดูความแปรปรวนของการแปลและ ความแปรปรวนของการหมุนเวียน

การสเก็ตช์ภาพ

#clustering

ในแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล หมวดหมู่ของอัลกอริทึมที่ทำการวิเคราะห์ความคล้ายคลึงกันเบื้องต้น ยกตัวอย่าง อัลกอริทึมการร่างภาพใช้ ฟังก์ชันแฮชที่ไวต่อตำแหน่ง เพื่อระบุจุดที่น่าจะคล้ายคลึงกันแล้วจัดกลุ่ม ลงในที่เก็บข้อมูล

การร่างภาพจะลดการคำนวณที่จำเป็นสำหรับการคำนวณความคล้ายคลึง ในชุดข้อมูลขนาดใหญ่ได้ แทนที่จะคำนวณความคล้ายคลึงกันสำหรับทุกรายการ คู่ตัวอย่างในชุดข้อมูล เราจะคำนวณความคล้ายคลึงกันเฉพาะสำหรับแต่ละรายการ 2 จุดภายในที่เก็บข้อมูลแต่ละชุด

skip-gram

#language

n-gram ที่อาจข้าม (หรือ "ข้าม") คำจากต้นฉบับ ซึ่งหมายความว่าแต่เดิม คำ N อาจไม่ได้อยู่ติดกัน เพิ่มเติม สัญลักษณ์ "k-skip-n-gram" เป็น n-gram ที่สามารถมีได้ถึง k คำ ถูกข้าม

เช่น "สุนัขจิ้งจอกที่ปราดเปรื่อง" มี 2 กรัมที่เป็นไปได้ดังนี้

  • "เร็ว"
  • "สีน้ำตาลคัทชู"
  • "จิ้งจอกสีน้ำตาล"

ตัวอย่าง "1 กรัม" คือคู่ของคำที่มีคำอื่นไม่เกิน 1 คำ ดังนั้น "สุนัขจิ้งจอกที่ปราดเปรียวสีน้ำตาล" มีอาหารข้าม 1 กรัม 1 กรัมดังต่อไปนี้

  • "สีน้ำตาล"
  • "จิ้งจอกด่วน"

นอกจากนี้ น้ำหนัก 2 กรัมทั้งหมดยังมี 1 กิโลกรัม 1-2 กรัมเพราะน้อยกว่า อาจถูกข้ามคำมากกว่า 1 คำ

ปุ่มข้ามมีประโยชน์สำหรับการทำความเข้าใจบริบทรอบข้างของคำมากขึ้น ในตัวอย่างนี้ "สุนัขจิ้งจอก" เกี่ยวข้องโดยตรงกับ "โฆษณาด่วน" ในชุดของ 1 ข้าม 2 กรัม แต่ไม่ได้อยู่ในชุด 2 กรัม

ฝึกสอนวิธีข้ามกรัม รูปแบบการฝังคำ

Softmax

#fundamentals

ฟังก์ชันที่กำหนดความน่าจะเป็นสำหรับคลาสที่เป็นไปได้แต่ละคลาสใน โมเดลการจัดประเภทแบบหลายคลาส ความน่าจะเป็นรวมกัน เป็น 1.0 พอดี ตัวอย่างเช่น ตารางต่อไปนี้แสดงวิธีที่ Softmax กระจาย ความน่าจะเป็นต่างๆ

รูปภาพคือ... Probability
สุนัข .85
แมว .13
ม้า .02

Softmax มีชื่อเรียกอีกอย่างว่า Full softmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

การปรับแต่งพรอมต์แบบนุ่มนวล

#language
#generativeAI

เทคนิคในการปรับแต่งโมเดลภาษาขนาดใหญ่ สำหรับงานบางอย่าง โดยไม่ต้องใช้ทรัพยากรมากมาย การปรับแต่ง แทนที่จะต้องฝึกอบรม น้ำหนักในโมเดล การปรับแต่งซอฟต์พรอมต์ ปรับข้อความแจ้งโดยอัตโนมัติเพื่อให้บรรลุเป้าหมายเดียวกัน

เมื่อมีพรอมต์ข้อความ การปรับแต่งพรอมต์แบบนุ่มนวล มักจะเพิ่มการฝังโทเค็นเพิ่มเติมลงในข้อความแจ้งและใช้ Backpropagation จะเพิ่มประสิทธิภาพอินพุต

"ยาก" จะมีโทเค็นจริงแทนที่จะเป็นการฝังโทเค็น

ฟีเจอร์บางส่วน

#language
#fundamentals

ฟีเจอร์ที่มีค่าเป็น 0 หรือเป็นค่าว่างเป็นส่วนใหญ่ ตัวอย่างเช่น ฟีเจอร์ที่มีค่า 1 ค่าเดียวและ 0 ล้านค่าเป็น 0 ล้านค่า Sparse ในทางตรงกันข้าม ฟีเจอร์ความหนาแน่นมีค่าที่ ไม่ควรเป็น 0 หรือว่างเปล่าเป็นหลัก

ในแมชชีนเลิร์นนิง ฟีเจอร์จำนวนที่ไม่น้อยก็คือฟีเจอร์จำนวนน้อย ฟีเจอร์เชิงหมวดหมู่มักจะเป็นองค์ประกอบแบบคร่าวๆ ตัวอย่างเช่น จากจำนวนต้นไม้ที่เป็นไปได้ 300 ชนิดในป่า 1 ตัวอย่าง อาจระบุแค่ต้นเมเปิล หรือจากวิดีโอหลายล้านรายการ ของวิดีโอที่เป็นไปได้ในไลบรารีวิดีโอ ตัวอย่างหนึ่งอาจระบุ แค่ "Casablanca"

ในโมเดล คุณมักจะแสดงคุณลักษณะที่มีขนาดเล็กด้วย การเข้ารหัสแบบฮอตเดียว หากการเข้ารหัสแบบ One-hot มีขนาดใหญ่ คุณอาจวางเลเยอร์การฝังทับ เพื่อประสิทธิภาพที่ดียิ่งขึ้น

การนำเสนอแบบกระจัดกระจาย

#language
#fundamentals

จัดเก็บเฉพาะตำแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์บางส่วน

ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ species ระบุรหัส 36 ชนิดของต้นไม้ในป่าแห่งหนึ่ง สมมติว่าแต่ละ example ระบุสปีชีส์เพียงชนิดเดียว

คุณสามารถใช้เวกเตอร์ร้อนเดียวเพื่อแสดงสปีชีส์ของต้นไม้ในแต่ละตัวอย่างได้ เวกเตอร์หนึ่งฮ็อตจะมี 1 เดี่ยว (เพื่อแสดง ชนิดของต้นไม้ในตัวอย่างดังกล่าว) และ 35 0 (เพื่อแสดง ประเภทต้นไม้ 35 ชนิดที่ไม่ได้ในตัวอย่างนี้) ดังนั้น การนำเสนอที่น่าสนใจ ของ maple อาจมีลักษณะเช่นนี้

เวกเตอร์ที่ตำแหน่ง 0 ถึง 23 จะคงค่า 0 ไว้
          24 จะเก็บค่า 1 ส่วนอันดับ 25 ถึง 35 จะมีค่าเป็น 0

อีกทางเลือกหนึ่งคือการนำเสนอแบบคร่าวๆ จะระบุตำแหน่งของ สายพันธุ์เฉพาะ หาก maple อยู่ที่ตำแหน่ง 24 การแสดงค่าเพียงเล็กน้อย ของ maple จะเป็นดังนี้

24

สังเกตว่าการนำเสนอแบบกระทัดรัดจะเป็นแบบร้อนแรงเพียงรอบเดียวมาก การให้คำแนะนำ

เวกเตอร์กระจัดกระจาย

#fundamentals

เวกเตอร์ที่มีค่าส่วนใหญ่เป็น 0 ดูเพิ่มเติมที่ sparse ฟีเจอร์ และความเท่าเทียม

การขาดแคลนข้อมูล

จำนวนขององค์ประกอบที่ตั้งค่าเป็นศูนย์ (หรือค่าว่าง) ในเวกเตอร์หรือเมทริกซ์หารด้วย ด้วยจำนวนข้อมูลทั้งหมดในเวกเตอร์หรือเมทริกซ์นั้น ตัวอย่างเช่น ให้พิจารณาเมทริกซ์ 100 เอลิเมนต์ที่ 98 เซลล์มี 0 การคำนวณของ ดังนี้

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

ลักษณะที่มีอยู่น้อยหมายถึงการขาดแคลนของเวกเตอร์ลักษณะ การขาดแคลนโมเดลหมายถึงการขาดแคลนของน้ำหนักโมเดล

การรวมกลุ่มพิกัดทางภูมิศาสตร์

#image

ดูพูล

สปลิต

#df

ในแผนผังการตัดสินใจ จะเป็นอีกชื่อหนึ่งของ สภาพสินค้า

ตัวแยก

#df

ขณะฝึกแผนผังการตัดสินใจ กิจวัตร (และอัลกอริทึม) มีหน้าที่ในการค้นหาสิ่งที่ดีที่สุด เงื่อนไขในแต่ละโหนด

SPMD

ตัวย่อของโปรแกรมเดียว / ข้อมูลหลายรายการ

สูญเสียบานพับสี่เหลี่ยม

ค่ากำลังสองของการเสียบานพับ การถอดบานพับในสี่เหลี่ยมมุมฉากได้รับบทลงโทษ ค่าผิดปกติรุนแรงกว่าการหลุดของบานพับตามปกติ

ความสูญเสียยกกำลังสอง

#fundamentals

คำพ้องความหมายของ L2 Los

การฝึกอบรมแบบทีละขั้น

#language

กลยุทธ์ของการฝึกโมเดลตามลำดับขั้นที่ไม่ต่อเนื่องกัน เป้าหมายอาจเป็น เพื่อเร่งกระบวนการฝึก หรือเพื่อให้โมเดลมีคุณภาพดีขึ้น

ภาพประกอบของวิธีการกองซ้อนแบบโพรเกรสซีฟแสดงอยู่ด้านล่าง

  • ขั้นที่ 1 มีเลเยอร์ที่ซ่อนอยู่ 3 เลเยอร์ ขั้นที่ 2 มีเลเยอร์ที่ซ่อนอยู่ 6 เลเยอร์ และ ขั้นที่ 3 มีเลเยอร์ที่ซ่อนอยู่ 12 เลเยอร์
  • ขั้นที่ 2 เริ่มการฝึกโดยใช้การยกน้ำหนักที่เรียนรู้ในเลเยอร์ที่ซ่อนอยู่ 3 ชั้น ของขั้นที่ 1 ขั้นที่ 3 เริ่มการฝึกโดยใช้การยกน้ำหนักที่เรียนรู้ในข้อ 6 เลเยอร์ที่ซ่อนอยู่ของระยะที่ 2

3 ขั้นตอน ซึ่งติดป้ายกำกับว่าระยะที่ 1, ระยะที่ 2 และระยะ 3
          แต่ละระยะจะมีจำนวนเลเยอร์ต่างกัน: ระยะที่ 1 ประกอบด้วย
          3 เลเยอร์ ขั้นที่ 2 มี 6 เลเยอร์ และขั้นที่ 3 มี 12 เลเยอร์
          3 เลเยอร์จากขั้นที่ 1 จะกลายเป็น 3 เลเยอร์แรกของขั้นที่ 2
          ในทำนองเดียวกัน 6 เลเยอร์จากระยะที่ 2 จะกลายเป็น 6 เลเยอร์แรกของ
          ขั้นที่ 3

ดูเพิ่มเติมได้ที่ไปป์ไลน์

รัฐ

#rl

ในการเรียนรู้แบบเสริมกำลัง ค่าพารามิเตอร์ที่อธิบายเหตุการณ์ปัจจุบัน การกำหนดค่าสภาพแวดล้อม ซึ่ง agent ใช้เพื่อ เลือกการดำเนินการ

ฟังก์ชันค่าสถานะการดำเนินการ

#rl

คำพ้องความหมายของ Q-function

คงที่

#fundamentals

บางอย่างทำเพียงครั้งเดียวแทนที่จะทำอย่างต่อเนื่อง คำว่าคงที่และออฟไลน์เป็นคำพ้องความหมาย ต่อไปนี้เป็นการใช้งานทั่วไปของแบบคงที่และออฟไลน์ในเครื่อง การเรียนรู้:

  • โมเดลแบบคงที่ (หรือโมเดลออฟไลน์) คือโมเดลที่ได้รับการฝึกครั้งเดียว จากนั้น ไปสักพัก
  • การฝึกอบรมแบบคงที่ (หรือการฝึกอบรมออฟไลน์) เป็นกระบวนการฝึก โมเดลแบบคงที่
  • การอนุมานแบบคงที่ (หรือการอนุมานแบบออฟไลน์) คือ ที่โมเดลสร้างกลุ่มการคาดการณ์ต่อครั้ง

ตัดกับไดนามิก

การอนุมานแบบคงที่

#fundamentals

คำพ้องความหมายของการอนุมานออฟไลน์

ความคงที่

#fundamentals

ฟีเจอร์ที่ค่าไม่เปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักเกิดขึ้นตามเวลา ตัวอย่างเช่น ฟีเจอร์ที่มีค่าพอๆ กันในปี 2021 และ ปี 2023 จัดแสดงเรื่องราวที่ตรงไปตรงมา

ในโลกแห่งความเป็นจริง มีเพียงไม่กี่รายการที่แสดงความเป็นกลาง ฟีเจอร์เท่าๆ กัน มีความหมายเดียวกับความมั่นคง (เช่น ระดับน้ำทะเล) ที่เปลี่ยนแปลงเมื่อเวลาผ่านไป

คอนทราสต์กับ nonstationarity

ก้าว

การส่งต่อและส่งย้อนหลังของกลุ่มเดียว

ดูข้อมูลเพิ่มเติมได้ที่Backpropagation การส่งต่อและย้อนกลับ

ขนาดของขั้นบันได

คำพ้องความหมายของ learning Rate

การไล่ระดับสีแบบสโตแคติก (SGD)

#fundamentals

อัลกอริทึมการไล่ระดับสีโดยมาก ขนาดกลุ่มเท่ากับ 1 กล่าวคือ SGD รถไฟบน ตัวอย่างเดียวที่เลือกอย่างเท่าเทียมกัน แบบสุ่มจากชุดการฝึก

ก้าว

#image

ในการดำเนินการคอนโวลูชัน (Convolutional) หรือการรวมกลุ่มเดลต้า เดลต้าในแต่ละมิติข้อมูลของ ส่วนอินพุตชุดถัดไป ตัวอย่างเช่น ภาพเคลื่อนไหวต่อไปนี้ แสดงระยะ (1,1) ในระหว่างปฏิบัติการแบบคอนโวลูชัน (Convolutional) ดังนั้น ส่วนอินพุตถัดไปเริ่มที่ตำแหน่งด้านขวาของอินพุตก่อนหน้า ส่วนแบ่ง เมื่อการดำเนินการไปถึงขอบด้านขวา ชิ้นส่วนถัดไปทั้งหมดจะแสดง ไปทางซ้ายแต่ตำแหน่งด้านล่างลงไป

เมทริกซ์อินพุต 5x5 และตัวกรองคอนโวลูชันัล 3x3 เนื่องจาก
     ระยะก้าวคือ (1,1) ตัวกรองคอนโวลูชันัล (Convolutional) จะมีผล 9 ครั้ง แท็ก
     ส่วนแบ่งคอนโวลูชันัล (Convolutional) จะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านซ้ายบนของอินพุต
     เมตริกซ์ ส่วนแบ่งที่ 2 ประเมินพื้นที่ 3x3 ตรงกลางด้านบน
     เมทริกซ์ย่อย ส่วนแบ่งคอนโวลูชัน (Convolutional) ลำดับที่ 3 ประเมินขนาด 3x3 ด้านบนขวา
     เมทริกซ์ย่อย  ชิ้นส่วนที่ 4 ประเมินเมทริกซ์ย่อย 3x3 ตรงกลางซ้าย
     ชิ้นส่วนที่ 5 ประเมินเมทริกซ์ย่อยขนาด 3x3 ตรงกลาง ส่วนที่สอง
     ประเมินเมทริกซ์ย่อย 3x3 ตรงกลาง-ขวา ส่วนที่ 7 ประเมินผล
     เมทริกซ์ย่อยขนาด 3x3 ด้านซ้ายล่าง  ส่วนที่ 8 จะประเมิน
     เมทริกซ์ย่อย 3x3 ตรงกลาง-ล่าง ชิ้นส่วนที่ 9 ประเมินพื้นที่ขวาล่างแบบ 3x3
     เมทริกซ์ย่อย

ตัวอย่างก่อนหน้านี้แสดงระยะก้าวแบบ 2 มิติ หากอินพุต เมทริกซ์จะเป็น 3 มิติ ระยะก้าวจะเป็น 3 มิติด้วย

การลดความเสี่ยงด้านโครงสร้าง (SRM)

อัลกอริทึมที่ทำให้เป้าหมาย 2 เป้าหมายสมดุลกัน:

  • ความจำเป็นในการสร้างโมเดลการคาดการณ์ที่ดีที่สุด (เช่น การสูญเสียต่ำสุด)
  • คุณต้องทำให้โมเดลเรียบง่ายที่สุดเท่าที่จะทำได้ (ตัวอย่างเช่น regularization)

ตัวอย่างเช่น ฟังก์ชันที่ลด Loss+regularization ใน คืออัลกอริทึมการลดความเสี่ยงเชิงโครงสร้าง

ตรงข้ามกับการลดความเสี่ยงแบบเอมพิริคัลความเสี่ยง

การสุ่มตัวอย่างย่อย

#image

ดูพูล

โทเค็นคำย่อย

#language

ในโมเดลภาษา โทเค็นที่เป็น สตริงย่อยของคำ ซึ่งอาจเป็นทั้งคำ

เช่น คำอย่าง "itemize" อาจถูกแบ่งออกเป็นชิ้นส่วน "item" (คำราก) และ "ize" (คำต่อท้าย) ซึ่งแต่ละรายการจะแสดงแทนค่าของตัวเอง โทเค็น การแยกคำที่ไม่เป็นที่นิยมออกเป็นส่วนๆ ที่เรียกว่า "คำย่อย" ช่วยให้ โมเดลภาษาเพื่อดำเนินการในส่วนส่วนประกอบของคำที่พบได้ทั่วไปมากขึ้น เช่น คำนำหน้าและคำต่อท้าย

ในทางกลับกัน คำทั่วไป เช่น "ไป" อาจจะยังไม่เพียงพอและอาจ จะแสดงด้วยโทเค็นเดียว

สรุป

#TensorFlow

ใน TensorFlow ค่าหรือชุดค่าที่คำนวณตามค่าที่เจาะจง step ซึ่งโดยปกติจะใช้สำหรับการติดตามเมตริกของโมเดลระหว่างการฝึก

แมชชีนเลิร์นนิงที่มีการควบคุมดูแล

#fundamentals

ฝึกโมเดลจากฟีเจอร์และ ป้ายกำกับที่เกี่ยวข้อง แมชชีนเลิร์นนิงที่มีการควบคุมดูแลคล้ายกัน ในการเรียนรู้แต่ละหัวข้อด้วยการศึกษาชุดคำถามและ คำตอบที่เกี่ยวข้อง หลังจากทำความเข้าใจการจับคู่ระหว่างคำถามกับ นักเรียนจะให้คำตอบใหม่ (ไม่เคยเห็นมาก่อน) ได้ คำถามในหัวข้อเดียวกัน

เปรียบเทียบกับ แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

ฟีเจอร์สังเคราะห์

#fundamentals

ฟีเจอร์ที่ไม่มีอยู่ในฟีเจอร์อินพุต แต่มี ประกอบขึ้นจากองค์ประกอบเหล่านั้นอย่างน้อย 1 อย่าง วิธีการสร้างฟีเจอร์สังเคราะห์ ได้แก่

  • การฝากข้อมูล ฟีเจอร์ต่อเนื่องลงในถังขยะตามช่วง
  • การสร้างกากบาทฟีเจอร์
  • การคูณ (หรือหาร) ค่าฟีเจอร์หนึ่งด้วยค่าฟีเจอร์อื่น หรือโดยตัวมันเอง ตัวอย่างเช่น ถ้า a และ b เป็นฟีเจอร์อินพุต ค่า ต่อไปนี้เป็นตัวอย่างของคุณลักษณะสังเคราะห์:
    • Ab
    • 2
  • การใช้ฟังก์ชันทวิภาคกับค่าจุดสนใจ ตัวอย่างเช่น หาก c เป็นฟีเจอร์อินพุต ต่อไปนี้คือตัวอย่างของฟีเจอร์สังเคราะห์
    • sin(c)
    • ln(c)

ฟีเจอร์ที่สร้างโดยการปรับให้เป็นมาตรฐานหรือการปรับขนาด ไม่ถือว่าเป็นคุณลักษณะสังเคราะห์

T

T5

#language

โมเดลการโอนการเรียนรู้จากการแปลงข้อความเป็นข้อความ แนะนำโดย AI ของ Google ในปี 2020 T5 คือโมเดลโปรแกรมเปลี่ยนไฟล์-ตัวถอดรหัส ที่อิงจาก สถาปัตยกรรม Transformer ซึ่งได้รับการฝึกด้วยโมเดลขนาดใหญ่ ชุดข้อมูล มีประสิทธิภาพในงานประมวลผลภาษาธรรมชาติแบบต่างๆ เช่น การสร้างข้อความ การแปลภาษา และการตอบคำถามใน ในการพูดคุยอย่างเป็นกันเอง

T5 ได้ชื่อมาจากตัว T ทั้ง 5 ตัวใน "Text-to-Text Transfer Transformer"

แบบ T5X

#language

เฟรมเวิร์กแมชชีนเลิร์นนิงแบบโอเพนซอร์สที่ออกแบบ เพื่อสร้างและฝึกการประมวลผลภาษาธรรมชาติขนาดใหญ่ (NLP) T5 ใช้งานได้บน Codebase T5X (ซึ่งก็คือ สร้างขึ้นใน JAX และ Flax)

Q-learning แบบตาราง

#rl

ในการเรียนรู้แบบเสริมกำลัง ให้ใช้ Q-learning โดยใช้ตารางเพื่อจัดเก็บ ฟังก์ชัน Q สำหรับชุดค่าผสมแต่ละชุด state และการดำเนินการ

เป้าหมาย

คำพ้องความหมายของ label

เครือข่ายเป้าหมาย

#rl

ใน Deep Q-learning เครือข่ายระบบประสาทเทียม การประมาณโครงข่ายประสาทหลัก ที่โครงข่ายประสาทหลัก ใช้ฟังก์ชัน Q หรือนโยบาย จากนั้นคุณสามารถฝึกเครือข่ายหลักกับค่า Q- ที่เป้าหมายคาดการณ์ไว้ เครือข่าย ดังนั้นคุณจึงป้องกันการเก็บฟีดแบ็กมาแก้ไขเมื่อ จะฝึกเครือข่ายโดยใช้ Q-ค่า ที่คาดการณ์โดยตัวมันเอง การหลีกเลี่ยงความคิดเห็นนี้ ความเสถียรในการฝึกก็จะเพิ่มขึ้น

งาน

ปัญหาที่แก้ไขได้โดยใช้เทคนิคแมชชีนเลิร์นนิง เช่น

อุณหภูมิ

#language
#image
#generativeAI

พารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ควบคุมระดับของการสุ่ม ของเอาต์พุตโมเดล อุณหภูมิที่สูงขึ้น จะเกิดผลลัพธ์แบบสุ่มมากขึ้น ขณะที่อุณหภูมิที่ต่ำลง จะทำให้เอาต์พุตแบบสุ่มน้อยลง

การเลือกอุณหภูมิที่ดีที่สุดจะขึ้นอยู่กับการใช้งานเฉพาะและ พร็อพเพอร์ตี้ที่ต้องการของเอาต์พุตโมเดล ตัวอย่างเช่น คุณจะ อาจเพิ่มอุณหภูมิเมื่อสร้างแอปพลิเคชันที่ สร้างเอาต์พุตเชิงสร้างสรรค์ ในทางกลับกัน คุณอาจลดอุณหภูมิลงได้ เมื่อสร้างโมเดลที่จัดหมวดหมู่รูปภาพหรือข้อความเพื่อปรับปรุง ความถูกต้องและความสอดคล้องของโมเดล

อุณหภูมิมักจะใช้กับ softmax

ข้อมูลชั่วคราว

ข้อมูลที่บันทึกไว้ ณ เวลาต่างๆ ตัวอย่างเช่น การลดราคาเสื้อโค้ทฤดูหนาว ข้อมูลที่บันทึกไว้สำหรับแต่ละวันของปีจะเป็นข้อมูลชั่วคราว

Tensor

#TensorFlow

โครงสร้างข้อมูลหลักในโปรแกรม TensorFlow Tensor เป็นมิติ N (โดยที่ N อาจมีขนาดใหญ่มาก) โครงสร้างข้อมูล ซึ่งมักเป็นสเกลาร์ เวกเตอร์ หรือเมทริกซ์ องค์ประกอบของ Tensor สามารถเก็บจำนวนเต็ม จุดลอยตัว หรือสตริง

TensorBoard

#TensorFlow

แดชบอร์ดที่แสดงข้อมูลสรุปที่บันทึกไว้ระหว่างการดำเนินการ โปรแกรม TensorFlow อื่นๆ

TensorFlow

#TensorFlow

แพลตฟอร์มแมชชีนเลิร์นนิงแบบกระจายตัวขนาดใหญ่ คำศัพท์ยังหมายถึง เลเยอร์ API พื้นฐานในสแต็ก TensorFlow ซึ่งรองรับการประมวลผลทั่วไป บนกราฟโฟลว์ข้อมูล

แม้ว่า TensorFlow จะใช้สำหรับแมชชีนเลิร์นนิงเป็นหลัก แต่คุณก็อาจใช้ TensorFlow สำหรับงานที่ไม่ใช่ ML ที่ต้องมีการคำนวณตัวเลขโดยใช้ Dataflow

สนามเด็กเล่น TensorFlow

#TensorFlow

โปรแกรมที่แสดงให้เห็นความแตกต่าง โมเดลอิทธิพลของ hyperparameters (โครงข่ายระบบประสาทเทียมเป็นหลัก) ไปที่ http://playground.tensorflow.org เพื่อทดลองใช้ TensorFlow Playground

การแสดง TensorFlow

#TensorFlow

แพลตฟอร์มสำหรับทำให้โมเดลที่ได้รับการฝึกใช้งานได้ในเวอร์ชันที่ใช้งานจริง

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

วงจรรวมเฉพาะแอปพลิเคชัน (ASIC) ที่ช่วยเพิ่มประสิทธิภาพ ของภาระงาน ด้านแมชชีนเลิร์นนิง ASIC เหล่านี้จะนำไปใช้เป็น ชิป TPU หลายรายการในอุปกรณ์ TPU

อันดับของ Tensor

#TensorFlow

ดูอันดับ (Tensor)

รูปร่าง Tensor

#TensorFlow

จำนวนองค์ประกอบที่ Tensor มีอยู่ในมิติข้อมูลต่างๆ ตัวอย่างเช่น [5, 10] Tensor มีรูปร่าง 5 ในมิติเดียวและ 10 ในอีกตำแหน่งหนึ่ง

ขนาด Tensor

#TensorFlow

จำนวนสเกลาร์ทั้งหมดที่ Tensor มีอยู่ ตัวอย่างเช่น [5, 10] Tensor มีขนาด 50

TensorStore

ห้องสมุดสำหรับการอ่านและ การเขียนอาร์เรย์แบบหลายมิติขนาดใหญ่

เงื่อนไขการสิ้นสุด

#rl

ในการเรียนรู้แบบเสริมกำลัง เงื่อนไขที่ กำหนดว่าตอนสิ้นสุดเมื่อใด เช่น เมื่อตัวแทนเข้าถึง อยู่ในสถานะหนึ่งๆ หรือมีจำนวนการเปลี่ยนสถานะเกินเกณฑ์ที่กำหนด ตัวอย่างเช่น ใน tic-tac-toe (รวมถึง หรือที่เรียกกันว่า "จุดกากบาท" และ "จุดตัด") ตอนจะสิ้นสุดลงเมื่อผู้เล่นทำเครื่องหมาย เว้นวรรคติดกัน 3 ครั้ง หรือเมื่อมีการทำเครื่องหมายเว้นวรรคทั้งหมด

ทดสอบ

#df

ในแผนผังการตัดสินใจ จะเป็นอีกชื่อหนึ่งของ สภาพสินค้า

การสูญเสียการทดสอบ

#fundamentals

เมตริกที่แสดงถึงความสูญเสียของโมเดลเทียบกับ ชุดทดสอบ เมื่อสร้างโมเดล คุณ พยายามลดการสูญเสียการทดสอบให้เหลือน้อยที่สุด เพราะการสูญเสียการทดสอบที่ต่ำ สัญญาณคุณภาพสูงกว่าการสูญเสียการฝึกต่ำ หรือ การสูญเสียการตรวจสอบต่ำ

ช่องว่างระหว่างการสูญเสียการทดสอบกับการสูญเสียการฝึกหรือการสูญเสียการตรวจสอบเป็นบางครั้ง บ่งชี้ว่าคุณจะต้องเพิ่ม อัตราปกติ

ชุดทดสอบ

ชุดย่อยของชุดข้อมูลที่สงวนไว้สำหรับการทดสอบ โมเดลที่ผ่านการฝึกแล้ว

แต่เดิมคุณจะแบ่งตัวอย่างในชุดข้อมูลออกเป็น 3 ส่วน ย่อยที่แตกต่างกัน:

ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นของชุดย่อยชุดใดชุดหนึ่งก่อนหน้านี้เท่านั้น ตัวอย่างเช่น ตัวอย่างเดียวไม่ควรเป็นของทั้งชุดการฝึกและ ชุดทดสอบ

ทั้งชุดการฝึกและชุดการตรวจสอบต่างก็เกี่ยวข้องอย่างมากกับการฝึกโมเดล เนื่องจากชุดทดสอบเชื่อมโยงโดยอ้อมกับการฝึกเท่านั้น การสูญเสียการทดสอบเป็นเมตริกที่มีความลำเอียงและมีคุณภาพน้อยกว่า การสูญเสียการฝึกหรือการสูญเสียการตรวจสอบ

ช่วงข้อความ

#language

ช่วงดัชนีอาร์เรย์ที่เชื่อมโยงกับส่วนย่อยที่เฉพาะเจาะจงของสตริงข้อความ เช่น คำว่า good ในสตริง Python s="Be good now" ตรง ช่วงข้อความจาก 3 ถึง 6

tf.Example

#TensorFlow

มาตรฐาน บัฟเฟอร์โปรโตคอล เพื่ออธิบายข้อมูลอินพุตสำหรับการฝึกโมเดลแมชชีนเลิร์นนิงหรือการอนุมาน

tf.keras

#TensorFlow

การติดตั้งใช้งาน Keras ที่ผสานรวมเข้ากับ TensorFlow

เกณฑ์ (สำหรับแผนผังการตัดสินใจ)

#df

ในเงื่อนไขที่สอดคล้องกับแกน ค่าที่ มีการเปรียบเทียบ feature เช่น 75 คือค่า ในเงื่อนไขต่อไปนี้

grade >= 75

การวิเคราะห์อนุกรมเวลา

#clustering

สาขาย่อยของแมชชีนเลิร์นนิงและสถิติที่วิเคราะห์ ข้อมูลชั่วคราว แมชชีนเลิร์นนิงหลายประเภท จะต้องวิเคราะห์อนุกรมเวลา รวมทั้งการแยกประเภท การจัดกลุ่ม การคาดการณ์ และความผิดปกติ ตัวอย่างเช่น คุณสามารถใช้ การวิเคราะห์อนุกรมเวลาเพื่อคาดการณ์ยอดขายเสื้อโค้ทฤดูหนาวในอนาคตตามเดือน ตามข้อมูลการขายที่ผ่านมา

ไทม์สเต็ป

#seq

"ไม่ได้เปิด" 1 รายการ เซลล์ภายใน โครงข่ายระบบประสาทเทียมแบบเกิดซ้ำ ตัวอย่างเช่น รูปต่อไปนี้จะแสดงขั้นตอน 3 ขั้น (มีป้ายกำกับด้วย ตัวห้อย t-1, t และ t+1):

ตอบสนองแบบ 3 ขั้นตอนในเครือข่ายประสาทเทียมแบบเกิดซ้ำ เอาต์พุตของ
          Timestep แรกจะกลายเป็นอินพุตของ Timestep ที่ 2 เอาต์พุต
          ของขั้นตอนครั้งที่ 2 จะกลายเป็นอินพุตของขั้นตอนที่ 3

โทเค็น

#language

ในโมเดลภาษา หน่วยอะตอมที่เป็นโมเดล และคาดการณ์ได้ โทเค็นมักจะเป็นหนึ่งใน ดังต่อไปนี้:

  • คำ เช่น วลี "สุนัขชอบแมว" ประกอบด้วยคำ 3 คำ โทเค็น: "สุนัข" "ชอบ" และ "แมว"
  • อักขระ ตัวอย่างเช่น วลี "ปลาจักรยาน" ประกอบด้วย 9 โทเค็นอักขระ (โปรดทราบว่าช่องว่างนั้นนับเป็นหนึ่งในโทเค็น)
  • คำย่อย ซึ่งคำหนึ่งคำอาจเป็นโทเค็นเดียวหรือหลายโทเค็นก็ได้ คำย่อยประกอบด้วยคำราก คำนำหน้า หรือคำต่อท้าย ตัวอย่างเช่น โมเดลภาษาที่ใช้คำย่อยเป็นโทเค็นอาจดูคำว่า "สุนัข" เป็นโทเค็น 2 รายการ (รากคำว่า "สุนัข" และคำต่อท้ายพหูพจน์ "s") เหมือนเดิม โมเดลภาษาอาจมองเห็นคำเดียวที่ "สูงขึ้น" เป็นคำย่อยสองคำ ( รากคำ "สูง" และคำต่อท้าย "er")

ในโดเมนนอกโมเดลภาษา โทเค็นสามารถแสดง หน่วยอะตอม เช่น ในคอมพิวเตอร์วิทัศน์ โทเค็นอาจเป็นชุดย่อย รูปภาพ

Tower

องค์ประกอบของโครงข่ายประสาทแบบลึกที่ ซึ่งเป็นโครงข่ายประสาทแบบลึก ในบางกรณี แต่ละหอคอยจะอ่านจาก กับแหล่งข้อมูลอิสระและเสาสัญญาณเหล่านั้นก็ยังคงเป็นอิสระจนกว่า รวมกันในเลเยอร์สุดท้าย ในกรณีอื่นๆ (ตัวอย่างเช่น ใน หอคอยโปรแกรมเปลี่ยนไฟล์และเครื่องมือถอดรหัสของ Transformers จำนวนมาก) หอคอยมีการเชื่อมต่อระหว่างกัน กันอยู่เสมอ

TPU

#TensorFlow
#GoogleCloud

ตัวย่อของหน่วยประมวลผล Tensor

ชิป TPU

#TensorFlow
#GoogleCloud

เครื่องมือเร่งพีชคณิตเชิงเส้นแบบตั้งโปรแกรมได้ พร้อมหน่วยความจำแบบออนชิปซึ่งมีแบนด์วิดท์สูง ที่เพิ่มประสิทธิภาพสำหรับภาระงานด้านแมชชีนเลิร์นนิง มีการใช้ชิป TPU หลายรายการในอุปกรณ์ TPU

อุปกรณ์ TPU

#TensorFlow
#GoogleCloud

แผงวงจรพิมพ์ (PCB) ที่มีชิป TPU หลายชิ้น อินเทอร์เฟซเครือข่ายที่มีแบนด์วิดท์สูง และฮาร์ดแวร์ทำความเย็นของระบบ

ต้นแบบ TPU

#TensorFlow
#GoogleCloud

กระบวนการประสานงานส่วนกลางที่ทำงานบนเครื่องโฮสต์ที่ส่งและ รับข้อมูล ผลลัพธ์ โปรแกรม ประสิทธิภาพ และข้อมูลการทำงานของระบบ ให้แก่ผู้ปฏิบัติงาน TPU ต้นแบบ TPU จะจัดการการตั้งค่าด้วย และการปิดอุปกรณ์ TPU

โหนด TPU

#TensorFlow
#GoogleCloud

ทรัพยากร TPU บน Google Cloud พร้อม ประเภท TPU โหนด TPU จะเชื่อมต่อกับ เครือข่าย VPC จาก เครือข่าย VPC แบบเพียร์ โหนด TPU เป็นทรัพยากรที่กำหนดไว้ใน Cloud TPU API

พ็อด TPU

#TensorFlow
#GoogleCloud

การกำหนดค่าที่เจาะจงของอุปกรณ์ TPU ใน ศูนย์ข้อมูลของเรา อุปกรณ์ทั้งหมดในพ็อด TPU เชื่อมต่อกันอยู่ ผ่านเครือข่ายความเร็วสูงโดยเฉพาะ พ็อด TPU เป็นการกำหนดค่าที่ใหญ่ที่สุดของ อุปกรณ์ TPU ที่พร้อมใช้งานสําหรับเวอร์ชัน TPU ที่เจาะจง

ทรัพยากร TPU

#TensorFlow
#GoogleCloud

เอนทิตี TPU บน Google Cloud ที่คุณสร้าง จัดการ หรือใช้ สำหรับ ตัวอย่างเช่น โหนด TPU และประเภท TPU ทรัพยากร TPU

ส่วนแบ่ง TPU

#TensorFlow
#GoogleCloud

ส่วนแบ่ง TPU เป็นเศษส่วนย่อยของอุปกรณ์ TPU ใน TPU Pod เชื่อมต่ออุปกรณ์ทั้งหมดในส่วนแบ่ง TPU แล้ว กันผ่านเครือข่ายความเร็วสูงโดยเฉพาะ

ประเภท TPU

#TensorFlow
#GoogleCloud

การกำหนดค่าของอุปกรณ์ TPU อย่างน้อย 1 เครื่องพร้อม เวอร์ชันฮาร์ดแวร์ TPU คุณเลือกประเภท TPU เมื่อสร้าง โหนด TPU บน Google Cloud ตัวอย่างเช่น v2-8 ประเภท TPU เป็นอุปกรณ์ TPU v2 เดี่ยวที่มีแกน 8 แกน ประเภท TPU v3-2048 มี 256 อุปกรณ์ TPU v3 ที่ใช้เครือข่ายและใช้แกนทั้งหมด 2048 แกน ประเภท TPU คือทรัพยากร ที่กำหนดไว้ใน Cloud TPU API

ผู้ปฏิบัติงาน TPU

#TensorFlow
#GoogleCloud

กระบวนการที่ทำงานบนเครื่องโฮสต์และเรียกใช้โปรแกรมแมชชีนเลิร์นนิง ในอุปกรณ์ TPU

การฝึกอบรม

#fundamentals

กระบวนการกำหนดพารามิเตอร์ที่เหมาะสม (น้ำหนักและ อคติ) ประกอบขึ้นเป็นโมเดล ในระหว่างการฝึก ระบบจะอ่านเป็น ตัวอย่าง แล้วค่อยๆ ปรับพารามิเตอร์ การฝึกใช้แต่ละองค์ประกอบ ตั้งแต่ 2-3 ครั้งไปจนถึงหลายพันล้านครั้ง

การสูญเสียการฝึกซ้อม

#fundamentals

เมตริกที่แสดงการสูญเสียของโมเดลระหว่าง การทำซ้ำการฝึกอบรมหนึ่งๆ โดยเฉพาะ ตัวอย่างเช่น สมมติว่าฟังก์ชันสูญเสีย คือ ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง อาจเป็นการสูญเสียจากการฝึก (ค่าเฉลี่ย ข้อผิดพลาดในสี่เหลี่ยม) สำหรับการทำซ้ำครั้งที่ 10 คือ 2.2 และการสูญเสียการฝึกสำหรับ การทำซ้ำครั้งที่ 100 คือ 1.9

กราฟ Lost แสดงการสูญเสียการฝึกเทียบกับจำนวน ซ้ำหลายครั้ง เส้นโค้งการสูญเสียจะระบุคำแนะนำเกี่ยวกับการฝึกต่อไปนี้

  • กราฟที่ชันลงหมายความว่าโมเดลมีการปรับปรุง
  • กราฟที่ชันขึ้นหมายความว่าโมเดลกำลังแย่ลง
  • กราฟที่มีความลาดชันแบบแบนราบ หมายความว่าโมเดลถึง convergence

ตัวอย่างเช่น กราฟ Lost ที่ค่อนข้างเป็นไปตามอุดมคติต่อไปนี้ แสดง:

  • กราฟที่ลาดลงสูงชันในช่วงการทำซ้ำครั้งแรก ซึ่งแสดงนัยว่า การปรับปรุงโมเดลอย่างรวดเร็ว
  • การสไลด์แบบค่อยๆ แบน (แต่ยังคงลง) ไปจนใกล้ส่วนท้าย ของการฝึกอบรม ซึ่งก็หมายความว่ามีการปรับปรุงโมเดลอย่างต่อเนื่องใน ในอัตราที่ช้าลงระหว่างการปรับปรุงครั้งแรก
  • กราฟที่มีความลาดชันแบบแบนราบไปจนถึงช่วงท้ายของการฝึก ซึ่งบ่งบอกถึงการบรรจบกัน

แผนของการสูญเสียจากการฝึกเทียบกับการทำซ้ำ กราฟการสูญเสียนี้เริ่มต้น
     โดยมีพื้นที่ลาดลงสูงชัน ความชันจะค่อยๆ แบนจน
     ความชันจะกลายเป็น 0

แม้ว่าการสูญเสียการฝึกอบรมจะเป็นสิ่งสำคัญ โปรดดู ทั่วไป

ความคลาดเคลื่อนระหว่างการฝึกและการให้บริการ

#fundamentals

ความแตกต่างระหว่างประสิทธิภาพของรูปแบบในระหว่าง การฝึกทำงานและประสิทธิภาพของโมเดลเดียวกันในระหว่าง การแสดงผล

ชุดการฝึก

#fundamentals

ชุดย่อยของชุดข้อมูลที่ใช้ในการฝึกโมเดล

เดิมที ตัวอย่างในชุดข้อมูลจะแบ่งออกเป็น 3 ประเภทต่อไปนี้ ย่อยที่แตกต่างกัน:

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นของ ชุดย่อยที่อยู่ก่อนหน้า ตัวอย่างเช่น มีตัวอย่างหนึ่งที่ไม่ควรเป็น ทั้งชุดการฝึกและชุดการตรวจสอบ

วิถีโคจร

#rl

ในการเรียนรู้แบบเสริมกำลัง ลำดับของ tuples ที่สื่อถึง ลำดับการเปลี่ยนสถานะของ agent โดยแต่ละ Tuple จะสอดคล้องกับสถานะ, action, รางวัล และสถานะถัดไปสำหรับการเปลี่ยนแปลงสถานะที่กำหนด

ถ่ายทอดการเรียนรู้

การโอนข้อมูลจากงานของแมชชีนเลิร์นนิงงานหนึ่งไปยังอีกงานหนึ่ง เช่น ในการเรียนรู้แบบมัลติทาสก์ โมเดลเดียวแก้ปัญหาได้หลายอย่าง เช่น โมเดลเชิงลึกที่มีโหนดเอาต์พุตที่แตกต่างกันสำหรับ งานต่างๆ ได้ การถ่ายทอดการเรียนรู้อาจรวมถึงการโอนความรู้ จากโซลูชันงานที่ง่ายกว่าไปเป็นงานที่ซับซ้อนมากขึ้น หรือเกี่ยวข้องกับ ถ่ายโอนความรู้จากงานที่มีข้อมูลจำนวนมาก ข้อมูลจึงมีน้อยลง

ระบบแมชชีนเลิร์นนิงส่วนใหญ่จะแก้ปัญหางานเดียว การถ่ายทอดการเรียนรู้ ลูกน้อยก้าวไปสู่ปัญญาประดิษฐ์ (AI) ที่มีเพียงโปรแกรมเดียวช่วยแก้ปัญหา หลายงานได้

Transformer

#language

สถาปัตยกรรมโครงข่ายระบบประสาทเทียมที่พัฒนาที่ Google ซึ่ง อาศัยกลไกการดึงดูดตนเองเพื่อเปลี่ยนรูปแบบ ลำดับของอินพุตที่ฝังเข้าไปในลำดับเอาต์พุต ฝังโดยไม่ต้องอาศัย Convolution หรือ โครงข่ายประสาทแบบเกิดซ้ำ ตัว Transformer สามารถ แสดงเป็นกลุ่มของเลเยอร์ ที่ให้ความสนใจตนเอง

ตัวเปลี่ยนรูปแบบอาจประกอบด้วยสิ่งต่อไปนี้

โปรแกรมเปลี่ยนไฟล์จะแปลงลำดับการฝังเป็นลำดับใหม่ของ ที่มีความยาวเท่ากัน โปรแกรมเปลี่ยนไฟล์มีเลเยอร์ที่เหมือนกัน N ชั้น ซึ่งแต่ละชั้นมี 2 ชั้น เลเยอร์ย่อย ระบบจะใช้เลเยอร์ย่อย 2 เลเยอร์นี้ที่แต่ละตำแหน่งของอินพุต การฝังลำดับ ซึ่งจะเปลี่ยนรูปแบบองค์ประกอบแต่ละรายการของลำดับให้เป็น การฝังวิดีโอ เลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์แรกจะรวบรวมข้อมูลจาก ลำดับการป้อนข้อมูล เลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ที่ 2 จะเปลี่ยนรูปแบบการรวม ข้อมูลลงในเอาต์พุตที่ฝัง

ตัวถอดรหัสจะแปลงลำดับอินพุตที่ฝังเป็นลำดับ การฝังเอาต์พุต อาจมีความยาวต่างกันก็ได้ ตัวถอดรหัสยังประกอบด้วย เลเยอร์ที่เหมือนกัน N เลเยอร์ซึ่งมีเลเยอร์ย่อยสามเลเยอร์ โดยสองเลเยอร์มีลักษณะคล้ายกับ และเลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ เลเยอร์ย่อยของตัวถอดรหัสรายการที่ 3 จะนำเอาต์พุตของ โปรแกรมเปลี่ยนไฟล์และใช้กลไกการตั้งความสนใจของตนเองกับ รวบรวมข้อมูลได้

บล็อกโพสต์ Transformer: A Novel Network Architecture for Language ความเข้าใจ เป็นข้อมูลเบื้องต้นที่ดีเกี่ยวกับ Transformers

ความแปรปรวนของการแปล

#image

ในการแก้ปัญหาการจำแนกประเภทรูปภาพ ความสามารถของอัลกอริทึมในการ จัดประเภทรูปภาพแม้ว่าตำแหน่งของวัตถุภายในรูปภาพจะเปลี่ยนไป ตัวอย่างเช่น อัลกอริทึมยังคงสามารถระบุสุนัขได้ ไม่ว่าจะอยู่ใน ตรงกลางของเฟรมหรือด้านซ้ายสุดของเฟรม

โปรดดูความแปรปรวนของขนาดและ ความแปรปรวนของการหมุนเวียน

Trigram

#seq
#language

N-gram ที่มี N=3

ผลลบจริง (TN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์อย่างถูกต้อง คลาสเชิงลบ เช่น โมเดลอนุมานว่า ข้อความอีเมลรายการหนึ่งไม่ใช่สแปม และข้อความอีเมลดังกล่าวนั้น ไม่ใช่สแปม

ผลบวกจริง (TP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์อย่างถูกต้อง คลาสเชิงบวก เช่น โมเดลอนุมานว่า ข้อความอีเมลรายการหนึ่งเป็นสแปม และข้อความอีเมลนั้นเป็นสแปมจริงๆ

อัตราผลบวกจริง (TPR)

#fundamentals

คำพ้องความหมายของ recall โดยการ

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

อัตราผลบวกจริงคือแกน y ในเส้นโค้ง ROC

U

การไม่ทราบ (สำหรับแอตทริบิวต์ที่มีความละเอียดอ่อน)

#fairness

สถานการณ์ที่แอตทริบิวต์ที่มีความละเอียดอ่อน อยู่ แต่ไม่รวมอยู่ในข้อมูลการฝึก เนื่องจากแอตทริบิวต์ที่มีความละเอียดอ่อน มักสัมพันธ์กับแอตทริบิวต์อื่นๆ ของข้อมูล ที่ไม่ทราบเกี่ยวกับแอตทริบิวต์ที่มีความละเอียดอ่อนก็ยังอาจ ผลกระทบที่แตกต่างกันสำหรับแอตทริบิวต์นั้น หรือละเมิดข้อจำกัดด้านความยุติธรรมอื่นๆ

ไม่เหมาะสม

#fundamentals

สร้างโมเดลที่มีความสามารถในการคาดการณ์ต่ำเนื่องจากโมเดล ระบบไม่ได้บันทึกความซับซ้อนของข้อมูลการฝึกโดยสมบูรณ์ หลายปัญหา อาจทำให้เกิดการปรับที่ไม่เหมาะสม ซึ่งรวมถึง

การสุ่มตัวอย่างต่ำ

การนำตัวอย่างออกจาก กลุ่มส่วนใหญ่ใน ชุดข้อมูลที่ไม่สมดุลกันเพื่อ สร้างชุดการฝึกที่มีความสมดุลยิ่งขึ้น

ตัวอย่างเช่น ลองพิจารณาชุดข้อมูลที่มีอัตราส่วนของคลาสส่วนใหญ่ต่อ ชนกลุ่มน้อยคือ 20:1 เพื่อเอาชนะชั้นเรียนนี้ ไม่สมดุล คุณอาจสร้างชุดการฝึกที่ประกอบด้วยผู้เยาว์ทั้งหมด ตัวอย่างคลาสซึ่งมีอยู่เพียง 11 จากตัวอย่างส่วนใหญ่ของชั้นเรียน ซึ่งจะ ให้สร้างอัตราส่วนคลาสชุดการฝึกเป็น 2:1 การที่เราทำตัวอย่างน้อยเกินไป จึงช่วยให้ ชุดการฝึกที่สมดุลอาจสร้างโมเดลที่ดียิ่งขึ้น อีกวิธีหนึ่งคือ ชุดการฝึกที่มีความสมดุลมากขึ้นอาจมีตัวอย่างไม่เพียงพอที่จะฝึก โมเดลที่มีประสิทธิภาพ

ตัดกับการสุ่มตัวอย่างมากเกินไป

ทิศทางเดียว

#language

ระบบที่ประเมินเฉพาะข้อความที่อยู่ก่อนส่วนเป้าหมายของข้อความ ในทางตรงกันข้าม ระบบแบบ 2 ทิศทางจะประเมินทั้ง ข้อความที่อยู่ก่อนหน้าและตามหลังส่วนเป้าหมายของข้อความ ดูรายละเอียดเพิ่มเติมได้ที่แบบ 2 ทาง

โมเดลภาษาแบบทิศทางเดียว

#language

โมเดลภาษาที่พิจารณาความน่าจะเป็นจาก โทเค็นที่ปรากฏก่อน ไม่ใช่หลังโทเค็นเป้าหมาย แตกต่างจากโมเดลภาษาแบบ 2 ทิศทาง

ตัวอย่างที่ไม่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มี features แต่ไม่มี label ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่างที่ไม่มีป้ายกำกับจากบ้าน 3 ตัวอย่าง รูปแบบการประเมินราคา แต่ละแบบมีคุณลักษณะ 3 แบบแต่ไม่มีมูลค่าบ้าน

จำนวนห้องนอน จำนวนห้องน้ำ อายุบ้าน
3 2 15
2 1 72
4 2 34

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกบนตัวอย่างที่ติดป้ายกำกับแล้วและทำการคาดการณ์ ตัวอย่างที่ไม่มีป้ายกำกับ

อยู่ในการควบคุมดูแลบางส่วนและ การเรียนรู้ที่ไม่ได้อยู่ภายใต้การควบคุมดูแล รวมทั้งใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการฝึก

เปรียบเทียบตัวอย่างที่ไม่มีป้ายกำกับกับตัวอย่างที่มีป้ายกำกับ

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

#clustering
#fundamentals

การฝึก model เพื่อค้นหารูปแบบในชุดข้อมูล โดยทั่วไปจะเป็น ชุดข้อมูลที่ไม่มีป้ายกำกับ

การใช้งานที่พบบ่อยที่สุดของแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลคือ ข้อมูล cluster ออกเป็นกลุ่มตัวอย่างที่คล้ายกัน เช่น เครื่องที่ไม่มีการควบคุมดูแล อัลกอริทึมการเรียนรู้สามารถจัดกลุ่มเพลงตามคุณสมบัติต่างๆ ของเพลงนั้นๆ คลัสเตอร์ที่ได้จะกลายเป็นอินพุตของเครื่องอื่นได้ อัลกอริทึมการเรียนรู้ (เช่น บริการแนะนำเพลง) การจัดกลุ่มสามารถช่วยได้เมื่อไม่มีป้ายกำกับที่มีประโยชน์หรือไม่มีป้ายกำกับที่เป็นประโยชน์ ตัวอย่างเช่น ในโดเมนต่างๆ เช่น การป้องกันการละเมิดและการประพฤติมิชอบ คลัสเตอร์สามารถช่วยได้ มนุษย์เข้าใจข้อมูลได้ดีขึ้น

ซึ่งแตกต่างจากแมชชีนเลิร์นนิงที่มีการควบคุมดูแล

การประมาณการเพิ่มขึ้น

เทคนิคการสร้างแบบจำลองที่นิยมใช้กันโดยทั่วไปในด้านการตลาด ซึ่งจำลอง "ผลกระทบโดยทั่วไป" (หรือที่เรียกว่า "ผลกระทบที่เพิ่มขึ้น") ของ "กลุ่มทดสอบ" ต่อ "บุคคลทั่วไป" ต่อไปนี้เป็นตัวอย่างสองตัวอย่าง:

  • แพทย์อาจใช้การประมาณการเพิ่มขึ้นเพื่อคาดการณ์จำนวนการเสียชีวิตที่ลดลง (ผลกระทบโดยทั่วไป) ของกระบวนการทางการแพทย์ (การรักษา) ขึ้นอยู่กับ อายุและประวัติทางการแพทย์ของผู้ป่วย (บุคคลทั่วไป)
  • นักการตลาดอาจใช้การประมาณการเพิ่มขึ้นเพื่อคาดการณ์การเพิ่มขึ้นของ ความน่าจะเป็นของการซื้อ (ผลกระทบโดยทั่วไป) เนื่องจากการโฆษณา (การปฏิบัติ) ต่อบุคคล (บุคคลทั่วไป)

การประมาณการเพิ่มขึ้นแตกต่างจากการแยกประเภทหรือ การถดถอยในป้ายกำกับบางป้าย (เช่น ครึ่ง ของป้ายกำกับในกลุ่มทดสอบแบบไบนารี) มักจะหายไปในการประมาณการเพิ่มขึ้น เช่น ผู้ป่วยสามารถรับหรือไม่รับการรักษาก็ได้ เราจึงสังเกตได้เพียงว่าผู้ป่วยจะหายหรือ ไม่เยียวยารักษาในบางสถานการณ์เท่านั้น (แต่ไม่ใช่ทั้ง 2 อย่าง) ข้อได้เปรียบหลักของโมเดลการเพิ่มขึ้นคือสามารถสร้างการคาดการณ์ สำหรับสถานการณ์ที่ไม่สามารถสังเกตได้ (ข้อโต้แย้ง) แล้วนำมาใช้คำนวณ ผลกระทบโดยทั่วไป

การเพิ่มน้ำหนัก

การใช้น้ำหนักกับคลาส downsampled ให้เท่ากับ ให้กับปัจจัยที่คุณใช้สุ่มตัวอย่าง

เมทริกซ์ผู้ใช้

#recsystems

ในระบบการแนะนำ เวกเตอร์การฝังที่สร้างขึ้นโดย การแยกตัวประกอบเมทริกซ์ ที่เก็บสัญญาณแฝงเกี่ยวกับความต้องการของผู้ใช้ แต่ละแถวของเมทริกซ์ผู้ใช้จะเก็บข้อมูลเกี่ยวกับ ความแรงของสัญญาณแฝงต่างๆ สำหรับผู้ใช้รายเดียว ตัวอย่างเช่น ลองพิจารณาระบบการแนะนำภาพยนตร์ ในระบบนี้ สัญญาณแฝงในเมทริกซ์ของผู้ใช้อาจแสดงถึงความสนใจของผู้ใช้แต่ละราย สำหรับบางประเภท หรืออาจตีความสัญญาณที่เกี่ยวข้องกับ การโต้ตอบที่ซับซ้อนในหลายๆ ปัจจัย

เมทริกซ์ผู้ใช้จะมีคอลัมน์สำหรับฟีเจอร์แฝงแต่ละรายการและแถวสำหรับผู้ใช้แต่ละราย กล่าวคือ เมทริกซ์ผู้ใช้จะมีจำนวนแถวเท่ากับเป้าหมาย เมทริกซ์ที่กำลังแยกตัวประกอบ เช่น ระบุภาพยนตร์ ระบบการแนะนำวิดีโอสำหรับผู้ใช้ 1,000,000 คน เมทริกซ์ผู้ใช้จะมี 1,000,000 แถว

V

การตรวจสอบความถูกต้อง

#fundamentals

การประเมินคุณภาพของโมเดลเบื้องต้น การตรวจสอบความถูกต้องจะตรวจสอบคุณภาพการคาดการณ์ของโมเดลเทียบกับ ชุดการตรวจสอบ

เนื่องจากชุดการตรวจสอบแตกต่างจากชุดการฝึก การตรวจสอบความถูกต้องจะช่วยป้องกันการใช้งานเกินความจำเป็น

คุณอาจมองว่าการประเมินโมเดลเทียบกับชุดการตรวจสอบความถูกต้องเป็น รอบแรกและประเมินโมเดลเทียบกับ test set เป็นการทดสอบรอบที่ 2

การสูญเสียการตรวจสอบ

#fundamentals

เมตริกที่แสดงการสูญเสียของโมเดลใน ชุดการตรวจสอบในช่วงเวลา การปรับปรุงการฝึก

โปรดดูกราฟทั่วไปด้วย

ชุดการตรวจสอบ

#fundamentals

เซ็ตย่อยของชุดข้อมูลที่ดำเนินการเริ่มต้น การประเมินเทียบกับโมเดลที่ผ่านการฝึก โดยปกติแล้ว คุณจะประเมิน โมเดลที่ฝึกเทียบกับชุดการตรวจสอบหลายรายการ ก่อนที่จะประเมินโมเดลเทียบกับชุดทดสอบ

เดิมที คุณจะแบ่งตัวอย่างในชุดข้อมูลออกเป็น 3 ส่วน ย่อยที่แตกต่างกัน:

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นของ ชุดย่อยที่อยู่ก่อนหน้า ตัวอย่างเช่น มีตัวอย่างหนึ่งที่ไม่ควรเป็น ทั้งชุดการฝึกและชุดการตรวจสอบ

การคำนวณค่า

กระบวนการแทนที่ค่าที่ขาดหายไปด้วยค่าทดแทนที่ยอมรับได้ หากไม่มีค่า คุณสามารถทิ้งตัวอย่างทั้งหมดหรือ สามารถใช้การคำนวณมูลค่าเพื่อกู้คืนตัวอย่าง

ตัวอย่างเช่น ลองพิจารณาชุดข้อมูลที่มีฟีเจอร์ temperature ที่ ควรได้รับการบันทึกทุกชั่วโมง แต่ค่าอุณหภูมิที่อ่านได้คือ ไม่พร้อมใช้งานในบางชั่วโมง ส่วนของชุดข้อมูลมีดังนี้

การประทับเวลา อุณหภูมิ
1680561000 10
1680564600 12
1680568200 ขาดหายไป
1680571800 20
1680575400 21
1680579000 21

ระบบอาจลบตัวอย่างที่ขาดหายไปหรือสื่อให้เข้าใจผิด อุณหภูมิเป็น 12, 16, 18 หรือ 20 ขึ้นอยู่กับอัลกอริทึมการคำนวณ

โจทย์การไล่ระดับสีที่หายไป

#seq

แนวโน้มการไล่ระดับสีของเลเยอร์ที่ซ่อนอยู่ในช่วงต้น ของโครงข่ายประสาทระดับลึกบางเครือข่ายจนกลายเป็น แบนราบ (ต่ำ) อย่างไม่น่าเชื่อ การไล่ระดับสีที่น้อยลงเรื่อยๆ จะยิ่งทำให้ การเปลี่ยนแปลงที่น้อยลงกับน้ำหนักของโหนดต่างๆ ในโครงข่ายระบบประสาทเทียมระดับลึกซึ่งนำไปสู่ การเรียนรู้เพียงเล็กน้อยหรือไม่มีเลย โมเดลที่ได้รับผลกระทบจากปัญหาการไล่ระดับสีที่หายไป จะฝึกอบรมได้ยากหรือทำไม่ได้เลย เซลล์หน่วยความจำระยะสั้นเพื่อแก้ปัญหานี้

เปรียบเทียบกับโจทย์การไล่ระดับสีแบบระเบิด

ความสำคัญของตัวแปร

#df

ชุดคะแนนที่ระบุความสำคัญเชิงเปรียบเทียบของคะแนนแต่ละรายการ feature ของโมเดล

เช่น ลองพิจารณาแผนผังการตัดสินใจที่ ประเมินราคาบ้าน สมมติว่าแผนผังการตัดสินใจนี้ใช้ คุณลักษณะ: ขนาด อายุ และสไตล์ หากชุดความสำคัญของตัวแปร สำหรับคุณลักษณะทั้ง 3 แห่งให้คำนวณ {size=5.8, age=2.5, style=4.7} แล้ว ขนาดมีความสำคัญมากกว่าสำหรับ ต้นไม้การตัดสินใจมากกว่าอายุหรือสไตล์

มีเมตริกความสำคัญของตัวแปรที่แตกต่างกัน ซึ่งสามารถบอก ผู้เชี่ยวชาญด้าน ML เกี่ยวกับแง่มุมต่างๆ ของโมเดล

โปรแกรมเปลี่ยนไฟล์อัตโนมัติแบบผันแปร (VAE)

#language

โปรแกรมเปลี่ยนไฟล์อัตโนมัติประเภทหนึ่งที่ใช้ประโยชน์จากความคลาดเคลื่อน ระหว่างอินพุตและเอาต์พุตเพื่อสร้างอินพุตเวอร์ชันที่แก้ไขแล้ว โปรแกรมเปลี่ยนไฟล์อัตโนมัติรูปแบบต่างๆ มีประโยชน์สําหรับ Generative AI

VAE จะอิงตามการอนุมานเชิงแปรผัน ซึ่งเป็นเทคนิคในการประมาณค่า พารามิเตอร์ของโมเดลความน่าจะเป็น

เวกเตอร์

คำมากเกินไป ซึ่งมีความหมายต่างกันไปในเชิงคณิตศาสตร์ต่างๆ และวิทยาศาสตร์ ภายในแมชชีนเลิร์นนิง เวกเตอร์มีสมบัติ 2 อย่างดังนี้

  • ประเภทข้อมูล: เวกเตอร์ในแมชชีนเลิร์นนิงมักจะเก็บเลขทศนิยมไว้
  • จำนวนองค์ประกอบ: นี่คือความยาวของเวกเตอร์หรือมิติข้อมูลของเวกเตอร์

ตัวอย่างเช่น ลองพิจารณา เวกเตอร์ฟีเจอร์ ที่มี 8 ซึ่งเป็นเลขทศนิยม เวกเตอร์ของจุดสนใจนี้มีความยาวหรือมีมิติเท่ากับ 8 โปรดทราบว่าเวกเตอร์แมชชีนเลิร์นนิงมักจะมีมิติข้อมูลจำนวนมาก

คุณสามารถแสดงข้อมูลประเภทต่างๆ เป็นเวกเตอร์ได้ เช่น

  • ตำแหน่งใดก็ได้บนพื้นผิวโลกสามารถแสดงเป็น 2 มิติได้ เวกเตอร์ โดยที่มิติหนึ่งคือละติจูดและอีกด้านเป็นลองจิจูด
  • ราคาปัจจุบันของหุ้นแต่ละตัว 500 รายการสามารถใช้เป็น เวกเตอร์ 500 มิติ
  • แสดงการแจกแจงความน่าจะเป็นของคลาสในจำนวนที่จำกัดได้ เป็นเวกเตอร์ ตัวอย่างเช่น ระบบการแยกประเภทแบบหลายคลาสที่ คาดการณ์ว่าสีเอาต์พุต 1 ใน 3 สี (แดง เขียว หรือเหลือง) จะแสดงผลค่า เวกเตอร์ (0.3, 0.2, 0.5) เพื่อหมายถึง P[red]=0.3, P[green]=0.2, P[yellow]=0.5

เวกเตอร์สามารถเชื่อมถึงกันได้ ดังนั้น สื่อประเภทต่างๆ อาจ แสดงเป็นเวกเตอร์เดียว บางรุ่นจะทำงานโดยตรงกับ การเชื่อมต่อการเข้ารหัสแบบฮอตเดียวหลายๆ แบบ

หน่วยประมวลผลเฉพาะทาง เช่น TPU ได้รับการเพิ่มประสิทธิภาพให้ทำงานได้ การดำเนินการทางคณิตศาสตร์เกี่ยวกับเวกเตอร์

เวกเตอร์คือ tensor ของ rank 1.

W

การสูญเสีย Wasserstein

ฟังก์ชันการสูญเสียฟังก์ชันที่มักใช้ใน เครือข่ายโฆษณาที่เป็นมิตรต่อสิ่งแวดล้อม ขึ้นอยู่กับระยะห่างของผู้ย้ายโลกระหว่าง การกระจายข้อมูลที่สร้างขึ้นและข้อมูลจริง

น้ำหนัก

#fundamentals

ค่าที่โมเดลคูณด้วยค่าอื่น การฝึกเป็นกระบวนการพิจารณาน้ำหนักที่เหมาะสมของโมเดล การอนุมานเป็นกระบวนการใช้น้ำหนักที่เรียนรู้เพื่อ ทำการคาดคะเน

สี่เหลี่ยมจัตุรัสน้อยที่สุดสลับกันแบบถ่วงน้ำหนัก (WALS)

#recsystems

อัลกอริทึมสำหรับการปรับฟังก์ชันวัตถุประสงค์ให้น้อยที่สุดในระหว่าง การแยกตัวประกอบเมทริกซ์ใน ระบบการแนะนำ ซึ่งช่วยให้ การลดน้ำหนักของตัวอย่างที่ขาดหายไป WALS ช่วยลดน้ำหนัก ความคลาดเคลื่อนกำลังสองระหว่างเมทริกซ์เดิมกับการสร้างใหม่โดย สลับระหว่างการแก้ไขการแยกตัวประกอบแถวและการแยกตัวประกอบคอลัมน์ การเพิ่มประสิทธิภาพแต่ละอย่างนี้จะแก้ได้ด้วยกำลังสองที่น้อยที่สุด การเพิ่มประสิทธิภาพ Conv. โปรดดูรายละเอียดที่ หลักสูตรระบบการแนะนำวิดีโอ

ผลรวมถ่วงน้ำหนัก

#fundamentals

ผลรวมของค่าอินพุตที่เกี่ยวข้องทั้งหมดคูณด้วยค่าที่ตรงกัน ยกน้ำหนัก ตัวอย่างเช่น สมมติว่าข้อมูลที่เกี่ยวข้องประกอบด้วยข้อมูลต่อไปนี้

ค่าที่ป้อน น้ำหนักอินพุต
2 -1.3
-1 0.6
3 0.4

ดังนั้น ผลรวมถ่วงน้ำหนักจึงเป็นดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

ผลรวมถ่วงน้ำหนักคืออาร์กิวเมนต์อินพุตของ ฟังก์ชันการเปิดใช้งาน

โมเดลแบบกว้าง

รูปแบบเชิงเส้นที่มักมี ฟีเจอร์การป้อนข้อมูลบางส่วน เราเรียกสิ่งนี้ว่า "wide" ตั้งแต่ โมเดลดังกล่าวเป็นโครงข่ายประสาทประเภทพิเศษที่มี อินพุตจำนวนมากที่เชื่อมต่อกับโหนดเอาต์พุตโดยตรง โมเดลแบบกว้าง มักจะแก้ไขข้อบกพร่องและตรวจสอบได้ง่ายกว่าโมเดลเชิงลึก แม้ว่าโมเดลแบบกว้าง ไม่สามารถแสดงความไม่เป็นเชิงเส้นผ่านเลเยอร์ที่ซ่อน โมเดลแบบกว้างสามารถใช้การแปลงต่างๆ เช่น ข้ามฟีเจอร์และ bucketization เพื่อจำลองสิ่งที่ไม่ใช่เชิงเส้นในรูปแบบต่างๆ

คอนทราสต์กับโมเดลเชิงลึก

ความกว้าง

จำนวนเซลล์ประสาทในเลเยอร์หนึ่งๆ ของโครงข่ายประสาท

ภูมิปัญญาของฝูงชน

#df

แนวคิดที่ค่าเฉลี่ยความคิดเห็นหรือค่าประมาณของคนกลุ่มใหญ่ ของผู้คน ("ฝูงชน") มักให้ผลลัพธ์ที่ดีอย่างน่าประหลาดใจ ตัวอย่างเช่น ลองนึกถึงเกมที่ผู้คนจะเดาจำนวน ที่อัดแน่นอยู่ในโหลใหญ่ แม้ว่าบุคคลส่วนใหญ่ การเดาจะไม่แม่นยำ ค่าเฉลี่ยของการคาดเดาทั้งหมด ที่แสดงให้เห็นอย่างประหลาดใจว่า ใกล้เคียงกับจำนวนที่แท้จริง ลูกอมเยลลี่ในโหล

เครื่องมือประกอบเป็นซอฟต์แวร์เทียบเคียงกับภูมิปัญญาของคนจำนวนมาก ถึงแม้ว่าแต่ละโมเดลจะทำการคาดการณ์ที่ไม่ค่อยแม่นยำ ค่าเฉลี่ยการคาดการณ์ของโมเดลจำนวนมากมักจะให้ผลลัพธ์ที่น่าประหลาดใจ การคาดคะเนที่ดี ตัวอย่างเช่น แม้ว่าบุคคลหนึ่ง แผนผังการตัดสินใจอาจคาดการณ์ได้ไม่ดี ส่วนปัจจัยเสี่ยงมักจะคาดการณ์ได้ดี

การฝังคำ

#language

นำเสนอแต่ละคำในชุดคำภายในแท็ก เวกเตอร์การฝัง; ซึ่งก็คือการแทนคำแต่ละคำในรูปแบบ เวกเตอร์ของค่าจุดลอยตัวระหว่าง 0.0 ถึง 1.0 คำที่คล้ายกัน ที่มีความหมายคล้ายกันมากกว่าคำที่มีความหมายต่างกัน เช่น แครอท คึ่นช่าย และแตงกวา การเป็นตัวแทนที่คล้ายกัน ซึ่งจะแตกต่างอย่างมากจากการนำเสนอ ของเครื่องบิน แว่นกันแดด และยาสีฟัน

X

XLA (พีชคณิตเชิงเส้นแบบเร่ง)

คอมไพเลอร์แมชชีนเลิร์นนิงแบบโอเพนซอร์สสำหรับ GPU, CPU และ Accelerator ML

คอมไพเลอร์ XLA ใช้โมเดลจากเฟรมเวิร์ก ML ที่ได้รับความนิยม เช่น PyTorch TensorFlow และ JAX แล้วเพิ่มประสิทธิภาพ เพื่อการดำเนินการประสิทธิภาพสูงในแพลตฟอร์มฮาร์ดแวร์ต่างๆ เช่น Accelerator ของ GPU, CPU และ ML

Z

การเรียนรู้แบบ Zero Shot

การฝึกแมชชีนเลิร์นนิงประเภทหนึ่งที่ model อนุมานการคาดคะเนสำหรับงาน ว่าไม่ได้ฝึกไว้โดยเฉพาะอยู่แล้ว กล่าวคือ โมเดล ได้รับตัวอย่างการฝึกเฉพาะงาน แต่ระบบถามถึง เพื่ออนุมานสำหรับงานนั้น

ข้อความแจ้งการตั้งค่า Zero-shot

#language
#generativeAI

ข้อความแจ้งที่ไม่มีตัวอย่างวิธีที่ต้องการ โมเดลภาษาขนาดใหญ่เพื่อตอบกลับ เช่น

ส่วนต่างๆ ของพรอมต์ หมายเหตุ
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร คำถามที่ต้องการให้ LLM ตอบ
อินเดีย: การค้นหาจริง

โมเดลภาษาขนาดใหญ่อาจตอบสนองด้วยสิ่งต่อไปนี้

  • รูปี
  • INR
  • รูปีอินเดีย
  • รูปี
  • รูปีอินเดีย

คำตอบทั้งหมดถูกต้อง แต่คุณอาจชอบรูปแบบใดรูปแบบหนึ่ง

เปรียบเทียบและเปรียบต่างกับการแสดงข้อความแจ้ง Zero Shot กับคำต่อไปนี้

การปรับคะแนนมาตรฐาน Z-Score

#fundamentals

เทคนิคการปรับขนาดที่แทนที่ไฟล์ RAW ค่า feature ที่มีจุดทศนิยมแทน จำนวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของจุดสนใจนั้น ตัวอย่างเช่น ลองพิจารณาฟีเจอร์ที่มีค่าเฉลี่ย 800 และมีมาตรฐาน ค่าเบี่ยงเบนคือ 100 ตารางต่อไปนี้แสดงวิธีการปรับคะแนนมาตรฐานให้เป็นมาตรฐาน จะจับคู่ค่าดิบกับคะแนน Z:

ค่าดิบ คะแนนมาตรฐาน
800 0
950 +1.5
575 -2.25

จากนั้นโมเดลแมชชีนเลิร์นนิงจะทำการฝึกด้วยคะแนนมาตรฐาน (Z-Score) สำหรับฟีเจอร์นั้นแทนค่าดิบ