อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง

อภิธานศัพท์นี้จะอธิบายคำศัพท์ทั่วไปเกี่ยวกับแมชชีนเลิร์นนิง รวมถึงคำเฉพาะของ TensorFlow

A

การเลิกรา

เทคนิคในการประเมินความสำคัญของฟีเจอร์หรือคอมโพเนนต์โดยนำออกจากโมเดลชั่วคราว จากนั้นคุณจะฝึกโมเดลอีกครั้งโดยไม่มีฟีเจอร์หรือคอมโพเนนต์ดังกล่าว และหากโมเดลที่ฝึกทำงานมีประสิทธิภาพแย่ลงมาก ฟีเจอร์หรือคอมโพเนนต์ที่นำออกก็น่าจะมีความสำคัญ

ตัวอย่างเช่น สมมติว่าคุณฝึกโมเดลการแยกประเภทกับฟีเจอร์ 10 รายการและมีความแม่นยํา 88% ในชุดทดสอบ ในการตรวจสอบความสำคัญของฟีเจอร์แรก คุณสามารถฝึกโมเดลอีกครั้งโดยใช้เพียงฟีเจอร์อื่นอีก 9 ฟีเจอร์ ถ้าโมเดลที่ฝึกย่อยมีประสิทธิภาพแย่กว่าอย่างมาก (เช่น ความแม่นยำ 55%) ฟีเจอร์ที่นำออกไปแล้วอาจมีความสำคัญ ในทางกลับกัน หากโมเดลที่ฝึกย่อยมีประสิทธิภาพดีพอๆ กัน ฟีเจอร์นั้นก็อาจไม่ได้สำคัญเท่าใดนัก

การคว่ำบาตรยังช่วยกำหนดความสำคัญของสิ่งต่อไปนี้

  • คอมโพเนนต์ที่ใหญ่กว่า เช่น ระบบย่อยทั้งหมดของระบบ ML ที่ใหญ่กว่า
  • กระบวนการหรือเทคนิค เช่น ขั้นตอนการประมวลผลข้อมูลล่วงหน้า

ในทั้ง 2 กรณี คุณจะสังเกตเห็นว่าประสิทธิภาพของระบบเปลี่ยนแปลง (หรือไม่เปลี่ยนแปลง) อย่างไรหลังจากที่นำคอมโพเนนต์ออก

การทดสอบ A/B

วิธีทางสถิติในการเปรียบเทียบเทคนิค 2 อย่าง (ขึ้นไป) คือ A และ B ปกติแล้ว A เป็นเทคนิคที่มีอยู่แล้ว และ B เป็นเทคนิคใหม่ การทดสอบ A/B ไม่เพียงเป็นตัวกำหนดว่าเทคนิคใดมีประสิทธิภาพมากกว่าเท่านั้น แต่ยังตัดสินว่าความแตกต่างมีนัยสำคัญทางสถิติหรือไม่ด้วย

การทดสอบ A/B มักจะเปรียบเทียบเมตริกเดียวกับ 2 เทคนิค เช่น การเปรียบเทียบโมเดลความแม่นยําของ 2 เทคนิคเป็นอย่างไร อย่างไรก็ตาม การทดสอบ A/B ยังเปรียบเทียบเมตริกจำนวนที่จำกัดได้อีกด้วย

ชิป Accelerator

#GoogleCloud

หมวดหมู่ขององค์ประกอบฮาร์ดแวร์เฉพาะทางที่ออกแบบมาเพื่อประมวลผลการคำนวณที่สำคัญสำหรับอัลกอริทึมการเรียนรู้เชิงลึก

ชิป Accelerator (หรือเรียกสั้นๆ ว่า Accelerator) สามารถเพิ่มความเร็วและประสิทธิภาพของงานการฝึกและการอนุมานได้อย่างมากเมื่อเทียบกับ CPU ที่ใช้ทั่วไป ซึ่งเหมาะสำหรับการฝึก โครงข่ายประสาทและงานด้านการคำนวณที่ซับซ้อน

ตัวอย่างชิป Accelerator ได้แก่

  • หน่วยประมวลผล Tensor (TPU) ของ Google พร้อมฮาร์ดแวร์เฉพาะสำหรับการเรียนรู้เชิงลึก
  • GPU ของ NVIDIA ออกแบบมาครั้งแรกสำหรับการประมวลผลกราฟิก แต่เพื่อให้สามารถประมวลผลแบบขนานได้ ซึ่งช่วยเพิ่มความเร็วในการประมวลผลได้อย่างมาก

ความแม่นยำ

#fundamentals

จำนวนการคาดคะเนการแยกประเภทที่ถูกต้องหารด้วยจำนวนการคาดการณ์ทั้งหมด โดยการ

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

ตัวอย่างเช่น โมเดลที่ทำการคาดการณ์ถูกต้อง 40 รายการและการคาดการณ์ที่ไม่ถูกต้อง 10 รายการจะมีความแม่นยำดังนี้

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

การจัดประเภทแบบไบนารีระบุชื่อที่เจาะจงสำหรับการคาดการณ์ที่ถูกต้องและการคาดคะเนที่ไม่ถูกต้องในหมวดหมู่ต่างๆ สูตรความแม่นยำสำหรับการจัดประเภทไบนารีมีดังนี้

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

โดยมี

  • TP คือจำนวนผลบวกจริง (การคาดคะเนที่ถูกต้อง)
  • TN คือจำนวนผลลบจริง (การคาดคะเนที่ถูกต้อง)
  • FP คือจำนวนผลบวกลวง (การคาดการณ์ที่ไม่ถูกต้อง)
  • FN คือจำนวนผลลบลวง (การคาดคะเนที่ไม่ถูกต้อง)

เปรียบเทียบระหว่างความแม่นยำกับความแม่นยําและความอ่อนไหว

การดำเนินการ

#rl

ในการเรียนรู้แบบเสริมกำลัง กลไกที่ Agent เปลี่ยนผ่านระหว่างสถานะของสภาพแวดล้อม ตัวแทนจะเลือกการดำเนินการโดยใช้นโยบาย

ฟังก์ชันการเปิดใช้งาน

#fundamentals

ฟังก์ชันที่ช่วยให้โครงข่ายระบบประสาทเทียมเรียนรู้ความสัมพันธ์แบบไม่เป็นเชิงเส้น (ซับซ้อน) ระหว่างฟีเจอร์กับป้ายกำกับ

ฟังก์ชันการเปิดใช้งานยอดนิยม ได้แก่

พล็อตฟังก์ชันเปิดใช้งานจะไม่ใช่เส้นตรงเดี่ยวๆ ตัวอย่างเช่น พล็อตของฟังก์ชันการเปิดใช้งาน ReLU ประกอบด้วยเส้นตรง 2 เส้น

พล็อตตัวการ์ตูนที่มี 2 บรรทัด บรรทัดแรกมีค่า y คงที่ที่ 0 โดยแสดงตามแกน x ตั้งแต่ -infinity, 0 ถึง 0,-0
          บรรทัดที่ 2 จะเริ่มที่ 0,0 เส้นนี้มีความชันของ +1
          จึงเริ่มจาก 0,0 ถึง +อนันต์, +อนันต์

พล็อตฟังก์ชันการเปิดใช้งาน Sigmoid มีลักษณะดังนี้

แผนภูมิโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมนตั้งแต่ - ไม่สิ้นสุดไปจนถึง +บวก ในขณะที่ค่า y จะครอบคลุมช่วงเกือบ 0 ถึงเกือบ 1 เมื่อ x เท่ากับ 0 แล้ว y จะเท่ากับ 0.5 ความชันของเส้นโค้งจะเป็นบวกเสมอ โดยความชันสูงสุดที่ 0,0.5 และค่อยๆ ลดความชันลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

การเรียนรู้แบบลงมือปฏิบัติ

แนวทางการฝึกซึ่งอัลกอริทึมจะเลือกข้อมูลบางอย่างที่อัลกอริทึมเรียนรู้ การเรียนรู้แบบลงมือปฏิบัติมีประโยชน์อย่างยิ่งเมื่อตัวอย่างที่ติดป้ายกำกับได้รับน้อยหรือมีราคาแพง อัลกอริทึมการเรียนรู้แบบลงมือปฏิบัติจะเลือกค้นหากลุ่มตัวอย่างที่จำเป็นต่อการเรียนรู้ แทนที่จะต้องค้นหาตัวอย่างที่มีป้ายกำกับหลากหลายช่วง

AdaGrad

อัลกอริทึมการไล่ระดับสีที่ซับซ้อนซึ่งปรับการไล่ระดับสีของพารามิเตอร์แต่ละรายการใหม่ โดยให้อัตราการเรียนรู้เป็นอิสระแก่พารามิเตอร์แต่ละรายการอย่างมีประสิทธิภาพ สำหรับคำอธิบายทั้งหมด โปรดดูบทความของ AdaGrad นี้

ตัวแทน

#rl

ในการเรียนรู้แบบเสริมกำลัง เอนทิตีที่ใช้นโยบายเพื่อเพิ่มผลตอบแทนที่คาดหวังให้ได้สูงสุด ซึ่งได้จากการเปลี่ยนระหว่างรัฐของสภาพแวดล้อม

โดยทั่วไป ตัวแทนคือซอฟต์แวร์ที่วางแผนและดำเนินการต่างๆ อย่างอิสระเพื่อให้บรรลุเป้าหมาย โดยมีความสามารถในการปรับให้เข้ากับการเปลี่ยนแปลงในสภาพแวดล้อม เช่น ตัวแทนที่ใช้ LLM อาจใช้ LLM เพื่อสร้างแผนแทนที่จะใช้นโยบายการเรียนรู้แบบเสริมกำลัง

คลัสเตอร์แบบรวบยอด

#clustering

ดูการจัดกลุ่มแบบลำดับชั้น

การตรวจจับความผิดปกติ

กระบวนการระบุค่าผิดปกติ เช่น หากค่าเฉลี่ยสำหรับฟีเจอร์บางรายการคือ 100 โดยส่วนเบี่ยงเบนมาตรฐานเป็น 10 การตรวจจับความผิดปกติควรแจ้งว่าค่า 200 น่าสงสัย

AR

ตัวย่อของ Augmented Reality

พื้นที่ใต้กราฟ PR

โปรดดูPR AUC (พื้นที่ภายใต้กราฟ PR)

พื้นที่ใต้กราฟ ROC

โปรดดู AUC (พื้นที่ใต้กราฟ ROC)

ปัญญาประดิษฐ์ (AI)

กลไกที่ไม่ใช่มนุษย์ซึ่งแสดงให้เห็นถึงการแก้ปัญหา ความคิดสร้างสรรค์ และการปรับตัวที่ครอบคลุม เช่น โปรแกรมที่สาธิตปัญญาประดิษฐ์ (AI) ทั่วไปสามารถแปลข้อความ แต่งซิมโฟนี และเก่งเกมซึ่งยังไม่ได้ประดิษฐ์ขึ้น

ปัญญาประดิษฐ์ (AI)

#fundamentals

โปรแกรมหรือmodelที่ไม่ได้เกิดจากมนุษย์ซึ่งแก้ไขงานที่ซับซ้อนได้ ตัวอย่างเช่น โปรแกรมหรือโมเดลที่แปลข้อความ โปรแกรม หรือโมเดลที่ระบุโรคจากรูปภาพรังสีวิทยาแสดงให้เห็นปัญญาประดิษฐ์ (AI) ทั้งคู่

อย่างเป็นทางการ แมชชีนเลิร์นนิงเป็นสาขาย่อยของปัญญาประดิษฐ์ (AI) อย่างไรก็ตาม ในช่วงไม่กี่ปีที่ผ่านมา องค์กรบางแห่งได้เริ่มใช้คำว่าปัญญาประดิษฐ์ (AI) และแมชชีนเลิร์นนิงสลับกันไป

โปรดทราบ

#language

กลไกที่ใช้ในโครงข่ายระบบประสาทเทียมที่ระบุความสำคัญของคำบางคำหรือส่วนใดส่วนหนึ่งของคำ ความสนใจจะบีบอัดปริมาณข้อมูลที่โมเดลต้องใช้เพื่อคาดการณ์โทเค็น/คำถัดไป กลไกการทำงานโดยทั่วไปอาจประกอบด้วยผลรวมถ่วงน้ำหนักของชุดอินพุต โดยส่วนอื่นของโครงข่ายประสาทจะคำนวณน้ำหนักของอินพุตแต่ละรายการ

นอกจากนี้ โปรดดูการจดจ่อกับตนเองและความสนใจตนเองแบบหลายหัว ซึ่งเป็นองค์ประกอบพื้นฐานของ Transformers

แอตทริบิวต์

#fairness

คำพ้องความหมายของ feature

ในความเป็นธรรมของแมชชีนเลิร์นนิง แอตทริบิวต์มักจะหมายถึง ลักษณะเฉพาะที่เกี่ยวข้องกับตัวบุคคล

การสุ่มตัวอย่างแอตทริบิวต์

#df

กลวิธีสำหรับการฝึกกลุ่มการตัดสินใจซึ่งแผนผังการตัดสินใจจะพิจารณาเฉพาะชุดย่อยของฟีเจอร์ชุดย่อยเมื่อดูข้อมูลเงื่อนไข โดยปกติแล้ว ระบบจะสุ่มตัวอย่างชุดย่อยของฟีเจอร์ที่แตกต่างกันสำหรับแต่ละโหนด ในทางตรงกันข้าม เมื่อฝึกแผนผังการตัดสินใจโดยไม่มีการสุ่มตัวอย่างแอตทริบิวต์ จะมีการพิจารณาฟีเจอร์ที่เป็นไปได้ทั้งหมดสำหรับแต่ละโหนด

AUC (พื้นที่ใต้กราฟ ROC)

#fundamentals

ตัวเลขระหว่าง 0.0 ถึง 1.0 แสดงถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสบวกออกจากคลาสลบ ยิ่ง AUC ใกล้เคียงกับ 1.0 มากเท่าไร โมเดลในการแยกคลาสออกจากกันได้ก็จะยิ่งดีขึ้นเท่านั้น

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโมเดลตัวแยกประเภทที่แยกคลาสบวก (วงรีสีเขียว) ออกจากคลาสลบ (สี่เหลี่ยมผืนผ้าสีม่วง) ได้อย่างลงตัว โมเดลที่สมบูรณ์แบบอย่างไม่สมจริงนี้ มีค่า AUC อยู่ที่ 1.0

เส้นตัวเลขที่มีตัวอย่างบวก 8 ตัวที่ด้านหนึ่ง และตัวอย่างเชิงลบ 9 อีกด้าน

ในทางกลับกัน ภาพประกอบต่อไปนี้จะแสดงผลลัพธ์สำหรับโมเดลตัวแยกประเภทที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มี AUC เท่ากับ 0.5:

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลำดับของตัวอย่างคือ เชิงบวก ลบ ลบ ลบ ลบ ลบ ลบ ลบ ลบ ลบ ลบ ลบ

ใช่ โมเดลก่อนหน้ามี AUC เท่ากับ 0.5 ไม่ใช่ 0.0

โมเดลส่วนใหญ่จะอยู่ระหว่างปลายทั้งสองด้าน ตัวอย่างเช่น โมเดลต่อไปนี้จะแยกผลบวกออกจากรายการเชิงลบพอสมควร ดังนั้นจึงมี AUC อยู่ระหว่าง 0.5 ถึง 1.0

บรรทัดตัวเลขที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลำดับของตัวอย่างคือ ลบ ลบ ลบ ลบ บวก ลบ บวก ลบ ลบ บวก บวก บวก

โดย AUC จะไม่สนใจค่าที่คุณกำหนดสำหรับเกณฑ์การจัดประเภท แต่ AUC จะพิจารณาเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมดแทน

Augmented Reality

#image

เทคโนโลยีที่วางซ้อนรูปภาพที่สร้างขึ้นด้วยคอมพิวเตอร์ในมุมมองโลกแห่งความเป็นจริงของผู้ใช้ ทำให้เกิดมุมมองแบบผสม

โปรแกรมเปลี่ยนไฟล์อัตโนมัติ

#language
#image

ระบบที่เรียนรู้การดึงข้อมูลที่สำคัญที่สุดจากอินพุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นทั้งโปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัส โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะใช้กระบวนการ 2 ขั้นตอนต่อไปนี้

  1. โปรแกรมเปลี่ยนไฟล์จะจับคู่อินพุตกับรูปแบบ (โดยทั่วไป) แบบสูญเสียบางส่วน (ช่วงกลาง) แบบสูญเสียบางส่วน
  2. ตัวถอดรหัสจะสร้างอินพุตต้นฉบับเวอร์ชันสูญเสียบางส่วนโดยการแมปรูปแบบมิติข้อมูลที่ต่ำกว่ากับรูปแบบอินพุตที่มีมิติสูงกว่าเดิม

โปรแกรมเปลี่ยนไฟล์อัตโนมัติได้รับการฝึกจากต้นทางถึงปลายทางโดยให้โปรแกรมถอดรหัสพยายามสร้างอินพุตต้นฉบับจากรูปแบบกลางของโปรแกรมเปลี่ยนไฟล์ให้ใกล้เคียงที่สุด เนื่องจากรูปแบบระดับกลางเล็กกว่า (มิติล่าง) กว่ารูปแบบดั้งเดิม โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะถูกบังคับให้เรียนรู้ว่าข้อมูลในอินพุตใดเป็นสิ่งจำเป็น และเอาต์พุตที่ได้ก็จะไม่ตรงกันทุกประการกับอินพุต

เช่น

  • หากข้อมูลอินพุตเป็นกราฟิก ข้อความที่ไม่ตรงกันจะคล้ายกับกราฟิกต้นฉบับ แต่มีการแก้ไขบางส่วน บางทีข้อความที่ไม่ตรงกันทุกประการอาจนำนอยส์ออกจากกราฟิกต้นฉบับหรือเติมเต็มพิกเซลบางส่วนที่ขาดหายไป
  • หากข้อมูลอินพุตเป็นข้อความ โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะสร้างข้อความใหม่ที่เลียนแบบ (แต่ไม่ได้เหมือนกับ) ข้อความต้นฉบับ

ดูข้อมูลเพิ่มเติมที่โปรแกรมเปลี่ยนไฟล์อัตโนมัติเวอร์ชันต่างๆ

อคติจากการทำงานอัตโนมัติ

#fairness

เมื่อผู้ทำการตัดสินใจที่เป็นมนุษย์สนับสนุนคำแนะนำจากระบบการตัดสินใจอัตโนมัติมากกว่าข้อมูลที่สร้างขึ้นโดยไม่มีการทำงานอัตโนมัติ แม้ว่าระบบการตัดสินใจอัตโนมัติจะเกิดข้อผิดพลาดก็ตาม

AutoML

กระบวนการอัตโนมัติในการสร้างโมเดล แมชชีนเลิร์นนิง AutoML จะทำงานได้โดยอัตโนมัติ เช่น

  • ค้นหารูปแบบที่เหมาะสมที่สุด
  • ปรับแต่ง Hyperparameters
  • จัดเตรียมข้อมูล (รวมถึงการดำเนินการวิศวกรรมฟีเจอร์)
  • ทำให้โมเดลที่ได้ใช้งานได้

AutoML มีประโยชน์สำหรับนักวิทยาศาสตร์ข้อมูลเพราะช่วยประหยัดเวลาและแรงในการพัฒนาไปป์ไลน์แมชชีนเลิร์นนิงและปรับปรุงความแม่นยำของการคาดการณ์ นอกจากนี้ยังมีประโยชน์สำหรับผู้ที่ไม่ใช่ผู้เชี่ยวชาญด้วย เพราะจะช่วยให้เข้าถึงงานด้านแมชชีนเลิร์นนิงที่ซับซ้อนได้มากขึ้น

โมเดลถดถอยอัตโนมัติ

#language
#image
#GenerativeAI

modelที่อนุมานการคาดคะเนโดยอิงตามการคาดคะเนก่อนหน้าของตัวมันเอง เช่น โมเดลภาษาแบบถดถอยอัตโนมัติจะคาดการณ์โทเค็นถัดไปตามโทเค็นที่คาดการณ์ไว้ก่อนหน้านี้ โมเดลภาษาขนาดใหญ่ทั้งหมดที่อิงตาม Transformer จะถดถอยโดยอัตโนมัติ

ในทางตรงกันข้าม โมเดลรูปภาพที่ใช้ GAN จะไม่ถดถอยอัตโนมัติเนื่องจากจะสร้างรูปภาพในการส่งผ่านจุดเดียวและไม่ทำซ้ำตามขั้นตอน อย่างไรก็ตาม โมเดลการสร้างรูปภาพบางโมเดลจะถดถอยโดยอัตโนมัติเนื่องจากจะสร้างรูปภาพตามขั้นตอน

การสูญเสียเสริม

ฟังก์ชันการสูญเสียสิทธิ์เข้าถึงที่ใช้ร่วมกับฟังก์ชันการสูญเสียหลักของโครงข่ายระบบประสาทเทียม ของโมเดล ซึ่งจะช่วยเร่งการฝึกในช่วงการทำซ้ำช่วงแรกๆ เมื่อมีการเริ่มต้นน้ำหนักแบบสุ่ม

ฟังก์ชันการสูญเสียเสริมจะพุชการไล่ระดับสีที่มีประสิทธิภาพไปยังเลเยอร์ก่อนหน้านี้ ซึ่งช่วยอำนวยความสะดวกการสนทนาระหว่างการฝึกโดยการต่อสู้กับปัญหาการไล่ระดับสีที่หายไป

ความแม่นยำเฉลี่ย

เมตริกสำหรับการสรุปประสิทธิภาพของลำดับผลลัพธ์ที่จัดอันดับ ความแม่นยำเฉลี่ยคำนวณโดยใช้ค่าเฉลี่ยของค่าความแม่นยำสำหรับผลลัพธ์ที่เกี่ยวข้องแต่ละรายการ (ผลลัพธ์แต่ละรายการอยู่ในรายการที่จัดอันดับซึ่งมีความอ่อนไหวเพิ่มขึ้นเมื่อเทียบกับผลลัพธ์ก่อนหน้า)

โปรดดูเพิ่มเติมที่พื้นที่ใต้กราฟ PR

เงื่อนไขตามแกน

#df

ในแผนผังการตัดสินใจ เงื่อนไขที่เกี่ยวข้องกับฟีเจอร์เพียงรายการเดียว ตัวอย่างเช่น ถ้าพื้นที่เป็นจุดสนใจ เงื่อนไขต่อไปนี้จะเป็นเงื่อนไขตามแกน

area > 200

ตัดกับเงื่อนไขแบบเอียง

B

Backpropagation

#fundamentals

อัลกอริทึมที่ใช้การไล่ระดับสีในโครงข่ายระบบประสาทเทียม

การฝึกโครงข่ายระบบประสาทเทียมต้องอาศัยการทำซ้ำหลายอย่างในวงจร 2 ทางต่อไปนี้

  1. ในระหว่างการส่งต่อ ระบบจะประมวลผลกลุ่มตัวอย่างเพื่อประมวลผลการคาดการณ์ ระบบจะเปรียบเทียบการคาดคะเนแต่ละรายการกับค่าป้ายกำกับแต่ละค่า ความแตกต่างระหว่างการคาดการณ์กับค่าของป้ายกำกับคือ loss สำหรับตัวอย่างนั้น ระบบจะรวบรวมการสูญเสียสำหรับตัวอย่างทั้งหมดเพื่อคำนวณการสูญเสียทั้งหมดสำหรับแบตช์ปัจจุบัน
  2. ในช่วงการมองย้อนกลับ (backpropagation) ระบบจะลดการสูญเสียโดยการปรับน้ำหนักของเซลล์ประสาททั้งหมดในเลเยอร์ที่ซ่อนอยู่

โครงข่ายประสาทมักประกอบด้วยเซลล์ประสาทจำนวนมากในชั้นที่ซ่อนอยู่หลายชั้น เซลล์ประสาทแต่ละเซลล์ก่อให้เกิดการสูญเสียโดยรวมในรูปแบบที่แตกต่างกันไป การทำ Backpropagation จะพิจารณาว่าจะเพิ่มหรือลดน้ำหนักที่ใช้กับเซลล์ประสาทที่เฉพาะเจาะจง

อัตราการเรียนรู้คือตัวคูณที่ควบคุมระดับการส่งผ่านแบบย้อนกลับแต่ละรายการเพิ่มหรือลดน้ำหนักของแต่ละรายการ อัตราการเรียนรู้ขนาดใหญ่จะเพิ่มหรือลดน้ำหนักแต่ละช่วงมากกว่าอัตราการเรียนรู้ขนาดเล็ก

ในคำศัพท์แคลคูลัส การใช้ Backpropagation จะใช้กฎลูกโซ่จากแคลคูลัส กล่าวคือ Backpropagation จะคำนวณอนุพันธ์บางส่วนของข้อผิดพลาดที่สัมพันธ์กับพารามิเตอร์แต่ละรายการ

หลายปีที่ผ่านมา ผู้ปฏิบัติงานด้าน ML ต้องเขียนโค้ดเพื่อใช้ Backpropagation ตอนนี้ ML API ที่ทันสมัยอย่าง TensorFlow ติดตั้งใช้งาน Backpropagation ให้คุณแล้ว ในที่สุด

การถุง

#df

วิธีฝึกชุดรวมซึ่งโมเดลองค์ประกอบแต่ละรายการจะฝึกกับชุดย่อยแบบสุ่มของตัวอย่างการฝึกที่สุ่มตัวอย่างพร้อมการแทนที่ เช่น ป่าแบบสุ่มคือคอลเล็กชันของต้นไม้การตัดสินใจซึ่งฝึกโดยใช้การบรรจุถุง

คำว่า bagging เป็นคำสั้นๆ ของ bootstrap aggregat

ถุงคำ

#language

การนำเสนอคำในวลีหรือข้อความ โดยไม่คำนึงถึงลำดับ เช่น ถุงคำจะแสดง วลี 3 วลีต่อไปนี้เหมือนกัน

  • สุนัขกระโดด
  • สุนัขกระโดด
  • สุนัขกระโดด

แต่ละคำจะแมปกับดัชนีในเวกเตอร์บางส่วน โดยที่เวกเตอร์จะมีดัชนีสำหรับทุกคำในคำศัพท์ ตัวอย่างเช่น วลี "สุนัขกระโดด" จะจับคู่กับเวกเตอร์ฟีเจอร์ซึ่งมีค่าที่ไม่ใช่ 0 ในดัชนี 3 รายการที่ตรงกับคำว่า the สุนัข และกระโดด ค่าที่ไม่ใช่ 0 อาจเป็นค่าใดก็ได้ต่อไปนี้

  • A 1 เพื่อแสดงการมีอยู่ของคำ
  • จำนวนครั้งที่คำปรากฏในกระเป๋า เช่น หากวลีคือ the maroon dog เป็นสุนัขที่มีขนแดง ทั้งคำว่า maroon และ dog จะแสดงเป็น 2 ส่วนคำอื่นๆ จะแสดงเป็น 1
  • ค่าอื่นๆ เช่น ลอการิทึมของจำนวนครั้งที่คำปรากฏในกระเป๋า

พื้นฐาน

modelที่ใช้เป็นจุดอ้างอิงสำหรับการเปรียบเทียบประสิทธิภาพของโมเดลอื่น (โดยทั่วไปคือโมเดลที่ซับซ้อนกว่า) เช่น โมเดลการถดถอยแบบโลจิสติกอาจทำหน้าที่เป็นเกณฑ์พื้นฐานที่ดีสำหรับโมเดลเชิงลึก

สำหรับปัญหาเฉพาะหนึ่งๆ เกณฑ์พื้นฐานจะช่วยให้นักพัฒนาโมเดลสามารถวัดปริมาณประสิทธิภาพขั้นต่ำที่คาดไว้ที่โมเดลใหม่จะต้องบรรลุเพื่อให้โมเดลใหม่มีประโยชน์

กลุ่ม

#fundamentals

ชุดตัวอย่างที่ใช้ในการปรับปรุงการฝึก 1 ครั้ง ขนาดกลุ่มจะกำหนดจำนวนตัวอย่างในกลุ่ม

ดู epoch สำหรับคำอธิบายว่ากลุ่มเกี่ยวข้องกับ Epoch อย่างไร

การอนุมานแบบกลุ่ม

#TensorFlow
#GoogleCloud

กระบวนการคาดการณ์การอนุมานในตัวอย่างที่ไม่มีป้ายกำกับหลายรายการที่แบ่งออกเป็นเซ็ตย่อย ("กลุ่ม") ที่เล็กลง

การอนุมานแบบกลุ่มใช้ประโยชน์จากฟีเจอร์การโหลดพร้อมกันของชิป Accelerator ได้ กล่าวคือ Accelerator จำนวนมากสามารถอนุมานการคาดการณ์ในกลุ่มตัวอย่างที่ไม่มีป้ายกำกับได้พร้อมกัน ซึ่งทำให้จำนวนการอนุมานต่อวินาทีเพิ่มขึ้นอย่างมาก

การแปลงแบบกลุ่มให้เป็นมาตรฐาน

การปรับมาตรฐานอินพุตหรือเอาต์พุตของฟังก์ชันการเปิดใช้งานในเลเยอร์ที่ซ่อนอยู่ การแปลงเป็นรูปแบบมาตรฐานแบบกลุ่ม มีประโยชน์ดังนี้

ขนาดกลุ่ม

#fundamentals

จำนวนตัวอย่างในกลุ่ม เช่น หากขนาดกลุ่มคือ 100 โมเดลจะประมวลผลตัวอย่าง 100 ตัวอย่างต่อการปรับปรุง

กลยุทธ์เกี่ยวกับขนาดกลุ่มยอดนิยมมีดังนี้

  • Stochastic Gradient Descent (SGD) ซึ่งขนาดกลุ่มคือ 1
  • ทั้งชุด โดยขนาดกลุ่มคือจำนวนตัวอย่างในชุดการฝึกทั้งหมด เช่น หากชุดการฝึกมีตัวอย่าง 1 ล้านตัวอย่าง ขนาดกลุ่มก็จะเป็นตัวอย่างล้านตัวอย่าง การใช้ทั้งกลุ่มมักเป็นกลยุทธ์ที่ไร้ประสิทธิภาพ
  • มินิแบตช์ซึ่งขนาดกลุ่มมักจะอยู่ระหว่าง 10 ถึง 1,000 มักเป็นกลยุทธ์ที่มีประสิทธิภาพมากที่สุด

โครงข่ายประสาทแบบเบย์

โครงข่ายระบบประสาทเทียมที่เป็นไปได้ซึ่งพิจารณาความไม่แน่นอนของน้ำหนักและเอาต์พุต โมเดลการถดถอยของโครงข่ายระบบประสาทเทียมแบบมาตรฐานมักจะคาดการณ์ค่าสเกลาร์ เช่น โมเดลมาตรฐานคาดการณ์ราคาบ้านที่ 853,000 ชิ้น ในทางตรงกันข้าม โครงข่ายระบบประสาทเทียมแบบ Bayesian จะคาดการณ์การกระจายของค่าต่างๆ ตัวอย่างเช่น แบบจำลอง Bayesian คาดการณ์ราคาบ้านที่ 853,000 โดยมีค่าเบี่ยงเบนมาตรฐาน 67,200

โครงข่ายประสาทแบบเบย์อาศัย ทฤษฎีบทของเบย์ (Bayes' Theorem) ในการคำนวณความไม่แน่นอนในน้ำหนักและการคาดการณ์ โครงข่ายระบบประสาทเทียมแบบเบย์มีประโยชน์เมื่อจำเป็นต้องระบุปริมาณความไม่แน่นอน เช่น ในโมเดลที่เกี่ยวข้องกับเภสัชภัณฑ์ โครงข่ายประสาทแบบเบย์ยังช่วยป้องกันการเชื่อมต่อมากเกินไปได้ด้วย

การเพิ่มประสิทธิภาพ Bayesian

โมเดลการถดถอยที่เป็นไปได้สำหรับเทคนิคการเพิ่มประสิทธิภาพฟังก์ชันเชิงวัตถุประสงค์ที่มีราคาแพงสำหรับการคำนวณ โดยการเพิ่มประสิทธิภาพแทนซึ่งวัดความไม่แน่นอนโดยใช้เทคนิคการเรียนรู้แบบเบย์ เนื่องจากการเพิ่มประสิทธิภาพแบบ Bayesian มีราคาแพงมาก ระบบมักจะใช้เพื่อเพิ่มประสิทธิภาพงานที่มีราคาแพงซึ่งจะประเมินค่าที่มีพารามิเตอร์เพียงเล็กน้อย เช่น การเลือกพารามิเตอร์ไฮเปอร์พารามิเตอร์

สมการของเบลล์แมน

#rl

ในการเรียนรู้แบบสนับสนุน อัตลักษณ์ต่อไปนี้สอดคล้องกับฟังก์ชัน Q-Function ที่เหมาะสมที่สุด

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

อัลกอริทึม Reinforcement Learning จะใช้ข้อมูลประจำตัวนี้เพื่อสร้าง Q-learning ผ่านกฎการอัปเดตต่อไปนี้

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

นอกเหนือจากการเรียนรู้แบบเสริมกำลังแล้ว สมการ Bellman ยังนำไปใช้ในการเขียนโปรแกรมแบบไดนามิกได้ด้วย ดู ข้อมูล Wikipedia สำหรับสมการ Bellman

BERT (เครื่องมือเปลี่ยนไฟล์แบบ 2 ทิศทาง จาก Transformers)

#language

สถาปัตยกรรมโมเดลสำหรับการนําเสนอข้อความ โมเดล BERT ที่ผ่านการฝึกสามารถทำหน้าที่เป็นส่วนหนึ่งของโมเดลขนาดใหญ่สำหรับการจำแนกข้อความหรืองาน ML อื่นๆ

BERT มีลักษณะเฉพาะดังต่อไปนี้

รายละเอียดปลีกย่อยของ BERT ได้แก่

  • ALBERT ซึ่งเป็นตัวย่อของ A Light BERT
  • LaBSE

โปรดดูภาพรวมของ BERT ที่โอเพนซอร์ส BERT: การฝึกอบรมล่วงหน้าที่ทันสมัยสำหรับการประมวลผลภาษาธรรมชาติ

อคติ (จริยธรรม/ความยุติธรรม)

#fairness
#fundamentals

1. การแสดงออกอย่างเหมารวม อคติ หรือความชอบต่อบางสิ่ง บุคคล หรือกลุ่มอื่น ซึ่งอคติเหล่านี้อาจส่งผลต่อการรวบรวมและการตีความข้อมูล การออกแบบระบบ และวิธีที่ผู้ใช้โต้ตอบกับระบบ รูปแบบของอคติประเภทนี้มีดังนี้

2. ข้อผิดพลาดที่เป็นระบบซึ่งเกิดขึ้นจากการสุ่มตัวอย่างหรือขั้นตอนการรายงาน รูปแบบของอคติประเภทนี้มีดังนี้

อย่าสับสนกับคำที่ให้น้ำหนักพิเศษในโมเดลแมชชีนเลิร์นนิงหรือการให้น้ำหนักพิเศษกับการคาดคะเน

คำที่ให้น้ำหนักพิเศษ (ทางคณิตศาสตร์) หรือการให้น้ำหนักพิเศษ

#fundamentals

จุดตัดหรือออฟเซ็ตจากต้นทาง การให้น้ำหนักพิเศษคือพารามิเตอร์ในโมเดลแมชชีนเลิร์นนิง ซึ่งระบุสัญลักษณ์อย่างใดอย่างหนึ่งต่อไปนี้

  • b
  • 0

ตัวอย่างเช่น ความลำเอียงคือ b ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในบรรทัด 2 มิติอย่างง่าย การให้น้ำหนักพิเศษหมายถึง "จุดตัดแกน y" เท่านั้น ตัวอย่างเช่น ความเอนเอียงของเส้นในภาพประกอบต่อไปนี้คือ 2

พล็อตเส้นที่มีความลาดชัน 0.5 และมีความเอนเอียง (จุดตัด y) เป็น 2

มีการให้น้ำหนักพิเศษเนื่องจากมีบางโมเดลที่เริ่มต้นจากต้นทาง (0,0) ตัวอย่างเช่น สมมติว่าสวนสนุกแห่งหนึ่งมีราคา 2 ยูโร และเพิ่มอีก 0.5 ยูโรต่อชั่วโมงที่ลูกค้าเข้าพัก ดังนั้น การแมปโมเดลต้นทุนรวมจึงมีความคลาดเคลื่อนเป็น 2 เนื่องจากต้นทุนต่ำสุดคือ 2 ยูโร

อย่าสับสนกับการให้น้ำหนักพิเศษด้านจริยธรรมและความยุติธรรมหรืออคติจากการคาดคะเน

แบบ 2 ทาง

#language

คำที่ใช้ในการอธิบายระบบที่ประเมินข้อความที่ทั้งอยู่ก่อนหน้าและติดตามส่วนเป้าหมายของข้อความ ในทางตรงกันข้าม ระบบแบบทิศทางเดียวจะประเมินเฉพาะข้อความที่อยู่ก่อนส่วนเป้าหมายของข้อความ

ตัวอย่างเช่น พิจารณาโมเดลภาษามาสก์ที่ต้องระบุความน่าจะเป็นของคำหรือคำที่แทนขีดเส้นใต้ในคำถามต่อไปนี้

_____ กับคุณคืออะไร

โมเดลภาษาแบบทิศทางเดียวจะต้องกำหนดความเป็นไปได้ ตามบริบทที่มาจากคำว่า "What", "is" และ "the" เท่านั้น ในทางตรงกันข้าม โมเดลภาษาแบบ 2 ทิศทางอาจได้รับบริบทจาก "with" และ "you" ด้วยเช่นกัน ซึ่งอาจช่วยให้โมเดลสร้างการคาดการณ์ที่ดีขึ้น

โมเดลภาษาแบบ 2 ทิศทาง

#language

โมเดลภาษาที่กำหนดความเป็นไปได้ที่โทเค็นที่ระบุจะปรากฏที่ตำแหน่งหนึ่งๆ ในข้อความที่ตัดตอนมาของข้อความตามข้อความก่อนหน้าและต่อไปนี้

Bigram

#seq
#language

N-gram ที่มี N=2

การจัดประเภทแบบไบนารี

#fundamentals

งานประเภทการแยกประเภทซึ่งคาดคะเน 1 จาก 2 ชั้นเรียนที่แยกจากกันโดยสิ้นเชิงดังนี้

ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิง 2 โมเดลต่อไปนี้แต่ละประเภททำการจัดประเภทแบบไบนารี

  • รูปแบบที่กำหนดว่าข้อความอีเมลเป็นสแปม (คลาสเชิงบวก) หรือไม่ใช่สแปม (คลาสเชิงลบ)
  • โมเดลที่ประเมินอาการทางการแพทย์เพื่อตัดสินว่าบุคคลหนึ่งเป็นโรคใดโรคหนึ่ง (คลาสที่เป็นบวก) หรือไม่เป็นโรคนั้น (กลุ่มที่เป็นลบ)

แตกต่างจากการแยกประเภทแบบหลายคลาส

โปรดดูการถดถอยแบบโลจิสติกส์และเกณฑ์การแยกประเภท

เงื่อนไขไบนารี

#df

ในแผนผังการตัดสินใจ เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้เพียง 2 รายการ ซึ่งมักจะเป็นใช่หรือไม่ใช่ ตัวอย่างเช่น เงื่อนไขต่อไปนี้คือเงื่อนไขแบบไบนารี

temperature >= 100

ตัดกับเงื่อนไขที่ไม่ใช่ไบนารี

Binning

คำพ้องความหมายของ bucketing

BLEU (การศึกษาด้านการประเมินแบบ 2 ภาษา)

#language

คะแนนระหว่าง 0.0 ถึง 1.0 ซึ่งระบุคุณภาพของการแปลระหว่างภาษามนุษย์ 2 ภาษา (เช่น ระหว่างภาษาอังกฤษและรัสเซีย) คะแนน BLEU ที่ 1.0 บ่งบอกว่าคำแปลออกมาสมบูรณ์แบบ ส่วนคะแนน BLEU ที่ 0.0 ก็บ่งบอกว่าคำแปลแย่มาก

การเพิ่มพลัง

เทคนิคแมชชีนเลิร์นนิงที่ค่อยๆ รวมชุดตัวแยกประเภทแบบง่ายและไม่ค่อยแม่นยำมาก (เรียกว่าตัวแยกประเภทที่ "อ่อน") เข้ากับตัวแยกประเภทที่มีความแม่นยำสูง (ตัวแยกประเภทที่ "รัดกุม") โดยการถ่วงน้ำหนักตัวอย่างที่โมเดลมีการจัดประเภทที่ไม่ถูกต้องในปัจจุบัน

กรอบล้อมรอบ

#image

ในภาพ พิกัด (x, y) ของสี่เหลี่ยมผืนผ้ารอบบริเวณที่สนใจ เช่น สุนัขในรูปภาพด้านล่าง

ภาพสุนัขนั่งบนโซฟา กรอบล้อมรอบสีเขียวที่มีพิกัดด้านซ้ายบนเป็น (275, 1271) และพิกัดด้านขวาล่างของ (2954, 2761) จะล้อมรอบร่างกายของสุนัข

การบรอดแคสต์ข้อความ

การขยายรูปร่างของโอเปอแรนด์ในการดำเนินการทางคณิตศาสตร์ของเมทริกซ์เป็นมิติข้อมูลที่เข้ากันได้กับการดำเนินการนั้น ตัวอย่างเช่น พีชคณิตเชิงเส้นกำหนดให้ตัวถูกดำเนินการ 2 ตัวในการบวกเมทริกซ์ต้องมีขนาดเท่ากัน ดังนั้น คุณไม่สามารถเพิ่มเมทริกซ์ของรูปร่าง (m, n) ลงในเวกเตอร์ความยาว n ได้ การออกอากาศเปิดใช้งานการดำเนินการนี้โดยการขยายเวกเตอร์ของความยาว n ให้เป็นเมทริกซ์ของรูปร่าง (m, n) โดยการจำลองค่าเดียวกันลงในแต่ละคอลัมน์

ตัวอย่างเช่น ตามคำจำกัดความต่อไปนี้ พีชคณิตเชิงเส้นห้ามมิให้ใช้ A+B เนื่องจาก A และ B มีมิติข้อมูลต่างกัน

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

อย่างไรก็ตาม การออกอากาศจะทำให้สามารถทำงาน A+B ได้โดยการขยาย B ไปยังสิ่งใดต่อไปนี้ทางออนไลน์

 [[2, 2, 2],
  [2, 2, 2]]

ดังนั้น ในขณะนี้ A+B จึงเป็นการดำเนินการที่ถูกต้อง:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

ดูรายละเอียดเพิ่มเติมได้ที่คำอธิบายของการออกอากาศใน NumPy

การฝากข้อมูล

#fundamentals

การแปลง feature เดียวเป็นฟีเจอร์ไบนารีหลายรายการที่เรียกว่า buckets หรือ bins ซึ่งมักอิงตามช่วงค่า ฟีเจอร์ที่สับมักจะเป็นฟีเจอร์ต่อเนื่อง

เช่น แทนที่จะแสดงอุณหภูมิเป็นฟีเจอร์จุดลอยตัวต่อเนื่องแบบเดียว คุณอาจสับช่วงอุณหภูมิให้เป็นที่เก็บข้อมูลที่แยกกันได้ เช่น

  • <= 10 องศาเซลเซียส คือที่เก็บข้อมูลที่ "เย็น"
  • อุณหภูมิ "11-24 องศาเซลเซียส" คือที่เก็บข้อมูล "อากาศอบอุ่น"
  • >= 25 องศาเซลเซียสหมายถึงถังที่ "อุ่นขึ้น"

โมเดลจะดำเนินการกับทุกค่าในที่เก็บข้อมูลเดียวกันในลักษณะเดียวกัน เช่น ทั้งค่า 13 และ 22 อยู่ในที่เก็บข้อมูลแบบปานกลาง ดังนั้นโมเดลจึงถือว่าทั้ง 2 ค่าเหมือนกัน

C

เลเยอร์การปรับเทียบ

การปรับปรุงหลังการคาดการณ์ โดยทั่วไปจะรองรับอคติจากการคาดการณ์ การคาดการณ์และความน่าจะเป็นที่ปรับแล้วควรตรงกับการกระจายของชุดป้ายกำกับที่สังเกตได้

รุ่นของผู้สมัคร

#recsystems

ชุดคำแนะนำเริ่มต้นที่ระบบการแนะนำเลือก ตัวอย่างเช่น ลองพิจารณาร้านหนังสือที่มีหนังสือ 100,000 เล่ม ขั้นตอนการสร้างผู้สมัครจะสร้างรายการหนังสือที่เหมาะสำหรับผู้ใช้ จำนวนที่น้อยกว่ามาก เช่น 500 เล่ม แต่แม้แต่หนังสือ 500 เล่มก็ไม่เพียงพอที่จะแนะนำแก่ผู้ใช้ ระยะต่อมาของระบบการแนะนำซึ่งมีราคาแพงกว่า (เช่น การให้คะแนนและการจัดลำดับใหม่) จะลดค่า 500 เหล่านั้นจนเหลือน้อยลงและมีประโยชน์กว่ามาก

การสุ่มตัวอย่างผู้สมัครรับเลือกตั้ง

การเพิ่มประสิทธิภาพเวลาการฝึกซึ่งคำนวณความน่าจะเป็นสำหรับป้ายกำกับเชิงบวกทั้งหมด เช่น softmax แต่ต้องใช้ตัวอย่างแบบสุ่มของป้ายกำกับเชิงลบเท่านั้น ตัวอย่างเช่น จากตัวอย่างที่มีป้ายกำกับว่า beagle และ dog การสุ่มตัวอย่างผู้สมัครจะคำนวณความน่าจะเป็นที่คาดการณ์ไว้และพจน์การสูญเสียที่เกี่ยวข้องกับสิ่งต่อไปนี้

  • บีเกิล
  • สุนัข
  • ชุดย่อยแบบสุ่มของคลาสเชิงลบที่เหลืออยู่ (เช่น cat, lollipop, fence)

แนวคิดก็คือคลาสเชิงลบสามารถเรียนรู้จากแรงเสริมในเชิงลบไม่บ่อยนัก ตราบใดที่คลาสเชิงบวกได้รับการเสริมสร้างบวกที่เหมาะสมเสมอ และลักษณะนี้สังเกตได้แบบเชิงประจักษ์

การสุ่มตัวอย่างผู้สมัครจะมีประสิทธิภาพในการคำนวณมากกว่าอัลกอริทึมการฝึกซึ่งคำนวณการคาดการณ์สำหรับคลาสเชิงลบทั้งหมด โดยเฉพาะอย่างยิ่งเมื่อจำนวนคลาสเชิงลบมีขนาดใหญ่มาก

ข้อมูลเชิงหมวดหมู่

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ที่เฉพาะเจาะจง ตัวอย่างเช่น ลองพิจารณาฟีเจอร์เชิงหมวดหมู่ชื่อ traffic-light-state ซึ่งมีค่าที่เป็นไปได้เพียง 1 ใน 3 ค่าต่อไปนี้

  • red
  • yellow
  • green

การแสดง traffic-light-state เป็นฟีเจอร์เชิงหมวดหมู่จะช่วยให้โมเดลเรียนรู้ผลกระทบที่แตกต่างกันของ red, green และ yellow ต่อพฤติกรรมของผู้ขับได้

บางครั้งฟีเจอร์เชิงหมวดหมู่เรียกว่าฟีเจอร์ที่ไม่ต่อเนื่อง

ตัดกับข้อมูลตัวเลข

โมเดลภาษาทั่วไป

#language

คำพ้องของ unidirectional Language Model

ดูโมเดลภาษาแบบ 2 ทิศทางเพื่อเปรียบต่างแนวทางแบบกำหนดทิศทางต่างๆ ในโมเดลภาษา

เซนทรอยด์

#clustering

จุดศูนย์กลางของคลัสเตอร์ที่อัลกอริทึม k-means หรือ k-median กำหนด เช่น ถ้า k คือ 3 อัลกอริทึม k-means หรือ k-median จะได้หา 3 เซนทรอยด์

คลัสเตอร์แบบเซนทรอยด์

#clustering

หมวดหมู่ของอัลกอริทึมคลัสเตอร์ที่จัดระเบียบข้อมูลเป็นคลัสเตอร์ที่ไม่มีลำดับชั้น k-means เป็นอัลกอริทึมการจัดกลุ่มแบบเซนทรอยด์ที่ใช้กันอย่างแพร่หลาย

ตัดกับอัลกอริทึมการจัดกลุ่มแบบลำดับชั้น

การสร้างพรอมต์แบบเชนความคิด

#language
#GenerativeAI

เทคนิคระบบพรอมต์ที่สนับสนุนโมเดลภาษาขนาดใหญ่ (LLM) ให้อธิบายการให้เหตุผลแบบทีละขั้นตอน ตัวอย่างเช่น ลองพิจารณาพรอมต์ต่อไปนี้ โดยให้ความสำคัญกับประโยคที่ 2 เป็นพิเศษ

คนขับจะมีแรงกี่กรัมเมื่อรถวิ่งจาก 0 ถึง 60 ไมล์ต่อชั่วโมงใน 7 วินาที แสดงการคำนวณที่เกี่ยวข้องทั้งหมดในคำตอบ

คำตอบของ LLM น่าจะดังนี้

  • แสดงลำดับของสูตรฟิสิกส์ ใส่ค่า 0, 60 และ 7 ในตำแหน่งที่เหมาะสม
  • อธิบายว่าทำไมมันจึงเลือกสูตรเหล่านั้นและตัวแปรต่างๆ หมายถึงอะไร

ข้อความแจ้งแบบเชนความคิดบังคับให้ LLM ทำการคำนวณทั้งหมด ซึ่งอาจทำให้เกิดคำตอบที่ถูกต้องมากขึ้น นอกจากนี้ การแสดงข้อความแจ้งแบบเชนความคิดช่วยให้ผู้ใช้ตรวจสอบขั้นตอนของ LLM เพื่อพิจารณาว่าคำตอบนั้นเหมาะสมหรือไม่

แชท

#language
#GenerativeAI

เนื้อหาของการสนทนาโต้ตอบกันด้วยระบบ ML ซึ่งมักจะเป็นโมเดลภาษาขนาดใหญ่ การโต้ตอบก่อนหน้านี้ในแชท (สิ่งที่คุณพิมพ์และวิธีที่โมเดลภาษาขนาดใหญ่ตอบกลับ) จะกลายเป็น บริบทสำหรับแชทส่วนต่อๆ ไป

แชทบ็อตเป็นแอปพลิเคชันของโมเดลภาษาขนาดใหญ่

จุดตรวจ

ข้อมูลที่บันทึกสถานะพารามิเตอร์ของโมเดลในการทำซ้ำการฝึกหนึ่งๆ จุดตรวจสอบช่วยให้ส่งออกโมเดล น้ำหนัก หรือดำเนินการการฝึกในหลายๆ เซสชันได้ นอกจากนี้ จุดตรวจสอบยังเปิดใช้การฝึกเพื่อดำเนินการต่อจากข้อผิดพลาดในอดีต (เช่น การขัดจังหวะชั่วคราว) อีกด้วย

เมื่อการปรับแต่ง จุดเริ่มต้นสำหรับการฝึกโมเดลใหม่จะเป็นจุดตรวจสอบที่เจาะจงของโมเดลที่ฝึกล่วงหน้า

คลาส

#fundamentals

หมวดหมู่ที่มีป้ายกำกับได้ เช่น

โมเดลการจัดประเภทจะคาดการณ์คลาส ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์จำนวนไม่ใช่คลาส

โมเดลการจัดประเภท

#fundamentals

modelที่การคาดการณ์เป็น model ตัวอย่างรูปแบบการจัดประเภททั้งหมดมีดังนี้

  • โมเดลที่คาดการณ์ภาษาของประโยคอินพุต (ภาษาฝรั่งเศส ภาษาสเปนนะ อิตาลี)
  • โมเดลที่คาดการณ์ชนิดของต้นไม้ (Maple? Oak? เบาบับไหม)
  • โมเดลที่คาดการณ์คลาสเชิงบวกหรือเชิงลบสำหรับภาวะทางการแพทย์ที่เจาะจง

ในทางตรงกันข้าม โมเดลการถดถอยจะคาดการณ์จำนวนแทนคลาส

รูปแบบการจัดหมวดหมู่ที่ใช้กันทั่วไปมี 2 ประเภท ได้แก่

เกณฑ์การจัดประเภท

#fundamentals

ในการจัดประเภทแบบไบนารี ตัวเลขระหว่าง 0 ถึง 1 ที่แปลงผลลัพธ์ดิบของโมเดลการถดถอยแบบโลจิสติกเป็นการคาดการณ์คลาสบวกหรือคลาสลบ โปรดทราบว่าเกณฑ์การจัดประเภทเป็นค่าที่มนุษย์เลือก ไม่ใช่ค่าที่เลือกโดยการฝึกโมเดล

โมเดลการถดถอยแบบโลจิสติกจะแสดงค่าดิบระหว่าง 0 ถึง 1 จากนั้นให้ทำดังนี้

  • หากค่าดิบนี้มากกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสบวก
  • หากค่าดิบนี้น้อยกว่าเกณฑ์การจัดประเภท ระบบจะคาดการณ์คลาสเชิงลบ

ตัวอย่างเช่น สมมติว่าเกณฑ์การจัดประเภทคือ 0.8 หากค่าดิบคือ 0.9 โมเดลจะคาดการณ์คลาสบวก หากค่าดิบคือ 0.7 โมเดลจะคาดการณ์คลาสลบ

ตัวเลือกเกณฑ์การจัดประเภทจะมีผลต่อจำนวนผลบวกลวงและผลลบลวงเป็นอย่างมาก

ชุดข้อมูลที่ไม่สมดุล

#fundamentals

ชุดข้อมูลสำหรับโจทย์การจัดประเภทที่จำนวนป้ายกำกับทั้งหมดของแต่ละคลาสแตกต่างกันอย่างมีนัยสำคัญ เช่น ลองพิจารณาชุดข้อมูลการจัดประเภทแบบไบนารีที่แบ่งป้ายกำกับ 2 รายการดังนี้

  • ป้ายกำกับเชิงลบ 1,000,000 ป้าย
  • ป้ายกำกับเชิงบวก 10 รายการ

อัตราส่วนของป้ายกำกับค่าลบต่อป้ายกำกับเชิงบวกคือ 100,000 ต่อ 1 ดังนั้นนี่จึงเป็นชุดข้อมูลที่ไม่สมดุลกัน

ในทางตรงกันข้าม ชุดข้อมูลต่อไปนี้ไม่มีคลาสที่ไม่สมดุลเนื่องจากอัตราส่วนของป้ายกำกับลบต่อป้ายกำกับบวกค่อนข้างใกล้เคียงกับ 1

  • 517 ป้ายกำกับเชิงลบ
  • 483 ป้ายกำกับเชิงบวก

ชุดข้อมูลแบบหลายคลาสอาจมีความไม่สมดุลของคลาส ตัวอย่างเช่น ชุดข้อมูลการแยกประเภทแบบหลายคลาสต่อไปนี้ก็ไม่สมดุลเช่นกันเนื่องจากป้ายกำกับหนึ่งมีตัวอย่างมากกว่าอีก 2 ป้าย

  • ป้ายกำกับ 1,000,000 ป้ายที่มีคลาสเป็น "สีเขียว"
  • 200 ป้ายกำกับที่มีคลาสเป็น "สีม่วง"
  • ป้ายกำกับ 350 รายการที่มีคลาส "สีส้ม"

ดูข้อมูลเกี่ยวกับเอนโทรปี คลาสส่วนใหญ่ และชนกลุ่มน้อย

การตัดคลิป

#fundamentals

เทคนิคในการจัดการค่าที่ผิดปกติโดยการดำเนินการอย่างใดอย่างหนึ่งหรือทั้ง 2 อย่างต่อไปนี้

  • ลดค่า feature ที่มากกว่าเกณฑ์สูงสุดลงจนถึงเกณฑ์สูงสุดนั้น
  • การเพิ่มค่าฟีเจอร์ที่น้อยกว่าเกณฑ์ขั้นต่ำจนถึงเกณฑ์ขั้นต่ำดังกล่าว

เช่น สมมติว่าค่า <0.5% สำหรับฟีเจอร์หนึ่งอยู่นอกช่วง 40–60 ในกรณีนี้ คุณสามารถดำเนินการดังต่อไปนี้

  • ตัดค่าทั้งหมดที่เกิน 60 (เกณฑ์สูงสุด) ให้เท่ากับ 60
  • ตัดค่าทั้งหมดที่ต่ำกว่า 40 (เกณฑ์ขั้นต่ำ) ให้เท่ากับ 40

ค่าผิดปกติอาจทำให้โมเดลเสียหาย ซึ่งบางครั้งก็ทำให้น้ำหนักล้นระหว่างการฝึก ค่าผิดปกติบางอย่างอาจทำให้เมตริกหายไป อย่างมาก เช่น ความแม่นยำ การคลิปเป็นเทคนิคทั่วไปในการจำกัดความเสียหาย

การไล่ระดับสีจะบังคับให้ค่าการไล่ระดับสีภายในช่วงที่กำหนดในระหว่างการฝึก

Cloud TPU

#TensorFlow
#GoogleCloud

เครื่องมือเร่งฮาร์ดแวร์เฉพาะทางที่ออกแบบมาเพื่อเพิ่มความเร็วให้กับภาระงานของแมชชีนเลิร์นนิงใน Google Cloud

คลัสเตอร์

#clustering

การจัดกลุ่มตัวอย่างที่เกี่ยวข้อง โดยเฉพาะในช่วงการเรียนรู้ที่ไม่มีการควบคุมดูแล เมื่อจัดกลุ่มตัวอย่างทั้งหมดแล้ว มนุษย์อาจระบุความหมายให้กับแต่ละคลัสเตอร์หรือไม่ก็ได้

มีอัลกอริทึมคลัสเตอร์จำนวนมาก เช่น ตัวอย่างคลัสเตอร์อัลกอริทึม k-means โดยอิงจากระยะใกล้ของเซนทรอยด์ ดังที่แสดงในแผนภาพต่อไปนี้

กราฟ 2 มิติที่แกน x ติดป้ายกำกับความกว้างของต้นไม้ และแกน y ติดป้ายกำกับความสูงของต้นไม้ กราฟมีจุดศูนย์กลาง 2 เซนทรอยด์และจุดข้อมูลหลายสิบจุด จุดข้อมูลได้รับการจัดหมวดหมู่ตามความใกล้ชิด กล่าวคือ จุดข้อมูลที่อยู่ใกล้กับเซนทรอยด์หนึ่งมากที่สุดจะได้รับการจัดหมวดหมู่เป็นคลัสเตอร์ 1 ในขณะที่จุดข้อมูลที่อยู่ใกล้กับเซนทรอยด์อื่นมากที่สุดจะได้รับการจัดหมวดหมู่เป็นคลัสเตอร์ 2

จากนั้นนักวิจัยที่เป็นมนุษย์สามารถตรวจสอบกลุ่มดังกล่าวและติดป้ายกำกับคลัสเตอร์ที่ 1 เป็น "ต้นไม้แคระ" และคลัสเตอร์ 2 เป็น "ต้นไม้ขนาดเต็ม" เป็นต้น

อีกตัวอย่างหนึ่งคือ ลองพิจารณาอัลกอริทึมการจัดกลุ่มโดยอิงตามระยะห่างของตัวอย่างจากจุดศูนย์กลาง ตามภาพประกอบดังนี้

จุดข้อมูลหลายสิบจุดจัดเรียงเป็นรูปวงกลมศูนย์กลาง คล้าย
          รูรอบๆ กึ่งกลางของกระดานปาเป้า วงแหวนชั้นในสุดของจุดข้อมูลได้รับการจัดหมวดหมู่เป็นคลัสเตอร์ 1 วงแหวนตรงกลางได้รับการจัดหมวดหมู่เป็นคลัสเตอร์ 2 และวงนอกสุดเป็นคลัสเตอร์ 3

การปรับตัวร่วมกัน

เมื่อเซลล์ประสาทคาดการณ์รูปแบบในข้อมูลการฝึกโดยแทบจะอาศัยเอาต์พุตของเซลล์ประสาทอื่นๆ ที่เฉพาะเจาะจงแทนที่จะพึ่งพาพฤติกรรมของเครือข่ายโดยรวม เมื่อรูปแบบที่ทําให้เกิดการปรับร่วมกันไม่ปรากฏในข้อมูลการตรวจสอบ การปรับร่วมก็จะทำให้เกิดการปรับมากเกินไป การทำให้เป็นมาตรฐาน Dropout ลดการปรับตัวร่วม เนื่องจากการออกจากระบบช่วยให้เซลล์ประสาทพึ่งพาเซลล์ประสาทอื่นๆ ที่เฉพาะเจาะจงไม่ได้

การกรองแบบทำงานร่วมกัน

#recsystems

สร้างการคาดคะเนเกี่ยวกับความสนใจของผู้ใช้คนหนึ่งโดยอิงตามความสนใจของผู้ใช้รายอื่นจำนวนมาก การกรองการทำงานร่วมกันมักจะใช้ในระบบการแนะนำ

การเปลี่ยนแปลงแนวคิด

การเปลี่ยนแปลงความสัมพันธ์ระหว่างฟีเจอร์และป้ายกำกับ เมื่อเวลาผ่านไป แนวคิดอาจลดทอนคุณภาพของโมเดล

ในระหว่างการฝึก โมเดลจะเรียนรู้ความสัมพันธ์ระหว่างฟีเจอร์และป้ายกำกับในชุดการฝึก หากป้ายกำกับในชุดการฝึกเป็นพร็อกซีที่ดีสำหรับใช้งานจริง โมเดลควรคาดการณ์ได้ดีในการใช้งานจริง แต่เนื่องจากแนวคิดที่เปลี่ยนไป การคาดการณ์ของโมเดลจึงมีแนวโน้มลดลงเมื่อเวลาผ่านไป

เช่น ลองพิจารณาโมเดลการจัดประเภทแบบไบนารีที่คาดการณ์ว่ารถยนต์บางรุ่น "ประหยัดน้ำมัน" หรือไม่ ฟีเจอร์ดังกล่าวอาจมีลักษณะดังนี้

  • น้ำหนักรถยนต์
  • การบีบอัดเครื่องมือ
  • ประเภทการแพร่เชื้อ

ในขณะที่ป้ายกำกับเป็น

  • ประหยัดเชื้อเพลิง
  • ไม่ประหยัดเชื้อเพลิง

อย่างไรก็ตาม แนวคิดของ "รถประหยัดน้ำมัน" ยังคงเปลี่ยนแปลงอยู่เสมอ รถรุ่นหนึ่งที่มีป้ายกำกับว่าประหยัดน้ำมันในปี 1994 แทบจะมีป้ายกำกับว่าไม่ประหยัดน้ำมันในปี 2024 โมเดลที่ได้รับผลกระทบจากการผันผวนของแนวคิดมักจะทำการคาดการณ์ที่เป็นประโยชน์น้อยลงเมื่อเวลาผ่านไป

เปรียบเทียบระหว่าง nonstationarity

เงื่อนไข

#df

ในแผนผังการตัดสินใจ โหนดที่ประเมินนิพจน์ ตัวอย่างเช่น ส่วนของแผนผังการตัดสินใจต่อไปนี้มี 2 เงื่อนไขดังนี้

แผนผังการตัดสินใจที่มีเงื่อนไข 2 ข้อคือ (x > 0) และ (y > 0)

เงื่อนไขเรียกอีกอย่างว่าการแยกหรือการทดสอบ

เปรียบเทียบเงื่อนไขกับ leaf

และดู:

การพูดคุย

#language

คำพ้องความหมายของความไม่สมเหตุสมผล

การสับสนอาจเป็นศัพท์เทคนิคที่ถูกต้องกว่าคำไม่สมเหตุสมผล อย่างไรก็ตาม ความไม่สมเหตุสมผลก็ได้รับความนิยมเป็นอย่างแรก

การกำหนดค่า

กระบวนการกำหนดค่าพร็อพเพอร์ตี้เริ่มต้นที่ใช้ในการฝึกโมเดล ได้แก่

ในโปรเจ็กต์แมชชีนเลิร์นนิง การกำหนดค่าทำได้ผ่านไฟล์การกำหนดค่าพิเศษหรือใช้ไลบรารีการกำหนดค่าดังเช่นตัวอย่างต่อไปนี้

อคติยืนยันความคิดตัวเอง

#fairness

แนวโน้มในการค้นหา ตีความ เห็นด้วย และจดจำข้อมูลในลักษณะที่ยืนยันความเชื่อหรือสมมติฐานที่มีอยู่แล้ว นักพัฒนาแมชชีนเลิร์นนิงอาจเก็บรวบรวมหรือติดป้ายกำกับข้อมูลในลักษณะที่ส่งผลต่อผลลัพธ์ที่สนับสนุนความเชื่อที่มีอยู่ของตนโดยไม่ได้ตั้งใจ อคติยืนยันเข้ามาเป็นอคติโดยปริยายรูปแบบหนึ่ง

อคติของผู้ทำการทดสอบเป็นรูปแบบหนึ่งของอคติการยืนยันที่ผู้ทดสอบจะทำการฝึกโมเดลต่อไปเรื่อยๆ จนกว่าจะมีการยืนยันสมมติฐานที่มีอยู่แล้ว

เมทริกซ์ความสับสน

#fundamentals

ตาราง NxN ที่สรุปจำนวนการคาดการณ์ที่ถูกต้องและไม่ถูกต้องที่โมเดลการจัดประเภทสร้างขึ้น เช่น ลองพิจารณาเมทริกซ์ความสับสนต่อไปนี้สำหรับโมเดลการจัดประเภทแบบไบนารี

เนื้องอก (คาดการณ์ไว้) ไม่ใช่เนื้องอก (คาดการณ์ไว้)
เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 18 (TP) 1 (FN)
ไม่ใช่เนื้องอก (ข้อมูลจากการสังเกตการณ์โดยตรง) 6 (FP) 452 (เทนเนสซี)

เมทริกซ์ความสับสนก่อนหน้าจะแสดงข้อมูลต่อไปนี้

  • จากการคาดการณ์ 19 รายการที่มีข้อมูลจากการสังเกตการณ์โดยตรงเป็นเนื้องอก โมเดลแยกประเภท 18 อย่างถูกต้องและจำแนกประเภท 1 ไม่ถูกต้อง
  • จากการคาดการณ์ 458 รายการที่ข้อมูลที่เป็นความจริงไม่ใช่เนื้องอก โมเดลดังกล่าวมีการจัดประเภท 452 อย่างถูกต้องและจัดประเภทไม่ถูกต้อง 6

เมทริกซ์ความสับสนสำหรับปัญหาการจัดประเภทแบบหลายคลาสช่วยให้คุณระบุรูปแบบของข้อผิดพลาดได้ ตัวอย่างเช่น ลองพิจารณาเมทริกซ์ความสับสนต่อไปนี้สำหรับโมเดลการจัดประเภทแบบหลายคลาส 3 คลาสที่จัดหมวดหมู่ม่านตาต่างๆ 3 ประเภท (Virginica, Versicolor และ Setosa) เมื่อข้อมูลที่ได้จากการสังเกตการณ์คือ Virginica เมทริกซ์ความสับสนจะแสดงว่าโมเดลดังกล่าวมีแนวโน้มที่จะคาดการณ์ Versicolor โดยไม่ได้ตั้งใจมากกว่า Setosa

  Setosa (ที่คาดการณ์ไว้) เวอร์ชันสี (ที่คาดการณ์ไว้) เวอร์จินิกา (ที่คาดการณ์)
Setosa (ข้อมูลจากภาคพื้นดิน) 88 12 0
Versicolor (ข้อมูลที่เป็นความจริง) 6 141 7
เวอร์จิเนีย (ข้อมูลจากการสังเกตการณ์โดยตรง) 2 27 109

อีกตัวอย่างหนึ่ง เมทริกซ์ความสับสนอาจเผยให้เห็นว่าโมเดลที่ได้รับการฝึกให้จดจำตัวเลขที่เขียนด้วยลายมือมีแนวโน้มที่จะคาดการณ์ 9 แทนที่จะเป็น 4 โดยไม่ได้ตั้งใจ หรือคาดการณ์เลข 1 แทนที่จะเป็น 7 โดยไม่ได้ตั้งใจ

เมทริกซ์ความสับสนมีข้อมูลเพียงพอที่จะคำนวณเมตริกประสิทธิภาพที่หลากหลาย ซึ่งรวมถึงความแม่นยำและความอ่อนไหว

การแยกวิเคราะห์เขตเลือกตั้ง

#language

การแบ่งประโยคออกเป็นโครงสร้างทางไวยากรณ์ที่เล็กลง ("ส่วนประกอบ") ส่วนต่อมาของระบบ ML เช่น โมเดลการทำความเข้าใจภาษาธรรมชาติสามารถแยกวิเคราะห์ประชาชนได้ง่ายกว่าประโยคต้นฉบับ ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

เพื่อนฉันเลี้ยงแมวไว้ 2 ตัว

โปรแกรมแยกวิเคราะห์เขตเลือกตั้งสามารถแบ่งประโยคนี้ออกเป็น 2 สมาชิกดังต่อไปนี้

  • เพื่อนของฉันเป็นคำนาม
  • รับเลี้ยงแมวสองตัวเป็นวลีกริยา

สามารถแบ่งเขตเลือกตั้งย่อยออกไปเป็นสภาผู้แทนราษฎรที่เล็กลงได้ เช่น วลีที่มีคำกริยา

รับเลี้ยงแมว 2 ตัว

สามารถแยกย่อยเพิ่มเติมออกเป็น

  • adopted คือคำกริยา
  • two cats เป็นคำนามอีกวลีหนึ่ง

การฝังภาษาที่มีบริบท

#language
#GenerativeAI

การฝังที่ช่วยให้ "เข้าใจ" คำและวลีในแบบที่เจ้าของภาษาพูดได้ การฝังภาษาที่มีบริบท สามารถเข้าใจไวยากรณ์ ความหมาย และบริบทที่ซับซ้อนได้

เช่น ลองฝังคำว่า cow ในภาษาอังกฤษ การฝังข้อมูลที่เก่ากว่า เช่น word2vec อาจหมายถึงคำภาษาอังกฤษที่ระยะห่างในพื้นที่ที่ฝังฝังตั้งแต่วัวไปจนถึงบูลนั้นคล้ายกับระยะห่างจากแกะ (แกะตัวเมีย) ถึงแกะ (แกะตัวผู้) หรือจากผู้หญิงไปจนถึงตัวผู้ การฝังภาษาตามบริบท อาจก้าวหน้าขึ้นอีกขั้น โดยการจดจำว่าบางครั้งผู้ที่พูดภาษาอังกฤษใช้คำว่า "วัว" เพื่อหมายถึงวัวหรือวัวตามปกติ

หน้าต่างบริบท

#language
#GenerativeAI

จำนวนโทเค็นที่โมเดลจะประมวลผลได้ในข้อความแจ้งที่ระบุ ยิ่งหน้าต่างบริบทมีขนาดใหญ่เท่าใด โมเดลก็ยิ่งสามารถใช้ข้อมูลเพิ่มเติมเพื่อแสดงคำตอบที่สอดคล้องกันและสอดคล้องกันต่อพรอมต์ได้

ฟีเจอร์ต่อเนื่อง

#fundamentals

ฟีเจอร์แบบจุดลอยตัวซึ่งมีช่วงของค่าที่เป็นไปได้อย่างไม่มีที่สิ้นสุด เช่น อุณหภูมิหรือน้ำหนัก

ตัดกับฟีเจอร์ที่ไม่ต่อเนื่อง

การสุ่มตัวอย่างแบบตามสะดวก

การใช้ชุดข้อมูลที่ไม่ได้รวบรวมทางวิทยาศาสตร์เพื่อทำการทดสอบอย่างรวดเร็ว ในภายหลัง คุณจำเป็นต้องเปลี่ยนไปใช้ชุดข้อมูลเชิงวิทยาศาสตร์

ลู่เข้า

#fundamentals

สถานะถึงเมื่อค่า loss เปลี่ยนแปลงน้อยมากหรือไม่เปลี่ยนเลยสําหรับการทำซ้ำแต่ละครั้ง ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้แนะนำการบรรจบกันที่ประมาณ 700 รอบ

พล็อตคาร์ทีเซียน แกน X หายไป แกน Y คือจำนวนการทำซ้ำการฝึก การสูญเสียอยู่ในระดับสูงมากระหว่างการปรับปรุงซ้ำๆ 2-3 ครั้ง แต่ลดลงอย่างมาก หลังจากทำซ้ำประมาณ 100 ครั้ง การสูญเสียยังคง
          จากมากไปน้อยแต่ค่อยๆ เพิ่มขึ้นมาก หลังจากทำซ้ำประมาณ 700 ครั้ง การสูญเสียจะคงที่

โมเดลจะประมวลผลเมื่อการฝึกเพิ่มเติมจะไม่ช่วยพัฒนาโมเดล

ในการเรียนรู้เชิงลึก บางครั้งค่าการสูญเสียจะคงที่หรือเกือบสูงในการปรับเปลี่ยนหลายครั้งก่อนที่จะมากไปน้อย ในช่วงเวลาที่ค่าสูญเสียคงที่เป็นเวลานาน คุณอาจรู้สึกถึงการลู่เข้าที่เป็นเท็จชั่วคราว

โปรดดูการหยุดก่อนกำหนดเพิ่มเติม

ฟังก์ชัน Convex

ฟังก์ชันที่ภูมิภาคเหนือกราฟของฟังก์ชันเป็นชุด Conv. ฟังก์ชันนูนต้นแบบ มีรูปร่างคล้ายตัวอักษร U ตัวอย่างเช่น ฟังก์ชันนูนทั้งหมด มีดังนี้

เส้นโค้งรูปตัว U แต่ละเส้นมีจุดต่ำสุดจุดเดียว

ในทางตรงกันข้าม ฟังก์ชันต่อไปนี้จะไม่นูน โปรดสังเกตว่าภูมิภาคเหนือกราฟไม่ได้ตั้งค่าในรูปแบบนูน

เส้นโค้งรูปตัว W ที่มีจุดต่ำสุดในเครื่อง 2 จุด

ฟังก์ชันนูนอย่างเคร่งครัดจะมีจุดต่ำสุดภายในพื้นที่ 1 จุด ซึ่งเป็นจุดต่ำสุดทั่วโลกด้วย ฟังก์ชันรูปตัว U แบบคลาสสิก เป็นฟังก์ชันแบบนูน แต่ฟังก์ชันนูนบางฟังก์ชัน (เช่น เส้นตรง) จะไม่เป็นรูปตัว U

การเพิ่มประสิทธิภาพ Convex

กระบวนการใช้เทคนิคทางคณิตศาสตร์ เช่น การไล่ระดับสีเพื่อหาค่าต่ำสุดของฟังก์ชัน Conv. งานวิจัยจำนวนมากในด้านแมชชีนเลิร์นนิงมุ่งเน้นที่การสร้างโจทย์ต่างๆ ให้เป็นโจทย์การเพิ่มประสิทธิภาพแบบนูนและแก้ปัญหาเหล่านั้นได้อย่างมีประสิทธิภาพมากขึ้น

โปรดดูรายละเอียดทั้งหมดได้ที่ Boyd และ Vandenberghe การเพิ่มประสิทธิภาพ Convex

ชุดนูน

ส่วนย่อยของปริภูมิยุคลิดที่เส้นแบ่งระหว่างจุด 2 จุดในเซ็ตจะยังคงอยู่ภายในเซตย่อย เช่น รูปร่าง 2 แบบต่อไปนี้คือชุดนูน

ภาพสี่เหลี่ยมผืนผ้า 1 ภาพ อีกภาพของวงรี

ในทางตรงกันข้าม รูปร่าง 2 รายการต่อไปนี้ไม่ใช่ชุดนูน

ภาพแผนภูมิวงกลม 1 ภาพที่มีชิ้นส่วนขาดหายไป
          อีกภาพหนึ่งของรูปหลายเหลี่ยมที่ผิดปกติ

คอนโวลูชัน

#image

ในทางคณิตศาสตร์ พูดง่ายๆ ก็คือ เป็นการผสมผสานฟังก์ชัน 2 อย่าง ในแมชชีนเลิร์นนิง Convolution จะผสมผสานตัวกรองคอนโวลูชัน (Convolutional) เข้ากับเมทริกซ์อินพุตเพื่อฝึกน้ำหนัก

คำว่า "Convolution" ในแมชชีนเลิร์นนิงมักจะเป็นวิธีเรียกสั้นๆ ถึงการดำเนินการเชิงควบคุมหรือชั้นคอนโวลูชัน (convolutional Layer)

หากไม่มี Convolution อัลกอริทึมแมชชีนเลิร์นนิงจะต้องเรียนรู้น้ำหนักของแต่ละเซลล์แยกกันใน tensor ขนาดใหญ่ ตัวอย่างเช่น การฝึกอัลกอริทึมของแมชชีนเลิร์นนิงกับรูปภาพขนาด 2K x 2K จะถูกบังคับให้ค้นหาน้ำหนัก 4 ล้านแยกกัน เนื่องจากคอนโวลูชัน (Convolution) อัลกอริทึมแมชชีนเลิร์นนิงจึงต้องหาน้ำหนักของทุกเซลล์ในตัวกรอง Convolution เท่านั้น จึงช่วยลดหน่วยความจำที่ต้องใช้ในการฝึกโมเดลได้อย่างมาก เมื่อใช้ตัวกรองคอนโวลูชัน (Convolutional) ระบบจะจำลองข้อมูลในเซลล์ให้คูณกับตัวกรอง

ตัวกรองคอนโวลูชัน (Convolutional)

#image

ผู้ดำเนินการ 1 ใน 2 คนในปฏิบัติการเชิงควบคุม (อีกตัวหนึ่งเป็นชิ้นส่วนของเมทริกซ์อินพุต) ตัวกรองคอนโวลูชัน (Convolutional) คือเมทริกซ์ที่มีอันดับเดียวกันกับเมทริกซ์อินพุต แต่มีรูปร่างเล็กกว่า ตัวอย่างเช่น หากเป็นเมทริกซ์อินพุต 28x28 ตัวกรองอาจเป็นเมทริกซ์ 2 มิติใดๆ ที่เล็กกว่า 28x28

ในการจัดการรูปภาพ ปกติแล้วเซลล์ทั้งหมดในฟิลเตอร์คอนโวลูชัน (Convolutional) จะกำหนดให้มีรูปแบบคงที่เป็นเลข 0 และ 0 ในแมชชีนเลิร์นนิง ตัวกรอง Convolutional มักมีตัวเลขแบบสุ่ม จากนั้นเครือข่ายรถไฟก็จะเป็นค่าในอุดมคติ

ชั้นคอนโวลูชัน (Convolutional)

#image

ชั้นของโครงข่ายระบบประสาทเทียมระดับลึกซึ่งมีตัวกรองคอนโวลูชัน (Convolutional) ผ่านเมทริกซ์อินพุต เช่น ลองพิจารณาตัวกรอง Convolutional แบบ 3x3 ต่อไปนี้

เมทริกซ์ 3x3 ที่มีค่าต่อไปนี้ [[0,1,0], [1,0,1], [0,1,0]]

ภาพเคลื่อนไหวต่อไปนี้แสดงเลเยอร์คอนโวลูชัน (Convolutional) ซึ่งประกอบด้วยการดำเนินการคอนโวลูชัน 9 แบบที่เกี่ยวข้องกับเมทริกซ์อินพุต 5x5 โปรดสังเกตว่าการดำเนินการเชิงควบคุมแต่ละแบบจะทำงานในเมทริกซ์อินพุตขนาด 3x3 ที่แตกต่างกัน เมทริกซ์ 3x3 ที่ได้ (ทางด้านขวา) ประกอบด้วยผลลัพธ์ของการดำเนินการแบบคอนโวลูชัน 9 แบบดังนี้

ภาพเคลื่อนไหวแสดงเมทริกซ์ 2 รายการ เมทริกซ์แรกคือเมทริกซ์ 5x5: [[128,97,53,201,198], [35,22,25,200,195],
 [37,24,28,197,182], [33,28,92,190,179]
          เมทริกซ์ที่ 2 คือเมทริกซ์ 3x3: [[181,303,618], [115,338,605], [169,351,560]]
          เมทริกซ์ที่ 2 คำนวณโดยใช้ตัวกรองคอนโวลูชันัล (Convolutional) [[0, 1, 0], [1, 0, 1], [0, 1, 0]] กับเซตย่อย 3x3 ที่ต่างกันของเมทริกซ์ 5x5

โครงข่ายระบบประสาทเทียมแบบ Convolutional

#image

โครงข่ายระบบประสาทเทียมซึ่งมีอย่างน้อย 1 เลเยอร์เป็นเลเยอร์คอนโวลูชัน โครงข่ายประสาทแบบคอนโวลูชัน (Convolutional Network) โดยทั่วไปประกอบด้วยการผสมเลเยอร์ต่อไปนี้บางส่วน

โครงข่ายระบบประสาทเทียมคอนโวลูชัน (Convolutional Network) ประสบความสำเร็จอย่างมากในการแก้ปัญหาบางประเภท เช่น การรู้จำรูปภาพ

ปฏิบัติการแบบคอนโวลูชัน (Convolutional)

#image

การดำเนินการทางคณิตศาสตร์ 2 ขั้นตอนต่อไปนี้

  1. การคูณองค์ประกอบตัวกรอง Convolution และส่วนแบ่งของเมทริกซ์อินพุต (ส่วนแบ่งของเมทริกซ์อินพุตมีอันดับและขนาดเดียวกับตัวกรอง Convolutional)
  2. ผลรวมค่าทั้งหมดในเมทริกซ์ผลคูณที่ได้

ตัวอย่างเช่น โปรดพิจารณาเมทริกซ์อินพุต 5x5 ต่อไปนี้

เมทริกซ์ 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [30,7]

ทีนี้ลองนึกภาพตัวกรองคอนโวลูชันัลขนาด 2x2 ต่อไปนี้

เมทริกซ์ 2x2: [[1, 0], [0, 1]]

การดำเนินการคอนโวลูชัน (Convolutional) แต่ละรายการจะประกอบไปด้วยเมทริกซ์อินพุตชิ้นเดียวขนาด 2x2 ตัวอย่างเช่น สมมติว่าเราใช้ส่วนแบ่ง 2x2 ที่ด้านซ้ายบนของเมทริกซ์อินพุต การดำเนินการคอนโวลูชันใน สไลซ์นี้จะมีลักษณะดังนี้

การใช้ตัวกรองคอนโวลูชัน (Convolutional) [[1, 0], [0, 1]] กับส่วนขนาด 2x2 ด้านซ้ายบนของเมทริกซ์อินพุต [[128,97], [35,22]]
          ตัวกรอง Convolutional จะคงค่า 128 และ 22 ไว้เหมือนเดิม แต่ 97 และ 35 จะหายไป ดังนั้น การดำเนินการ Convolution จะให้ค่า 150 (128+22)

เลเยอร์คอนโวลูชัน (Convolutional Layer) ประกอบด้วยอนุกรมของการดำเนินการแบบคอนโวลูชัน (Convolutional) โดยแต่ละระดับจะดำเนินการกับเมทริกซ์อินพุตที่ต่างกัน

ต้นทุน

คำพ้องความหมายของ loss

การฝึกอบรมร่วมกัน

แนวทางการเรียนรู้แบบมีการควบคุมดูแลจะเป็นประโยชน์อย่างยิ่งเมื่อเงื่อนไขทั้งหมดต่อไปนี้เป็นจริง

การฝึกร่วมกันจึงช่วยขยายสัญญาณที่เป็นอิสระให้กับสัญญาณที่ชัดเจนขึ้น เช่น ลองพิจารณาโมเดลการจัดประเภทที่จัดหมวดหมู่รถมือสองแต่ละคันเป็นดีหรือไม่ดี ฟีเจอร์ตามการคาดการณ์ชุดหนึ่งอาจเน้นที่ลักษณะโดยรวม เช่น ปี ยี่ห้อ และรุ่นของรถ ส่วนฟีเจอร์ตามการคาดการณ์อีกชุดหนึ่งอาจเน้นที่ประวัติการขับขี่ของเจ้าของคนก่อนหน้าและประวัติการบำรุงรักษาของรถ

บทความเกี่ยวกับการฝึกอบรมร่วมคือการรวมข้อมูลที่ติดป้ายกำกับและไม่ได้ติดป้ายกำกับเข้ากับการฝึกร่วม โดย Blum และ Mitchell

ความเป็นธรรมต่อต้านข้อเท็จจริง

#fairness

เมตริกความยุติธรรมที่ตรวจสอบว่าตัวแยกประเภทจะให้ผลการค้นหาเดียวกันกับบุคคลหนึ่ง เช่นเดียวกับอีกบุคคลหนึ่งที่เหมือนกับรายการแรก ยกเว้นแอตทริบิวต์ที่ละเอียดอ่อนอย่างน้อย 1 รายการ การประเมินตัวแยกประเภทเพื่อความเป็นธรรมที่ขัดแย้งเป็นวิธีหนึ่งในการแสดงแหล่งที่มาของอคติที่อาจเกิดขึ้นในโมเดล

โปรดดู "When Worlds Collide: Integrating Different Counterfการแสดงภาพ ในความยุติธรรม" เพื่อการพูดคุยอย่างละเอียดมากขึ้นเกี่ยวกับความยุติธรรม ที่ขัดแย้งกับข้อเท็จจริง

อคติเรื่องความครอบคลุม

#fairness

ดูการให้น้ำหนักพิเศษกับการเลือก

ดอกไม้บานขัดข้อง

#language

ประโยคหรือวลีที่มีความหมายกำกวม โดย Crash มักเป็นปัญหาสำคัญในการทำความเข้าใจภาษาธรรมชาติ ตัวอย่างเช่น บรรทัดแรก Red Tape Holds Up แท่งทรงสูงเป็น ข้อขัดข้องเกิดขึ้นเนื่องจากโมเดล NLU อาจตีความบรรทัดแรกแบบตรงตัวหรือโดยสังเขป

นักวิจารณ์

#rl

คำพ้องความหมายของ Deep Q-Network

ครอสเอนโทรปี

การสรุปการสูญหายของบันทึกกับโจทย์การจัดประเภทแบบหลายคลาส ครอสเอนโทรปีจะวัดความแตกต่างระหว่างการแจกแจงความน่าจะเป็น 2 รายการ โปรดดูความซับซ้อนเพิ่มเติม

การตรวจสอบความถูกต้องข้ามกัน

กลไกในการประมาณว่า model จะสรุปกับข้อมูลใหม่ได้ดีเพียงใดด้วยการทดสอบโมเดลกับชุดย่อยข้อมูลที่ไม่ทับซ้อนกันอย่างน้อย 1 รายการซึ่งถูกระงับจากmodel

ฟังก์ชันการกระจายสะสม (CDF)

ฟังก์ชันที่กำหนดความถี่ของตัวอย่างน้อยกว่าหรือเท่ากับค่าเป้าหมาย เช่น ลองพิจารณาการกระจายค่าต่อเนื่องแบบปกติ CDF บอกคุณว่าประมาณ 50% ของตัวอย่างควรน้อยกว่าหรือเท่ากับค่าเฉลี่ย และประมาณ 84% ของตัวอย่างควรน้อยกว่าหรือเท่ากับค่าเบี่ยงเบนมาตรฐานสูงกว่าค่าเฉลี่ย 1 ค่า

D

การวิเคราะห์ข้อมูล

การทำความเข้าใจข้อมูลด้วยการพิจารณาตัวอย่าง การวัดผล และการแสดงภาพ การวิเคราะห์ข้อมูลจะมีประโยชน์เป็นพิเศษเมื่อได้รับชุดข้อมูลครั้งแรก ก่อนที่ชุดข้อมูลจะสร้างmodelแรก และยังสำคัญต่อการทำความเข้าใจการทดสอบและการแก้ไขปัญหาของระบบ

การเสริมข้อมูล

#image

การเพิ่มช่วงและจำนวนตัวอย่างการฝึกที่ไม่ได้เกิดขึ้นจริงด้วยการแปลงตัวอย่างที่มีอยู่เพื่อสร้างตัวอย่างเพิ่มเติม เช่น สมมติว่ารูปภาพเป็นหนึ่งในฟีเจอร์ของคุณ แต่ชุดข้อมูลมีตัวอย่างรูปภาพไม่เพียงพอที่จะให้โมเดลเรียนรู้การเชื่อมโยงที่เป็นประโยชน์ โดยหลักการแล้ว คุณควรเพิ่มรูปภาพที่ติดป้ายกำกับจำนวนมากพอลงในชุดข้อมูลเพื่อให้โมเดลฝึกได้อย่างถูกต้อง หากทำไม่ได้ การเพิ่มข้อมูลอาจหมุน ยืด และแสดงแต่ละรูปภาพเพื่อสร้างรูปแบบต่างๆ ของรูปภาพต้นฉบับ โดยอาจให้ข้อมูลที่มีป้ายกำกับเพียงพอที่จะทำให้การฝึกเป็นเลิศได้

DataFrame

#fundamentals

ประเภทข้อมูล pandas ยอดนิยมสำหรับแสดงชุดข้อมูลในหน่วยความจำ

DataFrame คล้ายกับตารางหรือสเปรดชีต แต่ละคอลัมน์ของ DataFrame จะมีชื่อ (ส่วนหัว) และแต่ละแถวจะระบุด้วยตัวเลขที่ไม่ซ้ำกัน

แต่ละคอลัมน์ใน DataFrame มีโครงสร้างเหมือนกับอาร์เรย์ 2 มิติ ยกเว้นแต่ว่าแต่ละคอลัมน์จะกำหนดประเภทข้อมูลของตนเองได้

ดูเพิ่มเติมที่หน้าอ้างอิงอย่างเป็นทางการของ pandas.DataFrame

การทำงานขนานกันของข้อมูล

วิธีปรับขนาดการฝึกหรือการอนุมานซึ่งจำลองโมเดลทั้งเครื่องไปยังอุปกรณ์หลายเครื่อง แล้วส่งผ่านข้อมูลอินพุตชุดย่อยไปยังอุปกรณ์แต่ละเครื่อง การทำงานพร้อมกันของข้อมูลอาจทําให้การฝึกและการอนุมานกับกลุ่มขนาดใหญ่ที่มีขนาดใหญ่มากได้ แต่ความพร้อมกันของข้อมูลกำหนดให้โมเดลมีขนาดเล็กพอที่จะพอดีกับอุปกรณ์ทั้งหมด

โดยทั่วไปแล้วข้อมูลที่ทำงานขนานกันจะช่วยให้การฝึกและการอนุมานเร็วขึ้น

ดูการทำงานพร้อมกันของโมเดลเพิ่มเติม

ชุดข้อมูลหรือชุดข้อมูล

#fundamentals

คอลเล็กชันข้อมูลดิบ ซึ่งโดยทั่วไป (แต่ไม่ได้จัดไว้เฉพาะ) ในรูปแบบใดรูปแบบหนึ่งต่อไปนี้

  • สเปรดชีต
  • ไฟล์ในรูปแบบ CSV (ค่าที่คั่นด้วยคอมมา)

Dataset API (tf.data)

#TensorFlow

TensorFlow API ระดับสูงสำหรับการอ่านข้อมูลและเปลี่ยนให้เป็นรูปแบบที่อัลกอริทึมแมชชีนเลิร์นนิงต้องการ ออบเจ็กต์ tf.data.Dataset แสดงลำดับขององค์ประกอบ โดยแต่ละองค์ประกอบมี Tensor อย่างน้อย 1 รายการ ออบเจ็กต์ tf.data.Iterator ให้สิทธิ์เข้าถึงองค์ประกอบของ Dataset

โปรดดูรายละเอียดเกี่ยวกับ Dataset API ได้ที่ tf.data: สร้างไปป์ไลน์อินพุต TensorFlow ในคู่มือของ TensorFlow Programmer

ขอบเขตการตัดสินใจ

ตัวคั่นระหว่าง classes ที่เรียนรู้โดย model ในคลาสไบนารีหรือโจทย์การแยกประเภทแบบหลายคลาส ตัวอย่างเช่น ในรูปภาพต่อไปนี้ที่แสดงถึงปัญหาการจัดประเภทแบบไบนารี ขอบเขตการตัดสินใจคือพรมแดนระหว่างคลาสสีส้มและคลาสสีน้ำเงิน

ขอบเขตที่กำหนดไว้อย่างชัดเจนระหว่างชั้นเรียนหนึ่งกับอีกชั้นหนึ่ง

ศูนย์การตัดสินใจ

#df

โมเดลที่สร้างจากแผนผังการตัดสินใจหลายข้อ กลุ่มการตัดสินใจทำการคาดคะเนโดยการรวมการคาดคะเนของแผนผังการตัดสินใจ ประเภทป่าการตัดสินใจที่ได้รับความนิยม ได้แก่ ป่าแบบสุ่มและต้นไม้ที่เพิ่มระดับแบบไล่ระดับ

เกณฑ์การตัดสินใจ

คำพ้องความหมายของเกณฑ์การจัดประเภท

แผนผังการตัดสินใจ

#df

โมเดลการเรียนรู้ที่มีการควบคุมดูแลซึ่งประกอบด้วยชุดconditionsและconditionsตามลำดับชั้น ตัวอย่างเช่น ต่อไปนี้เป็นแผนผังการตัดสินใจ

แผนผังการตัดสินใจที่ประกอบด้วยเงื่อนไข 4 ข้อที่เรียงตามลําดับชั้น ซึ่งนำไปสู่ 5 ใบ

ตัวถอดรหัส

#language

โดยทั่วไปแล้ว ระบบ ML ที่แปลงจากการนำเสนอที่ประมวลผลแล้ว หนาแน่น หรือแบบภายในไปเป็นการนำเสนอภายนอกที่เป็นแบบดิบ ไม่ละเอียด หรือแบบภายนอกมากกว่า

ตัวถอดรหัสมักเป็นส่วนประกอบของโมเดลขนาดใหญ่ ซึ่งมักจะจับคู่กับโปรแกรมเปลี่ยนไฟล์

ในงานเกี่ยวกับลำดับต่อ ตัวถอดรหัสจะเริ่มต้นด้วยสถานะภายในที่โปรแกรมเปลี่ยนไฟล์สร้างขึ้นเพื่อคาดการณ์ลำดับถัดไป

โปรดดู Transformer สำหรับคำจำกัดความของตัวถอดรหัสภายในสถาปัตยกรรม Transformer

โมเดลเชิงลึก

#fundamentals

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 ชั้น

โมเดลที่มีความลึกเรียกอีกอย่างว่าโครงข่ายประสาทแบบลึก

คอนทราสต์กับโมเดลแบบกว้าง

โครงข่ายประสาทแบบลึก

คำพ้องความหมายของ Deep Model

Deep Q-Network (DQN)

#rl

ใน Q-learning ซึ่งเป็นโครงข่ายระบบประสาทเทียมระดับลึกที่คาดการณ์ฟังก์ชัน Q

Critic คือคำพ้องความหมายของ Deep Q-Network

ความเท่าเทียมกันของข้อมูลประชากร

#fairness

เมตริกความยุติธรรมที่พึงพอใจหากผลลัพธ์ของการแยกประเภทของโมเดลไม่ได้ขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อนที่ระบุ

ตัวอย่างเช่น หากทั้ง Lilliputians และ Brobdingnagians สมัครเข้ามหาวิทยาลัย Glubbdubdrib ความเท่าเทียมกันของประชากรก็จะบรรลุผลหากเปอร์เซ็นต์ของ Lilliputians ที่ได้รับการยอมรับนั้นเท่ากับเปอร์เซ็นต์ของ Brobdingnagians ที่ยอมรับ ไม่ว่าโดยเฉลี่ยแล้วกลุ่มหนึ่งจะมีคุณภาพมากกว่าอีกกลุ่มหรือไม่ก็ตาม

ตรงข้ามกับโอกาสอย่างเท่าเทียมและความเท่าเทียมกันของโอกาส ซึ่งช่วยให้ผลการจัดประเภทแบบรวมขึ้นอยู่กับแอตทริบิวต์ที่มีความละเอียดอ่อน แต่ไม่อนุญาตให้ผลลัพธ์การจัดประเภทสำหรับป้ายกำกับข้อมูลที่เป็นความจริงบางรายการที่ระบุขึ้นอยู่กับแอตทริบิวต์ที่มีความละเอียดอ่อน ดู "การโจมตีการเลือกปฏิบัติโดยใช้แมชชีนเลิร์นนิงที่ชาญฉลาดขึ้น" สำหรับการแสดงภาพโดยสำรวจข้อดีต่างๆ เมื่อเพิ่มประสิทธิภาพเพื่อความเท่าเทียมกันของข้อมูลประชากร

การตัดเสียงรบกวน

#language

แนวทางทั่วไปสำหรับการเรียนรู้แบบควบคุมดูแลด้วยตนเองมีลักษณะดังนี้

  1. มีการเพิ่มเสียงรบกวนในชุดข้อมูลอย่างไม่เป็นจริง
  2. model จะพยายามนำสัญญาณรบกวนออก

การตัดเสียงรบกวนช่วยให้เรียนรู้จากตัวอย่างที่ไม่มีป้ายกำกับได้ ชุดข้อมูลเดิมทำหน้าที่เป็นเป้าหมายหรือป้ายกำกับ และข้อมูลที่มีเสียงรบกวนเป็นอินพุต

โมเดลภาษาที่มีการมาสก์บางรุ่นใช้การลดเสียงรบกวนดังนี้

  1. ระบบจะเพิ่มเสียงรบกวนในประโยคที่ไม่มีป้ายกำกับโดยการมาสก์โทเค็นบางรายการ
  2. โมเดลจะพยายามคาดการณ์โทเค็นเดิม

องค์ประกอบที่หนาแน่น

#fundamentals

ฟีเจอร์ที่ค่าส่วนใหญ่หรือทั้งหมดไม่ใช่ 0 ซึ่งมักจะเป็น Tensor ของค่าจุดลอยตัว เช่น Tensor ที่มี 10 องค์ประกอบต่อไปนี้มีความหนาแน่นเนื่องจาก 9 ของค่านั้นไม่ใช่ 0

8 3 7 5 2 4 0 4 9 6

ตัดกับฟีเจอร์บางส่วน

เลเยอร์ที่หนาแน่น

คำพ้องของเลเยอร์ที่เชื่อมต่อโดยสมบูรณ์

ความลึก

#fundamentals

ผลรวมของสิ่งต่อไปนี้ในโครงข่ายระบบประสาทเทียม

ตัวอย่างเช่น โครงข่ายระบบประสาทเทียมที่มีเลเยอร์ซ่อนอยู่ 5 ชั้น และเลเยอร์เอาต์พุต 1 เลเยอร์มีความลึก 6 เลเยอร์

โปรดสังเกตว่าเลเยอร์อินพุตไม่ได้มีผลต่อความลึก

Deepwise separutional Neural Network (SepCNN)

#image

สถาปัตยกรรมโครงข่ายระบบประสาทเทียม โดยอิงตาม Inception แต่จะแทนที่โมดูล Inception ด้วย Convolution ที่แบ่งแยกความลึกได้ หรือที่เรียกว่า Xception

Convolution ที่แยกได้ระดับความลึก (หรือเรียกสั้นๆ ว่า Convolution ที่แยกได้) กำหนดคอนโวลูชันมาตรฐาน 3 มิติเป็นการดำเนินการคอนโวลูชันแยก 2 รายการที่มีประสิทธิภาพในการคำนวณมากกว่า นั่นคือ หน่วยแรกเป็นคอนโวลูชันระดับความลึกที่มีความลึก 1 (n อันดับ n 🧧 1) แล้วตามด้วยความกว้าง 1 (มี 1 พร้อมความกว้าง 1)

ดูข้อมูลเพิ่มเติมได้ที่ Xception: Deep Learning with Depthwise Separable Convolutions

ป้ายกำกับที่ได้มา

คำพ้องความหมายของป้ายกำกับพร็อกซี

อุปกรณ์

#TensorFlow
#GoogleCloud

คำที่มากเกินไปซึ่งมีคำจำกัดความที่เป็นไปได้ 2 คำดังต่อไปนี้

  1. หมวดหมู่ของฮาร์ดแวร์ที่เรียกใช้เซสชัน TensorFlow ได้ ซึ่งรวมถึง CPU, GPU และ TPU
  2. เมื่อฝึกโมเดล ML บนชิป Accelerator (GPU หรือ TPU) ซึ่งเป็นส่วนของระบบที่จัดการ tensors และ การฝัง จริงๆ อุปกรณ์จะทำงานบนชิป Accelerator ในทางตรงกันข้าม โดยทั่วไปแล้วโฮสต์ จะทำงานบน CPU

Differential Privacy

ในแมชชีนเลิร์นนิง วิธีลบข้อมูลระบุตัวบุคคลเพื่อปกป้องข้อมูลที่ละเอียดอ่อน (เช่น ข้อมูลส่วนบุคคลของบุคคล) ที่รวมอยู่ในชุดการฝึกของโมเดลไม่ให้เปิดเผย วิธีนี้ทำให้modelไม่ได้เรียนรู้หรือจดจำข้อมูลของบุคคลที่เฉพาะเจาะจงมากนัก ซึ่งทำได้โดยการสุ่มตัวอย่างและเพิ่มสัญญาณรบกวนระหว่างการฝึกโมเดลเพื่อบดบังจุดข้อมูลแต่ละจุด เพื่อลดความเสี่ยงในการเปิดเผยข้อมูลการฝึกที่มีความละเอียดอ่อน

นอกจากนี้ยังมีการใช้ Differential Privacy ภายนอกแมชชีนเลิร์นนิงด้วย ตัวอย่างเช่น บางครั้งนักวิทยาศาสตร์ข้อมูลจะใช้ Differential Privacy เพื่อปกป้องความเป็นส่วนตัวของแต่ละบุคคลเมื่อคำนวณสถิติการใช้งานผลิตภัณฑ์สำหรับกลุ่มประชากรที่แตกต่างกัน

การลดมิติข้อมูล

การลดจำนวนมิติข้อมูลที่ใช้แสดงองค์ประกอบหนึ่งๆ ในเวกเตอร์ฟีเจอร์ โดยทั่วไปจะแปลงเป็นเวกเตอร์การฝัง

ขนาด

คำที่มากเกินไป ซึ่งมีคำจำกัดความต่อไปนี้

  • จำนวนระดับพิกัดใน Tensor ตัวอย่างเช่น

    • สเกลาร์มีมิติข้อมูลเป็น 0 เช่น ["Hello"]
    • เวกเตอร์มีมิติข้อมูล 1 รายการ เช่น [3, 5, 7, 11]
    • เมทริกซ์มี 2 มิติข้อมูล เช่น [[2, 4, 18], [5, 7, 14]]

    คุณสามารถระบุเซลล์ใดเซลล์หนึ่งในเวกเตอร์หนึ่งมิติโดยไม่ซ้ำกันได้ด้วยพิกัดเดียว คุณต้องการพิกัดสองพิกัด เพื่อระบุเซลล์หนึ่งๆ โดยเฉพาะในเมทริกซ์สองมิติ

  • จำนวนรายการในเวกเตอร์ฟีเจอร์

  • จำนวนองค์ประกอบในเลเยอร์การฝัง

การแสดงข้อความแจ้งโดยตรง

#language
#GenerativeAI

คำพ้องของข้อความแจ้ง Zero Shot

องค์ประกอบที่แยกกัน

#fundamentals

ฟีเจอร์ที่มีชุดค่าที่เป็นไปได้ ตัวอย่างเช่น สถานที่ซึ่งมีค่าเป็นสัตว์ ผัก หรือแร่ธาตุเท่านั้น เป็นฟีเจอร์ที่มีลักษณะแตกต่างกันโดยสิ้นเชิง (หรือเชิงหมวดหมู่)

ตัดกับฟีเจอร์ต่อเนื่อง

รูปแบบการเลือกปฏิบัติ

modelที่คาดการณ์modelจากชุดmodelอย่างน้อย 1 รายการ ยิ่งไปกว่านั้น โมเดลที่เลือกปฏิบัติจะกำหนดความน่าจะเป็นแบบมีเงื่อนไขของผลลัพธ์หนึ่งๆ โดยพิจารณาจากคุณลักษณะและน้ำหนัก กล่าวคือ

p(output | features, weights)

ตัวอย่างเช่น โมเดลที่คาดการณ์ว่าอีเมลหนึ่งๆ เป็นสแปมจากฟีเจอร์และน้ำหนักนั้นเป็นโมเดลที่มีการเลือกปฏิบัติหรือไม่

โมเดลการเรียนรู้ภายใต้การควบคุมดูแลส่วนใหญ่ รวมถึงโมเดลการแยกประเภทและการถดถอย เป็นรูปแบบการเลือกปฏิบัติ

คอนทราสต์กับโมเดล Generative

ดิสคริมิเนเตอร์

ระบบที่กําหนดว่าตัวอย่างนั้นจริงหรือปลอม

อีกระบบหนึ่งคือระบบย่อยในเครือข่าย Generative Adversarial ที่กำหนดว่าตัวอย่างที่สร้างโดยเครื่องมือสร้างนั้นมีอยู่จริงหรือปลอม

ผลกระทบที่แตกต่างกัน

#fairness

การตัดสินใจเกี่ยวกับผู้คนที่ส่งผลต่อกลุ่มประชากรต่างๆ ในสัดส่วนที่มากกว่าสัดส่วน โดยมักหมายถึงสถานการณ์ที่กระบวนการตัดสินใจตามหลักอัลกอริทึมก่อให้เกิดประโยชน์หรือได้ประโยชน์กับกลุ่มย่อยบางกลุ่มมากกว่ากลุ่มอื่นๆ

ตัวอย่างเช่น สมมติว่าอัลกอริทึมที่กำหนดสิทธิ์ในการขอสินเชื่อบ้านขนาดเล็กของ Lilliputian มีแนวโน้มที่จะจัดอยู่ในกลุ่มดังกล่าว "ไม่มีสิทธิ์" หากที่อยู่จัดส่งมีรหัสไปรษณีย์ที่แน่นอน หาก Big-Endian Lilliputians มีแนวโน้มที่จะมีที่อยู่จัดส่งที่ใช้รหัสไปรษณีย์นี้มากกว่า Little-Endian Lilliputians อัลกอริทึมนี้อาจทำให้เกิดผลกระทบที่แตกต่างกัน

แตกต่างจากการปฏิบัติที่แตกต่างกัน ซึ่งมุ่งเน้นความไม่เท่าเทียมที่ส่งผลให้ลักษณะของกลุ่มย่อยเป็นอินพุตที่ชัดแจ้งในกระบวนการตัดสินใจด้วยอัลกอริทึม

การรักษาที่แตกต่างกัน

#fairness

การนำคุณลักษณะที่มีความละเอียดอ่อนของหัวข้อมาใช้ในกระบวนการตัดสินใจทางอัลกอริทึม ทำให้ระบบปฏิบัติต่อกลุ่มย่อยของบุคคลต่างๆ แตกต่างกัน

ตัวอย่างเช่น ลองพิจารณาอัลกอริทึมที่กำหนดสิทธิ์สำหรับสินเชื่อบ้านขนาดเล็กของ Lilliputians โดยอิงตามข้อมูลที่พวกเขาให้ไว้ในใบสมัครสินเชื่อ หากอัลกอริทึมใช้ความเกี่ยวข้องของ Liliputian กับ Big-Endian หรือ Little-Endian เป็นอินพุต ก็จะใช้การปฏิบัติที่แตกต่างกันตามมิติข้อมูลดังกล่าว

แตกต่างจากผลกระทบที่แตกต่างกัน ซึ่งมุ่งเน้นไปที่ความไม่เท่าเทียมในผลกระทบทางสังคมจากการตัดสินใจทางอัลกอริทึมเกี่ยวกับกลุ่มย่อย ไม่ว่ากลุ่มย่อยเหล่านั้นจะเป็นอินพุตสำหรับโมเดลหรือไม่ก็ตาม

การกลั่น

#GenerativeAI

ขั้นตอนการลดขนาดของmodel 1 รายการ (หรือที่เรียกว่าmodel) ให้เป็นโมเดลที่เล็กลง (เรียกว่าmodel) ซึ่งจะจำลองการคาดการณ์ของโมเดลต้นฉบับอย่างตรงไปตรงมาที่สุด การกลั่นมีประโยชน์เนื่องจากโมเดลที่เล็กกว่ามีประโยชน์ที่สำคัญ 2 ประการเมื่อเทียบกับโมเดลขนาดใหญ่ (ครู) ดังนี้

  • เวลาในการอนุมานที่เร็วขึ้น
  • ลดการใช้พลังงานและหน่วยความจำ

แต่การคาดคะเนของนักเรียนมักจะไม่ค่อยดีเท่ากับการคาดคะเนของครู

การแยกจะฝึกโมเดลของนักเรียนเพื่อลดฟังก์ชันการลดทอน โดยอิงตามความแตกต่างระหว่างผลลัพธ์การคาดคะเนของโมเดลของนักเรียนและครู

เปรียบเทียบระหว่างการกลั่นกับคำต่อไปนี้

การเผยแพร่

ความถี่และช่วงของค่าที่แตกต่างกันสำหรับฟีเจอร์หรือป้ายกำกับหนึ่งๆ การกระจายบันทึกว่าค่าหนึ่งๆ มีแนวโน้มมากน้อยเพียงใด

ภาพต่อไปนี้แสดงฮิสโตแกรมของการแจกแจง 2 แบบ

  • ทางด้านซ้าย กฎแห่งอำนาจในการระบุความมั่งคั่งเทียบกับจำนวนคนที่ครอบครองทรัพย์สินนั้น
  • ทางด้านขวา การแจกแจงความสูงปกติเทียบกับจำนวนคนที่มีความสูงนั้น

ฮิสโตแกรม 2 ตัว ฮิสโตแกรมหนึ่งแสดงการกระจายของกฎกำลังไฟฟ้าที่พร้อมด้วยความมั่งคั่งบนแกน x และจำนวนคนที่มีความมั่งคั่งนั้นบนแกน y คนส่วนใหญ่ร่ำรวยน้อยมาก และบางคนมีทรัพย์มากมาย ฮิสโตแกรมอีกตัวแสดงการกระจายตามปกติที่มีความสูงบนแกน x และจำนวนคนที่มีความสูงนั้นบนแกน Y คนส่วนใหญ่กระจุกตัวอยู่ใกล้ค่าเฉลี่ย

การทำความเข้าใจแต่ละฟีเจอร์และการกระจายของป้ายกำกับจะช่วยให้คุณระบุวิธีทำให้เป็นมาตรฐานและตรวจหาค่าที่ผิดปกติได้

วลีไม่อยู่ในการกระจายหมายถึงค่าที่ไม่ปรากฏในชุดข้อมูลหรือพบได้น้อยมาก เช่น ภาพของดาวเสาร์ถือเป็นภาพที่ไม่เผยแพร่สำหรับชุดข้อมูลที่ประกอบด้วยภาพแมว

คลัสเตอร์แบบแบ่งตัว

#clustering

ดูการจัดกลุ่มแบบลำดับชั้น

การสุ่มตัวอย่าง

#image

คำที่มากเกินไปอาจหมายถึงข้อใดข้อหนึ่งต่อไปนี้

  • การลดจํานวนข้อมูลในฟีเจอร์เพื่อฝึกโมเดลได้อย่างมีประสิทธิภาพมากขึ้น ตัวอย่างเช่น ก่อนการฝึกโมเดลการจดจำรูปภาพ การลดการสุ่มตัวอย่างรูปภาพความละเอียดสูงให้อยู่ในรูปแบบที่มีความละเอียดต่ำ
  • การฝึกตัวอย่างคลาสที่มีเปอร์เซ็นต์ต่ำอย่างไม่สมสัดส่วนเพื่อปรับปรุงการฝึกโมเดลในคลาสที่ได้รับการนำเสนอน้อย ตัวอย่างเช่น ในชุดข้อมูลที่ไม่สมดุลกัน โมเดลมีแนวโน้มที่จะเรียนรู้อย่างมากเกี่ยวกับกลุ่มส่วนใหญ่และเกี่ยวกับชนกลุ่มน้อยไม่เพียงพอ การสุ่มตัวอย่างจะช่วยสร้างความสมดุลระหว่างจำนวนการฝึกกับชั้นเรียนส่วนใหญ่และชนกลุ่มน้อย

แบบ DQN

#rl

ตัวย่อของ Deep Q-Network

กฎเกณฑ์การยกเลิก

รูปแบบของการทำให้เป็นมาตรฐานซึ่งมีประโยชน์ในการฝึกโครงข่ายระบบประสาทเทียม กฎเกณฑ์การยกเลิกจะนำการสุ่มเลือกจำนวนคงที่ของหน่วยในเลเยอร์เครือข่ายออกสำหรับขั้นตอนการไล่ระดับสีแบบเดียว ยิ่งมีจำนวนหน่วยลดลงมากเท่าไหร่ การเปลี่ยนรูปแบบให้เป็นมาตรฐานก็ยิ่งมีประสิทธิภาพมากขึ้นเท่านั้น ซึ่งคล้ายกับการฝึกเครือข่ายให้จำลองกลุ่มเครือข่ายขนาดเล็กที่มีขนาดใหญ่มาก ดูรายละเอียดทั้งหมดได้ที่ Dropout: วิธีง่ายๆ ในการป้องกันไม่ให้เครือข่ายประสาทเทียม ทำงานหนักเกินไป

ไดนามิก

#fundamentals

บางสิ่งที่ทำบ่อยหรือต่อเนื่อง คำว่าไดนามิกและออนไลน์เป็นคำพ้องความหมายในแมชชีนเลิร์นนิง ตัวอย่างการใช้งานทั่วไปของไดนามิกและออนไลน์ในแมชชีนเลิร์นนิงมีดังนี้

  • โมเดลแบบไดนามิก (หรือโมเดลออนไลน์) คือโมเดลที่มีการฝึกบ่อยๆ หรืออย่างต่อเนื่อง
  • การฝึกอบรมแบบไดนามิก (หรือการฝึกอบรมออนไลน์) เป็นกระบวนการฝึกอบรมบ่อยครั้งหรืออย่างต่อเนื่อง
  • การอนุมานแบบไดนามิก (หรือการอนุมานออนไลน์) เป็นกระบวนการสร้างการคาดการณ์ตามคำขอ

โมเดลแบบไดนามิก

#fundamentals

modelที่ฝึกบ่อยครั้ง (อาจจะต่อเนื่องกัน) โมเดลแบบไดนามิกเป็น "การเรียนรู้ตลอดชีวิต" ที่จะปรับตัวให้เข้ากับข้อมูลที่เปลี่ยนแปลงอยู่ตลอดเวลา โมเดลแบบไดนามิกเรียกอีกอย่างว่าโมเดลออนไลน์

คอนทราสต์กับโมเดลแบบคงที่

E

Eager Execution

#TensorFlow

สภาพแวดล้อมการเขียนโปรแกรม TensorFlow ที่operationsทำงานทันที ในทางตรงกันข้าม การดำเนินการที่เรียกใช้ในการเรียกใช้กราฟจะไม่ทำงานจนกว่าจะมีการประเมินอย่างชัดเจน การดำเนินการอย่างตั้งใจเป็นอินเทอร์เฟซที่สำคัญ คล้ายกับโค้ดในภาษาโปรแกรมส่วนใหญ่ โดยทั่วไปแล้ว โปรแกรมการดำเนินการแบบตั้งใจจะแก้ไขข้อบกพร่องได้ง่ายกว่าโปรแกรมการดำเนินการแบบกราฟ

การหยุดก่อนกำหนด

#fundamentals

วิธีการสำหรับการทำให้เป็นมาตรฐานที่เกี่ยวข้องกับการสิ้นสุดการฝึก ก่อนการสูญเสียการฝึกลดลง ในการหยุดตั้งแต่เนิ่นๆ คุณจะตั้งใจหยุดการฝึกโมเดลเมื่อการสูญเสียข้อมูลในชุดข้อมูลการตรวจสอบเริ่มเพิ่มขึ้น กล่าวคือเมื่อประสิทธิภาพการทั่วไปแย่ลง

ระยะห่างของการเคลื่อนที่ของโลก (EMD)

การวัดความคล้ายคลึงสัมพัทธ์ของการแจกแจง 2 รายการ ยิ่งระยะห่างของตัวย้ายโลกต่ำลงเท่าใด การแจกแจงก็จะคล้ายคลึงกันมากขึ้นเท่านั้น

แก้ไขระยะทาง

#language

การวัดว่าสตริงข้อความ 2 สตริงมีความคล้ายคลึงกันอย่างไร การแก้ไขระยะทางในแมชชีนเลิร์นนิงนั้นมีประโยชน์เนื่องจากง่ายต่อการคำนวณ และเป็นวิธีที่มีประสิทธิภาพในการเปรียบเทียบ 2 สตริงที่ทราบว่าคล้ายคลึงกันหรือค้นหาสตริงที่คล้ายกับสตริงที่ระบุ

มีคำจำกัดความที่หลากหลายของระยะการแก้ไข แต่ละรายการใช้การดำเนินการสตริงที่แตกต่างกัน ตัวอย่างเช่น ระยะทาง Levenshtein จะพิจารณาการลบ แทรก และแทนที่น้อยที่สุด

เช่น ระยะห่างระหว่าง Levenshtein ระหว่างคำว่า "หัวใจ" กับ "ลูกดอก" เท่ากับ 3 เนื่องจากการแก้ไข 3 ครั้งต่อไปนี้เป็นการเปลี่ยนแปลงที่น้อยที่สุดในการเปลี่ยนเป็นอีกคำหนึ่ง

  1. หัวใจ → deart (แทนที่ "h" ด้วย "d")
  2. deart → dart (ลบ "e")
  3. ลูกดอก → ลูกดอก (แทรกคำว่า "s")

สัญลักษณ์ Einsum

สัญลักษณ์ที่มีประสิทธิภาพในการอธิบายวิธีรวม tensor 2 อย่างเข้าด้วยกัน ระบบจะรวม Tensor โดยการคูณองค์ประกอบของ Tensor หนึ่งกับองค์ประกอบของ Tensor อีกรายการ แล้วสรุปผลคูณ สัญกรณ์ Einsum ใช้สัญลักษณ์ในการระบุแกนของ Tensor แต่ละรายการ และสัญลักษณ์ที่เหมือนกันเหล่านี้จะได้รับการจัดเรียงใหม่เพื่อระบุรูปร่างของ Tensor ผลลัพธ์ใหม่

NumPy มีการติดตั้งใช้งาน Einsum ทั่วไป

เลเยอร์ที่ฝัง

#language
#fundamentals

เลเยอร์ที่ซ่อนอยู่แบบพิเศษที่จะฝึกในฟีเจอร์หมวดหมู่ที่มีมิติสูง เพื่อค่อยๆ เรียนรู้เวกเตอร์ที่ฝังมิติข้อมูลที่ต่ำลง เลเยอร์การฝังช่วยให้โครงข่ายประสาทสามารถฝึกได้อย่างมีประสิทธิภาพมากกว่าการฝึกฟีเจอร์เชิงหมวดหมู่ที่มีมิติสูงเพียงอย่างเดียว

ตัวอย่างเช่น ปัจจุบัน Earth สนับสนุนชนิดต้นไม้ประมาณ 73,000 ชนิด สมมติว่าสปีชีส์ของต้นไม้เป็นฟีเจอร์ในโมเดลของคุณ เลเยอร์อินพุตของโมเดลจึงมีเวกเตอร์จุดเดียวยาว 73,000 องค์ประกอบ ตัวอย่างเช่น baobab อาจแสดงในลักษณะนี้

อาร์เรย์ที่มีองค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 รายการแรกจะมีค่า 0 องค์ประกอบถัดไปจะมีค่า 1 องค์ประกอบ 66,767 รายการสุดท้ายจะมีค่าเป็น 0

อาร์เรย์ 73,000 องค์ประกอบนั้นใช้เวลานานมาก หากไม่เพิ่มเลเยอร์ที่ฝังลงในโมเดล การฝึกจะใช้เวลานานมากเนื่องจากมีการคูณ 0 จำนวน 72,999 ตัว คุณอาจเลือกเลเยอร์การฝัง ให้มีมิติข้อมูล 12 รายการ ด้วยเหตุนี้ เลเยอร์การฝังจะค่อยๆ เรียนรู้เวกเตอร์ที่ฝังใหม่ สำหรับสายพันธุ์ต้นไม้แต่ละชนิด

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลสำหรับเลเยอร์ที่ฝัง

พื้นที่ที่ฝัง

#language

จะแมปพื้นที่เวกเตอร์ d ของมิติข้อมูลที่แสดงจากพื้นที่เวกเตอร์ที่มีมิติสูงกว่า ตามหลักการแล้ว พื้นที่ที่ฝังจะมีโครงสร้างที่ให้ผลลัพธ์ทางคณิตศาสตร์ที่เป็นประโยชน์ เช่น ในพื้นที่ฝังที่เหมาะสม การบวกและการลบการฝังจะแก้ปัญหางานอุปมาอุปไมยคำได้

ผลิตภัณฑ์จุดของการฝัง 2 จุดเป็นการวัดความคล้ายคลึงกัน

เวกเตอร์การฝัง

#language

หรือพูดกว้างๆ ก็คืออาร์เรย์ของตัวเลขทศนิยมที่นำมาจากเลเยอร์ที่ซ่อนอยู่ ซึ่งอธิบายอินพุตของเลเยอร์ที่ซ่อนอยู่ บ่อยครั้งที่เวกเตอร์การฝังคืออาร์เรย์ของจำนวนจุดลอยตัวที่ได้รับการฝึกในเลเยอร์ที่ฝัง ตัวอย่างเช่น สมมติว่าเลเยอร์การฝังต้องเรียนรู้เวกเตอร์การฝังสำหรับต้นไม้แต่ละชนิด 73,000 ชนิดบนโลก อาร์เรย์ต่อไปนี้อาจเป็นเวกเตอร์ที่ฝังของต้นบาวบับ

อาร์เรย์ขององค์ประกอบ 12 รายการ โดยแต่ละรายการจะมีจำนวนจุดลอยตัวระหว่าง 0.0 ถึง 1.0

เวกเตอร์ที่ฝังไม่ใช่กลุ่มของตัวเลขสุ่ม เลเยอร์ที่ฝังจะระบุค่าเหล่านี้ผ่านการฝึก ซึ่งคล้ายกับที่โครงข่ายประสาทเรียนรู้การยกน้ำหนักอื่นๆ ระหว่างการฝึก แต่ละองค์ประกอบของอาร์เรย์คือการให้คะแนนคุณลักษณะบางอย่างของชนิดต้นไม้ องค์ประกอบใดแสดงลักษณะของต้นไม้ชนิดใด มนุษย์ตัดสินได้ยาก

ส่วนที่มีความโดดเด่นทางคณิตศาสตร์ของเวกเตอร์ที่ฝังคือ รายการที่คล้ายกันมีชุดของจำนวนจุดลอยตัวที่คล้ายกัน ตัวอย่างเช่น ชนิดของต้นไม้ที่คล้ายกันจะมีชุดตัวเลขที่ลอยตัวอยู่มากกว่าชนิดของต้นไม้ที่ไม่เหมือนกัน ต้นเรดวูดและซีคัวญาเป็นชนิดของต้นไม้ที่เกี่ยวข้องกัน จึงมีชุดตัวเลขชี้ลอยที่คล้ายๆ กันมากกว่าต้นเรดวูดและต้นมะพร้าว ตัวเลขในเวกเตอร์ที่ฝังจะเปลี่ยนแปลงทุกครั้งที่คุณฝึกโมเดลอีกครั้ง แม้ว่าคุณจะฝึกโมเดลอีกครั้งด้วยอินพุตที่เหมือนกันก็ตาม

ฟังก์ชันการกระจายสะสมแบบเอมพิริคัล (eCDF หรือ EDF)

ฟังก์ชันการกระจายสะสม ที่อิงจากการวัดแบบเอมพิริคัลจากชุดข้อมูลจริง ค่าของฟังก์ชันที่จุดใดก็ได้ตามแกน x คือเศษส่วนของการสังเกตในชุดข้อมูลที่น้อยกว่าหรือเท่ากับค่าที่ระบุ

การลดความเสี่ยงแบบเอมพิริคัล (Erm)

การเลือกฟังก์ชันที่ลดการสูญเสียสูงสุดในชุดการฝึก ตรงข้ามกับการลดความเสี่ยงด้านโครงสร้าง

โปรแกรมเปลี่ยนไฟล์

#language

โดยทั่วไปแล้ว ระบบ ML ที่แปลงจากการสื่อสารแบบข้อมูลดิบ ข้อมูลน้อย หรือการเป็นตัวแทนภายนอกเป็นการนำเสนอที่ประมวลผลแล้ว หนาแน่นขึ้น หรือเป็นแบบภายในมากขึ้น

โปรแกรมเปลี่ยนไฟล์มักเป็นส่วนประกอบของโมเดลขนาดใหญ่ ซึ่งมักจะจับคู่กับโปรแกรมถอดรหัส Transformers บางรุ่นจะจับคู่โปรแกรมเปลี่ยนไฟล์กับตัวถอดรหัส แม้ว่า Transformers อื่นๆ จะใช้เพียงตัวเข้ารหัสหรือตัวถอดรหัสเท่านั้น

บางระบบใช้เอาต์พุตของโปรแกรมเปลี่ยนไฟล์เป็นอินพุตสำหรับเครือข่ายการแยกประเภทหรือเครือข่ายการถดถอย

ในงานเกี่ยวกับลำดับต่อลำดับ โปรแกรมเปลี่ยนไฟล์จะใช้ลำดับอินพุตและแสดงผลสถานะภายใน (เวกเตอร์) จากนั้นตัวถอดรหัสจะใช้สถานะภายในดังกล่าวเพื่อคาดการณ์ลำดับถัดไป

โปรดดู Transformer สำหรับคำจำกัดความของโปรแกรมเปลี่ยนไฟล์ในสถาปัตยกรรม Transformer

ชุด

คอลเล็กชันโมเดลที่ได้รับการฝึกอย่างอิสระโดยมีการคาดการณ์เป็นค่าเฉลี่ยหรือรวบรวม ในหลายๆ กรณี ชุดอุปกรณ์จะสร้างการคาดการณ์ ได้ดีกว่าโมเดลเดี่ยว เช่น ป่าแบบสุ่มคือชุดที่สร้างขึ้นจากต้นไม้การตัดสินใจหลายต้น โปรดทราบว่าป่าการตัดสินใจบางส่วนไม่ได้ประกอบกันขึ้นมา

เอนโทรปี

#df

ใน ทฤษฎีข้อมูล คำอธิบายว่าการแจกแจงความน่าจะเป็นที่คาดเดาไม่ได้นั้นคืออะไร ในทางเดียวกัน เอนโทรปียังหมายถึงปริมาณ ข้อมูลที่แต่ละตัวอย่างมี การกระจายมีเอนโทรปีสูงสุดเท่าที่จะเป็นไปได้เมื่อค่าของตัวแปรสุ่มมีแนวโน้มเท่ากัน

เอนโทรปีของเซตที่มีค่าที่เป็นไปได้ 2 ค่าคือ "0" และ "1" (เช่น ป้ายกำกับในโจทย์การจัดประเภทแบบไบนารี) มีสูตรต่อไปนี้

  H = -p log p - q log q = -p log p - (1-p) * บันทึก (1-p)

โดยมี

  • H คือเอนโทรปี
  • p คือเศษส่วนของตัวอย่าง "1"
  • q คือเศษส่วนของตัวอย่าง "0" โปรดทราบว่า q = (1 - p)
  • log โดยทั่วไปคือบันทึก2 ซึ่งในกรณีนี้ หน่วยเอนโทรปี มีขนาดเล็ก

ตัวอย่างเช่น สมมติว่า:

  • ตัวอย่าง 100 รายการมีค่า "1"
  • ตัวอย่าง 300 รายการมีค่า "0"

ดังนั้น ค่าเอนโทรปีคือ

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 บิตต่อตัวอย่าง

ชุดที่มีสัดส่วนที่พอดี (เช่น 200 "0" และ 200 "1") จะมีเอนโทรปีเป็น 1.0 บิตต่อตัวอย่าง เมื่อเซตไม่สมดุลมากขึ้น เอนโทรปีของชุดนั้นจะเลื่อนไปเป็น 0.0

ในแผนผังการตัดสินใจ เอนโทรปีจะช่วยกำหนดการได้มาซึ่งข้อมูลเพื่อช่วยให้สปลิตเตอร์เลือกเงื่อนไขในระหว่างการสร้างแผนผังการตัดสินใจการจัดประเภท

เปรียบเทียบเอนโทรปีกับ

เอนโทรปีมักเรียกว่าเอนโทรปีของแชนนอน

สภาพแวดล้อม

#rl

ในการเรียนรู้แบบเสริมกำลัง โลกที่มี agent และช่วยให้ตัวแทนสังเกตสถานะของโลกได้ ตัวอย่างเช่น โลกที่เรานำเสนออาจเป็นเกมอย่างหมากรุก หรือโลกทางกายภาพอย่างเขาวงกต เมื่อ Agent ใช้การดำเนินการกับสภาพแวดล้อม สภาพแวดล้อมจะเปลี่ยนระหว่างสถานะ

ตอน

#rl

ในการเรียนรู้แบบสนับสนุน ความพยายามซ้ำๆ ของ ตัวแทนเพื่อเรียนรู้สภาพแวดล้อม

Epoch

#fundamentals

การฝึกอบรมเต็มรูปแบบจะผ่านชุดการฝึกทั้งหมด ทำให้ตัวอย่างได้รับการประมวลผลเพียงครั้งเดียว

Epoch แสดง N/ขนาดกลุ่มการฝึกการทำซ้ำ โดยที่ N คือจำนวนตัวอย่างทั้งหมด

ตัวอย่างเช่น สมมติว่า:

  • ชุดข้อมูลประกอบด้วยตัวอย่าง 1,000 รายการ
  • ขนาดกลุ่มมีตัวอย่าง 50 รายการ

ดังนั้น Epoch เดียวจะต้องมีการทำซ้ำ 20 ครั้ง

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

นโยบายความโลภของ Epsilon

#rl

ในการเรียนรู้แบบเสริมประสิทธิภาพ นโยบายที่เป็นไปตามนโยบายแบบสุ่มที่มีความน่าจะเป็นของ Epsilon หรือนโยบายโลภ เช่น หาก epsilon เป็น 0.9 นโยบายดังกล่าวจะเป็นไปตามนโยบายแบบสุ่ม 90% ของเวลาทั้งหมด และนโยบายที่มีความโลภเป็น 10% ของทั้งหมด

อัลกอริทึมจะลดค่าของ Epsilon ในตอนที่เล่นต่อเนื่องกันไปเรื่อยๆ เพื่อเปลี่ยนจากการปฏิบัติตามนโยบายแบบสุ่มมาเป็นการปฏิบัติตามนโยบายที่ละโมบ เมื่อเปลี่ยนนโยบาย ตัวแทนจะสุ่มสำรวจสภาพแวดล้อมก่อนแล้วจึงแสวงหาประโยชน์จากผลการสำรวจแบบสุ่มอย่างตะกละ

ความเท่าเทียมกันของโอกาส

#fairness

เมตริกความยุติธรรมสำหรับประเมินว่าโมเดลคาดการณ์ผลลัพธ์ที่ต้องการอย่างเท่าเทียมกันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่ละเอียดอ่อนหรือไม่ กล่าวคือ หากผลลัพธ์ที่ต้องการสําหรับโมเดลคือคลาสเชิงบวก เป้าหมายคือการให้อัตราผลบวกจริงเท่ากันสําหรับทุกกลุ่ม

ความเท่าเทียมกันของโอกาสเกี่ยวข้องกับโอกาสอย่างเท่าเทียมกัน ซึ่งกำหนดให้ทั้งอัตราผลบวกจริงและอัตราผลบวกลวงเท่ากันสำหรับทุกกลุ่ม

สมมติว่ามหาวิทยาลัย Glubbdubdrib ยอมรับทั้ง Lilliputians และ Brobdingnagians เข้าโปรแกรมวิชาคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมของ Lilliputians มีหลักสูตรวิชาคณิตศาสตร์ที่มีประสิทธิภาพและนักเรียนส่วนใหญ่มีคุณสมบัติเข้าเรียนหลักสูตรของมหาวิทยาลัย โรงเรียนมัธยมของ Brobdingnagians ไม่มีชั้นเรียนคณิตศาสตร์เลย นักเรียนจึงมีคุณสมบัติน้อยลง คุณพึงพอใจกับความเท่าเทียมกันของโอกาสสำหรับป้ายกำกับ "ยอมรับ" ด้านสัญชาติ (Lilliputian หรือ Brobdingnagian) หากนักเรียนที่มีคุณสมบัติตามเกณฑ์มีแนวโน้มที่จะได้รับเท่าๆ กัน ไม่ว่านักเรียนจะเป็น Lilliputian หรือ Brobdingnagian ก็ตาม

ตัวอย่างเช่น สมมติว่าชาว Lilliputians 100 คนและชาว Brobdingnagian จำนวน 100 คนสมัครเข้าเรียนกับมหาวิทยาลัย Glubbdubdrib และได้มีการพิจารณาการสมัครเข้าเรียนดังนี้

ตาราง 1 ผู้สมัครจาก Lilliputian (90% ผ่านการรับรอง)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 45 3
ปฏิเสธแล้ว 45 7
รวม 90 10
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติเข้าเกณฑ์: 45/90 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ที่ถูกปฏิเสธ: 7/10 = 70%
เปอร์เซ็นต์รวมของนักเรียน Lilliputian ที่เข้ารับ: (45+3)/100 = 48%

 

ตาราง 2 ผู้สมัคร Brobdingnagian (10% ผ่านเกณฑ์):

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 5 9
ปฏิเสธแล้ว 5 81
รวม 10 90
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติที่เข้ารับ: 5/10 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่เข้าเกณฑ์ที่ถูกปฏิเสธ: 81/90 = 90%
เปอร์เซ็นต์รวมของนักเรียน Brobdingnagian ที่ยอมรับ: (5+9)/100 = 14%

ตัวอย่างข้างต้นแสดงถึงโอกาสในการยอมรับนักเรียนที่มีคุณสมบัติเหมาะสมเนื่องจากทั้ง Lilliputians และ Brobdingnagians ที่ผ่านการรับรองต่างก็มีโอกาสในการเข้าเรียนถึง 50%

แม้เราจะพึงพอใจกับความเท่าเทียมของโอกาส แต่เมตริกความเป็นธรรม 2 รายการต่อไปนี้ก็ไม่เป็นไปตามที่คาดหวัง

  • ความเท่าเทียมของประชากร: Lilliputians และ Brobdingnagians ได้รับเลือกให้เข้ามหาวิทยาลัยในอัตราที่ต่างกัน 48% ของนักศึกษา Lilliputians รับเข้าศึกษา แต่รับนักศึกษา Brobdingnagian เพียง 14% เท่านั้น
  • ความเป็นไปได้ที่เท่าเทียมกัน: แม้ว่านักเรียนทั้งกลุ่ม Lilliputian และ Brobdingnagian ที่ผ่านการรับรองจะมีโอกาสได้เข้าเรียนเท่ากัน แต่ข้อจำกัดเพิ่มเติมที่ถือว่า Lilliputians และ Brobdingnagians ไม่ผ่านการรับรองมีโอกาสถูกปฏิเสธเท่ากัน Lilliputian ที่ไม่เข้าเกณฑ์จะมีอัตราการปฏิเสธอยู่ที่ 70% ขณะที่ Brobdingnagians ที่ไม่เข้าเกณฑ์จะมีอัตราการปฏิเสธอยู่ที่ 90%

ดูหัวข้อ "ความเท่าเทียมของโอกาสในการเรียนรู้ภายใต้การควบคุมดูแล" เพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับความเท่าเทียมของโอกาส นอกจากนี้ โปรดดู "การโจมตีการเลือกปฏิบัติด้วยแมชชีนเลิร์นนิงที่ชาญฉลาดขึ้น" สำหรับการแสดงภาพในการสำรวจข้อดีข้อเสียเมื่อเพิ่มประสิทธิภาพเพื่อความเท่าเทียมของโอกาส

อัตราต่อรองแบบอีควอไลเซอร์

#fairness

เมตริกความเป็นธรรมในการประเมินว่าโมเดลคาดการณ์ผลลัพธ์ได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่มีความละเอียดอ่อน โดยเคารพทั้งคลาสเชิงบวกและชนชั้นเชิงลบ ไม่ใช่เพียงกลุ่มเดียวหรืออีกกลุ่มหนึ่งเพียงอย่างเดียว กล่าวคือ ทั้งอัตราผลบวกจริงและอัตราผลบวกลวงควรเหมือนกันในทุกกลุ่ม

โอกาสเท่าๆ กันจะเกี่ยวข้องกับความเท่าเทียมกันของโอกาส ซึ่งจะมุ่งเน้นที่อัตราข้อผิดพลาดของคลาสเดี่ยวๆ (เชิงบวกหรือเชิงลบ) เท่านั้น

ตัวอย่างเช่น สมมติว่ามหาวิทยาลัย Glubbdubdrib ยอมรับทั้ง Lilliputians และ Brobdingnagians เข้าโปรแกรมวิชาคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมศึกษาของ Lilliputians มีหลักสูตรวิชาคณิตศาสตร์ที่มีประสิทธิภาพ และนักเรียนส่วนใหญ่จะผ่านเกณฑ์ของโปรแกรมมหาวิทยาลัย โรงเรียนมัธยมของ Brobdingnagians ไม่มีชั้นเรียนวิชาคณิตศาสตร์เลย ด้วยเหตุนี้จึงมีนักเรียนที่ได้รับการรับรองน้อยลง มีการยอมรับโอกาสอย่างเท่าๆ กันหากผู้สมัครเป็น Lilliputian หรือ Brobdingnagian หรือไม่ หากผู้สมัครมีคุณสมบัติตามเกณฑ์ ก็มีโอกาสได้เข้าโปรแกรมเท่าๆ กัน และหากมีคุณสมบัติไม่ตรงตามเกณฑ์ ก็มีโอกาสถูกปฏิเสธเท่ากัน

สมมติว่ามหาวิทยาลัย Glubbdubdrib 100 คนและชาวบรอบดิงนาเจีย 100 คนสมัครเข้ามหาวิทยาลัย และข้อกำหนดในการสมัครเข้าเรียนมีดังนี้

ตารางที่ 3 ผู้สมัครจาก Lilliputian (90% ผ่านการรับรอง)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 45 2
ปฏิเสธแล้ว 45 8
รวม 90 10
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติที่เข้ารับ: 45/90 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีคุณสมบัติที่ถูกปฏิเสธ: 8/10 = 80%
เปอร์เซ็นต์รวมของนักเรียน Lilliputian ที่เข้ารับ: (45+2)/100 = 47%

 

ตาราง 4 ผู้สมัคร Brobdingnagian (10% ผ่านเกณฑ์):

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 5 18
ปฏิเสธแล้ว 5 72
รวม 10 90
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติที่เข้ารับ: 5/10 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่เข้าเกณฑ์ที่ถูกปฏิเสธ: 72/90 = 80%
เปอร์เซ็นต์รวมของนักเรียน Brobdingnagian ที่ยอมรับ: (5+18)/100 = 23%

และมีโอกาสที่ทุกคนจะได้รับโอกาสเข้าเรียนอย่างเท่าเทียมกันเนื่องจากนักเรียนทั้ง Lilliputian และ Brobdingnagian ที่ผ่านการรับรองมีโอกาส 50% ที่จะเข้าเรียน ส่วน Lilliputian และ Brobdingnagian ที่ไม่เข้าเกณฑ์มีโอกาส 80% ที่จะถูกปฏิเสธ

"โอกาสเสมอภาค" ได้รับการกำหนดอย่างเป็นทางการใน "ความเท่าเทียมของโอกาสในการเรียนรู้ภายใต้การควบคุมดูแล" ดังนี้ "ผู้คาดการณ์ ประเมิน ความเป็นไปได้ที่เท่ากับ แอตทริบิวต์ A ที่ได้รับการคุ้มครอง และผลลัพธ์ Y หาก LP และ A เป็นอิสระโดยมีเงื่อนไขตาม Y"

เครื่องมือประมาณค่า

#TensorFlow

TensorFlow API ที่เลิกใช้งานแล้ว ใช้ tf.keras แทนเครื่องมือประมาณเครื่องมือ

การประเมิน

กระบวนการวัดคุณภาพของการคาดการณ์ของโมเดลแมชชีนเลิร์นนิง ขณะพัฒนาโมเดล โดยปกติแล้ว คุณจะใช้เมตริกการประเมินทั้งในชุดการฝึกและในชุดการตรวจสอบและชุดทดสอบด้วย นอกจากนี้ คุณยังใช้เมตริกการประเมินเพื่อเปรียบเทียบโมเดลต่างๆ ได้ด้วย

ตัวอย่าง

#fundamentals

ค่าของ features 1 แถวและอาจอาจเป็นป้ายกำกับ ตัวอย่างในการเรียนรู้แบบมีการควบคุมดูแลจะจัดเป็นหมวดหมู่ทั่วไป 2 หมวดหมู่ดังนี้

  • ตัวอย่างที่ติดป้ายกำกับประกอบด้วยฟีเจอร์และป้ายกำกับอย่างน้อย 1 รายการ ระบบจะใช้ตัวอย่างที่ติดป้ายกำกับในระหว่างการฝึก
  • ตัวอย่างที่ไม่มีป้ายกำกับประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ แต่ไม่มีป้ายกำกับ ระบบจะใช้ตัวอย่างที่ไม่มีป้ายกำกับในระหว่างการอนุมาน

เช่น สมมติว่าคุณกำลังฝึกโมเดลเพื่อระบุอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน เรามีตัวอย่างที่มีป้ายกำกับ 3 แบบ ดังนี้

ฟีเจอร์ ค่ายเพลง
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 เร็ว
19 34 1020 ดีมาก
18 92 1012 แย่

ต่อไปนี้เป็นตัวอย่างที่ไม่มีป้ายกำกับ 3 รายการ

อุณหภูมิ ความชื้น ความกดอากาศ  
12 62 1014  
21 47 1017  
19 41 1021  

โดยทั่วไปแล้ว แถวของชุดข้อมูลจะเป็นแหล่งที่มาดิบของตัวอย่าง กล่าวคือ ตัวอย่างที่มักจะประกอบด้วยชุดย่อยของคอลัมน์ในชุดข้อมูล ยิ่งไปกว่านั้น ฟีเจอร์ในตัวอย่างอาจมีฟีเจอร์สังเคราะห์ เช่น เครื่องหมายกากบาทฟีเจอร์

สัมผัสประสบการณ์การเล่นซ้ำ

#rl

ในการเรียนรู้แบบเสริมกำลัง เราใช้เทคนิค DQN เพื่อลดความสัมพันธ์เชิงเวลาในข้อมูลการฝึก agent จะจัดเก็บการเปลี่ยนสถานะไว้ในบัฟเฟอร์การเล่นซ้ำ จากนั้นสุ่มตัวอย่างการเปลี่ยนจากบัฟเฟอร์การเล่นซ้ำเพื่อสร้างข้อมูลการฝึก

อคติของผู้ทดลอง

#fairness

ดูการให้น้ำหนักการยืนยัน

โจทย์การไล่ระดับสีระเบิด

#seq

แนวโน้มที่การไล่ระดับสีในโครงข่ายประสาทแบบลึก (โดยเฉพาะอย่างยิ่งโครงข่ายประสาทแบบเกิดซ้ำ) จะสูงชันอย่างไม่น่าเชื่อ (สูง) การไล่ระดับสีแบบชันมักทำให้น้ำหนักของโหนดแต่ละโหนดในเครือข่ายประสาทแบบลึกมีการอัปเดตในวงกว้างมาก

โมเดลที่ได้รับผลกระทบจากปัญหาการไล่ระดับสีที่ระเบิดจะยากหรือฝึกไม่ได้ การไล่ระดับสี ช่วยลดปัญหานี้ได้

เปรียบเทียบกับโจทย์การไล่ระดับสีที่หายไป

F

1

เมตริก "ภาพรวม" ของการจัดประเภทแบบไบนารีที่อิงตามทั้งความแม่นยำและความอ่อนไหว โดยมีสูตรดังนี้

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

ตัวอย่างเช่น

  • ความแม่นยำ = 0.6
  • การเรียกคืน = 0.4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

เมื่อความแม่นยำและความอ่อนไหวใกล้เคียงกัน (ดังตัวอย่างก่อนหน้านี้) F1 จะใกล้เคียงกับค่าเฉลี่ย เมื่อความแม่นยำและความอ่อนไหวแตกต่างกันอย่างมาก F1 จะใกล้เคียงกับค่าที่ต่ำกว่ามาก เช่น

  • ความแม่นยำ = 0.9
  • การเรียกคืน = 0.1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

ข้อจำกัดความเป็นธรรม

#fairness
การใช้ข้อจำกัดกับอัลกอริทึมเพื่อให้มั่นใจว่าคำนิยามของความเป็นธรรม อย่างน้อย 1 คำเป็นไปตามข้อกำหนด ตัวอย่างข้อจํากัดด้านความเป็นธรรมมีดังนี้

เมตริกความเป็นธรรม

#fairness

คำจำกัดความทางคณิตศาสตร์ของ "ความยุติธรรม" ที่วัดผลได้ ตัวอย่างเมตริกด้านความเป็นธรรมที่ใช้กันโดยทั่วไปมีดังนี้

เมตริกด้านความยุติธรรมจำนวนมากแยกจากกันไม่ได้ โปรดดูเมตริกความเป็นธรรมที่ใช้ร่วมกันไม่ได้

ผลลบลวง (FN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบโดยไม่ได้ตั้งใจ ตัวอย่างเช่น โมเดลนี้คาดการณ์ว่าข้อความอีเมลหนึ่งๆ ไม่ใช่สแปม (คลาสเชิงลบ) แต่ข้อความอีเมลนั้นที่จริงแล้วเป็นสแปม

อัตราผลลบลวง

สัดส่วนของตัวอย่างที่เป็นบวกจริงซึ่งโมเดลคาดการณ์คลาสเชิงลบอย่างไม่ถูกต้อง สูตรต่อไปนี้จะคำนวณอัตราลบลวง

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

ผลบวกลวง (FP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงบวกอย่างไม่ถูกต้อง ตัวอย่างเช่น โมเดลนี้คาดการณ์ว่าข้อความอีเมลหนึ่งๆ เป็นสแปม (คลาสเชิงบวก) แต่ข้อความอีเมลนั้นไม่ใช่สแปม

อัตราผลบวกลวง (FPR)

#fundamentals

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลคาดการณ์คลาสเชิงบวกอย่างไม่ถูกต้อง สูตรต่อไปนี้จะคำนวณอัตราผลบวกลวง

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

อัตราผลบวกลวงคือแกน x ในกราฟ ROC

ฟีเจอร์

#fundamentals

ตัวแปรอินพุตของโมเดลแมชชีนเลิร์นนิง ตัวอย่าง ประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการ เช่น สมมติว่าคุณกำลังฝึกโมเดลเพื่อระบุอิทธิพลของสภาพอากาศที่มีต่อคะแนนสอบของนักเรียน ตารางต่อไปนี้แสดงตัวอย่าง 3 รายการ แต่ละตัวอย่างจะมีฟีเจอร์ 3 รายการและป้ายกำกับ 1 รายการ

ฟีเจอร์ ค่ายเพลง
อุณหภูมิ ความชื้น ความกดอากาศ คะแนนสอบ
15 47 998 92
19 34 1020 84
18 92 1012 87

คอนทราสต์กับป้ายกำกับ

ไม้กางเขนเด่น

#fundamentals

ฟีเจอร์สังเคราะห์ที่เกิดจากฟีเจอร์ "การข้าม" เชิงหมวดหมู่หรือแบบที่เก็บข้อมูล

เช่น ลองพิจารณาโมเดล "การคาดการณ์อารมณ์" ที่แสดงถึงอุณหภูมิในที่เก็บข้อมูล 1 ใน 4 รายการต่อไปนี้

  • freezing
  • chilly
  • temperate
  • warm

และแสดงถึงความเร็วลมในถังใดถังหนึ่งจาก 3 ถังต่อไปนี้

  • still
  • light
  • windy

หากไม่มีการข้ามฟีเจอร์ โมเดลเชิงเส้นจะฝึกแยกกันในที่เก็บข้อมูลต่างๆ ที่อยู่ก่อนหน้า 7 ที่เก็บข้อมูล ดังนั้น โมเดลจะฝึกใน ตัวอย่างเช่น freezing โดยอิสระจากการฝึก เช่น windy

หรือคุณจะสร้างเกณฑ์ของอุณหภูมิและความเร็วลมก็ได้ ฟีเจอร์สังเคราะห์นี้จะมีค่าที่เป็นไปได้ 12 ค่าดังต่อไปนี้

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

การข้ามฟีเจอร์ช่วยให้โมเดลเรียนรู้ความแตกต่างทางอารมณ์ได้ตั้งแต่ freezing-windy วันไปจนถึง freezing-still วัน

หากคุณสร้างฟีเจอร์สังเคราะห์จาก 2 ฟีเจอร์ที่แต่ละฟีเจอร์มีที่เก็บข้อมูลที่แตกต่างกันจำนวนมาก เครื่องหมายกากบาทของฟีเจอร์ที่ได้จะมีชุดค่าผสมที่เป็นไปได้จำนวนมาก เช่น หากฟีเจอร์หนึ่งมีที่เก็บข้อมูล 1,000 รายการ และอีกฟีเจอร์มีที่เก็บข้อมูล 2,000 รายการ ข้ามฟีเจอร์ที่ได้จะมีที่เก็บข้อมูล 2,000,000 รายการ

อย่างเป็นทางการ ไม้กางเขนคือ ผลคูณคาร์ทีเซีย

เครื่องหมายกากบาทเด่นมักจะใช้กับโมเดลเชิงเส้นและไม่ค่อยใช้กับโครงข่ายระบบประสาทเทียม

Feature Engineering

#fundamentals
#TensorFlow

กระบวนการที่มีขั้นตอนต่อไปนี้

  1. การกำหนดฟีเจอร์ที่อาจเป็นประโยชน์ในการฝึกโมเดล
  2. การแปลงข้อมูลดิบจากชุดข้อมูลเป็นเวอร์ชันที่มีประสิทธิภาพของฟีเจอร์เหล่านั้น

ตัวอย่างเช่น คุณอาจกำหนดว่า temperature อาจเป็นฟีเจอร์ที่มีประโยชน์ จากนั้น คุณอาจจะทดสอบกับ bucketing เพื่อเพิ่มประสิทธิภาพสิ่งที่โมเดลสามารถเรียนรู้จากช่วง temperature ต่างๆ

วิศวกรรมฟีเจอร์บางครั้งเรียกว่าการแยกฟีเจอร์หรือการปรับเปลี่ยนฟีเจอร์

การแยกฟีเจอร์

คำที่มากเกินไปมีคำจำกัดความอย่างใดอย่างหนึ่งต่อไปนี้

ความสำคัญของฟีเจอร์

#df

คำพ้องความหมายของความสำคัญของตัวแปร

ชุดฟีเจอร์

#fundamentals

กลุ่มฟีเจอร์ที่โมเดลของแมชชีนเลิร์นนิงฝึกอยู่ เช่น รหัสไปรษณีย์ ขนาดที่พัก และสภาพที่พักอาจมีชุดฟีเจอร์แบบง่ายสำหรับโมเดลที่คาดการณ์ราคาที่พักอาศัย

ข้อมูลจำเพาะของฟีเจอร์

#TensorFlow

อธิบายข้อมูลที่จำเป็นในการดึงข้อมูล features จากบัฟเฟอร์โปรโตคอล tf.Example เนื่องจากบัฟเฟอร์โปรโตคอล tf.Example เป็นเพียงคอนเทนเนอร์สำหรับข้อมูล คุณจึงต้องระบุสิ่งต่อไปนี้

  • ข้อมูลที่จะดึงมา (ซึ่งก็คือคีย์ของฟีเจอร์)
  • ประเภทข้อมูล (เช่น ทศนิยมหรือจำนวนเต็ม)
  • ความยาว (คงที่หรือแปรผัน)

เวกเตอร์ฟีเจอร์

#fundamentals

อาร์เรย์ของค่า feature ที่ประกอบขึ้นเป็น example เวกเตอร์ฟีเจอร์เป็นอินพุตระหว่างการฝึกและระหว่างการอนุมาน ตัวอย่างเช่น เวกเตอร์ฟีเจอร์สำหรับโมเดลที่มีฟีเจอร์ 2 อย่างที่แยกจากกันอาจเป็นดังนี้

[0.92, 0.56]

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์
          เลเยอร์อินพุตมี 2 โหนด โหนดหนึ่งมีค่า 0.92 และอีกโหนดมีค่า 0.56

แต่ละตัวอย่างระบุค่าที่แตกต่างกันสำหรับเวกเตอร์จุดสนใจ ดังนั้นเวกเตอร์ฟีเจอร์สำหรับตัวอย่างถัดไปอาจมีลักษณะดังนี้

[0.73, 0.49]

วิศวกรรมฟีเจอร์กำหนดวิธีแสดงฟีเจอร์ต่างๆ ในเวกเตอร์ฟีเจอร์ เช่น ฟีเจอร์เชิงหมวดหมู่แบบไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าอาจแสดงด้วยการเข้ารหัสแบบฮอตเดียว ในกรณีนี้ ส่วนของเวกเตอร์คุณลักษณะสำหรับตัวอย่างหนึ่งจะประกอบด้วย 0 สี่ตัวและ 1.0 เดี่ยวในตำแหน่งที่ 3 ดังนี้

[0.0, 0.0, 1.0, 0.0, 0.0]

อีกตัวอย่างหนึ่ง สมมติว่าโมเดลของคุณมี 3 ฟีเจอร์:

  • ฟีเจอร์เชิงหมวดหมู่ไบนารีที่มีค่าที่เป็นไปได้ 5 ค่าซึ่งแสดงด้วยการเข้ารหัสแบบฮอตเดียว เช่น [0.0, 1.0, 0.0, 0.0, 0.0]
  • ฟีเจอร์เชิงหมวดหมู่ไบนารีอีกอย่างหนึ่งซึ่งมีค่าที่เป็นไปได้ 3 ค่าซึ่งแสดงด้วยการเข้ารหัสแบบฮอตเดียว ตัวอย่างเช่น [0.0, 0.0, 1.0]
  • ฟีเจอร์จุดลอยตัว เช่น 8.3

ในกรณีนี้ เวกเตอร์ฟีเจอร์สำหรับแต่ละตัวอย่างจะแสดงด้วยค่า 9 ค่า จากค่าตัวอย่างในรายการก่อนหน้า เวกเตอร์ของฟีเจอร์จะเป็น

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

คุณสมบัติ

กระบวนการดึงข้อมูลฟีเจอร์จากแหล่งที่มาของอินพุต เช่น เอกสารหรือวิดีโอ และแมปฟีเจอร์เหล่านั้นเข้ากับเวกเตอร์ฟีเจอร์

ผู้เชี่ยวชาญด้าน ML บางรายใช้คุณสมบัติตามคุณสมบัติเป็นคำพ้องความหมายสำหรับวิศวกรรมฟีเจอร์หรือการแยกฟีเจอร์

การเรียนรู้แบบสมาพันธ์

แนวทางแมชชีนเลิร์นนิงแบบกระจายตัวซึ่งฝึกโมเดลแมชชีนเลิร์นนิงโดยใช้ตัวอย่างแบบกระจายศูนย์ในอุปกรณ์ เช่น สมาร์ทโฟน ในการเรียนรู้แบบรวมศูนย์ อุปกรณ์ชุดย่อยจะดาวน์โหลดโมเดลปัจจุบันจากเซิร์ฟเวอร์ประสานงานส่วนกลาง อุปกรณ์จะใช้ตัวอย่างที่เก็บไว้ในอุปกรณ์ เพื่อปรับปรุงโมเดล จากนั้นอุปกรณ์จะอัปโหลดการปรับปรุงโมเดล (แต่ไม่อัปโหลดตัวอย่างการฝึก) ไปยังเซิร์ฟเวอร์ประสานงาน ซึ่งจะมีการรวมกับการอัปเดตอื่นๆ เพื่อให้โมเดลส่วนกลางมีการปรับปรุงให้ดีขึ้น หลังจากการรวมแล้ว ไม่จำเป็นต้องอัปเดตโมเดลที่คำนวณโดยอุปกรณ์อีกต่อไปและทิ้งได้

เนื่องจากจะไม่มีการอัปโหลดตัวอย่างการฝึก การเรียนรู้แบบรวมศูนย์จึงทำตามหลักการด้านความเป็นส่วนตัวในการรวบรวมข้อมูลที่มุ่งเน้นและขอบเขตการใช้ข้อมูล

ดูข้อมูลเพิ่มเติมเกี่ยวกับการเรียนรู้แบบรวมศูนย์ได้ที่บทแนะนำนี้

การเก็บฟีดแบ็กมาแก้ไข

#fundamentals

ในแมชชีนเลิร์นนิง สถานการณ์ที่การคาดการณ์ของโมเดลมีผลต่อข้อมูลการฝึกสำหรับโมเดลเดียวกันหรือโมเดลอื่น ตัวอย่างเช่น โมเดลที่แนะนำภาพยนตร์จะมีผลต่อภาพยนตร์ที่คนดู ซึ่งจะส่งผลต่อโมเดลการแนะนำภาพยนตร์ในลำดับต่อมา

โครงข่ายระบบประสาทเทียมฟีดส่งต่อ (FFN)

โครงข่ายระบบประสาทเทียมที่ไม่มีการเชื่อมต่อแบบวนซ้ำหรือวนซ้ำ เช่น โครงข่ายประสาทแบบลึกแบบดั้งเดิมคือโครงข่ายระบบประสาทเทียมแบบส่งต่อฟีด ต่างจากโครงข่ายระบบประสาทเทียมแบบวนซ้ำซึ่งมีลักษณะเป็นวงจร

การเรียนรู้แบบ 2-3 ช็อต

แนวทางแมชชีนเลิร์นนิงที่มักใช้สำหรับการจัดประเภทออบเจ็กต์ ซึ่งออกแบบมาเพื่อฝึกตัวแยกประเภทที่มีประสิทธิภาพจากตัวอย่างการฝึกจำนวนไม่มาก

รวมถึงการเรียนรู้แบบครั้งเดียวและการเรียนรู้แบบ Zero Shot

ข้อความแจ้งใน 2-3 ช็อต

#language
#GenerativeAI

พรอมต์ที่มีตัวอย่างมากกว่า 1 รายการ ("2-3") ตัวอย่างที่แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ควรตอบสนองอย่างไร เช่น พรอมต์ยาวๆ ต่อไปนี้มีตัวอย่าง 2 ตัวอย่างที่แสดงวิธีตอบคำถามของโมเดลภาษาขนาดใหญ่

ส่วนต่างๆ ของพรอมต์ Notes
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร คำถามที่ต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR ตัวอย่าง 1 รายการ
สหราชอาณาจักร: GBP อีกตัวอย่างหนึ่ง
อินเดีย: การค้นหาจริง

โดยทั่วไปแล้ว การใส่ข้อความแจ้งเพียงน้อยนิดจะให้ผลลัพธ์ที่ต้องการมากกว่าพรอมต์แบบ Zero Shot และพรอมต์แบบครั้งเดียว แต่ข้อความแจ้ง 2-3 ช็อต จะต้องใช้พรอมต์ที่ยาวกว่านี้

การใช้พรอมต์เพียงเล็กน้อยเป็นการเรียนรู้แบบสั้นๆ รูปแบบหนึ่งที่นำไปใช้กับการเรียนรู้จากพรอมต์

ฟิดเดิล

#language

ไลบรารีการกำหนดค่าที่ใช้ Python เป็นหลักที่กำหนดค่าของฟังก์ชันและคลาสโดยไม่ต้องใช้โค้ดหรือโครงสร้างพื้นฐานแบบล่วงล้ำ ในกรณีของ Pax และโค้ดเบส ML อื่นๆ ฟังก์ชันและคลาสเหล่านี้แสดงถึงโมเดลและการฝึก ไฮเปอร์พารามิเตอร์

Fiddle สันนิษฐานว่าโค้ดเบสของแมชชีนเลิร์นนิงมักแบ่งเป็น

  • โค้ดไลบรารี ซึ่งระบุเลเยอร์และเครื่องมือเพิ่มประสิทธิภาพ
  • โค้ด "Glue" ชุดข้อมูล ซึ่งเรียกไลบรารีและสายไฟเข้าด้วยกัน

Fiddle บันทึกโครงสร้างการเรียกใช้ของ Glue Code ในรูปแบบที่ยังไม่ประเมินผลและเปลี่ยนแปลงได้

การปรับแต่ง

#language
#image
#GenerativeAI

บัตรผ่านการฝึกอบรมเฉพาะงานรายการที่ 2 ที่ดำเนินการในโมเดลที่ฝึกล่วงหน้าเพื่อปรับแต่งพารามิเตอร์สำหรับกรณีการใช้งานที่เจาะจง เช่น ลำดับการฝึกทั้งหมดสำหรับโมเดลภาษาขนาดใหญ่บางเวอร์ชันมีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลภาษาขนาดใหญ่ด้วยชุดข้อมูลทั่วไปขนาดใหญ่ เช่น หน้า Wikipedia ภาษาอังกฤษทั้งหมด
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกล่วงหน้าให้ทำงานบางอย่าง เช่น การตอบคำค้นหาทางการแพทย์ โดยทั่วไปการปรับแต่งจะมีตัวอย่าง หลายร้อยหรือหลายพันตัวอย่างที่มุ่งเน้นเฉพาะงานนั้นๆ

อีกตัวอย่างหนึ่งคือลำดับการฝึกทั้งหมดสำหรับโมเดลรูปภาพขนาดใหญ่มีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลรูปภาพขนาดใหญ่บนชุดข้อมูลรูปภาพทั่วไปขนาดใหญ่ เช่น รูปภาพทั้งหมดใน Wikimedia Commons
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกล่วงหน้าให้ทำงานบางอย่าง เช่น การสร้างรูปภาพวาฬเพชฌฆาต

การปรับแต่งจะนำกลยุทธ์ต่อไปนี้ผสมกันในรูปแบบใดก็ได้

  • การแก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลก่อนการฝึกทั้งหมด ซึ่งในบางครั้งเรียกว่าการปรับแต่งอย่างละเอียด
  • การแก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลก่อนการฝึกบางรายการเท่านั้น (โดยปกติคือเลเยอร์ที่อยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด) ขณะเดียวกันก็คงพารามิเตอร์อื่นๆ ที่มีอยู่ไว้ตามเดิม (โดยทั่วไปคือเลเยอร์ที่อยู่ใกล้กับเลเยอร์อินพุตมากที่สุด) ดู การปรับแต่งประสิทธิภาพพารามิเตอร์
  • การเพิ่มเลเยอร์อีก โดยทั่วไปจะอยู่ด้านบนของเลเยอร์ที่มีอยู่ซึ่งอยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด

การปรับแต่งเป็นการเรียนรู้การโอนรูปแบบหนึ่ง ดังนั้น การปรับแต่งอาจใช้ฟังก์ชันการสูญเสียการติดตั้งหรือประเภทโมเดลที่แตกต่างจากที่ใช้ฝึกโมเดลก่อนการฝึก ตัวอย่างเช่น คุณสามารถปรับแต่งโมเดลรูปภาพขนาดใหญ่ที่ฝึกไว้แล้วล่วงหน้าเพื่อสร้างโมเดลการถดถอยที่จะแสดงผลจำนวนนกในรูปภาพอินพุต

เปรียบเทียบการปรับแต่งอย่างละเอียดกับคำต่อไปนี้

เหลืองแฟลกซ์

#language

ไลบรารีโอเพนซอร์สประสิทธิภาพสูงสำหรับการเรียนรู้เชิงลึกที่สร้างต่อยอดจาก JAX Flax มีฟังก์ชันสำหรับการฝึก โครงข่ายประสาท และวิธีประเมินประสิทธิภาพ

ผสมผ้าฝ้าย

#language

ไลบรารี Transformer แบบโอเพนซอร์สที่สร้างขึ้นจาก Flax ที่ออกแบบมาเพื่อการประมวลผลภาษาธรรมชาติและการวิจัยสื่อหลากรูปแบบเป็นหลัก

ลืมประตู

#seq

ส่วนของเซลล์หน่วยความจำระยะสั้นที่ควบคุมการไหลของข้อมูลผ่านเซลล์ "ไม่จำเกต" จะเก็บบริบทไว้ด้วยการตัดสินใจว่าจะทิ้งข้อมูลใดจากสถานะของเซลล์

Softmax เต็มรูปแบบ

คำพ้องความหมายของ softmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

เลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์

เลเยอร์ที่ซ่อนอยู่ซึ่งโหนดแต่ละรายการเชื่อมต่อกับทุกโหนดในเลเยอร์ที่ซ่อนอยู่ถัดไป

เลเยอร์ที่เชื่อมต่ออย่างเต็มรูปแบบเรียกอีกอย่างว่าเลเยอร์หนาแน่น

การเปลี่ยนรูปแบบฟังก์ชัน

ฟังก์ชันที่จะรับฟังก์ชันเป็นอินพุตและส่งกลับฟังก์ชันที่เปลี่ยนรูปแบบเป็นเอาต์พุต JAX ใช้การเปลี่ยนรูปแบบฟังก์ชัน

G

กาน

ตัวย่อของ Generative adversarial Network

การสรุป

#fundamentals

ความสามารถของโมเดลในการคาดการณ์ที่แม่นยำเกี่ยวกับข้อมูลใหม่ที่ก่อนหน้านี้ไม่เคยเห็นมาก่อน โมเดลที่สร้างภาพรวมได้นั้นตรงข้ามกับโมเดลที่ปรับมากเกินไป

เส้นโค้งทั่วไป

#fundamentals

พล็อตของทั้งการสูญเสียการฝึกและการสูญเสียการตรวจสอบในฐานะฟังก์ชันของจำนวนการปรับปรุง

กราฟทั่วไปช่วยให้คุณตรวจหาการปรับมากเกินไปได้ ตัวอย่างเช่น เส้นโค้งการขึ้นข้อมูลทั่วไปต่อไปนี้แนะนำว่ามากเกินไป เนื่องจากการสูญเสียการตรวจสอบจะสูงกว่าการสูญเสียการฝึกอย่างมีนัยสำคัญ

กราฟคาร์ทีเซียนซึ่งแกน y มีป้ายกำกับว่าสูญเสีย และแกน x มีป้ายกำกับว่าเป็นการทำซ้ำ จะมี 2 พล็อตปรากฏขึ้น ส่วน 1 แผนภูมิจะแสดงการสูญเสียการฝึกเห็นและอีกส่วนหนึ่งแสดงการสูญเสียการตรวจสอบ
          ทั้ง 2 แผนเริ่มต้นคล้ายคลึงกัน แต่ในที่สุดการสูญเสียการฝึก
          ก็ลดลงต่ำกว่าการสูญเสียการตรวจสอบเป็นอย่างมาก

รูปแบบเชิงเส้นทั่วไป

การทำให้โมเดลการถดถอยแบบกำลังสองน้อยที่สุด อิงตามเสียงแบบเกาส์กับโมเดล ประเภทอื่นๆ ที่อิงตามสัญญาณรบกวนประเภทอื่นๆ เช่น เสียงรบกวนแบบ Poisson หรือเสียงเชิงหมวดหมู่ ตัวอย่างของรูปแบบเชิงเส้นทั่วไปมีดังนี้

ดูพารามิเตอร์ของรูปแบบเชิงเส้นทั่วไปได้ผ่านการเพิ่มประสิทธิภาพ Convvex

รูปแบบเชิงเส้นทั่วไปจะแสดงคุณสมบัติต่อไปนี้

  • การคาดการณ์เฉลี่ยของโมเดลการถดถอยกำลังสองน้อยที่สุดที่เหมาะสมจะเท่ากับป้ายกำกับเฉลี่ยในข้อมูลการฝึก
  • ความน่าจะเป็นโดยเฉลี่ยที่คาดการณ์โดยโมเดลการถดถอยแบบโลจิสติกส์ที่ดีที่สุดจะเท่ากับป้ายกำกับเฉลี่ยในข้อมูลการฝึก

พลังของรูปแบบเชิงเส้นทั่วไปจะจำกัดโดยฟีเจอร์ โมเดลเชิงเส้นทั่วๆ ไปจะ "เรียนรู้ฟีเจอร์ใหม่" ต่างจากโมเดลเชิงลึก

เครือข่ายที่ไม่พึงประสงค์แบบ Generative (GAN)

ระบบสำหรับสร้างข้อมูลใหม่ที่โปรแกรมสร้างสร้างข้อมูล และเครื่องมือเลือกปฏิบัติจะกำหนดว่าข้อมูลที่สร้างขึ้นนั้นถูกต้องและไม่ถูกต้อง

Generative AI

#language
#image
#GenerativeAI

ช่องที่กำลังเปลี่ยนรูปแบบใหม่ซึ่งไม่มีคำจำกัดความอย่างเป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่เห็นด้วยว่าโมเดล Generative AI สามารถสร้าง ("สร้าง") เนื้อหาที่มีลักษณะต่อไปนี้

  • ซับซ้อน
  • สอดคล้องกัน
  • เดิม

ตัวอย่างเช่น โมเดล Generative AI สามารถสร้างเรียงความหรือรูปภาพที่ซับซ้อนได้

เทคโนโลยีบางรุ่นก่อนหน้านี้ เช่น LSTM และ RNN สามารถสร้างเนื้อหาต้นฉบับที่สอดคล้องกันได้ด้วย ผู้เชี่ยวชาญบางคนมองว่าเทคโนโลยีรุ่นก่อนหน้าเหล่านี้เป็น Generative AI ในขณะที่คนอื่นๆ รู้สึกว่า Generative AI ที่แท้จริงต้องอาศัยเอาต์พุตที่ซับซ้อนกว่าที่เทคโนโลยีก่อนหน้านี้จะสร้างได้

เปรียบเทียบกับ ML ที่คาดการณ์

โมเดลจาก Generative AI

ในทางปฏิบัติ โมเดลนี้จะกระทำการอย่างใดอย่างหนึ่งต่อไปนี้

  • สร้าง (สร้าง) ตัวอย่างใหม่จากชุดข้อมูลการฝึก ตัวอย่างเช่น โมเดล Generative อาจสร้างบทกวีหลังจากการฝึกชุดข้อมูลบทกวี ส่วน generator ของเครือข่าย Adversarial จัดอยู่ในหมวดหมู่นี้
  • พิจารณาความน่าจะเป็นที่ตัวอย่างใหม่มาจากชุดการฝึก หรือสร้างขึ้นจากกลไกเดียวกับที่สร้างชุดการฝึก ตัวอย่างเช่น หลังจากการฝึกในชุดข้อมูลที่ประกอบด้วยประโยคภาษาอังกฤษ โมเดล Generative สามารถระบุความน่าจะเป็นที่อินพุตใหม่จะเป็นประโยคภาษาอังกฤษที่ถูกต้อง

ในทางทฤษฎี โมเดล Generative สามารถแยกแยะการกระจายของตัวอย่างหรือฟีเจอร์บางอย่างในชุดข้อมูลได้ โดยการ

p(examples)

โมเดลการเรียนรู้ที่ไม่มีการควบคุมดูแลเป็นแบบ Generative

ตัดกับรูปแบบที่ไม่แบ่งแยก

โปรแกรมสร้างแผนผังไซต์

ระบบย่อยภายในเครือข่ายที่ไม่พึงประสงค์แบบ Generative (Generative AI) ที่สร้างตัวอย่างใหม่

คอนทราสต์กับรูปแบบการเลือกปฏิบัติ

ความไม่บริสุทธิ์ของจีน

#df

เมตริกที่คล้ายกับเอนโทรปี Splitters ใช้ค่าที่ได้จากสิ่งเจือปนของจินีหรือเอนโทรปีในการเขียนเงื่อนไขสำหรับการแยกประเภทต้นไม้การตัดสินใจ ข้อมูลที่ได้รับมาจากเอนโทรปี ไม่มีคำเทียบเท่ากันโดยทั่วไปสำหรับเมตริกที่มาจากความไม่บริสุทธิ์ของจินี แต่เมตริกที่ไม่ได้ตั้งชื่อนี้มีความสำคัญเท่าๆ กับการรับข้อมูล

ความไม่บริสุทธิ์ของจีน (Gini) เรียกอีกอย่างว่าดัชนีจินี หรือเรียกง่ายๆ ว่า จินี

ชุดข้อมูล Golden

ชุดข้อมูลที่มีการดูแลจัดการด้วยตนเองซึ่งบันทึกข้อมูลที่เป็นความจริง ทีมสามารถใช้ชุดข้อมูลทองคำอย่างน้อย 1 ชุดเพื่อประเมินคุณภาพของโมเดล

ชุดข้อมูลทองคำบางรายการจะจับข้อมูลโดเมนย่อยของข้อมูลจากการสังเกตการณ์โดยตรง เช่น ชุดข้อมูลสีทองสำหรับการแยกประเภทรูปภาพอาจจับภาพสภาพแสงและความละเอียดของรูปภาพ

GPT (Transformer ที่ฝึกล่วงหน้าด้วย Generative)

#language

ตระกูลของ Transformer โมเดลภาษาขนาดใหญ่ที่พัฒนาโดย OpenAI

ตัวแปร GPT ใช้ได้กับวิธีการหลายวิธี ได้แก่

  • การสร้างรูปภาพ (เช่น ImageGPT)
  • การสร้างข้อความเป็นรูปภาพ (เช่น DALL-E)

ไล่ระดับสี

เวกเตอร์ของอนุพันธ์บางส่วนที่เกี่ยวข้องกับตัวแปรอิสระทั้งหมด ในแมชชีนเลิร์นนิง การไล่ระดับสีคือเวกเตอร์ของอนุพันธ์ย่อยของฟังก์ชันโมเดล จุดไล่ระดับสีในทิศทางที่ชันขึ้น

การไล่ระดับสีสะสม

เทคนิค backpropagation ที่อัปเดตพารามิเตอร์เพียง 1 ครั้งต่อ Epoch แทนที่จะเป็น 1 ครั้งต่อการแก้ไข หลังจากประมวลผล มินิแบตช์ แต่ละรายการ การไล่ระดับสีจะเพียงแค่อัปเดตการไล่ระดับสีทั้งหมดที่ใช้งานอยู่ จากนั้นหลังจากประมวลผลมินิแบตช์ล่าสุดใน Epoch แล้ว ระบบจะอัปเดตพารามิเตอร์ตามยอดรวมของการเปลี่ยนแปลงการไล่ระดับสีทั้งหมด

การไล่ระดับสีมีประโยชน์เมื่อขนาดกลุ่มใหญ่มากเมื่อเทียบกับจำนวนหน่วยความจำที่พร้อมใช้งานสำหรับการฝึก เมื่อเกิดปัญหาเกี่ยวกับหน่วยความจำ แนวโน้มโดยทั่วไปคือการลดขนาดกลุ่ม อย่างไรก็ตาม การลดขนาดกลุ่มใน Backpropagation ปกติจะเพิ่มจำนวนการอัปเดตพารามิเตอร์ การสะสมแบบไล่ระดับสีช่วยให้โมเดล หลีกเลี่ยงปัญหาหน่วยความจำ แต่ยังคงฝึกได้อย่างมีประสิทธิภาพ

ต้นไม้ที่เพิ่มระดับ (การตัดสินใจ) แบบไล่ระดับสี (GBT)

#df

ผลการตัดสินประเภทหนึ่งที่มีลักษณะดังนี้

การเพิ่มพลังการไล่ระดับสี

#df

อัลกอริทึมการฝึกที่โมเดลที่อ่อนแอได้รับการฝึกเพื่อปรับปรุงคุณภาพ (ลดการสูญเสีย) ของโมเดลที่แข็งแกร่งอยู่เรื่อยๆ เช่น โมเดลที่ไม่มีประสิทธิภาพอาจเป็นรูปแบบเชิงเส้นหรือแผนผังการตัดสินใจขนาดเล็ก โมเดลที่มีประสิทธิภาพจะกลายเป็นผลรวมของโมเดลที่อ่อนแอซึ่งผ่านการฝึกก่อนหน้านี้ทั้งหมด

ในรูปแบบที่ง่ายที่สุดของการไล่ระดับสี ในการทำซ้ำแต่ละครั้ง โมเดลที่อ่อนแอจะได้รับการฝึกให้คาดการณ์การไล่ระดับสีแบบสูญเสียของโมเดลที่ดี จากนั้นระบบจะอัปเดตเอาต์พุตของโมเดลที่มีประสิทธิภาพด้วยการลบการไล่ระดับสีที่คาดการณ์ไว้ ซึ่งคล้ายกับการไล่ระดับสี

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

โดยมี

  • $F_{0}$ คือรูปแบบที่มีประสิทธิภาพในช่วงแรก
  • $F_{i+1}$ คือโมเดลถัดไปที่แข็งแกร่ง
  • $F_{i}$ เป็นโมเดลที่แข็งแกร่งในปัจจุบัน
  • $\xi$ คือค่าระหว่าง 0.0 ถึง 1.0 ที่เรียกว่า การหด ซึ่งเทียบเท่ากับ อัตราการเรียนรู้ใน การไล่ระดับสี
  • $f_{i}$ คือโมเดลแบบอ่อนที่ได้รับการฝึกให้คาดการณ์การไล่ระดับสีการสูญเสียของ $F_{i}$

รูปแบบการเพิ่มการไล่ระดับสีสมัยใหม่ยังรวมถึงอนุพันธ์ลำดับที่ 2 (Hessian) ของการสูญเสียในการคำนวณด้วย

แผนผังการตัดสินใจมักใช้เป็นโมเดลที่อ่อนในการเพิ่มการไล่ระดับสี ดูต้นไม้ที่เพิ่มระดับ (ตัดสิน) การไล่ระดับสี

การไล่ระดับสี

#seq

กลไกที่ใช้กันโดยทั่วไปในการลดปัญหาการไล่ระดับสีแบบระเบิดโดยการจำกัด (การตัด) ค่าสูงสุดของการไล่ระดับสีเมื่อใช้ การไล่ระดับสีเพื่อฝึกโมเดล

การไล่ระดับสี

#fundamentals

เทคนิคทางคณิตศาสตร์เพื่อลด Loss ให้เหลือน้อยที่สุด การไล่ระดับสีจะค่อยๆ ปรับน้ำหนักและอคติ แล้วค่อยๆ ค้นหาค่าผสมที่ดีที่สุดเพื่อลดการสูญเสียค่าให้เหลือน้อยที่สุด

การไล่ระดับสีเป็นค่าที่เก่ากว่าแมชชีนเลิร์นนิงมาก

กราฟ

#TensorFlow

ใน TensorFlow ซึ่งเป็นข้อมูลจำเพาะด้านการคำนวณ โหนดในกราฟ แสดงถึงการดำเนินการ ขอบจะมีการกำกับและแสดงถึงการส่งผลลัพธ์ของการดำเนินการ (Tensor) เป็นตัวถูกดำเนินการไปยังการดำเนินการอื่น ใช้ TensorBoard เพื่อแสดงภาพกราฟ

Graph Execution

#TensorFlow

สภาพแวดล้อมการเขียนโปรแกรม TensorFlow ซึ่งโปรแกรมสร้างกราฟก่อนแล้วจึงดำเนินการกับกราฟนั้นทั้งหมดหรือบางส่วน กราฟการเรียกใช้เป็นโหมดการดำเนินการเริ่มต้นใน TensorFlow 1.x

แตกต่างจากการดำเนินการแบบตั้งใจ

นโยบายอันละโมบ

#rl

ในการเรียนรู้แบบเสริมกำลัง นโยบายที่เลือกการดำเนินการที่มีผลตอบแทนสูงสุดที่คาดไว้เสมอ

ข้อมูลที่เป็นความจริง

#fundamentals

เรียลลิตี้

สิ่งที่เกิดขึ้นจริง

ตัวอย่างเช่น ลองพิจารณาโมเดลการจัดประเภทแบบไบนารีที่คาดการณ์ว่านักศึกษาในมหาวิทยาลัยชั้นปีที่ 1 จะจบการศึกษาภายใน 6 ปีหรือไม่ ข้อมูลจากการสังเกตการณ์โดยตรงของโมเดลนี้คือ นักเรียนจบการศึกษาจริงภายใน 6 ปีหรือไม่

ความลำเอียงในการระบุแหล่งที่มาของกลุ่ม

#fairness

สมมติว่าสิ่งที่เป็นจริงสำหรับบุคคลหนึ่งก็เป็นจริงสำหรับทุกคนในกลุ่มนั้นด้วย ผลของความลำเอียงในการระบุแหล่งที่มาของกลุ่มอาจรุนแรงขึ้นได้ หากใช้การสุ่มตัวอย่างตามความสะดวกในการเก็บรวบรวมข้อมูล ในตัวอย่างที่ไม่ใช่ตัวแทน อาจมีการระบุแหล่งที่มา ซึ่งไม่ได้สะท้อนถึงความเป็นจริง

ดูข้อมูลเพิ่มเติมได้ในอคติแบบองค์รวมนอกกลุ่มและอคติในกลุ่ม

ฮิต

ความไม่สมเหตุสมผล

#language

การสร้างผลลัพธ์ที่ดูสมเหตุสมผลแต่ไม่ถูกต้องตามข้อเท็จจริงโดยโมเดล Generative AI ที่อ้างว่าเป็นการยืนยันเกี่ยวกับโลกแห่งความเป็นจริง ตัวอย่างเช่น โมเดล Generative AI ที่อ้างว่าบารัก โอบามาเสียชีวิตในปี 1865 มีความไม่สมเหตุสมผล

การแฮช

ในแมชชีนเลิร์นนิง กลไกในการเก็บข้อมูลเชิงหมวดหมู่โดยเฉพาะเมื่อหมวดหมู่มีจำนวนมาก แต่จำนวนของหมวดหมู่ที่ปรากฏในชุดข้อมูลจริงๆ มีน้อยมาก

ตัวอย่างเช่น Earth เป็นที่อยู่อาศัยของต้นไม้ประมาณ 73,000 ชนิด คุณอาจแสดงถึงชนิดต้นไม้แต่ละชนิดจากทั้งหมด 73,000 ชนิดใน 73,000 ชนิดแยกกัน หรือถ้าในชุดข้อมูลหนึ่งๆ จะมีชนิดของต้นไม้เพียง 200 ชนิดปรากฏในชุดข้อมูล คุณจะใช้การแฮชเพื่อแบ่งชนิดของต้นไม้ออกเป็น 500 ชนิดก็ได้

ถังเดียวอาจมีต้นไม้หลายชนิด ตัวอย่างเช่น การแฮชอาจวางเบาบับและเมเปิลสีแดง ซึ่งเป็นสปีชีส์ 2 สายพันธุ์ที่คล้ายกันลงในที่เก็บข้อมูลเดียวกัน อย่างไรก็ตาม การแฮชยังคงเป็นวิธีที่ดีในการจับคู่ชุดกลุ่มขนาดใหญ่กับจำนวนที่เก็บข้อมูลที่เลือก การแฮชจะเปลี่ยนฟีเจอร์เชิงหมวดหมู่ที่มีค่าที่เป็นไปได้จำนวนมากให้เป็นค่าที่เล็กลงมากโดยการจัดกลุ่มค่าด้วยวิธีการที่กำหนด

การเรียนรู้

วิธีการแก้ปัญหาที่ง่ายและรวดเร็ว ตัวอย่างเช่น "การวิเคราะห์สิ่งต่างๆ ช่วยให้เราได้ความแม่นยำถึง 86% พอเราเปลี่ยนมาใช้โครงข่ายประสาทแบบลึก ความแม่นยำก็เพิ่มขึ้นถึง 98%"

เลเยอร์ที่ซ่อนอยู่

#fundamentals

เลเยอร์ในโครงข่ายระบบประสาทเทียมระหว่างเลเยอร์อินพุต (ฟีเจอร์) และเลเยอร์เอาต์พุต (การคาดการณ์) เลเยอร์ที่ซ่อนอยู่แต่ละเลเยอร์ประกอบด้วยเซลล์ประสาทอย่างน้อย 1 เซลล์ ตัวอย่างเช่น โครงข่ายประสาทต่อไปนี้มีเลเยอร์ที่ซ่อนอยู่ 2 ชั้น ชั้นแรกมีเซลล์ประสาท 3 เซลล์ และเซลล์ที่สองมีเซลล์ประสาท 2 เซลล์

4 เลเยอร์ เลเยอร์แรกคือเลเยอร์อินพุตที่มี
          ฟีเจอร์ 2 รายการ ชั้นที่ 2 คือชั้นที่ซ่อนอยู่ซึ่งมีเซลล์ประสาท 3 เซลล์ ชั้นที่ 3 คือชั้นที่ซ่อนอยู่ซึ่งมีเซลล์ประสาท 2 เซลล์ เลเยอร์ที่ 4 คือเลเยอร์เอาต์พุต แต่ละองค์ประกอบมีขอบ 3 ขอบ แต่ละเส้นนำไปยังเซลล์ประสาทที่ต่างกันในชั้นที่ 2 เซลล์ประสาทแต่ละเซลล์ในชั้นที่ 2 มีขอบ 2 ชั้น แต่ละเซลล์ชี้ไปยังเซลล์ประสาทที่ต่างกันในชั้นที่ 3 เซลล์ประสาทแต่ละเซลล์ในเลเยอร์ที่ 3 มีขอบ 1 เส้น แต่ละเซลล์ชี้ไปยังเลเยอร์เอาต์พุต

โครงข่ายประสาทแบบลึกมีเลเยอร์ที่ซ่อนอยู่มากกว่า 1 ชั้น เช่น ภาพประกอบก่อนหน้าเป็นโครงข่ายระบบประสาทเทียมระดับลึกเนื่องจากโมเดลมีเลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์

การจัดกลุ่มแบบลำดับชั้น

#clustering

หมวดหมู่ของอัลกอริทึม clustering ที่สร้างผังคลัสเตอร์ การจัดกลุ่มแบบลำดับชั้นเป็นตัวเลือกที่เหมาะกับข้อมูลตามลำดับชั้น เช่น การจัดหมวดหมู่ทางพฤกษศาสตร์ อัลกอริทึมคลัสเตอร์แบบลำดับชั้นมี 2 ประเภท ได้แก่

  • คลัสเตอร์แบบรวบยอดจะกำหนดตัวอย่างทั้งหมดให้กับคลัสเตอร์ของตัวเองก่อน แล้วจึงผสานคลัสเตอร์ที่ใกล้เคียงที่สุดซ้ำเพื่อสร้างแผนผังลำดับชั้น
  • การจัดกลุ่มแบบแยกย่อยจะจัดกลุ่มตัวอย่างทั้งหมดเป็นคลัสเตอร์เดียวก่อน แล้วแบ่งคลัสเตอร์ออกเป็นต้นไม้แบบลำดับชั้น

คอนทราสต์กับคลัสเตอร์แบบเซนทรอยด์

การสูญเสียบานพับ

กลุ่มฟังก์ชัน loss สำหรับการแยกประเภทที่ออกแบบมาเพื่อหาขอบเขตการตัดสินใจระยะห่างจากตัวอย่างการฝึกแต่ละรายการให้ไกลที่สุด เพื่อเพิ่มประสิทธิภาพส่วนต่างระหว่างตัวอย่างและขอบเขต KSVM ใช้การสูญเสียบานพับ (หรือฟังก์ชันที่เกี่ยวข้อง เช่น การสูญเสียบานพับสี่เหลี่ยม) สำหรับการจัดประเภทแบบไบนารี ฟังก์ชันการสูญเสียบานพับจะกำหนดไว้ดังนี้

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

โดยที่ y คือป้ายกำกับจริง อาจเป็น -1 หรือ +1 และ y' เป็นเอาต์พุตดิบของโมเดลตัวแยกประเภท ดังนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ดังนั้น พล็อตของการสูญเสียบานพับเทียบกับ (y * y") มีลักษณะดังนี้

พล็อตคาร์ทีเซียนที่ประกอบด้วยเส้นแบ่ง 2 ส่วน ส่วนเส้นแรกเริ่มต้นที่ (-3, 4) และสิ้นสุดที่ (1, 0) ส่วนของบรรทัดที่ 2 เริ่มต้นที่ (1, 0) และต่อเนื่องไปไม่สิ้นสุด โดยมีความชันที่ 0

อคติในอดีต

#fairness

อคติประเภทหนึ่งที่มีอยู่แล้วในโลกและกลายมาเป็นชุดข้อมูล อคติเหล่านี้มีแนวโน้มที่จะสะท้อนถึงการเหมารวมทางวัฒนธรรม ความไม่เสมอภาคของข้อมูลประชากร และอคติที่มีต่อกลุ่มสังคมบางกลุ่ม

ตัวอย่างเช่น ลองพิจารณาโมเดลการแยกประเภทที่คาดการณ์ว่าผู้สมัครสินเชื่อจะผิดนัดชำระสินเชื่อ ซึ่งผ่านการฝึกด้วยข้อมูลค่าเริ่มต้นสินเชื่อในอดีตจากช่วงทศวรรษ 1980 จากธนาคารท้องถิ่นใน 2 ชุมชนที่ต่างกันหรือไม่ หากผู้ที่เคยสมัครจากชุมชน ก มีแนวโน้มที่จะขอเงินกู้ยืมเงินกู้ยืมมากกว่าผู้สมัครจากชุมชน ข ถึง 6 เท่า โมเดลนี้อาจทราบถึงอคติในอดีตที่ทำให้โมเดลมีแนวโน้มที่จะอนุมัติสินเชื่อในชุมชน ก น้อยลง แม้ว่าเงื่อนไขในอดีตที่ส่งผลให้อัตราเริ่มต้นที่สูงขึ้นของชุมชนนั้นไม่เกี่ยวข้องอีกต่อไปแล้ว

ระงับข้อมูล

ตัวอย่าง ไม่ได้มีเจตนาที่จะใช้ ("ระงับ") ระหว่างการฝึก ชุดข้อมูลการตรวจสอบและชุดข้อมูลทดสอบเป็นตัวอย่างของข้อมูลการคงไว้ชั่วคราว Holdout Data จะช่วยประเมินความสามารถของโมเดลในการจัดทำข้อมูลทั่วไปกับข้อมูลอื่นนอกเหนือจากข้อมูลที่ฝึกใช้งาน การสูญเสียในชุดการฝึกช่วยให้ประมาณค่าการสูญเสียในชุดข้อมูลที่มองไม่เห็นได้ดีกว่าการสูญเสียในชุดการฝึก

ผู้จัด

#TensorFlow
#GoogleCloud

เมื่อฝึกโมเดล ML บนชิป Accelerator (GPU หรือ TPU) ส่วนหนึ่งของระบบที่ควบคุมทั้ง 2 อย่างต่อไปนี้

  • ขั้นตอนโดยรวมของโค้ด
  • การดึงและการเปลี่ยนรูปแบบของไปป์ไลน์อินพุต

โฮสต์มักจะทำงานบน CPU ไม่ใช่ในชิป Accelerator อุปกรณ์จะจัดการกับ tensor ในชิป Accelerator

ไฮเปอร์พารามิเตอร์

#fundamentals

ตัวแปรที่คุณหรือบริการปรับแต่งไฮเปอร์พารามิเตอร์ จะปรับระหว่างการเรียกใช้โมเดลติดต่อกัน เช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์ คุณสามารถตั้งค่าอัตราการเรียนรู้เป็น 0.01 ก่อนเซสชันการฝึกอบรม 1 เซสชัน หากคุณคิดว่า 0.01 สูงเกินไป คุณอาจกำหนดอัตราการเรียนรู้เป็น 0.003 สำหรับเซสชันการฝึกอบรมครั้งถัดไป

ในทางตรงกันข้าม พารามิเตอร์คือน้ำหนักและอคติต่างๆ ที่โมเดลเรียนรู้ระหว่างการฝึก

ไฮเปอร์เพลน

ขอบเขตที่แบ่งพื้นที่ทำงานออกเป็น 2 พื้นที่ย่อย ตัวอย่างเช่น เส้นเป็นไฮเปอร์เพลนที่มี 2 มิติ และระนาบเป็นไฮเปอร์เพลนที่มี 3 มิติ โดยทั่วไปแล้ว ไฮเปอร์เพลนเป็นขอบเขตที่แยกพื้นที่ที่มีมิติสูง โดยทั่วไปแล้วในแมชชีนเลิร์นนิง เครื่องสร้างเวกเตอร์การสนับสนุนเคอร์เนลใช้ไฮเปอร์เรียลลิสติกเพื่อแยกคลาสเชิงบวกออกจากคลาสลบ ซึ่งมักอยู่ในพื้นที่ที่มีมิติสูง

I

เช่น

ตัวย่อของเผยแพร่โดยอิสระและเหมือนกันทุกประการ

การรู้จำรูปภาพ

#image

กระบวนการที่จัดหมวดหมู่ออบเจ็กต์ รูปแบบ หรือแนวคิดในรูปภาพ การจดจำรูปภาพยังเรียกอีกอย่างว่าการจัดประเภทรูปภาพ

ดูข้อมูลเพิ่มเติมได้ที่แนวทางปฏิบัติ ML: การแยกประเภทรูปภาพ

ชุดข้อมูลที่ไม่สมดุล

คำพ้องความหมายของชุดข้อมูลที่ไม่สมดุลระดับคลาส

อคติโดยไม่รู้ตัว

#fairness

สร้างการเชื่อมโยงหรือสมมติฐานโดยอัตโนมัติตามโมเดลความคิดและความทรงจำของผู้คน อคติโดยปริยายอาจส่งผลกระทบต่อสิ่งต่อไปนี้

  • วิธีรวบรวมและแยกประเภทข้อมูล
  • วิธีออกแบบและพัฒนาระบบแมชชีนเลิร์นนิง

ตัวอย่างเช่น เมื่อสร้างตัวแยกประเภทเพื่อระบุรูปภาพงานแต่งงาน วิศวกรอาจใช้การแสดงชุดสีขาวในรูปภาพเป็นองค์ประกอบ อย่างไรก็ตาม ชุดเดรสสีขาวเป็นธรรมเนียมในบางยุคและในบางวัฒนธรรมเท่านั้น

ดูการให้น้ำหนักพิเศษกับการยืนยันเพิ่มเติม

การพินิจ

การคำนวณมูลค่าในรูปแบบสั้นๆ

เมตริกความเป็นธรรมไม่สามารถเข้ากันได้

#fairness

แนวคิดที่ว่าความยุติธรรมบางกรณีไม่มีความเกี่ยวเนื่องและไม่สามารถตอบสนองไปพร้อมกันได้ ด้วยเหตุนี้ จึงไม่มีเมตริกสากลเดียวที่ใช้วัดความเป็นธรรมในเชิงปริมาณที่ใช้กับปัญหา ML ทั้งหมดได้

แม้ว่านี่อาจดูไม่น่าพึงพอใจ แต่เมตริกความเป็นธรรมไม่สามารถเข้ากันไม่ได้ไม่ได้หมายความว่าความพยายามด้านความเป็นธรรมนั้นไร้ผล แต่ชี้แนะว่าจะต้องมีการกำหนดความเป็นธรรมตามบริบทสำหรับปัญหา ML ที่ระบุ โดยมีเป้าหมายในการป้องกันอันตรายที่เกี่ยวข้องกับกรณีการใช้งานนั้นๆ โดยเฉพาะ

ดู "ความเป็นไปได้ของความเป็นธรรม" สำหรับการอภิปรายหัวข้อนี้โดยละเอียด

การเรียนรู้ในบริบท

#language
#GenerativeAI

คำพ้องความหมายของข้อความแจ้งไม่กี่ช็อต

กระจายอย่างอิสระและเหมือนกันทุกประการ (i.i.d)

#fundamentals

ข้อมูลที่ดึงมาจากการกระจายที่ไม่เปลี่ยนแปลง และแต่ละค่าที่ดึงมาไม่ได้ขึ้นอยู่กับค่าที่เคยวาดก่อนหน้านี้ คำตอบคือแก๊สในอุดมคติของแมชชีนเลิร์นนิง ซึ่งเป็นโครงสร้างทางคณิตศาสตร์ที่มีประโยชน์ แต่แทบจะไม่เคยพบเจอในชีวิตจริงเลย ตัวอย่างเช่น การกระจายของผู้เข้าชมไปยังหน้าเว็บต่างๆ อาจหมายถึงช่วงเวลาสั้นๆ กล่าวคือ การกระจายจะไม่เปลี่ยนแปลงในช่วงกรอบเวลาสั้นๆ นั้น และโดยทั่วไปการเข้าชมของบุคคลหนึ่งจะไม่ขึ้นอยู่กับการเข้าชมของอีกบุคคลหนึ่ง อย่างไรก็ตาม หากคุณขยายกรอบเวลาดังกล่าว ความแตกต่างตามฤดูกาลในผู้เข้าชมหน้าเว็บอาจปรากฏขึ้น

ดู nonstationarity เพิ่มเติม

ความเป็นธรรมส่วนบุคคล

#fairness

เมตริกความเป็นธรรมที่ตรวจสอบว่าบุคคลที่คล้ายกันได้รับการจัดประเภทในลักษณะคล้ายกันหรือไม่ ตัวอย่างเช่น Brobdingnagian Academy อาจต้องการให้ความสำคัญกับ ความเป็นธรรมของบุคคลโดยตรวจสอบให้แน่ใจว่านักเรียน 2 คนที่มีคะแนนเท่ากันและมีคะแนนสอบมาตรฐานเท่ากัน มีแนวโน้มที่จะได้รับผลการเรียนเท่าๆ กัน

โปรดทราบว่าความยุติธรรมของบุคคลจะขึ้นอยู่กับวิธีที่คุณนิยาม "ความคล้ายคลึง" ทั้งหมด (ในกรณีนี้คือคะแนนและคะแนนสอบ) และคุณอาจมีความเสี่ยงที่จะทำให้เกิดปัญหาความยุติธรรมใหม่ๆ หากเมตริกความคล้ายคลึงกันขาดข้อมูลสำคัญ (เช่น ความเข้มงวดของหลักสูตรของนักเรียน)

โปรดดู "ความยุติธรรมผ่านการตระหนักถึง ความยุติธรรม" สำหรับการอภิปรายด้านความยุติธรรมส่วนบุคคลโดยละเอียด

การอนุมาน

#fundamentals

ในแมชชีนเลิร์นนิง กระบวนการคาดการณ์โดยใช้โมเดลที่ผ่านการฝึกกับตัวอย่างที่ไม่มีป้ายกำกับ

การอนุมานมีความหมายในสถิติต่างกันเล็กน้อย ดูรายละเอียดได้ที่ บทความวิกิพีเดียเกี่ยวกับการอนุมานทางสถิติ

เส้นทางการอนุมาน

#df

ในแผนผังการตัดสินใจ ระหว่างการอนุมาน เส้นทางที่ตัวอย่างหนึ่งๆ ใช้จากรากไปยังเงื่อนไขอื่นๆ โดยสิ้นสุดด้วย ใบไม้ ตัวอย่างเช่น ในแผนผังการตัดสินใจต่อไปนี้ ลูกศรที่หนาจะแสดงเส้นทางการอนุมานสำหรับตัวอย่างที่มีค่าฟีเจอร์ต่อไปนี้

  • x = 7
  • ปี = 12
  • z = -3

เส้นทางอนุมานในภาพประกอบต่อไปนี้จะเคลื่อนผ่านเงื่อนไข 3 อย่างก่อนที่จะไปถึง Leaf (Zeta)

แผนผังการตัดสินใจที่มี 4 เงื่อนไขและ 5 ใบ
          เงื่อนไขรูทคือ (x > 0) เนื่องจากคำตอบคือ ใช่ เส้นทางอนุมานจะเดินทางจากรากไปยังเงื่อนไขถัดไป (y > 0)
          เนื่องจากคำตอบคือ ใช่ เส้นทางอนุมานจะเดินทางไปยังเงื่อนไขถัดไป (z > 0) เนื่องจากคำตอบคือ &quot;ไม่&quot; เส้นทางอนุมานจะเดินทางไปที่โหนดเทอร์มินัล ซึ่งก็คือ Leaf (Zeta)

ลูกศรหนา 3 อันแสดงเส้นทางการอนุมาน

ข้อมูลที่ได้รับ

#df

ในป่าการตัดสินใจ ความแตกต่างระหว่างเอนโทรปีของโหนดและผลรวมแบบถ่วงน้ำหนัก (ตามจำนวนตัวอย่าง) ของเอนโทรปีของโหนดย่อย เอนโทรปีของโหนดคือเอนโทรปีของตัวอย่างในโหนดนั้น

เช่น ลองพิจารณาค่าเอนโทรปีต่อไปนี้

  • เอนโทรปีของโหนดหลัก = 0.6
  • เอนโทรปีของโหนดย่อยหนึ่งโหนดที่มีตัวอย่างที่เกี่ยวข้อง 16 ตัวอย่าง = 0.2
  • เอนโทรปีของโหนดย่อยอื่นที่มีตัวอย่างที่เกี่ยวข้อง 24 รายการ = 0.1

ดังนั้น 40% ของตัวอย่างอยู่ในโหนดย่อย 1 โหนดและ 60% อยู่ในโหนดย่อยอีกโหนด ดังนั้น

  • ผลรวมเอนโทรปีถ่วงน้ำหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

ดังนั้น ข้อมูลที่ได้รับมีดังนี้

  • ข้อมูลที่ได้รับ = เอนโทรปีของโหนดหลัก - ผลรวมเอนโทรปีแบบถ่วงน้ำหนักของโหนดย่อย
  • ข้อมูลที่ได้รับ = 0.6 - 0.14 = 0.46

สปลิตเตอร์ส่วนใหญ่พยายามสร้างเงื่อนไขที่ช่วยให้ได้ข้อมูลเพิ่มขึ้น

อคติในกลุ่ม

#fairness

การแสดงความไม่ลำเอียงต่อกลุ่มของตนเองหรือลักษณะเฉพาะของตนเอง หากผู้ทดสอบหรือผู้ตรวจสอบประกอบด้วยเพื่อน ครอบครัว หรือเพื่อนร่วมงานของนักพัฒนาซอฟต์แวร์แมชชีนเลิร์นนิง อคติในกลุ่มอาจทำให้การทดสอบผลิตภัณฑ์หรือชุดข้อมูลไม่ถูกต้อง

อคติในกลุ่มเป็นการให้น้ำหนักการระบุแหล่งที่มาของกลุ่มรูปแบบหนึ่ง ดูข้อมูลเพิ่มเติมได้ในอคติแบบเอกพันธ์ุ

โปรแกรมสร้างอินพุต

กลไกในการโหลดข้อมูลเข้าสู่โครงข่ายระบบประสาทเทียม

โปรแกรมสร้างอินพุตอาจมองว่าเป็นองค์ประกอบที่รับผิดชอบในการประมวลผลข้อมูลดิบเป็น Tensor ที่จะทำซ้ำเพื่อสร้างกลุ่มสำหรับการฝึก การประเมิน และการอนุมาน

เลเยอร์อินพุต

#fundamentals

เลเยอร์ของโครงข่ายระบบประสาทเทียมที่เก็บเวกเตอร์ฟีเจอร์ กล่าวคือ เลเยอร์อินพุตมีตัวอย่างสำหรับการฝึกหรือการอนุมาน ตัวอย่างเช่น เลเยอร์อินพุตในโครงข่ายระบบประสาทเทียมต่อไปนี้ประกอบด้วยฟีเจอร์ 2 อย่าง

4 เลเยอร์ ได้แก่ เลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

เงื่อนไขในเซ็ต

#df

ในแผนผังการตัดสินใจ เงื่อนไขที่ทดสอบการมี 1 รายการในชุดรายการ ตัวอย่างเช่น ต่อไปนี้คือเงื่อนไขที่ตั้งไว้

  house-style in [tudor, colonial, cape]

ระหว่างการอนุมาน หากค่าของฟีเจอร์แบบบ้านคือ tudor หรือ colonial หรือ cape เงื่อนไขนี้จะประเมินเป็น "ใช่" หากค่าของฟีเจอร์แบบบ้านเป็นอย่างอื่น (เช่น ranch) เงื่อนไขนี้จะประเมินเป็น "ไม่"

เงื่อนไขในชุดมักนำไปสู่แผนผังการตัดสินใจที่มีประสิทธิภาพมากกว่าเงื่อนไขที่ทดสอบฟีเจอร์เข้ารหัสแบบฮอตเดียว

อินสแตนซ์

คำพ้องของ example

การปรับแต่งคำสั่ง

#GenerativeAI

รูปแบบหนึ่งของการปรับแต่งที่ปรับปรุงความสามารถของโมเดล Generative AI ในการทำตามวิธีการ การปรับแต่งวิธีการเกี่ยวข้องกับการฝึกโมเดลด้วยชุดพรอมต์คำสั่ง ซึ่งโดยทั่วไปครอบคลุมงานที่หลากหลาย จากนั้น โมเดลที่ได้รับการปรับแต่งตามคำสั่งมักจะสร้างคำตอบที่เป็นประโยชน์สำหรับพรอมต์แบบ Zero Shot สำหรับงานที่หลากหลาย

เปรียบเทียบระหว่าง

ความสามารถในการตีความ

#fundamentals

ความสามารถในการอธิบายหรือนำเสนอการให้เหตุผลของโมเดล ML ด้วยคำที่เข้าใจได้กับมนุษย์

ตัวอย่างเช่น โมเดลการถดถอยเชิงเส้นส่วนใหญ่จะตีความได้สูง (คุณเพียงแค่ต้องดูน้ำหนักที่ผ่านการฝึกสำหรับแต่ละฟีเจอร์เท่านั้น) ป่าการตัดสินใจยังตีความได้เป็นอย่างดีด้วย อย่างไรก็ตาม บางโมเดลจำเป็นต้องมีการแสดงข้อมูลผ่านภาพที่ซับซ้อนเพื่อให้ตีความได้

คุณใช้ Learning Interpretability Tool (LIT) เพื่อตีความโมเดล ML ได้

ข้อตกลงระหว่างผู้ตรวจสอบราคา

การวัดความถี่ที่เจ้าหน้าที่ตรวจสอบยอมรับเมื่อทํางาน หากผู้ตรวจสอบไม่เห็นด้วย คุณอาจต้องปรับปรุงวิธีการงาน หรือบางครั้งเรียกว่าข้อตกลงระหว่างผู้เขียนคำอธิบายประกอบ หรือความน่าเชื่อถือของราคาระหว่างผู้ใช้ และดู Cohen's kappa ซึ่งเป็นหนึ่งในวิธีวัดผลข้อตกลงระหว่างผู้ตรวจสอบที่ได้รับความนิยมมากที่สุด

ทางแยกเหนือสหภาพ (IoU)

#image

อินเตอร์เซกชันของ 2 เซตหารด้วยสหภาพ ในงานด้านการตรวจหารูปภาพของแมชชีนเลิร์นนิง ระบบจะใช้ IoU เพื่อวัดความแม่นยำของกรอบล้อมรอบที่คาดการณ์ของโมเดลที่เกี่ยวข้องกับกรอบล้อมรอบข้อมูลที่ได้จากการสังเกตการณ์ ในกรณีนี้ IoU ของทั้ง 2 กล่องคืออัตราส่วนระหว่างพื้นที่ที่ทับซ้อนกันและพื้นที่ทั้งหมด และค่าอยู่ในช่วงตั้งแต่ 0 (ไม่มีการซ้อนทับกันของกรอบล้อมรอบที่คาดการณ์ไว้และช่องล้อมรอบสำหรับความจริงระดับพื้นดิน) ถึง 1 (กรอบล้อมรอบที่คาดการณ์ไว้และกรอบล้อมรอบของความจริงพื้นดินมีพิกัดเหมือนกัน)

ตัวอย่างเช่น ในรูปภาพด้านล่าง

  • กรอบล้อมรอบที่คาดการณ์ไว้ (พิกัดจำกัดตำแหน่งที่โมเดลคาดการณ์ตารางกลางคืนในภาพวาด) จะมีเส้นขอบเป็นสีม่วง
  • กล่องขอบเขตสำหรับข้อมูลจากการสังเกตการณ์โดยตรง (พิกัดที่ระบุตำแหน่งของโต๊ะกลางคืนในภาพวาด) จะแสดงเป็นสีเขียว

ภาพแวนโก๊ะวาดภาพห้องนอนของวินเซนต์ ในเมืองอาร์ลส์ โดยมีกรอบล้อมรอบ 2 กล่องล้อมรอบโต๊ะในยามค่ำคืนข้างเตียง กรอบที่ล้อมรอบด้วยข้อมูลจากการสังเกตการณ์โดยตรง (สีเขียว) ล้อมรอบตารางกลางคืนอย่างสมบูรณ์แบบ กรอบล้อมรอบที่คาดการณ์ไว้ (สีม่วง) มีค่าชดเชย 50% และอยู่ด้านขวาของกรอบที่ล้อมรอบความจริงพื้นดิน ล้อมรอบไตรมาสขวาล่างของตารางกลางคืนแต่พลาดส่วนที่เหลือของตาราง

ตรงนี้ จุดตัดของกรอบล้อมรอบสำหรับการคาดการณ์และความจริงภาคพื้นดิน (ด้านล่างซ้าย) คือ 1 และการรวมของกรอบล้อมรอบสำหรับการคาดการณ์และความจริงภาคพื้นดิน (ด้านล่างขวา) คือ 7 ดังนั้น IoU จึงเป็น \(\frac{1}{7}\)

รูปภาพเหมือนกับด้านบน แต่มีกรอบล้อมรอบแต่ละกรอบแบ่งออกเป็น 4 ส่วน มีจตุภาคทั้งหมด 7 จตุภาค เนื่องจากจตุภาคด้านขวาล่างของกล่องขอบเขตความจริงพื้นดินและจตุภาคด้านซ้ายบนของช่องขอบเขตที่คาดการณ์ไว้ทับซ้อนกัน ส่วนที่ซ้อนทับกันนี้ (ไฮไลต์สีเขียว) แสดงถึงสี่แยกและมีพื้นที่เท่ากับ 1 รูปภาพเหมือนกับด้านบน แต่มีกรอบล้อมรอบแต่ละกรอบแบ่งออกเป็น 4 ส่วน มีจตุภาคทั้งหมด 7 จตุภาค เนื่องจากจตุภาคด้านขวาล่างของกล่องขอบเขตความจริงพื้นดินและจตุภาคด้านซ้ายบนของช่องขอบเขตที่คาดการณ์ไว้ทับซ้อนกัน
          พื้นที่ภายในทั้งหมดซึ่งล้อมรอบด้วยกรอบล้อมรอบทั้ง 2 ช่อง (ไฮไลต์สีเขียว) แสดงถึงสหภาพและมีพื้นที่ 7

IoU

ตัวย่อของทางแยกเหนือสหภาพ

เมทริกซ์รายการ

#recsystems

ในระบบแนะนำ เมทริกซ์ของเวกเตอร์การฝังที่สร้างขึ้นจากการแยกตัวประกอบเมทริกซ์ซึ่งมีสัญญาณแฝงเกี่ยวกับรายการแต่ละรายการ แต่ละแถวของเมทริกซ์รายการจะเก็บค่าของฟีเจอร์แฝงเดี่ยวสำหรับทุกรายการ ตัวอย่างเช่น ลองพิจารณาระบบการแนะนำภาพยนตร์ แต่ละคอลัมน์ในเมทริกซ์รายการจะแสดงภาพยนตร์เรื่องเดียว สัญญาณแฝงอาจแสดงถึงประเภท หรืออาจตีความได้ยากกว่าสัญญาณที่เกี่ยวข้องกับการโต้ตอบที่ซับซ้อนระหว่างประเภท ดารา อายุของภาพยนตร์ หรือปัจจัยอื่นๆ

เมทริกซ์รายการมีจำนวนคอลัมน์เท่ากับเมทริกซ์เป้าหมายที่กำลังแยกตัวประกอบ ตัวอย่างเช่น สำหรับระบบแนะนำภาพยนตร์ที่ประเมินชื่อภาพยนตร์ 10,000 เรื่อง เมทริกซ์รายการจะมี 10,000 คอลัมน์

items

#recsystems

เอนทิตีที่ระบบแนะนำในระบบการแนะนำ ตัวอย่างเช่น วิดีโอคือรายการที่ร้านค้าวิดีโอแนะนำ ขณะที่หนังสือคือรายการที่ร้านหนังสือแนะนำ

การทำซ้ำ

#fundamentals

การอัปเดตพารามิเตอร์ของโมเดล 1 ครั้ง ซึ่งได้แก่ น้ำหนักและน้ำหนักของโมเดลของโมเดล ระหว่างการฝึก ขนาดกลุ่มจะกำหนดจำนวนตัวอย่างที่โมเดลประมวลผลในการทำซ้ำครั้งเดียว ตัวอย่างเช่น หากขนาดกลุ่มคือ 20 โมเดลจะประมวลผลตัวอย่าง 20 รายการก่อนปรับพารามิเตอร์

เมื่อฝึกโครงข่ายระบบประสาทเทียม การทำซ้ำครั้งเดียวจะต้องอาศัย 2 ขั้นตอนต่อไปนี้

  1. การส่งต่อสำหรับประเมินการสูญเสียในกลุ่มเดียว
  2. การส่งย้อนหลัง (backpropagation) เพื่อปรับพารามิเตอร์ของโมเดลโดยอิงตามการสูญเสียและอัตราการเรียนรู้

J

Jax

ไลบรารีการประมวลผลอาร์เรย์ที่รวม XLA (Accelerated Linear Algebra) และการแยกความแตกต่างของข้อมูลโดยอัตโนมัติเพื่อการคำนวณตัวเลขที่มีประสิทธิภาพสูง JAX มี API ที่เรียบง่ายและมีประสิทธิภาพ สำหรับเขียนโค้ดตัวเลขแบบเร่งพร้อมการแปลงที่ประกอบกันได้ JAX มีฟีเจอร์อย่างเช่น

  • grad (การแยกความแตกต่างโดยอัตโนมัติ)
  • jit (รวมคลิปแบบทันใจ)
  • vmap (การสร้างเวกเตอร์หรือแบบกลุ่มโดยอัตโนมัติ)
  • pmap (การโหลดพร้อมกัน)

JAX เป็นภาษาสำหรับแสดงและการประกอบการแปลงรหัสตัวเลขซึ่งคล้ายกับในขอบเขตที่ค่อนข้างกว้างกว่ามากสำหรับไลบรารี NumPy ของ Python (อันที่จริง ไลบรารี .numpy ภายใต้ JAX มีฟังก์ชันการทำงานเทียบเท่ากัน แต่ไลบรารี Python NumPy เวอร์ชันที่เขียนขึ้นใหม่ทั้งหมด)

JAX เหมาะสมอย่างยิ่งสำหรับการเร่งความเร็วให้กับงานด้านแมชชีนเลิร์นนิงจำนวนมากด้วยการเปลี่ยนรูปแบบโมเดลและข้อมูลให้อยู่ในรูปแบบที่เหมาะสำหรับการทำงานพร้อมกันทั้งในชิป Accelerator ของ GPU และ TPU

Flax, Optax, Pax และไลบรารีอื่นๆ อีกมากมายสร้างขึ้นด้วยโครงสร้างพื้นฐาน JAX

K

Keras

API แมชชีนเลิร์นนิงของ Python ยอดนิยม Keras เรียกใช้เฟรมเวิร์กการเรียนรู้เชิงลึกหลายรายการ รวมถึง TensorFlow ซึ่งดาวน์โหลดได้จาก tf.keras

เครื่อง Kernel Support Vector (KSVM)

อัลกอริทึมการจัดประเภทที่พยายามเพิ่มอัตรากำไรระหว่างคลาสเชิงบวกและคลาสลบโดยการจับคู่เวกเตอร์ข้อมูลอินพุตกับพื้นที่ที่มีมิติที่สูงขึ้น เช่น ลองนึกถึงปัญหาการจำแนกประเภทที่ชุดข้อมูลอินพุตมีฟีเจอร์เป็นร้อยๆ อย่าง เพื่อเพิ่มอัตรากำไรระหว่างชั้นบวกและชั้นลบให้ได้มากที่สุด KSVM สามารถจับคู่คุณลักษณะเหล่านั้นเข้ากับพื้นที่นับล้านมิติ KSVM ใช้ฟังก์ชันการสูญเสียผู้ใช้ที่เรียกว่าการสูญเสียบานพับ

คีย์พอยท์

#image

พิกัดของจุดสนใจหนึ่งๆ ในรูปภาพ ตัวอย่างเช่น สำหรับโมเดลการจดจำรูปภาพที่จำแนกชนิดดอกไม้ จุดสำคัญอาจเป็นจุดศูนย์กลางของแต่ละกลีบ ก้าน เกสรดอกไม้ และอื่นๆ

การตรวจสอบกากบาทในมุมพับ

อัลกอริทึมสำหรับการคาดการณ์ความสามารถของโมเดลในการทำให้ทั่วไปกับข้อมูลใหม่ k ใน k คูณหมายถึงจำนวนกลุ่มที่เท่ากันที่คุณแบ่งตัวอย่างชุดข้อมูลออก กล่าวคือ คุณฝึกและทดสอบโมเดล k เท่า สำหรับการฝึกและการทดสอบแต่ละรอบ จะมีกลุ่มที่ต่างกันคือชุดทดสอบ และกลุ่มที่เหลือทั้งหมดจะกลายเป็นชุดการฝึก หลังผ่านการฝึกและการทดสอบ k รอบ คุณจะคำนวณค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของเมตริกการทดสอบที่เลือก

เช่น สมมติว่าชุดข้อมูลประกอบด้วยตัวอย่าง 120 รายการ สมมติว่า คุณตัดสินใจตั้ง k เป็น 4 ดังนั้น หลังจากสับเปลี่ยนตัวอย่างแล้ว คุณจึงแบ่งชุดข้อมูลออกเป็น 4 กลุ่มเท่าๆ กัน ตัวอย่าง 30 กลุ่ม และดำเนินการฝึก/ทดสอบ 4 รอบ ดังนี้

ชุดข้อมูลแบ่งออกเป็น 4 กลุ่มตัวอย่างเท่าๆ กัน ในรอบที่ 1 จะใช้ 3 กลุ่มแรกสำหรับการฝึก ส่วนกลุ่มสุดท้ายจะใช้สำหรับการทดสอบ ในรอบที่ 2 จะใช้ 2 กลุ่มแรกและกลุ่มสุดท้ายสำหรับการฝึก ในขณะที่กลุ่มที่ 3 จะใช้สำหรับการทดสอบ ในรอบที่ 3 กลุ่มแรกและ 2 กลุ่มสุดท้ายจะใช้สำหรับการฝึก ขณะที่กลุ่มที่สองจะใช้สำหรับการทดสอบ
          ในรอบที่ 4 กลุ่มแรกจะใช้สำหรับการทดสอบ ในขณะที่ 3 กลุ่มสุดท้ายจะใช้สำหรับการฝึก

เช่น ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (MSE) อาจเป็นเมตริกที่มีความหมายมากที่สุดสำหรับโมเดลการถดถอยเชิงเส้น ดังนั้น คุณจะเห็นค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของ MSE ในทั้ง 4 รอบ

K-means

#clustering

อัลกอริทึม clustering ยอดนิยมที่จัดกลุ่มตัวอย่างในการเรียนรู้ที่ไม่มีการควบคุมดูแล โดยทั่วไปแล้ว อัลกอริทึม k-means จะทำสิ่งต่อไปนี้

  • การหาจุดศูนย์กลางที่ดีที่สุด (K Center Point) ที่ดีที่สุด (หรือที่เรียกว่าเซนทรอยด์)
  • กำหนดแต่ละตัวอย่างให้กับเซนทรอยด์ที่ใกล้ที่สุด ตัวอย่างที่อยู่ใกล้เซนทรอยด์เดียวกัน และอยู่ในกลุ่มเดียวกัน

อัลกอริทึม k-means จะเลือกตำแหน่งเซนทรอยด์เพื่อลดสี่เหลี่ยมจัตุรัสสะสมของระยะทางจากตัวอย่างแต่ละรายการจนถึงเซนทรอยด์ที่ใกล้ที่สุด

ตัวอย่างเช่น ลองพิจารณาแผนภาพความสูงสุนัขเทียบกับความกว้างของสุนัขต่อไปนี้

พล็อตคาร์ทีเซียนที่มีจุดข้อมูลหลายสิบจุด

ถ้า k=3 อัลกอริทึม k-means จะกำหนดเซนทรอยด์ 3 เซนทรอยด์ แต่ละตัวอย่างจะกำหนดให้กับเซนทรอยด์ที่ใกล้ที่สุดและแสดงผลได้ 3 กลุ่มคือ

พล็อตคาร์ทีเซียนเหมือนในภาพก่อนหน้า ยกเว้นที่เพิ่มเซนทรอยด์ 3 จุด
          จุดข้อมูลก่อนหน้านี้แบ่งออกเป็น 3 กลุ่มที่แตกต่างกัน โดยแต่ละกลุ่มจะแสดงจุดข้อมูลที่อยู่ใกล้กับเซนทรอยด์หนึ่งๆ มากที่สุด

ลองจินตนาการว่าผู้ผลิตรายหนึ่งต้องการกำหนดขนาดที่เหมาะกับเสื้อสเวตเตอร์ขนาดเล็ก กลาง และใหญ่สำหรับสุนัข เซนทรอยด์ทั้ง 3 หน่วยจะระบุความสูงเฉลี่ยและความกว้างเฉลี่ยของสุนัขแต่ละตัวในกลุ่มนั้น ดังนั้น ผู้ผลิตควรกำหนดขนาดเสื้อสเวตเตอร์ให้อยู่บนเซนทรอยด์ทั้ง 3 ขนาด โปรดทราบว่าตามปกติแล้วเซนทรอยด์ของคลัสเตอร์จะไม่ใช่ตัวอย่างในคลัสเตอร์

ภาพประกอบก่อนหน้าแสดง k-me สำหรับตัวอย่างที่มีเฉพาะ 2 ฟีเจอร์ (ความสูงและความกว้าง) โปรดทราบว่า k-means สามารถจัดกลุ่มตัวอย่าง ตามคุณลักษณะจำนวนมาก

มัธยฐาน k

#clustering

อัลกอริทึมการจัดกลุ่มเกี่ยวข้องอย่างใกล้ชิดกับ k-means ความแตกต่างในทางปฏิบัติระหว่างทั้ง 2 วิธีนี้มีดังนี้

  • ในรูป k-mean จะหาเซนทรอยด์โดยลดผลรวมของกำลังสองของระยะห่างระหว่างผู้สมัครเซนทรอยด์กับแต่ละตัวอย่าง
  • ในมัธยฐาน k เซนทรอยด์จะกำหนดโดยการลดผลรวมของระยะทางระหว่างผู้สมัครเซนทรอยด์กับแต่ละตัวอย่าง

โปรดทราบว่าคำจำกัดความของระยะทางก็แตกต่างกันดังนี้

  • k-means อาศัย ระยะห่างแบบยุคลิดจาก เซนทรอยด์ไปยังตัวอย่าง (ใน 2 มิติ ระยะทางแบบยุคลิดหมายถึงการใช้ทฤษฎีบทพีทาโกรัสเพื่อคำนวณด้านตรงข้ามมุมฉาก) เช่น ระยะทาง k ระหว่าง (2,2) กับ (5,-2) จะเท่ากับ
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-ค่ามัธยฐานจะอาศัย ระยะทางในแมนฮัตตัน จากเซนทรอยด์ไปยังตัวอย่าง ระยะทางนี้คือผลรวมของเดลต้าสัมบูรณ์ในแต่ละมิติข้อมูล เช่น ระยะทาง k-ค่ามัธยฐานระหว่าง (2,2) ถึง (5,-2) จะเป็นดังนี้
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

การกำหนดกฎ L0

#fundamentals

ประเภทของการทำให้เป็นมาตรฐานประเภทหนึ่งที่หักจำนวนทั้งหมดของน้ำหนักที่ไม่ใช่ 0 ในโมเดล ตัวอย่างเช่น โมเดลที่มีน้ำหนักที่ไม่ใช่ 0 จำนวน 11 รายการจะถูกลงโทษมากกว่าโมเดลที่คล้ายกันที่มีน้ำหนักที่ไม่ใช่ 0 เท่ากับ 10

บางครั้งการกำหนดกฎ L0 จะเรียกว่าการกำหนดมาตรฐาน L0-norm

L1 แพ้

#fundamentals

ฟังก์ชันการสูญเสียที่คำนวณค่าสัมบูรณ์ของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ลองดูการคำนวณหาค่าขาดทุน L1 ของกลุ่ม 5 ตัวอย่าง ดังต่อไปนี้

มูลค่าที่แท้จริงของตัวอย่าง ค่าที่คาดการณ์ไว้ของโมเดล ค่าสัมบูรณ์ของเดลต้า
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 แพ้

ค่าสูญเสีย L1 มีความไวต่อค่าผิดปกติน้อยกว่าการสูญเสียค่าระดับ L2

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์คือการสูญเสียเฉลี่ย L1 ต่อตัวอย่าง

การกำหนดกฎ L1

#fundamentals

ประเภทของการกำหนดรูปแบบที่ให้น้ำหนักเป็นสัดส่วนกับผลรวมของค่าสัมบูรณ์ของน้ำหนัก การกำหนดมาตรฐาน L1 จะช่วยเพิ่มน้ำหนักของฟีเจอร์ที่ไม่เกี่ยวข้องหรือแทบจะไม่มีความเกี่ยวข้องเป็น0 พอดี ระบบจะนำฟีเจอร์ที่มีน้ำหนักเป็น 0 ออกจากโมเดลได้อย่างมีประสิทธิภาพ

คอนทราสต์กับการกำหนดมาตรฐาน L2

L2 แพ้

#fundamentals

ฟังก์ชันการสูญหายที่คำนวณกำลังสองของผลต่างระหว่างค่า label จริงกับค่าที่ model คาดการณ์ ลองดูการคำนวณหาค่าขาดทุน L2 ของกลุ่ม 5 ตัวอย่าง ดังต่อไปนี้

มูลค่าที่แท้จริงของตัวอย่าง ค่าที่คาดการณ์ไว้ของโมเดล สี่เหลี่ยมจัตุรัสของเดลต้า
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 แพ้

เนื่องจากการยกกำลังสองจะทำให้การสูญเสีย L2 ขยายผลของค่าผิดปกติ กล่าวคือ การสูญเสีย L2 จะตอบสนองต่อการคาดการณ์ที่ไม่ดีเสียมากกว่าการขาดหาย L1 ตัวอย่างเช่น L1 สำหรับชุดก่อนหน้าจะเป็น 8 แทนที่จะเป็น 16 โปรดสังเกตว่าค่าผิดปกติเดียว มีค่าเท่ากับ 9 จาก 16

โดยทั่วไปแล้ว โมเดลการถดถอยจะใช้การสูญเสีย L2 เป็นฟังก์ชันการสูญเสีย

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสองคือการสูญเสียเฉลี่ย L2 ต่อตัวอย่าง การสูญเสียแบบแบ่งเป็นสองส่วนเป็นอีกชื่อหนึ่งของการสูญเสียแบบ L2

การกำหนดกฎ L2

#fundamentals

ประเภทของการทำให้เป็นมาตรฐานประเภทหนึ่งที่ให้น้ำหนักเป็นสัดส่วนกับผลรวมของกำลังสองของน้ำหนัก การกำหนดมาตรฐาน L2 จะช่วยเพิ่มน้ำหนักค่าผิดปกติ (ที่มีค่าบวกสูงหรือค่าลบต่ำ) เข้าใกล้ 0 มากขึ้นแต่ไม่ใช่ 0 ฟีเจอร์ที่มีค่าเข้าใกล้ 0 มากจะยังคงอยู่ในโมเดล แต่จะไม่ส่งผลต่อการคาดการณ์ของโมเดลมากนัก

การกำหนดกฎ L2 จะปรับปรุงการสรุปทั่วไปในโมเดลเชิงเส้นเสมอ

คอนทราสต์กับการกำหนดมาตรฐาน L1

ป้ายกำกับ

#fundamentals

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล ส่วน "คำตอบ" หรือ "ผลลัพธ์" ของตัวอย่าง

ตัวอย่างที่ติดป้ายกำกับแต่ละรายการประกอบด้วยฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ เช่น ในชุดข้อมูลการตรวจหาสแปม ป้ายกำกับอาจเป็น "สแปม" หรือ "ไม่ใช่สแปม" ในชุดข้อมูลปริมาณฝน ป้ายกำกับอาจเป็นปริมาณฝนที่ตกลงในช่วงระยะเวลาหนึ่ง

ตัวอย่างที่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มีฟีเจอร์อย่างน้อย 1 รายการและป้ายกำกับ ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่างที่มีป้ายกํากับ 3 ตัวอย่างจากโมเดลการประเมินราคาบ้าน โดยแต่ละแบบมีฟีเจอร์ 3 รายการและป้ายกํากับ 1 รายการ

จำนวนห้องนอน จำนวนห้องน้ำ อายุบ้าน ราคาบ้าน (ป้ายกำกับ)
3 2 15 10,350,000 บาท
2 1 72 179,000 ดอลลาร์
4 2 34 10,800,000 บาท

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกตัวอย่างที่ติดป้ายกำกับแล้วทำการคาดการณ์ในตัวอย่างที่ไม่มีป้ายกำกับ

เปรียบเทียบตัวอย่างที่มีป้ายกำกับกับตัวอย่างที่ไม่มีป้ายกำกับ

การรั่วไหลของป้ายกำกับ

ข้อบกพร่องในการออกแบบโมเดลซึ่งมีฟีเจอร์เป็นพร็อกซีสำหรับป้ายกำกับ เช่น ลองพิจารณาโมเดลการจัดประเภทแบบไบนารีที่คาดการณ์ว่าผู้มีโอกาสเป็นลูกค้าจะซื้อผลิตภัณฑ์หนึ่งๆ หรือไม่ สมมติว่าฟีเจอร์หนึ่งของโมเดลคือบูลีนชื่อ SpokeToCustomerAgent นอกจากนี้ สมมติว่ามีการกำหนดตัวแทนลูกค้าหลังจากที่ผู้มีโอกาสเป็นลูกค้าซื้อผลิตภัณฑ์ไปแล้วจริงๆ เท่านั้น ในระหว่างการฝึก โมเดลจะเรียนรู้การเชื่อมโยงระหว่าง SpokeToCustomerAgent กับป้ายกำกับอย่างรวดเร็ว

แลมบ์ดา

#fundamentals

คำพ้องความหมายของอัตราการทำให้เป็นมาตรฐาน

แลมบ์ดาเป็นคำที่บรรจบกันมากเกินไป ในที่นี้เราจะเน้นไปที่คำนิยามของคำศัพท์ ภายในการกำหนดรูปแบบประจำ

LaMDA (โมเดลภาษาสำหรับแอปพลิเคชันด้านการสนทนา)

#language

โมเดลภาษาขนาดใหญ่จาก Transformer ที่พัฒนาโดย Google ซึ่งได้รับการฝึกด้วยชุดข้อมูลการสนทนาขนาดใหญ่ที่สามารถสร้างคำตอบแบบบทสนทนาที่สมจริง

LaMDA: เทคโนโลยีการสนทนาอันล้ำหน้าช่วยให้คุณเห็นภาพรวมทั้งหมด

จุดสังเกต

#image

คำพ้องความหมายของ keypoints

โมเดลภาษา

#language

modelที่ประมาณความน่าจะเป็นของmodelหรือลำดับโทเค็นที่เกิดขึ้นในลำดับที่ยาวกว่าของโทเค็น

โมเดลภาษาขนาดใหญ่

#language

คำที่ไม่เป็นทางการซึ่งไม่มีคำจำกัดความที่แน่นอน ซึ่งมักหมายถึงโมเดลภาษาที่มีพารามิเตอร์จำนวนมาก โมเดลภาษาขนาดใหญ่บางโมเดลมีพารามิเตอร์มากกว่า 1 แสนล้านพารามิเตอร์

พื้นที่แฝง

#language

คำพ้องความหมายของ การฝังพื้นที่

ชั้น

#fundamentals

ชุดของเซลล์ประสาทในโครงข่ายประสาท เลเยอร์ทั่วไป 3 ประเภท มีดังนี้

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต 1 ชั้น เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต 1 ชั้น เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์ เลเยอร์อินพุตประกอบด้วย 2 ฟีเจอร์ ชั้นที่ซ่อนอยู่ชั้นแรกประกอบด้วยเซลล์ประสาท 3 เซลล์ และเซลล์ที่ซ่อนชั้นที่ 2 ประกอบด้วยเซลล์ประสาท 2 เซลล์ เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

ใน TensorFlow นั้น เลเยอร์ยังเป็นฟังก์ชัน Python ที่ใช้ Tensor และตัวเลือกการกำหนดค่าเป็นอินพุตและสร้าง Tensor อื่นๆ เป็นเอาต์พุตด้วย

Layer API (tf.layers)

#TensorFlow

TensorFlow API สำหรับสร้างโครงข่ายระบบประสาทเทียมระดับลึกเป็นองค์ประกอบของเลเยอร์ API เลเยอร์ช่วยให้คุณสร้างเลเยอร์ประเภทต่างๆ ได้ เช่น

dataLayer API จะเป็นไปตามรูปแบบ API ของเลเยอร์ของ Keras กล่าวคือ นอกจากคํานําหน้าที่แตกต่างกันแล้ว ฟังก์ชันทั้งหมดใน Layer API มีชื่อและลายเซ็นเหมือนกับฟังก์ชันใน Keras layers API

ใบไม้

#df

ปลายทางใดก็ตามในแผนผังการตัดสินใจ Leaf ไม่ได้ทำการทดสอบ ซึ่งต่างจาก condition แต่ใบไม้เป็นการคาดการณ์ที่เป็นไปได้ Leaf ยังเป็นโหนดเทอร์มินัลของเส้นทางการอนุมานด้วย

ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้มีใบ 3 ใบ

แผนผังการตัดสินใจที่มี 2 เงื่อนไขซึ่งนำไปสู่ 3 ใบ

เครื่องมือตีความการเรียนรู้ (LIT)

เครื่องมือการทำความเข้าใจโมเดลและการแสดงข้อมูลผ่านภาพแบบอินเทอร์แอกทีฟ

คุณสามารถใช้ LIT แบบโอเพนซอร์สเพื่อตีความโมเดลหรือเพื่อแสดงภาพข้อมูลที่เป็นข้อความ รูปภาพ และตาราง

อัตราการเรียนรู้

#fundamentals

จำนวนจุดลอยตัวที่บอกอัลกอริทึมของการไล่ระดับสี ในการปรับน้ำหนักและน้ำหนักของ การทำซ้ำแต่ละรายการ เช่น อัตราการเรียนรู้ที่ 0.3 จะปรับน้ำหนักและน้ำหนักพิเศษได้มากกว่าอัตราการเรียนรู้ที่ 0.1 ถึง 3 เท่า

อัตราการเรียนรู้คือพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่สำคัญ หากคุณกำหนดอัตราการเรียนรู้ต่ำเกินไป การฝึกจะใช้เวลานานเกินไป หากคุณกำหนดอัตราการเรียนรู้สูงเกินไป การไล่ระดับสีมักมีปัญหาในการเข้าถึงการสนทนา

การถดถอยกำลังสองน้อยที่สุด

โมเดลการถดถอยเชิงเส้นที่ได้รับการฝึกโดยการลด L2 Loss

เชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่สามารถแสดงผ่านการบวกและการคูณเพียงอย่างเดียว

พล็อตความสัมพันธ์เชิงเส้นคือเส้น

ตัดกับไม่ใช่เชิงเส้น

รูปแบบเชิงเส้น

#fundamentals

modelที่กำหนดmodel 1 รายการต่อmodelเพื่อสร้างmodel (รูปแบบเชิงเส้นมีอคติด้วย) ในทางตรงกันข้าม ความสัมพันธ์ของฟีเจอร์กับการคาดการณ์ในโมเดลเชิงลึกมักเป็นแบบไม่เชิงเส้น

รูปแบบเชิงเส้นมักจะฝึกได้ง่ายกว่าและตีความได้มากกว่าโมเดลเชิงลึก อย่างไรก็ตาม โมเดลเชิงลึกอาจเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างฟีเจอร์ต่างๆ ได้

การถดถอยเชิงเส้นและการถดถอยแบบโลจิสติกเป็นโมเดลเชิงเส้น 2 ประเภท

การถดถอยเชิงเส้น

#fundamentals

โมเดลแมชชีนเลิร์นนิงประเภทหนึ่งที่ทั้ง 2 เงื่อนไขต่อไปนี้เป็นจริง

เปรียบเทียบการถดถอยเชิงเส้นกับการถดถอยแบบโลจิสติก นอกจากนี้ยังเปรียบเทียบการถดถอยกับการแยกประเภทด้วย

ไฟ

ตัวย่อของ Learning Interpretability Tool (LIT) ซึ่งก่อนหน้านี้รู้จักกันในชื่อ Language Interpretability Tool

แอลแอลเอ็ม

#language

ตัวย่อของโมเดลภาษาขนาดใหญ่

การถดถอยแบบโลจิสติก

#fundamentals

ประเภทหนึ่งของโมเดลการถดถอยซึ่งคาดการณ์ความน่าจะเป็น โมเดลการถดถอยแบบโลจิสติกส์มีลักษณะดังต่อไปนี้

  • ป้ายกำกับเป็นหมวดหมู่ คำว่า "การถดถอยแบบโลจิสติกส์" มักจะหมายถึงการถดถอยแบบโลจิสติกแบบไบนารี ซึ่งก็คือโมเดลที่คำนวณความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้ 2 ค่า การถดถอยแบบพหุนามซึ่งเป็นตัวแปรที่พบน้อยกว่า จะคำนวณความน่าจะเป็นสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า
  • ฟังก์ชันการสูญหายระหว่างการฝึกคือ บันทึกการสูญหาย (คุณสามารถวางหน่วยการสูญเสียบันทึกหลายหน่วยพร้อมกันสำหรับป้ายกำกับที่มีค่าที่เป็นไปได้มากกว่า 2 ค่า)
  • โมเดลนี้มีสถาปัตยกรรมเชิงเส้น ไม่ใช่โครงข่ายระบบประสาทเทียมระดับลึก อย่างไรก็ตาม ส่วนที่เหลือของคำจำกัดความนี้ยังใช้กับโมเดลความลึกที่คาดการณ์ความน่าจะเป็นสำหรับป้ายกำกับหมวดหมู่ด้วย

ตัวอย่างเช่น ลองพิจารณาโมเดลการถดถอยแบบโลจิสติกส์ซึ่งคำนวณความเป็นไปได้ที่อีเมลอินพุตจะเป็นสแปมหรือไม่ใช่สแปม ระหว่างการอนุมาน สมมติว่าโมเดลคาดการณ์ 0.72 ดังนั้นโมเดลกำลังมีการประมาณ

  • มีโอกาส 72% ที่อีเมลจะเป็นสแปม
  • มีโอกาส 28% ที่อีเมลจะไม่เป็นสแปม

โมเดลการถดถอยแบบโลจิสติกใช้สถาปัตยกรรม 2 ขั้นตอนดังต่อไปนี้

  1. โมเดลจะสร้างการคาดการณ์ดิบ (y") โดยใช้ฟังก์ชันเชิงเส้นของฟีเจอร์อินพุต
  2. โมเดลนี้ใช้การคาดการณ์ดิบนั้นเป็นอินพุตสำหรับฟังก์ชัน sigmoid ซึ่งจะแปลงการคาดคะเนดิบให้เป็นค่าระหว่าง 0 ถึง 1 เท่านั้น

โมเดลการถดถอยแบบโลจิสติกจะคาดการณ์จำนวนเช่นเดียวกับโมเดลการถดถอยอื่นๆ อย่างไรก็ตาม ตัวเลขนี้มักจะเป็นส่วนหนึ่งของโมเดลการจัดประเภทแบบไบนารีดังนี้

  • หากจำนวนที่คาดการณ์มากกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสที่เป็นบวก
  • หากจำนวนที่คาดการณ์น้อยกว่าเกณฑ์การจัดประเภท โมเดลการจัดประเภทแบบไบนารีจะคาดการณ์คลาสลบ

Logits

เวกเตอร์ของการคาดการณ์ดิบ (ไม่ใช่ค่ามาตรฐาน) ที่โมเดลการจัดประเภทสร้างขึ้น ซึ่งตามปกติแล้วจะส่งไปยังฟังก์ชันการทำให้เป็นมาตรฐาน หากโมเดลกำลังแก้ปัญหาการแยกประเภทแบบหลายคลาส โดยทั่วไปแล้วโลจิตจะกลายเป็นอินพุตของฟังก์ชัน softmax จากนั้นฟังก์ชัน softmax จะสร้างเวกเตอร์ของความน่าจะเป็น (มาตรฐาน) ที่มีค่า 1 ค่าสำหรับแต่ละคลาสที่เป็นไปได้

การสูญหายของบันทึก

#fundamentals

ฟังก์ชัน Loss ที่ใช้ในการถดถอยแบบโลจิสติกแบบไบนารี

อัตราต่อรองลอการิทึม

#fundamentals

ลอการิทึมของความน่าจะเป็นของเหตุการณ์บางอย่าง

หน่วยความจำระยะสั้น (LSTM)

#seq

เซลล์ประเภทหนึ่งในโครงข่ายระบบประสาทเทียมแบบเกิดซ้ำซึ่งใช้ในการประมวลผลลำดับของข้อมูลในแอปพลิเคชัน เช่น การจดจำลายมือ การแปลด้วยคอมพิวเตอร์ และคำบรรยายแทนเสียงรูปภาพ LSTM จะจัดการกับปัญหาการไล่ระดับสีที่หายไปซึ่งเกิดขึ้นเมื่อฝึก RNN เนื่องจากลำดับข้อมูลที่ยาวด้วยการรักษาประวัติในสถานะหน่วยความจำภายใน โดยอิงตามอินพุตและบริบทใหม่จากเซลล์ก่อนหน้าใน RNN

LoRA

#language
#GenerativeAI

ตัวย่อของความสามารถในการปรับตัวระดับต่ำ

แพ้

#fundamentals

ระหว่างการฝึกโมเดลที่มีการควบคุมดูแล การวัดว่าการคาดคะเนของโมเดลนั้นอยู่ห่างจากป้ายกำกับแค่ไหน

ฟังก์ชันการสูญเสียจะคำนวณการสูญเสีย

ผู้รวบรวมข้อมูลการสูญเสีย

อัลกอริทึมประเภทหนึ่งของแมชชีนเลิร์นนิงที่ปรับปรุงประสิทธิภาพของโมเดลด้วยการรวมการคาดการณ์ของโมเดลหลายรายการเข้าด้วยกัน และใช้การคาดการณ์เหล่านั้นเพื่อสร้างการคาดการณ์รายการเดียว ด้วยเหตุนี้ ผู้รวบรวมข้อมูลการสูญเสียจะลดความแปรปรวนของการคาดการณ์และปรับปรุงความแม่นยําของการคาดการณ์ได้

กราฟแบบสูญเสียบางส่วน

#fundamentals

พล็อต loss ซึ่งเป็นฟังก์ชันของจำนวนการทำซ้ำการฝึก กราฟต่อไปนี้แสดงกราฟเส้นโค้งการสูญเสียลูกค้าทั่วไป

กราฟคาร์ทีเซียนของการสูญเสียเทียบกับการฝึกซ้ำ ซึ่งแสดงการลดลงอย่างรวดเร็วสำหรับการทำซ้ำครั้งแรก ตามด้วยการลดลงทีละน้อยและมีความลาดชันแบบราบเรียบในระหว่างการทำซ้ำครั้งสุดท้าย

เส้นโค้งการสูญเสียสามารถระบุได้ว่าโมเดลของคุณสนทนาหรือปรับมากเกินไปเมื่อใด

เส้นโค้งการสูญเสียสามารถพล็อตค่าความสูญเสียทุกประเภทต่อไปนี้

โปรดดูกราฟทั่วไปด้วย

ฟังก์ชันการสูญเสียผู้ใช้

#fundamentals

ในระหว่างการฝึกหัดหรือการทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่คำนวณความสูญเสียในกลุ่มตัวอย่าง ฟังก์ชันการสูญเสียการแสดงผลสำหรับโมเดลที่คาดการณ์ได้ดีจะสูญเสียค่าที่ต่ำกว่าโมเดลที่คาดการณ์ได้ไม่ดี

โดยทั่วไปเป้าหมายของการฝึกคือเพื่อลดการสูญเสียเมื่อฟังก์ชันการสูญเสียความสามารถในการทำงาน

มีฟังก์ชันการสูญเสียการใช้งานหลายประเภท เลือกฟังก์ชันการสูญเสียที่เหมาะสม สำหรับชนิดของโมเดลที่คุณกำลังสร้าง เช่น

แพลตฟอร์มการสูญเสียพื้นที่

กราฟแสดงน้ำหนักกับการสูญเสีย การไล่ระดับสีมีจุดประสงค์เพื่อหาน้ำหนักที่พื้นที่การสูญเสียพื้นที่น้อยที่สุด

ความสามารถในการปรับตัวระดับต่ำ (LoRA)

#language
#GenerativeAI

อัลกอริทึมสำหรับการทำการปรับแต่งอย่างมีประสิทธิภาพสำหรับพารามิเตอร์ที่ปรับแต่งเฉพาะชุดย่อยของพารามิเตอร์โมเดลภาษาขนาดใหญ่ LoRA มีประโยชน์ดังนี้

  • ปรับแต่งได้เร็วกว่าเทคนิคที่ต้องปรับแต่งพารามิเตอร์ของโมเดลทั้งหมดอย่างละเอียด
  • ลดค่าใช้จ่ายในการคำนวณของการอนุมานในรูปแบบที่ปรับแต่งแล้ว

โมเดลที่ปรับแต่งด้วย LoRA จะรักษาหรือปรับปรุงคุณภาพของการคาดการณ์

LoRA จะเปิดใช้เวอร์ชันพิเศษที่หลากหลายของโมเดล

แอลเอสที

#seq

ตัวย่อของหน่วยความจำระยะสั้น

M

แมชชีนเลิร์นนิง

#fundamentals

โปรแกรมหรือระบบที่ฝึกโมเดลจากข้อมูลอินพุต โมเดลที่ผ่านการฝึกสามารถ ทำการคาดการณ์ที่เป็นประโยชน์จากข้อมูลใหม่ (ไม่เคยเห็นมาก่อน) ที่มาจากการกระจายเดียวกันกับที่ใช้ในการฝึกโมเดล

แมชชีนเลิร์นนิงหมายถึงสาขาวิชาที่เกี่ยวข้องกับโปรแกรมหรือระบบเหล่านี้

ชนกลุ่มใหญ่

#fundamentals

ป้ายกำกับที่เหมือนกันมากกว่าในชุดข้อมูลที่ไม่สมดุลคลาส เช่น ชุดข้อมูลที่มีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงลบคือคลาสส่วนใหญ่

คอนทราสต์กับชนกลุ่มน้อย

กระบวนการตัดสินใจของ Markov (MDP)

#rl

กราฟแสดงรูปแบบการตัดสินใจซึ่งมีการตัดสินใจ (หรือการดำเนินการ) เพื่อไปยังลําดับของสถานะภายใต้สมมติฐานที่ว่าพร็อพเพอร์ตี้ Markov มีข้อมูลอยู่ ในการเรียนรู้แบบสนับสนุน การเปลี่ยนระหว่างรัฐเหล่านี้จะแสดงรางวัลที่เป็นตัวเลข

พร็อพเพอร์ตี้ของมาร์คอฟ

#rl

พร็อพเพอร์ตี้ของสภาพแวดล้อมบางอย่าง โดยที่การเปลี่ยนสถานะจะกำหนดโดยข้อมูลโดยนัยในสถานะปัจจุบันและการดำเนินการของตัวแทน

โมเดลภาษามาสก์

#language

โมเดลภาษาที่คาดการณ์ความน่าจะเป็นของโทเค็นของผู้สมัครที่จะเติมข้อมูลในช่องว่างตามลำดับ ตัวอย่างเช่น โมเดลภาษามาสก์สามารถคำนวณความน่าจะเป็นสำหรับคำที่รอการพิจารณาซึ่งจะแทนที่การขีดเส้นใต้ในประโยคต่อไปนี้

____ ในหมวกก็กลับมา

โดยปกติแล้ว วรรณกรรมจะใช้สตริง "MASK" แทนขีดล่าง เช่น

"MASK" ใส่หมวกกลับมา

โมเดลภาษาที่มีการมาสก์สมัยใหม่ส่วนใหญ่จะเป็นแบบ2 ทิศทาง

Matplotlib

ไลบรารีการพล็อต Python 2D แบบโอเพนซอร์ส matplotlib ช่วยให้คุณเห็นภาพแง่มุมต่างๆ ของแมชชีนเลิร์นนิง

การแยกตัวประกอบเมทริกซ์

#recsystems

ในทางคณิตศาสตร์ กลไกในการหาเมทริกซ์ที่ผลคูณของจุดคล้ายกับเมทริกซ์เป้าหมาย

ในระบบการแนะนำ เมทริกซ์เป้าหมายมักจะเก็บคะแนนของผู้ใช้ใน items ตัวอย่างเช่น เมทริกซ์เป้าหมายสำหรับระบบการแนะนำภาพยนตร์อาจมีลักษณะดังนี้ ซึ่งจำนวนเต็มบวกคือการให้คะแนนของผู้ใช้ และ 0 หมายความว่าผู้ใช้ไม่ได้ให้คะแนนภาพยนตร์

  คาสซาบลางกา เรื่องราวของฟิลาเดลเฟีย แบล็ค แพนเธอร์ (Black Panther) ผู้หญิงมหัศจรรย์ นิยายเกี่ยวกับเนื้อเรื่อง
ผู้ใช้ 1 5.0 3.0 0.0 2.0 0.0
ผู้ใช้ 2 4.0 0.0 0.0 1.0 5.0
ผู้ใช้ 3 3.0 1.0 4.0 5.0 0.0

ระบบการแนะนำภาพยนตร์มีวัตถุประสงค์เพื่อคาดการณ์การให้คะแนนของผู้ใช้สำหรับภาพยนตร์ที่ไม่มีการจัดประเภท เช่น ผู้ใช้ 1 จะชอบ Black Panther ไหม

วิธีหนึ่งสำหรับระบบการแนะนำคือการใช้การแยกตัวประกอบเมทริกซ์ เพื่อสร้างเมทริกซ์ 2 รายการต่อไปนี้

เช่น การใช้การแยกตัวประกอบเมทริกซ์กับผู้ใช้ 3 รายและ 5 รายการของเราอาจให้ผลลัพธ์เป็นเมทริกซ์ผู้ใช้และเมทริกซ์รายการดังต่อไปนี้

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

ผลคูณของจุดของเมทริกซ์ผู้ใช้และรายการเมทริกซ์รายการจะแสดงเมทริกซ์คำแนะนำที่ไม่เพียงแค่การให้คะแนนของผู้ใช้ดั้งเดิม แต่ยังคาดการณ์ภาพยนตร์ที่ผู้ใช้แต่ละรายไม่ได้ดูด้วย เช่น ลองพิจารณาคะแนน Casablanca จากผู้ใช้ 1 ซึ่งเท่ากับ 5.0 ผลิตภัณฑ์จุดที่เกี่ยวข้องกับเซลล์นั้นในเมทริกซ์คำแนะนำควรอยู่ที่ประมาณ 5.0 และมีลักษณะดังนี้

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

ยิ่งไปกว่านั้น ผู้ใช้ 1 จะชอบ Black Panther ไหม การใช้จุดคูณกับแถวแรกและคอลัมน์ที่ 3 จะได้คะแนนที่คาดการณ์ไว้ที่ 4.3

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

โดยทั่วไปการแยกตัวประกอบเมทริกซ์จะให้เมทริกซ์ผู้ใช้และเมทริกซ์รายการเมื่อรวมกันแล้วจะมีขนาดกะทัดรัดมากกว่าเมทริกซ์เป้าหมายอย่างมาก

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ (MAE)

การสูญเสียเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญหายของ L1 คำนวณค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ดังนี้

  1. คำนวณการขาดทุน L1 ของแบทช์
  2. หารค่าสูญเสีย L1 ด้วยจำนวนตัวอย่างในกลุ่ม

ตัวอย่างเช่น ลองคำนวณการขาดทุน L1 ของตัวอย่าง 5 รายการต่อไปนี้

มูลค่าที่แท้จริงของตัวอย่าง ค่าที่คาดการณ์ไว้ของโมเดล การสูญเสีย (ความแตกต่างระหว่างค่าจริงและที่คาดการณ์ไว้)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 แพ้

ดังนั้น L1 จึงเป็น 8 และจำนวนตัวอย่างคือ 5 ดังนั้น ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์จึงเป็นดังนี้

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ของคอนทราสต์ที่มีข้อผิดพลาดค่าเฉลี่ยกำลังสอง และข้อผิดพลาดค่าเฉลี่ยกำลังสองของราก

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (MSE)

การสูญเสียเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญหายของ L2 คำนวณความคลาดเคลื่อนกำลังสองเฉลี่ยดังนี้

  1. คำนวณการขาดทุน L2 ของแบทช์
  2. หารค่า L2 ด้วยจำนวนตัวอย่างในกลุ่ม

ตัวอย่างเช่น พิจารณาการสูญเสียสำหรับกลุ่มตัวอย่าง 5 ข้อต่อไปนี้

มูลค่าที่แท้จริง การคาดการณ์ของโมเดล แพ้ แพ้ในสี่เหลี่ยม
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 แพ้

ดังนั้น ความคลาดเคลื่อนค่าเฉลี่ยกำลังสองคือ

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสองคือเครื่องมือเพิ่มประสิทธิภาพการฝึกยอดนิยม โดยเฉพาะการถดถอยเชิงเส้น

ข้อผิดพลาดค่าเฉลี่ยคอนทราสต์กำลังสองที่มี ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์และข้อผิดพลาดค่าเฉลี่ยกำลังสองของราก

TensorFlow Playground ใช้ค่าเฉลี่ยความคลาดเคลื่อนกำลังสองเพื่อคำนวณค่าการสูญเสีย

Mesh

#TensorFlow
#GoogleCloud

ในการเขียนโปรแกรม ML พร้อมกัน คำที่เชื่อมโยงกับการกำหนดข้อมูลและโมเดลให้กับชิป TPU และกำหนดวิธีการชาร์ดหรือจำลองค่าเหล่านี้

Mesh เป็นคำที่มีคนใช้งานหนักเกินไป ซึ่งอาจหมายถึงข้อใดข้อหนึ่งต่อไปนี้

  • เลย์เอาต์ทางกายภาพของชิป TPU
  • โครงสร้างเชิงตรรกะแบบนามธรรมสำหรับการแมปข้อมูลและโมเดลกับชิป TPU

ไม่ว่าในกรณีใดก็ตาม ตาข่ายจะถูกระบุเป็นรูปร่าง

การเรียนรู้เมตา

#language

ชุดย่อยของแมชชีนเลิร์นนิงที่ค้นพบหรือปรับปรุงอัลกอริทึมการเรียนรู้ ระบบการเรียนรู้เมตายังมีเป้าหมายในการฝึกโมเดลให้เรียนรู้งานใหม่อย่างรวดเร็วจากข้อมูลจำนวนน้อยหรือจากประสบการณ์ที่ได้รับจากงานก่อนหน้า โดยทั่วไป อัลกอริทึมของการเรียนรู้เมตาจะพยายามทำให้สำเร็จดังต่อไปนี้

  • ปรับปรุงหรือเรียนรู้ฟีเจอร์ที่ออกแบบเองด้วยมือ (เช่น โปรแกรมเริ่มต้นหรือเครื่องมือเพิ่มประสิทธิภาพ)
  • ประหยัดข้อมูลและการประมวลผลได้มากขึ้น
  • ปรับปรุงการสรุป

การเรียนรู้เมตาเกี่ยวข้องกับการเรียนรู้เพียงสั้นๆ

เมตริก

#TensorFlow

สถิติที่คุณสนใจ

วัตถุประสงค์คือเมตริกที่ระบบแมชชีนเลิร์นนิงพยายามเพิ่มประสิทธิภาพ

Metrics API (tf.metrics)

TensorFlow API สำหรับการประเมินโมเดล ตัวอย่างเช่น tf.metrics.accuracy จะกำหนดความถี่ที่การคาดการณ์ของโมเดลตรงกับป้ายกำกับ

มินิแบตช์

#fundamentals

ชุดย่อยขนาดเล็กที่เลือกแบบสุ่มของกลุ่มหนึ่งๆ จะประมวลผลในการปรับปรุงครั้งเดียว ขนาดกลุ่มของมินิแบตช์มักจะอยู่ระหว่าง 10 ถึง 1,000 ตัวอย่าง

ตัวอย่างเช่น สมมติว่าชุดการฝึกทั้งชุด (ทั้งชุด) ประกอบด้วยตัวอย่าง 1,000 รายการ สมมติว่าคุณกำหนดขนาดกลุ่มของมินิแบตช์แต่ละชุดเป็น 20 ดังนั้น การปรับปรุงแต่ละครั้งจะเป็นตัวกำหนดการสูญเสียจากตัวอย่างแบบสุ่ม 20 จาก 1,000 ราย จากนั้นจึงปรับน้ำหนักและอคติตามความเหมาะสม

การคำนวณความสูญเสียในมินิแบตช์จะมีประสิทธิภาพมากกว่าการสูญเสียจากตัวอย่างทั้งหมดในแบตช์ทั้งหมด

การไล่ระดับสีแบบสโทแคสติกแบบมินิแบตช์

อัลกอริทึมการไล่ระดับสีที่ใช้กลุ่มขนาดเล็ก อีกนัยหนึ่งคือ การไล่ระดับสีแบบมินิแบตช์แบบสโทแคสติกจะประมาณการไล่ระดับสีตามข้อมูลการฝึกบางส่วน การไล่ระดับสีแบบสโตแคสติกปกติจะใช้กลุ่มขนาดเล็กของขนาด 1

Minimax สูญหาย

ฟังก์ชันการสูญเสียสำหรับเครือข่ายที่ไม่พึงประสงค์ในรูปแบบ ซึ่งอิงตามครอสเอนโทรปีระหว่างการกระจายข้อมูลที่สร้างขึ้นกับข้อมูลจริง

การสูญเสียการมองเห็นขั้นต่ำจะใช้ในเอกสารฉบับแรก เพื่ออธิบายเครือข่ายที่ทำให้เกิดโรคไม่พึงประสงค์

ชนกลุ่มน้อย

#fundamentals

ป้ายกำกับที่พบน้อยกว่าในชุดข้อมูลที่ไม่สมดุลของคลาส ตัวอย่างเช่น สำหรับชุดข้อมูลที่มีป้ายกำกับเชิงลบ 99% และป้ายกำกับเชิงบวก 1% ป้ายกำกับเชิงบวกคือคลาสของชนกลุ่มน้อย

คอนทราสต์กับคลาสส่วนใหญ่

ML

ตัวย่อของแมชชีนเลิร์นนิง

MNIST

#image

ชุดข้อมูลสาธารณสมบัติที่รวบรวมโดย LeCun, Cortes และ Burges ที่มีภาพ 60,000 ภาพ แต่ละภาพแสดงให้เห็นว่ามนุษย์เขียนตัวเลขเฉพาะจาก 0-9 ด้วยตนเอง รูปภาพแต่ละรูปจะจัดเก็บเป็นอาร์เรย์ 28x28 โดยจำนวนเต็มแต่ละรูปจะมีค่าโทนสีเทาอยู่ระหว่าง 0 ถึง 255

MNIST คือชุดข้อมูล Canonical สำหรับแมชชีนเลิร์นนิง ซึ่งมักจะใช้เพื่อทดสอบแนวทางใหม่ๆ ของแมชชีนเลิร์นนิง ดูรายละเอียดได้ที่ ฐานข้อมูล MNIST ของตัวเลขที่เขียนด้วยลายมือ

รูปแบบ

#language

หมวดหมู่ข้อมูลระดับสูง ตัวอย่างเช่น ตัวเลข ข้อความ รูปภาพ วิดีโอ และเสียง เป็นวิธีการที่แตกต่างกัน 5 แบบ

model

#fundamentals

โดยทั่วไปแล้ว โครงสร้างทางคณิตศาสตร์ใดๆ ที่ประมวลผลข้อมูลอินพุตและแสดงผลเอาต์พุต โมเดลคือชุดพารามิเตอร์และโครงสร้างที่ระบบต้องการสำหรับการคาดการณ์ เมื่อมีวลีที่แตกต่างกัน ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะใช้ตัวอย่างเป็นอินพุตและอนุมานการคาดคะเนเป็นเอาต์พุต ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะแตกต่างกันบ้าง เช่น

คุณสามารถบันทึก คืนค่า หรือทำสำเนาโมเดลได้

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลจะสร้างโมเดลด้วย ซึ่งโดยทั่วไปจะเป็นฟังก์ชันที่แมปตัวอย่างอินพุตกับคลัสเตอร์ที่เหมาะสมที่สุดได้

ความจุโมเดล

ความซับซ้อนของโจทย์ที่โมเดลเรียนรู้ได้ ยิ่งโมเดลเรียนรู้ปัญหาที่ซับซ้อนมากเท่าใด ความจุของโมเดลก็จะยิ่งสูงขึ้นเท่านั้น ความจุของโมเดลมักจะเพิ่มขึ้นตามจำนวนพารามิเตอร์โมเดล ดูคำจำกัดความอย่างเป็นทางการของความจุของเครื่องมือแยกประเภทได้ที่มิติข้อมูล VC

การต่อเรียงโมเดล

#GenerativeAI

ระบบที่เลือกmodelที่เหมาะที่สุดสำหรับการค้นหาการอนุมานที่เฉพาะเจาะจง

ลองนึกถึงกลุ่มโมเดล ซึ่งมีตั้งแต่ขนาดใหญ่มาก (พารามิเตอร์จำนวนมาก) ไปจนถึงเล็กลงมาก (พารามิเตอร์น้อยกว่านี้มาก) โมเดลขนาดใหญ่มากจะใช้ทรัพยากรการคำนวณในเวลาที่ inference มากกว่าโมเดลขนาดเล็ก อย่างไรก็ตาม โมเดลที่มีขนาดใหญ่มากมักจะอนุมานคำขอที่ซับซ้อนกว่าโมเดลขนาดเล็กได้ การต่อโมเดลจะกำหนดความซับซ้อนของการค้นหาการอนุมาน แล้วเลือกโมเดลที่เหมาะสมเพื่อดำเนินการอนุมาน แรงจูงใจหลักสำหรับการต่อเรียงโมเดลคือการลดต้นทุนการอนุมานโดยโดยทั่วไปจะเลือกโมเดลขนาดเล็กและเลือกรูปแบบที่ใหญ่กว่าสำหรับการค้นหาที่ซับซ้อนกว่า

ลองนึกภาพว่าโมเดลขนาดเล็กทำงานบนโทรศัพท์และโมเดลขนาดใหญ่ทำงานบนเซิร์ฟเวอร์ระยะไกล การต่อเรียงโมเดลที่ดีจะลดต้นทุนและเวลาในการตอบสนองโดยการทำให้โมเดลขนาดเล็กสามารถจัดการคำของ่ายๆ และการเรียกใช้เฉพาะโมเดลระยะไกลเพื่อจัดการคำขอที่ซับซ้อน

ดูเพิ่มเติมได้ที่เราเตอร์โมเดล

การทำงานพร้อมกันของโมเดล

#language

วิธีปรับขนาดการฝึกหรือการอนุมานที่นำส่วนต่างๆ ของmodelหนึ่งไปไว้ในmodelที่ต่างกัน การทำงานพร้อมกันของโมเดล ทำให้โมเดลที่ขนาดใหญ่เกินกว่าที่จะพอดีกับอุปกรณ์ 1 เครื่อง

หากต้องการใช้โมเดลคู่ขนาน ระบบมักจะดำเนินการดังต่อไปนี้

  1. ชาร์ด (แบ่ง) โมเดลออกเป็นส่วนเล็กๆ
  2. กระจายการฝึกของชิ้นส่วนขนาดเล็กเหล่านั้นในโปรเซสเซอร์หลายตัว ตัวประมวลผลแต่ละตัวจะฝึกส่วนของโมเดลของตัวเอง
  3. รวมผลลัพธ์เพื่อสร้างรูปแบบเดียว

โมเดลคู่ขนานทำให้การฝึกช้าลง

โปรดดูเพิ่มเติมที่ข้อมูลที่ทำงานพร้อมกัน

เราเตอร์โมเดล

#GenerativeAI

อัลกอริทึมที่กำหนด model ในอุดมคติสำหรับการอนุมานในโมเดลต่อเรียง โดยทั่วไปแล้ว เราเตอร์โมเดลจะเป็นโมเดลแมชชีนเลิร์นนิงที่ค่อยๆ เรียนรู้วิธีเลือกรูปแบบที่ดีที่สุดสำหรับอินพุตหนึ่งๆ แต่บางครั้งเราเตอร์โมเดลอาจเป็นอัลกอริทึมการเรียนรู้ที่ไม่ใช่เครื่องจักรซึ่งง่ายกว่า

การฝึกโมเดล

กระบวนการเลือกmodelที่ดีที่สุด

สร้างกระแส

อัลกอริทึมการไล่ระดับสีแบบซับซ้อนซึ่งขั้นตอนการเรียนรู้จะขึ้นอยู่กับอนุพันธ์ในขั้นตอนปัจจุบันเท่านั้น แต่รวมถึงอนุพันธ์ของขั้นตอนที่เกิดขึ้นก่อนหน้าทันทีด้วย โมเมนตัมเกี่ยวข้องกับการคำนวณค่าเฉลี่ยเคลื่อนที่แบบเอ็กซ์โปเนนเชียลของการไล่ระดับสีเมื่อเวลาผ่านไป ซึ่งเปรียบเสมือนกับโมเมนตัมในฟิสิกส์ บางครั้งโมเมนตัมจะทำให้การเรียนรู้ไม่ติดขัด

การจัดประเภทแบบหลายคลาส

#fundamentals

ในการเรียนรู้ภายใต้การควบคุมดูแล ปัญหาการจัดประเภทที่ชุดข้อมูลมีป้ายกำกับมากกว่า 2 คลาส ตัวอย่างเช่น ป้ายกำกับในชุดข้อมูล Iris ต้องเป็น 1 ใน 3 คลาสต่อไปนี้

  • ไอริส เซโตซา
  • ดอกไอริสบริสุทธิ์
  • สีไอริส

โมเดลที่ได้รับการฝึกในชุดข้อมูล Iris ที่คาดการณ์ประเภท Iris ในตัวอย่างใหม่กำลังทำการจัดประเภทแบบหลายคลาส

ในทางตรงกันข้าม ปัญหาการจัดประเภทที่แยกระหว่าง 2 คลาสคือโมเดลการจัดประเภทแบบไบนารี เช่น โมเดลอีเมลที่คาดการณ์ว่าสแปมหรือไม่ใช่จดหมายขยะคือโมเดลการจัดประเภทแบบไบนารี

ในโจทย์คลัสเตอร์ การจัดประเภทแบบหลายคลาสหมายถึงคลัสเตอร์ที่มีมากกว่า 2 คลัสเตอร์

การถดถอยแบบโลจิสติกแบบหลายคลาส

การใช้การถดถอยแบบโลจิสติกในโจทย์การแยกประเภทแบบหลายคลาส

ความสนใจตนเองแบบหลายศีรษะ

#language

ส่วนขยายของความสนใจตนเองที่ใช้กลไกการดึงดูดตัวเองหลายครั้งสำหรับแต่ละตำแหน่งในลำดับอินพุต

Transformers เปิดตัวความสนใจในตัวระบบแบบหลายหัว

โมเดลสื่อหลากรูปแบบ

#language

โมเดลที่มีอินพุตและ/หรือเอาต์พุตมีรูปแบบมากกว่า 1 เช่น ลองพิจารณาโมเดลที่ใช้ทั้งรูปภาพและคำอธิบายภาพ (วิธีการ 2 รูปแบบ) เป็นฟีเจอร์ และแสดงผลคะแนนที่ระบุว่าคำบรรยายข้อความเหมาะสมสำหรับรูปภาพมากน้อยเพียงใด อินพุตของโมเดลนี้เป็นแบบมัลติโมดัลและเอาต์พุตจะเป็นแบบเอกพจน์

การจัดประเภทพหุนาม

คำพ้องความหมายของการแยกประเภทแบบหลายชั้นเรียน

การถดถอยพหุนาม

คำพ้องของ การถดถอยแบบโลจิสติกแบบหลายคลาส

ทำงานหลายอย่างพร้อมกัน

เทคนิคแมชชีนเลิร์นนิงที่มีการฝึกmodelเดียวให้ทำงานหลายmodel

โมเดลมัลติทาสก์สร้างโดยการฝึกข้อมูลที่เหมาะสำหรับแต่ละงาน วิธีนี้จะช่วยให้โมเดลเรียนรู้การแชร์ข้อมูล ระหว่างงานต่างๆ ซึ่งช่วยให้โมเดลเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้น

โมเดลที่ได้รับการฝึกสำหรับงานหลายอย่างมักมีความสามารถในการมองข้อมูลทั่วไปที่ดีกว่าเดิม และสามารถจัดการข้อมูลประเภทต่างๆ ได้อย่างมีประสิทธิภาพยิ่งขึ้น

N

กับดัก NaN

เมื่อตัวเลขหนึ่งในโมเดลของคุณกลายเป็น NaN ในระหว่างการฝึก ซึ่งจะทำให้ตัวเลขอื่นๆ จำนวนมากหรือทั้งหมดในโมเดลของคุณกลายเป็น NaN ในท้ายที่สุด

NaN เป็นตัวย่อของ Not a Number

ความเข้าใจภาษาธรรมชาติ

#language

การพิจารณาความตั้งใจของผู้ใช้ตามสิ่งที่ผู้ใช้พิมพ์หรือพูด ตัวอย่างเช่น เครื่องมือค้นหาจะใช้ความเข้าใจด้วยภาษาที่เป็นธรรมชาติเพื่อพิจารณาสิ่งที่ผู้ใช้กำลังค้นหาตามสิ่งที่ผู้ใช้พิมพ์หรือพูด

คลาสเชิงลบ

#fundamentals

ในการจัดประเภทแบบไบนารี คลาสหนึ่งเรียกว่าผลบวก ส่วนอีกชั้นเรียกว่าผลลบ คลาสเชิงบวกคือสิ่งของหรือเหตุการณ์ที่โมเดลกำลังทดสอบ และคลาสเชิงลบเป็นอีกความเป็นไปได้ เช่น

  • กลุ่มระดับลบในการทดสอบทางการแพทย์อาจเป็น "ไม่ใช่เนื้องอก"
  • ระดับเชิงลบในตัวแยกประเภทอีเมลอาจ "ไม่ใช่สแปม"

คอนทราสต์กับคลาสเชิงบวก

การสุ่มตัวอย่างเชิงลบ

คำพ้องของการสุ่มตัวอย่างผู้สมัคร

Neural Architecture Search (NAS)

เทคนิคในการออกแบบสถาปัตยกรรมของโครงข่ายระบบประสาทเทียมโดยอัตโนมัติ อัลกอริทึมของ NAS สามารถลดเวลาและทรัพยากร ที่ต้องใช้ในการฝึกโครงข่ายประสาท

โดยทั่วไปแล้ว NAS จะใช้สิ่งต่อไปนี้

  • พื้นที่สำหรับค้นหา ซึ่งเป็นชุดสถาปัตยกรรมที่เป็นไปได้
  • ฟังก์ชันการออกกำลังกาย ซึ่งเป็นการวัดว่าสถาปัตยกรรมแต่ละอย่างทำงานได้ดีเพียงใด

อัลกอริทึมของ NAS มักเริ่มต้นด้วยชุดสถาปัตยกรรมเล็กๆ ที่เป็นไปได้ และค่อยๆ ขยายพื้นที่การค้นหาเมื่ออัลกอริทึมได้เรียนรู้เพิ่มเติมว่าสถาปัตยกรรมใดที่มีประสิทธิภาพ ฟังก์ชันการออกกำลังกายมักอิงตามประสิทธิภาพของสถาปัตยกรรมในชุดการฝึก และอัลกอริทึมมักจะได้รับการฝึกโดยใช้เทคนิคการเรียนรู้แบบเสริมกำลัง

อัลกอริทึมของ NAS ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพในการค้นหาสถาปัตยกรรมที่มีประสิทธิภาพสูงสำหรับงานต่างๆ ซึ่งรวมถึงการจัดประเภทรูปภาพ การจัดประเภทข้อความ และการแปลด้วยคอมพิวเตอร์

โครงข่ายระบบประสาทเทียม

#fundamentals

modelที่มีmodelอย่างน้อย 1 รายการ โครงข่ายประสาทแบบลึกคือโครงข่ายระบบประสาทเทียมประเภทหนึ่งที่มีเลเยอร์ซ่อนอยู่มากกว่า 1 ชั้น ตัวอย่างเช่น แผนภาพต่อไปนี้แสดงโครงข่ายประสาทแบบลึกที่มีเลเยอร์ที่ซ่อนอยู่ 2 ชั้น

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

เซลล์ประสาทแต่ละเซลล์ในเครือข่ายประสาทเทียมจะเชื่อมต่อกับโหนดทั้งหมดในชั้นถัดไป ตัวอย่างเช่น ในแผนภาพก่อนหน้านี้ ให้สังเกตว่าเซลล์ประสาท 3 ตัวในเลเยอร์ที่ซ่อนอยู่แต่ละเซลล์แยกกันจะเชื่อมต่อกับเซลล์ประสาททั้ง 2 ตัวในชั้นที่ 2 ที่ซ่อนอยู่

ในบางครั้ง โครงข่ายประสาทที่ใช้งานในคอมพิวเตอร์เรียกว่าโครงข่ายประสาทเทียม เพื่อแยกออกจากโครงข่ายประสาทที่พบในสมองและระบบประสาทอื่นๆ

โครงข่ายประสาทบางเครือข่ายอาจเลียนแบบความสัมพันธ์ที่ไม่เป็นเชิงเส้นและ ซับซ้อนอย่างมากระหว่างฟีเจอร์ต่างๆ และป้ายกำกับ

โปรดดูโครงข่ายระบบประสาทเทียมแบบ Convolutional และโครงข่ายระบบประสาทเทียมแบบเกิดซ้ำ

เซลล์ประสาท

#fundamentals

ในแมชชีนเลิร์นนิง หน่วยเฉพาะภายในชั้นที่ซ่อนอยู่ของโครงข่ายระบบประสาท เซลล์ประสาทแต่ละเซลล์จะทำงาน แบบ 2 ขั้นตอนดังนี้

  1. คำนวณผลรวมถ่วงน้ำหนักของค่าอินพุตคูณด้วยน้ำหนักที่เกี่ยวข้อง
  2. ส่งต่อผลรวมถ่วงน้ำหนักเป็นอินพุตไปยังฟังก์ชันการเปิดใช้งาน

เซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่ชั้นแรกจะยอมรับอินพุตจากค่าฟีเจอร์ในเลเยอร์อินพุต เซลล์ประสาทในชั้นที่ซ่อนอยู่นอกเหนือเซลล์แรกจะรับอินพุตจากเซลล์ประสาทในชั้นที่ซ่อนอยู่ก่อนหน้า ตัวอย่างเช่น เซลล์ประสาทในชั้นที่ 2 ที่ซ่อนอยู่จะยอมรับอินพุตจากเซลล์ประสาทในชั้นที่ซ่อนชั้นแรก

ภาพต่อไปนี้ไฮไลต์เซลล์ประสาท 2 เซลล์และอินพุตของเซลล์ประสาท

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต มีการไฮไลต์เซลล์ประสาท 2 ตัว ได้แก่ เซลล์แรกในเลเยอร์ที่ซ่อนอยู่และเซลล์หนึ่งอยู่ในเลเยอร์ที่ซ่อนอยู่อีกชั้นหนึ่ง เซลล์ประสาทที่ไฮไลต์ในเลเยอร์แรกที่ซ่อนอยู่จะได้รับอินพุตจากทั้ง 2 ฟีเจอร์ในเลเยอร์อินพุต เซลล์ประสาทที่ไฮไลต์ในชั้นที่ 2 ที่ซ่อนอยู่จะได้รับอินพุตจากเซลล์ประสาทแต่ละเซลล์ 3 เซลล์ในชั้นที่ซ่อนอยู่ชั้นแรก

เซลล์ประสาทในโครงข่ายประสาทจะเลียนแบบพฤติกรรมของเซลล์ประสาทในสมองและส่วนอื่นๆ ของระบบประสาท

เอ็นกรัม

#seq
#language

การเรียงลำดับของ N คำ เช่น บ้าจริง คือ 2 กรัม เนื่องจากการสั่งซื้อนั้นเกี่ยวข้อง จริงๆ แล้วจริงเหรอ ถึงจะแตกต่างจาก trulymadly ขนาด 2 กรัม

N ชื่อของ N-gram ประเภทนี้ ตัวอย่าง
2 Bigram หรือ 2 กรัม ไป ไป กินข้าวกลางวัน มื้อเย็น
3 ไตรแกรม หรือ 3 กรัม กินมากเกินไป หนูตาบอด 3 ตัว ค่าโทร
4 4 กรัม เดินเล่นในสวนสาธารณะ สัมผัสสายลม เด็กหนุ่มกินถั่วเลนทิล

โมเดลการทำความเข้าใจภาษาธรรมชาติจำนวนมากอาศัย N-gram เพื่อคาดเดาคำถัดไปที่ผู้ใช้จะพิมพ์หรือพูด ตัวอย่างเช่น สมมติว่าผู้ใช้พิมพ์ 3Bดูด โมเดล NLU ที่อิงตาม Trigrams มีแนวโน้มที่จะคาดการณ์ว่าผู้ใช้จะพิมพ์ เมาส์ ถัดไป

เปรียบเทียบค่า N-gram กับกลุ่มคำ ซึ่งเป็นชุดคำที่ไม่ได้เรียงลำดับ

NLU

#language

ตัวย่อของการทำความเข้าใจภาษาธรรมชาติ

โหนด (แผนผังการตัดสินใจ)

#df

ในแผนผังการตัดสินใจ ให้ระบุสภาพสินค้าหรือใบไม้

แผนผังการตัดสินใจที่มี 2 เงื่อนไขและ 3 ใบ

โหนด (โครงข่ายระบบประสาทเทียม)

#fundamentals

เซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่

โหนด (TensorFlow กราฟ)

#TensorFlow

การดำเนินการในกราฟ TensorFlow

เสียงรบกวน

หรือพูดกว้างๆ ก็คือทุกสิ่งที่บดบังสัญญาณในชุดข้อมูล การนำเสียงรบกวนเข้ามา ในข้อมูลทำได้หลายวิธี เช่น

  • เจ้าหน้าที่ตรวจสอบอาจติดป้ายกำกับผิดพลาด
  • มนุษย์และเครื่องมือบันทึกค่าฟีเจอร์ผิดพลาดหรือละเว้น

เงื่อนไขนอนไบนารี

#df

เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ ตัวอย่างเช่น เงื่อนไขที่ไม่ใช่ไบนารีต่อไปนี้จะมีผลลัพธ์ที่เป็นไปได้ 3 อย่าง

เงื่อนไข (number_of_legs = ?) ที่ทำให้เกิดผลลัพธ์ที่เป็นไปได้ 3 รายการ ผลลัพธ์ 1 รายการ (number_of_legs = 8) นำไปสู่ใบไม้ที่มีชื่อว่าแมงมุม ผลลัพธ์ที่ 2 (number_of_legs = 4) นำไปสู่ใบไม้ที่ชื่อว่า &quot;สุนัข&quot; ผลลัพธ์ที่สาม (number_of_legs = 2) นำไปสู่ใบไม้ที่ชื่อว่าเพนกวิน

ไม่เป็นเชิงเส้น

#fundamentals

ความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปที่ไม่สามารถนำเสนอผ่านการบวกและการคูณเพียงอย่างเดียว ความสัมพันธ์เชิงเส้นอาจแสดงเป็นเส้น ความสัมพันธ์ไม่ใช่เชิงเส้นจะแสดงเป็นเส้นไม่ได้ เช่น ลองพิจารณาโมเดล 2 รูปแบบที่แต่ละโมเดลเชื่อมโยง ฟีเจอร์หนึ่งกับป้ายกำกับเดียว รูปแบบด้านซ้ายเป็นแบบเชิงเส้น และโมเดลด้านขวาเป็นแบบไม่ใช่เชิงเส้น

2 พล็อต หนึ่งพล็อตคือเส้น 1 เส้น ดังนั้นจึงเป็นความสัมพันธ์เชิงเส้น
          อีกพล็อตเป็นเส้นโค้ง ดังนั้นจึงเป็นความสัมพันธ์แบบไม่เชิงเส้น

อคติจากการไม่ตอบ

#fairness

ดูการให้น้ำหนักพิเศษกับการเลือก

Nonstationarity

#fundamentals

คุณลักษณะที่มีค่าเปลี่ยนแปลงไปในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักเกิดขึ้นในเวลา ตัวอย่างเช่น ลองพิจารณาตัวอย่างของความไม่แน่นอนต่อไปนี้

  • จำนวนชุดว่ายน้ำที่ขายในบางร้านจะแตกต่างกันไปตามฤดูกาล
  • ปริมาณผลไม้ชนิดหนึ่งที่เก็บเกี่ยวในภูมิภาคหนึ่งๆ มีค่าเป็น 0 สำหรับช่วงเวลาส่วนใหญ่ของปี แต่มากเป็นระยะเวลาสั้นๆ
  • อุณหภูมิเฉลี่ยต่อปีกำลังเปลี่ยนแปลงเนื่องจากการเปลี่ยนแปลงสภาพภูมิอากาศ

คอนทราสต์กับความเสถียร

การแปลงเป็นรูปแบบมาตรฐาน

#fundamentals

พูดกว้างๆ ก็คือกระบวนการแปลงช่วงค่าจริงของตัวแปรเป็นช่วงค่ามาตรฐาน เช่น

  • -1 ถึง +1
  • 0 ถึง 1
  • การกระจายปกติ

ตัวอย่างเช่น สมมติว่าช่วงจริงของค่าบางฟีเจอร์คือ 800 ถึง 2,400 ในฐานะส่วนหนึ่งของ Feature Engineering คุณสามารถปรับค่าจริงให้เป็นค่ามาตรฐานในช่วงมาตรฐาน เช่น -1 ถึง +1

การปรับให้สอดคล้องตามมาตรฐานเป็นงานทั่วไปในวิศวกรรมฟีเจอร์ โมเดลมักจะฝึกได้เร็วขึ้น (และสร้างการคาดการณ์ที่ดีขึ้น) เมื่อทุกฟีเจอร์ตัวเลขในเวกเตอร์ของฟีเจอร์มีช่วงโดยประมาณเท่ากัน

การตรวจจับสิ่งแปลกใหม่

กระบวนการพิจารณาว่าตัวอย่างใหม่ (ใหม่) มาจากการเผยแพร่เดียวกันกับชุดการฝึกหรือไม่ กล่าวคือ หลังจากการฝึกในชุดการฝึก การตรวจจับความแปลกใหม่จะพิจารณาว่าตัวอย่างใหม่ (ระหว่างการอนุมานหรือระหว่างการฝึกเพิ่มเติม) เป็นค่าผิดปกติหรือไม่

ตัดกับการตรวจจับ Outlier

ข้อมูลตัวเลข

#fundamentals

ฟีเจอร์ที่แสดงเป็นจำนวนเต็มหรือจำนวนที่มีค่าจริง ตัวอย่างเช่น โมเดลการประเมินราคาบ้านอาจแสดงขนาดบ้าน (เป็นตารางฟุตหรือตารางเมตร) เป็นข้อมูลตัวเลข การนำเสนอองค์ประกอบเป็นข้อมูลตัวเลขบ่งชี้ว่าค่าของจุดสนใจมีความสัมพันธ์ทางคณิตศาสตร์กับป้ายกำกับ กล่าวคือ จำนวนตารางเมตรในบ้านอาจมีความสัมพันธ์ทางคณิตศาสตร์กับมูลค่าของบ้าน

ข้อมูลที่เป็นจำนวนเต็มเท่านั้นไม่ควรแสดงเป็นข้อมูลตัวเลข ตัวอย่างเช่น รหัสไปรษณีย์ในบางพื้นที่ของโลกเป็นจำนวนเต็ม แต่รหัสไปรษณีย์ที่เป็นจำนวนเต็มไม่ควรแสดงเป็นข้อมูลตัวเลขในโมเดล นั่นเป็นเพราะรหัสไปรษณีย์ 20000 ไม่ได้มีประสิทธิภาพเป็น 2 เท่า (หรือครึ่งหนึ่ง) เมื่อเทียบกับรหัสไปรษณีย์ 10,000 นอกจากนี้ แม้ว่ารหัสไปรษณีย์ที่แตกต่างกันจะมีสัมพันธ์กับมูลค่าอสังหาริมทรัพย์ที่ต่างกัน แต่เราไม่สามารถสรุปได้ว่ามูลค่าอสังหาริมทรัพย์ที่รหัสไปรษณีย์ 20000 จะมีมูลค่ามากกว่ามูลค่าอสังหาริมทรัพย์ในรหัสไปรษณีย์ 10000 ถึง 2 เท่า รหัสไปรษณีย์ควรแสดงเป็นข้อมูลเชิงหมวดหมู่แทน

บางครั้งจะเรียกฟีเจอร์ที่เป็นตัวเลขว่าฟีเจอร์ต่อเนื่อง

NumPy

ไลบรารีคณิตศาสตร์แบบโอเพนซอร์สซึ่งให้การดำเนินการเกี่ยวกับอาร์เรย์ที่มีประสิทธิภาพใน Python pandas สร้างขึ้นใน NumPy

O

วัตถุประสงค์

เมตริกที่อัลกอริทึมพยายามเพิ่มประสิทธิภาพ

ฟังก์ชันวัตถุประสงค์

สูตรทางคณิตศาสตร์หรือเมตริกที่โมเดลมีจุดประสงค์เพื่อเพิ่มประสิทธิภาพ เช่น ฟังก์ชันวัตถุประสงค์สําหรับการถดถอยเชิงเส้นมักจะเป็น ค่าเฉลี่ยการสูญเสียกำลังสอง ดังนั้น เมื่อฝึกโมเดลการถดถอยเชิงเส้น การฝึกจะมุ่งลดความสูญเสียเฉลี่ยกำลังสอง

ในบางกรณี เป้าหมายคือการขยายฟังก์ชันวัตถุประสงค์ ตัวอย่างเช่น หากฟังก์ชันวัตถุประสงค์คือความแม่นยำ เป้าหมายก็คือการเพิ่มความแม่นยำสูงสุด

โปรดดูเพิ่มเติมที่ loss

เงื่อนไขเอียง

#df

ในแผนผังการตัดสินใจเงื่อนไขที่มีฟีเจอร์มากกว่า 1 รายการ เช่น ถ้าทั้งความสูงและความกว้างเป็นจุดสนใจ ต่อไปนี้จะเป็นเงื่อนไขเอียง

  height > width

ตัดกับเงื่อนไขที่อยู่ในแนวแกน

ออฟไลน์

#fundamentals

คำพ้องความหมายของ static

การอนุมานออฟไลน์

#fundamentals

กระบวนการของโมเดลที่สร้างการคาดการณ์ชุดหนึ่ง แล้วแคช (บันทึก) การคาดการณ์เหล่านั้น จากนั้นแอปจะสามารถเข้าถึงการคาดคะเน ที่สรุปได้จากแคชแทนที่จะเรียกใช้โมเดลอีกครั้ง

ตัวอย่างเช่น ลองพิจารณาโมเดลที่สร้างพยากรณ์อากาศในท้องถิ่น (การคาดคะเน) 1 ครั้งทุก 4 ชั่วโมง หลังจากเรียกใช้แต่ละโมเดล ระบบจะแคชการพยากรณ์อากาศท้องถิ่นทั้งหมด แอปสภาพอากาศจะดึงข้อมูล การพยากรณ์อากาศจากแคช

การอนุมานแบบออฟไลน์เรียกอีกอย่างว่าการอนุมานแบบคงที่

ซึ่งแตกต่างจากการอนุมานออนไลน์

การเข้ารหัสแบบ One-hot

#fundamentals

นำเสนอข้อมูลเชิงกลุ่มเป็นเวกเตอร์ที่มีสิ่งต่อไปนี้

  • องค์ประกอบ 1 รายการได้รับการตั้งค่าเป็น 1
  • ส่วนองค์ประกอบอื่นๆ ทั้งหมดจะตั้งเป็น 0

โดยทั่วไปแล้วการเข้ารหัสแบบฮอตเดียวจะใช้เพื่อแสดงสตริงหรือตัวระบุซึ่งมีชุดค่าที่เป็นไปได้ที่แน่นอน ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ Scandinavia มีค่าที่เป็นไปได้ 5 ค่า ดังนี้

  • "เดนมาร์ก"
  • "สวีเดน"
  • "นอร์เวย์"
  • "ฟินแลนด์"
  • "ไอซ์แลนด์"

การเข้ารหัสแบบ 1 แบบ Hot สามารถแสดงแต่ละค่าทั้ง 5 แบบดังต่อไปนี้

country เวกเตอร์
"เดนมาร์ก" 1 0 0 0 0
"สวีเดน" 0 1 0 0 0
"นอร์เวย์" 0 0 1 0 0
"ฟินแลนด์" 0 0 0 1 0
"ไอซ์แลนด์" 0 0 0 0 1

การเข้ารหัสแบบหนึ่งเดียวช่วยให้โมเดลเรียนรู้การเชื่อมต่อที่แตกต่างกันได้ตามแต่ละประเทศใน 5 ประเทศ

การนำเสนอฟีเจอร์เป็นข้อมูลตัวเลขเป็นอีกทางเลือกหนึ่งของการเข้ารหัสแบบ One-Hot ขออภัย การแสดงตัวเลขของประเทศสแกนดิเนเวียไม่ใช่ตัวเลือกที่ดี ตัวอย่างเช่น ลองพิจารณาการแสดงตัวเลขต่อไปนี้

  • "เดนมาร์ก" เท่ากับ 0
  • "สวีเดน" เท่ากับ 1
  • "นอร์เวย์" เท่ากับ 2
  • "ฟินแลนด์" เท่ากับ 3
  • "ไอซ์แลนด์" เท่ากับ 4

เมื่อใช้การเข้ารหัสตัวเลข โมเดลจะตีความจำนวนดิบทางคณิตศาสตร์และพยายามฝึกกับตัวเลขเหล่านั้น แต่ไอซ์แลนด์ก็ไม่ได้มากกว่านอร์เวย์ (หรือครึ่งหนึ่ง) เป็นสองเท่า (หรือครึ่งหนึ่ง) โมเดลนี้จึงได้ข้อสรุปที่แปลกๆ

การเรียนรู้แบบจุดเดียว

แนวทางแมชชีนเลิร์นนิงที่มักใช้สำหรับการจัดประเภทออบเจ็กต์ ซึ่งออกแบบมาเพื่อเรียนรู้ตัวแยกประเภทที่มีประสิทธิภาพจากตัวอย่างการฝึกเพียงตัวอย่างเดียว

รวมถึงดูการเรียนรู้เพียงเล็กน้อยและการเรียนรู้แบบไม่ต้องสงสัย

การแสดงข้อความแจ้งแบบครั้งเดียว

#language
#GenerativeAI

พรอมต์ที่มี1 ตัวอย่างที่แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ควรตอบสนองอย่างไร เช่น พรอมต์ต่อไปนี้มีตัวอย่าง 1 รายการที่แสดงโมเดลภาษาขนาดใหญ่ว่าควรตอบคำถามอย่างไร

ส่วนต่างๆ ของพรอมต์ Notes
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร คำถามที่ต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR ตัวอย่าง 1 รายการ
อินเดีย: การค้นหาจริง

เปรียบเทียบระหว่างพรอมต์แบบช็อตเดียวกับคำต่อไปนี้

หนึ่งเทียบกับทั้งหมด

#fundamentals

เมื่อพิจารณาถึงปัญหาการจัดประเภทที่มีคลาส N โซลูชันที่ประกอบด้วยตัวแยกประเภทแบบไบนารี N แยกกัน ซึ่งเป็นตัวแยกประเภทแบบไบนารี 1 ตัวสำหรับผลลัพธ์ที่เป็นไปได้แต่ละรายการ ตัวอย่างเช่น สำหรับโมเดลที่จำแนกตัวอย่างเป็นสัตว์ ผัก หรือแร่ธาตุ วิธีแก้ปัญหาแบบ 1 ต่อ 1 จะมีตัวแยกประเภทแบบไบนารี 3 แบบต่อไปนี้แยกกัน

  • สัตว์กับไม่ใช่สัตว์
  • ผักกับไม่มีผัก
  • แร่ธาตุกับไม่ใช่แร่ธาตุ

online

#fundamentals

คำพ้องความหมายของ dynamic

การอนุมานออนไลน์

#fundamentals

สร้างการคาดการณ์ตามคำขอ ตัวอย่างเช่น สมมติว่าแอปส่งอินพุตไปยังโมเดลและส่งคำขอสำหรับการคาดคะเน ระบบที่ใช้การอนุมานออนไลน์จะตอบสนองต่อคำขอด้วยการเรียกใช้โมเดล (และส่งกลับการคาดการณ์ไปยังแอป)

ซึ่งแตกต่างจากการอนุมานออฟไลน์

การดำเนินการ (การดำเนินการ)

#TensorFlow

ใน TensorFlow กระบวนการที่สร้าง จัดการ หรือทำลาย Tensor ตัวอย่างเช่น การคูณเมทริกซ์คือการดำเนินการที่จะนำ Tensor 2 ตัวไปใช้เป็นอินพุตและสร้าง Tensor 1 ตัวเป็นเอาต์พุต

ค่าภาษี

การประมวลผลแบบไล่ระดับสีและการเพิ่มประสิทธิภาพไลบรารีสำหรับ JAX Optax อำนวยความสะดวกต่อการวิจัยด้วยการสร้างองค์ประกอบที่สามารถรวมเข้าด้วยกันในรูปแบบที่กำหนดเองเพื่อเพิ่มประสิทธิภาพโมเดลพารามิเตอร์ เช่น โครงข่ายประสาทแบบลึก เป้าหมายอื่นๆ ได้แก่

  • การมอบการใช้งานคอมโพเนนต์หลักที่อ่านได้ ผ่านการทดสอบมาเป็นอย่างดี และมีประสิทธิภาพ
  • เพิ่มประสิทธิภาพการทำงานโดยการรวมส่วนผสมระดับต่ำ เข้ากับเครื่องมือเพิ่มประสิทธิภาพที่กำหนดเอง (หรือองค์ประกอบการประมวลผลการไล่ระดับสีอื่นๆ)
  • นำแนวคิดใหม่ๆ มาใช้ได้เร็วขึ้นโดยทำให้ทุกคน ร่วมให้ข้อมูลได้ง่ายๆ

เครื่องมือเพิ่มประสิทธิภาพ

การใช้งานอัลกอริทึมการไล่ระดับสีที่เจาะจง เครื่องมือเพิ่มประสิทธิภาพยอดนิยม ได้แก่

  • AdaGrad ซึ่งย่อมาจาก ADAptive GRADient descent
  • Adam ซึ่งย่อมาจาก ADAptive with Momentum

อคติจากความเป็นตัวเดียวกันแบบนอกกลุ่ม

#fairness

แนวโน้มที่จะเห็นว่าสมาชิกนอกกลุ่มเหมือนสมาชิกในกลุ่มมากกว่าสมาชิกเมื่อเปรียบเทียบด้านทัศนคติ ค่านิยม ลักษณะบุคลิกภาพ และลักษณะเฉพาะอื่นๆ ในกลุ่มหมายถึงคนที่คุณโต้ตอบด้วยเป็นประจำ ส่วนนอกกลุ่มหมายถึงคนที่คุณไม่ได้โต้ตอบด้วยเป็นประจำ หากคุณสร้างชุดข้อมูลด้วยการขอให้คนอื่นระบุแอตทริบิวต์เกี่ยวกับนอกกลุ่ม แอตทริบิวต์เหล่านั้นอาจมีความแตกต่างกันน้อยมากและมีความเหมารวมมากกว่าแอตทริบิวต์ที่ผู้เข้าร่วมแสดงกับบุคคลในกลุ่ม

ตัวอย่างเช่น Lilliputians อาจอธิบายถึงบ้านของชาว Lilliputian คนอื่นๆ อย่างละเอียด โดยอ้างอิงความแตกต่างเล็กๆ น้อยๆ ด้านรูปแบบสถาปัตยกรรม หน้าต่าง ประตู และขนาด แต่ชาว Lilliputian คนเดียวกันอาจประกาศเพียงว่า Brobdingnagians ทุกคนอาศัยอยู่ในบ้านหลังเดียวกัน

อคติแบบหนึ่งเดียวนอกกลุ่มคืออคติการระบุแหล่งที่มาของกลุ่มรูปแบบหนึ่ง

ดูอคติในกลุ่มเพิ่มเติม

การตรวจจับ Outlier

กระบวนการระบุค่าผิดปกติในชุดการฝึก

คอนทราสต์กับการตรวจจับสิ่งแปลกใหม่

ค่าผิดปกติ

ค่าที่อยู่ไกลจากค่าอื่นๆ ส่วนใหญ่ ในแมชชีนเลิร์นนิง ค่าผิดปกติ ต่อไปนี้คือค่าผิดปกติ

  • ป้อนข้อมูลที่มีค่าการเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยมากกว่า 3 โดยประมาณ
  • น้ำหนักที่มีค่าสัมบูรณ์สูง
  • ค่าที่คาดการณ์ค่อนข้างห่างจากค่าจริง

ตัวอย่างเช่น สมมติว่า widget-price เป็นฟีเจอร์ของโมเดลหนึ่งๆ สมมติว่าค่าเฉลี่ย widget-price คือ 7 ยูโร โดยมีค่าเบี่ยงเบนมาตรฐานเป็น 1 ยูโร ดังนั้น ตัวอย่างที่มี widget-price เท่ากับ 12 ยูโรหรือ 2 ยูโรจะถือว่าเป็นค่าผิดปกติเนื่องจากราคาแต่ละรายการมีค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย 5 ค่า

ค่าผิดปกติมักเกิดจากการพิมพ์ผิดหรือข้อผิดพลาดอื่นๆ ในการป้อนข้อมูล ในกรณีอื่นๆ ค่าผิดปกติไม่ใช่ข้อผิดพลาด เพราะสุดท้ายแล้ว ค่าเบี่ยงเบนมาตรฐาน 5 ค่าจากค่าเฉลี่ยนั้นพบได้ยากแต่แทบจะเป็นไปไม่ได้เลย

ค่าผิดปกติมักทำให้เกิดปัญหาในการฝึกโมเดล การตัดเนื้อหา เป็นวิธีหนึ่งในการจัดการค่าผิดปกติ

การประเมินก่อนหลัง (การประเมิน OOB)

#df

กลไกการประเมินคุณภาพของผลการตัดสินโดยการทดสอบแผนผังการตัดสินใจแต่ละรายการกับตัวอย่าง ที่ไม่ได้ใช้ในระหว่างการฝึกของแผนผังการตัดสินใจดังกล่าว ตัวอย่างเช่น ในแผนภาพต่อไปนี้ ให้สังเกตว่าระบบจะฝึกแผนผังการตัดสินใจแต่ละแบบกับตัวอย่างประมาณ 2 ใน 3 แล้วประเมินเทียบกับตัวอย่าง 1 ใน 3 ที่เหลือ

ป่าการตัดสินใจที่ประกอบด้วยต้นไม้การตัดสินใจ 3 ต้น
          แผนผังการตัดสินใจหนึ่งจะฝึกกับตัวอย่าง 2 ใน 3 รายการ แล้วใช้ 1 ใน 3 ที่เหลือในการประเมิน OOB
          แผนผังการตัดสินใจที่ 2 จะฝึกกับตัวอย่าง 2 ใน 3 ของตัวอย่างก่อนแผนผังการตัดสินใจก่อนหน้า จากนั้นใช้ 1 ใน 3 ของการประเมิน OOB ต่างจากแผนผังการตัดสินใจก่อนหน้า

การประเมินนอกขอบเขตเป็นการประเมินเชิงคำนวณอย่างมีประสิทธิภาพและเชิงอนุพันธ์ของกลไกการตรวจสอบข้ามอุปกรณ์ ในการตรวจสอบข้ามแพลตฟอร์ม จะมีการฝึกโมเดล 1 รายการสำหรับการตรวจสอบข้ามแพลตฟอร์มแต่ละรอบ (เช่น โมเดล 10 รายการได้รับการฝึกในการตรวจสอบแบบครอสเซลใน 10 เท่า) เมื่อใช้การประเมิน OOB โมเดลเดียวจะได้รับการฝึก เนื่องจากการรวมข้อมูลจะระงับข้อมูลบางส่วนจากแต่ละแผนผังในระหว่างการฝึก การประเมิน OOB จะใช้ข้อมูลนั้นเพื่อประมาณการตรวจสอบความถูกต้องแบบข้ามแพลตฟอร์มได้

เลเยอร์เอาต์พุต

#fundamentals

ชั้น "ขั้นสุดท้าย" ของโครงข่ายประสาท เลเยอร์เอาต์พุตจะมีการคาดการณ์

ภาพประกอบต่อไปนี้แสดงโครงข่ายระบบประสาทเทียมระดับลึกขนาดเล็กที่มีเลเยอร์อินพุต เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต

โครงข่ายระบบประสาทเทียมที่มีเลเยอร์อินพุต 1 ชั้น เลเยอร์ที่ซ่อนอยู่ 2 เลเยอร์ และเลเยอร์เอาต์พุต 1 เลเยอร์ เลเยอร์อินพุตประกอบด้วย 2 ฟีเจอร์ ชั้นที่ซ่อนอยู่ชั้นแรกประกอบด้วยเซลล์ประสาท 3 เซลล์ และเซลล์ที่ซ่อนชั้นที่ 2 ประกอบด้วยเซลล์ประสาท 2 เซลล์ เลเยอร์เอาต์พุตประกอบด้วยโหนดเดียว

Overfitting

#fundamentals

การสร้างmodelที่ตรงกับmodelอย่างใกล้ชิดมากจนโมเดลนี้คาดการณ์ข้อมูลใหม่ไม่ถูกต้อง

การกําหนดเกณฑ์มาตรฐานอาจช่วยลดการใส่ชิ้นงานมากเกินไปได้ นอกจากนี้ การฝึกในชุดฝึกอบรมขนาดใหญ่และหลากหลายยังช่วยลดการทำงานที่มากเกินไปได้

การสุ่มตัวอย่างมากเกินไป

การนำตัวอย่างของคลาสส่วนน้อยมาใช้ซ้ำในชุดข้อมูลที่ไม่สมดุลกันของคลาสเพื่อสร้างชุดการฝึกที่มีความสมดุลยิ่งขึ้น

เช่น ลองพิจารณาปัญหาการจัดประเภทแบบไบนารีที่มีอัตราส่วนของกลุ่มหลักต่อชนกลุ่มน้อยเป็น 5,000:1 หากชุดข้อมูลประกอบด้วยตัวอย่าง 1 ล้านตัวอย่าง ชุดข้อมูลนั้นก็จะมีตัวอย่างของคลาสของชนกลุ่มน้อยประมาณ 200 รายการ ซึ่งอาจจะเป็นตัวอย่างน้อยเกินไปสำหรับการฝึกที่มีประสิทธิภาพ เพื่อก้าวข้ามความบกพร่องนี้ คุณอาจสุ่มตัวอย่าง (ใช้ซ้ำ) ตัวอย่าง 200 ตัวอย่างเหล่านั้นซ้ำหลายครั้ง ซึ่งอาจทำให้มีตัวอย่างที่เพียงพอสำหรับการฝึกที่เป็นประโยชน์

คุณต้องระมัดระวังเกี่ยวกับการปรับมากเกินไปเมื่อสุ่มตัวอย่างมากเกินไป

ตัดกับการสุ่มตัวอย่างน้อยกว่า

คะแนน

ข้อมูลที่แพ็กไว้

วิธีการจัดเก็บข้อมูลอย่างมีประสิทธิภาพมากขึ้น

ข้อมูลที่บรรจุมาอย่างดีจะจัดเก็บข้อมูลโดยใช้รูปแบบที่บีบอัดหรือวิธีอื่นๆ ที่ช่วยให้เข้าถึงได้อย่างมีประสิทธิภาพมากขึ้น ข้อมูลที่บรรจุมาจะลดปริมาณหน่วยความจำและการประมวลผลที่จำเป็นสำหรับการเข้าถึง ทำให้มีการฝึกที่เร็วขึ้นและการอนุมานโมเดลที่มีประสิทธิภาพมากขึ้น

ข้อมูลที่บรรจุหีบห่อมักจะใช้กับเทคนิคอื่นๆ เช่น การเพิ่มข้อมูลและการทำให้เป็นมาตรฐาน ซึ่งจะช่วยปรับปรุงประสิทธิภาพของโมเดลเพิ่มเติม

แพนด้า

#fundamentals

API การวิเคราะห์ข้อมูลแบบคอลัมน์ที่สร้างขึ้นจาก numpy เฟรมเวิร์กแมชชีนเลิร์นนิงจำนวนมาก รวมถึง TensorFlow สนับสนุนโครงสร้างข้อมูลของ Pandas เป็นอินพุต ดูรายละเอียดได้ในเอกสารประกอบของ Pandas

พารามิเตอร์

#fundamentals

น้ำหนักและอคติที่โมเดลเรียนรู้ระหว่างการฝึก ตัวอย่างเช่น ในโมเดลการถดถอยเชิงเส้น พารามิเตอร์จะประกอบด้วยการให้น้ำหนักพิเศษ (b) และน้ำหนักทั้งหมด (w1, w2 และอื่นๆ) ในสูตรต่อไปนี้

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ในทางตรงกันข้าม พารามิเตอร์ไฮเปอร์พารามิเตอร์คือค่าที่คุณ (หรือบริการปรับแต่งไฮเปอร์พารามิเตอร์) จัดหาให้กับโมเดล เช่น อัตราการเรียนรู้คือไฮเปอร์พารามิเตอร์

การปรับแต่งประสิทธิภาพพารามิเตอร์

#language
#GenerativeAI

ชุดเทคนิคในการปรับแต่งโมเดลภาษา (PLM) ที่ได้รับการฝึกล่วงหน้าขนาดใหญ่และมีประสิทธิภาพกว่าการปรับแต่งเต็มรูปแบบ การปรับแต่งที่พารามิเตอร์อย่างมีประสิทธิภาพมักปรับแต่งพารามิเตอร์ได้น้อยกว่าการปรับแต่งเต็มรูปแบบมาก แต่โดยทั่วไปแล้ว ก็จะช่วยให้โมเดลภาษาขนาดใหญ่มีประสิทธิภาพดีพอๆ กับโมเดลภาษาขนาดใหญ่ที่สร้างจากการปรับแต่งอย่างสมบูรณ์

เปรียบเทียบระหว่างการปรับแต่งที่มีประสิทธิภาพพารามิเตอร์กับ

การปรับแต่งอย่างมีประสิทธิภาพพารามิเตอร์เรียกอีกอย่างว่าการปรับแต่งโดยละเอียดโดยใช้พารามิเตอร์

เซิร์ฟเวอร์พารามิเตอร์ (PS)

#TensorFlow

งานที่ติดตามพารามิเตอร์ของโมเดลในการตั้งค่าที่กระจาย

การอัปเดตพารามิเตอร์

การดำเนินการปรับพารามิเตอร์ของโมเดลระหว่างการฝึก โดยทั่วไปภายในการทำซ้ำครั้งเดียวของการไล่ระดับสีเพียงครั้งเดียว

อนุพันธ์ย่อย

อนุพันธ์ที่ตัวแปรทั้งหมดยกเว้นตัวใดตัวหนึ่งถือว่าเป็นค่าคงที่ เช่น อนุพันธ์ย่อยของ f(x, y) เทียบกับ x คืออนุพันธ์ของ f ที่ถือว่าเป็นฟังก์ชันของ x เพียงอย่างเดียว (กล่าวคือ ให้ y คงที่) อนุพันธ์ย่อยของ f ที่เกี่ยวข้องกับ x จะมุ่งเน้นเฉพาะวิธีที่ x เปลี่ยนแปลงและไม่สนใจตัวแปรอื่นๆ ทั้งหมดในสมการ

อคติจากการมีส่วนร่วม

#fairness

คำพ้องความหมายของความลำเอียงที่ไม่ตอบกลับ ดูการให้น้ำหนักพิเศษกับการเลือก

กลยุทธ์การแบ่งพาร์ติชัน

อัลกอริทึมที่แบ่งตัวแปรในเซิร์ฟเวอร์พารามิเตอร์

แพ็ก

เฟรมเวิร์กการเขียนโปรแกรมที่ออกแบบมาสำหรับการฝึกโมเดล โครงข่ายระบบประสาทเทียมขนาดใหญ่สำหรับโมเดลขนาดใหญ่จนครอบคลุม TPU ชิป Accelerator ชิ้นส่วน หรือพ็อดจำนวนมาก

Pax สร้างจาก Flax ซึ่งสร้างขึ้นด้วย JAX

แผนภาพแสดงตำแหน่งของ Pax ในสแต็กซอฟต์แวร์
          Pax สร้างขึ้นจาก JAX Pax เองประกอบด้วย 3 เลเยอร์ เลเยอร์ด้านล่างมี TensorStore และ Flax
          ชั้นกลางประกอบด้วย Optax และ Flaxformer เลเยอร์ด้านบนมีไลบรารีการสร้างรูปแบบ Praxis Fiddle สร้างขึ้นมาด้านบนของ Pax

Perceptron

ระบบ (ฮาร์ดแวร์หรือซอฟต์แวร์) ที่ใช้ค่าอินพุตอย่างน้อย 1 ค่า จะเรียกใช้ฟังก์ชันกับผลรวมถ่วงน้ำหนักของอินพุต และคำนวณค่าเอาต์พุตเดียว ในแมชชีนเลิร์นนิง ฟังก์ชันมักจะไม่ใช่เชิงเส้น เช่น ReLU, sigmoid หรือ tanh ตัวอย่างเช่น Perceptron ต่อไปนี้ใช้ฟังก์ชัน Sigmoid ในการประมวลผลค่าอินพุต 3 ค่า

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

ในภาพประกอบต่อไปนี้ Perceptron รับข้อมูลป้อนเข้า 3 อินพุต ซึ่งแต่ละรายการจะมีการปรับเปลี่ยนตามน้ำหนักก่อนเข้าสู่ Perceptron

Perceptron ที่รับอินพุต 3 รายการ แล้วคูณด้วยน้ำหนักแยกกัน Perceptron จะแสดงค่าเดียว

เพอร์เซ็ปตรอนคือเซลล์ประสาทในโครงข่ายประสาท

การแสดง

คำที่มากเกินไปซึ่งมีความหมายต่อไปนี้

  • ความหมายมาตรฐานภายในวิศวกรรมซอฟต์แวร์ เช่น ซอฟต์แวร์นี้ ทำงานเร็ว (หรือมีประสิทธิภาพ) แค่ไหน
  • ความหมายในแมชชีนเลิร์นนิง ประสิทธิภาพจะช่วยตอบคำถามต่อไปนี้ว่า modelนี้ถูกต้องมากน้อยเพียงใด นั่นคือการคาดการณ์ ของโมเดลดีแค่ไหน

ความสำคัญของตัวแปรการเรียงสับเปลี่ยน

#df

ประเภทของความสำคัญของตัวแปรที่ประเมินข้อผิดพลาดการคาดการณ์ที่เพิ่มขึ้นของโมเดลหลังจากเปลี่ยนค่าของฟีเจอร์ ความสำคัญของตัวแปรการเรียงสับเปลี่ยนคือเมตริกที่ไม่ขึ้นกับโมเดล

งุนงง

ข้อมูลวัดว่าmodelทำงานได้ดีเพียงใด ตัวอย่างเช่น สมมติว่างานของคุณคือการอ่านตัวอักษร 2-3 ตัวแรกของคำที่ผู้ใช้กำลังพิมพ์บนแป้นพิมพ์ของโทรศัพท์ และเพื่อเสนอรายการคำที่จะเติมคำให้สมบูรณ์ ความซับซ้อน P สำหรับงานนี้คือจำนวนการคาดเดาโดยประมาณที่คุณต้องเสนอเพื่อให้รายการของคุณมีคำจริงที่ผู้ใช้กำลังพยายามพิมพ์

ความซับซ้อนเกี่ยวข้องกับครอสเอนโทรปีดังนี้

$$P= 2^{-\text{cross entropy}}$$

ไปป์ไลน์

โครงสร้างพื้นฐานที่ห้อมล้อมอัลกอริทึมแมชชีนเลิร์นนิง ไปป์ไลน์จะรวมถึงการรวบรวมข้อมูล การนำข้อมูลไปใส่ไว้ในไฟล์ข้อมูลการฝึก การฝึกโมเดลอย่างน้อย 1 โมเดล และการส่งออกโมเดลไปยังเวอร์ชันที่ใช้งานจริง

การไปป์ท่อ

#language

รูปแบบหนึ่งของโมเดลคู่ขนานที่การประมวลผลของโมเดลแบ่งออกเป็นระยะต่อเนื่องกัน และในแต่ละระยะจะมีการดำเนินการบนอุปกรณ์ที่แตกต่างกัน ขณะที่ขั้นตอนกำลังประมวลผล 1 กลุ่ม ระยะก่อนหน้าจะใช้ได้กับกลุ่มถัดไป

ดูการฝึกอบรมแบบทีละขั้นเพิ่มเติม

Pjit

ฟังก์ชัน JAX ที่แยกโค้ดเพื่อเรียกใช้ในชิป Accelerator หลายรายการ ผู้ใช้ส่งฟังก์ชันไปยัง pjit ซึ่งจะแสดงผลฟังก์ชันที่มีความหมายเทียบเท่ากัน แต่ได้รับการคอมไพล์เป็นการคำนวณ XLA ที่ทำงานในอุปกรณ์หลายเครื่อง (เช่น GPU หรือแกน TPU)

pjit ช่วยให้ผู้ใช้ชาร์ดการคำนวณได้โดยไม่ต้องเขียนใหม่โดยใช้พาร์ติชัน SPMD

ตั้งแต่เดือนมีนาคม 2023 เราได้ผสานรวม pjit กับ jit แล้ว ดูรายละเอียดเพิ่มเติมได้ที่อาร์เรย์แบบกระจายและการโหลดพร้อมกันอัตโนมัติ

PLM

#language
#GenerativeAI

ตัวย่อของโมเดลภาษาก่อนการฝึก

Pmap

ฟังก์ชัน JAX ที่เรียกใช้สำเนาของฟังก์ชันอินพุต ในอุปกรณ์ฮาร์ดแวร์ที่ใช้งานอยู่หลายชิ้น (CPU, GPU หรือ TPU) ที่มีค่าอินพุตต่างกัน pmap ใช้ SPMD

policy

#rl

ในการเรียนรู้แบบเสริมกำลัง การแมปความน่าจะเป็นของตัวแทนจากสถานะไปจนถึงการกระทำ

การรวมกลุ่มกัน

#image

การลดเมทริกซ์ (หรือเมทริกซ์) ที่สร้างโดยเลเยอร์คอนโวลูชันก่อนหน้านี้ให้เป็นเมทริกซ์ขนาดเล็กลง การรวมกลุ่มมักจะเกี่ยวข้องกับการใช้ค่าสูงสุดหรือค่าเฉลี่ยในพื้นที่ร่วม ตัวอย่างเช่น สมมติว่าเรามีเมทริกซ์ 3x3 ต่อไปนี้

เมทริกซ์ 3x3 [[5,3,1], [8,2,5], [9,4,3]]

การดำเนินการพูลก็เช่นเดียวกับการดำเนินการคอนโวลูชัน (Convolutional) จะแบ่งเมทริกซ์นั้นเป็นชิ้นๆ แล้วเลื่อนการดำเนินการคอนโวลูชันดังกล่าวตามการก้าว ตัวอย่างเช่น สมมติว่าการดำเนินการรวมมีการแบ่งเมทริกซ์คอนโวลูชันัล (Convolutional Matrix) ออกเป็นชิ้นส่วนขนาด 2x2 โดยมีระยะก้าว 1x1 ดังที่แสดงในแผนภาพต่อไปนี้ ได้มีการสรุปข้อมูลเกิดขึ้น 4 รายการ สมมติว่าการดำเนินการรวมแต่ละรายการเลือกค่าสูงสุดของ 4 ในส่วนแบ่งนี้

เมทริกซ์อินพุตคือ 3x3 ซึ่งมีค่าดังนี้ [[5,3,1], [8,2,5], [9,4,3]]
          เมทริกซ์ย่อย 2x2 ด้านซ้ายบนของเมทริกซ์อินพุตคือ [[5,3], [8,2]] ดังนั้นการดำเนินการพูลด้านซ้ายบนจะให้ค่า 8 (ซึ่งสูงสุดคือ 5, 3, 8 และ 2) เมทริกซ์ย่อย 2x2 ด้านขวาบนของเมทริกซ์อินพุตคือ [[3,1], [2,5]] ดังนั้นการดำเนินการพูลทางด้านขวาบนจะให้ค่า 5 เมทริกซ์ย่อย 2x2 ด้านซ้ายล่างของเมทริกซ์อินพุตคือ [[8,2], [9,4]] ดังนั้นการดำเนินการพูลด้านซ้ายล่างจะให้ค่า 9 เมทริกซ์ย่อย 2x2 ด้านขวาล่างของเมทริกซ์อินพุตคือ [[2,5], [4,3]] ดังนั้นการดำเนินการ &quot;จัดกลุ่ม&quot; ที่ด้านขวาล่างจะให้ค่า 5 กล่าวโดยสรุป การดำเนินการพูลจะแสดงผลเมทริกซ์ 2x2
          [[8,5], [9,5]]

การรวมกลุ่มจะช่วยบังคับใช้ความแปรปรวนของการแปลในเมทริกซ์อินพุต

การรวมกลุ่มสำหรับแอปพลิเคชัน Vision มีชื่อเรียกอย่างเป็นทางการว่าการรวมกลุ่มข้อมูลเชิงพื้นที่ แอปพลิเคชันอนุกรมเวลามักจะเรียกการรวมเป็นการรวบรวมข้อมูลชั่วคราว การรวมอย่างไม่เป็นทางการมักเรียกว่าการสุ่มตัวอย่างหรือการสุ่มตัวอย่าง

การเข้ารหัสตำแหน่ง

#language

เทคนิคในการเพิ่มข้อมูลเกี่ยวกับตำแหน่งของโทเค็นตามลำดับไปยังการฝังของโทเค็น โมเดล Transformer ใช้การเข้ารหัสตำแหน่งเพื่อให้เข้าใจความสัมพันธ์ระหว่างส่วนต่างๆ ของลำดับได้ดียิ่งขึ้น

การใช้งานการเข้ารหัสตำแหน่งโดยทั่วไปจะใช้ฟังก์ชันไซนัสซอยด์ (โดยเฉพาะอย่างยิ่ง ความถี่และแอมพลิจูดของฟังก์ชันไซนัสซอยด์จะกำหนดโดยตำแหน่งของโทเค็นในลำดับ) เทคนิคนี้ช่วยให้โมเดล Transformer เรียนรู้การเข้าร่วมส่วนต่างๆ ของลำดับตามตำแหน่งของตน

คลาสเชิงบวก

#fundamentals

ชั้นเรียนที่คุณกำลังทดสอบ

ตัวอย่างเช่น คลาสเชิงบวกในรูปแบบมะเร็งอาจเป็น "เนื้องอก" ประเภทเชิงบวกในตัวแยกประเภทอีเมลอาจเป็น "สแปม"

ตัดกับคลาสเชิงลบ

หลังการประมวลผล

#fairness
#fundamentals

ปรับเอาต์พุตของโมเดลหลังจากเรียกใช้โมเดลแล้ว กระบวนการหลังการประมวลผลสามารถใช้เพื่อบังคับใช้ข้อจำกัดความเป็นธรรมโดยไม่ต้องแก้ไขโมเดลเอง

เช่น แอตทริบิวต์หนึ่งอาจใช้การประมวลผลภายหลังกับตัวแยกประเภทแบบไบนารีโดยการตั้งค่าเกณฑ์การจัดประเภทให้คงความเท่าเทียมของโอกาสสำหรับแอตทริบิวต์บางรายการโดยตรวจสอบว่าอัตราผลบวกจริงเหมือนกันสำหรับค่าของแอตทริบิวต์ทั้งหมดนั้น

PR AUC (พื้นที่ใต้กราฟ PR)

พื้นที่ใต้กราฟ Precision-Recall ที่ประมาณไว้ ซึ่งได้มาจากการวางจุด (ความอ่อนไหว ความแม่นยํา) ของค่าที่แตกต่างกันของเกณฑ์การจัดประเภท AUC ของ PR อาจเทียบเท่ากับความแม่นยำเฉลี่ยของโมเดล ทั้งนี้ขึ้นอยู่กับวิธีคำนวณ

แพรซิส

ไลบรารี ML หลักและประสิทธิภาพสูงของ Pax มักเรียก Praxis ว่า "ไลบรารีเลเยอร์"

Praxis ไม่ได้มีเพียงคำจำกัดความของคลาสเลเยอร์เท่านั้น แต่ยังรวมถึงคอมโพเนนต์สนับสนุนส่วนใหญ่ด้วย เช่น

Praxis ให้คำจำกัดความของคลาสโมเดล

ความแม่นยำ

เมตริกสำหรับรูปแบบการจัดประเภทที่ตอบคำถามต่อไปนี้

เมื่อโมเดลคาดการณ์คลาสเชิงบวก การคาดการณ์ที่ถูกต้องกี่เปอร์เซ็นต์

โดยมีสูตรดังนี้

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

โดยมี

  • ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสเชิงบวกอย่างถูกต้อง
  • ผลบวกลวงหมายความว่าโมเดลคาดการณ์คลาสเชิงบวกไม่ถูกต้อง

ตัวอย่างเช่น สมมติว่าโมเดลทำการคาดการณ์เชิงบวก 200 ครั้ง จากการคาดการณ์เชิงบวก 200 ข้อต่อไปนี้

  • โดย 150 คนเป็นผลบวกจริง
  • โดย 50 รายการเป็นผลบวกลวง

ในกรณีนี้

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

ตัดกับความแม่นยำและความอ่อนไหว

กราฟ Precision-Recall

เส้นโค้งของความแม่นยำเทียบกับความอ่อนไหวที่เกณฑ์การจัดประเภทที่แตกต่างกัน

การคาดการณ์

#fundamentals

เอาต์พุตของโมเดล เช่น

  • การคาดการณ์ของโมเดลการจัดประเภทแบบไบนารีจะเป็นคลาสบวกหรือคลาสลบ
  • การคาดการณ์ของโมเดลการจัดประเภทแบบหลายคลาสคือ 1 คลาส
  • การคาดคะเนของโมเดลการถดถอยเชิงเส้นเป็นตัวเลข

อคติในการคาดการณ์

ค่าที่ระบุว่าค่าเฉลี่ยของการคาดการณ์อยู่ห่างจากค่าเฉลี่ยของป้ายกำกับในชุดข้อมูลมากเพียงใด

อย่าสับสนกับคำที่เป็นอคติในโมเดลแมชชีนเลิร์นนิงหรือความมีอคติทางจริยธรรมและความยุติธรรม

ML การคาดการณ์

ระบบแมชชีนเลิร์นนิงมาตรฐาน ("คลาสสิก") ทุกประเภท

คำว่า ML เชิงคาดการณ์ไม่มีคำจำกัดความอย่างเป็นทางการ แต่คำนี้แยกหมวดหมู่ของระบบ ML ซึ่งไม่ได้อิงตาม Generative AI

ความเท่าเทียมตามการคาดการณ์

#fairness

เมตริกความยุติธรรมที่ตรวจสอบว่าอัตราความแม่นยําของตัวแยกประเภทนั้นๆ เทียบเท่ากับกลุ่มย่อยภายใต้การพิจารณาหรือไม่

ตัวอย่างเช่น โมเดลที่คาดการณ์ว่าการรับเข้ามหาวิทยาลัยจะตอบสนองความเท่าเทียมกันที่คาดการณ์ได้สำหรับสัญชาติหากอัตราความแม่นยำเท่ากันสำหรับ Lilliputians และ Brobdingnagians

ความเท่าเทียมตามการคาดการณ์บางครั้งเรียกว่าความเท่าเทียมกันของอัตราตามการคาดการณ์

โปรดดู "อธิบายคำนิยามความยุติธรรม" (ส่วนที่ 3.2.1) สำหรับการอภิปรายอย่างละเอียดเกี่ยวกับความเท่าเทียมในการคาดการณ์

ความเท่าเทียมกันของอัตราที่คาดการณ์

#fairness

อีกชื่อหนึ่งของความเท่าเทียมตามการคาดการณ์

การประมวลผลล่วงหน้า

#fairness
การประมวลผลข้อมูลก่อนที่จะนำไปใช้ในการฝึกโมเดล การประมวลผลล่วงหน้าอาจทำได้ง่ายๆ อย่างการนำคำออกจากคลังข้อความภาษาอังกฤษที่ไม่ได้อยู่ในพจนานุกรมภาษาอังกฤษ หรือซับซ้อนพอๆ กับการแสดงจุดข้อมูลซ้ำในลักษณะที่ตัดแอตทริบิวต์ที่สัมพันธ์กับแอตทริบิวต์ที่ละเอียดอ่อนออกให้ได้มากที่สุด การประมวลผลล่วงหน้าจะช่วยให้เป็นไปตามข้อจำกัดเกี่ยวกับความยุติธรรมได้

โมเดลก่อนการฝึก

#language
#image
#GenerativeAI

โมเดลหรือคอมโพเนนต์ของโมเดล (เช่น เวกเตอร์การฝัง) ที่ได้รับการฝึกแล้ว บางครั้ง คุณจะป้อนเวกเตอร์ที่ฝังก่อนการฝึกลงในโครงข่ายระบบประสาทเทียม แต่ในบางครั้ง โมเดลของคุณจะฝึกเวกเตอร์การฝังเองแทนที่จะใช้การฝังที่ฝึกไว้แล้วล่วงหน้า

คำว่าโมเดลภาษาก่อนการฝึกหมายถึงโมเดลภาษาขนาดใหญ่ที่ได้ผ่านการฝึกล่วงหน้าแล้ว

การฝึกล่วงหน้า

#language
#image
#GenerativeAI

การฝึกเริ่มต้นของโมเดลในชุดข้อมูลขนาดใหญ่ โมเดลก่อนการฝึกบางโมเดลเป็นยักษ์ใหญ่ที่ซุ่มซ่ามและมักต้องได้รับการปรับแต่งผ่านการฝึกเพิ่มเติม เช่น ผู้เชี่ยวชาญด้าน ML อาจฝึกโมเดลภาษาขนาดใหญ่ล่วงหน้าด้วยชุดข้อมูลข้อความขนาดใหญ่ เช่น หน้าภาษาอังกฤษทั้งหมดใน Wikipedia หลังจากการฝึกล่วงหน้าแล้ว โมเดลผลลัพธ์อาจได้รับการปรับแต่งเพิ่มเติมผ่านเทคนิคใดๆ ต่อไปนี้

ความเชื่อเดิม

สิ่งที่คุณเชื่อเกี่ยวกับข้อมูลก่อนที่จะเริ่มการฝึกอบรมเกี่ยวกับข้อมูลนั้น ตัวอย่างเช่น การกำหนดมาตรฐาน L2 อาศัยความเชื่อก่อนหน้านี้ว่าน้ำหนักควรมีขนาดเล็กและโดยทั่วไปมีการกระจายอยู่ที่ประมาณ 0

แบบจำลองการถดถอยแบบความน่าจะเป็น

โมเดลการถดถอยที่ไม่ได้ใช้เพียงน้ำหนักสำหรับฟีเจอร์แต่ละรายการ แต่ยังรวมถึงความไม่แน่นอนของน้ำหนักเหล่านั้นด้วย โมเดลการถดถอยความน่าจะเป็นจะสร้างการคาดการณ์ และความไม่แน่นอนของการคาดการณ์นั้น เช่น โมเดลการถดถอยความน่าจะเป็นอาจแสดงการคาดการณ์ที่ 325 โดยมีค่าเบี่ยงเบนมาตรฐานเท่ากับ 12 ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลการถดถอยที่เป็นไปได้ได้ที่ Colab ใน tensorflow.org

ฟังก์ชันความหนาแน่นของความน่าจะเป็น

ฟังก์ชันที่ระบุความถี่ของตัวอย่างข้อมูลที่มีค่าหนึ่งๆ ทุกประการ เมื่อค่าของชุดข้อมูลคือจำนวนจุดลอยตัวอย่างต่อเนื่อง การจับคู่ที่ตรงกันแทบจะไม่เกิดขึ้น อย่างไรก็ตาม integratingฟังก์ชันความหนาแน่นของความน่าจะเป็นจากค่า x เป็นค่า y จะให้ค่าความถี่ที่คาดไว้ของตัวอย่างข้อมูลที่อยู่ระหว่าง x ถึง y

เช่น ลองพิจารณาการแจกแจงปกติที่มีค่าเฉลี่ยเป็น 200 และส่วนเบี่ยงเบนมาตรฐานเป็น 30 ในการพิจารณาความถี่ที่คาดไว้ของตัวอย่างข้อมูลที่อยู่ในช่วง 211.4 ถึง 218.7 คุณสามารถผสานรวมฟังก์ชันความหนาแน่นของความน่าจะเป็นสำหรับการกระจายปกติจาก 211.4 ถึง 218.7

ข้อความแจ้ง

#language
#GenerativeAI

ข้อความที่ป้อนเป็นอินพุตในโมเดลภาษาขนาดใหญ่เพื่อกำหนดเงื่อนไขให้โมเดลทำงานในลักษณะหนึ่งๆ พรอมต์อาจเป็นวลีสั้นๆ หรือยาวเท่าใดก็ได้ (เช่น ข้อความทั้งหมดของนวนิยาย) ข้อความแจ้งจะอยู่ในหลายหมวดหมู่ รวมถึงที่แสดงในตารางต่อไปนี้

หมวดหมู่ข้อความแจ้ง ตัวอย่าง Notes
คำถาม นกพิราบบินได้เร็วแค่ไหน
โรงเรียนฝึกอบรม เขียนกลอนตลกๆ เกี่ยวกับการหากำไร พรอมต์ที่ขอให้โมเดลภาษาขนาดใหญ่ทำบางอย่าง
ตัวอย่าง แปลโค้ดมาร์กดาวน์เป็น HTML ตัวอย่างเช่น
มาร์กดาวน์: * รายการ
HTML: <ul> <li>รายการ</li> </ul>
ประโยคแรกในพรอมต์ตัวอย่างนี้คือคำสั่ง ส่วนที่เหลือของข้อความแจ้งเป็นตัวอย่าง
บทบาท อธิบายเหตุผลที่ต้องใช้การไล่ระดับสีในการฝึกแมชชีนเลิร์นนิงจนถึงปริญญาเอกสาขาฟิสิกส์ ส่วนแรกของประโยคเป็นวิธีการ ส่วนวลีที่ว่า "ปริญญาเอกทางฟิสิกส์" คือส่วนที่มีบทบาท
ป้อนข้อมูลบางส่วนสำหรับโมเดลให้เสร็จสมบูรณ์ นายกรัฐมนตรีของสหราชอาณาจักรอาศัยอยู่ที่ พรอมต์อินพุตบางส่วนอาจจบอย่างกะทันหัน (ตามตัวอย่างนี้) หรือลงท้ายด้วยขีดล่างก็ได้

โมเดล Generative AI สามารถตอบสนองต่อพรอมต์ด้วยข้อความ, โค้ด, รูปภาพ, การฝัง และวิดีโอ...เกือบทุกอย่าง

การเรียนรู้จากพรอมต์

#language
#GenerativeAI

ความสามารถของโมเดลบางรูปแบบที่ช่วยให้ปรับลักษณะการทำงานเพื่อตอบสนองต่อการป้อนข้อความได้ตามต้องการ (พรอมต์) ในกระบวนทัศน์การเรียนรู้จากพรอมต์ทั่วไป โมเดลภาษาขนาดใหญ่จะตอบสนองต่อพรอมต์ด้วยการสร้างข้อความ เช่น สมมติว่าผู้ใช้ป้อนพรอมต์ต่อไปนี้

สรุปกฎการเคลื่อนที่ข้อที่ 3 ของนิวตัน

โมเดลที่สามารถเรียนรู้จากพรอมต์ไม่ได้มีการฝึกมาโดยเฉพาะให้ตอบคำถามก่อนหน้า แต่โมเดลจะ "รู้" ข้อเท็จจริงมากมายเกี่ยวกับฟิสิกส์ กฎเกณฑ์ทางภาษาทั่วไป และคำตอบที่เป็นประโยชน์มากมาย ความรู้ดังกล่าวเพียงพอที่จะให้คำตอบ ที่เป็นประโยชน์ (หวังว่าจะ) ได้ ความคิดเห็นเพิ่มเติมจากมนุษย์ ("คำตอบนั้นซับซ้อนเกินไป" หรือ "รีแอ็กชันคืออะไร") ทำให้ระบบการเรียนรู้ที่ขึ้นอยู่กับพรอมต์บางระบบสามารถค่อยๆ ปรับปรุงประโยชน์ของคำตอบได้

การออกแบบพรอมต์

#language
#GenerativeAI

คำพ้องของ prompt Engineering

พรอมต์วิศวกรรม

#language
#GenerativeAI

ศิลปะของการสร้างพรอมต์ที่กระตุ้นให้เกิดคำตอบที่ต้องการจากโมเดลภาษาขนาดใหญ่ มนุษย์ทำงานด้าน วิศวกรรมพรอมต์ การเขียนพรอมต์แบบมีโครงสร้างที่ดีเป็นส่วนสำคัญในการสร้างคำตอบที่เป็นประโยชน์จากโมเดลภาษาขนาดใหญ่ วิศวกรรมพรอมต์ขึ้นอยู่กับหลายปัจจัย ดังนี้

  • ชุดข้อมูลที่ใช้ในการฝึกล่วงหน้าและอาจปรับแต่งโมเดลภาษาขนาดใหญ่
  • temperature และพารามิเตอร์การถอดรหัสอื่นๆ ที่โมเดลใช้ในการสร้างคำตอบ

ดูรายละเอียดเพิ่มเติมเกี่ยวกับการเขียนพรอมต์ที่เป็นประโยชน์ได้ในข้อมูลเบื้องต้นเกี่ยวกับการออกแบบพรอมต์

การออกแบบพรอมต์เป็นคำพ้องความหมายของพรอมต์วิศวกรรม

การปรับแต่งพรอมต์

#language
#GenerativeAI

กลไกการปรับแต่งประสิทธิภาพของพารามิเตอร์ที่จะเรียนรู้ "คำนำหน้า" ที่ระบบเติมไว้ข้างหน้าพรอมต์จริง

รูปแบบหนึ่งของการปรับแต่งพรอมต์ ซึ่งบางครั้งเรียกว่าการปรับแต่งคำนำหน้า คือการเพิ่มคำนำหน้าที่ทุกเลเยอร์ ในทางตรงกันข้าม การปรับแต่งพรอมต์ส่วนใหญ่จะเพิ่มเพียงคำนำหน้าที่เลเยอร์อินพุต

ป้ายกำกับพร็อกซี

#fundamentals

ข้อมูลที่ใช้ในการประมาณป้ายกำกับที่ไม่มีในชุดข้อมูลโดยตรง

ตัวอย่างเช่น สมมติว่าคุณต้องฝึกโมเดลเพื่อคาดการณ์ระดับความเครียดของพนักงาน ชุดข้อมูลของคุณมีฟีเจอร์การคาดการณ์มากมาย แต่ไม่มีป้ายกำกับที่ชื่อระดับความเครียด ไม่ต้องกังวล คุณเลือก "อุบัติเหตุในที่ทำงาน" เป็นป้ายกำกับพร็อกซีสำหรับระดับความเครียด เพราะพนักงานภายใต้ความเครียดสูงๆ ก็ประสบอุบัติเหตุมากกว่าพนักงานที่สงบสุข หรือว่า อุบัติเหตุในที่ทำงาน อาจขึ้นและตกได้จากหลายสาเหตุ

ตัวอย่างที่ 2 สมมติว่าคุณต้องการให้ข้อความ "ฝนตกไหม" เป็นป้ายกำกับบูลีนสำหรับชุดข้อมูล แต่ชุดข้อมูลไม่มีข้อมูล "ฝน" หากมีภาพถ่าย คุณอาจสร้างภาพคนถือร่มเป็นป้ายข้อความว่าฝนตกไหม นั่นเป็นป้ายกำกับพร็อกซีที่ดีไหม ก็เป็นไปได้ แต่ผู้คนในบางวัฒนธรรม มีแนวโน้มที่จะพกร่มเพื่อป้องกันแสงแดดมากกว่าฝน

ป้ายกำกับพร็อกซีมักจะไม่สมบูรณ์ หากเป็นไปได้ ให้เลือกป้ายกำกับจริง แทนป้ายกำกับพร็อกซี ซึ่งหมายความว่าเมื่อป้ายกำกับจริงไม่มีอยู่ ให้เลือกป้ายกำกับพร็อกซีด้วยความระมัดระวัง และการเลือกป้ายกำกับพร็อกซีที่แย่น้อยที่สุด

พร็อกซี (แอตทริบิวต์ที่ละเอียดอ่อน)

#fairness
แอตทริบิวต์ที่ใช้เป็นสแตนด์อินสำหรับแอตทริบิวต์ที่มีความละเอียดอ่อน เช่น รหัสไปรษณีย์ของบุคคลหนึ่งอาจใช้เป็นตัวแทนสำหรับรายได้ เชื้อชาติ หรือชาติพันธุ์

ฟังก์ชันที่แท้จริง

ฟังก์ชันที่เอาต์พุตจะอิงตามอินพุตเท่านั้น และไม่มีผลข้างเคียง กล่าวอย่างเจาะจงคือ ฟังก์ชันเพียงอย่างเดียวจะไม่ใช้หรือเปลี่ยนสถานะส่วนกลาง เช่น เนื้อหาของไฟล์หรือค่าของตัวแปรที่อยู่นอกฟังก์ชัน

คุณใช้ฟังก์ชันที่แท้จริงเพื่อสร้างโค้ดที่ปลอดภัยของเทรดได้ ซึ่งจะเป็นประโยชน์เมื่อชาร์ดโค้ด model ในชิป Accelerator หลายรายการ

วิธีการเปลี่ยนรูปแบบฟังก์ชันของ JAX กำหนดให้ฟังก์ชันอินพุตเป็นฟังก์ชันเพียงอย่างเดียว

Q

ฟังก์ชัน Q

#rl

ใน reinforcement Learning ฟังก์ชันที่คาดคะเนผลตอบแทนที่คาดว่าจะได้รับจาก การดำเนินการใน สถานะ จากนั้นทำตามนโยบายที่กำหนด

ฟังก์ชัน Q เรียกอีกอย่างว่าฟังก์ชันค่าสถานะการดำเนินการ

อีเลิร์นนิง

#rl

ในการเรียนรู้แบบเสริมกำลัง อัลกอริทึมที่ช่วยให้ ตัวแทนเรียนรู้ ฟังก์ชัน Q ที่เหมาะที่สุดสำหรับกระบวนการตัดสินใจของ Markov โดยใช้สมการ Bellman กระบวนการตัดสินใจของมาร์คอฟ จะจำลองสภาพแวดล้อม

ควอนไทล์

ที่เก็บข้อมูลแต่ละรายการในที่เก็บข้อมูลแบบควอนไทล์

การฝากข้อมูลควอนไทล์

การกระจายค่าของฟีเจอร์ลงในที่เก็บข้อมูลเพื่อให้แต่ละที่เก็บข้อมูลมีตัวอย่างจำนวนเท่ากัน (หรือเกือบเท่ากัน) ตัวอย่างเช่น รูปต่อไปนี้แบ่ง 44 จุดออกเป็น 4 ที่เก็บข้อมูล แต่ละจุดมี 11 จุด เพื่อให้ที่เก็บข้อมูลแต่ละชุดในรูปมีจำนวนจุดเท่ากัน ที่เก็บข้อมูลบางส่วนจะขยายความกว้างของค่า x ต่างกัน

จุดข้อมูล 44 จุดแบ่งออกเป็น 4 ที่เก็บข้อมูล จุดละ 11 จุด
          แม้ว่าที่เก็บข้อมูลแต่ละชุดจะมีจำนวนจุดข้อมูลเท่ากัน แต่ที่เก็บข้อมูลบางรายการจะมีช่วงของค่าฟีเจอร์ที่กว้างกว่าที่เก็บข้อมูลอื่นๆ

การวัดปริมาณ

ข้อความที่มากเกินไปซึ่งอาจนำไปใช้ในลักษณะต่อไปนี้ได้

  • การใช้ที่เก็บข้อมูลควอนไทล์ในฟีเจอร์ที่เจาะจง
  • จะเปลี่ยนข้อมูลให้เป็น 0 และ 0 เพื่อการจัดเก็บ การฝึก และการอนุมานที่รวดเร็วขึ้น เนื่องจากข้อมูลบูลีนมีประสิทธิภาพต่อสัญญาณรบกวนและข้อผิดพลาดมากกว่ารูปแบบอื่นๆ การวัดขนาดจึงช่วยปรับปรุงความถูกต้องของโมเดลได้ เทคนิคการวัดขนาด ได้แก่ การปัดเศษ การตัดข้อความ และbinning
  • ลดจำนวนบิตที่ใช้ในการจัดเก็บพารามิเตอร์ของโมเดล ตัวอย่างเช่น สมมติว่าระบบจัดเก็บพารามิเตอร์ของโมเดล เป็นตัวเลขทศนิยม 32 บิต ปริมาณจะแปลงพารามิเตอร์จาก 32 บิตเป็น 4, 8 หรือ 16 บิต การวัดช่วยลดสิ่งต่างๆ ต่อไปนี้

    • การใช้การประมวลผล หน่วยความจำ ดิสก์ และเครือข่าย
    • ได้เวลาอนุมานการคาดการณ์ล่วงหน้าแล้ว
    • การใช้พลังงาน

    อย่างไรก็ตาม บางครั้งการวัดปริมาณจะลดความถูกต้องในการคาดการณ์ของโมเดล

คิว

#TensorFlow

การดำเนินการของ TensorFlow ที่ใช้งานโครงสร้างข้อมูลคิว มักใช้ใน I/O

R

RAG

#fundamentals

ตัวย่อของการสร้างข้อมูลที่เสริมด้วยการดึงข้อมูล

สุ่มป่า

#df

กลุ่มของแผนผังการตัดสินใจซึ่งแต่ละแผนผังการตัดสินใจจะได้รับการฝึกโดยใช้ความผันผวนแบบสุ่มที่เฉพาะเจาะจง เช่น การแบกรับ

ป่าสุ่มเป็นป่าการตัดสินใจประเภทหนึ่ง

นโยบายแบบสุ่ม

#rl

ใน การเสริมการเรียนรู้ นโยบายที่เลือกจะสุ่มเลือกการดำเนินการ

การจัดอันดับ

ประเภทของการเรียนรู้แบบมีการควบคุมดูแลประเภทหนึ่งโดยมีวัตถุประสงค์เพื่อเรียงลำดับรายการต่างๆ

อันดับ (ลำดับ)

ตำแหน่งตามลำดับของชั้นเรียนในโจทย์แมชชีนเลิร์นนิงที่จัดหมวดหมู่ชั้นเรียนจากสูงไปต่ำ ตัวอย่างเช่น ระบบการจัดอันดับพฤติกรรมอาจจัดอันดับรางวัลของสุนัขจากสูงสุด (สเต็ก) ไปต่ำสุด (ผักเคลที่ร่วงโรย)

อันดับ (Tensor)

#TensorFlow

จำนวนมิติข้อมูลใน Tensor เช่น สเกลาร์มีอันดับ 0 เวกเตอร์มีอันดับ 1 และเมทริกซ์มีอันดับ 2

โปรดอย่าสับสนกับอันดับ (ลำดับ)

ผู้ให้คะแนน

#fundamentals

บุคคลที่ให้ป้ายกำกับสำหรับตัวอย่าง "ผู้เขียนคำอธิบายประกอบ" เป็นอีกชื่อหนึ่งสำหรับผู้ตรวจสอบ

การเรียกคืน

เมตริกสำหรับรูปแบบการจัดประเภทที่ตอบคำถามต่อไปนี้

เมื่อข้อมูลจากการสังเกตการณ์โดยตรงเป็นคลาสเชิงบวก การคาดการณ์ที่โมเดลระบุว่าเป็นคลาสเชิงบวกอย่างถูกต้องกี่เปอร์เซ็นต์

โดยมีสูตรดังนี้

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

โดยมี

  • ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสเชิงบวกอย่างถูกต้อง
  • ผลลบลวงหมายความว่าโมเดลมีข้อผิดพลาดในการคาดการณ์ คลาสที่เป็นลบ

ตัวอย่างเช่น สมมติว่าโมเดลของคุณทำการคาดการณ์ 200 ครั้งในตัวอย่างว่าข้อมูลจริงของพื้นดินเป็นคลาสที่เป็นบวก จากการคาดการณ์ 200 ข้อต่อไปนี้

  • คะแนน 180 เป็นผลบวกจริง
  • 20 เป็นผลลบลวง

ในกรณีนี้

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

ระบบการแนะนำ

#recsystems

ระบบที่เลือกชุดรายการที่ต้องการจากคลังข้อมูลขนาดใหญ่ให้ผู้ใช้แต่ละคน ตัวอย่างเช่น ระบบการแนะนำวิดีโออาจแนะนำวิดีโอ 2 รายการจากคลังวิดีโอ 100,000 รายการ โดยเลือก Casablanca และ The Philadelphia Story สำหรับผู้ใช้ 1 ราย และ Wonder Women และ Black Panther สำหรับผู้ใช้รายอื่น ระบบการแนะนำวิดีโออาจ แนะนำวิดีโอตามปัจจัยต่างๆ เช่น

  • ภาพยนตร์ที่ผู้ใช้ที่คล้ายกันเคยให้คะแนนหรือรับชม
  • ประเภท ผู้กำกับ นักแสดง กลุ่มประชากรเป้าหมาย...

หน่วยเชิงเส้นแบบหยัก (ReLU)

#fundamentals

ฟังก์ชันเปิดใช้งานที่มีลักษณะการทำงานดังต่อไปนี้

  • หากอินพุตเป็นลบหรือ 0 เอาต์พุตจะเป็น 0
  • หากอินพุตเป็นบวก เอาต์พุตจะเท่ากับอินพุต

เช่น

  • หากอินพุตเป็น -3 เอาต์พุตจะเป็น 0
  • ถ้าอินพุตคือ +3 เอาต์พุตจะเป็น 3.0

นี่คือโครงเรื่อง ReLU

พล็อตตัวการ์ตูนที่มี 2 บรรทัด บรรทัดแรกมีค่า y คงที่ที่ 0 โดยแสดงตามแกน x ตั้งแต่ -infinity, 0 ถึง 0,-0
          บรรทัดที่ 2 จะเริ่มที่ 0,0 เส้นนี้มีความชันของ +1
          จึงเริ่มจาก 0,0 ถึง +อนันต์, +อนันต์

ReLU เป็นฟังก์ชันเปิดใช้งานที่ได้รับความนิยมอย่างมาก แม้จะทำงานที่เรียบง่าย แต่ ReLU ก็ยังคงช่วยให้โครงข่ายประสาทเรียนรู้ความสัมพันธ์ที่ไม่เป็นเชิงเส้นระหว่างฟีเจอร์กับป้ายกำกับได้

โครงข่ายระบบประสาทเทียมแบบเกิดซ้ำ

#seq

โครงข่ายระบบประสาทเทียมที่ตั้งใจเรียกใช้หลายครั้ง โดยส่วนต่างๆ ของแต่ละฟีดจะเรียกใช้ในการเรียกใช้ครั้งถัดไป กล่าวอย่างเจาะจงคือ เลเยอร์ที่ซ่อนอยู่จากการเรียกใช้ก่อนหน้าจะทำให้มีอินพุตบางส่วนไปยังเลเยอร์ที่ซ่อนอยู่ในการเรียกใช้ครั้งถัดไป โครงข่ายประสาทแบบเกิดซ้ำมีประโยชน์อย่างยิ่งในการประเมินลำดับเพื่อให้เลเยอร์ที่ซ่อนอยู่เรียนรู้จากการเรียกใช้โครงข่ายระบบประสาทเทียมครั้งก่อนๆ ของลำดับได้

ตัวอย่างเช่น รูปต่อไปนี้แสดงโครงข่ายระบบประสาทเทียมแบบเกิดซ้ำที่ทำงาน 4 ครั้ง โปรดสังเกตว่าค่าที่เรียนรู้ในเลเยอร์ที่ซ่อนอยู่จากการเรียกใช้ครั้งแรกจะกลายเป็นส่วนหนึ่งของอินพุตไปยังเลเยอร์ที่ซ่อนไว้เดียวกันในการเรียกใช้ครั้งที่ 2 ในทำนองเดียวกัน ค่าที่เรียนรู้ในเลเยอร์ที่ซ่อนอยู่ในการเรียกใช้ครั้งที่ 2 จะกลายเป็นส่วนหนึ่งของอินพุตไปยังเลเยอร์ที่ซ่อนอยู่ในการเรียกใช้ครั้งที่ 3 ด้วยวิธีนี้ โครงข่ายประสาทแบบวนซ้ำจะค่อยๆ ฝึกและคาดการณ์ความหมายของลำดับทั้งหมด ไม่ใช่แค่ความหมายของคำเดี่ยว

RNN ที่ทำงาน 4 ครั้งเพื่อประมวลผลคำที่ป้อน 4 คำ

โมเดลการถดถอย

#fundamentals

โมเดลที่สร้างการคาดการณ์เชิงตัวเลขแบบไม่เป็นทางการ (ในทางตรงกันข้าม โมเดลการจัดประเภทจะสร้างการคาดคะเนคลาส) ตัวอย่างเช่น ต่อไปนี้คือโมเดลการถดถอยทั้งหมด

  • โมเดลที่คาดการณ์มูลค่าของบ้านหนึ่งๆ เช่น 423,000 ยูโร
  • โมเดลที่คาดการณ์อายุคาดเฉลี่ยของต้นไม้บางต้น เช่น 23.2 ปี
  • โมเดลที่คาดการณ์ปริมาณน้ำฝนที่จะลดลงในเมืองหนึ่งๆ ในอีก 6 ชั่วโมงข้างหน้า เช่น 0.18 นิ้ว

โมเดลการถดถอยที่พบบ่อย 2 ประเภท ได้แก่

โมเดลบางส่วนที่แสดงการคาดการณ์เชิงตัวเลขจะไม่เป็นโมเดลการถดถอย ในบางกรณี การคาดคะเนตัวเลขเป็นเพียงโมเดลการจัดประเภท ที่มีชื่อคลาสเป็นตัวเลข ตัวอย่างเช่น โมเดลที่คาดการณ์รหัสไปรษณีย์ที่เป็นตัวเลขคือโมเดลการจัดประเภท ไม่ใช่โมเดลการถดถอย

Regularization

#fundamentals

กลไกที่ลดการปรับมากเกินไป ประเภทการกำหนดมาตรฐานซึ่งเป็นที่นิยม ได้แก่

การกำหนดมาตรฐานยังอาจหมายถึงบทลงโทษสำหรับความซับซ้อนของโมเดล

อัตราปกติ

#fundamentals

ตัวเลขที่ระบุความสำคัญเชิงสัมพัทธ์ของการทำให้สม่ำเสมอระหว่างการฝึก การเพิ่มอัตราการแปลงรูปแบบช่วยลดการปรับมากเกินไปแต่อาจลดกำลังการคาดการณ์ของโมเดล ในทางกลับกัน การลดหรือการละเลย อัตราการทำให้เป็นมาตรฐานจะทำให้ใช้เกินความจำเป็น

การเรียนรู้แบบเสริมกำลัง (RL)

#rl

กลุ่มอัลกอริทึมที่เรียนรู้นโยบายที่เหมาะสม โดยมีเป้าหมายเพื่อเพิ่มผลตอบแทนให้ได้สูงสุดเมื่อโต้ตอบกับสภาพแวดล้อม ตัวอย่างเช่น รางวัลสูงสุดของเกมส่วนใหญ่คือชัยชนะ ระบบการเรียนรู้แบบเสริมสามารถเป็นผู้เชี่ยวชาญในการเล่นเกมที่ซับซ้อนด้วยการประเมินลำดับการเคลื่อนไหวในเกมก่อนหน้าซึ่งนำไปสู่การชนะและลำดับที่นำไปสู่ความพ่ายแพ้ในที่สุด

การเรียนรู้แบบเสริมกำลังจากความคิดเห็นของมนุษย์ (RLHF)

#GenerativeAI
#rl

ใช้ความคิดเห็นจากเจ้าหน้าที่ตรวจสอบเพื่อปรับปรุงคุณภาพของคำตอบของโมเดล ตัวอย่างเช่น กลไก RLHF จะขอให้ผู้ใช้ให้คะแนนคุณภาพคำตอบของโมเดลด้วยอีโมจิ 👍 หรือ 👎 จากนั้นระบบจะปรับการตอบสนองในอนาคต โดยอิงตามความคิดเห็นนั้น

ReLU

#fundamentals

ตัวย่อของหน่วยเชิงเส้นที่แก้ไขแล้ว

บัฟเฟอร์การเล่นซ้ำ

#rl

ในอัลกอริทึมที่คล้ายกับ DQN หน่วยความจำที่ Agent ใช้ในการจัดเก็บการเปลี่ยนแปลงสถานะเพื่อใช้ในการเล่นซ้ำ

ตัวจำลอง

สำเนาของชุดการฝึกหรือโมเดล โดยปกติแล้วจะอยู่ในเครื่องอื่น เช่น ระบบอาจใช้กลยุทธ์ต่อไปนี้ในการใช้ข้อมูลพร้อมกัน

  1. วางแบบจำลองของโมเดลที่มีอยู่ในเครื่องหลายเครื่อง
  2. ส่งชุดย่อยของชุดการฝึกที่แตกต่างกันไปยังตัวจำลองแต่ละรายการ
  3. รวบรวมการอัปเดตพารามิเตอร์

อคติในการรายงาน

#fairness

ข้อเท็จจริงที่ว่าความถี่ที่บุคคลเขียนเกี่ยวกับการกระทำ ผลลัพธ์ หรือทรัพย์สินไม่ได้สะท้อนถึงความถี่จริงหรือระดับของทรัพย์สินที่เป็นลักษณะเฉพาะของกลุ่มบุคคล อคติในการรายงานอาจส่งผลต่อองค์ประกอบของ ข้อมูลที่ระบบแมชชีนเลิร์นนิงเรียนรู้

เช่น ในหนังสือ คำว่าหัวเราะจะแพร่หลายมากกว่าการหายใจ โมเดลแมชชีนเลิร์นนิงที่ประมาณความถี่สัมพัทธ์ของการหัวเราะและการหายใจจากคลังหนังสือน่าจะตัดสินว่าการหัวเราะเป็นเรื่องธรรมดากว่าการหายใจ

การนำเสนอ

กระบวนการจับคู่ข้อมูลกับฟีเจอร์ที่มีประโยชน์

การจัดอันดับใหม่

#recsystems

ขั้นตอนสุดท้ายของระบบคำแนะนำ ระหว่างรายการที่มีคะแนนอาจมีการให้คะแนนใหม่ตามอัลกอริทึมอื่นๆ (โดยทั่วไปจะไม่ใช่ ML) การจัดอันดับใหม่จะประเมินรายการที่สร้างจากระยะการให้คะแนน โดยดำเนินการต่างๆ เช่น

  • การกำจัดสินค้าที่ผู้ใช้ซื้อไปแล้ว
  • เพิ่มคะแนนให้รายการใหม่ๆ

การสร้างแบบเสริมการดึงข้อมูล (RAG)

#fundamentals

เทคนิคในการปรับปรุงคุณภาพเอาต์พุตของโมเดลภาษาขนาดใหญ่ (LLM) โดยกำหนดแหล่งข้อมูลความรู้ที่ดึงมาหลังจากการฝึกโมเดล RAG ปรับปรุงความแม่นยำของการตอบกลับ LLM ด้วยการให้ LLM ที่ผ่านการฝึกอบรมแล้วมีสิทธิ์เข้าถึงข้อมูลที่ดึงมาจากฐานความรู้หรือเอกสารที่เชื่อถือได้

แรงจูงใจทั่วไปในการใช้การสร้างที่เสริมด้วยการดึงข้อมูลมีดังนี้

  • เพิ่มความถูกต้องข้อเท็จจริงของคำตอบที่โมเดลสร้างขึ้น
  • ให้สิทธิ์เข้าถึงความรู้ที่โมเดลไม่ได้รับการฝึก
  • เปลี่ยนความรู้ที่โมเดลใช้
  • กำลังเปิดใช้โมเดลเพื่ออ้างอิงแหล่งที่มา

ตัวอย่างเช่น สมมติว่าแอปเคมีใช้ PaLM API เพื่อสร้างข้อมูลสรุปที่เกี่ยวข้องกับการค้นหาของผู้ใช้ เมื่อแบ็กเอนด์ของแอปได้รับคำค้นหา แบ็กเอนด์จะดำเนินการต่อไปนี้

  1. ค้นหาข้อมูล ("ดึง") ที่เกี่ยวข้องกับการค้นหาของผู้ใช้
  2. เพิ่ม ("การเสริม") ข้อมูลเคมีที่เกี่ยวข้องในข้อความค้นหาของผู้ใช้
  3. สั่งให้ LLM สร้างสรุปตามข้อมูลที่เพิ่มเข้ามา

return

#rl

ในการเรียนรู้แบบเสริมกำลัง เนื่องด้วยนโยบายและบางสถานะ ผลตอบแทนคือผลรวมของรางวัลทั้งหมดที่ agent คาดว่าจะได้รับเมื่อปฏิบัติตามนโยบาย ตั้งแต่สถานะจนจบตอน ตัวแทนจะพิจารณาความล่าช้าของรางวัลที่คาดว่าจะเกิดขึ้นโดยการลดราคารางวัลตามการเปลี่ยนผ่านรัฐที่กำหนดเพื่อรับรางวัล

ดังนั้น หากปัจจัยส่วนลดคือ \(\gamma\)และ \(r_0, \ldots, r_{N}\)แสดงถึงรางวัลจนจบตอน การคำนวณการคืนสินค้าจะเป็นดังนี้

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

รางวัล

#rl

ในการเรียนรู้แบบสนับสนุน ผลลัพธ์ที่เป็นตัวเลขของการดำเนินการในสถานะตามที่กำหนดโดยสภาพแวดล้อม

วิธีการจัดแนวสัน

คำพ้องความหมายของ L2 regularization คำว่าวิธีการระบุสันดาปแบบปกติมักใช้ในบริบททางสถิติเพียงอย่างเดียว ขณะที่การกำหนดมาตรฐาน L2 มีการใช้บ่อยกว่าในแมชชีนเลิร์นนิง

RNN

#seq

ตัวย่อของโครงข่ายประสาทแบบเกิดซ้ำ

เส้นโค้ง ROC (Receiver Operating Characteristic)

#fundamentals

กราฟของอัตราผลบวกจริงเทียบกับอัตราผลบวกลวงสำหรับเกณฑ์การจัดประเภทที่แตกต่างกันในการจัดประเภทแบบไบนารี

รูปร่างของเส้นโค้ง ROC บ่งบอกถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสบวกออกจากคลาสลบ ตัวอย่างเช่น สมมติว่าโมเดลการจัดประเภทแบบไบนารีแยกคลาสเชิงลบทั้งหมดออกจากคลาสบวกทั้งหมดได้อย่างลงตัว

เส้นตัวเลขที่มีตัวอย่างเชิงบวก 8 รายการทางด้านขวาและตัวอย่างเชิงลบ 7 รายการทางด้านซ้าย

กราฟ ROC สำหรับโมเดลก่อนหน้ามีลักษณะดังนี้

เส้นโค้ง ROC แกน x คืออัตราผลบวกเท็จและแกน y คืออัตราผลบวกจริง เส้นโค้งมีรูปตัว L แบบกลับสี เส้นโค้งจะเริ่มต้นที่ (0.0,0.0) และตรงขึ้นไปจนถึง (0.0,1.0) จากนั้นเส้นโค้งจะเริ่มจาก (0.0,1.0) ถึง (1.0,1.0)

ในทางตรงกันข้าม ภาพประกอบต่อไปนี้แสดงกราฟค่าการถดถอยแบบโลจิสติกแบบดิบของโมเดลที่แย่มากซึ่งไม่สามารถแยกคลาสเชิงลบออกจากคลาสบวกได้เลย

บรรทัดจำนวนที่มีตัวอย่างที่เป็นบวกและคลาสเชิงลบปะปนกันไปโดยสมบูรณ์

เส้นโค้ง ROC สำหรับโมเดลนี้จะมีลักษณะดังนี้

เส้นโค้ง ROC ซึ่งที่จริงแล้วเป็นเส้นตรงจาก (0.0,0.0) ถึง (1.0,1.0)

ในขณะเดียวกัน เมื่อมองในโลกแห่งความเป็นจริง โมเดลการจัดประเภทแบบไบนารีส่วนใหญ่จะแยกคลาสบวกและคลาสลบออกไปในระดับหนึ่ง แต่มักจะไม่สมบูรณ์แบบ ดังนั้น กราฟ ROC ตามปกติจะอยู่ระหว่างปลายสุด 2 ด้าน ได้แก่

เส้นโค้ง ROC แกน x คืออัตราผลบวกเท็จและแกน y คืออัตราผลบวกจริง เส้นโค้ง ROC จะประมาณการเป็นเส้นโค้งที่สั่นสะเทือนซึ่งข้ามผ่านจุดเข็มทิศจากทิศตะวันตกไปยังทิศเหนือ

จุดบนเส้นโค้ง ROC ที่ใกล้เคียง (0.0,1.0) ในทางทฤษฎีจะระบุเกณฑ์การจัดประเภทตามหลัก อย่างไรก็ตาม ปัญหาอื่นๆ ในชีวิตจริงอีกหลายอย่างมีอิทธิพลต่อการเลือกเกณฑ์การจัดประเภทที่เหมาะสม ตัวอย่างเช่น ผลลบลวงอาจทำให้รู้สึกเจ็บปวดมากกว่าผลบวกลวง

เมตริกเชิงตัวเลขที่เรียกว่า AUC จะสรุปเส้นโค้ง ROC เป็นค่าจุดลอยตัวค่าเดียว

การแสดงข้อความแจ้งบทบาท

#language
#GenerativeAI

ส่วนที่ไม่บังคับของข้อความแจ้งที่ระบุกลุ่มเป้าหมายสำหรับคำตอบของโมเดล Generative AI โดยไม่มีบทบาท โมเดลภาษาขนาดใหญ่จะให้คำตอบที่อาจมีประโยชน์หรือไม่มีประโยชน์ต่อบุคคลที่ถามคำถาม เมื่อใช้พรอมต์บทบาท โมเดลภาษาขนาดใหญ่จะตอบคำถามในลักษณะที่เหมาะสมและเป็นประโยชน์มากยิ่งขึ้นสำหรับกลุ่มเป้าหมายที่เฉพาะเจาะจง ตัวอย่างเช่น ส่วนพรอมต์บทบาทของข้อความแจ้งต่อไปนี้จะแสดงเป็นตัวหนา

  • สรุปบทความนี้สำหรับปริญญาเอกด้านเศรษฐศาสตร์
  • อธิบายวิธีการทำงานของกระแสน้ำสำหรับเด็กอายุ 10 ปี
  • อธิบายวิกฤตการณ์ทางการเงินปี 2008 พูดเหมือนอย่างเช่นเด็กเล็กหรือโกลเด้นรีทรีฟเวอร์

รูท

#df

โหนดเริ่มต้น (เงื่อนไขแรก) ในแผนผังการตัดสินใจ โดยปกติ แผนภาพจะใส่รากไว้ที่ด้านบนสุดของแผนผังการตัดสินใจ เช่น

แผนผังการตัดสินใจที่มี 2 เงื่อนไขและ 3 ใบ เงื่อนไขเริ่มต้น (x > 2) คือรูท

ไดเรกทอรีราก

#TensorFlow

ไดเรกทอรีที่คุณระบุสำหรับไดเรกทอรีย่อยการโฮสต์ของจุดตรวจสอบ TensorFlow และไฟล์เหตุการณ์หลายโมเดล

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)

#fundamentals

รากที่สองของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง

ความแปรปรวนของการหมุน

#image

ในการแก้ปัญหาการจำแนกประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดหมวดหมู่รูปภาพให้สำเร็จ แม้ว่าการวางแนวของภาพจะเปลี่ยนไปก็ตาม ตัวอย่างเช่น อัลกอริทึมยังคงสามารถระบุไม้เทนนิสได้ไม่ว่าจะชี้ขึ้น ตะแคงข้าง หรือลง โปรดทราบว่าค่าความแปรปรวนแบบหมุนเป็นความไม่เป็นที่ต้องการเสมอไป ตัวอย่างเช่น การกลับหัวกลับหาง 9 ไม่ควรจัดอยู่ในประเภท 9

ดูข้อมูลเพิ่มเติมได้ในความแปรปรวนของการแปลและความแปรปรวนของขนาด

R-squared

เมตริกการถดถอยที่ระบุความแปรปรวนของป้ายกำกับที่เกิดจากแต่ละฟีเจอร์หรือชุดฟีเจอร์ R-squared เป็นค่าระหว่าง 0 ถึง 1 ซึ่งแปลความหมายได้ดังนี้

  • ค่า R-squared เป็น 0 หมายความว่าไม่มีรูปแบบใดของป้ายกำกับใดที่สัมพันธ์กับชุดคุณลักษณะ
  • R-squared ของ 1 หมายความว่ารูปแบบทั้งหมดของป้ายกำกับนั้นเกิดจากชุดฟีเจอร์
  • ค่า R-squared ที่อยู่ระหว่าง 0 ถึง 1 จะระบุขอบเขตที่รูปแบบของป้ายกำกับจะคาดการณ์ได้จากฟีเจอร์หนึ่งๆ หรือชุดฟีเจอร์ ตัวอย่างเช่น ค่า R-squared ของ 0.10 หมายความว่า 10 เปอร์เซ็นต์ของความแปรปรวนในป้ายกำกับนั้นเกิดจากชุดคุณลักษณะ ค่า R-squared ที่ 0.20 หมายความว่า 20 เปอร์เซ็นต์นั้นเกิดจากชุดคุณลักษณะ เป็นต้น

R-squared คือกำลังสองของสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน ระหว่างค่าที่โมเดลคาดการณ์กับข้อมูลที่เป็นความจริง

S

การให้น้ำหนักพิเศษในการสุ่มตัวอย่าง

#fairness

ดูการให้น้ำหนักพิเศษกับการเลือก

การสุ่มตัวอย่างพร้อมการแทนที่

#df

วิธีเลือกรายการจากชุดรายการที่แนะนำซึ่งเลือกรายการเดียวกันได้หลายครั้ง วลี "มีการแทนที่" หมายความว่าหลังจากการเลือกแต่ละครั้ง รายการที่เลือกจะถูกส่งคืนไปยังกลุ่มรายการตัวเลือก วิธีการผกผัน การสุ่มตัวอย่างโดยไม่แทนที่ หมายความว่าจะเลือกรายการผู้สมัครได้เพียงครั้งเดียวเท่านั้น

เช่น ลองพิจารณาชุดผลไม้ต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

สมมติว่าระบบสุ่มเลือก fig เป็นรายการแรก หากใช้การสุ่มตัวอย่างพร้อมการแทนที่ ระบบจะเลือกรายการที่ 2 จากชุดต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

ใช่ เหมือนเดิม ระบบจึงเลือก fig อีกครั้งได้

หากใช้การสุ่มตัวอย่างโดยไม่มีการแทนที่ เมื่อเลือกตัวอย่างแล้ว คุณจะไม่สามารถเลือกตัวอย่างได้อีก เช่น หากระบบสุ่มเลือก fig เป็นตัวอย่างแรก ระบบจะไม่เลือก fig อีก ดังนั้น ระบบจะเลือกตัวอย่างที่สองจากชุด (ลดลง) ต่อไปนี้

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

รูปแบบที่แนะนำสำหรับการบันทึกและกู้คืนโมเดล TensorFlow savedModel เป็นรูปแบบการเรียงอันดับที่เป็นกลางและกู้คืนได้ ซึ่งช่วยให้ระบบและเครื่องมือระดับสูงสร้าง ใช้ และเปลี่ยนรูปแบบโมเดล TensorFlow ได้

ดูรายละเอียดทั้งหมดได้ที่ส่วนการบันทึกและการคืนค่าในคู่มือของโปรแกรมเมอร์ TensorFlow

ประหยัด

#TensorFlow

ออบเจ็กต์ TensorFlow ที่รับผิดชอบในการบันทึกจุดตรวจสอบโมเดล

สเกลาร์

ตัวเลขเดียวหรือสตริงเดียวที่ใช้เป็น tensor ของ rank 0 ได้ เช่น โค้ดบรรทัดต่อไปนี้สร้างสเกลาร์ 1 สเกลใน TensorFlow

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

การปรับขนาด

การแปลงทางคณิตศาสตร์หรือเทคนิคที่เปลี่ยนช่วงของป้ายกำกับและ/หรือค่าฟีเจอร์ การปรับขนาดบางรูปแบบมีประโยชน์มากสำหรับการแปลงต่างๆ เช่น การปรับให้สอดคล้องตามมาตรฐาน

รูปแบบทั่วไปในการปรับขนาดที่มีประโยชน์ในแมชชีนเลิร์นนิงมีดังนี้

  • การปรับสเกลเชิงเส้น ซึ่งมักจะใช้การลบและการหารเพื่อแทนที่ค่าเดิมด้วยตัวเลขระหว่าง -1 ถึง +1 หรือระหว่าง 0 ถึง 1
  • การปรับขนาดลอการิทึม ซึ่งแทนที่ค่าเดิมด้วยลอการิทึม
  • การปรับค่ามาตรฐาน Z-Score ซึ่งจะแทนที่ค่าเดิมด้วยค่าจุดลอยตัวซึ่งแสดงจำนวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของจุดสนใจนั้น

Scikit-Learn

แพลตฟอร์มแมชชีนเลิร์นนิงแบบโอเพนซอร์สยอดนิยม โปรดดูที่ scikit-learn.org

การให้คะแนน

#recsystems

ส่วนของระบบการแนะนำที่ให้ค่าหรือการจัดอันดับสำหรับแต่ละรายการที่ผลิตโดยระยะการสร้างผู้สมัคร

อคติจากการเลือก

#fairness

ข้อผิดพลาดในข้อสรุปที่มาจากข้อมูลตัวอย่างเนื่องจากกระบวนการเลือกที่สร้างความแตกต่างอย่างเป็นระบบระหว่างตัวอย่างที่สังเกตในข้อมูลกับตัวอย่างที่สังเกตไม่ได้ ความลำเอียงในการเลือกมีรูปแบบดังต่อไปนี้

  • อคติที่ครอบคลุม: ประชากรที่แสดงในชุดข้อมูลไม่ตรงกับประชากรที่โมเดลแมชชีนเลิร์นนิงกำลังคาดการณ์อยู่
  • การให้น้ำหนักพิเศษกับการสุ่มตัวอย่าง: ระบบจะไม่เก็บรวบรวมข้อมูลแบบสุ่มจากกลุ่มเป้าหมาย
  • อคติที่ไม่ตอบกลับ (หรือที่เรียกว่าอคติในการเข้าร่วม): ผู้ใช้จากบางกลุ่มเลือกไม่รับแบบสํารวจในอัตราที่แตกต่างจากผู้ใช้ในกลุ่มอื่นๆ

เช่น สมมติว่าคุณกำลังสร้างโมเดลแมชชีนเลิร์นนิงที่คาดคะเน ความสนุกสนานของผู้คนที่มีต่อภาพยนตร์ ในการรวบรวมข้อมูลการฝึกอบรม คุณต้องส่งแบบสำรวจให้กับทุกคนที่อยู่แถวหน้าของโรงภาพยนตร์ ที่ฉายภาพยนตร์ นี่อาจฟังดูไม่สมเหตุสมผลในการรวบรวมชุดข้อมูล อย่างไรก็ตาม การรวบรวมข้อมูลในรูปแบบนี้อาจทำให้เกิดการให้น้ำหนักการเลือกในรูปแบบต่อไปนี้

  • ความเอนเอียงด้านการครอบคลุม: การสุ่มตัวอย่างจากประชากรที่เลือกรับชม ภาพยนตร์ การคาดการณ์ของโมเดลของคุณอาจไม่ครอบคลุมผู้คน ที่ไม่ได้แสดงความสนใจในภาพยนตร์ในระดับนั้นอยู่แล้ว
  • การให้น้ำหนักพิเศษเป็นตัวอย่าง: แทนที่จะสุ่มตัวอย่างจากประชากรที่ต้องการ (คนทั้งหมดในภาพยนตร์) คุณสุ่มตัวอย่างเฉพาะคนที่อยู่แถวหน้าเท่านั้น เป็นไปได้ว่าคนที่นั่งแถวหน้าจะสนใจภาพยนตร์เรื่องนี้มากกว่าผู้ที่อยู่ในแถวอื่นๆ
  • อคติที่ไม่ตอบกลับ: โดยทั่วไป ผู้ที่มีความคิดเห็นชัดเจนมักจะตอบแบบสำรวจที่ไม่บังคับบ่อยกว่าคนที่มีความคิดเห็นไม่มาก เนื่องจากแบบสำรวจภาพยนตร์เป็นแบบไม่บังคับ คำตอบจึงมีแนวโน้มที่จะสร้างการแจกแจงแบบสองโมดัลมากกว่าการแจกแจงแบบปกติ (รูปกระดิ่ง)

การจดจ่อกับตนเอง (หรือเรียกว่า เลเยอร์ความสนใจตนเอง)

#language

เลเยอร์เครือข่ายระบบประสาทที่เปลี่ยนลำดับของการฝัง (เช่น การฝังโทเค็น) เป็นการฝังอีกลำดับหนึ่ง การฝังแต่ละรายการในลำดับเอาต์พุตจะสร้างขึ้นโดยการผสานรวมข้อมูลจากองค์ประกอบของลำดับอินพุตผ่านกลไก Attention

ส่วนตัวเอง ของการดึงดูดตัวเองหมายถึงลำดับการเข้าร่วมกับตัวเองมากกว่าที่จะพูดถึงบริบทอื่นๆ บางอย่าง การจดจ่อกับตนเองเป็นองค์ประกอบหลักอย่างหนึ่งของ Transformers และใช้คำศัพท์ในการค้นหาพจนานุกรม เช่น "query", "key" และ "value"

เลเยอร์ความสนใจด้วยตนเองจะเริ่มต้นด้วยลำดับการนำเสนออินพุต 1 รายการสำหรับแต่ละคำ การนำเสนออินพุตของคำอาจเป็นการฝังง่ายๆ เครือข่ายจะให้คะแนนความเกี่ยวข้องของคำกับทุกองค์ประกอบในลำดับคำทั้งหมดของแต่ละคำในลำดับอินพุต คะแนนความเกี่ยวข้องจะเป็นตัวกำหนดว่าข้อความสุดท้ายจะรวมการแทนคำอื่นๆ มากน้อยเพียงใด

ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

สัตว์ตัวนี้ไม่เดินข้ามถนนเพราะเหนื่อยเกินไป

ภาพต่อไปนี้ (จาก Transformer: A Novel Neural Network Architecture for Language Understanding) แสดงรูปแบบความสนใจสำหรับคำสรรพนาม it ของเลเยอร์ความสนใจตนเอง โดยความมืดของแต่ละบรรทัดระบุว่าแต่ละคำมีส่วนในการนำเสนอมากน้อยเพียงใด

ประโยคต่อไปนี้ปรากฏขึ้น 2 ครั้ง: สัตว์ไม่ข้ามถนนเพราะเหนื่อยเกินไป บรรทัดจะเชื่อมคำสรรพนามในประโยค 1 ประโยคกับ 5 โทเค็น (สัตว์ สัตว์ ถนน จุดที่ 3) ในอีกประโยค  เส้นแบ่งระหว่างคำสรรพนามกับคำว่าสัตว์นั้นแน่นที่สุด

เลเยอร์การใส่ใจตนเองจะไฮไลต์คำที่เกี่ยวข้องกับ "เนื้อหานั้น" ในกรณีนี้ เลเยอร์ความสนใจได้เรียนรู้วิธีไฮไลต์คำที่สัตว์อาจกล่าวถึง โดยกำหนดน้ำหนักสูงสุดให้กับสัตว์

สำหรับลำดับของ n โทเค็น ความสนใจตนเองจะแปลงลำดับของการฝัง n แบบแยกกัน 1 ครั้งในแต่ละตำแหน่งในลำดับ

นอกจากนี้ โปรดดู Attention และ multi-head Self-Attention

การเรียนรู้ภายใต้การควบคุมดูแลด้วยตนเอง

กลุ่มเทคนิคในการแปลงปัญหาแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลเป็นปัญหาแมชชีนเลิร์นนิงที่มีการควบคุมดูแลโดยการสร้างป้ายกำกับตัวแทนจากตัวอย่างที่ไม่มีป้ายกำกับ

โมเดลที่ใช้ Transformer บางรุ่น เช่น BERT ใช้การเรียนรู้ภายใต้การควบคุมดูแลด้วยตนเอง

การฝึกอบรมแบบควบคุมดูแลด้วยตนเองเป็นวิธีการการเรียนรู้ที่มีการควบคุมดูแล

การฝึกตนเอง

รูปแบบหนึ่งของการเรียนรู้ด้วยตนเองซึ่งจะเป็นประโยชน์อย่างยิ่งเมื่อเงื่อนไขทั้งหมดต่อไปนี้เป็นจริง

การฝึกด้วยตนเองทำงานโดยทำซ้ำใน 2 ขั้นตอนต่อไปนี้จนกว่าโมเดลจะหยุดพัฒนา

  1. ใช้แมชชีนเลิร์นนิงที่มีการควบคุมดูแลเพื่อฝึกโมเดลในตัวอย่างที่ติดป้ายกำกับ
  2. ใช้โมเดลที่สร้างขึ้นในขั้นตอนที่ 1 เพื่อสร้างการคาดการณ์ (ป้ายกำกับ) ในตัวอย่างที่ไม่มีป้ายกำกับ โดยย้ายโมเดลที่มีความเชื่อมั่นสูงไปไว้ในตัวอย่างที่ติดป้ายกำกับที่มีป้ายกำกับที่คาดการณ์ไว้

โปรดสังเกตว่าการทำซ้ำในขั้นตอนที่ 2 จะเพิ่มตัวอย่างที่มีป้ายกำกับสำหรับขั้นตอนที่ 1 เพื่อฝึกการเรียนรู้

การเรียนรู้ผ่านการควบคุมดูแลบางส่วน

การฝึกโมเดลข้อมูลที่ตัวอย่างการฝึกบางส่วนมีป้ายกำกับ แต่รายการอื่นไม่มี เทคนิคหนึ่งสำหรับการเรียนรู้แบบมีการควบคุมดูแลบางส่วนคือการอนุมานป้ายกำกับสำหรับตัวอย่างที่ไม่มีป้ายกำกับ แล้วฝึกกับป้ายกำกับที่อนุมานเพื่อสร้างโมเดลใหม่ การเรียนรู้แบบกึ่งมีการควบคุมดูแลจะมีประโยชน์หากป้ายกำกับมีราคาสูง แต่มีตัวอย่างที่ไม่มีป้ายกำกับมากมาย

การฝึกตนเองเป็นเทคนิคหนึ่งสำหรับการเรียนรู้ที่มีการควบคุมดูแลบางส่วน

แอตทริบิวต์ที่มีความละเอียดอ่อน

#fairness
คุณลักษณะของมนุษย์ที่อาจได้รับพิจารณาเป็นพิเศษเนื่องด้วยเหตุผลทางกฎหมาย จริยธรรม สังคม หรือส่วนตัว

การวิเคราะห์ความเห็น

#language

การใช้อัลกอริทึมทางสถิติหรือแมชชีนเลิร์นนิงเพื่อกำหนดทัศนคติโดยรวมของกลุ่มที่มีต่อบริการ ผลิตภัณฑ์ องค์กร หรือหัวข้อ ทั้งในแง่บวกหรือแง่ลบ เช่น เมื่อใช้การทำความเข้าใจภาษาที่เป็นธรรมชาติ อัลกอริทึมอาจทำการวิเคราะห์ความเห็นที่มีต่อข้อความตอบกลับในหลักสูตรมหาวิทยาลัย เพื่อกำหนดระดับชั้นที่นักศึกษาชื่นชอบหรือไม่ชอบหลักสูตรนั้น

โมเดลลำดับ

#seq

โมเดลที่อินพุตมีการขึ้นต่อกันตามลำดับ เช่น การคาดการณ์วิดีโอถัดไปที่ดูจากวิดีโอตามลำดับที่ดูก่อนหน้านี้

งานตามลำดับสู่ลำดับ

#language

งานที่แปลงลำดับอินพุตของโทเค็นเป็นลำดับเอาต์พุตของโทเค็น ตัวอย่างเช่น งานแบบเป็นลำดับต่อเนื่อง ที่ได้รับความนิยม 2 ประเภท ได้แก่

  • นักแปล
    • ตัวอย่างลำดับการป้อนข้อมูล: "ฉันรักคุณ"
    • ตัวอย่างลำดับเอาต์พุต: "Je t'aime"
  • การตอบคำถาม
    • ตัวอย่างลำดับอินพุต: "ฉันต้องใช้รถของฉันในนิวยอร์กซิตี้ไหม"
    • ตัวอย่างลำดับเอาต์พุต: "ไม่ โปรดเก็บรถไว้ที่บ้าน"

หน่วยบริโภค

กระบวนการทำให้โมเดลที่ผ่านการฝึกใช้งานได้เพื่อให้คาดการณ์ผ่านการอนุมานออนไลน์หรือการอนุมานออฟไลน์

รูปร่าง (Tensor)

จำนวนองค์ประกอบในมิติข้อมูลแต่ละรายการของ Tensor รูปร่างจะแสดงเป็นรายการจำนวนเต็ม ตัวอย่างเช่น Tensor สองมิติต่อไปนี้มีรูปร่างเป็น [3,4]

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow ใช้รูปแบบหลักแถว (C-style) เพื่อแสดงลำดับของมิติข้อมูล ซึ่งเป็นเหตุผลที่รูปร่างใน TensorFlow เป็น [3,4] แทนที่จะเป็น [4,3] กล่าวคือ ใน TensorFlow Tensor แบบ 2 มิติ รูปร่างคือ [จำนวนแถว จำนวนคอลัมน์]

ชาร์ด

#TensorFlow
#GoogleCloud

ส่วนย่อยเชิงตรรกะของชุดการฝึกหรือโมเดล โดยปกติแล้ว กระบวนการบางส่วนจะสร้างชาร์ดโดยแบ่งตัวอย่างหรือพารามิเตอร์เป็นกลุ่มที่มีขนาดเท่ากัน (โดยปกติ) จากนั้นระบบจะกำหนดชาร์ดแต่ละรายการให้กับคอมพิวเตอร์เครื่องอื่น

การชาร์ดดิ้งโมเดลเรียกว่าโมเดลคู่ขนาน การชาร์ดดิ้งข้อมูลเรียกว่าข้อมูลคู่ขนาน

การหดตัว

#df

พารามิเตอร์ไฮเปอร์พารามิเตอร์ในการเพิ่มการไล่ระดับสีที่ควบคุมการปรับมากเกินไป การหดตัวของการเพิ่มการไล่ระดับสี จะใกล้เคียงกับอัตราการเรียนรู้ใน การไล่ระดับสี การลดรูปคือค่าทศนิยมระหว่าง 0.0 ถึง 1.0 ค่าการหดตัวที่ต่ำลงจะลดการใช้ที่มากเกินไป มากกว่าค่าการหดตัวที่มากกว่า

ฟังก์ชันซิกมอยด์

#fundamentals

ฟังก์ชันทางคณิตศาสตร์ที่ "ยัด" ค่าอินพุตให้อยู่ในช่วงที่จำกัด โดยทั่วไปจะเป็น 0 ถึง 1 หรือ -1 ถึง +1 กล่าวคือ คุณสามารถส่งผ่านตัวเลขใดก็ได้ (2, ล้าน, ลบ, ลบใดก็ตาม) ไปยัง sigmoid และเอาต์พุตจะยังคงอยู่ในช่วงที่จำกัด พล็อตฟังก์ชันการเปิดใช้งาน Sigmoid มีลักษณะดังนี้

แผนภูมิโค้ง 2 มิติที่มีค่า x ครอบคลุมโดเมนตั้งแต่ - ไม่สิ้นสุดไปจนถึง +บวก ในขณะที่ค่า y จะครอบคลุมช่วงเกือบ 0 ถึงเกือบ 1 เมื่อ x เท่ากับ 0 แล้ว y จะเท่ากับ 0.5 ความชันของเส้นโค้งจะเป็นบวกเสมอ โดยความชันสูงสุดที่ 0,0.5 และค่อยๆ ลดความชันลงเมื่อค่าสัมบูรณ์ของ x เพิ่มขึ้น

ฟังก์ชัน Sigmoid มีประโยชน์หลายอย่างในแมชชีนเลิร์นนิง ได้แก่

การวัดความคล้ายคลึงกัน

#clustering

ในอัลกอริทึม clustering เมตริกที่ใช้ระบุว่า 2 ตัวอย่างทั้งสองมีความคล้ายคลึงกันมากน้อยเพียงใด

โปรแกรมเดียว / ข้อมูลหลายข้อมูล (SPMD)

เทคนิคการทำงานพร้อมกันซึ่งใช้การประมวลผลเดียวกันกับข้อมูลอินพุตที่แตกต่างกันพร้อมกันในอุปกรณ์ต่างๆ เป้าหมายของ SPMD คือการได้รับผลลัพธ์ เร็วขึ้น โดยเป็นรูปแบบที่ใช้กันมากที่สุดในการจัดโปรแกรมคู่ขนาน

ความแปรปรวนของขนาด

#image

ในการแก้ปัญหาการจำแนกประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพให้สำเร็จ แม้ว่าขนาดของรูปภาพจะเปลี่ยนไปก็ตาม เช่น อัลกอริทึมยังคงสามารถระบุแมวได้ ไม่ว่าจะใช้ความละเอียด 2 ล้านพิกเซลหรือ 200,000 พิกเซล โปรดทราบว่าแม้แต่อัลกอริทึมการจำแนกประเภทรูปภาพที่ดีที่สุดก็ยังมีข้อจำกัดในทางปฏิบัติเกี่ยวกับความแปรปรวนของขนาด เช่น อัลกอริทึม (หรือมนุษย์) ไม่น่าจะจัดประเภทรูปภาพแมวได้อย่างถูกต้องโดยใช้เพียง 20 พิกเซล

รวมทั้งดูความแปรปรวนของการแปลและความแปรปรวนหมุนเวียน

การสเก็ตช์ภาพ

#clustering

ในแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล หมวดหมู่ของอัลกอริทึมที่ทำการวิเคราะห์ความคล้ายคลึงเบื้องต้นในตัวอย่าง อัลกอริทึมการร่างภาพใช้ ฟังก์ชันแฮชที่ขึ้นอยู่กับพื้นที่เพื่อระบุจุดที่น่าจะคล้ายคลึงกัน แล้วจัดกลุ่มลงในที่เก็บข้อมูล

การร่างภาพจะลดการคำนวณที่จำเป็นสำหรับการคำนวณความคล้ายคลึงกันในชุดข้อมูลขนาดใหญ่ แทนที่จะคำนวณความคล้ายคลึงกันสำหรับตัวอย่างทุกคู่ในชุดข้อมูล เราจะคำนวณความคล้ายคลึงกันเฉพาะสำหรับจุดแต่ละคู่ภายในที่เก็บข้อมูลแต่ละคู่เท่านั้น

ข้ามแกรม

#language

n-gram ซึ่งอาจละ (หรือ "ข้าม") คำจากบริบทเดิม ซึ่งหมายความว่าคำ N อาจไม่ได้อยู่ติดกันแต่แรก และที่แม่นยำยิ่งขึ้น "k-skip-n-gram" คือ n-gram ที่อาจถูกข้ามคำได้ถึง k คำ

ยกตัวอย่างเช่น "สุนัขจิ้งจอกสั้นๆ สีน้ำตาล" จะมีปริมาณ 2 กรัมที่เป็นไปได้ดังนี้

  • "เร็ว"
  • "สีน้ำตาลคัทชู"
  • "จิ้งจอกสีน้ำตาล"

"1 ข้าม 2 กรัม" คือคู่ของคำที่มีไม่เกิน 1 คำ ดังนั้น "สุนัขจิ้งจอกที่ปราดเปรียว" จึงมีปริมาณ 1-5 กรัม ซึ่งมี 2 กรัมดังนี้

  • "สีน้ำตาล"
  • "จิ้งจอกด่วน"

นอกจากนี้ น้ำหนัก 2 กรัมทั้งหมดยังเป็นแบบ 1 ข้าม 2 กรัม เนื่องจากอาจข้ามน้อยกว่า 1 คำ

ปุ่มข้ามมีประโยชน์สำหรับการทำความเข้าใจบริบทรอบข้างของคำมากขึ้น ในตัวอย่างนี้ "สุนัขจิ้งจอก" มีความสัมพันธ์โดยตรงกับคำว่า "ด่วน" ในชุดอาหาร 1-ข้าม 2 กรัม แต่ไม่ได้อยู่ในชุด 2 กรัม

การข้ามไวยากรณ์ช่วยฝึกรูปแบบการฝังคำ

Softmax

#fundamentals

ฟังก์ชันที่กำหนดความน่าจะเป็นสำหรับคลาสที่เป็นไปได้แต่ละคลาสในโมเดลการจัดประเภทแบบหลายคลาส ความน่าจะเป็นรวมกัน ได้ 1.0 พอดี ตัวอย่างเช่น ตารางต่อไปนี้แสดงวิธีที่ Softmax กระจายความน่าจะเป็นต่างๆ

รูปภาพคือ... Probability
สุนัข .85
cat .13
ม้า .02

Softmax มีชื่อเรียกอีกอย่างว่า Full softmax

ตรงข้ามกับการสุ่มตัวอย่างผู้สมัคร

การปรับแต่งพรอมต์แบบนุ่มนวล

#language
#GenerativeAI

เทคนิคในการปรับแต่งโมเดลภาษาขนาดใหญ่สำหรับงานที่เฉพาะเจาะจง โดยไม่ต้องปรับแต่งทรัพยากรจำนวนมาก แทนที่จะฝึกน้ำหนักทั้งหมดในโมเดลอีกครั้ง การปรับแต่งซอฟต์พรอมต์จะปรับพรอมต์โดยอัตโนมัติเพื่อให้บรรลุเป้าหมายเดียวกัน

เมื่อใช้พรอมต์ที่เป็นข้อความ การปรับแต่ง Soft Prompt มักจะเพิ่มการฝังโทเค็นเพิ่มเติมต่อท้ายพรอมต์และใช้ Backpropagation เพื่อเพิ่มประสิทธิภาพอินพุต

โดยพรอมต์ "ยาก" จะมีโทเค็นจริงแทนการฝังโทเค็น

ฟีเจอร์บางส่วน

#language
#fundamentals

ฟีเจอร์ที่มีค่าเป็น 0 หรือเป็นค่าว่างเป็นส่วนใหญ่ เช่น ฟีเจอร์ที่มีค่า 1 ค่าเดียวและ 0 ล้านค่า 0 จะมีค่าที่มีอยู่น้อย ในทางตรงกันข้าม ฟีเจอร์ความหนาแน่นมีค่าที่ไม่ใช่ 0 หรือเป็นค่าว่างเป็นส่วนใหญ่

ในแมชชีนเลิร์นนิง ฟีเจอร์จำนวนที่ไม่น้อยก็คือฟีเจอร์จำนวนน้อย ฟีเจอร์เชิงหมวดหมู่มักจะเป็นองค์ประกอบแบบคร่าวๆ เช่น จากจำนวนต้นไม้ที่เป็นไปได้ 300 ชนิดในป่า ตัวอย่างหนึ่งอาจระบุแค่ต้นเมเปิล หรือจากวิดีโอที่เป็นไปได้นับล้านในคลังวิดีโอ มีตัวอย่างเดียวที่อาจระบุแค่ "คาซาบลังกา"

ในโมเดล โดยปกติคุณจะแสดงฟีเจอร์ที่ไม่ค่อยครอบคลุมด้วยการเข้ารหัสแบบฮอตเดียว หากการเข้ารหัสแบบ One-hot มีขนาดใหญ่ คุณอาจวางเลเยอร์การฝังทับการเข้ารหัสแบบ One-Hot เพื่อประสิทธิภาพที่ดียิ่งขึ้น

การนำเสนอแบบกระจัดกระจาย

#language
#fundamentals

จัดเก็บเฉพาะตำแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์บางส่วน

ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ species ระบุชนิดของต้นไม้ 36 ชนิดในป่าหนึ่งๆ หรือลองสมมติว่าตัวอย่างแต่ละรายการระบุสปีชีส์เพียงชนิดเดียว

คุณสามารถใช้เวกเตอร์ร้อนเดียวเพื่อแสดงสปีชีส์ของต้นไม้ในแต่ละตัวอย่างได้ เวกเตอร์แบบจุดร้อนจะมี 1 เดียว (เพื่อแสดงชนิดของต้นไม้ที่เจาะจงในตัวอย่างดังกล่าว) และ 35 0 (เพื่อแสดงชนิดต้นไม้ 35 ชนิดที่ไม่ในตัวอย่างนี้) ดังนั้น การนำเสนอที่น่าสนใจเพียงด้านเดียวของ maple อาจมีลักษณะดังนี้

เวกเตอร์ที่ตำแหน่ง 0 ถึง 23 จะเก็บค่า 0 ตำแหน่งที่ 24 จะเก็บค่า 1 และตำแหน่ง 25 ถึง 35 จะเก็บค่า 0

อีกอย่างหนึ่งคือการนำเสนอแบบคร่าวๆ จะระบุตำแหน่งของสปีชีส์เดี่ยวๆ หาก maple อยู่ที่ตำแหน่ง 24 การแสดง maple แบบคร่าวๆ จะเป็นดังนี้

24

โปรดสังเกตว่าการนำเสนอแบบคร่าวๆ จะมีขนาดกะทัดรัดมากกว่าการนำเสนอแบบเดี่ยวมาก

เวกเตอร์กระจัดกระจาย

#fundamentals

เวกเตอร์ที่มีค่าส่วนใหญ่เป็น 0 รวมทั้งดูฟีเจอร์คร่าวๆ และความเท่าเทียม

การขาดแคลนข้อมูล

จำนวนขององค์ประกอบที่ตั้งค่าเป็น 0 (หรือค่าว่าง) ในเวกเตอร์หรือเมทริกซ์ หารด้วยจำนวนรายการทั้งหมดในเวกเตอร์หรือเมทริกซ์นั้น เช่น ลองพิจารณาเมทริกซ์เอลิเมนต์ 100 ที่ 98 เซลล์มี 0 การคำนวณความตรงกันมีดังนี้

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

การขาดลักษณะเด่นหมายถึงการขาดแคลนของเวกเตอร์จุดสนใจ การขาดแคลนโมเดลหมายถึงการขาดแคลนของน้ำหนักโมเดล

การรวมกลุ่มพิกัดทางภูมิศาสตร์

#image

ดูพูล

ข้อมูลแบบแยกส่วน

#df

ในแผนผังการตัดสินใจจะใช้ชื่ออื่นของเงื่อนไข

ตัวแยก

#df

ขณะฝึกแผนผังการตัดสินใจ กิจวัตร (และอัลกอริทึม) มีหน้าที่ในการค้นหาเงื่อนไขที่ดีที่สุดในแต่ละโหนด

SPM

ตัวย่อของโปรแกรมเดียว / ข้อมูลหลายรายการ

สูญเสียบานพับสี่เหลี่ยม

รูปกำลังสองของการเสียบานพับ การสูญเสียบานพับในสี่เหลี่ยมจะลงโทษค่าที่ผิดปกติ รุนแรงกว่าการสูญเสียบานพับแบบปกติ

การสูญหายยกกำลังสอง

#fundamentals

คำพ้องความหมายของ L2 Los

การฝึกอบรมแบบทีละขั้น

#language

กลยุทธ์ของการฝึกโมเดลตามลำดับขั้นที่ไม่ต่อเนื่องกัน เป้าหมายอาจเป็นการเร่งกระบวนการฝึกหรือการทำให้โมเดลมีคุณภาพดีขึ้น

ภาพประกอบของวิธีการกองซ้อนแบบโพรเกรสซีฟแสดงอยู่ด้านล่าง

  • ขั้นที่ 1 มีเลเยอร์ที่ซ่อนอยู่ 3 เลเยอร์ ขั้นที่ 2 มีเลเยอร์ที่ซ่อนอยู่ 6 เลเยอร์ และขั้นที่ 3 มีเลเยอร์ที่ซ่อนอยู่ 12 เลเยอร์
  • ขั้นที่ 2 เริ่มการฝึกโดยมีการยกน้ำหนักที่เรียนรู้ใน 3 เลเยอร์ที่ซ่อนอยู่ของขั้นที่ 1 ขั้นที่ 3 เริ่มการฝึกโดยมีการยกน้ำหนักที่เรียนรู้ใน 6 เลเยอร์ที่ซ่อนอยู่ของขั้นที่ 2

3 ขั้นตอน ซึ่งติดป้ายกำกับว่าระยะที่ 1, ระยะที่ 2 และระยะ 3
          แต่ละระยะจะมีเลเยอร์ที่แตกต่างกัน ขั้นที่ 1 มี
          3 เลเยอร์, ขั้นที่ 2 มี 6 เลเยอร์ และขั้นที่ 3 มี 12 เลเยอร์
          3 เลเยอร์จากขั้นที่ 1 จะกลายเป็น 3 เลเยอร์แรกของขั้นที่ 2
          ในทํานองเดียวกัน 6 เลเยอร์จากระยะที่ 2 จะกลายเป็น 6 เลเยอร์แรกของระยะที่ 3

ดูเพิ่มเติมได้ที่ไปป์ไลน์

state

#rl

ในการเรียนรู้แบบเสริมกำลัง ค่าพารามิเตอร์ที่อธิบายการกำหนดค่าปัจจุบันของสภาพแวดล้อม ซึ่ง agent ใช้เพื่อเลือกการดำเนินการ

ฟังก์ชันค่าสถานะการดำเนินการ

#rl

คำพ้องความหมายของ Q-function

คงที่

#fundamentals

บางอย่างทำเพียงครั้งเดียวแทนที่จะทำอย่างต่อเนื่อง คำว่าคงที่และออฟไลน์เป็นคำพ้องความหมาย การใช้งานแบบคงที่และออฟไลน์ในแมชชีนเลิร์นนิงโดยทั่วไปมีดังนี้

  • โมเดลแบบคงที่ (หรือโมเดลออฟไลน์) คือโมเดลที่ได้รับการฝึกครั้งเดียวและนำไปใช้ได้อีกระยะหนึ่ง
  • การฝึกแบบคงที่ (หรือการฝึกออฟไลน์) เป็นกระบวนการฝึกโมเดลแบบคงที่
  • การอนุมานแบบคงที่ (หรือการอนุมานแบบออฟไลน์) คือกระบวนการที่โมเดลจะสร้างการคาดการณ์ชุดหนึ่งขึ้นในแต่ละครั้ง

ตัดกับไดนามิก

การอนุมานแบบคงที่

#fundamentals

คำพ้องความหมายของการอนุมานออฟไลน์

ความคงที่

#fundamentals

ฟีเจอร์ที่ค่าไม่เปลี่ยนแปลงในมิติข้อมูลอย่างน้อย 1 รายการ ซึ่งมักเกิดขึ้นตามเวลา ตัวอย่างเช่น ฟีเจอร์ที่มีค่าพอๆ กันในปี 2021 และ 2023 จะแสดงค่าความนิ่ง

ในโลกแห่งความเป็นจริง มีเพียงไม่กี่รายการที่แสดงความเป็นกลาง แม้กระทั่งคุณลักษณะที่คล้ายกันซึ่งมีความเสถียร (เช่น ระดับน้ำทะเล) เปลี่ยนแปลงเมื่อเวลาผ่านไป

คอนทราสต์กับ nonstationarity

ก้าว

การส่งต่อและส่งย้อนหลังของกลุ่มเดียว

ดูข้อมูลเพิ่มเติมเกี่ยวกับการส่งต่อและบัตรผ่านย้อนหลังได้ที่Backpropagation

ขนาดของขั้นบันได

คำพ้องความหมายของ learning Rate

การไล่ระดับสีแบบสโตแคติก (SGD)

#fundamentals

อัลกอริทึมการไล่ระดับสีซึ่งมีขนาดกลุ่มเป็น 1 กล่าวคือ SGD จะฝึกตามตัวอย่างเดียวที่เลือกแบบสุ่มจากชุดการฝึกอย่างเท่าเทียมกัน

ก้าว

#image

ในการดำเนินการคอนโวลูชัน (Convolutional) หรือการรวมกลุ่มข้อมูลเดลต้า (Delta) ในแต่ละมิติข้อมูลของชิ้นส่วนอินพุตชุดถัดไป ตัวอย่างเช่น ภาพเคลื่อนไหวต่อไปนี้แสดงระยะ (1,1) ในระหว่างปฏิบัติการแบบ Convolutional ดังนั้น ส่วนแบ่งอินพุตถัดไปจะเริ่มที่ตำแหน่งด้านขวาของส่วนแบ่งอินพุตก่อนหน้า เมื่อการดำเนินการมาถึงขอบด้านขวา สไลซ์ถัดไปจะไปทางซ้ายจนสุด แต่เลื่อนลงมาหนึ่งตำแหน่ง

เมทริกซ์อินพุต 5x5 และตัวกรองคอนโวลูชันัล 3x3 เนื่องจากระยะก้าวคือ (1,1) จะมีการใช้ตัวกรองคอนโวลูชัน (Convolutional) 9 ครั้ง ส่วนแบ่งคอนโวลูชัน (Convolutional) แรกจะประเมินเมทริกซ์ย่อย 3x3 ที่ด้านซ้ายบนของเมทริกซ์อินพุต ชิ้นส่วนที่ 2 ประเมินเมทริกซ์ย่อยขนาด 3x3 ตรงกลางด้านบน ส่วนคอนโวลูชันัลที่ 3 จะประเมินเมทริกซ์ย่อยขนาด 3x3 ด้านขวาบน  ชิ้นส่วนที่ 4 ประเมินเมทริกซ์ย่อย 3x3 ตรงกลางซ้าย
     ชิ้นส่วนที่ 5 ประเมินเมทริกซ์ย่อยขนาด 3x3 ตรงกลาง ชิ้นส่วนที่ 6 ประเมินเมทริกซ์ย่อยขนาด 3x3 ตรงกลาง-ขวา ส่วนภาพที่ 7 จะประเมินเมทริกซ์ย่อยขนาด 3x3 ด้านซ้ายล่าง  ส่วนภาพที่ 8 จะประเมินเมทริกซ์ย่อยขนาด 3x3 ด้านล่าง-ตรงกลาง ชิ้นส่วนที่ 9 จะประเมินเมทริกซ์ย่อยขนาด 3x3 ด้านขวาล่าง

ตัวอย่างก่อนหน้านี้แสดงระยะก้าวแบบ 2 มิติ หากเมทริกซ์อินพุตเป็น 3 มิติ ระยะก้าวก็จะเป็น 3 มิติด้วย

การลดความเสี่ยงด้านโครงสร้าง (SRM)

อัลกอริทึมที่ทำให้เป้าหมาย 2 เป้าหมายสมดุลกัน:

  • ความจำเป็นในการสร้างโมเดลการคาดการณ์ที่ดีที่สุด (เช่น การสูญเสียต่ำสุด)
  • คุณต้องทำให้โมเดลเรียบง่ายที่สุดเท่าที่จะทำได้ (เช่น การปรับรูปแบบให้คงที่อย่างชัดเจน)

ตัวอย่างเช่น ฟังก์ชันที่ลดการสูญเสียข้อมูลและการทำให้เป็นมาตรฐานในชุดการฝึกให้เหลือน้อยที่สุดคืออัลกอริทึมการลดความเสี่ยงด้านโครงสร้าง

ตรงข้ามกับการลดความเสี่ยงแบบเอมพิริคัลความเสี่ยง

การสุ่มตัวอย่างย่อย

#image

ดูพูล

โทเค็นคำย่อย

#language

ในโมเดลภาษา โทเค็นที่เป็นสตริงย่อยของคำ ซึ่งอาจเป็นทั้งคำ

เช่น คำหนึ่งอย่าง "itemize" อาจแบ่งออกเป็นชิ้นส่วน "item" (คำราก) และ "ize" (คำต่อท้าย) ซึ่งแต่ละคำจะแทนโทเค็นแต่ละรายการ การแยกคำที่ไม่เป็นที่นิยมออกเป็นส่วนๆ ที่เรียกว่า "คำย่อย" จะช่วยให้โมเดลภาษาทำงานกับส่วนประกอบที่พบได้บ่อยของคำนั้น เช่น คำนำหน้าและคำต่อท้าย

ในทางกลับกัน คำทั่วไปอย่าง "ไป" อาจไม่ได้ถูกแบ่งย่อยออกไปและอาจนำเสนอด้วยโทเค็นเพียงตัวเดียว

สรุป

#TensorFlow

ใน TensorFlow ค่าหรือชุดของค่าที่คำนวณในขั้นตอนหนึ่งๆ ซึ่งมักใช้สำหรับการติดตามเมตริกโมเดลระหว่างการฝึก

แมชชีนเลิร์นนิงที่มีการควบคุมดูแล

#fundamentals

การฝึกmodelจากmodelและmodelที่เกี่ยวข้อง แมชชีนเลิร์นนิงที่มีการควบคุมดูแลคล้ายกับการเรียนรู้แต่ละวิชาโดยการศึกษาชุดคำถามและคำตอบที่สอดคล้องกัน หลังจากฝึกฝนความเข้าใจในการจับคู่ระหว่างคำถามและคำตอบ นักเรียนจะให้คำตอบสำหรับคำถามใหม่ (ไม่เคยเห็นมาก่อน) ในหัวข้อเดียวกันได้

เปรียบเทียบกับแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

ฟีเจอร์สังเคราะห์

#fundamentals

ฟีเจอร์ที่ไม่มีอยู่ในฟีเจอร์อินพุต แต่สร้างขึ้นจากฟีเจอร์อย่างน้อย 1 รายการ วิธีสร้างฟีเจอร์สังเคราะห์มีดังนี้

  • การฝากข้อมูล ฟีเจอร์ต่อเนื่องลงในถังขยะตามช่วง
  • การสร้างกากบาทฟีเจอร์
  • การคูณ (หรือหาร) ค่าฟีเจอร์หนึ่งด้วยค่าฟีเจอร์อื่นหรือค่านั้นเอง เช่น หาก a และ b เป็นฟีเจอร์อินพุต ตัวอย่างฟีเจอร์สังเคราะห์มีดังนี้
    • ab
    • 2
  • การใช้ฟังก์ชันทวิภาคกับค่าจุดสนใจ ตัวอย่างเช่น หาก c เป็นฟีเจอร์อินพุต ตัวอย่างฟีเจอร์สังเคราะห์มีดังนี้
    • sin(c)
    • ln(c)

ฟีเจอร์ที่สร้างโดยการปรับให้เป็นมาตรฐานหรือการปรับขนาดเพียงอย่างเดียวไม่ถือว่าเป็นฟีเจอร์สังเคราะห์

T

T5

#language

โมเดลการโอนการเรียนรู้จากการแปลงข้อความสู่ข้อความเปิดตัวโดย AI ของ Google ในปี 2020 T5 คือโมเดลโปรแกรมเปลี่ยนไฟล์-ตัวถอดรหัส ซึ่งอิงตามสถาปัตยกรรม Transformer ซึ่งได้รับการฝึกจากชุดข้อมูลที่มีขนาดใหญ่มาก วิธีนี้มีประสิทธิภาพในงานประมวลผลภาษาธรรมชาติแบบต่างๆ เช่น การสร้างข้อความ การแปลภาษา และการตอบคำถามในลักษณะที่เป็นการสนทนา

T5 ได้ชื่อมาจากตัว T ทั้ง 5 ตัวใน "Text-to-Text Transfer Transformer"

แบบ T5X

#language

เฟรมเวิร์กโอเพนซอร์สแมชชีนเลิร์นนิงที่ออกแบบมาเพื่อสร้างและฝึกโมเดลการประมวลผลภาษาธรรมชาติ (NLP) ขนาดใหญ่ T5 ใช้งานบน Codebase ของ T5X (ซึ่งสร้างบน JAX และ Flax)

Q-learning แบบตาราง

#rl

ในส่วนการเรียนรู้แบบเสริมกำลัง ให้ใช้ Q-learning โดยใช้ตารางจัดเก็บฟังก์ชัน Q สําหรับทุกชุดค่าผสมของ state และ action

เป้าหมาย

คำพ้องความหมายของ label

เครือข่ายเป้าหมาย

#rl

ใน Deep Q-learning ซึ่งเป็นโครงข่ายระบบประสาทเทียมที่เป็นค่าโดยประมาณที่เสถียรของโครงข่ายประสาทหลัก ที่โครงข่ายประสาทหลักใช้ฟังก์ชัน Q หรือนโยบาย จากนั้นคุณจะฝึกเครือข่ายหลักกับค่า Q- ที่เครือข่ายเป้าหมายคาดการณ์ได้ ดังนั้นคุณจึงป้องกันไม่ให้มีการเก็บฟีดแบ็กมาแก้ไขเมื่อเครือข่ายหลักฝึกกับค่า Q- คาดการณ์เอง การหลีกเลี่ยงความคิดเห็นนี้ ทำให้การฝึกเสถียรภาพเพิ่มขึ้น

งาน

ปัญหาที่แก้ไขได้โดยใช้เทคนิคแมชชีนเลิร์นนิง เช่น

อุณหภูมิ

#language
#image
#GenerativeAI

พารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ควบคุมระดับความสุ่มของเอาต์พุตของโมเดล อุณหภูมิที่สูงขึ้นจะส่งผลให้เอาต์พุตแบบสุ่มมากขึ้น ส่วนอุณหภูมิที่ต่ำกว่าจะทำให้เอาต์พุตแบบสุ่มน้อยลง

การเลือกอุณหภูมิที่ดีที่สุดขึ้นอยู่กับการใช้งานเฉพาะและคุณสมบัติที่ต้องการของเอาต์พุตของโมเดล ตัวอย่างเช่น คุณอาจต้องเพิ่มอุณหภูมิเมื่อสร้างแอปพลิเคชันที่สร้างเอาต์พุตครีเอทีฟโฆษณา ในทางกลับกัน คุณอาจลดอุณหภูมิลงเมื่อสร้างโมเดลที่จำแนกรูปภาพหรือข้อความเพื่อปรับปรุงความถูกต้องและความสอดคล้องของโมเดล

อุณหภูมิมักจะใช้กับ softmax

ข้อมูลชั่วคราว

ข้อมูลที่บันทึกไว้ ณ เวลาต่างๆ ตัวอย่างเช่น ยอดขายเสื้อกันหนาวที่บันทึกในแต่ละวัน ของปีจะเป็นข้อมูลชั่วคราว

Tensor

#TensorFlow

โครงสร้างข้อมูลหลักในโปรแกรม TensorFlow Tensor คือมิติข้อมูลแบบ N (โดยที่ N อาจมีขนาดใหญ่มาก) โครงสร้างข้อมูลซึ่งมักจะเป็นสเกลาร์ เวกเตอร์ หรือเมทริกซ์ องค์ประกอบของ Tensor สามารถเก็บจำนวนเต็ม จุดลอยตัว หรือค่าสตริงได้

TensorBoard

#TensorFlow

หน้าแดชบอร์ดที่แสดงข้อมูลสรุปที่บันทึกไว้ระหว่างการดำเนินการของโปรแกรม TensorFlow อย่างน้อย 1 โปรแกรม

TensorFlow

#TensorFlow

แพลตฟอร์มแมชชีนเลิร์นนิงแบบกระจายตัวขนาดใหญ่ คำศัพท์นี้ยังหมายถึงเลเยอร์ API พื้นฐานในสแต็ก TensorFlow ซึ่งรองรับการคำนวณทั่วไปในกราฟโฟลว์ข้อมูล

แม้ว่า TensorFlow จะใช้สำหรับแมชชีนเลิร์นนิงเป็นหลัก แต่คุณก็อาจใช้ TensorFlow สำหรับงานที่ไม่ใช่ ML ที่ต้องอาศัยการคำนวณตัวเลขโดยใช้กราฟโฟลว์ข้อมูลได้ด้วย

สนามเด็กเล่น TensorFlow

#TensorFlow

โปรแกรมที่แสดงภาพว่า พารามิเตอร์ไฮเปอร์พารามิเตอร์ที่แตกต่างกันมีผลต่อการฝึกโมเดล (โครงข่ายระบบประสาทเทียมเป็นหลัก) อย่างไร ไปที่ http://playground.tensorflow.org เพื่อทดลองใช้ TensorFlow Playground

การแสดง TensorFlow

#TensorFlow

แพลตฟอร์มสำหรับทำให้โมเดลที่ได้รับการฝึกใช้งานได้ในเวอร์ชันที่ใช้งานจริง

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

วงจรรวมเฉพาะแอปพลิเคชัน (ASIC) ที่ช่วยเพิ่มประสิทธิภาพภาระงานของแมชชีนเลิร์นนิง ASIC เหล่านี้จะทำให้ใช้งานได้เป็นชิป TPU หลายตัวในอุปกรณ์ TPU

อันดับของ Tensor

#TensorFlow

ดูอันดับ (Tensor)

รูปร่าง Tensor

#TensorFlow

จำนวนองค์ประกอบที่ Tensor มีอยู่ในมิติข้อมูลต่างๆ เช่น [5, 10] Tensor มีรูปร่าง 5 ในมิติข้อมูลหนึ่งและ 10 ในอีกมิติหนึ่ง

ขนาด Tensor

#TensorFlow

จำนวนสเกลาร์ทั้งหมดที่ Tensor มีอยู่ เช่น [5, 10] Tensor มีขนาด 50

TensorStore

ไลบรารีสำหรับการอ่านและการเขียนอาร์เรย์หลายมิติขนาดใหญ่อย่างมีประสิทธิภาพ

เงื่อนไขการสิ้นสุด

#rl

ในการเรียนรู้แบบเสริมกำลัง เงื่อนไขที่กำหนดว่าตอนสิ้นสุดเมื่อใด เช่น เมื่อ Agent ถึงสถานะหนึ่งๆ หรือมีจำนวนการเปลี่ยนสถานะเกินเกณฑ์ ตัวอย่างเช่น ใน tic-tac-toe (หรือที่รู้จักกันในชื่อ nแท็ก และไม้กางเขน) ตอนจะสิ้นสุดเมื่อผู้เล่นทำเครื่องหมายเว้นวรรคติดกัน 3 ช่อง หรือเมื่อมีการทำเครื่องหมายเว้นวรรคทั้งหมด

ทดสอบ

#df

ในแผนผังการตัดสินใจจะใช้ชื่ออื่นของเงื่อนไข

การสูญเสียการทดสอบ

#fundamentals

เมตริกที่แสดงการสูญเสียของโมเดลเทียบกับชุดทดสอบ เมื่อสร้างmodel โดยปกติแล้วคุณจะพยายามลดการสูญเสียการทดสอบให้เหลือน้อยที่สุด เพราะการสูญเสียการทดสอบต่ำเป็นสัญญาณที่มีคุณภาพมากกว่าการสูญเสียการฝึกต่ำหรือการสูญเสียการตรวจสอบต่ำ

บางครั้งช่องว่างที่ระหว่างการสูญเสียการทดสอบกับการสูญเสียการฝึกหรือการสูญเสียการตรวจสอบอาจทำให้ต้องเพิ่มอัตราการกำหนดรูปแบบ

ชุดทดสอบ

ชุดย่อยของชุดข้อมูลที่สงวนไว้สำหรับการทดสอบโมเดลที่ผ่านการฝึกแล้ว

เดิมที คุณจะแบ่งตัวอย่างในชุดข้อมูลออกเป็น 3 ชุดย่อยที่แตกต่างกันดังนี้

ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นของชุดย่อยชุดใดชุดหนึ่งก่อนหน้านี้เท่านั้น ตัวอย่างเช่น ไม่ควรอยู่ในทั้งชุดการฝึกและชุดทดสอบ ตัวอย่างเดียวไม่ควรเป็นทั้งชุดการฝึก

ทั้งชุดการฝึกและชุดการตรวจสอบต่างก็เกี่ยวข้องอย่างมากกับการฝึกโมเดล เนื่องจากชุดทดสอบเชื่อมโยงโดยอ้อมกับการฝึกเท่านั้น การสูญเสียการทดสอบจึงเป็นเมตริกที่มีความลำเอียงและมีคุณภาพน้อยกว่าการสูญเสียการฝึกหรือการสูญเสียการตรวจสอบ

ช่วงข้อความ

#language

ช่วงดัชนีอาร์เรย์ที่เชื่อมโยงกับส่วนย่อยที่เฉพาะเจาะจงของสตริงข้อความ เช่น คำว่า good ในสตริง Python s="Be good now" จะใช้ช่วงข้อความตั้งแต่ 3 ถึง 6

tf.Example

#TensorFlow

บัฟเฟอร์โปรโตคอลมาตรฐานสำหรับการอธิบายข้อมูลอินพุตสำหรับการฝึกโมเดลแมชชีนเลิร์นนิงหรือการอนุมาน

tf.keras

#TensorFlow

การติดตั้งใช้งาน Keras ที่ผสานรวมเข้ากับ TensorFlow

เกณฑ์ (สำหรับแผนผังการตัดสินใจ)

#df

ในเงื่อนไขที่จัดตามแกน ค่าที่มีการเปรียบเทียบฟีเจอร์ เช่น 75 คือค่าเกณฑ์ในเงื่อนไขต่อไปนี้

grade >= 75

การวิเคราะห์อนุกรมเวลา

#clustering

ช่องย่อยของแมชชีนเลิร์นนิงและสถิติที่วิเคราะห์ข้อมูลชั่วคราว ปัญหาของแมชชีนเลิร์นนิงหลายๆ ประเภทต้องใช้การวิเคราะห์อนุกรมเวลา ได้แก่ การแยกประเภท คลัสเตอร์ การคาดการณ์ และการตรวจจับความผิดปกติ เช่น ใช้การวิเคราะห์อนุกรมเวลาเพื่อคาดการณ์ยอดขายเสื้อโค้ทฤดูหนาวในอนาคตตามเดือนตามข้อมูลยอดขายที่ผ่านมา

ไทม์สเต็ป

#seq

เซลล์ "ยกเลิกการหมุน" 1 เซลล์ภายในโครงข่ายระบบประสาทเทียมแบบเกิดซ้ำ เช่น รูปต่อไปนี้แสดงขั้นตอน 3 ขั้น (ติดป้ายกำกับด้วยตัวห้อย t-1, t และ t+1)

ตอบสนองแบบ 3 ขั้นตอนในเครือข่ายประสาทเทียมแบบเกิดซ้ำ เอาต์พุตของขั้นตอนเวลาแรกจะกลายเป็นอินพุตของขั้นตอนที่ 2 เอาต์พุตของขั้นตอนที่ 2 จะกลายเป็นอินพุตของขั้นตอนที่ 3

โทเค็น

#language

ในโมเดลภาษา หน่วยอะตอมที่โมเดลกำลังฝึกและทำการคาดคะเน โดยทั่วไปโทเค็นจะเป็นอย่างใดอย่างหนึ่งต่อไปนี้

  • คำ เช่น วลี "สุนัขอย่างแมว" ประกอบด้วยโทเค็น 3 คำ ได้แก่ "สุนัข", "ชอบ" และ "แมว"
  • 1 อักขระ ตัวอย่างเช่น วลี "ปลาจักรยาน" ประกอบด้วยโทเค็น 9 อักขระ (โปรดทราบว่าช่องว่างนั้นนับเป็นหนึ่งในโทเค็น)
  • คำย่อย ซึ่งคำหนึ่งคำอาจเป็นโทเค็นเดียวหรือหลายโทเค็นก็ได้ คำย่อยประกอบด้วยคำราก คำนำหน้า หรือคำต่อท้าย ตัวอย่างเช่น โมเดลภาษาที่ใช้คำย่อยเป็นโทเค็นอาจเห็นคำว่า "สุนัข" เป็นโทเค็น 2 รายการ (รากของคำว่า "สุนัข" และคำต่อท้ายพหูพจน์ "s") โมเดลภาษาเดียวกันนี้อาจมองว่าคำเดียว "สูง" เป็นคำย่อย 2 คำ (คำราก "สูง" และคำต่อท้าย "er")

ในโดเมนนอกโมเดลภาษา โทเค็นอาจแสดงถึงหน่วยอะตอมประเภทอื่นๆ เช่น ในคอมพิวเตอร์วิทัศน์ โทเค็นอาจเป็นชุดย่อยของรูปภาพ

Tower

องค์ประกอบของโครงข่ายประสาทแบบลึกซึ่งเป็นโครงข่ายประสาทแบบลึก ในบางกรณี แต่ละอาคารจะอ่านจากแหล่งข้อมูลอิสระ และหอคอยเหล่านั้นก็ยังคงเป็นอิสระต่อกันจนกว่าเอาต์พุตจะรวมกันในเลเยอร์สุดท้าย ในกรณีอื่นๆ (ตัวอย่างเช่น ในสแต็ก/หอคอยโปรแกรมเปลี่ยนไฟล์และเครื่องมือถอดรหัสของTransformersจำนวนมาก) หอคอยมีการเชื่อมต่อระหว่างกัน

TPU

#TensorFlow
#GoogleCloud

ตัวย่อของหน่วยประมวลผล Tensor

ชิป TPU

#TensorFlow
#GoogleCloud

เครื่องมือเร่งพีชคณิตเชิงเส้นแบบตั้งโปรแกรมได้ พร้อมหน่วยความจำแบบออนชิปที่ใช้แบนด์วิดท์สูง ซึ่งได้รับการเพิ่มประสิทธิภาพสำหรับภาระงานของแมชชีนเลิร์นนิง มีการใช้ชิป TPU หลายรายการในอุปกรณ์ TPU

อุปกรณ์ TPU

#TensorFlow
#GoogleCloud

แผงวงจรพิมพ์ (PCB) ที่มีชิป TPU หลายตัว อินเทอร์เฟซเครือข่ายที่มีแบนด์วิดท์สูง และฮาร์ดแวร์ทำความเย็นของระบบ

ต้นแบบ TPU

#TensorFlow
#GoogleCloud

กระบวนการประสานงานส่วนกลางที่ทำงานบนเครื่องโฮสต์ที่ส่งและรับข้อมูล ผลลัพธ์ โปรแกรม ประสิทธิภาพ และข้อมูลประสิทธิภาพของระบบไปยังผู้ปฏิบัติงาน TPU ต้นแบบ TPU ยังจัดการการตั้งค่าและการปิดระบบของอุปกรณ์ TPU ด้วย

โหนด TPU

#TensorFlow
#GoogleCloud

ทรัพยากร TPU บน Google Cloud ที่มีประเภท TPU ที่เจาะจง โหนด TPU จะเชื่อมต่อกับเครือข่าย VPC จากเครือข่าย VPC แบบเพียร์ โหนด TPU เป็นทรัพยากรที่กำหนดไว้ใน Cloud TPU API

พ็อด TPU

#TensorFlow
#GoogleCloud

การกำหนดค่าเฉพาะของอุปกรณ์ TPU ในศูนย์ข้อมูลของ Google อุปกรณ์ทั้งหมดในพ็อด TPU จะเชื่อมต่อกันผ่านเครือข่ายความเร็วสูงโดยเฉพาะ พ็อด TPU เป็นการกำหนดค่าที่ใหญ่ที่สุดของอุปกรณ์ TPU ที่พร้อมใช้งานสำหรับเวอร์ชัน TPU ที่เจาะจง

ทรัพยากร TPU

#TensorFlow
#GoogleCloud

เอนทิตี TPU บน Google Cloud ที่คุณสร้าง จัดการ หรือใช้ ตัวอย่างเช่น โหนด TPU และประเภท TPU คือทรัพยากร TPU

ส่วนแบ่ง TPU

#TensorFlow
#GoogleCloud

ส่วนแบ่ง TPU เป็นส่วนย่อยของอุปกรณ์ TPU ในพ็อด TPU อุปกรณ์ทั้งหมดในส่วนแบ่ง TPU จะเชื่อมต่อกันผ่านเครือข่ายความเร็วสูงเฉพาะ

ประเภท TPU

#TensorFlow
#GoogleCloud

การกำหนดค่าอุปกรณ์ TPU อย่างน้อย 1 เครื่องที่มีเวอร์ชันฮาร์ดแวร์ TPU ที่เฉพาะเจาะจง คุณจะเลือกประเภท TPU เมื่อสร้างโหนด TPU บน Google Cloud ตัวอย่างเช่น ประเภท TPU v2-8 เป็นอุปกรณ์ TPU v2 เดี่ยวที่มีแกน 8 แกน TPU ประเภท v3-2048 มีอุปกรณ์ TPU v3 ที่มีเครือข่าย 256 เครื่อง และมีแกนทั้งหมด 2048 แกน ประเภท TPU เป็นทรัพยากรที่กำหนดไว้ใน Cloud TPU API

ผู้ปฏิบัติงาน TPU

#TensorFlow
#GoogleCloud

กระบวนการที่ทำงานบนเครื่องโฮสต์และเรียกใช้โปรแกรมแมชชีนเลิร์นนิงในอุปกรณ์ TPU

การฝึกอบรม

#fundamentals

กระบวนการระบุพารามิเตอร์ที่เหมาะสม (น้ำหนักและอคติ) ที่ประกอบด้วยโมเดล ระหว่างการฝึก ระบบจะอ่านตัวอย่างและค่อยๆ ปรับพารามิเตอร์ การฝึกจะใช้แต่ละตัวอย่าง จาก 2-3 ครั้งไปจนถึงหลายพันล้านครั้ง

การสูญเสียการฝึกซ้อม

#fundamentals

เมตริกที่แสดงการสูญเสียของโมเดลระหว่างการทำซ้ำการฝึกหนึ่งๆ ตัวอย่างเช่น สมมติว่าฟังก์ชันการสูญเสียคือค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง บางทีการสูญเสียการฝึก (ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง) สำหรับการทำซ้ำครั้งที่ 10 คือ 2.2 และการสูญเสียการฝึกสำหรับการทำซ้ำครั้งที่ 100 คือ 1.9

กราฟ Loss แสดงการสูญเสียการฝึกเทียบกับจำนวนการทำซ้ำ เส้นโค้งการสูญเสียจะระบุคำแนะนำเกี่ยวกับการฝึกต่อไปนี้

  • กราฟที่ชันลงหมายความว่าโมเดลมีการปรับปรุง
  • กราฟที่ชันขึ้นหมายความว่าโมเดลกำลังแย่ลง
  • ความลาดชันแบบแบนราบหมายความว่าโมเดลถึงConversion

ตัวอย่างเช่น แผนภูมิการสูญเสียข้อมูลที่ค่อนข้างตรงตามนี้แสดงให้เห็น

  • ทางลาดลงที่ชันขึ้นในช่วงการทำซ้ำครั้งแรก ซึ่งแสดงถึงการปรับปรุงโมเดลอย่างรวดเร็ว
  • การลาดลงแบบค่อยเป็นค่อยไป (แต่ยังคงลง) ไปจนใกล้สิ้นสุดการฝึก ซึ่งหมายความว่ามีการปรับปรุงโมเดลอย่างต่อเนื่องโดยมีเพซช้ากว่าปกติในช่วงการทำซ้ำครั้งแรก
  • กราฟที่มีความลาดชันแบบแบนราบไปจนถึงช่วงท้ายของการฝึก ซึ่งบ่งบอกถึงการบรรจบกัน

แผนของการสูญเสียจากการฝึกเทียบกับการทำซ้ำ เส้นโค้งการสูญเสียนี้จะเริ่มต้นด้วยความลาดชันที่ลาดลงสูงชัน ความชันจะค่อยๆ แบนราบจนความชันกลายเป็น 0

แม้ว่าการสูญเสียสิทธิ์การฝึกจะเป็นสิ่งสำคัญ แต่คุณก็ควรดูการใส่ข้อมูลทั่วไปเพิ่มเติมด้วย

ความคลาดเคลื่อนระหว่างการฝึกและการให้บริการ

#fundamentals

ความแตกต่างระหว่างประสิทธิภาพของโมเดลในระหว่างการฝึกกับประสิทธิภาพของโมเดลเดียวกันนั้นในระหว่างการแสดงผล

ชุดการฝึก

#fundamentals

ชุดย่อยของชุดข้อมูลที่ใช้ในการฝึกโมเดล

แต่เดิม ตัวอย่างในชุดข้อมูลจะแบ่งออกเป็นชุดย่อยที่แตกต่างกัน 3 ชุดดังต่อไปนี้

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นของชุดย่อยๆ ก่อนหน้าเท่านั้น ตัวอย่างเช่น ไม่ควรอยู่ในทั้งชุดการฝึกและชุดการตรวจสอบ ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดการฝึกและชุดการตรวจสอบ

วิถีโคจร

#rl

ในการเรียนรู้แบบเสริมกำลัง ลำดับของ tuples ที่แสดงลำดับการเปลี่ยนสถานะของ agent โดยที่แต่ละรายการจะสอดคล้องกับสถานะ, การกระทำ, รางวัล และสถานะถัดไปของการเปลี่ยนรัฐหนึ่งๆ

ถ่ายทอดการเรียนรู้

การโอนข้อมูลจากงานของแมชชีนเลิร์นนิงงานหนึ่งไปยังอีกงานหนึ่ง ตัวอย่างเช่น ในการเรียนรู้แบบมัลติทาสก์ โมเดลเดียวจะแก้ปัญหาได้หลายอย่าง เช่น โมเดลเชิงลึกที่มีโหนดเอาต์พุตที่แตกต่างกันสำหรับงานที่แตกต่างกัน การโอนการเรียนรู้อาจรวมถึงการโอนความรู้จากโซลูชันที่ทำได้ง่ายขึ้นไปเป็นงานที่ซับซ้อนขึ้น หรืออาจโอนความรู้จากงานที่มีข้อมูลมากกว่าไปยังงานที่มีข้อมูลน้อยกว่า

ระบบแมชชีนเลิร์นนิงส่วนใหญ่จะแก้ปัญหางานเดียว การถ่ายทอดการเรียนรู้เป็นก้าวแรกสู่ปัญญาประดิษฐ์ (AI) เนื่องจากโปรแกรมเดียวช่วยแก้ปัญหาหลายด้านได้

หม้อแปลง

#language

สถาปัตยกรรมโครงข่ายระบบประสาทเทียมที่พัฒนาโดย Google ซึ่งอาศัยกลไกการดึงดูดตนเองเพื่อเปลี่ยนลำดับการฝังอินพุตให้เป็นลำดับการฝังเอาต์พุตโดยไม่ต้องอาศัย Convolution หรือโครงข่ายระบบประสาทเทียมแบบเกิดซ้ำ หม้อแปลงอาจดูเหมือน ซ้อนกันเป็นชั้นๆ ตั้งเตือนตัวเองได้

ตัวเปลี่ยนรูปแบบอาจประกอบด้วยสิ่งต่อไปนี้

โปรแกรมเปลี่ยนไฟล์จะแปลงลำดับการฝังเป็นลำดับใหม่ที่มีความยาวเท่ากัน โปรแกรมเปลี่ยนไฟล์มีเลเยอร์ที่เหมือนกัน N เลเยอร์ ซึ่งแต่ละเลเยอร์มีเลเยอร์ย่อย 2 เลเยอร์ ระบบจะนำเลเยอร์ย่อย 2 เลเยอร์นี้ไปใช้ในแต่ละตำแหน่งของลำดับการฝังอินพุต ซึ่งจะเปลี่ยนรูปแบบองค์ประกอบแต่ละรายการของลำดับให้เป็นการฝังใหม่ เลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์แรกจะรวบรวมข้อมูลจากลำดับอินพุต เลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ที่ 2 จะแปลงข้อมูลแบบรวมเป็นการฝังเอาต์พุต

ตัวถอดรหัสจะเปลี่ยนลำดับการฝังอินพุตเป็นลำดับการฝังเอาต์พุตที่อาจมีความยาวต่างกัน ตัวถอดรหัสยังประกอบด้วยเลเยอร์ที่เหมือนกัน N เลเยอร์ซึ่งมีเลเยอร์ย่อย 3 เลเยอร์ โดย 2 เลเยอร์ที่คล้ายกับเลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ เลเยอร์ย่อยของตัวถอดรหัสที่ 3 จะนำเอาต์พุตของโปรแกรมเปลี่ยนไฟล์และใช้กลไกความสนใจตนเองเพื่อรวบรวมข้อมูล

บล็อกโพสต์ Transformer: A Novel Neural Network Architecture for Language Understanding เป็นข้อมูลเบื้องต้นที่ดีเกี่ยวกับ Transformer

ความแปรปรวนของการแปล

#image

ในโจทย์การจัดประเภทรูปภาพ ความสามารถของอัลกอริทึมในการจัดประเภทรูปภาพได้สำเร็จ แม้ว่าตำแหน่งของวัตถุภายในรูปภาพจะเปลี่ยนไปก็ตาม เช่น อัลกอริทึมยังคงระบุสุนัขได้ ไม่ว่าจะอยู่ตรงกึ่งกลางของเฟรมหรือตรงปลายด้านซ้ายของเฟรม

ดูข้อมูลเพิ่มเติมได้ในความแปรปรวนของขนาดและความแปรปรวนหมุนเวียน

Trigram

#seq
#language

N-gram ที่มี N=3

ผลลบจริง (TN)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบอย่างถูกต้อง ตัวอย่างเช่น โมเดลอนุมานว่าข้อความอีเมลหนึ่งไม่ใช่สแปม และข้อความอีเมลนั้นไม่ใช่สแปมจริงๆ

ผลบวกจริง (TP)

#fundamentals

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงบวกอย่างถูกต้อง เช่น โมเดลอนุมานว่าข้อความอีเมลหนึ่งเป็นสแปม และข้อความอีเมลนั้นเป็นสแปมจริงๆ

อัตราผลบวกจริง (TPR)

#fundamentals

คำพ้องความหมายของ recall โดยการ

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

อัตราผลบวกจริงคือแกน y ในเส้นโค้ง ROC

U

การไม่ทราบ (สำหรับแอตทริบิวต์ที่มีความละเอียดอ่อน)

#fairness

สถานการณ์ที่มีแอตทริบิวต์ที่ละเอียดอ่อนอยู่ แต่ไม่รวมอยู่ในข้อมูลการฝึก เนื่องจากแอตทริบิวต์ที่มีความละเอียดอ่อนมักสัมพันธ์กับแอตทริบิวต์อื่นๆ ของข้อมูล โมเดลที่ได้รับการฝึกด้วยความไม่ทราบเกี่ยวกับแอตทริบิวต์ที่มีความละเอียดอ่อนอาจยังคงมีผลกระทบที่แตกต่างกันเกี่ยวกับแอตทริบิวต์นั้น หรืออาจละเมิดข้อจำกัดด้านความยุติธรรมอื่นๆ

ไม่เหมาะสม

#fundamentals

สร้างmodelที่มีความสามารถในการคาดการณ์ต่ำเนื่องจากโมเดลไม่ได้บันทึกความซับซ้อนของข้อมูลการฝึกอย่างสมบูรณ์ หลายๆ ปัญหาอาจทำให้เกิดการปรับตัวไม่เหมาะสม เช่น

การสุ่มตัวอย่างต่ำ

การนำตัวอย่างออกจากคลาสส่วนใหญ่ในชุดข้อมูลที่ไม่สมดุลกันเพื่อสร้างชุดการฝึกที่มีความสมดุลมากขึ้น

ตัวอย่างเช่น ลองพิจารณาชุดข้อมูลที่มีอัตราส่วนของคลาสส่วนใหญ่ต่อคลาสของชนกลุ่มน้อยเท่ากับ 20:1 หากต้องการเอาชนะความไม่สมดุลของชั้นเรียนนี้ คุณอาจสร้างชุดการฝึกที่ประกอบด้วยตัวอย่างของชั้นเรียนที่เป็นชนกลุ่มน้อยทั้งหมด แต่มีเพียง 1 ใน 10 ของตัวอย่างชั้นเรียนส่วนใหญ่ ซึ่งจะทำให้อัตราส่วนของคลาสชุดการฝึกเป็น 2:1 ด้วยการสุ่มตัวอย่างน้อยเกินไป ชุดการฝึก ที่สมดุลมากขึ้นนี้อาจทำให้ได้โมเดลที่ดีขึ้นได้ หรือชุดการฝึกที่มีความสมดุลกว่านี้อาจมีตัวอย่างไม่เพียงพอที่จะฝึกโมเดลที่มีประสิทธิภาพ

ตัดกับการสุ่มตัวอย่างมากเกินไป

ทิศทางเดียว

#language

ระบบที่ประเมินเฉพาะข้อความที่อยู่ก่อนส่วนเป้าหมายของข้อความ ในทางตรงกันข้าม ระบบแบบ 2 ทิศทางจะประเมินทั้งข้อความที่อยู่ก่อนหน้าและติดตามส่วนเป้าหมายของข้อความ ดูรายละเอียดเพิ่มเติมได้ที่แบบ 2 ทาง

โมเดลภาษาแบบทิศทางเดียว

#language

โมเดลภาษาที่พิจารณาความเป็นไปได้เฉพาะในโทเค็นที่ปรากฏก่อน ไม่ใช่หลังโทเค็นเป้าหมาย แตกต่างจากโมเดลภาษาแบบ 2 ทิศทาง

ตัวอย่างที่ไม่มีป้ายกำกับ

#fundamentals

ตัวอย่างที่มี features แต่ไม่มี label ตัวอย่างเช่น ตารางต่อไปนี้แสดงตัวอย่างที่ไม่มีป้ายกำกับ 3 รายการจากโมเดลการประเมินราคาบ้าน โดยแต่ละแบบมีฟีเจอร์ 3 รายการแต่ไม่มีมูลค่าบ้าน

จำนวนห้องนอน จำนวนห้องน้ำ อายุบ้าน
3 2 15
2 1 72
4 2 34

ในแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โมเดลจะฝึกตัวอย่างที่ติดป้ายกำกับแล้วทำการคาดการณ์ในตัวอย่างที่ไม่มีป้ายกำกับ

ในการเรียนรู้แบบมีการควบคุมดูแลและไม่มีการควบคุมดูแล ระบบจะใช้ตัวอย่างที่ไม่มีป้ายกำกับระหว่างการฝึก

เปรียบเทียบตัวอย่างที่ไม่มีป้ายกำกับกับตัวอย่างที่มีป้ายกำกับ

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

#clustering
#fundamentals

การฝึก model เพื่อค้นหารูปแบบในชุดข้อมูล โดยทั่วไปจะเป็นชุดข้อมูลที่ไม่มีป้ายกำกับ

การใช้งานที่พบบ่อยที่สุดของแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลคือคลัสเตอร์ข้อมูลเป็นกลุ่มตัวอย่างที่คล้ายกัน ตัวอย่างเช่น อัลกอริทึมแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลสามารถจัดกลุ่มเพลงตามคุณสมบัติที่หลากหลายของเพลง คลัสเตอร์ที่ได้อาจกลายเป็นอินพุตของอัลกอริทึมแมชชีนเลิร์นนิงอื่นๆ (เช่น บริการแนะนำเพลง) การจัดกลุ่มสามารถช่วยได้เมื่อไม่มีป้ายกำกับที่มีประโยชน์หรือไม่มีป้ายกำกับที่เป็นประโยชน์ ตัวอย่างเช่น ในโดเมนต่างๆ อย่างการป้องกันการละเมิดและการประพฤติมิชอบ คลัสเตอร์จะช่วยให้มนุษย์เข้าใจข้อมูลได้ดีขึ้น

แตกต่างจากแมชชีนเลิร์นนิงที่มีการควบคุมดูแล

การประมาณการเพิ่มขึ้น

เทคนิคการสร้างรูปแบบที่มักใช้ในการตลาดซึ่งจำลอง "ผลกระทบเชิงเหตุผล" (หรือที่เรียกว่า "ผลกระทบที่เพิ่มขึ้น") ของ "การปฏิบัติ" ต่อ "บุคคล" โดยมี 2 ตัวอย่างดังนี้

  • แพทย์อาจใช้การประมาณการเพิ่มขึ้นเพื่อคาดการณ์การลดการเสียชีวิต (ผลกระทบโดยทั่วไป) ของกระบวนการทางการแพทย์ (การรักษา) โดยขึ้นอยู่กับอายุและประวัติทางการแพทย์ของผู้ป่วย (บุคคลทั่วไป)
  • นักการตลาดอาจใช้การประมาณการเพิ่มขึ้นเพื่อคาดการณ์การเพิ่มขึ้นของความน่าจะเป็นของการซื้อ (ผลกระทบโดยทั่วไป) อันเนื่องมาจากโฆษณา (กลุ่มทดสอบ) ที่มีต่อบุคคล (บุคคลทั่วไป)

การประมาณการเพิ่มขึ้นแตกต่างจากการแยกประเภทหรือการถดถอยตรงที่ป้ายกำกับบางป้าย (เช่น ครึ่งหนึ่งของป้ายกำกับในกลุ่มทดสอบแบบไบนารี) มักจะขาดหายไปในการประมาณการเพิ่มขึ้นเสมอ เช่น ผู้ป่วยอาจรับการรักษาหรือไม่รับก็ได้ ดังนั้น เราจึงสังเกตได้เพียงว่าผู้ป่วยจะหายหรือไม่หายใน 1 ใน 2 สถานการณ์นี้เท่านั้น (แต่ไม่ใช่ทั้ง 2 สถานการณ์) ข้อได้เปรียบหลักของโมเดลการเพิ่มขึ้นคือ โมเดลนี้สามารถสร้างการคาดการณ์สำหรับสถานการณ์ที่ตรวจไม่พบ (ตรงข้ามกับข้อเท็จจริง) และนำไปใช้คำนวณผลกระทบเชิงเหตุผล

การเพิ่มน้ำหนัก

การใช้น้ำหนักกับคลาส downsampled ให้เท่ากับปัจจัยที่คุณใช้สุ่มตัวอย่าง

เมทริกซ์ผู้ใช้

#recsystems

ในระบบการแนะนำ เวกเตอร์การฝังที่สร้างขึ้นจากการแยกตัวประกอบเมทริกซ์ที่เก็บสัญญาณแฝงเกี่ยวกับค่ากำหนดของผู้ใช้ แต่ละแถวของเมทริกซ์ผู้ใช้มีข้อมูลเกี่ยวกับความแรงสัมพัทธ์ของสัญญาณแฝงต่างๆ สำหรับผู้ใช้รายเดียว ตัวอย่างเช่น ลองพิจารณาระบบการแนะนำภาพยนตร์ ในระบบนี้ สัญญาณแฝงในเมทริกซ์ผู้ใช้อาจแสดงถึงความสนใจของผู้ใช้แต่ละประเภท หรืออาจตีความสัญญาณซึ่งเกี่ยวข้องกับการโต้ตอบที่ซับซ้อนในหลายๆ ปัจจัยได้ยากขึ้น

เมทริกซ์ผู้ใช้จะมีคอลัมน์สำหรับฟีเจอร์แฝงแต่ละรายการและแถวสำหรับผู้ใช้แต่ละราย กล่าวคือ เมทริกซ์ผู้ใช้จะมีจำนวนแถวเท่ากับเมทริกซ์เป้าหมายที่กำลังแยกตัวประกอบ เช่น ในระบบแนะนำภาพยนตร์สำหรับผู้ใช้ 1,000,000 คน เมทริกซ์ผู้ใช้จะมี 1,000,000 แถว

V

การตรวจสอบความถูกต้อง

#fundamentals

การประเมินคุณภาพของโมเดลเบื้องต้น การตรวจสอบความถูกต้องจะตรวจสอบคุณภาพการคาดการณ์ของโมเดลเทียบกับชุดการตรวจสอบ

เนื่องจากชุดการตรวจสอบแตกต่างจากชุดการฝึก การตรวจสอบความถูกต้องจึงช่วยป้องกันการใช้งานเกินความจำเป็น

คุณอาจมองว่าการประเมินโมเดลเทียบกับชุดการตรวจสอบเป็นการทดสอบรอบแรกและประเมินโมเดลโดยเทียบกับชุดทดสอบเป็นการทดสอบรอบที่ 2

การสูญเสียการตรวจสอบ

#fundamentals

เมตริกที่แสดงการสูญเสียของโมเดลในชุดการตรวจสอบระหว่างการปรับปรุงหนึ่งๆ ของการฝึก

โปรดดูกราฟทั่วไปด้วย

ชุดการตรวจสอบ

#fundamentals

เซ็ตย่อยของชุดข้อมูลที่ทำการประเมินเบื้องต้นกับโมเดลที่ได้รับการฝึก โดยปกติแล้ว คุณจะประเมินโมเดลที่ฝึกเทียบกับชุดการตรวจสอบหลายครั้งก่อนที่จะประเมินโมเดลเทียบกับชุดทดสอบ

เดิมที คุณแบ่งตัวอย่างในชุดข้อมูลออกเป็นชุดย่อยที่แตกต่างกัน 3 ชุดดังต่อไปนี้

ตามหลักการแล้ว ตัวอย่างแต่ละรายการในชุดข้อมูลควรเป็นของชุดย่อยๆ ก่อนหน้าเท่านั้น ตัวอย่างเช่น ไม่ควรอยู่ในทั้งชุดการฝึกและชุดการตรวจสอบ ตัวอย่างเดียวไม่ควรอยู่ในทั้งชุดการฝึกและชุดการตรวจสอบ

การคำนวณค่า

กระบวนการแทนที่ค่าที่ขาดหายไปด้วยค่าทดแทนที่ยอมรับได้ เมื่อค่าขาดหายไป คุณอาจทิ้งทั้งตัวอย่างหรือจะใช้การคำนวณค่าเพื่อกู้คืนตัวอย่างก็ได้

เช่น ลองพิจารณาชุดข้อมูลที่มีฟีเจอร์ temperature ซึ่งควรบันทึกทุกชั่วโมง แต่ค่าอุณหภูมิที่อ่านได้ ไม่สามารถใช้ได้ในชั่วโมงใดชั่วโมงหนึ่ง ส่วนของชุดข้อมูลมีดังนี้

การประทับเวลา อุณหภูมิ
1680561000 10
1680564600 12
1680568200 ขาดหายไป
1680571800 20
1680575400 21
1680579000 21

ระบบอาจลบตัวอย่างที่ขาดหายไปหรือทำให้อุณหภูมิที่หายไปเป็น 12, 16, 18 หรือ 20 ก็ได้ ขึ้นอยู่กับอัลกอริทึมการคำนวณ

โจทย์การไล่ระดับสีที่หายไป

#seq

แนวโน้มที่การไล่ระดับสีของเลเยอร์ที่ซ่อนอยู่ในช่วงแรกๆ ของโครงข่ายประสาทแบบลึกบางส่วนจะแบนจนเกินไป (ต่ำ) การไล่ระดับสีที่น้อยลงเรื่อยๆ ทำให้น้ำหนักของโหนดต่างๆ ในโครงข่ายประสาทแบบลึกมีการเปลี่ยนแปลงน้อยลงเรื่อยๆ จนนำไปสู่การเรียนรู้ที่น้อยหรือไม่มีเลย โมเดลที่ได้รับผลกระทบจากปัญหาการไล่ระดับสีที่หายไป จะฝึกได้ยากหรือฝึกไม่ได้ เซลล์หน่วยความจำระยะสั้นเพื่อแก้ปัญหานี้

เปรียบเทียบกับโจทย์การไล่ระดับสีระเบิด

ความสำคัญของตัวแปร

#df

ชุดของคะแนนที่ระบุความสำคัญสัมพัทธ์ของฟีเจอร์แต่ละรายการกับโมเดล

ตัวอย่างเช่น ลองพิจารณาแผนผังการตัดสินใจที่ประมาณราคาบ้าน สมมติว่าแผนผังการตัดสินใจนี้ใช้ฟีเจอร์ 3 อย่าง คือ ขนาด อายุ และรูปแบบ หากชุดความสำคัญของตัวแปรสำหรับฟีเจอร์ทั้ง 3 รายการมีการคำนวณเป็น {size=5.8, age=2.5, style=4.7} ขนาดมีความสำคัญต่อแผนผังการตัดสินใจมากกว่าอายุหรือรูปแบบ

มีเมตริกความสำคัญของตัวแปรที่แตกต่างกัน ซึ่งสามารถแจ้งให้ผู้เชี่ยวชาญด้าน ML ทราบเกี่ยวกับแง่มุมต่างๆ ของโมเดลได้

โปรแกรมเปลี่ยนไฟล์อัตโนมัติแบบผันแปร (VAE)

#language

โปรแกรมเปลี่ยนไฟล์อัตโนมัติประเภทหนึ่งที่ใช้ประโยชน์จากความคลาดเคลื่อนระหว่างอินพุตและเอาต์พุตเพื่อสร้างอินพุตเวอร์ชันที่มีการแก้ไข โปรแกรมเปลี่ยนไฟล์อัตโนมัติรูปแบบต่างๆ มีประโยชน์สําหรับ Generative AI

VAE จะอิงตามการอนุมานเชิงแปรผัน ซึ่งเป็นเทคนิคในการประมาณพารามิเตอร์ของโมเดลความน่าจะเป็น

เวกเตอร์

ใส่คำมากเกินไป ซึ่งมีความหมายแตกต่างกันไปในสาขาคณิตศาสตร์และวิทยาศาสตร์สาขาต่างๆ ภายในแมชชีนเลิร์นนิง เวกเตอร์มีสมบัติ 2 อย่างดังนี้

  • ประเภทข้อมูล: เวกเตอร์ในแมชชีนเลิร์นนิงมักจะเก็บเลขทศนิยมไว้
  • จำนวนองค์ประกอบ: นี่คือความยาวของเวกเตอร์หรือมิติข้อมูลของเวกเตอร์

ตัวอย่างเช่น ลองพิจารณา เวกเตอร์ฟีเจอร์ ที่มีตัวเลขทศนิยม 8 จุด เวกเตอร์ของจุดสนใจนี้มีความยาวหรือมีมิติเท่ากับ 8 โปรดทราบว่าเวกเตอร์แมชชีนเลิร์นนิงมักจะมีมิติข้อมูลจำนวนมาก

คุณสามารถแสดงข้อมูลประเภทต่างๆ เป็นเวกเตอร์ได้ เช่น

  • ตำแหน่งใดก็ได้บนพื้นผิวโลกสามารถแสดงเป็นเวกเตอร์ 2 มิติ โดยที่มิติหนึ่งคือละติจูดและอีกมิติหนึ่งคือลองจิจูด
  • ราคาปัจจุบันของหุ้นแต่ละตัว 500 รายการอาจแสดงเป็นเวกเตอร์ 500 มิติได้
  • การแจกแจงความน่าจะเป็นของคลาสจำนวนจำกัดอาจแสดงเป็นเวกเตอร์ได้ ตัวอย่างเช่น ระบบการจัดประเภทแบบหลายคลาสที่คาดคะเนสีเอาต์พุต 1 ใน 3 สี (แดง เขียว หรือเหลือง) อาจแสดงผลเวกเตอร์ (0.3, 0.2, 0.5) เพื่อหมายถึง P[red]=0.3, P[green]=0.2, P[yellow]=0.5

เวกเตอร์สามารถต่อเข้าด้วยกันได้ ดังนั้นสื่อประเภทต่างๆ อาจแสดงเป็นเวกเตอร์เดี่ยวได้ โมเดลบางโมเดลดำเนินการโดยตรงโดยใช้การเข้ารหัสแบบฮอตเดียวจำนวนมาก

ตัวประมวลผลเฉพาะทาง เช่น TPU ได้รับการเพิ่มประสิทธิภาพเพื่อการดำเนินการทางคณิตศาสตร์บนเวกเตอร์

เวกเตอร์คือ tensor ของ rank 1.

W

การสูญเสีย Wasserstein

ฟังก์ชันการสูญเสียฟังก์ชันที่มักมีการใช้ในเครือข่ายที่ไม่พึงประสงค์ในรูปแบบ ซึ่งอิงตามระยะห่างของการย้ายโลกระหว่างการกระจายข้อมูลที่สร้างขึ้นกับข้อมูลจริง

น้ำหนัก

#fundamentals

ค่าที่โมเดลคูณด้วยค่าอื่น การฝึกเป็นกระบวนการพิจารณาน้ำหนักที่เหมาะสมของโมเดล การอนุมานเป็นกระบวนการของการใช้น้ำหนักที่เรียนรู้แล้วเหล่านั้นในการคาดการณ์

สี่เหลี่ยมจัตุรัสน้อยที่สุดสลับกันแบบถ่วงน้ำหนัก (WALS)

#recsystems

อัลกอริทึมสำหรับการลดฟังก์ชันวัตถุประสงค์ระหว่างการแยกตัวประกอบเมทริกซ์ในระบบแนะนำ ซึ่งช่วยให้สามารถลดน้ำหนักตัวอย่างที่ขาดหายไปได้ WALS จะลดข้อผิดพลาดกำลังสองแบบถ่วงน้ำหนักระหว่างเมทริกซ์ดั้งเดิมและการสร้างใหม่ด้วยการสลับระหว่างการกำหนดการแยกตัวประกอบแถวและการแยกตัวประกอบคอลัมน์ การเพิ่มประสิทธิภาพแต่ละรายการจะแก้ไขได้ด้วยการเพิ่มประสิทธิภาพ Conv. อย่างน้อยกำลังสอง โปรดดูรายละเอียดในหลักสูตรระบบการแนะนำ

ผลรวมถ่วงน้ำหนัก

#fundamentals

ผลรวมของค่าอินพุตที่เกี่ยวข้องทั้งหมดคูณด้วยน้ำหนักที่เกี่ยวข้อง ตัวอย่างเช่น สมมติว่าข้อมูลที่เกี่ยวข้องประกอบด้วยข้อมูลต่อไปนี้

ค่าที่ป้อน น้ำหนักอินพุต
2 -1.3
-1 0.6
3 0.4

ดังนั้น ผลรวมถ่วงน้ำหนักจึงเป็นดังนี้

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

ผลรวมถ่วงน้ำหนักคืออาร์กิวเมนต์อินพุตของฟังก์ชันการเปิดใช้งาน

โมเดลแบบกว้าง

รูปแบบเชิงเส้นที่โดยทั่วไปจะมีฟีเจอร์อินพุตแบบกระจัดกระจายมากมาย เราเรียกสิ่งนี้ว่า "กว้าง" เนื่องจากโมเดลนี้เป็นโครงข่ายระบบประสาทเทียมประเภทพิเศษที่มีอินพุตจำนวนมากที่เชื่อมต่อกับโหนดเอาต์พุตโดยตรง โมเดลแบบกว้างมักจะแก้ไขข้อบกพร่องและตรวจสอบได้ง่ายกว่าโมเดลเชิงลึก แม้ว่าโมเดลแบบกว้างจะไม่สามารถแสดงความไม่เป็นเชิงเส้นผ่านเลเยอร์ที่ซ่อน แต่โมเดลแบบกว้างสามารถใช้การเปลี่ยนรูปแบบ เช่น การข้ามฟีเจอร์ และ ที่เก็บข้อมูล เพื่อจำลองความไม่เป็นเชิงเส้นด้วยวิธีที่แตกต่างกันได้

คอนทราสต์กับโมเดลเชิงลึก

ความกว้าง

จำนวนเซลล์ประสาทในเลเยอร์หนึ่งๆ ของโครงข่ายประสาท

ภูมิปัญญาของฝูงชน

#df

แนวคิดที่ว่าค่าเฉลี่ยความคิดเห็นหรือค่าประมาณของคนกลุ่มใหญ่ ("กลุ่มคนจำนวนมาก") มักจะให้ผลลัพธ์ที่ดีอย่างไม่น่าเชื่อ เช่น ลองนึกถึงเกมที่ผู้คนเดาจำนวนเยลลี่บีนที่อัดแน่นในโหลใหญ่ แม้ว่าการคาดเดาของบุคคลส่วนใหญ่จะคลาดเคลื่อน แต่ค่าเฉลี่ยของการคาดเดาทั้งหมดก็พิสูจน์ให้เห็นอย่างประจักษ์ว่าใกล้เคียงกับจำนวนเยลลี่บีนในโหลที่มีจำนวนจริงอย่างน่าประหลาดใจ

เครื่องมือประกอบเป็นซอฟต์แวร์เทียบเคียงกับภูมิปัญญาของคนจำนวนมาก แม้ว่าแต่ละโมเดลจะทำการคาดการณ์ที่ไม่ค่อยแม่นยำ แต่ค่าเฉลี่ยการคาดการณ์ของโมเดลจำนวนมากมักจะทำให้การคาดการณ์ ดีอย่างไม่น่าเชื่อ เช่น แม้ว่าแผนผังการตัดสินใจหนึ่งๆ อาจคาดการณ์ได้ไม่ดี แต่ป่าการตัดสินใจมักจะคาดการณ์ได้ดี

การฝังคำ

#language

แทนแต่ละคำในชุดคำภายในเวกเตอร์การฝัง กล่าวคือ การนำเสนอแต่ละคำเป็นเวกเตอร์ของค่าจุดลอยตัวที่อยู่ระหว่าง 0.0 ถึง 1.0 คำที่มีความหมายคล้ายกันจะมีลักษณะคล้ายคลึงกันมากกว่าคำที่มีความหมายต่างกัน เช่น แครอท คึ่นช่าย และแตงกวา ต่างก็มีลักษณะคล้ายกัน ซึ่งจะต่างจากสิ่งที่นำเสนออย่างเครื่องบิน แว่นกันแดด และยาสีฟันอย่างมาก

X

XLA (พีชคณิตเชิงเส้นแบบเร่ง)

คอมไพเลอร์แมชชีนเลิร์นนิงแบบโอเพนซอร์สสำหรับ GPU, CPU และ Accelerator ML

คอมไพเลอร์ XLA นำโมเดลจากเฟรมเวิร์ก ML ยอดนิยม เช่น PyTorch, TensorFlow และ JAX มาเพิ่มประสิทธิภาพเพื่อการดำเนินการที่มีประสิทธิภาพสูงในแพลตฟอร์มฮาร์ดแวร์ต่างๆ ซึ่งรวมถึง GPU, CPU และ Accelerator ของ ML

Z

การเรียนรู้แบบ Zero Shot

การฝึกประเภทหนึ่งของแมชชีนเลิร์นนิงซึ่งโมเดลอนุมานการคาดคะเนสำหรับงานที่ยังไม่ได้ฝึกไว้เป็นการเฉพาะ กล่าวคือ โมเดลจะได้รับตัวอย่างการฝึกเฉพาะงานเป็น 0 แต่ขอให้ทำการอนุมานสำหรับงานนั้น

ข้อความแจ้งการตั้งค่า Zero-shot

#language
#GenerativeAI

ข้อความแจ้งที่ไม่แสดงตัวอย่างว่าคุณต้องการให้โมเดลภาษาขนาดใหญ่ตอบกลับอย่างไร เช่น

ส่วนต่างๆ ของพรอมต์ Notes
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร คำถามที่ต้องการให้ LLM ตอบ
อินเดีย: การค้นหาจริง

โมเดลภาษาขนาดใหญ่อาจตอบสนองด้วยสิ่งต่อไปนี้

  • รูปี
  • INR
  • รูปีอินเดีย
  • รูปี
  • รูปีอินเดีย

คำตอบทั้งหมดถูกต้อง แต่คุณอาจชอบรูปแบบใดรูปแบบหนึ่ง

เปรียบเทียบและเปรียบต่างกับการแสดงข้อความแจ้ง Zero Shot กับคำต่อไปนี้

การปรับคะแนนมาตรฐาน Z-Score

#fundamentals

เทคนิคการปรับขนาดที่แทนที่ค่าฟีเจอร์ดิบด้วยค่าจุดลอยตัวซึ่งแสดงจำนวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของฟีเจอร์นั้น ตัวอย่างเช่น ลองพิจารณาคุณลักษณะที่มีค่าเฉลี่ยคือ 800 และค่าเบี่ยงเบนมาตรฐานคือ 100 ตารางต่อไปนี้แสดงวิธีที่การทำให้เป็นมาตรฐาน Z-score แมปค่าดิบกับคะแนน Z

ค่าดิบ คะแนนมาตรฐาน
800 0
950 +1.5
575 -2.25

จากนั้นโมเดลแมชชีนเลิร์นนิงจะฝึกด้วยคะแนนมาตรฐาน (Z-Score) สำหรับฟีเจอร์นั้นแทนค่าดิบ