อภิธานศัพท์แมชชีนเลิร์นนิง: เมตริก

หน้านี้มีคําศัพท์ในอภิธานศัพท์เกี่ยวกับเมตริก ดูคำศัพท์ทั้งหมดในอภิธานศัพท์ได้โดยการคลิกที่นี่

A

ความแม่นยำ

#fundamentals
#Metric

จํานวนการคาดการณ์การจัดประเภทที่ถูกต้องหารด้วยจํานวนการคาดการณ์ทั้งหมด โดยการ

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

ตัวอย่างเช่น โมเดลที่ทําการคาดการณ์ที่ถูกต้อง 40 ครั้งและการคาดการณ์ที่ไม่ถูกต้อง 10 ครั้งจะมีความแม่นยําเท่ากับ

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

การจัดประเภทแบบไบนารีจะตั้งชื่อเฉพาะสำหรับการคาดการณ์ที่ถูกต้องและการคาดการณ์ที่ไม่ถูกต้องในหมวดหมู่ต่างๆ ดังนั้น สูตรความแม่นยำสำหรับการจัดประเภทแบบไบนารีจึงมีดังนี้

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

where:

  • TP คือจํานวนผลบวกจริง (การคาดการณ์ที่ถูกต้อง)
  • TN คือจํานวนผลลบจริง (การคาดการณ์ที่ถูกต้อง)
  • FP คือจํานวนผลบวกลวง (การคาดการณ์ที่ไม่ถูกต้อง)
  • FN คือจํานวนผลลบเท็จ (การคาดการณ์ที่ไม่ถูกต้อง)

เปรียบเทียบความถูกต้องกับความแม่นยำและความแม่นยำในการจดจำ

ดูข้อมูลเพิ่มเติมได้ในการจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้องในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

พื้นที่ใต้กราฟ PR

#Metric

ดูPR AUC (พื้นที่ใต้กราฟ PR)

พื้นที่ใต้เส้นโค้ง ROC

#Metric

ดู AUC (พื้นที่ใต้กราฟ ROC)

AUC (พื้นที่ใต้เส้นโค้ง ROC)

#fundamentals
#Metric

ตัวเลขระหว่าง 0.0 ถึง 1.0 ที่แสดงถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ ยิ่ง AUC ใกล้เคียงกับ 1.0 มากเท่าใด ความสามารถในการแยกคลาสออกจากกันของโมเดลก็จะยิ่งดีขึ้นเท่านั้น

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโมเดลการจัดประเภทที่แยกคลาสที่เป็นบวก (รูปไข่สีเขียว) ออกจากคลาสที่เป็นลบ (สี่เหลี่ยมผืนผ้าสีม่วง) อย่างสมบูรณ์ โมเดลที่สมบูรณ์แบบเกินจริงนี้มีค่า AUC เท่ากับ 1.0

เส้นจำนวนที่มีตัวอย่างบวก 8 รายการด้านหนึ่ง และตัวอย่างลบ 9 รายการอีกด้านหนึ่ง

ในทางกลับกัน ภาพต่อไปนี้แสดงผลลัพธ์ของโมเดลการจัดประเภทที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มีค่า AUC เท่ากับ 0.5

เส้นจำนวนที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลําดับของตัวอย่างคือ บวก ลบ บวก ลบ บวก ลบ บวก ลบ บวก ลบ

ใช่ โมเดลก่อนหน้ามี AUC เท่ากับ 0.5 ไม่ใช่ 0.0

โมเดลส่วนใหญ่อยู่ตรงกลางระหว่าง 2 รูปแบบข้างต้น ตัวอย่างเช่น โมเดลต่อไปนี้แยกรายการเชิงบวกออกจากรายการเชิงลบได้บ้าง จึงมี AUC อยู่ระหว่าง 0.5 ถึง 1.0

เส้นจำนวนที่มีตัวอย่างเชิงบวก 6 รายการและตัวอย่างเชิงลบ 6 รายการ
          ลําดับของตัวอย่างคือ เชิงลบ เชิงลบ เชิงลบ เชิงลบ เชิงบวก เชิงลบ เชิงบวก เชิงบวก เชิงลบ เชิงบวก เชิงบวก เชิงบวก

AUC จะไม่สนใจค่าที่คุณตั้งไว้สําหรับเกณฑ์การจัดประเภท แต่ AUC จะพิจารณาเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมดแทน

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ความแม่นยำเฉลี่ยที่ k

#language
#Metric

เมตริกสำหรับสรุปประสิทธิภาพของโมเดลในพรอมต์เดียวซึ่งจะสร้างผลลัพธ์ที่จัดอันดับ เช่น รายการคำแนะนำหนังสือที่มีหมายเลข ความแม่นยำเฉลี่ยที่ k คือค่าเฉลี่ยของค่าความแม่นยำที่ k สำหรับผลการค้นหาที่เกี่ยวข้องแต่ละรายการ ดังนั้น สูตรความแม่นยำเฉลี่ยที่ k จึงจะเป็นดังนี้

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

where:

  • \(n\) คือจํานวนรายการที่เกี่ยวข้องในรายการ

เปรียบเทียบกับ recall at k

B

พื้นฐาน

#Metric

โมเดลที่ใช้เป็นจุดอ้างอิงเพื่อเปรียบเทียบประสิทธิภาพของโมเดลอื่น (โดยทั่วไปคือโมเดลที่ซับซ้อนกว่า) เช่น โมเดลการถดถอยเชิงโลจิสติกอาจใช้เป็นบรรทัดฐานที่ดีสําหรับโมเดลเชิงลึก

สําหรับปัญหาหนึ่งๆ เกณฑ์พื้นฐานจะช่วยให้นักพัฒนาโมเดลระบุประสิทธิภาพขั้นต่ำที่คาดหวังซึ่งโมเดลใหม่ต้องบรรลุเพื่อให้โมเดลใหม่มีประโยชน์

C

ต้นทุน

#Metric

คำพ้องความหมายของ loss

ความเป็นธรรมแบบเทียบกับกลุ่มควบคุม

#fairness
#Metric

เมตริกความเป็นธรรมที่ตรวจสอบว่าตัวจัดประเภทให้ผลลัพธ์เหมือนกันสำหรับบุคคลหนึ่งกับอีกคนหนึ่งที่เหมือนกันทุกประการ ยกเว้นแอตทริบิวต์ที่มีความละเอียดอ่อนอย่างน้อย 1 รายการหรือไม่ การประเมินตัวแยกประเภทเพื่อหาความยุติธรรมแบบเทียบเท่าสมมติฐานเป็นวิธีหนึ่งในการค้นหาแหล่งที่มาที่อาจทำให้เกิดอคติในโมเดล

โปรดดูข้อมูลเพิ่มเติมที่หัวข้อต่อไปนี้

เอนโทรปีครอส

#Metric

การทั่วไปของ Log Loss ไปใช้กับปัญหาการจัดประเภทหลายคลาส การเข้ารหัสไขว้จะวัดความแตกต่างระหว่างการแจกแจงความน่าจะเป็น 2 รายการ โปรดดูความสับสนด้วย

ฟังก์ชันการแจกแจงสะสม (CDF)

#Metric

ฟังก์ชันที่กําหนดความถี่ของตัวอย่างที่น้อยกว่าหรือเท่ากับค่าเป้าหมาย ตัวอย่างเช่น ลองพิจารณาการแจกแจงปกติของค่าต่อเนื่อง CDF บอกคุณว่าตัวอย่างประมาณ 50% ควรน้อยกว่าหรือเท่ากับค่ามัธยฐาน และตัวอย่างประมาณ 84% ควรน้อยกว่าหรือเท่ากับค่าเบี่ยงเบนมาตรฐาน 1 เท่าเหนือค่ามัธยฐาน

D

ความเท่าเทียมด้านข้อมูลประชากร

#fairness
#Metric

เมตริกความเป็นธรรมที่เป็นไปตามข้อกำหนดหากผลการจัดประเภทของโมเดลไม่ขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อนที่ระบุ

ตัวอย่างเช่น หากทั้งชาวลิลลี่ปุตและชาวบราบิงแน็กสมัครเข้ามหาวิทยาลัยกลุบบัดบรีบ ความเป็นธรรมด้านข้อมูลประชากรจะเกิดขึ้นเมื่อเปอร์เซ็นต์ของชาวลิลลี่ปุตที่ได้รับอนุญาตให้เข้าศึกษาเท่ากับเปอร์เซ็นต์ของชาวบราบิงแน็กที่ได้รับอนุญาตให้เข้าศึกษา โดยไม่คำนึงว่ากลุ่มหนึ่งมีคุณวุฒิมากกว่าอีกกลุ่มโดยเฉลี่ยหรือไม่

ซึ่งต่างจากโอกาสที่เท่าเทียมและความเสมอภาคของโอกาสที่อนุญาตให้ผลการจัดประเภทโดยรวมขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อน แต่ไม่อนุญาตให้ผลการจัดประเภทสำหรับป้ายกำกับข้อมูลจริงที่ระบุบางรายการขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อน ดูภาพแสดงการประนีประนอมเมื่อเพิ่มประสิทธิภาพเพื่อลดความเหลื่อมล้ำทางข้อมูลประชากรได้ที่"การต่อสู้กับการแบ่งแยกด้วยแมชชีนเลิร์นนิงที่ฉลาดขึ้น"

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ความเท่าเทียมทางประชากรในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

E

ระยะทางของรถขุด (EMD)

#Metric

การวัดความคล้ายคลึงสัมพัทธ์ของการแจกแจง 2 รายการ ยิ่งระยะทางของเครื่องจักรขุดดินต่ำ รูปแบบการกระจายก็จะยิ่งคล้ายกัน

แก้ไขระยะทาง

#language
#Metric

การวัดความคล้ายคลึงของสตริงข้อความ 2 รายการ ระยะการแก้ไขมีประโยชน์ในแมชชีนเลิร์นนิงเนื่องจากเหตุผลต่อไปนี้

  • ระยะห่างการแก้ไขคํานวณได้ง่าย
  • ระยะห่างการแก้ไขจะเปรียบเทียบสตริง 2 รายการที่ทราบว่าคล้ายกัน
  • ระยะแก้ไขสามารถระบุระดับที่สตริงต่างๆ คล้ายกับสตริงหนึ่งๆ

ระยะห่างการแก้ไขมีหลายคำจำกัดความ โดยแต่ละคำจำกัดความจะใช้การดำเนินการสตริงที่แตกต่างกัน ดูตัวอย่างได้ที่ระยะ Levenshtein

ฟังก์ชันการแจกแจงสะสมเชิงประจักษ์ (eCDF หรือ EDF)

#Metric

ฟังก์ชันการแจกแจงสะสมซึ่งอิงตามการวัดผลเชิงประจักษ์จากชุดข้อมูลจริง ค่าของฟังก์ชันที่จุดใดก็ได้บนแกน x คือเศษส่วนของค่าสังเกตในชุดข้อมูลที่มีค่าน้อยกว่าหรือเท่ากับค่าที่ระบุ

เอนโทรปี

#df
#Metric

ใน ทฤษฎีสารสนเทศ หมายถึงคำอธิบายความคาดเดาไม่ได้ของรูปแบบความน่าจะเป็น หรืออาจหมายถึงปริมาณข้อมูลที่มีอยู่ในตัวอย่างแต่ละรายการ การแจกแจงข้อมูลจะมีเอนโทรปีสูงสุดเมื่อค่าทั้งหมดของตัวแปรแบบสุ่มมีแนวโน้มเท่าๆ กัน

เอนโทรปีของชุดที่มีค่าที่เป็นไปได้ 2 ค่า ได้แก่ "0" และ "1" (เช่น ป้ายกำกับในปัญหาการจัดประเภทแบบไบนารี) มีสูตรดังนี้

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

where:

  • H คือเอนโทรปี
  • p คือเศษส่วนของตัวอย่าง "1"
  • q คือเศษส่วนของตัวอย่าง "0" โปรดทราบว่า q = (1 - p)
  • log โดยทั่วไปคือ log2 ในกรณีนี้ หน่วยของข้อมูลเชิงซ้อนคือบิต

ตัวอย่างเช่น สมมติว่า

  • ตัวอย่าง 100 รายการมีค่าเป็น "1"
  • ตัวอย่าง 300 รายการมีค่าเป็น "0"

ดังนั้น ค่าเอนโทรปีคือ

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 บิตต่อตัวอย่าง

ชุดข้อมูลที่สมดุลกันโดยสมบูรณ์ (เช่น "0" 200 ตัวและ "1" 200 ตัว) จะมีเอนโทรปี 1.0 บิตต่อตัวอย่าง เมื่อชุดข้อมูลมีความไม่สมดุลมากขึ้น เอนโทรปีของชุดข้อมูลจะเข้าใกล้ 0.0

ในต้นไม้การตัดสินใจ เอนโทรปีช่วยสร้างการได้ข้อมูลเพื่อช่วยตัวแยกเลือกเงื่อนไขขณะที่ต้นไม้การตัดสินใจการจัดประเภทเติบโต

เปรียบเทียบเอนโทรปีกับข้อมูลต่อไปนี้

บางครั้งจะเรียกเอนโทรปีว่าเอนโทรปีของ Shannon

ดูข้อมูลเพิ่มเติมได้ในตัวแยกที่ตรงกันทั้งหมดสำหรับการแยกประเภทแบบ 2 กลุ่มด้วยฟีเจอร์ที่เป็นตัวเลขในหลักสูตรป่าการตัดสินใจ

โอกาสที่เท่าเทียมกัน

#fairness
#Metric

เมตริกความเป็นธรรมเพื่อประเมินว่าโมเดลคาดการณ์ผลลัพธ์ที่ต้องการได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่มีความละเอียดอ่อนหรือไม่ กล่าวคือ หากผลลัพธ์ที่ต้องการสำหรับโมเดลคือคลาสที่เป็นบวก เป้าหมายคืออัตราผลบวกจริงจะเหมือนกันสำหรับทุกกลุ่ม

โอกาสที่เท่าเทียมเกี่ยวข้องกับอัตราต่อรองที่เท่าเทียม ซึ่งกำหนดว่าทั้งอัตราผลบวกจริงและอัตราผลบวกลวงต้องเหมือนกันสำหรับทุกกลุ่ม

สมมติว่ามหาวิทยาลัย Glubbdubdrib รับทั้งชาวลิลลี่ปุตและชาวบราบิงแน็กเรียนหลักสูตรคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมของชาวลิลลี่ปุตตินำเสนอหลักสูตรคณิตศาสตร์ที่มีประสิทธิภาพ และนักเรียนส่วนใหญ่มีสิทธิ์เข้าเรียนในมหาวิทยาลัย โรงเรียนมัธยมของชาวบราบิงกันไม่ได้เปิดสอนวิชาคณิตศาสตร์เลย ส่งผลให้นักเรียนมีจำนวนน้อยกว่ามากที่มีคุณสมบัติตรงตามข้อกำหนด โอกาสที่เท่าเทียมกันเป็นไปตามป้ายกำกับที่ต้องการว่า "ได้รับอนุญาต" เกี่ยวกับสัญชาติ (Lilliputian หรือ Brobdingnagian) หากนักเรียนที่มีสิทธิ์มีโอกาสเท่าๆ กันที่จะได้รับการอนุญาต ไม่ว่านักเรียนจะเป็น Lilliputian หรือ Brobdingnagian

ตัวอย่างเช่น สมมติว่าชาวลิลลี่ปุต 100 คนและชาวบราบิงแน็ก 100 คนสมัครเข้ามหาวิทยาลัยกลุบบัดบรีบ และผลการตัดสินการรับสมัครมีดังนี้

ตารางที่ 1 ผู้สมัคร Lilliputian (90% มีสิทธิ์)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 45 3
ถูกปฏิเสธ 45 7
รวม 90 10
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับค่าเล่าเรียน: 45/90 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับค่าเล่าเรียน: 7/10 = 70%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Lilliputian ที่ได้รับค่าเล่าเรียน: (45+3)/100 = 48%

 

ตารางที่ 2 ผู้สมัครที่มีคุณสมบัติตรงตามเกณฑ์ (10%)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 5 9
ถูกปฏิเสธ 5 81
รวม 10 90
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 5/10 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 81/90 = 90%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Brobdingnagian ที่ได้รับอนุญาตให้เข้าเรียน: (5+9)/100 = 14%

ตัวอย่างข้างต้นเป็นไปตามความเท่าเทียมของโอกาสในการรับนักเรียนที่มีสิทธิ์ เนื่องจากทั้งชาวลิลลี่ปุตและชาวบราบิงแนกันที่มีสิทธิ์มีโอกาส 50% ที่จะได้รับการยอมรับ

แม้ว่าจะเป็นไปตามหลักความเท่าเทียมกันของโอกาส แต่เมตริกความเท่าเทียม 2 รายการต่อไปนี้ไม่เป็นไปตามหลักดังกล่าว

  • ความเท่าเทียมทางประชากร: นักเรียนชาวลิลลี่ปุตและชาวบราบิงแนกได้รับอนุญาตให้เข้ามหาวิทยาลัยในอัตราที่แตกต่างกัน โดยนักเรียนชาวลิลลี่ปุตได้รับอนุญาตให้เข้ามหาวิทยาลัย 48% แต่นักเรียนชาวบราบิงแนกได้รับอนุญาตให้เข้ามหาวิทยาลัยเพียง 14%
  • โอกาสที่เท่าเทียม: แม้ว่านักเรียน Lilliputian และ Brobdingnagian ที่มีสิทธิ์จะมีสิทธิ์ได้รับการยอมรับเท่าๆ กัน แต่ข้อจำกัดเพิ่มเติมที่ว่านักเรียน Lilliputian และ Brobdingnagian ที่ไม่มีสิทธิ์จะมีสิทธิ์ถูกปฏิเสธเท่าๆ กันนั้นไม่ได้รับการยอมรับ ผู้ที่มีคุณสมบัติไม่ตรงตามเกณฑ์ของ Lilliputians มีอัตราการถูกปฏิเสธ 70% ส่วนผู้ที่มีคุณสมบัติไม่ตรงตามเกณฑ์ของ Brobdingnagians มีอัตราการถูกปฏิเสธ 90%

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ความเท่าเทียมของโอกาสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โอกาสที่เท่ากัน

#fairness
#Metric

เมตริกความเท่าเทียมเพื่อประเมินว่าโมเดลคาดการณ์ผลลัพธ์ได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่มีความละเอียดอ่อนทั้งในแง่ของคลาสบวกและคลาสลบ ไม่ใช่แค่คลาสใดคลาสหนึ่งโดยเฉพาะ กล่าวคือ ทั้งอัตราผลบวกจริงและอัตราผลลบเท็จควรเหมือนกันสำหรับทุกกลุ่ม

อัตราต่อรองที่เท่ากันเกี่ยวข้องกับความเท่าเทียมของโอกาส ซึ่งมุ่งเน้นที่อัตราข้อผิดพลาดของคลาสเดียวเท่านั้น (บวกหรือลบ)

ตัวอย่างเช่น สมมติว่ามหาวิทยาลัย Glubbdubdrib ยอมรับทั้งชาวลิลลี่ปุตและชาวบราบิงแนกเรียนหลักสูตรคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมของชาวลิลลี่ปุตติมีหลักสูตรคณิตศาสตร์ที่เข้มข้น และนักเรียนส่วนใหญ่มีสิทธิ์เข้าเรียนในมหาวิทยาลัย โรงเรียนมัธยมของชาวบราบิงกันไม่ได้เปิดสอนวิชาคณิตศาสตร์เลย ส่งผลให้นักเรียนมีจำนวนน้อยกว่ามากที่มีคุณสมบัติตรงตามข้อกำหนด โอกาสที่เท่าเทียมกันจะเป็นไปตามข้อกำหนดไม่ว่าผู้สมัครจะมีสิทธิ์หรือไม่ก็ตาม หากมีสิทธิ์ ก็มีโอกาสเท่าๆ กันที่จะได้รับการยอมรับเข้าโปรแกรม และหากไม่มีสิทธิ์ ก็มีโอกาสเท่าๆ กันที่จะถูกปฏิเสธ

สมมติว่าชาวลิลลี่ปุต 100 คนและชาวบราบิงแน็ก 100 คนสมัครเข้ามหาวิทยาลัยกลุบบัดดริบ และผลการตัดสินการรับสมัครมีดังนี้

ตารางที่ 3 ผู้สมัคร Lilliputian (90% มีสิทธิ์)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 45 2
ถูกปฏิเสธ 45 8
รวม 90 10
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 45/90 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 8/10 = 80%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Lilliputian ได้รับอนุญาตให้เข้าเรียน: (45+2)/100 = 47%

 

ตารางที่ 4 ผู้สมัครที่มีคุณสมบัติตรงตามเกณฑ์ (10%)

  เข้าเกณฑ์ คุณสมบัติไม่ครบ
ยอมรับ 5 18
ถูกปฏิเสธ 5 72
รวม 10 90
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 5/10 = 50%
เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 72/90 = 80%
เปอร์เซ็นต์ทั้งหมดของนักเรียน Brobdingnagian ที่ได้รับอนุญาตให้เข้าเรียน: (5+18)/100 = 23%

เงื่อนไขความน่าจะเป็นที่เท่ากันเป็นไปตามเกณฑ์เนื่องจากทั้งนักเรียน Lilliputian และ Brobdingnagian ที่มีสิทธิ์มีโอกาส 50% ที่จะได้รับการยอมรับ และนักเรียน Lilliputian และ Brobdingnagian ที่ไม่มีสิทธิ์มีโอกาส 80% ที่จะถูกปฏิเสธ

โอกาสที่เท่าเทียมกันได้รับการกําหนดอย่างเป็นทางการใน"ความเท่าเทียมของโอกาสในการเรียนรู้แบบควบคุม" ดังนี้ "ตัวทำนาย Ŷ เป็นไปตามความเท่าเทียมของโอกาสในแง่ของแอตทริบิวต์ที่ได้รับการคุ้มครอง A และผลลัพธ์ Y หาก Ŷ และ A เป็นอิสระต่อกันโดยขึ้นกับ Y"

evals

#language
#generativeAI
#Metric

ใช้เป็นหลักเป็นตัวย่อของการประเมิน LLM evals ย่อมาจากการประเมินทุกรูปแบบ

การประเมิน

#language
#generativeAI
#Metric

กระบวนการวัดคุณภาพของรูปแบบหรือการเปรียบเทียบรูปแบบต่างๆ

หากต้องการประเมินโมเดลแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โดยทั่วไปคุณจะต้องประเมินโมเดลนั้นเทียบกับชุดการตรวจสอบและชุดทดสอบ การประเมิน LLMมักเกี่ยวข้องกับการประเมินคุณภาพและความปลอดภัยในวงกว้าง

F

F1

#Metric

เมตริกการจัดประเภทแบบ 2 กลุ่ม "แบบรวม" ที่อาศัยทั้งความแม่นยำและความแม่นยำในการจดจำ สูตรมีดังนี้

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

เมตริกความยุติธรรม

#fairness
#Metric

คําจํากัดความทางคณิตศาสตร์ของ "ความเป็นธรรม" ที่วัดผลได้ เมตริกความเป็นธรรมที่ใช้กันโดยทั่วไป ได้แก่

เมตริกความยุติธรรมหลายรายการใช้ร่วมกันไม่ได้ โปรดดูความเข้ากันไม่ได้ของเมตริกความยุติธรรม

ผลลบลวง (FN)

#fundamentals
#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบอย่างไม่ถูกต้อง เช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ ไม่ใช่สแปม (คลาสเชิงลบ) แต่ข้อความอีเมลนั้นเป็นจดหมายขยะจริงๆ

อัตราผลลบลวง

#Metric

สัดส่วนของตัวอย่างเชิงบวกจริงที่โมเดลคาดการณ์คลาสเชิงลบอย่างไม่ถูกต้อง สูตรต่อไปนี้จะคํานวณอัตราเชิงลบที่ไม่ถูกต้อง

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

ดูข้อมูลเพิ่มเติมเกี่ยวกับเกณฑ์และตารางความสับสนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ผลบวกลวง (FP)

#fundamentals
#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสบวกอย่างไม่ถูกต้อง เช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ (คลาสเชิงบวก) แต่ข้อความอีเมลนั้นไม่ใช่จดหมายขยะจริงๆ

ดูข้อมูลเพิ่มเติมเกี่ยวกับเกณฑ์และตารางความสับสนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อัตราผลบวกลวง (FPR)

#fundamentals
#Metric

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลคาดการณ์คลาสที่เป็นบวกอย่างไม่ถูกต้อง สูตรต่อไปนี้จะคํานวณอัตราผลบวกลวง

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

อัตราผลบวกลวงคือแกน x ในกราฟ ROC

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ความสำคัญของฟีเจอร์

#df
#Metric

คำพ้องความหมายของความสำคัญของตัวแปร

เศษส่วนของความสําเร็จ

#generativeAI
#Metric

เมตริกสําหรับประเมินข้อความที่สร้างขึ้นของโมเดล ML ส่วนที่เป็นความสำเร็จคือจํานวนเอาต์พุตข้อความที่ "สําเร็จ" หารด้วยจํานวนเอาต์พุตข้อความทั้งหมดที่สร้างขึ้น ตัวอย่างเช่น หากโมเดลภาษาขนาดใหญ่สร้างโค้ด 10 บล็อก โดย 5 บล็อกทำงานสำเร็จ เศษส่วนของความสําเร็จจะเท่ากับ 50%

แม้ว่าเศษส่วนของความสําเร็จจะมีประโยชน์อย่างกว้างๆ ในสถิติ แต่ภายใน ML เมตริกนี้มีประโยชน์สําหรับการวัดงานที่ตรวจสอบได้เป็นหลัก เช่น การสร้างโค้ดหรือโจทย์คณิตศาสตร์

G

ความไม่บริสุทธิ์ของจีนี

#df
#Metric

เมตริกที่คล้ายกับเอนโทรปี ตัวแยกใช้ค่าที่มาจากความไม่บริสุทธิ์ของ Gini หรือเอนโทรปีเพื่อสร้างเงื่อนไขสําหรับการจัดประเภทต้นไม้การตัดสินใจ การได้ข้อมูลมาจากเอนโทรปี ไม่มีคําที่เทียบเท่าซึ่งยอมรับกันทั่วโลกสําหรับเมตริกที่มาจากความไม่บริสุทธิ์ของ Gini แต่เมตริกที่ไม่มีชื่อนี้สําคัญพอๆ กับข้อมูลที่ได้รับ

ความไม่เป็นระเบียบของจีนีเรียกอีกอย่างว่าดัชนีจีนี หรือเรียกสั้นๆ ว่าจีนี

H

บานพับขาด

#Metric

ตระกูลฟังก์ชันการสูญเสียสําหรับการจัดประเภทที่ออกแบบมาเพื่อค้นหาขอบเขตการตัดสินให้อยู่ห่างจากตัวอย่างการฝึกแต่ละรายการมากที่สุด ด้วยเหตุนี้จึงเพิ่มระยะห่างระหว่างตัวอย่างกับขอบเขตให้มากที่สุด KSVM ใช้การสูญเสียแบบ hinge (หรือฟังก์ชันที่เกี่ยวข้อง เช่น การสูญเสียแบบ hinge ยกกำลัง 2) สําหรับการจัดประเภทแบบไบนารี ฟังก์ชันการสูญเสียแบบ hinge จะกําหนดดังนี้

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

โดยที่ y คือป้ายกำกับจริง ซึ่งอาจเป็น -1 หรือ +1 และ y' คือเอาต์พุตดิบของโมเดลการจัดประเภท

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ดังนั้น ผังความสูญเสียของ hinge เทียบกับ (y * y') จะมีลักษณะดังนี้

ผังพิกัดคาร์ทีเซียนซึ่งประกอบด้วยส่วนของเส้น 2 เส้นที่เชื่อมต่อกัน ส่วนของเส้นแรกเริ่มต้นที่ (-3, 4) และสิ้นสุดที่ (1, 0) ส่วนเส้นที่ 2 เริ่มต้นที่ (1, 0) และต่อเนื่องไปอย่างไม่มีที่สิ้นสุดด้วยความชัน 0

I

ความไม่เข้ากันได้ของเมตริกความยุติธรรม

#fairness
#Metric

แนวคิดที่ว่าแนวคิดบางอย่างเกี่ยวกับความยุติธรรมนั้นใช้ร่วมกันไม่ได้และไม่สามารถบรรลุพร้อมกัน ด้วยเหตุนี้ จึงไม่มีเมตริกที่เป็นสากลเพียงเมตริกเดียวสำหรับวัดความเป็นธรรมซึ่งใช้ได้กับปัญหา ML ทั้งหมด

แม้ว่าเรื่องนี้อาจฟังดูท้อแท้ แต่การที่เมตริกความยุติธรรมใช้ร่วมกันไม่ได้ไม่ได้หมายความว่าความพยายามด้านความยุติธรรมจะไร้ผล แต่แนะนําว่าต้องกําหนดความยุติธรรมตามบริบทสําหรับปัญหา ML หนึ่งๆ โดยมีเป้าหมายเพื่อป้องกันอันตรายที่เฉพาะเจาะจงสําหรับ Use Case นั้นๆ

ดูการพูดคุยเรื่องความเข้ากันไม่ได้ของเมตริกความเป็นธรรมอย่างละเอียดได้ที่"On the (im)possibility of fairness"

ความยุติธรรมต่อบุคคล

#fairness
#Metric

เมตริกความยุติธรรมที่ตรวจสอบว่าระบบจัดประเภทบุคคลที่คล้ายกันคล้ายกันหรือไม่ ตัวอย่างเช่น Brobdingnagian Academy อาจต้องการสร้างความเป็นธรรมให้กับบุคคล โดยตรวจสอบว่านักเรียน 2 คนที่มีคะแนนเหมือนกันและคะแนนสอบมาตรฐานมีแนวโน้มที่จะได้รับการยอมรับเท่าๆ กัน

โปรดทราบว่าความยุติธรรมของแต่ละบุคคลขึ้นอยู่กับวิธีที่คุณกำหนด "ความคล้ายคลึง" ทั้งหมด (ในกรณีนี้คือคะแนนและคะแนนสอบ) และคุณอาจเสี่ยงที่จะทำให้เกิดปัญหาความยุติธรรมใหม่ๆ หากเมตริกความคล้ายคลึงของคุณขาดข้อมูลสำคัญ (เช่น ความยากของหลักสูตรของนักเรียน)

ดูการพูดคุยเรื่องความยุติธรรมของแต่ละบุคคลอย่างละเอียดได้ที่"ความยุติธรรมผ่านความรู้"

ข้อมูลที่ได้รับ

#df
#Metric

ในป่าการตัดสินใจ ความแตกต่างระหว่างเอนโทรปีของโหนดกับผลรวมของเอนโทรปีของโหนดย่อยที่มีน้ำหนัก (ตามจำนวนตัวอย่าง) เอนโทรปีของโหนดคือเอนโทรปีของตัวอย่างในโหนดนั้น

ตัวอย่างเช่น ลองพิจารณาค่าเอนโทรปีต่อไปนี้

  • เอนโทรปีของโหนดหลัก = 0.6
  • เอนโทรปีของโหนดย่อย 1 รายการที่มีตัวอย่างที่เกี่ยวข้อง 16 รายการ = 0.2
  • เอนโทรปีของโหนดย่อยอีกโหนดหนึ่งซึ่งมีตัวอย่างที่เกี่ยวข้อง 24 รายการ = 0.1

ดังนั้น 40% ของตัวอย่างจะอยู่ในโหนดย่อยโหนดหนึ่ง และ 60% จะอยู่ในโหนดย่อยอีกโหนดหนึ่ง ดังนั้น

  • ผลรวมของเอนโทรปีถ่วงน้ำหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

ดังนั้น ข้อมูลที่ได้รับคือ

  • อัตราข้อมูลที่ได้รับ = เอนโทรปีของโหนดหลัก - ผลรวมของเอนโทรปีที่ถ่วงน้ำหนักของโหนดย่อย
  • ข้อมูลที่ได้รับ = 0.6 - 0.14 = 0.46

ตัวแยกส่วนใหญ่พยายามสร้างเงื่อนไขเพื่อเพิ่มปริมาณข้อมูลที่ได้สูงสุด

ความสอดคล้องกันระหว่างผู้ประเมิน

#Metric

การวัดความถี่ที่ผู้ประเมินที่เป็นมนุษย์เห็นด้วยเมื่อทำภารกิจ หากผู้ประเมินไม่เห็นด้วย คุณอาจต้องปรับปรุงวิธีการของงาน บางครั้งอาจเรียกว่าความสอดคล้องกันของผู้กำกับดูแลหรือความน่าเชื่อถือของผู้ประเมิน ดูข้อมูลเพิ่มเติมได้ที่ค่า Kappa ของ Cohen ซึ่งเป็นวิธีการวัดความสอดคล้องกันระหว่างผู้ประเมินที่ได้รับความนิยมมากที่สุดวิธีหนึ่ง

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงหมวดหมู่: ปัญหาที่พบได้ทั่วไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

L

แพ้ L1

#fundamentals
#Metric

ฟังก์ชันการสูญเสียที่คำนวณค่าสัมบูรณ์ของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น ต่อไปนี้คือการคํานวณการสูญเสีย L1 สําหรับกลุ่มตัวอย่าง 5 รายการ

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ของโมเดล ค่าสัมบูรณ์ของเดลต้า
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = แพ้ L1

ผลต่าง L1 ไวต่อค่าผิดปกติน้อยกว่าผลต่าง L2

ค่าเฉลี่ยความผิดพลาดสัมบูรณ์คือค่าเฉลี่ยของการสูญเสีย L1 ต่อตัวอย่าง

ดูข้อมูลเพิ่มเติมได้ในหัวข้อการหาค่าสัมประสิทธ์เชิงเส้น: ค่าการสูญเสียในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

อัตราสูญเสีย L2

#fundamentals
#Metric

ฟังก์ชันการสูญเสียที่คำนวณผลคูณของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น นี่คือการคำนวณความสูญเสีย L2 สําหรับกลุ่มตัวอย่าง 5 รายการ

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ของโมเดล ตารางของเดลต้า
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = แพ้ L2

เนื่องจากการยกกำลัง 2 จะทำให้ความสูญเสีย L2 ขยายอิทธิพลของค่าผิดปกติ กล่าวคือ ผลลัพธ์ L2 จะตอบสนองต่อการคาดการณ์ที่ไม่ดีมากกว่าผลลัพธ์ L1 เช่น อัตราสูญเสีย L1 ของกลุ่มก่อนหน้าจะเป็น 8 ไม่ใช่ 16 โปรดทราบว่าค่าที่ผิดปกติรายการเดียวคิดเป็น 9 จาก 16

โมเดลการหาค่าสัมพัทธ์มักใช้การสูญเสีย L2 เป็นฟังก์ชันการสูญเสีย

ความคลาดเคลื่อนกำลังสองเฉลี่ยคือค่าเฉลี่ยของการสูญเสีย L2 ต่อตัวอย่าง ความสูญเสียแบบยกกำลังสองเป็นชื่อเรียกอีกอย่างของความสูญเสีย L2

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้นโลจิสติก: การสูญเสียและการควบคุมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

การประเมิน LLM (evals)

#language
#generativeAI
#Metric

ชุดเมตริกและการเปรียบเทียบเพื่อประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) การประเมิน LLM ในระดับสูงมีดังนี้

  • ช่วยให้นักวิจัยระบุด้านที่ LLM จำเป็นต้องปรับปรุง
  • มีประโยชน์ในการเปรียบเทียบ LLM ต่างๆ และระบุ LLM ที่ดีที่สุดสําหรับงานหนึ่งๆ
  • ช่วยให้มั่นใจว่า LLM นั้นปลอดภัยและใช้งานได้อย่างมีจริยธรรม

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ (LLM) ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

แพ้

#fundamentals
#Metric

ในระหว่างการฝึกโมเดลที่มีการควบคุมดูแล เป็นการวัดระยะห่างระหว่างการคาดการณ์ของโมเดลกับป้ายกำกับ

ฟังก์ชันการสูญเสียจะคํานวณการสูญเสีย

ดูข้อมูลเพิ่มเติมได้ที่การหาค่าสัมประสิทธ์เชิงเส้น: ค่าการสูญเสียในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ฟังก์ชันการสูญเสีย

#fundamentals
#Metric

ในระหว่างการฝึกหรือทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่คำนวณการสูญเสียในกลุ่มตัวอย่าง ฟังก์ชันการสูญเสียจะแสดงผลลัพธ์การสูญเสียที่ต่ำลงสำหรับโมเดลที่ทําการคาดการณ์ได้ดี เมื่อเทียบกับโมเดลที่ทําการคาดการณ์ได้ไม่ดี

โดยทั่วไป เป้าหมายของการฝึกคือลดการสูญเสียที่ฟังก์ชันการสูญเสียแสดง

ฟังก์ชันการสูญเสียมีหลายประเภท เลือกฟังก์ชันการสูญเสียที่เหมาะสมสำหรับประเภทโมเดลที่คุณกําลังสร้าง เช่น

M

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ (MAE)

#Metric

การสูญเสียโดยเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย L1 คํานวณค่าเฉลี่ยความผิดพลาดสัมบูรณ์ดังนี้

  1. คำนวณการสูญเสีย L1 ของกลุ่ม
  2. หารความสูญเสีย L1 ด้วยจํานวนตัวอย่างในชุด

ตัวอย่างเช่น ลองพิจารณาการคำนวณการสูญเสีย L1 ในตัวอย่าง 5 รายการต่อไปนี้

ค่าจริงของตัวอย่าง ค่าที่คาดการณ์ของโมเดล การสูญเสีย (ความแตกต่างระหว่างค่าจริงกับค่าที่คาดการณ์)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = แพ้ L1

ดังนั้น ผลลัพธ์ของ L1 คือ 8 และจำนวนตัวอย่างคือ 5 ดังนั้น ค่าเฉลี่ยความผิดพลาดสัมบูรณ์คือ

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

เปรียบเทียบค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์กับความคลาดเคลื่อนเฉลี่ยกำลังสอง และค่าเฉลี่ยความคลาดเคลื่อนกำลังสองของราก

ความแม่นยำเฉลี่ยของค่าเฉลี่ยที่ k (mAP@k)

#language
#generativeAI
#Metric

ค่าเฉลี่ยทางสถิติของคะแนนความแม่นยำเฉลี่ยที่ k ทั้งหมดในชุดข้อมูลที่ใช้ตรวจสอบ การใช้ความแม่นยำเฉลี่ยที่ k อย่างหนึ่งคือเพื่อตัดสินคุณภาพของคําแนะนําที่ระบบคําแนะนําสร้างขึ้น

แม้ว่าวลี "ค่าเฉลี่ยถ่วงน้ำหนัก" จะฟังดูซ้ำซ้อน แต่ชื่อเมตริกก็เหมาะสม ท้ายที่สุดแล้ว เมตริกนี้จะหาค่ามัธยฐานของความแม่นยําเฉลี่ยที่ k หลายค่า

ความคลาดเคลื่อนเฉลี่ยกำลังสอง (MSE)

#Metric

การสูญเสียโดยเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย L2 คำนวณความคลาดเคลื่อนกำลังสองเฉลี่ยดังนี้

  1. คํานวณการสูญเสีย L2 สําหรับกลุ่ม
  2. หารความสูญเสีย L2 ด้วยจํานวนตัวอย่างในชุด

ตัวอย่างเช่น ลองพิจารณาการสูญเสียในตัวอย่าง 5 รายการต่อไปนี้

มูลค่าที่แท้จริง การคาดการณ์ของโมเดล แพ้ ผลต่างของค่ากำลังสอง
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = แพ้ L2

ดังนั้น ความคลาดเคลื่อนเฉลี่ยกำลังสองคือ

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

ความคลาดเคลื่อนเฉลี่ยกำลังสองเป็นเครื่องมือเพิ่มประสิทธิภาพการฝึกอบรมที่ได้รับความนิยม โดยเฉพาะสําหรับการถดถอยเชิงเส้น

เปรียบเทียบความคลาดเคลื่อนกำลังสองเฉลี่ยกับค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ และค่าเฉลี่ยความคลาดเคลื่อนกำลังสองของราก

TensorFlow Playground ใช้ Mean Squared Error เพื่อคํานวณค่าการสูญเสีย

เมตริก

#TensorFlow
#Metric

สถิติที่คุณสนใจ

วัตถุประสงค์คือเมตริกที่ระบบแมชชีนเลิร์นนิงพยายามเพิ่มประสิทธิภาพ

Metrics API (tf.metrics)

#Metric

TensorFlow API สําหรับการประเมินโมเดล เช่น tf.metrics.accuracy จะกําหนดความถี่ที่การคาดการณ์ของโมเดลตรงกับป้ายกํากับ

ความเสียหายแบบ Minimax

#Metric

ฟังก์ชันการสูญเสียสําหรับGenerative Adversarial Network ซึ่งอิงตาม Cross-Entropy ระหว่างการแจกแจงข้อมูลที่สร้างและข้อมูลจริง

มีการสูญเสียแบบ Minimax ในบทความแรกเพื่ออธิบาย Generative Adversarial Network

ดูข้อมูลเพิ่มเติมเกี่ยวกับฟังก์ชันการสูญเสียได้ในหลักสูตร Generative Adversarial Networks

ความจุของโมเดล

#Metric

ความซับซ้อนของปัญหาที่โมเดลสามารถเรียนรู้ ยิ่งโมเดลเรียนรู้ปัญหาที่ซับซ้อนได้มากเท่าใด ความสามารถของโมเดลก็จะยิ่งสูงขึ้นเท่านั้น โดยปกติแล้ว ความสามารถของโมเดลจะเพิ่มขึ้นตามจำนวนพารามิเตอร์ของโมเดล ดูคำจำกัดความอย่างเป็นทางการของความสามารถในการจัดประเภทได้ที่มิติข้อมูล VC

N

คลาสเชิงลบ

#fundamentals
#Metric

ในการจัดประเภทแบบไบนารี คลาสหนึ่งจะเรียกว่าบวก และอีกคลาสหนึ่งจะเรียกว่าลบ คลาสที่เป็นบวกคือสิ่งหรือเหตุการณ์ที่โมเดลกำลังทดสอบ และคลาสที่เป็นลบคือความเป็นไปได้อื่นๆ เช่น

  • คลาสเชิงลบในการทดสอบทางการแพทย์อาจเป็น "ไม่ใช่เนื้องอก"
  • คลาสเชิงลบในตัวจัดประเภทอีเมลอาจเป็น "ไม่ใช่สแปม"

ตรงข้ามกับคลาสที่เป็นบวก

O

วัตถุประสงค์

#Metric

เมตริกที่อัลกอริทึมพยายามเพิ่มประสิทธิภาพ

ฟังก์ชันวัตถุประสงค์

#Metric

สูตรทางคณิตศาสตร์หรือเมตริกที่โมเดลมีเป้าหมายเพื่อเพิ่มประสิทธิภาพ เช่น ฟังก์ชันวัตถุประสงค์สําหรับการหาค่าสัมประสิทธ์เชิงเส้นมักจะเป็นความสูญเสียค่าเฉลี่ยสี่เหลี่ยม ดังนั้น เมื่อฝึกโมเดลการถดถอยเชิงเส้น การฝึกจะมีเป้าหมายเพื่อลดค่าเฉลี่ยของผลต่างของค่าที่คาดการณ์กับค่าจริงที่ยกกำลัง 2

ในบางกรณี เป้าหมายคือเพิ่มฟังก์ชันวัตถุประสงค์ให้มากที่สุด เช่น หากฟังก์ชันวัตถุประสงค์คือความถูกต้อง เป้าหมายคือเพื่อเพิ่มความแม่นยำสูงสุด

โปรดดูloss ด้วย

P

pass at k (pass@k)

#Metric

เมตริกสำหรับพิจารณาคุณภาพของโค้ด (เช่น Python) ที่โมเดลภาษาขนาดใหญ่สร้างขึ้น กล่าวอย่างเจาะจงคือ ผ่านที่ k บอกความเป็นไปได้ที่บล็อกโค้ดที่สร้างขึ้นอย่างน้อย 1 บล็อกจากบล็อกโค้ดที่สร้างขึ้น k บล็อกจะผ่านการทดสอบ 1 หน่วยทั้งหมด

โมเดลภาษาขนาดใหญ่มักสร้างโค้ดที่ดีสำหรับปัญหาการเขียนโปรแกรมที่ซับซ้อนได้ยาก วิศวกรซอฟต์แวร์ปรับตัวให้เข้ากับปัญหานี้โดยกระตุ้นให้โมเดลภาษาขนาดใหญ่สร้างโซลูชันหลายรายการ (k) สำหรับปัญหาเดียวกัน จากนั้นวิศวกรซอฟต์แวร์จะทดสอบโซลูชันแต่ละรายการกับการทดสอบ 1 หน่วย การคํานวณการผ่านที่ k ขึ้นอยู่กับผลลัพธ์ของการทดสอบหน่วยดังนี้

  • หากวิธีแก้ปัญหาเหล่านั้นอย่างน้อย 1 วิธีผ่านการทดสอบยูนิต LLM จะผ่านการทดสอบการสร้างโค้ด
  • หากไม่มีโซลูชันใดผ่านการทดสอบยูนิต LLM จะไม่ผ่านภารกิจการสร้างโค้ด

สูตรสําหรับการผ่านที่ k มีดังนี้

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

โดยทั่วไป ค่า k ที่สูงขึ้นจะให้คะแนนผ่านที่สูงกว่าที่คะแนน k อย่างไรก็ตาม ค่า k ที่สูงขึ้นต้องใช้ทรัพยากรโมเดลภาษาขนาดใหญ่และการทดสอบหน่วยมากขึ้น

การแสดง

#Metric

คําที่มีความหมายหลายอย่างดังนี้

  • ความหมายมาตรฐานในวิศวกรรมซอฟต์แวร์ กล่าวคือ ซอฟต์แวร์นี้ทำงานได้เร็ว (หรือมีประสิทธิภาพ) เพียงใด
  • ความหมายในแมชชีนเลิร์นนิง ประสิทธิภาพจะตอบคำถามที่ว่าโมเดลนี้ถูกต้องเพียงใด กล่าวคือ การคาดการณ์ของโมเดลนั้นแม่นยำเพียงใด

ความสําคัญของตัวแปรการจัดเรียงสับเปลี่ยน

#df
#Metric

ความสำคัญของตัวแปรประเภทหนึ่งที่ประเมินการเพิ่มขึ้นของข้อผิดพลาดในการคาดการณ์ของโมเดลหลังจากการสับเปลี่ยนค่าของฟีเจอร์ ความสำคัญของตัวแปรการสับเปลี่ยนเป็นเมตริกที่ไม่ขึ้นอยู่กับรูปแบบ

ความงงงวย

#Metric

หนึ่งในตัวชี้วัดว่าโมเดลทํางานได้ดีเพียงใด ตัวอย่างเช่น สมมติว่างานของคุณคืออ่านตัวอักษร 2-3 ตัวแรกของคำที่ผู้ใช้พิมพ์ในแป้นพิมพ์โทรศัพท์ และแสดงรายการคำที่เป็นไปได้ซึ่งเติมเต็มได้ ความสับสน P สําหรับงานนี้คือจํานวนการคาดเดาโดยประมาณที่คุณต้องเสนอเพื่อให้รายการของคุณมีคําที่ผู้ใช้พยายามพิมพ์

ความกำกวมเกี่ยวข้องกับCross-Entropy ดังนี้

$$P= 2^{-\text{cross entropy}}$$

คลาสที่เป็นบวก

#fundamentals
#Metric

ชั้นเรียนที่คุณทดสอบ

เช่น คลาสที่เป็นบวกในโมเดลโรคมะเร็งอาจเป็น "เนื้องอก" คลาสที่เป็นบวกในตัวจัดประเภทอีเมลอาจเป็น "จดหมายขยะ"

ตรงข้ามกับคลาสที่เป็นลบ

PR AUC (พื้นที่ใต้กราฟ PR)

#Metric

พื้นที่ใต้กราฟที่หาค่าเฉลี่ยระหว่างค่าต่างๆ ของกราฟ Precision-Recall ซึ่งหาได้จากการวางจุด (ความแม่นยำ ความแม่นยำ) สำหรับค่าต่างๆ ของเกณฑ์การจัดประเภท

ความแม่นยำ

#Metric

เมตริกสําหรับโมเดลการจัดหมวดหมู่ที่ตอบคำถามต่อไปนี้

เมื่อโมเดลคาดการณ์คลาสเชิงบวก การคาดการณ์ที่ถูกต้องมีเปอร์เซ็นต์เท่าใด

สูตรมีดังนี้

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

where:

  • ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้ถูกต้อง
  • ผลบวกลวงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกโดยไม่ได้ตั้งใจ

ตัวอย่างเช่น สมมติว่าโมเดลทำการคาดการณ์เชิงบวก 200 ครั้ง จากการคาดการณ์เชิงบวก 200 รายการนี้

  • 150 รายการเป็นผลบวกจริง
  • 50 รายการเป็นผลบวกลวง

ในกรณีนี้

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

ตรงข้ามกับความแม่นยำและการจดจำ

ดูข้อมูลเพิ่มเติมได้ในการจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้องในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ความแม่นยำที่ k (precision@k)

#language
#Metric

เมตริกสําหรับประเมินรายการที่จัดอันดับ (เรียงลําดับ) ความแม่นยำที่ k จะระบุเศษส่วนของรายการ k รายการแรกในรายการนั้นซึ่ง "เกี่ยวข้อง" โดยการ

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

ค่าของ k ต้องน้อยกว่าหรือเท่ากับความยาวของลิสต์ที่แสดงผล โปรดทราบว่าความยาวของรายการที่แสดงผลไม่ได้เป็นส่วนหนึ่งของการคํานวณ

ความเกี่ยวข้องมักเป็นเรื่องส่วนตัว แม้แต่ผู้ประเมินที่เป็นมนุษย์ที่เชี่ยวชาญก็มักไม่เห็นด้วยว่ารายการใดมีความเกี่ยวข้อง

เปรียบเทียบกับ:

เส้นโค้ง Precision-Recall

#Metric

กราฟความแม่นยำเทียบกับความแม่นยำในการเรียกคืนที่เกณฑ์การจัดประเภทต่างๆ

อคติในการคาดการณ์

#Metric

ค่าที่ระบุระยะห่างระหว่างค่าเฉลี่ยของการคาดการณ์กับค่าเฉลี่ยของป้ายกํากับในชุดข้อมูล

โปรดอย่าสับสนกับคำที่เป็นอคติในโมเดลแมชชีนเลิร์นนิง หรืออคติด้านจริยธรรมและความเป็นธรรม

ความเท่าเทียมตามการคาดการณ์

#fairness
#Metric

เมตริกความเป็นธรรมที่ตรวจสอบว่าอัตราความแม่นยำของโปรแกรมแยกประเภทหนึ่งๆ เทียบเท่ากันสำหรับกลุ่มย่อยที่พิจารณาหรือไม่

เช่น โมเดลที่คาดการณ์การยอมรับเข้าวิทยาลัยจะต้องเป็นไปตามความเท่าเทียมในการคาดการณ์สำหรับสัญชาติหากอัตราความแม่นยำของโมเดลนั้นเหมือนกันสำหรับชาวลิลลี่ปุตและชาวบราบิงแนก

บางครั้งเราจะเรียกความเท่าเทียมตามการคาดการณ์ว่าความเท่าเทียมตามอัตราที่คาดการณ์

ดูการอภิปรายเรื่องความเท่าเทียมตามการคาดการณ์โดยละเอียดได้ที่"คำอธิบายความเท่าเทียม" (ส่วนที่ 3.2.1)

อัตราที่เท่ากันตามการคาดการณ์

#fairness
#Metric

อีกชื่อของความเท่าเทียมตามการคาดการณ์

ฟังก์ชันความหนาแน่นของความน่าจะเป็น

#Metric

ฟังก์ชันที่ระบุความถี่ของตัวอย่างข้อมูลที่มีค่าหนึ่งๆ ตรงกันทุกประการ เมื่อค่าของชุดข้อมูลเป็นตัวเลขทศนิยมต่อเนื่อง การจับคู่ที่ตรงกันทั้งหมดจะเกิดขึ้นน้อยมาก อย่างไรก็ตาม การผสานรวมฟังก์ชันความหนาแน่นความน่าจะเป็นจากค่า x ถึงค่า y จะให้ความถี่ที่คาดไว้ของตัวอย่างข้อมูลระหว่าง x ถึง y

ตัวอย่างเช่น พิจารณาการแจกแจงแบบปกติที่มีค่าเฉลี่ย 200 และค่าเบี่ยงเบนมาตรฐาน 30 หากต้องการระบุความถี่ที่คาดไว้ของตัวอย่างข้อมูลซึ่งอยู่ในช่วง 211.4 ถึง 218.7 ให้ผสานฟังก์ชันความหนาแน่นความน่าจะเป็นของการแจกแจงแบบปกติจาก 211.4 ถึง 218.7

R

การเรียกคืน

#Metric

เมตริกสําหรับโมเดลการจัดหมวดหมู่ที่ตอบคำถามต่อไปนี้

เมื่อข้อมูลจริงเป็นคลาสที่เป็นบวก เปอร์เซ็นต์การคาดการณ์ที่โมเดลระบุเป็นคลาสที่เป็นบวกอย่างถูกต้องคือเท่าใด

สูตรมีดังนี้

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

where:

  • ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้ถูกต้อง
  • ผลลบลวงหมายความว่าโมเดลคาดการณ์ผิดพลาดว่าคลาสเชิงลบ

ตัวอย่างเช่น สมมติว่าโมเดลของคุณทำการคาดการณ์ 200 ครั้งในตัวอย่างที่มีข้อมูลพื้นความจริงเป็นคลาสที่เป็นบวก จากการคาดการณ์ 200 รายการนี้

  • 180 รายการเป็นผลบวกจริง
  • 20 รายการเป็นผลลบลวง

ในกรณีนี้

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้อง

การจําที่ k (recall@k)

#language
#Metric

เมตริกสําหรับประเมินระบบที่แสดงรายการที่จัดอันดับ (เรียงลําดับ) การเรียกคืนที่ k จะระบุเศษส่วนของรายการที่เกี่ยวข้องในรายการ k รายการแรกในรายการนั้นจากจํานวนรายการที่เกี่ยวข้องทั้งหมดที่แสดง

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

เปรียบเทียบกับความแม่นยำที่ k

เส้นโค้ง ROC (Receiver Operating Characteristic)

#fundamentals
#Metric

กราฟของอัตราผลบวกจริงเทียบกับอัตราผลบวกลวงสําหรับเกณฑ์การจัดประเภทแบบต่างๆ ในการจัดประเภทแบบไบนารี

รูปร่างของเส้นโค้ง ROC บ่งบอกถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ ตัวอย่างเช่น สมมติว่าโมเดลการจัดประเภทแบบไบนารีแยกคลาสเชิงลบทั้งหมดออกจากคลาสเชิงบวกทั้งหมดได้อย่างสมบูรณ์

เส้นจำนวนที่มีตัวอย่างบวก 8 รายการทางด้านขวาและตัวอย่างลบ 7 รายการทางด้านซ้าย

เส้นโค้ง ROC ของรูปแบบก่อนหน้ามีลักษณะดังนี้

เส้นโค้ง ROC โดยแกน X คืออัตราผลบวกลวงและแกน Y คืออัตราผลบวกจริง เส้นโค้งเป็นรูปตัว L กลับหัว เส้นโค้งจะเริ่มต้นที่ (0.0,0.0) และขึ้นตรงๆ ไปที่ (0.0,1.0) จากนั้นเส้นโค้งจะเปลี่ยนจาก (0.0,1.0) เป็น (1.0,1.0)

ในทางตรงกันข้าม ภาพประกอบต่อไปนี้แสดงกราฟค่าการถดถอยเชิงลอจิสติกส์ดิบสําหรับโมเดลที่ทํางานได้แย่มากซึ่งแยกคลาสเชิงลบออกจากคลาสเชิงบวกไม่ได้เลย

เส้นจำนวนที่มีตัวอย่างที่เป็นบวกและคลาสที่เป็นลบปะปนกัน

เส้นโค้ง ROC ของรูปแบบนี้จะมีลักษณะดังนี้

เส้นโค้ง ROC ซึ่งจริงๆ แล้วคือเส้นตรงจาก (0.0,0.0) ไป (1.0,1.0)

ในทางกลับกัน โมเดลการจัดประเภทแบบไบนารีส่วนใหญ่จะแยกคลาสที่เป็นบวกและลบในระดับหนึ่ง แต่มักจะไม่แยกได้อย่างสมบูรณ์ ดังนั้น กราฟ ROC ทั่วไปจึงอยู่ตรงกลางระหว่าง 2 ค่าสุดขั้วนี้

เส้นโค้ง ROC โดยแกน X คืออัตราผลบวกลวงและแกน Y คืออัตราผลบวกจริง เส้นโค้ง ROC แสดงเป็นเส้นโค้งที่ผันผวนซึ่งลากผ่านจุดต่างๆ ของเข็มทิศจากตะวันตกไปเหนือ

จุดบนเส้นโค้ง ROC ที่ใกล้กับ (0.0,1.0) มากที่สุดจะระบุเกณฑ์การแยกประเภทที่เหมาะสมในทางทฤษฎี อย่างไรก็ตาม ปัญหาอื่นๆ ที่เกิดขึ้นจริงหลายประการส่งผลต่อการเลือกเกณฑ์การจัดประเภทที่เหมาะสม ตัวอย่างเช่น ผลลบเท็จอาจทำให้เกิดปัญหามากกว่าผลบวกเท็จ

เมตริกตัวเลขที่เรียกว่า AUC จะสรุปเส้นโค้ง ROC เป็นค่าทศนิยมเดียว

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)

#fundamentals
#Metric

รากที่สองของความคลาดเคลื่อนเฉลี่ยกำลังสอง

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language
#Metric

กลุ่มเมตริกที่ประเมินการสรุปอัตโนมัติและรูปแบบการแปลด้วยคอมพิวเตอร์ เมตริก ROUGE จะระบุระดับที่ข้อความอ้างอิงซ้อนทับกับข้อความที่สร้างขึ้นของโมเดล ML แต่ละสมาชิกของครอบครัว ROUGE จะวัดผลการซ้อนทับกันด้วยวิธีที่แตกต่างกัน คะแนน ROUGE ที่สูงกว่าบ่งชี้ว่าข้อความอ้างอิงกับข้อความที่สร้างขึ้นมีความคล้ายคลึงกันมากกว่าคะแนน ROUGE ที่ต่ำกว่า

โดยปกติแล้วสมาชิกในครอบครัว ROUGE แต่ละคนจะสร้างเมตริกต่อไปนี้

  • ความแม่นยำ
  • การจดจำ
  • F1

ดูรายละเอียดและตัวอย่างได้ที่

ROUGE-L

#language
#Metric

สมาชิกของตระกูล ROUGE ที่มุ่งเน้นที่ความยาวของอนุกรมย่อยที่พบร่วมกันยาวที่สุดในข้อความอ้างอิงและข้อความที่สร้างขึ้น สูตรต่อไปนี้จะคํานวณการเรียกคืนและความแม่นยําสําหรับ ROUGE-L

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

จากนั้นคุณสามารถใช้ F1 เพื่อรวมการเรียกคืน ROUGE-L และแม่นยำของ ROUGE-L ไว้ในเมตริกเดียว ดังนี้

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L ไม่สนใจการขึ้นบรรทัดใหม่ในข้อความอ้างอิงและข้อความที่สร้างขึ้น ดังนั้นอนุกรมย่อยที่พบร่วมกันยาวที่สุดอาจข้ามหลายประโยค เมื่อข้อความอ้างอิงและข้อความที่สร้างขึ้นมีประโยคหลายประโยค โดยทั่วไปแล้ว รูปแบบของ ROUGE-L ที่ชื่อ ROUGE-Lsum จะถือเป็นเมตริกที่ดีกว่า ROUGE-Lsum จะระบุอนุกรมย่อยที่พบร่วมกันยาวที่สุดสำหรับประโยคแต่ละประโยคในย่อหน้า จากนั้นจะคํานวณค่าเฉลี่ยของอนุกรมย่อยที่พบร่วมกันยาวที่สุดเหล่านั้น

ROUGE-N

#language
#Metric

ชุดเมตริกภายในตระกูล ROUGE ที่เปรียบเทียบ N-gram ที่ใช้ร่วมกันซึ่งมีขนาดที่แน่นอนในข้อความอ้างอิงและข้อความที่สร้างขึ้น เช่น

  • ROUGE-1 จะวัดจํานวนโทเค็นที่ใช้ร่วมกันในข้อความอ้างอิงและข้อความที่สร้างขึ้น
  • ROUGE-2 จะวัดจํานวน Bigram (2-gram) ที่แชร์ในข้อความอ้างอิงและข้อความที่สร้างขึ้น
  • ROUGE-3 จะวัดจํานวน Trigram (3-gram) ที่แชร์ในข้อความอ้างอิงและข้อความที่สร้างขึ้น

คุณสามารถใช้สูตรต่อไปนี้เพื่อคํานวณการเรียกคืนและแม่นยําของ ROUGE-N สําหรับสมาชิกของตระกูล ROUGE-N

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

จากนั้นคุณสามารถใช้ F1 เพื่อรวมการเรียกคืน ROUGE-N และแม่นยำของ ROUGE-N ไว้ในเมตริกเดียว ดังนี้

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

ROUGE-S

#language
#Metric

รูปแบบที่ยืดหยุ่นของ ROUGE-N ที่เปิดใช้การจับคู่ Skip-Gram กล่าวคือ ROUGE-N จะนับเฉพาะ N-gram ที่ตรงกันทุกประการ แต่ ROUGE-S จะนับ N-gram ที่แยกกันด้วยคำอย่างน้อย 1 คำด้วย เช่น โปรดคำนึงถึงสิ่งต่อไปนี้

เมื่อคํานวณ ROUGE-N 2-gram White clouds ไม่ตรงกับ White billowing clouds อย่างไรก็ตาม เมื่อคำนวณ ROUGE-S คำว่าเมฆสีขาวจะตรงกับเมฆสีขาวที่ลอยอยู่

R-squared

#Metric

เมตริกการถดถอยที่ระบุความแปรปรวนของป้ายกํากับที่เกิดจากฟีเจอร์แต่ละรายการหรือชุดฟีเจอร์ ค่า R-squared คือค่าระหว่าง 0 ถึง 1 ซึ่งคุณตีความได้ดังนี้

  • ค่า R-squared เท่ากับ 0 หมายความว่าความแปรปรวนของป้ายกำกับไม่ได้เกิดจากชุดฟีเจอร์
  • ค่า R-squared เท่ากับ 1 หมายความว่าความแปรปรวนทั้งหมดของป้ายกํากับเกิดจากชุดฟีเจอร์
  • ค่า R-squared ระหว่าง 0 ถึง 1 บ่งบอกถึงระดับที่ความหลากหลายของป้ายกำกับสามารถคาดการณ์ได้จากฟีเจอร์หนึ่งๆ หรือชุดฟีเจอร์ เช่น ค่า R ยกกำลังสอง 0.10 หมายความว่าความแปรปรวน 10 เปอร์เซ็นต์ในป้ายกำกับนั้นเกิดจากชุดฟีเจอร์ ค่า R ยกกำลังสอง 0.20 หมายความว่า 20 เปอร์เซ็นต์นั้นเกิดจากชุดฟีเจอร์ และอื่นๆ

ค่า R ยกกำลังสองคือค่ากำลังสองของสัมประสิทธิ์สหสัมพันธ์ของ Pearson ระหว่างค่าที่โมเดลคาดการณ์ไว้กับข้อมูลจากการสังเกตการณ์โดยตรง

S

การให้คะแนน

#recsystems
#Metric

ส่วนหนึ่งของระบบการแนะนำที่ให้ค่าหรือการจัดอันดับสำหรับรายการแต่ละรายการที่สร้างขึ้นจากระยะการสร้างผู้สมัคร

การวัดความคล้ายคลึง

#clustering
#Metric

ในอัลกอริทึมการจัดกลุ่ม เมตริกที่ใช้เพื่อระบุความคล้ายคลึงกัน (ความคล้ายกัน) ของตัวอย่าง 2 รายการ

การขาดแคลนข้อมูล

#Metric

จํานวนองค์ประกอบที่ตั้งค่าเป็น 0 (หรือ Null) ในเวกเตอร์หรือเมทริกซ์หารด้วยจํานวนรายการทั้งหมดในเวกเตอร์หรือเมทริกซ์นั้น ตัวอย่างเช่น ลองพิจารณาเมทริกซ์ที่มีองค์ประกอบ 100 รายการ ซึ่ง 98 เซลล์มีค่าเป็น 0 การคำนวณความถี่ต่ำมีดังนี้

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

ความถี่ต่ำของฟีเจอร์หมายถึงความถี่ต่ำของเวกเตอร์ฟีเจอร์ ส่วนความถี่ต่ำของโมเดลหมายถึงความถี่ต่ำของน้ำหนักโมเดล

ผลรวมของการสูญเสียบานพับกำลังสอง

#Metric

ผลคูณของ การสูญเสียจากการเปิด/ปิด ผลรวมของการสูญเสียแบบสี่เหลี่ยมจัตุรัสจะลงโทษค่าที่ผิดปกติรุนแรงกว่าผลรวมของการสูญเสียแบบปกติ

ผลรวมของค่าสัมบูรณ์ของข้อผิดพลาด

#fundamentals
#Metric

คำพ้องความหมายของการสูญเสีย L2

T

การสูญเสียในการทดสอบ

#fundamentals
#Metric

เมตริกที่แสดงถึงการสูญเสียของโมเดลเทียบกับชุดทดสอบ เมื่อสร้างโมเดล คุณมักจะพยายามลดการสูญเสียในการทดสอบ เนื่องจากการสูญเสียในการทดสอบที่ต่ำเป็นสัญญาณคุณภาพที่ชัดเจนกว่าการสูญเสียในการฝึกที่ต่ำหรือการสูญเสียในการทดสอบที่ต่ำ

บางครั้งช่องว่างระหว่างการสูญเสียในชุดทดสอบกับการสูญเสียในชุดฝึกหรือชุดตรวจสอบที่มากอาจบ่งบอกว่าคุณต้องเพิ่มอัตราการปรับสมดุล

ความแม่นยำของ Top-K

#language
#Metric

เปอร์เซ็นต์ของเวลาที่ "ป้ายกำกับเป้าหมาย" ปรากฏในตำแหน่ง k แรกๆ ของรายการที่สร้างขึ้น รายการอาจเป็นคําแนะนําที่ปรับเปลี่ยนในแบบของคุณ หรือรายการสินค้าที่จัดเรียงตาม softmax

ความแม่นยำของ Top-k เรียกอีกอย่างว่าความแม่นยำที่ k

ความเชื่อผิดๆ

#language
#Metric

ระดับที่เนื้อหาเป็นการละเมิด ข่มขู่ หรือทำให้เกิดความไม่พอใจ โมเดลแมชชีนเลิร์นนิงจำนวนมากสามารถระบุและวัดระดับความเป็นพิษได้ โมเดลส่วนใหญ่เหล่านี้จะระบุความเป็นพิษตามพารามิเตอร์หลายรายการ เช่น ระดับภาษาที่ไม่เหมาะสมและระดับภาษาที่เป็นภัย

การสูญเสียจากการฝึก

#fundamentals
#Metric

เมตริกที่แสดงถึงการสูญเสียของโมเดลระหว่างการทำซ้ำการฝึกหนึ่งๆ เช่น สมมติว่าฟังก์ชันการสูญเสียคือความคลาดเคลื่อนกำลังสองเฉลี่ย ตัวอย่างเช่น การสูญเสียในการฝึก (ข้อผิดพลาดค่าเฉลี่ยสี่เหลี่ยมจัตุรัส) ของการทำซ้ำครั้งที่ 10 คือ 2.2 และการสูญเสียในการฝึกของการทำซ้ำครั้งที่ 100 คือ 1.9

เส้นโค้งการสูญเสียจะแสดงการลดลงของการฝึกเทียบกับจํานวนการวนซ้ำ เส้นโค้งการสูญเสียจะให้คำแนะนำต่อไปนี้เกี่ยวกับการฝึก

  • เส้นที่ลาดลงหมายความว่าโมเดลมีประสิทธิภาพดีขึ้น
  • เส้นลาดขึ้นหมายความว่าโมเดลมีประสิทธิภาพแย่ลง
  • เส้นลาดชันที่ราบเรียบหมายความว่าโมเดลบรรลุการบรรจบแล้ว

ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้ซึ่งค่อนข้างเป็นอุดมคติจะแสดงข้อมูลต่อไปนี้

  • เส้นลาดลงชันในช่วงการทำซ้ำครั้งแรก ซึ่งหมายความว่าโมเดลได้รับการปรับปรุงอย่างรวดเร็ว
  • เส้นลาดชันที่ค่อยๆ ราบลง (แต่ยังคงลดลง) จนใกล้ถึงช่วงสิ้นสุดการฝึก ซึ่งหมายความว่ามีการปรับปรุงโมเดลอย่างต่อเนื่องในอัตราที่ช้ากว่าช่วงการทำซ้ำครั้งแรก
  • เส้นลาดชันที่ราบเรียบในช่วงท้ายของการฝึก ซึ่งบ่งบอกถึงการบรรจบ

ผังของการสูญเสียของการฝึกเทียบกับจำนวนรอบ เส้นโค้งการสูญเสียนี้เริ่มต้นด้วยเส้นลาดชันชันลง ความชันจะค่อยๆ ลดลงจนกว่าจะมีค่าเป็น 0

แม้ว่าการสูญเสียระหว่างการฝึกจะมีความสำคัญ แต่โปรดดูการทั่วไปด้วย

ผลลบจริง (TN)

#fundamentals
#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบได้อย่างถูกต้อง ตัวอย่างเช่น โมเดลอนุมานว่าข้อความอีเมลหนึ่งๆ ไม่ใช่จดหมายขยะ และข้อความอีเมลนั้นไม่ใช่จดหมายขยะจริงๆ

ผลบวกจริง (TP)

#fundamentals
#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสที่เป็นบวกได้อย่างถูกต้อง เช่น โมเดลอนุมานว่าข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ และข้อความอีเมลนั้นจริงๆ แล้วเป็นจดหมายขยะ

อัตราผลบวกจริง (TPR)

#fundamentals
#Metric

คำพ้องความหมายของ recall โดยการ

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

อัตราผลบวกจริงคือแกน y ในกราฟ ROC

V

การสูญเสียการตรวจสอบ

#fundamentals
#Metric

เมตริกที่แสดงถึงความสูญเสียของโมเดลในชุดทดสอบระหว่างการทำซ้ำการฝึกหนึ่งๆ

โปรดดูเส้นโค้งทั่วไปด้วย

ความสำคัญของตัวแปร

#df
#Metric

ชุดคะแนนที่ระบุความสำคัญแบบสัมพัทธ์ของฟีเจอร์แต่ละรายการต่อโมเดล

เช่น ลองพิจารณาแผนภูมิการตัดสินใจซึ่งประเมินราคาบ้าน สมมติว่าแผนผังการตัดสินใจนี้ใช้ฟีเจอร์ 3 อย่าง ได้แก่ ขนาด อายุ และสไตล์ หากชุดความสำคัญของตัวแปรสำหรับฟีเจอร์ 3 รายการคำนวณออกมาเป็น {size=5.8, age=2.5, style=4.7} แสดงว่าขนาดมีความสําคัญต่อต้นไม้การตัดสินใจมากกว่าอายุหรือสไตล์

เมตริกความสำคัญของตัวแปรต่างๆ มีอยู่ ซึ่งสามารถให้ข้อมูลแก่ผู้เชี่ยวชาญด้าน ML เกี่ยวกับแง่มุมต่างๆ ของโมเดล

W

การสูญเสีย Wasserstein

#Metric

ฟังก์ชันการสูญเสียอย่างหนึ่งที่ใช้กันโดยทั่วไปในเครือข่าย Generative Adversarial ซึ่งอิงตามระยะทาง Earth Mover's Distance ระหว่างการแจกแจงของข้อมูลที่สร้างขึ้นกับข้อมูลจริง