หน้านี้ได้รับการแปลโดย Cloud Translation API

อภิธานศัพท์แมชชีนเลิร์นนิง: เมตริก

หน้านี้มีคำศัพท์ในอภิธานศัพท์เกี่ยวกับเมตริก ดูคำศัพท์ทั้งหมดได้โดยคลิกที่นี่

A

ความแม่นยำ

#fundamentals

#Metric

จำนวนการคาดการณ์การจัดประเภทที่ถูกต้องหารด้วยจำนวนการคาดการณ์ทั้งหมด โดยการ

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

เช่น โมเดลที่คาดการณ์ถูกต้อง 40 รายการและคาดการณ์ไม่ถูกต้อง 10 รายการ จะมีความแม่นยำดังนี้

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

การจัดประเภทแบบไบนารีจะระบุชื่อที่เฉพาะเจาะจง สำหรับหมวดหมู่ต่างๆ ของการคาดการณ์ที่ถูกต้องและ การคาดการณ์ที่ไม่ถูกต้อง ดังนั้น สูตรความแม่นยำสำหรับการจัดประเภทแบบไบนารี จึงเป็นดังนี้

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

ที่ไหน

TP คือจำนวนผลบวกจริง (การคาดการณ์ที่ถูกต้อง)
TN คือจำนวนผลลบจริง (การคาดการณ์ที่ถูกต้อง)
FP คือจำนวนผลบวกลวง (การคาดการณ์ที่ไม่ถูกต้อง)
FN คือจำนวนผลลบลวง (การคาดการณ์ที่ไม่ถูกต้อง)

เปรียบเทียบความแม่นยำกับความเที่ยงตรงและความอ่อนไหว

คลิกไอคอนเพื่อดูรายละเอียดเกี่ยวกับความแม่นยำและชุดข้อมูลที่มีความไม่สมดุลของคลาส

แม้ว่าความถูกต้องจะเป็นเมตริกที่มีประโยชน์ในบางสถานการณ์ แต่ก็อาจทำให้เข้าใจผิดอย่างมากในสถานการณ์อื่นๆ โดยปกติแล้ว ความแม่นยำมักจะเป็นเมตริกที่ไม่ดี สำหรับการประเมินโมเดลการแยกประเภทที่ประมวลผล ชุดข้อมูลที่มีความไม่สมดุลของคลาส

ตัวอย่างเช่น สมมติว่าในเมืองกึ่งเขตร้อนแห่งหนึ่งมีหิมะตกเพียง 25 วันต่อศตวรรษ เนื่องจากวันที่ไม่มีหิมะตก (คลาสเชิงลบ) มีจำนวนมากกว่าวันที่หิมะตก (คลาสเชิงบวก) อย่างมาก ชุดข้อมูลหิมะสำหรับเมืองนี้จึงเป็นคลาสที่ไม่สมดุล ลองนึกถึงการจัดประเภทแบบไบนารี โมเดลที่ควรจะคาดการณ์ว่าจะมีหิมะหรือไม่ในแต่ละวัน แต่ กลับคาดการณ์ว่า "ไม่มีหิมะ" ทุกวัน โมเดลนี้มีความแม่นยำสูงแต่ไม่มีความสามารถในการคาดการณ์ ตารางต่อไปนี้สรุปผลลัพธ์ของการคาดการณ์ในศตวรรษที่ผ่านมา

หมวดหมู่	ตัวเลข
TP	0
TN	36499
FP	0
FN	25

ดังนั้นความแม่นยำของโมเดลนี้จึงเป็นดังนี้

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

แม้ว่าความแม่นยำ 99.93% จะดูเหมือนเป็นเปอร์เซ็นต์ที่น่าประทับใจมาก แต่จริงๆ แล้วโมเดล ไม่มีความสามารถในการคาดการณ์

ความแม่นยำและ ความสามารถในการเรียกคืนมักจะเป็นเมตริกที่มีประโยชน์มากกว่าความถูกต้องในการประเมินโมเดลที่ฝึกในชุดข้อมูลที่มีความไม่สมดุลของคลาส

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ความแม่นยำ การเรียกคืน ความเที่ยงตรง และเมตริกที่เกี่ยวข้อง ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

พื้นที่ใต้กราฟ PR

#Metric

ดูPR AUC (พื้นที่ใต้กราฟ PR)

พื้นที่ใต้กราฟ ROC

#Metric

ดู AUC (พื้นที่ใต้กราฟ ROC)

AUC (พื้นที่ใต้กราฟ ROC)

#fundamentals

#Metric

ตัวเลขระหว่าง 0.0 ถึง 1.0 ซึ่งแสดงถึงความสามารถของโมเดลการจัดประเภทแบบไบนารี ในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ ยิ่ง AUC ใกล้ 1.0 มากเท่าใด ความสามารถของโมเดลในการแยก คลาสออกจากกันก็จะยิ่งดีขึ้นเท่านั้น

ตัวอย่างเช่น ภาพต่อไปนี้แสดงโมเดลการจัดประเภทที่แยกคลาสเชิงบวก (วงรีสีเขียว) ออกจากคลาสเชิงลบ (สี่เหลี่ยมผืนผ้าสีม่วง) ได้อย่างสมบูรณ์ โมเดลที่สมบูรณ์แบบอย่างไม่สมจริงนี้มี AUC เท่ากับ 1.0

เส้นจำนวนที่มีตัวอย่างที่เป็นบวก 8 รายการด้านหนึ่งและ
ตัวอย่างที่เป็นลบ 9 รายการอีกด้านหนึ่ง

ในทางกลับกัน ภาพต่อไปนี้แสดงผลลัพธ์ของโมเดลการจัดประเภทที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มี AUC เท่ากับ 0.5

เส้นจำนวนที่มีตัวอย่างที่เป็นบวก 6 ตัวอย่างและตัวอย่างที่เป็นลบ 6 ตัวอย่าง
ลำดับของตัวอย่างคือ เชิงบวก เชิงลบ
เชิงบวก เชิงลบ เชิงบวก เชิงลบ เชิงบวก เชิงลบ เชิงบวก
เชิงลบ เชิงบวก เชิงลบ

ใช่ โมเดลก่อนหน้ามี AUC เท่ากับ 0.5 ไม่ใช่ 0.0

โมเดลส่วนใหญ่อยู่ระหว่าง 2 สุดขั้วนี้ ตัวอย่างเช่น โมเดลต่อไปนี้จะแยกผลลัพธ์เชิงบวกออกจากเชิงลบได้ในระดับหนึ่ง ดังนั้นจึงมี AUC อยู่ระหว่าง 0.5 ถึง 1.0

เส้นจำนวนที่มีตัวอย่างที่เป็นบวก 6 ตัวอย่างและตัวอย่างที่เป็นลบ 6 ตัวอย่าง
ลำดับของตัวอย่างคือ ลบ ลบ ลบ ลบ บวก ลบ บวก บวก ลบ บวก บวก บวก

AUC จะไม่สนใจค่าที่คุณตั้งไว้สำหรับเกณฑ์การจัดประเภท แต่ AUC จะพิจารณาเกณฑ์การแยกประเภทที่เป็นไปได้ทั้งหมด

คลิกไอคอนเพื่อดูข้อมูลเกี่ยวกับความสัมพันธ์ระหว่าง AUC กับเส้นโค้ง ROC

AUC แสดงถึงพื้นที่ใต้ กราฟ ROC ตัวอย่างเช่น กราฟ ROC สำหรับโมเดลที่แยกผลบวกออกจากผลลบได้อย่างสมบูรณ์มีลักษณะดังนี้

AUC คือพื้นที่ของบริเวณสีเทาในภาพประกอบก่อนหน้า ในกรณีที่ผิดปกติเช่นนี้ พื้นที่ก็คือความยาวของพื้นที่สีเทา (1.0) คูณด้วยความกว้างของพื้นที่สีเทา (1.0) ดังนั้น ผลคูณของ 1.0 และ 1.0 จึงให้ค่า AUC เท่ากับ 1.0 ซึ่งเป็นคะแนน AUC ที่สูงที่สุด ที่เป็นไปได้

ในทางกลับกัน เส้นโค้ง ROC สำหรับโมเดลการแยกประเภทที่ไม่สามารถ แยกคลาสได้เลยจะเป็นดังนี้ พื้นที่ของบริเวณสีเทานี้คือ 0.5

กราฟ ROC ที่พบได้ทั่วไปจะมีลักษณะดังต่อไปนี้โดยประมาณ

การคำนวณพื้นที่ใต้กราฟนี้ด้วยตนเองเป็นเรื่องที่ยากมาก ด้วยเหตุนี้โปรแกรมจึงมักคำนวณค่า AUC ส่วนใหญ่

คลิกไอคอนเพื่อดูคำจำกัดความของ AUC ที่เป็นทางการมากขึ้น

AUC คือความน่าจะเป็นที่โมเดลการจัดประเภทจะมีความมั่นใจมากขึ้นว่าตัวอย่างเชิงบวกที่เลือกแบบสุ่มเป็นบวกจริง มากกว่าตัวอย่างเชิงลบที่เลือกแบบสุ่มเป็นบวก

ดูข้อมูลเพิ่มเติมได้ที่การแยกประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ความแม่นยำเฉลี่ยที่ k

#Metric

เมตริกสำหรับสรุปประสิทธิภาพของโมเดลในพรอมต์เดียวที่สร้างผลลัพธ์ที่จัดอันดับ เช่น รายการคำแนะนำหนังสือที่มีหมายเลข ความแม่นยำเฉลี่ยที่ k คือค่าเฉลี่ยของค่า ความแม่นยำที่ k สำหรับผลลัพธ์ที่เกี่ยวข้องแต่ละรายการ ดังนั้น สูตรสำหรับความแม่นยำเฉลี่ยที่ k คือ

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

ที่ไหน

$n$ คือจำนวนสินค้าที่เกี่ยวข้องในรายการ

เปรียบเทียบกับการเรียกคืนที่ k

คลิกไอคอนเพื่อดูตัวอย่าง

สมมติว่าโมเดลภาษาขนาดใหญ่ ได้รับคำค้นหาต่อไปนี้

List the 6 funniest movies of all time in order.

และโมเดลภาษาขนาดใหญ่จะแสดงรายการต่อไปนี้

The General
Mean Girls
Platoon
Bridesmaids
พลเมืองคาน
This is Spinal Tap

ภาพยนตร์ 4 เรื่องในรายการที่แสดงเป็นภาพยนตร์ตลกมาก (คือมีความเกี่ยวข้อง) แต่ภาพยนตร์ 2 เรื่องเป็นภาพยนตร์ดราม่า (ไม่เกี่ยวข้อง) ตารางต่อไปนี้ แสดงรายละเอียดผลลัพธ์

ตำแหน่ง	ภาพยนตร์	เกี่ยวข้องไหม	ความแม่นยำที่ k
1	The General	ใช่	1.0
2	Mean Girls	ใช่	1.0
3	Platoon	ไม่	ไม่เกี่ยวข้อง
4	Bridesmaids	ใช่	0.75
5	พลเมืองคาน	ไม่	ไม่เกี่ยวข้อง
6	This is Spinal Tap	ใช่	0.67

จำนวนผลการค้นหาที่เกี่ยวข้องคือ 4 ดังนั้น คุณจึงคำนวณ ความแม่นยำเฉลี่ยที่ 6 ได้ดังนี้

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

B

พื้นฐาน

#Metric

โมเดลที่ใช้เป็นจุดอ้างอิงในการเปรียบเทียบประสิทธิภาพของโมเดลอื่น (โดยปกติจะเป็นโมเดลที่ซับซ้อนกว่า) ตัวอย่างเช่น โมเดลการถดถอยโลจิสติกอาจเป็นพื้นฐานที่ดีสำหรับโมเดลแบบลึก

สำหรับปัญหาหนึ่งๆ เกณฑ์พื้นฐานจะช่วยให้นักพัฒนาโมเดลสามารถวัดปริมาณ ประสิทธิภาพขั้นต่ำที่คาดหวังซึ่งโมเดลใหม่ต้องทำให้ได้เพื่อให้โมเดลใหม่ มีประโยชน์

C

ต้นทุน

#Metric

คำพ้องความหมายของการสูญเสีย

ความเป็นธรรมแบบข้อเท็จจริง

#responsible

#Metric

เมตริกความเป็นธรรมที่ตรวจสอบว่าโมเดลการจัดประเภทให้ผลลัพธ์เดียวกันสำหรับบุคคลหนึ่งกับอีกบุคคลหนึ่งซึ่งเหมือนกับบุคคลแรกหรือไม่ ยกเว้นในส่วนของแอตทริบิวต์ที่ละเอียดอ่อนอย่างน้อย 1 รายการ การประเมินโมเดลการจัดประเภทเพื่อความเป็นธรรมแบบข้อเท็จจริง เป็นวิธีหนึ่งในการระบุแหล่งที่มาของความเอนเอียงที่อาจเกิดขึ้นในโมเดล

โปรดดูข้อมูลเพิ่มเติมในแหล่งข้อมูลต่อไปนี้

ความเป็นธรรม: ความเป็นธรรมแบบข้อเท็จจริงที่ขัดแย้ง ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
เมื่อโลกมาบรรจบกัน: การผสานรวมสมมติฐานแบบ Counterfactual ที่แตกต่างกัน ในความเท่าเทียม

ครอสเอนโทรปี

#Metric

การสรุปการสูญเสียบันทึกเป็น ปัญหาการจัดประเภทแบบหลายคลาส Cross-entropy จะวัดความแตกต่างระหว่างการแจกแจงความน่าจะเป็น 2 แบบ ดูเพิ่มเติม perplexity

ฟังก์ชันการกระจายสะสม (CDF)

#Metric

ฟังก์ชันที่กำหนดความถี่ของตัวอย่างที่น้อยกว่าหรือเท่ากับค่าเป้าหมาย ตัวอย่างเช่น พิจารณาการกระจายปกติของค่าต่อเนื่อง CDF บอกคุณว่าตัวอย่างประมาณ 50% ควรน้อยกว่าหรือเท่ากับค่าเฉลี่ย และตัวอย่างประมาณ 84% ควรน้อยกว่าหรือเท่ากับค่าเบี่ยงเบนมาตรฐาน 1 ค่าเหนือค่าเฉลี่ย

D

ความเท่าเทียมทางประชากร

#responsible

#Metric

เมตริกความเป็นธรรมที่ตรงตามเงื่อนไขต่อไปนี้ ผลลัพธ์ของการจัดประเภทของโมเดลไม่ขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อนที่กำหนด

ตัวอย่างเช่น หากทั้งชาวลิลิพุตและชาวโบรบดิงแนกสมัครเข้าเรียนที่มหาวิทยาลัยกลับบ์ดับดริบ ความเท่าเทียมกันทางประชากรจะเกิดขึ้นหากเปอร์เซ็นต์ของชาวลิลิพุตที่ได้รับการตอบรับเท่ากับเปอร์เซ็นต์ของชาวโบรบดิงแนกที่ได้รับการตอบรับ ไม่ว่ากลุ่มใดกลุ่มหนึ่งจะมีคุณสมบัติมากกว่าอีกกลุ่มหนึ่งโดยเฉลี่ยหรือไม่ก็ตาม

แตกต่างจากโอกาสที่เท่าเทียมกันและความเท่าเทียมกันของโอกาส ซึ่งอนุญาตให้ผลการจัดประเภทโดยรวมขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อน แต่ไม่อนุญาตให้ผลการจัดประเภทสำหรับป้ายกำกับความจริงพื้นฐานที่ระบุบางอย่างขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อน ดูภาพ ที่อธิบายถึงการแลกเปลี่ยนเมื่อเพิ่มประสิทธิภาพเพื่อความเท่าเทียมกันทางประชากรศาสตร์ได้ใน"การต่อสู้กับการเลือกปฏิบัติด้วยแมชชีนเลิร์นนิงที่ชาญฉลาดยิ่งขึ้น"

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ความเท่าเทียมกันทางประชากร ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

E

ระยะทางของเครื่องเคลื่อนย้ายดิน (EMD)

#Metric

การวัดความคล้ายคลึงกันของการกระจาย 2 รายการ ยิ่งระยะทางของ Earth Mover ต่ำเท่าใด การกระจายก็จะยิ่งคล้ายกันมากขึ้นเท่านั้น

ระยะทางแก้ไข

#Metric

การวัดว่าสตริงข้อความ 2 รายการมีความคล้ายกันมากน้อยเพียงใด ในแมชชีนเลิร์นนิง ระยะทางในการแก้ไขมีประโยชน์ด้วยเหตุผลต่อไปนี้

การคำนวณระยะทางเอดิตทำได้ง่าย
ระยะทางเอดิทสามารถเปรียบเทียบสตริง 2 รายการที่ทราบว่าคล้ายกัน
ระยะทางในการแก้ไขจะกำหนดระดับที่สตริงต่างๆ คล้ายกับสตริงที่กำหนด

มีคำจำกัดความหลายอย่างของระยะทางในการแก้ไข โดยแต่ละคำจำกัดความจะใช้การดำเนินการกับสตริงที่แตกต่างกัน ดูตัวอย่างได้ที่ระยะทางเลเวนชไตน์

ฟังก์ชันการกระจายสะสมเชิงประจักษ์ (eCDF หรือ EDF)

#Metric

ฟังก์ชันการกระจายสะสม อิงตามการวัดเชิงประจักษ์จากชุดข้อมูลจริง ค่าของฟังก์ชันที่จุดใดก็ตามตามแกน x คือเศษส่วนของการสังเกตในชุดข้อมูลที่น้อยกว่าหรือเท่ากับค่าที่ระบุ

เอนโทรปี

#df

#Metric

ใน ทฤษฎีสารสนเทศ คำอธิบายว่าการกระจายความน่าจะเป็นคาดเดาไม่ได้เพียงใด หรืออาจกล่าวได้ว่าเอนโทรปีคือปริมาณข้อมูลที่ตัวอย่างแต่ละรายการมี การกระจายจะมี เอนโทรปีสูงสุดที่เป็นไปได้เมื่อค่าทั้งหมดของตัวแปรสุ่มมี โอกาสเท่ากัน

เอนโทรปีของชุดที่มีค่าที่เป็นไปได้ 2 ค่าคือ "0" และ "1" (เช่น ป้ายกำกับในปัญหาการแยกประเภทแบบไบนารี) มีสูตรดังนี้

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

ที่ไหน

H คือเอนโทรปี
p คือเศษส่วนของตัวอย่าง "1"
q คือสัดส่วนของตัวอย่าง "0" โปรดทราบว่า q = (1 - p)
log โดยทั่วไปคือ log₂ ในกรณีนี้ หน่วยเอนโทรปี คือบิต

ตัวอย่างเช่น สมมติว่า

ตัวอย่าง 100 รายการมีค่า "1"
ตัวอย่าง 300 รายการมีค่า "0"

ดังนั้นค่าเอนโทรปีจึงเป็น

p = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81 บิตต่อตัวอย่าง

ชุดข้อมูลที่สมดุลอย่างสมบูรณ์ (เช่น "0" 200 รายการและ "1" 200 รายการ) จะมีเอนโทรปี 1.0 บิตต่อตัวอย่าง เมื่อชุดข้อมูลไม่สมดุลมากขึ้น เอนโทรปีจะเข้าใกล้ 0.0

ในแผนผังการตัดสินใจ เอนโทรปีช่วยสร้างการได้ข้อมูลเพื่อช่วยให้ตัวแยกเลือกเงื่อนไข ในระหว่างการเติบโตของแผนผังการตัดสินใจในการจัดประเภท

เปรียบเทียบเอนโทรปีกับ

ความไม่บริสุทธิ์ของ Gini
ฟังก์ชันการสูญเสียเอนโทรปีครอส

โดยมักเรียกเอนโทรปีว่าเอนโทรปีของแชนนอน

ดูข้อมูลเพิ่มเติมได้ที่ตัวแยกที่แน่นอนสำหรับการแยกประเภทแบบไบนารีที่มีฟีเจอร์เชิงตัวเลข ในหลักสูตร Decision Forests

ความเท่าเทียมกันในโอกาส

#responsible

#Metric

เมตริกความเป็นธรรมเพื่อประเมินว่าโมเดล คาดการณ์ผลลัพธ์ที่ต้องการได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่ละเอียดอ่อนหรือไม่ กล่าวอีกนัยหนึ่งคือ หากคลาสที่เป็นบวกคือผลลัพธ์ที่ต้องการสำหรับโมเดล เป้าหมายคือการทำให้อัตราผลบวกจริงเท่ากันสำหรับทุกกลุ่ม

ความเท่าเทียมกันของโอกาสเกี่ยวข้องกับอัตราส่วนที่เท่ากัน ซึ่งกำหนดให้ทั้งอัตราผลบวกจริงและ อัตราผลบวกลวงต้องเท่ากันสำหรับทุกกลุ่ม

สมมติว่ามหาวิทยาลัยกลับดับดริบรับทั้งชาวลิลิปุตและชาวบรอบดิงแนก เข้าโปรแกรมคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมของชาวลิลิพุตมี หลักสูตรที่แข็งแกร่งสำหรับชั้นเรียนคณิตศาสตร์ และนักเรียนส่วนใหญ่ มีคุณสมบัติเหมาะสมสำหรับโปรแกรมมหาวิทยาลัย โรงเรียนมัธยมศึกษาของชาวบร็อบดิงแน็กไม่มี ชั้นเรียนคณิตศาสตร์เลย และด้วยเหตุนี้ นักเรียนของพวกเขาจึงมี คุณสมบัติน้อยกว่ามาก โอกาสที่เท่าเทียมกันจะเกิดขึ้นสำหรับป้ายกำกับที่ต้องการ "รับเข้า" ในเรื่องสัญชาติ (ลิลิพุตหรือบร็อบดิงแนก) หากนักเรียนที่มีคุณสมบัติเหมาะสมมีโอกาสเท่ากันที่จะได้รับการรับเข้า ไม่ว่าจะเป็นชาวลิลิพุตหรือชาวบร็อบดิงแนก

ตัวอย่างเช่น สมมติว่ามีชาวลิลิพุต 100 คนและชาวโบรบดิงแนก 100 คนสมัครเข้าเรียนที่ มหาวิทยาลัยกลับบ์ดับดริบ และการตัดสินใจรับเข้าเรียนมีดังนี้

ตารางที่ 1 ผู้สมัครจากลิลิพุต (90% มีคุณสมบัติ)

	เข้าเกณฑ์	คุณสมบัติไม่ครบ
ยอมรับ	45	3
ถูกปฏิเสธ	45	7
รวม	90	10
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติเหมาะสมที่ได้รับการตอบรับ: 45/90 = 50% เปอร์เซ็นต์ของนักเรียนที่ไม่มีคุณสมบัติเหมาะสมที่ถูกปฏิเสธ: 7/10 = 70% เปอร์เซ็นต์รวมของนักเรียนชาวลิลิพุตที่ได้รับการตอบรับ: (45+3)/100 = 48%

ตารางที่ 2 ผู้สมัครจาก Brobdingnag (10% มีคุณสมบัติ):

	เข้าเกณฑ์	คุณสมบัติไม่ครบ
ยอมรับ	5	9
ถูกปฏิเสธ	5	81
รวม	10	90
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติเหมาะสมที่ได้รับการตอบรับ: 5/10 = 50% เปอร์เซ็นต์ของนักเรียนที่ไม่มีคุณสมบัติเหมาะสมที่ถูกปฏิเสธ: 81/90 = 90% เปอร์เซ็นต์รวมของนักเรียน Brobdingnagian ที่ได้รับการตอบรับ: (5+9)/100 = 14%

ตัวอย่างข้างต้นเป็นไปตามความเท่าเทียมกันในโอกาสที่จะได้รับการยอมรับ ของนักเรียน/นักศึกษาที่มีคุณสมบัติเหมาะสม เนื่องจากทั้งชาวลิลิพุตและชาวบร็อบดิงแนก มีโอกาส 50% ที่จะได้รับการตอบรับ

แม้ว่าโอกาสจะเท่าเทียมกัน แต่เมตริกความเป็นธรรม 2 รายการต่อไปนี้ ยังไม่เป็นไปตามข้อกำหนด

ความเท่าเทียมกันทางประชากรศาสตร์: ชาวลิลิพุตและชาวบร็อบดิงแนกจะได้รับการตอบรับเข้ามหาวิทยาลัยในอัตราที่แตกต่างกัน โดยนักเรียนชาวลิลิพุตได้รับการตอบรับ 48% แต่นักเรียนชาวบร็อบดิงแนกได้รับการตอบรับเพียง 14%
โอกาสที่เท่าเทียมกัน: แม้ว่านักเรียน/นักศึกษาชาวลิลิพุต และชาวบร็อบดิงแนกที่มีคุณสมบัติเหมาะสมจะมีโอกาสได้รับการตอบรับเท่ากัน แต่ข้อจำกัดเพิ่มเติมที่ว่านักเรียน/นักศึกษาชาวลิลิพุตและ ชาวบร็อบดิงแนกที่ไม่มีคุณสมบัติเหมาะสมจะมีโอกาสถูกปฏิเสธเท่ากันนั้นไม่เป็นจริง ชาวลิลิปุตที่ไม่ผ่านเกณฑ์มีอัตราการปฏิเสธ 70% ส่วนชาวบร็อบดิงแน็กที่ไม่ผ่านเกณฑ์มีอัตราการปฏิเสธ 90%

ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ความเท่าเทียมกันของ โอกาส ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

โอกาสที่เท่ากัน

#responsible

#Metric

เมตริกความเป็นธรรมเพื่อประเมินว่าโมเดลคาดการณ์ผลลัพธ์ได้ดีเท่ากันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่ละเอียดอ่อนหรือไม่ โดยคำนึงถึงทั้งคลาสบวกและคลาสลบ ไม่ใช่แค่คลาสใดคลาสหนึ่งเท่านั้น กล่าวคือ อัตราผลบวกจริง และอัตราผลลบลวงควรเท่ากันสำหรับ ทุกกลุ่ม

โอกาสที่เท่าเทียมกันเกี่ยวข้องกับความเท่าเทียมกันของโอกาส ซึ่งมุ่งเน้นเฉพาะ อัตราข้อผิดพลาดสำหรับคลาสเดียว (บวกหรือลบ)

ตัวอย่างเช่น สมมติว่ามหาวิทยาลัยกลับดับดริบรับทั้งชาวลิลิพุตและชาวบร็อบดิงแนกเข้าเรียนในหลักสูตรคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมของชาวลิลิพุต มีหลักสูตรที่แข็งแกร่งสำหรับชั้นเรียนคณิตศาสตร์ และนักเรียนส่วนใหญ่ มีคุณสมบัติเหมาะสมสำหรับโปรแกรมมหาวิทยาลัย โรงเรียนมัธยมของชาวบร็อบดิงแนกไม่มีชั้นเรียนคณิตศาสตร์เลย และด้วยเหตุนี้ นักเรียนจำนวนน้อยมากจึงมีคุณสมบัติเหมาะสม ความน่าจะเป็นที่เท่ากันจะเกิดขึ้นได้ก็ต่อเมื่อไม่ว่าผู้สมัครจะเป็นชาวลิลิปุตหรือชาวบร็อบดิงแน็ก หากมีคุณสมบัติครบถ้วน ก็มีโอกาสได้รับการยอมรับให้เข้าร่วมโปรแกรมเท่ากัน และหากไม่มีคุณสมบัติครบถ้วน ก็มีโอกาสถูกปฏิเสธเท่ากัน

สมมติว่าชาวลิลิปุต 100 คนและชาวบร็อบดิงแน็ก 100 คนสมัครเข้ามหาวิทยาลัยกลับบ์ดับดริบ และมีการตัดสินใจรับเข้าเรียนดังนี้

ตารางที่ 3 ผู้สมัครจากลิลิพุต (90% มีคุณสมบัติ)

	เข้าเกณฑ์	คุณสมบัติไม่ครบ
ยอมรับ	45	2
ถูกปฏิเสธ	45	8
รวม	90	10
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติผ่านที่ได้รับการตอบรับ: 45/90 = 50% เปอร์เซ็นต์ของนักเรียนที่ไม่มีคุณสมบัติผ่านที่ถูกปฏิเสธ: 8/10 = 80% เปอร์เซ็นต์รวมของนักเรียนชาวลิลิพุตที่ได้รับการตอบรับ: (45+2)/100 = 47%

ตารางที่ 4 ผู้สมัครจาก Brobdingnag (10% มีคุณสมบัติ):

	เข้าเกณฑ์	คุณสมบัติไม่ครบ
ยอมรับ	5	18
ถูกปฏิเสธ	5	72
รวม	10	90
เปอร์เซ็นต์ของนักเรียนที่มีคุณสมบัติเหมาะสมที่ได้รับการตอบรับ: 5/10 = 50% เปอร์เซ็นต์ของนักเรียนที่ไม่มีคุณสมบัติเหมาะสมที่ถูกปฏิเสธ: 72/90 = 80% เปอร์เซ็นต์รวมของนักเรียนจาก Brobdingnag ที่ได้รับการตอบรับ: (5+18)/100 = 23%

โอกาสที่เท่าเทียมกันเป็นไปตามเงื่อนไขเนื่องจากนักเรียนที่มีคุณสมบัติทั้งชาวลิลิพุตและชาวบร็อบดิงแนก มีโอกาส 50% ที่จะได้รับการตอบรับ และชาวลิลิพุต และชาวบร็อบดิงแนกที่ไม่มีคุณสมบัติมีโอกาส 80% ที่จะถูกปฏิเสธ

หมายเหตุ: แม้ว่าที่นี่จะตรงตามเงื่อนไขของโอกาสที่เท่าเทียมกัน แต่ความเท่าเทียมกันทางประชากรไม่ตรงตามเงื่อนไข นักเรียนจากลิลิพุต และโบรบดิงแนกจะได้รับการตอบรับเข้าศึกษาที่มหาวิทยาลัยกลับบ์ดั๊บดริบ ในอัตราที่แตกต่างกัน โดยนักเรียนจากลิลิพุตได้รับการตอบรับ 47% และนักเรียนจาก โบรบดิงแนกได้รับการตอบรับ 23%

ความน่าจะเป็นที่เท่ากันมีการกำหนดอย่างเป็นทางการใน "ความเท่าเทียมของ โอกาสในการเรียนรู้ภายใต้การกำกับดูแล" ดังนี้ "ตัวทำนาย Ŷ มีความน่าจะเป็นที่เท่ากันเมื่อเทียบกับ แอตทริบิวต์ที่ได้รับการคุ้มครอง A และผลลัพธ์ Y หาก Ŷ และ A เป็นอิสระ โดยมีเงื่อนไขเป็น Y"

evals

#generativeAI

#Metric

ส่วนใหญ่ใช้เป็นคำย่อของการประเมิน LLM ในวงกว้าง evals เป็นคำย่อของการประเมินในรูปแบบใดก็ได้

การประเมิน

#generativeAI

#Metric

กระบวนการวัดคุณภาพของโมเดลหรือการเปรียบเทียบโมเดลต่างๆ กับโมเดลอื่นๆ

โดยปกติแล้ว คุณจะประเมินโมเดลแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โดยเปรียบเทียบกับชุดการตรวจสอบ และชุดการทดสอบ การประเมิน LLM โดยทั่วไปจะเกี่ยวข้องกับการประเมินคุณภาพและความปลอดภัยในวงกว้าง

F

F₁

#Metric

เมตริกการจัดประเภทแบบไบนารีแบบ "สรุป" ที่ อิงตามทั้งความแม่นยำและความอ่อนไหว สูตรมีดังนี้

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

คลิกไอคอนเพื่อดูตัวอย่าง

สมมติว่าความแม่นยำและการเรียกคืนมีค่าดังนี้

ความแม่นยำ = 0.6
การเรียกคืน = 0.4

คุณคํานวณ F₁ ได้ดังนี้

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

เมื่อความแม่นยำและความอ่อนไหวค่อนข้างคล้ายกัน (ดังในตัวอย่างก่อนหน้า) F₁ จะใกล้เคียงกับค่าเฉลี่ยของทั้ง 2 ค่า เมื่อความแม่นยำและการเรียกคืนแตกต่างกันอย่างมาก F₁ จะมีค่าใกล้เคียงกับค่าที่ต่ำกว่า เช่น

ความแม่นยำ = 0.9
recall = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

เมตริกความเป็นธรรม

#responsible

#Metric

คำจำกัดความทางคณิตศาสตร์ของ "ความเป็นธรรม" ที่วัดได้ ตัวอย่างเมตริกความเป็นธรรมที่ใช้กันโดยทั่วไปมีดังนี้

โอกาสที่เท่าเทียม
ความเท่าเทียมในการคาดการณ์
ความเป็นธรรมแบบข้อเท็จจริง
ความเท่าเทียมกันของข้อมูลประชากร

เมตริกความเป็นธรรมหลายรายการไม่สามารถใช้ร่วมกันได้ โปรดดูความไม่เข้ากันของเมตริกความเป็นธรรม

ผลลบลวง (FN)

#fundamentals

#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบผิดพลาด เช่น โมเดล คาดการณ์ว่าข้อความอีเมลหนึ่งไม่ใช่จดหมายขยะ (คลาสเชิงลบ) แต่ข้อความอีเมลนั้นเป็นจดหมายขยะจริง

อัตราผลลบลวง

#Metric

สัดส่วนของตัวอย่างที่เป็นบวกจริงซึ่งโมเดลคาดการณ์คลาสเชิงลบผิดพลาด สูตรต่อไปนี้ใช้ในการคำนวณอัตราผลลบลวง

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

ดูข้อมูลเพิ่มเติมได้ที่เกณฑ์และเมทริกซ์ความสับสน ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

ผลบวกลวง (FP)

#fundamentals

#Metric

ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงบวกอย่างไม่ถูกต้อง เช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ (คลาสบวก) แต่ข้อความอีเมลนั้นไม่ใช่จดหมายขยะ

อัตราผลบวกลวง (FPR)

#fundamentals

#Metric

สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลคาดการณ์คลาสเชิงบวกผิดพลาด สูตรต่อไปนี้ใช้ในการคำนวณอัตราผลบวกลวง

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

อัตราผลบวกลวงคือแกน x ในกราฟ ROC

ความสำคัญของฟีเจอร์

#df

#Metric

คำพ้องความหมายของความสำคัญของตัวแปร

โมเดลพื้นฐาน

#generativeAI

#Metric

โมเดลที่ได้รับการฝึกเบื้องต้นขนาดใหญ่มาก ซึ่งได้รับการฝึกจากชุดการฝึกขนาดใหญ่และหลากหลาย โมเดลพื้นฐานสามารถทำทั้ง 2 อย่างต่อไปนี้ได้

ตอบสนองต่อคำขอที่หลากหลายได้ดี
ใช้เป็นโมเดลพื้นฐานสำหรับการปรับแต่งเพิ่มเติมหรือการปรับแต่งอื่นๆ

กล่าวคือ โมเดลพื้นฐานมีความสามารถสูงในแง่ทั่วไปอยู่แล้ว แต่สามารถปรับแต่งเพิ่มเติมให้มีประโยชน์มากยิ่งขึ้นสำหรับงานที่เฉพาะเจาะจงได้

เศษส่วนของความสำเร็จ

#generativeAI

#Metric

เมตริกสําหรับประเมินข้อความที่โมเดล ML สร้างขึ้น เศษส่วนของความสำเร็จคือจำนวนเอาต์พุตข้อความที่สร้างขึ้นซึ่ง "สำเร็จ" หารด้วยจำนวนเอาต์พุตข้อความที่สร้างขึ้นทั้งหมด ตัวอย่างเช่น หากโมเดลภาษาขนาดใหญ่สร้างโค้ด 10 บล็อก และมี 5 บล็อกที่สำเร็จ เศษส่วนของความสำเร็จ จะเป็น 50%

แม้ว่าเศษส่วนของความสำเร็จจะมีประโยชน์อย่างกว้างขวางในสถิติ แต่ใน ML เมตริกนี้มีประโยชน์หลักๆ ในการวัดงานที่ตรวจสอบได้ เช่น การสร้างโค้ดหรือปัญหาทางคณิตศาสตร์

G

ความไม่บริสุทธิ์ของจีนี

#df

#Metric

เมตริกที่คล้ายกับเอนโทรปี ตัวแยก ใช้ค่าที่ได้จากความไม่บริสุทธิ์ของ Gini หรือเอนโทรปีเพื่อสร้าง เงื่อนไขสำหรับการจัดประเภท แผนผังการตัดสินใจ การได้ข้อมูลได้มาจากเอนโทรปี ไม่มีคำที่เทียบเท่าซึ่งเป็นที่ยอมรับกันโดยทั่วไปสำหรับเมตริกที่ได้จากความไม่บริสุทธิ์ของ Gini อย่างไรก็ตาม เมตริกที่ไม่มีชื่อนี้มีความสำคัญไม่แพ้การได้ข้อมูล

ความไม่บริสุทธิ์ของจีนียังเรียกว่าดัชนีจีนี หรือเรียกสั้นๆ ว่าจีนี

คลิกไอคอนเพื่อดูรายละเอียดทางคณิตศาสตร์เกี่ยวกับความไม่บริสุทธิ์ของ Gini

ความไม่บริสุทธิ์ของ Gini คือความน่าจะเป็นของการจัดประเภทข้อมูลใหม่ที่นำมาจากการกระจายเดียวกันอย่างไม่ถูกต้อง ความไม่บริสุทธิ์ของ Gini ของชุดที่มีค่าที่เป็นไปได้ 2 ค่าคือ "0" และ "1" (เช่น ป้ายกำกับในปัญหาการจัดประเภทแบบไบนารี) คำนวณได้จากสูตรต่อไปนี้

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

ที่ไหน

I คือความไม่บริสุทธิ์ของ Gini
p คือเศษส่วนของตัวอย่าง "1"
q คือสัดส่วนของตัวอย่าง "0" โปรดทราบว่า q = 1-p

ตัวอย่างเช่น ลองพิจารณาชุดข้อมูลต่อไปนี้

ป้ายกำกับ 100 รายการ (0.25 ของชุดข้อมูล) มีค่า "1"
ป้ายกำกับ 300 รายการ (0.75 ของชุดข้อมูล) มีค่า "0"

ดังนั้น ความไม่บริสุทธิ์ของ Gini จึงเป็น

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

ดังนั้น ป้ายกำกับแบบสุ่มจากชุดข้อมูลเดียวกันจะมีโอกาส 37.5% ที่จะได้รับการจัดประเภทอย่างไม่ถูกต้อง และมีโอกาส 62.5% ที่จะได้รับการจัดประเภทอย่างถูกต้อง

ป้ายกำกับที่สมดุลอย่างสมบูรณ์ (เช่น "0" 200 รายการและ "1" 200 รายการ) จะมีความไม่บริสุทธิ์ของ Gini เท่ากับ 0.5 ป้ายกำกับที่ไม่สมดุลอย่างมากจะมี ความไม่บริสุทธิ์ของ Gini ใกล้เคียงกับ 0.0

H

การสูญเสียบานพับ

#Metric

ตระกูลฟังก์ชันการสูญเสียสำหรับการจัดประเภทที่ออกแบบมาเพื่อค้นหาขอบเขตการตัดสินใจให้ไกลที่สุดเท่าที่จะเป็นไปได้จากตัวอย่างการฝึกแต่ละรายการ จึงเป็นการเพิ่มระยะขอบระหว่างตัวอย่างกับขอบเขตให้สูงสุด KSVM ใช้การสูญเสียบานพับ (หรือฟังก์ชันที่เกี่ยวข้อง เช่น การสูญเสียบานพับยกกำลังสอง) สําหรับการจัดประเภทแบบไบนารี ฟังก์ชันการสูญเสียแบบบานพับ จะกําหนดดังนี้

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

โดยที่ y คือป้ายกำกับที่แท้จริง ซึ่งอาจเป็น -1 หรือ +1 และ y' คือเอาต์พุตดิบ ของโมเดลการแยกประเภท:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ดังนั้น พล็อตของฟังก์ชันการสูญเสียแบบบานพับเทียบกับ (y * y') จะมีลักษณะดังนี้

พล็อตคาร์ทีเซียนที่ประกอบด้วยส่วนของเส้นตรง 2 ส่วนที่เชื่อมต่อกัน ส่วนของเส้นแรก
เริ่มต้นที่ (-3, 4) และสิ้นสุดที่ (1, 0) ส่วนบรรทัดที่สอง
เริ่มต้นที่ (1, 0) และดำเนินต่อไปเรื่อยๆ โดยมีความชัน
เป็น 0

I

ความไม่เข้ากันของเมตริกความเป็นธรรม

#responsible

#Metric

แนวคิดที่ว่าแนวคิดเรื่องความยุติธรรมบางอย่างใช้ร่วมกันไม่ได้และ ไม่สามารถตอบสนองพร้อมกันได้ ด้วยเหตุนี้ จึงไม่มีเมตริกเดียวที่ใช้ได้ทั่วไป ในการวัดความเป็นธรรม ซึ่งนำไปใช้กับปัญหา ML ทั้งหมดได้

แม้ว่าอาจดูเหมือนว่าการวัดความยุติธรรมไม่สอดคล้องกัน ไม่ได้หมายความว่าความพยายามที่จะสร้างความยุติธรรมนั้นไร้ผล แต่กลับแนะนำว่า ต้องกำหนดความเป็นธรรมตามบริบทสำหรับปัญหา ML ที่กำหนด โดยมี เป้าหมายเพื่อป้องกันอันตรายที่เฉพาะเจาะจงกับ Use Case ของปัญหา

ดูรายละเอียดเพิ่มเติมเกี่ยวกับการไม่สามารถใช้เมตริกความเป็นธรรมร่วมกันได้ที่ "On the (im)possibility of fairness"

ความเป็นธรรมต่อบุคคล

#responsible

#Metric

เมตริกความเป็นธรรมที่ตรวจสอบว่าบุคคลที่คล้ายกันได้รับการจัดประเภท ในลักษณะเดียวกันหรือไม่ ตัวอย่างเช่น Brobdingnagian Academy อาจต้องการสร้างความเท่าเทียมกันในระดับบุคคลโดยการรับประกันว่านักเรียน 2 คนที่มีคะแนนเหมือนกันและคะแนนสอบมาตรฐานมีโอกาสเท่ากันที่จะได้รับการตอบรับ

โปรดทราบว่าความเป็นธรรมในระดับบุคคลขึ้นอยู่กับวิธีที่คุณกำหนด "ความคล้ายคลึง" (ในกรณีนี้คือเกรดและคะแนนสอบ) และคุณอาจเสี่ยงต่อการ ทำให้เกิดปัญหาด้านความเป็นธรรมใหม่ๆ หากเมตริกความคล้ายคลึงพลาดข้อมูลสำคัญ (เช่น ความเข้มงวดของหลักสูตรของนักเรียน)

ดูรายละเอียดเพิ่มเติมเกี่ยวกับการพิจารณาความเป็นธรรมในแต่ละบุคคลได้ที่ "ความเป็นธรรมผ่านการรับรู้"

การได้ข้อมูล

#df

#Metric

ในDecision Forest ความแตกต่างระหว่างเอนโทรปีของโหนดกับผลรวมของเอนโทรปีของโหนดลูกที่ถ่วงน้ำหนัก (ตามจำนวนตัวอย่าง) เอนโทรปีของโหนดคือเอนโทรปี ของตัวอย่างในโหนดนั้น

ตัวอย่างเช่น ลองพิจารณาค่าเอนโทรปีต่อไปนี้

เอนโทรปีของโหนดหลัก = 0.6
เอนโทรปีของโหนดลูกที่มีตัวอย่างที่เกี่ยวข้อง 16 รายการ = 0.2
เอนโทรปีของโหนดย่อยอีกโหนดหนึ่งที่มีตัวอย่างที่เกี่ยวข้อง 24 รายการ = 0.1

ดังนั้น 40% ของตัวอย่างจึงอยู่ในโหนดย่อยหนึ่ง และ 60% อยู่ในโหนดย่อยอีกโหนดหนึ่ง ดังนั้น

ผลรวมของเอนโทรปีแบบถ่วงน้ำหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

ดังนั้น การได้ข้อมูลจึงเป็นดังนี้

การได้ข้อมูล = เอนโทรปีของโหนดแม่ - ผลรวมของเอนโทรปีแบบถ่วงน้ำหนักของโหนดลูก
การได้ข้อมูล = 0.6 - 0.14 = 0.46

ตัวแยกส่วนใหญ่พยายามสร้างเงื่อนไข ที่เพิ่มการรับข้อมูลให้ได้มากที่สุด

ความสอดคล้องระหว่างผู้ประเมิน

#Metric

การวัดความถี่ที่ผู้ให้คะแนนที่เป็นมนุษย์เห็นด้วยเมื่อทำงาน หากผู้ให้คะแนนไม่เห็นด้วย คุณอาจต้องปรับปรุงวิธีการของงาน บางครั้งเรียกว่าความสอดคล้องระหว่างผู้ใส่คำอธิบายประกอบหรือ ความน่าเชื่อถือระหว่างผู้ให้คะแนน ดูค่าแคปปาของโคเฮนด้วย ซึ่งเป็นหนึ่งในการวัดข้อตกลงระหว่างผู้ประเมินที่ได้รับความนิยมมากที่สุด

ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงหมวดหมู่: ปัญหาที่พบบ่อย ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

L

แพ้ ₁ นัด

#fundamentals

#Metric

ฟังก์ชันการสูญเสียที่คำนวณค่าสัมบูรณ์ของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น ต่อไปนี้คือการคำนวณการสูญเสีย L₁ สำหรับกลุ่มของตัวอย่าง 5 รายการ

มูลค่าที่แท้จริงของตัวอย่าง	ค่าที่โมเดลคาดการณ์	ค่าสัมบูรณ์ของเดลต้า
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = การสูญเสีย L₁

การสูญเสีย L₁ มีความไวต่อค่าผิดปกติน้อยกว่าการสูญเสีย L₂

ค่าเฉลี่ยความผิดพลาดสัมบูรณ์คือการสูญเสีย _L1 โดยเฉลี่ยต่อตัวอย่าง

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

where:

$n$ คือจำนวนตัวอย่าง
$y$ คือค่าจริงของป้ายกำกับ
$\hat{y}$ คือค่าที่โมเดลคาดการณ์สำหรับ $y$

ดูข้อมูลเพิ่มเติมได้ที่ การถดถอยเชิงเส้น: การสูญเสีย ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

การสูญเสีย L₂

#fundamentals

#Metric

ฟังก์ชันการสูญเสียที่คำนวณกำลังสอง ของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น ต่อไปนี้คือการคำนวณการสูญเสีย L₂ สำหรับกลุ่มของตัวอย่าง 5 รายการ

มูลค่าที่แท้จริงของตัวอย่าง	ค่าที่โมเดลคาดการณ์	สี่เหลี่ยมของเดลต้า
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ loss

เนื่องจากการยกกำลังสอง การสูญเสีย L₂ จึงขยายอิทธิพลของค่าผิดปกติ กล่าวคือ การสูญเสีย L₂ จะตอบสนองต่อการคาดการณ์ที่ไม่ดีมากกว่าการสูญเสีย L₁ เช่น การสูญเสีย L₁ สำหรับกลุ่มก่อนหน้าจะเป็น 8 แทนที่จะเป็น 16 โปรดสังเกตว่าบัญชีที่ผิดปกติเพียงบัญชีเดียวคิดเป็น 9 จาก 16 รายการ

โมเดลการถดถอยมักใช้ Loss L₂ เป็น Loss Function

ความคลาดเคลื่อนเฉลี่ยกำลังสองคือค่าเฉลี่ยของ การสูญเสีย L₂ ต่อตัวอย่าง ความสูญเสียกำลังสองเป็นอีกชื่อหนึ่งของความสูญเสีย L₂

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

where:

$n$ คือจำนวนตัวอย่าง
$y$ คือค่าจริงของป้ายกำกับ
$\hat{y}$ คือค่าที่โมเดลคาดการณ์สำหรับ $y$

ดูข้อมูลเพิ่มเติมได้ที่การถดถอยโลจิสติก: การสูญเสียและ การทำให้เป็นปกติ ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

การประเมิน LLM (Evals)

#generativeAI

#Metric

ชุดเมตริกและการเปรียบเทียบสำหรับประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) การประเมิน LLM ในระดับสูงมีดังนี้

ช่วยนักวิจัยระบุจุดที่ LLM ต้องปรับปรุง
มีประโยชน์ในการเปรียบเทียบ LLM ต่างๆ และระบุ LLM ที่ดีที่สุดสำหรับงานหนึ่งๆ
ช่วยให้มั่นใจว่า LLM จะปลอดภัยและมีจริยธรรมในการใช้งาน

ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ (LLM) ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง

แพ้

#fundamentals

#Metric

ในระหว่างการฝึกโมเดลภายใต้การควบคุม จะมีการวัดว่าการคาดการณ์ของโมเดลอยู่ห่างจากป้ายกำกับมากน้อยเพียงใด

ฟังก์ชันการสูญเสียจะคำนวณการสูญเสีย

ดูข้อมูลเพิ่มเติมได้ที่ Linear regression: Loss ในหลักสูตรเร่งรัดแมชชีนเลิร์นนิง

ฟังก์ชันการสูญเสีย

#fundamentals

#Metric

ในระหว่างการฝึกหรือการทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่คำนวณ การสูญเสียในกลุ่มตัวอย่าง ฟังก์ชันการสูญเสียจะส่งคืนการสูญเสียที่ต่ำกว่า สำหรับโมเดลที่ทำการคาดการณ์ได้ดีกว่าโมเดลที่ทำการคาดการณ์ ได้ไม่ดี

โดยปกติแล้วเป้าหมายของการฝึกคือการลดการสูญเสียที่ฟังก์ชันการสูญเสีย ส่งคืน

ฟังก์ชันการสูญเสียมีอยู่หลายประเภท เลือกฟังก์ชันการสูญเสียที่เหมาะสม สำหรับโมเดลประเภทที่คุณกำลังสร้าง เช่น

การสูญเสีย _L2 (หรือข้อผิดพลาดกำลังสองเฉลี่ย) คือฟังก์ชันการสูญเสียสำหรับการถดถอยเชิงเส้น
Log Loss คือฟังก์ชันการสูญเสียสำหรับ การถดถอยโลจิสติก

M

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ (MAE)

#Metric

การสูญเสียเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย _L1 คำนวณค่าเฉลี่ยความผิดพลาดสัมบูรณ์ดังนี้

คำนวณการสูญเสีย L₁ สำหรับกลุ่ม
หารการสูญเสีย L₁ ด้วยจำนวนตัวอย่างในกลุ่ม

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

ที่ไหน

$n$ คือจำนวนตัวอย่าง
$y$ คือค่าจริงของป้ายกำกับ
$\hat{y}$ คือค่าที่โมเดลคาดการณ์สำหรับ $y$

ตัวอย่างเช่น ลองพิจารณาการคำนวณการสูญเสีย L₁ ในชุดตัวอย่าง 5 รายการต่อไปนี้

มูลค่าที่แท้จริงของตัวอย่าง	ค่าที่โมเดลคาดการณ์	การสูญเสีย (ความแตกต่างระหว่างค่าจริงกับค่าที่คาดการณ์)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = การสูญเสีย L₁

ดังนั้นการสูญเสีย L₁ คือ 8 และจำนวนตัวอย่างคือ 5 ดังนั้นค่าเฉลี่ยความผิดพลาดสัมบูรณ์จึงเป็นดังนี้

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

เปรียบเทียบค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์กับความคลาดเคลื่อนเฉลี่ยกำลังสองและสแควรูทของความคลาดเคลื่อนกำลังสองเฉลี่ย

ความแม่นยำของค่าเฉลี่ยที่ k (mAP@k)

#generativeAI

#Metric

ค่าเฉลี่ยทางสถิติของคะแนนความแม่นยำเฉลี่ยที่ k ทั้งหมดในชุดข้อมูลการตรวจสอบ การใช้ความแม่นยำเฉลี่ยที่ตำแหน่ง k อย่างหนึ่งคือการประเมิน คุณภาพของคำแนะนำที่สร้างโดยระบบแนะนำ

แม้ว่าวลี "ค่าเฉลี่ย" จะฟังดูซ้ำซ้อน แต่ชื่อของเมตริก ก็เหมาะสมแล้ว เนื่องจากเมตริกนี้จะหาค่าเฉลี่ยของค่าความแม่นยำเฉลี่ยที่ k หลายค่า

คลิกไอคอนเพื่อดูตัวอย่าง

สมมติว่าคุณสร้างระบบคำแนะนำที่สร้างรายการนิยายแนะนำที่ปรับเปลี่ยนในแบบของคุณ สำหรับผู้ใช้แต่ละราย จากความคิดเห็นของผู้ใช้ที่เลือก คุณจะคำนวณคะแนนความแม่นยำเฉลี่ยที่ k ทั้ง 5 รายการต่อไปนี้ (คะแนน 1 รายการต่อผู้ใช้)

0.73
0.77
0.67
0.82
0.76

ดังนั้นความแม่นยำเฉลี่ยที่ K จึงเป็น

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

ความคลาดเคลื่อนเฉลี่ยกำลังสอง (MSE)

#Metric

การสูญเสียเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย _L2 คำนวณความคลาดเคลื่อนเฉลี่ยกำลังสองดังนี้

คำนวณการสูญเสีย L₂ สำหรับกลุ่ม
หารการสูญเสีย L₂ ด้วยจำนวนตัวอย่างในกลุ่ม

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ โดยมีรายละเอียดดังนี้

$n$ คือจำนวนตัวอย่าง
$y$ คือค่าจริงของป้ายกำกับ
$\hat{y}$ คือการคาดการณ์ของโมเดลสำหรับ $y$

ตัวอย่างเช่น ลองพิจารณาการสูญเสียในกลุ่มตัวอย่าง 5 รายการต่อไปนี้

มูลค่าที่แท้จริง	การคาดการณ์ของโมเดล	แพ้	การสูญเสียกำลังสอง
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = L₂ loss

ดังนั้น ความคลาดเคลื่อนเฉลี่ยกำลังสองจึงเป็น

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

ความคลาดเคลื่อนเฉลี่ยกำลังสองเป็นเครื่องมือเพิ่มประสิทธิภาพการฝึกยอดนิยม โดยเฉพาะอย่างยิ่งสำหรับการถดถอยเชิงเส้น

เปรียบเทียบความคลาดเคลื่อนกำลังสองเฉลี่ยกับค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์และค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง

TensorFlow Playground ใช้ข้อผิดพลาดกำลังสองเฉลี่ย เพื่อคำนวณค่าการสูญเสีย

คลิกไอคอนเพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับค่าผิดปกติ

ค่าผิดปกติมีอิทธิพลอย่างมากต่อความคลาดเคลื่อนเฉลี่ยกำลังสอง เช่น การสูญเสีย 1 คือการสูญเสียกำลังสองของ 1 แต่การสูญเสีย 3 คือการสูญเสียกำลังสองของ 9 ในตารางก่อนหน้า ตัวอย่างที่มีการสูญเสีย 3 บัญชีคิดเป็นข้อผิดพลาดกำลังสองเฉลี่ยประมาณ 56% ในขณะที่แต่ละตัวอย่างที่มีการสูญเสีย 1 บัญชีคิดเป็นข้อผิดพลาดกำลังสองเฉลี่ยเพียง 6%

ค่าผิดปกติไม่ส่งผลต่อค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์มากเท่ากับ ความคลาดเคลื่อนเฉลี่ยกำลังสอง เช่น การสูญเสีย 3 บัญชีสำหรับข้อผิดพลาดสัมบูรณ์เฉลี่ยเพียง ~38%

การตัดค่าสุดโต่งเป็นวิธีหนึ่งในการป้องกันไม่ให้ค่าผิดปกติที่มากเกินไปทำลายความสามารถในการคาดการณ์ของโมเดล

เมตริก

#TensorFlow

#Metric

สถิติที่คุณสนใจ

วัตถุประสงค์คือเมตริกที่ระบบแมชชีนเลิร์นนิง พยายามเพิ่มประสิทธิภาพ

Metrics API (tf.metrics)

#Metric

API ของ TensorFlow สำหรับการประเมินโมเดล เช่น tf.metrics.accuracy จะกำหนดความถี่ที่การคาดการณ์ของโมเดลตรงกับป้ายกำกับ

การสูญเสียแบบมินิแม็กซ์

#Metric

ฟังก์ชันการสูญเสียสำหรับGenerative Adversarial Networks โดยอิงตามครอสเอนโทรปีระหว่างการกระจาย ของข้อมูลที่สร้างขึ้นและข้อมูลจริง

การสูญเสียแบบมินิแม็กซ์ใช้ในเอกสารฉบับแรกเพื่ออธิบาย Generative Adversarial Network

ดูข้อมูลเพิ่มเติมได้ที่ฟังก์ชันการสูญเสียใน หลักสูตร Generative Adversarial Networks

ความจุของโมเดล

#Metric

ความซับซ้อนของปัญหาที่โมเดลสามารถเรียนรู้ได้ ยิ่งโมเดลเรียนรู้ปัญหาที่ซับซ้อนได้มากเท่าใด ความสามารถของโมเดลก็จะยิ่งสูงขึ้นเท่านั้น โดยปกติแล้ว ความจุของโมเดลจะเพิ่มขึ้นตามจำนวนพารามิเตอร์ของโมเดล ดูคำจำกัดความอย่างเป็นทางการของความจุโมเดลการจัดประเภทได้ที่มิติข้อมูล VC

N

คลาสที่เป็นลบ

#fundamentals

#Metric

ในการจัดประเภทแบบไบนารี คลาสหนึ่งเรียกว่าบวกและอีกคลาสหนึ่งเรียกว่าลบ คลาสที่เป็นบวกคือ สิ่งหรือเหตุการณ์ที่โมเดลกำลังทดสอบ และคลาสที่เป็นลบคือ ความเป็นไปได้อื่นๆ เช่น

คลาสเชิงลบในการตรวจทางการแพทย์อาจเป็น "ไม่ใช่มะเร็ง"
คลาสเชิงลบในโมเดลการจัดประเภทอีเมลอาจเป็น "ไม่ใช่จดหมายขยะ"

เปรียบเทียบกับคลาสที่เป็นบวก

O

วัตถุประสงค์

#Metric

เมตริกที่อัลกอริทึมพยายามเพิ่มประสิทธิภาพ

ฟังก์ชันเป้าหมาย

#Metric

สูตรทางคณิตศาสตร์หรือเมตริกที่โมเดลต้องการเพิ่มประสิทธิภาพ เช่น ฟังก์ชันเป้าหมายสำหรับการถดถอยเชิงเส้นมักจะเป็นการสูญเสียกำลังสองเฉลี่ย ดังนั้น เมื่อฝึกโมเดลการถดถอยเชิงเส้น การฝึกจึงมุ่งเน้นที่การลดการสูญเสียค่าเฉลี่ยกำลังสอง

ในบางกรณี เป้าหมายคือการเพิ่มฟังก์ชันออบเจ็กทีฟให้ได้สูงสุด เช่น หากฟังก์ชันออบเจ็กทีฟคือความแม่นยำ เป้าหมายคือ การเพิ่มความแม่นยำสูงสุด

ดูการสูญเสียด้วย

P

pass at k (pass@k)

#Metric

เมตริกที่ใช้กำหนดคุณภาพของโค้ด (เช่น Python) ที่โมเดลภาษาขนาดใหญ่สร้างขึ้น กล่าวอย่างเจาะจงคือ การส่งผ่านที่ k จะบอกความน่าจะเป็นที่โค้ดอย่างน้อย 1 บล็อกจากโค้ด k บล็อกที่สร้างขึ้นจะผ่านการทดสอบหน่วยทั้งหมด

โมเดลภาษาขนาดใหญ่มักประสบปัญหาในการสร้างโค้ดที่ดีสำหรับปัญหาการเขียนโปรแกรมที่ซับซ้อน วิศวกรซอฟต์แวร์ปรับตัวให้เข้ากับปัญหานี้โดย การแจ้งโมเดลภาษาขนาดใหญ่ให้สร้างโซลูชันหลายรายการ (k) สำหรับปัญหาเดียวกัน จากนั้นวิศวกรซอฟต์แวร์จะทดสอบโซลูชันแต่ละรายการ กับการทดสอบหน่วย การคำนวณการผ่านที่ k จะขึ้นอยู่กับผลลัพธ์ ของการทดสอบหน่วย

หากโซลูชันอย่างน้อย 1 รายการผ่านการทดสอบหน่วย แสดงว่า LLM ผ่านความท้าทายในการสร้างโค้ดนั้น
หากไม่มีโซลูชันใดผ่านการทดสอบหน่วย LLM จะไม่ผ่านความท้าทายในการสร้างโค้ดนั้น

สูตรสำหรับพาสที่ k มีดังนี้

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

โดยทั่วไปแล้ว ค่า k ที่สูงขึ้นจะทำให้ได้คะแนนผ่านที่สูงขึ้นที่ k อย่างไรก็ตาม ค่า k ที่สูงขึ้นต้องใช้โมเดลภาษาขนาดใหญ่และการทดสอบหน่วย มากขึ้น

คลิกไอคอนเพื่อดูตัวอย่าง

สมมติว่าวิศวกรซอฟต์แวร์ขอให้โมเดลภาษาขนาดใหญ่สร้างโซลูชัน k=10 รายการสำหรับปัญหาการเขียนโค้ดที่ท้าทาย n=50 รายการ ผลลัพธ์ที่ได้มีดังนี้

บัตร 30 ใบ
20 Fails

ดังนั้นคะแนนที่ตำแหน่ง 10 จึงเป็น

$$\text{pass at 10} = \frac{\text{30}} {\text{50}} = 0.6$$

การแสดง

#Metric

คำที่มีความหมายหลายอย่างต่อไปนี้

ความหมายมาตรฐานในวิศวกรรมซอฟต์แวร์ กล่าวคือ ซอฟต์แวร์นี้ทำงานได้เร็ว (หรือมีประสิทธิภาพ) เพียงใด
ความหมายในแมชชีนเลิร์นนิง ในที่นี้ ประสิทธิภาพจะตอบคำถามต่อไปนี้ โมเดลนี้ถูกต้องเพียงใด กล่าวคือ การคาดการณ์ของโมเดลดีเพียงใด

ความสําคัญของตัวแปรการเรียงสับเปลี่ยน

#df

#Metric

ประเภทความสําคัญของตัวแปรที่ประเมิน การเพิ่มขึ้นของข้อผิดพลาดในการคาดการณ์ของโมเดลหลังจากสลับค่าของฟีเจอร์ ความสําคัญของตัวแปรการสับเปลี่ยนเป็นเมตริกที่ไม่ขึ้นอยู่กับโมเดล

ความงุนงง

#Metric

มาตรวัดหนึ่งที่ใช้ประเมินว่าโมเดลทํางานได้ดีเพียงใด เช่น สมมติว่างานของคุณคือการอ่านตัวอักษร 2-3 ตัวแรกของคำ ที่ผู้ใช้พิมพ์บนแป้นพิมพ์โทรศัพท์ และแสดงรายการคำที่เป็นไปได้ เพื่อเติมคำให้สมบูรณ์ ค่าความซับซ้อน P สำหรับงานนี้คือจำนวนคำที่ต้องเดาโดยประมาณเพื่อให้รายการของคุณมีคำจริงที่ผู้ใช้พยายามพิมพ์

Perplexity เกี่ยวข้องกับCross-Entropy ดังนี้

$$P= 2^{-\text{cross entropy}}$$

คลาสที่เป็นบวก

#fundamentals

#Metric

ชั้นเรียนที่คุณกำลังทดสอบ

เช่น คลาสที่เป็นบวกในโมเดลมะเร็งอาจเป็น "เนื้องอก" คลาสที่เป็นบวกในโมเดลการจัดประเภทอีเมล อาจเป็น "จดหมายขยะ"

เปรียบเทียบกับคลาสที่เป็นลบ

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

คำว่าคลาสที่เป็นบวกอาจทำให้เกิดความสับสนเนื่องจากผลลัพธ์ "เชิงบวก" ของการทดสอบหลายอย่างมักเป็นผลลัพธ์ที่ไม่พึงประสงค์ เช่น คลาสที่เป็นบวกในการตรวจทางการแพทย์หลายอย่างสอดคล้องกับเนื้องอกหรือโรค โดยทั่วไป คุณคงอยากให้ แพทย์บอกว่า "ขอแสดงความยินดีด้วย ผลการตรวจหาเชื้อเป็นลบ" ไม่ว่าในกรณีใด คลาสที่เป็นบวกคือเหตุการณ์ที่การทดสอบต้องการค้นหา

แน่นอนว่าคุณกำลังทดสอบทั้งคลาสเชิงบวกและเชิงลบพร้อมกัน

PR AUC (พื้นที่ใต้กราฟ PR)

#Metric

พื้นที่ใต้กราฟ Precision-Recall ที่ประมาณค่าระหว่างจุด (ความอ่อนไหว ความแม่นยำ) สำหรับค่าต่างๆ ของเกณฑ์การจัดประเภท

ความแม่นยำ

#fundamentals

#Metric

เมตริกสําหรับโมเดลการจัดประเภทที่ตอบคําถามต่อไปนี้

เมื่อโมเดลคาดการณ์คลาสเชิงบวก การคาดการณ์กี่เปอร์เซ็นต์ที่ถูกต้อง

สูตรมีดังนี้

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

ที่ไหน

ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้อย่างถูกต้อง
ผลบวกลวงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกอย่างไม่ถูกต้อง

เช่น สมมติว่าโมเดลทำการคาดการณ์เชิงบวก 200 รายการ จากการคาดการณ์ที่เป็นบวก 200 รายการ

150 รายการเป็นผลบวกจริง
50 รายการเป็นการตรวจจับที่ผิดพลาด

ในกรณีนี้

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

เปรียบเทียบกับความแม่นยำและความอ่อนไหว

ความแม่นยำที่ k (precision@k)

#Metric

เมตริกสําหรับการประเมินรายการที่จัดอันดับ (เรียงลําดับ) ความแม่นยำที่ k ระบุเศษส่วนของรายการแรก k ในรายการนั้น ซึ่ง "เกี่ยวข้อง" โดยการ

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

ค่าของ k ต้องน้อยกว่าหรือเท่ากับความยาวของรายการที่แสดง โปรดทราบว่าความยาวของรายการที่แสดงจะไม่รวมอยู่ในการคำนวณ

ความเกี่ยวข้องมักเป็นเรื่องส่วนบุคคล แม้แต่ผู้ประเมินที่เป็นมนุษย์ซึ่งเป็นผู้เชี่ยวชาญก็มักไม่เห็นด้วยว่ารายการใดเกี่ยวข้อง

เปรียบเทียบกับ:

ความแม่นยำเฉลี่ยที่ k
ความแม่นยำของค่าเฉลี่ยที่ k

คลิกไอคอนเพื่อดูตัวอย่าง

สมมติว่าโมเดลภาษาขนาดใหญ่ ได้รับคำค้นหาต่อไปนี้

List the 6 funniest movies of all time in order.

และโมเดลภาษาขนาดใหญ่จะแสดงรายการที่แสดงใน 2 คอลัมน์แรกของตารางต่อไปนี้

ตำแหน่ง	ภาพยนตร์	เกี่ยวข้องไหม
1	The General	ใช่
2	Mean Girls	ใช่
3	Platoon	ไม่
4	Bridesmaids	ใช่
5	พลเมืองคาน	ไม่
6	This is Spinal Tap	ใช่

ภาพยนตร์ 2 เรื่องจาก 3 เรื่องแรกมีความเกี่ยวข้อง ดังนั้นความแม่นยำที่ 3 จึงเป็นดังนี้

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

ภาพยนตร์ 3 เรื่องจาก 5 เรื่องแรกตลกมาก ดังนั้นความแม่นยำที่ระดับ 5 จึงเป็นดังนี้

$$\text{precision at 5} = \frac{\text{3}} {\text{5}} = 0.6$$

เส้นโค้ง Precision-Recall

#Metric

กราฟของความแม่นยำเทียบกับความอ่อนไหวที่เกณฑ์การจัดประเภทต่างๆ

อคติในการคาดการณ์

#Metric

ค่าที่ระบุว่าค่าเฉลี่ยของการคาดการณ์อยู่ห่างจากค่าเฉลี่ยของป้ายกำกับ ในชุดข้อมูลมากน้อยเพียงใด

อย่าสับสนกับคำว่าอคติในโมเดลแมชชีนเลิร์นนิง หรืออคติในด้านจริยธรรมและความเป็นธรรม

ความเท่าเทียมในการคาดการณ์

#responsible

#Metric

เมตริกความเป็นธรรมที่ตรวจสอบว่าสำหรับโมเดลการแยกประเภทที่กำหนด อัตราความแม่นยำเทียบเท่ากับกลุ่มย่อยที่พิจารณาหรือไม่

ตัวอย่างเช่น โมเดลที่คาดการณ์การตอบรับเข้าวิทยาลัยจะตรงตาม ความเท่าเทียมเชิงคาดการณ์สำหรับสัญชาติ หากอัตราความแม่นยำเท่ากัน สำหรับชาวลิลิปุตและชาวโบรบดิงแนก

บางครั้งเราเรียกความเท่าเทียมในการคาดการณ์ว่าความเท่าเทียมของอัตราการคาดการณ์

ดูรายละเอียดเพิ่มเติมเกี่ยวกับการเท่าเทียมในการคาดการณ์ได้ที่ "คำอธิบายคำจำกัดความของความเป็นธรรม" (ส่วนที่ 3.2.1)

ความเท่าเทียมของราคาเชิงคาดการณ์

#responsible

#Metric

อีกชื่อหนึ่งของความเท่าเทียมเชิงคาดการณ์

ฟังก์ชันความหนาแน่นของความน่าจะเป็น

#Metric

ฟังก์ชันที่ระบุความถี่ของตัวอย่างข้อมูลที่มีค่าใดค่าหนึ่งตรงกัน เมื่อค่าของชุดข้อมูลเป็นตัวเลขทศนิยมแบบต่อเนื่อง การจับคู่ที่ตรงกันทุกประการจะเกิดขึ้นได้ยาก อย่างไรก็ตาม การหาปริพันธ์ของฟังก์ชันความหนาแน่นของความน่าจะเป็นจากค่า x ถึงค่า y จะให้ความถี่ที่คาดหวังของตัวอย่างข้อมูลระหว่าง x และ y

ตัวอย่างเช่น พิจารณาการแจกแจงแบบปกติที่มีค่าเฉลี่ย 200 และ ค่าเบี่ยงเบนมาตรฐาน 30 หากต้องการกำหนดความถี่ที่คาดไว้ของตัวอย่างข้อมูล ที่อยู่ในช่วง 211.4 ถึง 218.7 คุณสามารถรวมความน่าจะเป็น ฟังก์ชันความหนาแน่นสำหรับการแจกแจงแบบปกติจาก 211.4 ถึง 218.7

R

การเรียกคืน

#fundamentals

#Metric

เมตริกสําหรับโมเดลการจัดประเภทที่ตอบคําถามต่อไปนี้

เมื่อความจริงพื้นฐานคือคลาสที่เป็นบวก โมเดลระบุการคาดการณ์เป็นคลาสที่เป็นบวกได้อย่างถูกต้องกี่เปอร์เซ็นต์

สูตรมีดังนี้

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

ที่ไหน

ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้อย่างถูกต้อง
ผลลบลวงหมายความว่าโมเดลคาดการณ์ผิดพลาดว่า คลาสเชิงลบ

เช่น สมมติว่าโมเดลของคุณทำการคาดการณ์ 200 รายการในตัวอย่างที่ความจริงพื้นฐานเป็นคลาสเชิงบวก โดยในการคาดการณ์ 200 รายการนี้

180 รายการเป็นผลบวกจริง
20 รายการเป็นผลลบลวง

ในกรณีนี้

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

คลิกไอคอนเพื่อดูหมายเหตุเกี่ยวกับชุดข้อมูลที่มีความไม่สมดุลของคลาส

Recall มีประโยชน์อย่างยิ่งในการพิจารณาความสามารถในการคาดการณ์ของ โมเดลการจัดประเภทที่คลาสที่เป็นบวกเกิดขึ้นได้ยาก เช่น พิจารณาชุดข้อมูลที่มีความไม่สมดุลของคลาส ซึ่งคลาสที่เป็นบวกสำหรับโรคหนึ่งๆ เกิดขึ้นในผู้ป่วยเพียง 10 ราย จากผู้ป่วย 1 ล้านราย สมมติว่าโมเดลของคุณทำการคาดการณ์ 5 ล้านครั้งซึ่งให้ผลลัพธ์ต่อไปนี้

ผลบวกจริง 30 รายการ
20 ผลลบลวง
ผลลบจริง 4,999,000 รายการ
950 ผลบวกลวง

ดังนั้นการเรียกคืนของโมเดลนี้จึงเป็นดังนี้

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

ในทางตรงกันข้าม ความแม่นยำของโมเดลนี้คือ

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

ความแม่นยำที่สูงนั้นดูน่าประทับใจ แต่จริงๆ แล้วไม่มีความหมาย ความอ่อนไหวเป็นเมตริกที่มีประโยชน์มากกว่าความแม่นยำสำหรับชุดข้อมูลที่ไม่สมดุลของคลาส

ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้อง

ความอ่อนไหวที่ k (recall@k)

#Metric

เมตริกสําหรับประเมินระบบที่แสดงรายการสินค้าที่จัดอันดับ (เรียงลําดับ) การเรียกคืนที่ k ระบุเศษส่วนของรายการที่เกี่ยวข้องในรายการแรก k ในรายการนั้นจากจำนวนรายการที่เกี่ยวข้องทั้งหมดที่แสดงผล

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

คอนทราสต์ที่มีความแม่นยำที่ k

คลิกไอคอนเพื่อดูตัวอย่าง

สมมติว่าโมเดลภาษาขนาดใหญ่ ได้รับคำค้นหาต่อไปนี้

List the 10 funniest movies of all time in order.

และโมเดลภาษาขนาดใหญ่จะแสดงรายการที่แสดงใน 2 คอลัมน์แรก ดังนี้

ตำแหน่ง	ภาพยนตร์	เกี่ยวข้องไหม
1	The General	ใช่
2	Mean Girls	ใช่
3	Platoon	ไม่
4	Bridesmaids	ใช่
5	This is Spinal Tap	ใช่
6	เครื่องบิน!	ใช่
7	Groundhog Day	ใช่
8	Monty Python and the Holy Grail	ใช่
9	Oppenheimer	ไม่
10	ขอเวอร์ให้สะเด็ด	ใช่

ภาพยนตร์ 8 เรื่องในรายการก่อนหน้าตลกมาก จึงถือเป็น "รายการที่เกี่ยวข้องในรายการ" ดังนั้น 8 จึงเป็นตัวหารในการคำนวณการเรียกคืนทั้งหมดที่ k แล้วตัวเศษล่ะ โดย 3 ใน 4 รายการแรกมีความเกี่ยวข้อง ดังนั้นการเรียกคืนที่ 4 จึงเป็นดังนี้

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

ภาพยนตร์ 7 เรื่องจาก 8 เรื่องแรกตลกมาก ดังนั้นการเรียกคืนที่ 8 จึงเป็นดังนี้

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

เส้นโค้ง ROC (Receiver Operating Characteristic)

#fundamentals

#Metric

กราฟของอัตราผลบวกจริงเทียบกับ อัตราผลบวกลวงสำหรับเกณฑ์การจัดประเภทต่างๆ ในการจัดประเภทแบบไบนารี

รูปร่างของเส้นโค้ง ROC แสดงให้เห็นความสามารถของโมเดลการจัดประเภทแบบไบนารี ในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ สมมติว่าโมเดลการจัดประเภทแบบไบนารีแยกคลาสเชิงลบทั้งหมดออกจากคลาสเชิงบวกทั้งหมดได้อย่างสมบูรณ์ ดังนี้

เส้นจำนวนที่มีตัวอย่างบวก 8 รายการทางด้านขวาและ
ตัวอย่างลบ 7 รายการทางด้านซ้าย

เส้นโค้ง ROC สำหรับโมเดลก่อนหน้ามีลักษณะดังนี้

เส้นโค้ง ROC แกน X คืออัตราผลบวกลวง และแกน Y คืออัตราผลบวกจริง เส้นโค้งมีรูปร่างเป็นตัว L กลับด้าน เส้นโค้ง
เริ่มต้นที่ (0.0,0.0) และขึ้นไปที่ (0.0,1.0) โดยตรง จากนั้นเส้นโค้ง
จะเปลี่ยนจาก (0.0,1.0) เป็น (1.0,1.0)

ในทางตรงกันข้าม ภาพประกอบต่อไปนี้แสดงกราฟค่าการถดถอยลอจิสติกแบบดิบ สำหรับโมเดลที่แย่ซึ่งแยกคลาสเชิงลบออกจาก คลาสเชิงบวกไม่ได้เลย

เส้นจำนวนที่มีตัวอย่างที่เป็นบวกและคลาสที่เป็นลบ
ปะปนกันโดยสมบูรณ์

เส้นโค้ง ROC สำหรับโมเดลนี้มีลักษณะดังนี้

เส้นโค้ง ROC ซึ่งจริงๆ แล้วเป็นเส้นตรงจาก (0.0,0.0)
ถึง (1.0,1.0)

ในขณะเดียวกัน ในโลกแห่งความเป็นจริง โมเดลการจัดประเภทแบบไบนารีส่วนใหญ่จะแยก คลาสที่เป็นบวกและลบในระดับหนึ่ง แต่โดยปกติแล้วจะไม่สมบูรณ์แบบ ดังนั้น กราฟ ROC ทั่วไปจะอยู่ระหว่าง 2 สุดขั้วนี้

เส้นโค้ง ROC แกน X คืออัตราผลบวกลวง และแกน Y คืออัตราผลบวกจริง เส้นโค้ง ROC ประมาณค่าส่วนโค้งที่ไม่แน่นอน
ซึ่งตัดผ่านจุดเข็มทิศจากตะวันตกไปเหนือ

จุดบนเส้นโค้ง ROC ที่ใกล้กับ (0.0,1.0) มากที่สุดจะระบุเกณฑ์การแยกประเภทที่เหมาะสมในทางทฤษฎี อย่างไรก็ตาม ปัญหาอื่นๆ ในโลกแห่งความเป็นจริง มีผลต่อการเลือกเกณฑ์การแยกประเภทที่เหมาะสม ตัวอย่างเช่น ผลลบเท็จอาจสร้างความเจ็บปวดมากกว่าผลบวกเท็จ

เมตริกเชิงตัวเลขที่เรียกว่า AUC จะสรุปเส้นโค้ง ROC เป็นค่าทศนิยมค่าเดียว

ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)

#fundamentals

#Metric

รากที่ 2 ของความคลาดเคลื่อนเฉลี่ยกำลังสอง

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#Metric

กลุ่มเมตริกที่ประเมินโมเดลการสรุปอัตโนมัติและการแปลด้วยเครื่อง เมตริก ROUGE จะกำหนดระดับที่ข้อความอ้างอิงซ้อนทับกับข้อความที่สร้างขึ้นของโมเดล ML สมาชิกแต่ละคนในตระกูล ROUGE จะวัดการทับซ้อนกันในวิธีที่แตกต่างกัน คะแนน ROUGE ที่สูงขึ้นแสดงถึง ความคล้ายกันระหว่างข้อความอ้างอิงกับข้อความที่สร้างขึ้นมากกว่าคะแนน ROUGE ที่ต่ำกว่า

โดยปกติแล้ว สมาชิกแต่ละคนในตระกูล ROUGE จะสร้างเมตริกต่อไปนี้

ความแม่นยำ
การจดจำ
F₁

ดูรายละเอียดและตัวอย่างได้ที่

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#Metric

สมาชิกในตระกูล ROUGE ที่เน้นความยาวของลำดับย่อยร่วมกันที่ยาวที่สุด ในข้อความอ้างอิงและข้อความที่สร้างขึ้น สูตรต่อไปนี้ใช้ในการคำนวณการเรียกคืนและความแม่นยำสำหรับ ROUGE-L

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

จากนั้นคุณจะใช้ F₁ เพื่อสรุปการเรียกคืน ROUGE-L และความแม่นยำของ ROUGE-L เป็นเมตริกเดียวได้

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

คลิกไอคอนเพื่อดูตัวอย่างการคำนวณ ROUGE-L

พิจารณาข้อความอ้างอิงและข้อความที่สร้างขึ้นต่อไปนี้

หมวดหมู่	ใครเป็นผู้ผลิต	ข้อความ
ข้อความอ้างอิง	นักแปล	ฉันอยากเข้าใจเรื่องต่างๆ ให้ได้มากที่สุด
ข้อความที่สร้างขึ้น	โมเดล ML	ฉันอยากเรียนรู้หลายๆ อย่าง

ดังนั้น

ลำดับย่อยร่วมกันที่ยาวที่สุดคือ 5 (I want to of things)
ข้อความอ้างอิงมี 9 คำ
จำนวนคำในข้อความที่สร้างขึ้นคือ 7

ดังนั้น

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

ROUGE-L จะไม่สนใจบรรทัดใหม่ในข้อความอ้างอิงและข้อความที่สร้างขึ้น ดังนั้น ลำดับย่อยร่วมที่ยาวที่สุดจึงอาจข้ามหลายประโยคได้ เมื่อข้อความอ้างอิงและข้อความที่สร้างขึ้นมีหลายประโยค โดยทั่วไปแล้ว ROUGE-L รูปแบบหนึ่งที่เรียกว่า ROUGE-Lsum จะเป็นเมตริกที่ดีกว่า ROUGE-Lsum จะกำหนดลำดับย่อยร่วมที่ยาวที่สุดสำหรับประโยค ในข้อความ จากนั้นจะคำนวณค่าเฉลี่ยของลำดับย่อยร่วมที่ยาวที่สุดเหล่านั้น

คลิกไอคอนเพื่อดูตัวอย่างการคำนวณ ROUGE-Lsum

พิจารณาข้อความอ้างอิงและข้อความที่สร้างขึ้นต่อไปนี้

หมวดหมู่	ใครเป็นผู้ผลิต	ข้อความ
ข้อความอ้างอิง	นักแปล	พื้นผิวของดาวอังคารแห้ง น้ำเกือบทั้งหมดอยู่ลึกลงไป ใต้ดิน
ข้อความที่สร้างขึ้น	โมเดล ML	ดาวอังคารมีพื้นผิวที่แห้ง อย่างไรก็ตาม น้ำส่วนใหญ่ อยู่ใต้ดิน

ดังนั้น

	ประโยคแรก	ประโยคที่ 2
ลำดับร่วมที่ยาวที่สุด	2 (Mars dry)	3 (น้ำอยู่ใต้ดิน)
ความยาวประโยคของข้อความอ้างอิง	6	7
ความยาวของประโยคในข้อความที่สร้างขึ้น	5	8

ดังนั้น

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#Metric

ชุดเมตริกภายในตระกูล ROUGE ที่เปรียบเทียบ N-gram ที่แชร์ซึ่งมีขนาดหนึ่งๆ ในข้อความอ้างอิง และข้อความที่สร้างขึ้น เช่น

ROUGE-1 จะวัดจำนวนโทเค็นที่ใช้ร่วมกันในข้อความอ้างอิงและ ข้อความที่สร้างขึ้น
ROUGE-2 วัดจำนวน bigram (2-gram) ที่ใช้ร่วมกัน ในข้อความอ้างอิงและข้อความที่สร้างขึ้น
ROUGE-3 จะวัดจำนวน trigram (3-gram) ที่ใช้ร่วมกัน ในข้อความอ้างอิงและข้อความที่สร้างขึ้น

คุณใช้สูตรต่อไปนี้เพื่อคํานวณการเรียกคืน ROUGE-N และความแม่นยําของ ROUGE-N สําหรับสมาชิกใดก็ได้ในตระกูล ROUGE-N

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

จากนั้นคุณสามารถใช้ F₁ เพื่อสรุปการเรียกคืน ROUGE-N และความแม่นยำของ ROUGE-N เป็นเมตริกเดียวได้โดยทำดังนี้

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

คลิกไอคอนเพื่อดูตัวอย่าง

สมมติว่าคุณตัดสินใจใช้ ROUGE-2 เพื่อวัดประสิทธิภาพการแปลของโมเดล ML เทียบกับนักแปลที่เป็นมนุษย์

หมวดหมู่	ใครเป็นผู้ผลิต	ข้อความ	ไบแกรม
ข้อความอ้างอิง	นักแปล	ฉันอยากเข้าใจเรื่องต่างๆ ให้ได้มากที่สุด	ฉันอยาก อยากจะ เข้าใจ เข้าใจสิ่งต่างๆ ที่หลากหลาย หลากหลาย
ข้อความที่สร้างขึ้น	โมเดล ML	ฉันอยากเรียนรู้หลายๆ อย่าง	ฉันอยาก อยากจะ เรียน เรียนรู้ สิ่งต่างๆ มากมาย

ดังนั้น

จำนวน 2-แกรมที่ตรงกันคือ 3 (I want, want to และ of things)
ข้อความอ้างอิงมี 2-แกรม 8 รายการ
จำนวน 2-แกรมในข้อความที่สร้างขึ้นคือ 6

ดังนั้น

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#Metric

รูปแบบที่ยืดหยุ่นของ ROUGE-N ที่ช่วยให้การจับคู่ skip-gram กล่าวคือ ROUGE-N จะนับเฉพาะ N-gram ที่ตรงกันทุกประการ แต่ ROUGE-S จะนับ N-gram ที่คั่นด้วยคำอย่างน้อย 1 คำด้วย เช่น โปรดคำนึงถึงสิ่งต่อไปนี้

ข้อความอ้างอิง: เมฆสีขาว
ข้อความที่สร้างขึ้น: เมฆสีขาวที่ลอยเป็นปุย

เมื่อคำนวณ ROUGE-N, 2-gram, White clouds จะไม่ตรงกับ White billowing clouds อย่างไรก็ตาม เมื่อคำนวณ ROUGE-S White clouds จะตรงกับ White billowing clouds

R-squared

#Metric

เมตริกการถดถอยที่ระบุความผันแปรในป้ายกำกับที่เกิดจากฟีเจอร์แต่ละรายการหรือชุดฟีเจอร์ R-squared คือค่าระหว่าง 0 ถึง 1 ซึ่งคุณสามารถตีความได้ดังนี้

ค่า R-squared ที่ 0 หมายความว่าความแปรปรวนของป้ายกำกับไม่ได้เกิดจากชุดฟีเจอร์
ค่า R-squared ที่ 1 หมายความว่าความแปรปรวนทั้งหมดของป้ายกำกับเกิดจาก ชุดฟีเจอร์
ค่า R-squared ระหว่าง 0 ถึง 1 แสดงให้เห็นถึงขอบเขตที่สามารถคาดการณ์ความแปรปรวนของป้ายกำกับได้จากฟีเจอร์ใดฟีเจอร์หนึ่งหรือชุดฟีเจอร์ เช่น ค่า R ยกกำลังสองที่ 0.10 หมายความว่าความแปรปรวน 10% ในป้ายกำกับเกิดจากชุดฟีเจอร์ ค่า R ยกกำลังสองที่ 0.20 หมายความว่า 20% เกิดจากชุดฟีเจอร์ และอื่นๆ

ค่า R ยกกำลังสองคือค่ากำลังสองของสัมประสิทธิ์สหสัมพันธ์ของ Pearson ระหว่างค่าที่โมเดลคาดการณ์ไว้กับข้อมูลจากการสังเกตการณ์โดยตรง

S

การให้คะแนน

#Metric

ส่วนของระบบการแนะนำที่ให้ค่าหรือการจัดอันดับสำหรับแต่ละรายการที่สร้างขึ้นในระยะการสร้างแคนดิเดต

การวัดความคล้ายคลึง

#clustering

#Metric

ในอัลกอริทึมการจัดกลุ่ม เมตริกที่ใช้ในการพิจารณา ความเหมือน (ความคล้ายคลึง) ของตัวอย่าง 2 รายการ

การขาดแคลนข้อมูล

#Metric

จำนวนองค์ประกอบที่ตั้งค่าเป็น 0 (หรือ Null) ในเวกเตอร์หรือเมทริกซ์หารด้วยจำนวนรายการทั้งหมดในเวกเตอร์หรือเมทริกซ์นั้น ตัวอย่างเช่น ลองพิจารณาเมทริกซ์ที่มี 100 องค์ประกอบซึ่งมีเซลล์ 98 เซลล์ที่มีค่าเป็น 0 การคำนวณความกระจัดกระจาย มีดังนี้

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

ความกระจัดกระจายของฟีเจอร์หมายถึงความกระจัดกระจายของเวกเตอร์ฟีเจอร์ ความกระจัดกระจายของโมเดลหมายถึงความกระจัดกระจายของน้ำหนักโมเดล

การสูญเสียบานพับกำลังสอง

#Metric

กำลังสองของการสูญเสียแบบบานพับ การสูญเสียฮิงจ์กำลังสองจะลงโทษค่าผิดปกติ อย่างรุนแรงกว่าการสูญเสียฮิงจ์ปกติ

การสูญเสียกำลังสอง

#fundamentals

#Metric

คำพ้องความหมายของL₂ loss

T

การสูญเสียการทดสอบ

#fundamentals

#Metric

เมตริกที่แสดงถึงการสูญเสียของโมเดลเทียบกับ ชุดทดสอบ เมื่อสร้างโมเดล คุณ มักจะพยายามลดการสูญเสียในการทดสอบ เนื่องจากค่าการสูญเสียในการทดสอบที่ต่ำเป็นสัญญาณคุณภาพที่แข็งแกร่งกว่าการสูญเสียในการฝึกหรือการสูญเสียในการตรวจสอบที่ต่ำ

ช่องว่างขนาดใหญ่ระหว่างการสูญเสียในการทดสอบกับการสูญเสียในการฝึกหรือการสูญเสียในการตรวจสอบบางครั้ง บ่งชี้ว่าคุณต้องเพิ่มอัตราการทำให้เป็นปกติ

ความแม่นยำสูงสุด k

#Metric

เปอร์เซ็นต์ของจำนวนครั้งที่ "ป้ายกำกับเป้าหมาย" ปรากฏภายในตำแหน่งแรก k ของรายการที่สร้างขึ้น รายการอาจเป็นคำแนะนำที่ปรับเปลี่ยนในแบบของคุณ หรือรายการสินค้าที่จัดเรียงตาม softmax

ความแม่นยำสูงสุด k เรียกอีกอย่างว่าความแม่นยำที่ k

คลิกไอคอนเพื่อดูตัวอย่าง

ลองพิจารณาระบบแมชชีนเลิร์นนิงที่ใช้ Softmax เพื่อระบุความน่าจะเป็นของต้นไม้ตามรูปภาพของใบไม้ ตารางต่อไปนี้แสดง รายการเอาต์พุตที่สร้างจากรูปภาพต้นไม้ 5 รูป แต่ละแถวจะมีป้ายกำกับเป้าหมาย และต้นไม้ 5 ต้นที่มีแนวโน้มมากที่สุด ตัวอย่างเช่น เมื่อป้ายกำกับเป้าหมายคือ เมเปิล โมเดลแมชชีนเลิร์นนิงระบุว่าเอล์มเป็นต้นไม้ที่มีแนวโน้มมากที่สุด โอ๊กเป็นต้นไม้ที่มีแนวโน้มมากเป็นอันดับ 2 และอื่นๆ

ป้ายกำกับเป้าหมาย	1	2	3	4	5
เมเปิล	เอล์ม	โอ๊ก	maple	บีช	พอปลาร์
ด็อกวู้ด	โอ๊ก	dogwood	พอปลาร์	Hickory	เมเปิล
โอ๊ก	oak	บาสวูด	ตั๊กแตน	เอลเดอร์	Linden
Linden	เมเปิล	มะละกอ	โอ๊ก	บาสวูด	พอปลาร์
โอ๊ก	ตั๊กแตน	Linden	oak	เมเปิล	มะละกอ

ป้ายกำกับเป้าหมายจะปรากฏในตำแหน่งแรกเพียงครั้งเดียว ดังนั้น ความแม่นยำของ Top-1 คือ

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

ป้ายกำกับเป้าหมายปรากฏในตำแหน่ง 3 อันดับแรก 4 ครั้ง ดังนั้นความแม่นยำของ 3 อันดับแรกจึงเป็นดังนี้

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

ความเชื่อผิดๆ

#Metric

ระดับของเนื้อหาที่เป็นการละเมิด ข่มขู่ หรือไม่เหมาะสม โมเดลแมชชีน เลิร์นนิงจำนวนมากสามารถระบุและวัดความเป็นพิษได้ โมเดลส่วนใหญ่ระบุ ความเป็นพิษตามพารามิเตอร์หลายอย่าง เช่น ระดับของภาษาที่ละเมิดและ ระดับของภาษาที่คุกคาม

การลดลงของการฝึก

#fundamentals

#Metric

เมตริกที่แสดงการสูญเสียของโมเดลระหว่างการฝึก ในรอบการฝึกที่เฉพาะเจาะจง เช่น สมมติว่าฟังก์ชันการสูญเสีย คือความคลาดเคลื่อนกำลังสองเฉลี่ย เช่น การสูญเสียการฝึก (ข้อผิดพลาดกำลังสองเฉลี่ย) สำหรับการทำซ้ำครั้งที่ 10 คือ 2.2 และการสูญเสียการฝึกสำหรับการทำซ้ำครั้งที่ 100 คือ 1.9

เส้นโค้งการสูญเสียจะพล็อตการสูญเสียการฝึกเทียบกับจำนวน การทำซ้ำ เส้นโค้งการสูญเสียจะให้คำแนะนำต่อไปนี้เกี่ยวกับการฝึก

เส้นโค้งที่ลาดลงหมายความว่าโมเดลกำลังปรับปรุง
ความชันที่เพิ่มขึ้นหมายความว่าโมเดลแย่ลง
ความชันที่แบนราบแสดงให้เห็นว่าโมเดลถึงการบรรจบกันแล้ว

ตัวอย่างเช่น เส้นโค้งการสูญเสีย ต่อไปนี้แสดงให้เห็นว่า

ความชันที่ลดลงอย่างรวดเร็วในระหว่างการทำซ้ำครั้งแรก ซึ่งหมายถึงการปรับปรุงโมเดลอย่างรวดเร็ว
ความชันที่ค่อยๆ แบนราบ (แต่ยังคงลดลง) จนกระทั่งใกล้สิ้นสุด การฝึก ซึ่งหมายถึงการปรับปรุงโมเดลอย่างต่อเนื่องในอัตราที่ช้าลงเล็กน้อย กว่าในช่วงการทำซ้ำครั้งแรก
ความชันที่ราบเรียบในช่วงท้ายของการฝึก ซึ่งบ่งบอกถึงการบรรจบกัน

พล็อตของการลดลงของการฝึกเทียบกับการทำซ้ำ เส้นโค้งการสูญเสียนี้เริ่มต้น
ด้วยความชันที่ลดลงอย่างรวดเร็ว ความชันจะค่อยๆ แบนราบจนกว่า
ความชันจะเป็น 0

แม้ว่าการสูญเสียจากการฝึกจะมีความสําคัญ แต่โปรดดูการวางนัยทั่วไปด้วย

ผลลบจริง (TN)

#fundamentals

#Metric

ตัวอย่างที่โมเดลคาดการณ์อย่างถูกต้อง คลาสเชิงลบ ตัวอย่างเช่น โมเดลอนุมานว่า ข้อความอีเมลหนึ่งไม่ใช่จดหมายขยะ และข้อความอีเมลนั้นไม่ใช่จดหมายขยะจริงๆ

ผลบวกจริง (TP)

#fundamentals

#Metric

ตัวอย่างที่โมเดลคาดการณ์อย่างถูกต้องว่า คลาสที่เป็นบวก เช่น โมเดลอนุมานว่า ข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ และข้อความอีเมลนั้นเป็นจดหมายขยะจริงๆ

อัตราผลบวกจริง (TPR)

#fundamentals

#Metric

คำพ้องความหมายของการเรียกคืน โดยการ

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

อัตราผลบวกจริงคือแกน y ในกราฟ ROC

V

การสูญเสียการตรวจสอบ

#fundamentals

#Metric

เมตริกที่แสดงการสูญเสียของโมเดลในชุดข้อมูลการตรวจสอบระหว่างการวนซ้ำของการฝึก

ดูเส้นโค้งการสรุปด้วย

ความสําคัญของตัวแปร

#df

#Metric

ชุดคะแนนที่บ่งบอกถึงความสำคัญที่สัมพันธ์กันของแต่ละฟีเจอร์ต่อโมเดล

ตัวอย่างเช่น ลองพิจารณาแผนผังการตัดสินใจที่ ประมาณราคาบ้าน สมมติว่าแผนผังการตัดสินใจนี้ใช้ฟีเจอร์ 3 อย่าง ได้แก่ ขนาด อายุ และสไตล์ หากระบบคำนวณชุดความสำคัญของตัวแปร สำหรับฟีเจอร์ทั้ง 3 รายการได้เป็น {size=5.8, age=2.5, style=4.7} แสดงว่าขนาดมีความสำคัญต่อ Decision Tree มากกว่าอายุหรือสไตล์

มีเมตริกความสําคัญของตัวแปรที่แตกต่างกัน ซึ่งจะช่วยให้ผู้เชี่ยวชาญด้าน ML ทราบถึงแง่มุมต่างๆ ของโมเดล

W

การสูญเสีย Wasserstein

#Metric

ฟังก์ชันการสูญเสียอย่างหนึ่งที่ใช้กันทั่วไปในGenerative Adversarial Networks โดยอิงตามระยะทางของ Earth Mover ระหว่าง การกระจายข้อมูลที่สร้างขึ้นและข้อมูลจริง

A

ความแม่นยำ

คลิกไอคอนเพื่อดูรายละเอียดเกี่ยวกับความแม่นยำและชุดข้อมูลที่มีความไม่สมดุลของคลาส

พื้นที่ใต้กราฟ PR

พื้นที่ใต้กราฟ ROC

AUC (พื้นที่ใต้กราฟ ROC)

คลิกไอคอนเพื่อดูข้อมูลเกี่ยวกับความสัมพันธ์ระหว่าง AUC กับเส้นโค้ง ROC

คลิกไอคอนเพื่อดูคำจำกัดความของ AUC ที่เป็นทางการมากขึ้น

ความแม่นยำเฉลี่ยที่ k

คลิกไอคอนเพื่อดูตัวอย่าง

B

พื้นฐาน

C

ต้นทุน

ความเป็นธรรมแบบข้อเท็จจริง

ครอสเอนโทรปี

ฟังก์ชันการกระจายสะสม (CDF)

D

ความเท่าเทียมทางประชากร

E

ระยะทางของเครื่องเคลื่อนย้ายดิน (EMD)

ระยะทางแก้ไข

ฟังก์ชันการกระจายสะสมเชิงประจักษ์ (eCDF หรือ EDF)

เอนโทรปี

ความเท่าเทียมกันในโอกาส

โอกาสที่เท่ากัน

evals

การประเมิน

F

F1

คลิกไอคอนเพื่อดูตัวอย่าง

เมตริกความเป็นธรรม

ผลลบลวง (FN)

อัตราผลลบลวง

ผลบวกลวง (FP)

อัตราผลบวกลวง (FPR)

ความสำคัญของฟีเจอร์

โมเดลพื้นฐาน

เศษส่วนของความสำเร็จ

G

ความไม่บริสุทธิ์ของจีนี

คลิกไอคอนเพื่อดูรายละเอียดทางคณิตศาสตร์เกี่ยวกับความไม่บริสุทธิ์ของ Gini

H

การสูญเสียบานพับ

I

ความไม่เข้ากันของเมตริกความเป็นธรรม

ความเป็นธรรมต่อบุคคล

การได้ข้อมูล

ความสอดคล้องระหว่างผู้ประเมิน

L

แพ้ 1 นัด

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

การสูญเสีย L2

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

การประเมิน LLM (Evals)

แพ้

ฟังก์ชันการสูญเสีย

M

ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ (MAE)

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

ความแม่นยำของค่าเฉลี่ยที่ k (mAP@k)

คลิกไอคอนเพื่อดูตัวอย่าง

ความคลาดเคลื่อนเฉลี่ยกำลังสอง (MSE)

คลิกไอคอนเพื่อดูคณิตศาสตร์อย่างเป็นทางการ

คลิกไอคอนเพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับค่าผิดปกติ

เมตริก

Metrics API (tf.metrics)

การสูญเสียแบบมินิแม็กซ์

ความจุของโมเดล

N

คลาสที่เป็นลบ

O

วัตถุประสงค์

ฟังก์ชันเป้าหมาย

P

pass at k (pass@k)

คลิกไอคอนเพื่อดูตัวอย่าง

การแสดง

ความสําคัญของตัวแปรการเรียงสับเปลี่ยน

ความงุนงง

F₁

แพ้ ₁ นัด

การสูญเสีย L₂