หน้านี้มีคําศัพท์ในอภิธานศัพท์เกี่ยวกับเมตริก ดูคำศัพท์ทั้งหมดในอภิธานศัพท์ได้โดยการคลิกที่นี่
A
ความแม่นยำ
จํานวนการคาดการณ์การจัดประเภทที่ถูกต้องหารด้วยจํานวนการคาดการณ์ทั้งหมด โดยการ
ตัวอย่างเช่น โมเดลที่ทําการคาดการณ์ที่ถูกต้อง 40 ครั้งและการคาดการณ์ที่ไม่ถูกต้อง 10 ครั้งจะมีความแม่นยําเท่ากับ
การจัดประเภทแบบไบนารีจะตั้งชื่อเฉพาะสำหรับการคาดการณ์ที่ถูกต้องและการคาดการณ์ที่ไม่ถูกต้องในหมวดหมู่ต่างๆ ดังนั้น สูตรความแม่นยำสำหรับการจัดประเภทแบบไบนารีจึงมีดังนี้
where:
- TP คือจํานวนผลบวกจริง (การคาดการณ์ที่ถูกต้อง)
- TN คือจํานวนผลลบจริง (การคาดการณ์ที่ถูกต้อง)
- FP คือจํานวนผลบวกลวง (การคาดการณ์ที่ไม่ถูกต้อง)
- FN คือจํานวนผลลบเท็จ (การคาดการณ์ที่ไม่ถูกต้อง)
เปรียบเทียบความถูกต้องกับความแม่นยำและความแม่นยำในการจดจำ
คลิกไอคอนเพื่อดูรายละเอียดเกี่ยวกับความแม่นยำและชุดข้อมูลที่มีจำนวนของคลาสไม่สมดุล
ดูข้อมูลเพิ่มเติมได้ในการจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้องในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
พื้นที่ใต้กราฟ PR
พื้นที่ใต้เส้นโค้ง ROC
AUC (พื้นที่ใต้เส้นโค้ง ROC)
ตัวเลขระหว่าง 0.0 ถึง 1.0 ที่แสดงถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ ยิ่ง AUC ใกล้เคียงกับ 1.0 มากเท่าใด ความสามารถในการแยกคลาสออกจากกันของโมเดลก็จะยิ่งดีขึ้นเท่านั้น
ตัวอย่างเช่น ภาพต่อไปนี้แสดงโมเดลการจัดประเภทที่แยกคลาสที่เป็นบวก (รูปไข่สีเขียว) ออกจากคลาสที่เป็นลบ (สี่เหลี่ยมผืนผ้าสีม่วง) อย่างสมบูรณ์ โมเดลที่สมบูรณ์แบบเกินจริงนี้มีค่า AUC เท่ากับ 1.0
ในทางกลับกัน ภาพต่อไปนี้แสดงผลลัพธ์ของโมเดลการจัดประเภทที่สร้างผลลัพธ์แบบสุ่ม โมเดลนี้มีค่า AUC เท่ากับ 0.5
ใช่ โมเดลก่อนหน้ามี AUC เท่ากับ 0.5 ไม่ใช่ 0.0
โมเดลส่วนใหญ่อยู่ตรงกลางระหว่าง 2 รูปแบบข้างต้น ตัวอย่างเช่น โมเดลต่อไปนี้แยกรายการเชิงบวกออกจากรายการเชิงลบได้บ้าง จึงมี AUC อยู่ระหว่าง 0.5 ถึง 1.0
AUC จะไม่สนใจค่าที่คุณตั้งไว้สําหรับเกณฑ์การจัดประเภท แต่ AUC จะพิจารณาเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมดแทน
คลิกไอคอนเพื่อดูข้อมูลเกี่ยวกับความสัมพันธ์ระหว่าง AUC กับเส้นโค้ง ROC
คลิกไอคอนเพื่อดูคําจํากัดความอย่างเป็นทางการของ AUC
ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
ความแม่นยำเฉลี่ยที่ k
เมตริกสำหรับสรุปประสิทธิภาพของโมเดลในพรอมต์เดียวซึ่งจะสร้างผลลัพธ์ที่จัดอันดับ เช่น รายการคำแนะนำหนังสือที่มีหมายเลข ความแม่นยำเฉลี่ยที่ k คือค่าเฉลี่ยของค่าความแม่นยำที่ k สำหรับผลการค้นหาที่เกี่ยวข้องแต่ละรายการ ดังนั้น สูตรความแม่นยำเฉลี่ยที่ k จึงจะเป็นดังนี้
average precision at k=1nn∑i=1precision at k for each relevant item
where:
- n คือจํานวนรายการที่เกี่ยวข้องในรายการ
เปรียบเทียบกับ recall at k
คลิกไอคอนเพื่อดูตัวอย่าง
B
พื้นฐาน
โมเดลที่ใช้เป็นจุดอ้างอิงเพื่อเปรียบเทียบประสิทธิภาพของโมเดลอื่น (โดยทั่วไปคือโมเดลที่ซับซ้อนกว่า) เช่น โมเดลการถดถอยเชิงโลจิสติกอาจใช้เป็นบรรทัดฐานที่ดีสําหรับโมเดลเชิงลึก
สําหรับปัญหาหนึ่งๆ เกณฑ์พื้นฐานจะช่วยให้นักพัฒนาโมเดลระบุประสิทธิภาพขั้นต่ำที่คาดหวังซึ่งโมเดลใหม่ต้องบรรลุเพื่อให้โมเดลใหม่มีประโยชน์
C
ต้นทุน
คำพ้องความหมายของ loss
ความเป็นธรรมแบบเทียบกับกลุ่มควบคุม
เมตริกความเป็นธรรมที่ตรวจสอบว่าตัวจัดประเภทให้ผลลัพธ์เหมือนกันสำหรับบุคคลหนึ่งกับอีกคนหนึ่งที่เหมือนกันทุกประการ ยกเว้นแอตทริบิวต์ที่มีความละเอียดอ่อนอย่างน้อย 1 รายการหรือไม่ การประเมินตัวแยกประเภทเพื่อหาความยุติธรรมแบบเทียบเท่าสมมติฐานเป็นวิธีหนึ่งในการค้นหาแหล่งที่มาที่อาจทำให้เกิดอคติในโมเดล
โปรดดูข้อมูลเพิ่มเติมที่หัวข้อต่อไปนี้
- ความเป็นธรรม: ความเป็นธรรมแบบเทียบกับกลุ่มควบคุมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness
เอนโทรปีครอส
การทั่วไปของ Log Loss ไปใช้กับปัญหาการจัดประเภทหลายคลาส การเข้ารหัสไขว้จะวัดความแตกต่างระหว่างการแจกแจงความน่าจะเป็น 2 รายการ โปรดดูความสับสนด้วย
ฟังก์ชันการแจกแจงสะสม (CDF)
ฟังก์ชันที่กําหนดความถี่ของตัวอย่างที่น้อยกว่าหรือเท่ากับค่าเป้าหมาย ตัวอย่างเช่น ลองพิจารณาการแจกแจงปกติของค่าต่อเนื่อง CDF บอกคุณว่าตัวอย่างประมาณ 50% ควรน้อยกว่าหรือเท่ากับค่ามัธยฐาน และตัวอย่างประมาณ 84% ควรน้อยกว่าหรือเท่ากับค่าเบี่ยงเบนมาตรฐาน 1 เท่าเหนือค่ามัธยฐาน
D
ความเท่าเทียมด้านข้อมูลประชากร
เมตริกความเป็นธรรมที่เป็นไปตามข้อกำหนดหากผลการจัดประเภทของโมเดลไม่ขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อนที่ระบุ
ตัวอย่างเช่น หากทั้งชาวลิลลี่ปุตและชาวบราบิงแน็กสมัครเข้ามหาวิทยาลัยกลุบบัดบรีบ ความเป็นธรรมด้านข้อมูลประชากรจะเกิดขึ้นเมื่อเปอร์เซ็นต์ของชาวลิลลี่ปุตที่ได้รับอนุญาตให้เข้าศึกษาเท่ากับเปอร์เซ็นต์ของชาวบราบิงแน็กที่ได้รับอนุญาตให้เข้าศึกษา โดยไม่คำนึงว่ากลุ่มหนึ่งมีคุณวุฒิมากกว่าอีกกลุ่มโดยเฉลี่ยหรือไม่
ซึ่งต่างจากโอกาสที่เท่าเทียมและความเสมอภาคของโอกาสที่อนุญาตให้ผลการจัดประเภทโดยรวมขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อน แต่ไม่อนุญาตให้ผลการจัดประเภทสำหรับป้ายกำกับข้อมูลจริงที่ระบุบางรายการขึ้นอยู่กับแอตทริบิวต์ที่ละเอียดอ่อน ดูภาพแสดงการประนีประนอมเมื่อเพิ่มประสิทธิภาพเพื่อลดความเหลื่อมล้ำทางข้อมูลประชากรได้ที่"การต่อสู้กับการแบ่งแยกด้วยแมชชีนเลิร์นนิงที่ฉลาดขึ้น"
ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ความเท่าเทียมทางประชากรในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
E
ระยะทางของรถขุด (EMD)
การวัดความคล้ายคลึงสัมพัทธ์ของการแจกแจง 2 รายการ ยิ่งระยะทางของเครื่องจักรขุดดินต่ำ รูปแบบการกระจายก็จะยิ่งคล้ายกัน
แก้ไขระยะทาง
การวัดความคล้ายคลึงของสตริงข้อความ 2 รายการ ระยะการแก้ไขมีประโยชน์ในแมชชีนเลิร์นนิงเนื่องจากเหตุผลต่อไปนี้
- ระยะห่างการแก้ไขคํานวณได้ง่าย
- ระยะห่างการแก้ไขจะเปรียบเทียบสตริง 2 รายการที่ทราบว่าคล้ายกัน
- ระยะแก้ไขสามารถระบุระดับที่สตริงต่างๆ คล้ายกับสตริงหนึ่งๆ
ระยะห่างการแก้ไขมีหลายคำจำกัดความ โดยแต่ละคำจำกัดความจะใช้การดำเนินการสตริงที่แตกต่างกัน ดูตัวอย่างได้ที่ระยะ Levenshtein
ฟังก์ชันการแจกแจงสะสมเชิงประจักษ์ (eCDF หรือ EDF)
ฟังก์ชันการแจกแจงสะสมซึ่งอิงตามการวัดผลเชิงประจักษ์จากชุดข้อมูลจริง ค่าของฟังก์ชันที่จุดใดก็ได้บนแกน x คือเศษส่วนของค่าสังเกตในชุดข้อมูลที่มีค่าน้อยกว่าหรือเท่ากับค่าที่ระบุ
เอนโทรปี
ใน ทฤษฎีสารสนเทศ หมายถึงคำอธิบายความคาดเดาไม่ได้ของรูปแบบความน่าจะเป็น หรืออาจหมายถึงปริมาณข้อมูลที่มีอยู่ในตัวอย่างแต่ละรายการ การแจกแจงข้อมูลจะมีเอนโทรปีสูงสุดเมื่อค่าทั้งหมดของตัวแปรแบบสุ่มมีแนวโน้มเท่าๆ กัน
เอนโทรปีของชุดที่มีค่าที่เป็นไปได้ 2 ค่า ได้แก่ "0" และ "1" (เช่น ป้ายกำกับในปัญหาการจัดประเภทแบบไบนารี) มีสูตรดังนี้
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
where:
- H คือเอนโทรปี
- p คือเศษส่วนของตัวอย่าง "1"
- q คือเศษส่วนของตัวอย่าง "0" โปรดทราบว่า q = (1 - p)
- log โดยทั่วไปคือ log2 ในกรณีนี้ หน่วยของข้อมูลเชิงซ้อนคือบิต
ตัวอย่างเช่น สมมติว่า
- ตัวอย่าง 100 รายการมีค่าเป็น "1"
- ตัวอย่าง 300 รายการมีค่าเป็น "0"
ดังนั้น ค่าเอนโทรปีคือ
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 บิตต่อตัวอย่าง
ชุดข้อมูลที่สมดุลกันโดยสมบูรณ์ (เช่น "0" 200 ตัวและ "1" 200 ตัว) จะมีเอนโทรปี 1.0 บิตต่อตัวอย่าง เมื่อชุดข้อมูลมีความไม่สมดุลมากขึ้น เอนโทรปีของชุดข้อมูลจะเข้าใกล้ 0.0
ในต้นไม้การตัดสินใจ เอนโทรปีช่วยสร้างการได้ข้อมูลเพื่อช่วยตัวแยกเลือกเงื่อนไขขณะที่ต้นไม้การตัดสินใจการจัดประเภทเติบโต
เปรียบเทียบเอนโทรปีกับข้อมูลต่อไปนี้
- ความไม่เป็นระเบียบของ gini
- ฟังก์ชันการสูญเสียCross-Entropy
บางครั้งจะเรียกเอนโทรปีว่าเอนโทรปีของ Shannon
ดูข้อมูลเพิ่มเติมได้ในตัวแยกที่ตรงกันทั้งหมดสำหรับการแยกประเภทแบบ 2 กลุ่มด้วยฟีเจอร์ที่เป็นตัวเลขในหลักสูตรป่าการตัดสินใจ
โอกาสที่เท่าเทียมกัน
เมตริกความเป็นธรรมเพื่อประเมินว่าโมเดลคาดการณ์ผลลัพธ์ที่ต้องการได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่มีความละเอียดอ่อนหรือไม่ กล่าวคือ หากผลลัพธ์ที่ต้องการสำหรับโมเดลคือคลาสที่เป็นบวก เป้าหมายคืออัตราผลบวกจริงจะเหมือนกันสำหรับทุกกลุ่ม
โอกาสที่เท่าเทียมเกี่ยวข้องกับอัตราต่อรองที่เท่าเทียม ซึ่งกำหนดว่าทั้งอัตราผลบวกจริงและอัตราผลบวกลวงต้องเหมือนกันสำหรับทุกกลุ่ม
สมมติว่ามหาวิทยาลัย Glubbdubdrib รับทั้งชาวลิลลี่ปุตและชาวบราบิงแน็กเรียนหลักสูตรคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมของชาวลิลลี่ปุตตินำเสนอหลักสูตรคณิตศาสตร์ที่มีประสิทธิภาพ และนักเรียนส่วนใหญ่มีสิทธิ์เข้าเรียนในมหาวิทยาลัย โรงเรียนมัธยมของชาวบราบิงกันไม่ได้เปิดสอนวิชาคณิตศาสตร์เลย ส่งผลให้นักเรียนมีจำนวนน้อยกว่ามากที่มีคุณสมบัติตรงตามข้อกำหนด โอกาสที่เท่าเทียมกันเป็นไปตามป้ายกำกับที่ต้องการว่า "ได้รับอนุญาต" เกี่ยวกับสัญชาติ (Lilliputian หรือ Brobdingnagian) หากนักเรียนที่มีสิทธิ์มีโอกาสเท่าๆ กันที่จะได้รับการอนุญาต ไม่ว่านักเรียนจะเป็น Lilliputian หรือ Brobdingnagian
ตัวอย่างเช่น สมมติว่าชาวลิลลี่ปุต 100 คนและชาวบราบิงแน็ก 100 คนสมัครเข้ามหาวิทยาลัยกลุบบัดบรีบ และผลการตัดสินการรับสมัครมีดังนี้
ตารางที่ 1 ผู้สมัคร Lilliputian (90% มีสิทธิ์)
เข้าเกณฑ์ | คุณสมบัติไม่ครบ | |
---|---|---|
ยอมรับ | 45 | 3 |
ถูกปฏิเสธ | 45 | 7 |
รวม | 90 | 10 |
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับค่าเล่าเรียน: 45/90 = 50% เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับค่าเล่าเรียน: 7/10 = 70% เปอร์เซ็นต์ทั้งหมดของนักเรียน Lilliputian ที่ได้รับค่าเล่าเรียน: (45+3)/100 = 48% |
ตารางที่ 2 ผู้สมัครที่มีคุณสมบัติตรงตามเกณฑ์ (10%)
เข้าเกณฑ์ | คุณสมบัติไม่ครบ | |
---|---|---|
ยอมรับ | 5 | 9 |
ถูกปฏิเสธ | 5 | 81 |
รวม | 10 | 90 |
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 5/10 = 50% เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 81/90 = 90% เปอร์เซ็นต์ทั้งหมดของนักเรียน Brobdingnagian ที่ได้รับอนุญาตให้เข้าเรียน: (5+9)/100 = 14% |
ตัวอย่างข้างต้นเป็นไปตามความเท่าเทียมของโอกาสในการรับนักเรียนที่มีสิทธิ์ เนื่องจากทั้งชาวลิลลี่ปุตและชาวบราบิงแนกันที่มีสิทธิ์มีโอกาส 50% ที่จะได้รับการยอมรับ
แม้ว่าจะเป็นไปตามหลักความเท่าเทียมกันของโอกาส แต่เมตริกความเท่าเทียม 2 รายการต่อไปนี้ไม่เป็นไปตามหลักดังกล่าว
- ความเท่าเทียมทางประชากร: นักเรียนชาวลิลลี่ปุตและชาวบราบิงแนกได้รับอนุญาตให้เข้ามหาวิทยาลัยในอัตราที่แตกต่างกัน โดยนักเรียนชาวลิลลี่ปุตได้รับอนุญาตให้เข้ามหาวิทยาลัย 48% แต่นักเรียนชาวบราบิงแนกได้รับอนุญาตให้เข้ามหาวิทยาลัยเพียง 14%
- โอกาสที่เท่าเทียม: แม้ว่านักเรียน Lilliputian และ Brobdingnagian ที่มีสิทธิ์จะมีสิทธิ์ได้รับการยอมรับเท่าๆ กัน แต่ข้อจำกัดเพิ่มเติมที่ว่านักเรียน Lilliputian และ Brobdingnagian ที่ไม่มีสิทธิ์จะมีสิทธิ์ถูกปฏิเสธเท่าๆ กันนั้นไม่ได้รับการยอมรับ ผู้ที่มีคุณสมบัติไม่ตรงตามเกณฑ์ของ Lilliputians มีอัตราการถูกปฏิเสธ 70% ส่วนผู้ที่มีคุณสมบัติไม่ตรงตามเกณฑ์ของ Brobdingnagians มีอัตราการถูกปฏิเสธ 90%
ดูข้อมูลเพิ่มเติมได้ที่ความเป็นธรรม: ความเท่าเทียมของโอกาสในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
โอกาสที่เท่ากัน
เมตริกความเท่าเทียมเพื่อประเมินว่าโมเดลคาดการณ์ผลลัพธ์ได้ดีเท่าๆ กันสำหรับค่าทั้งหมดของแอตทริบิวต์ที่มีความละเอียดอ่อนทั้งในแง่ของคลาสบวกและคลาสลบ ไม่ใช่แค่คลาสใดคลาสหนึ่งโดยเฉพาะ กล่าวคือ ทั้งอัตราผลบวกจริงและอัตราผลลบเท็จควรเหมือนกันสำหรับทุกกลุ่ม
อัตราต่อรองที่เท่ากันเกี่ยวข้องกับความเท่าเทียมของโอกาส ซึ่งมุ่งเน้นที่อัตราข้อผิดพลาดของคลาสเดียวเท่านั้น (บวกหรือลบ)
ตัวอย่างเช่น สมมติว่ามหาวิทยาลัย Glubbdubdrib ยอมรับทั้งชาวลิลลี่ปุตและชาวบราบิงแนกเรียนหลักสูตรคณิตศาสตร์ที่เข้มงวด โรงเรียนมัธยมของชาวลิลลี่ปุตติมีหลักสูตรคณิตศาสตร์ที่เข้มข้น และนักเรียนส่วนใหญ่มีสิทธิ์เข้าเรียนในมหาวิทยาลัย โรงเรียนมัธยมของชาวบราบิงกันไม่ได้เปิดสอนวิชาคณิตศาสตร์เลย ส่งผลให้นักเรียนมีจำนวนน้อยกว่ามากที่มีคุณสมบัติตรงตามข้อกำหนด โอกาสที่เท่าเทียมกันจะเป็นไปตามข้อกำหนดไม่ว่าผู้สมัครจะมีสิทธิ์หรือไม่ก็ตาม หากมีสิทธิ์ ก็มีโอกาสเท่าๆ กันที่จะได้รับการยอมรับเข้าโปรแกรม และหากไม่มีสิทธิ์ ก็มีโอกาสเท่าๆ กันที่จะถูกปฏิเสธ
สมมติว่าชาวลิลลี่ปุต 100 คนและชาวบราบิงแน็ก 100 คนสมัครเข้ามหาวิทยาลัยกลุบบัดดริบ และผลการตัดสินการรับสมัครมีดังนี้
ตารางที่ 3 ผู้สมัคร Lilliputian (90% มีสิทธิ์)
เข้าเกณฑ์ | คุณสมบัติไม่ครบ | |
---|---|---|
ยอมรับ | 45 | 2 |
ถูกปฏิเสธ | 45 | 8 |
รวม | 90 | 10 |
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 45/90 = 50% เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 8/10 = 80% เปอร์เซ็นต์ทั้งหมดของนักเรียน Lilliputian ได้รับอนุญาตให้เข้าเรียน: (45+2)/100 = 47% |
ตารางที่ 4 ผู้สมัครที่มีคุณสมบัติตรงตามเกณฑ์ (10%)
เข้าเกณฑ์ | คุณสมบัติไม่ครบ | |
---|---|---|
ยอมรับ | 5 | 18 |
ถูกปฏิเสธ | 5 | 72 |
รวม | 10 | 90 |
เปอร์เซ็นต์ของนักเรียนที่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 5/10 = 50% เปอร์เซ็นต์ของนักเรียนที่ไม่มีสิทธิ์ได้รับอนุญาตให้เข้าเรียน: 72/90 = 80% เปอร์เซ็นต์ทั้งหมดของนักเรียน Brobdingnagian ที่ได้รับอนุญาตให้เข้าเรียน: (5+18)/100 = 23% |
เงื่อนไขความน่าจะเป็นที่เท่ากันเป็นไปตามเกณฑ์เนื่องจากทั้งนักเรียน Lilliputian และ Brobdingnagian ที่มีสิทธิ์มีโอกาส 50% ที่จะได้รับการยอมรับ และนักเรียน Lilliputian และ Brobdingnagian ที่ไม่มีสิทธิ์มีโอกาส 80% ที่จะถูกปฏิเสธ
โอกาสที่เท่าเทียมกันได้รับการกําหนดอย่างเป็นทางการใน"ความเท่าเทียมของโอกาสในการเรียนรู้แบบควบคุม" ดังนี้ "ตัวทำนาย Ŷ เป็นไปตามความเท่าเทียมของโอกาสในแง่ของแอตทริบิวต์ที่ได้รับการคุ้มครอง A และผลลัพธ์ Y หาก Ŷ และ A เป็นอิสระต่อกันโดยขึ้นกับ Y"
evals
ใช้เป็นหลักเป็นตัวย่อของการประเมิน LLM evals ย่อมาจากการประเมินทุกรูปแบบ
การประเมิน
กระบวนการวัดคุณภาพของรูปแบบหรือการเปรียบเทียบรูปแบบต่างๆ
หากต้องการประเมินโมเดลแมชชีนเลิร์นนิงที่มีการควบคุมดูแล โดยทั่วไปคุณจะต้องประเมินโมเดลนั้นเทียบกับชุดการตรวจสอบและชุดทดสอบ การประเมิน LLMมักเกี่ยวข้องกับการประเมินคุณภาพและความปลอดภัยในวงกว้าง
F
F1
เมตริกการจัดประเภทแบบ 2 กลุ่ม "แบบรวม" ที่อาศัยทั้งความแม่นยำและความแม่นยำในการจดจำ สูตรมีดังนี้
คลิกไอคอนเพื่อดูตัวอย่าง
เมตริกความยุติธรรม
คําจํากัดความทางคณิตศาสตร์ของ "ความเป็นธรรม" ที่วัดผลได้ เมตริกความเป็นธรรมที่ใช้กันโดยทั่วไป ได้แก่
- การกระจายความเสี่ยง
- ความเท่าเทียมตามการคาดการณ์
- ความยุติธรรมแบบเทียบกับสิ่งที่ไม่ได้เกิดขึ้น
- ความเท่าเทียมทางประชากร
เมตริกความยุติธรรมหลายรายการใช้ร่วมกันไม่ได้ โปรดดูความเข้ากันไม่ได้ของเมตริกความยุติธรรม
ผลลบลวง (FN)
ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบอย่างไม่ถูกต้อง เช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ ไม่ใช่สแปม (คลาสเชิงลบ) แต่ข้อความอีเมลนั้นเป็นจดหมายขยะจริงๆ
อัตราผลลบลวง
สัดส่วนของตัวอย่างเชิงบวกจริงที่โมเดลคาดการณ์คลาสเชิงลบอย่างไม่ถูกต้อง สูตรต่อไปนี้จะคํานวณอัตราเชิงลบที่ไม่ถูกต้อง
ดูข้อมูลเพิ่มเติมเกี่ยวกับเกณฑ์และตารางความสับสนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
ผลบวกลวง (FP)
ตัวอย่างที่โมเดลคาดการณ์คลาสบวกอย่างไม่ถูกต้อง เช่น โมเดลคาดการณ์ว่าข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ (คลาสเชิงบวก) แต่ข้อความอีเมลนั้นไม่ใช่จดหมายขยะจริงๆ
ดูข้อมูลเพิ่มเติมเกี่ยวกับเกณฑ์และตารางความสับสนในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
อัตราผลบวกลวง (FPR)
สัดส่วนของตัวอย่างเชิงลบจริงที่โมเดลคาดการณ์คลาสที่เป็นบวกอย่างไม่ถูกต้อง สูตรต่อไปนี้จะคํานวณอัตราผลบวกลวง
อัตราผลบวกลวงคือแกน x ในกราฟ ROC
ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ROC และ AUC ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
ความสำคัญของฟีเจอร์
คำพ้องความหมายของความสำคัญของตัวแปร
เศษส่วนของความสําเร็จ
เมตริกสําหรับประเมินข้อความที่สร้างขึ้นของโมเดล ML ส่วนที่เป็นความสำเร็จคือจํานวนเอาต์พุตข้อความที่ "สําเร็จ" หารด้วยจํานวนเอาต์พุตข้อความทั้งหมดที่สร้างขึ้น ตัวอย่างเช่น หากโมเดลภาษาขนาดใหญ่สร้างโค้ด 10 บล็อก โดย 5 บล็อกทำงานสำเร็จ เศษส่วนของความสําเร็จจะเท่ากับ 50%
แม้ว่าเศษส่วนของความสําเร็จจะมีประโยชน์อย่างกว้างๆ ในสถิติ แต่ภายใน ML เมตริกนี้มีประโยชน์สําหรับการวัดงานที่ตรวจสอบได้เป็นหลัก เช่น การสร้างโค้ดหรือโจทย์คณิตศาสตร์
G
ความไม่บริสุทธิ์ของจีนี
เมตริกที่คล้ายกับเอนโทรปี ตัวแยกใช้ค่าที่มาจากความไม่บริสุทธิ์ของ Gini หรือเอนโทรปีเพื่อสร้างเงื่อนไขสําหรับการจัดประเภทต้นไม้การตัดสินใจ การได้ข้อมูลมาจากเอนโทรปี ไม่มีคําที่เทียบเท่าซึ่งยอมรับกันทั่วโลกสําหรับเมตริกที่มาจากความไม่บริสุทธิ์ของ Gini แต่เมตริกที่ไม่มีชื่อนี้สําคัญพอๆ กับข้อมูลที่ได้รับ
ความไม่เป็นระเบียบของจีนีเรียกอีกอย่างว่าดัชนีจีนี หรือเรียกสั้นๆ ว่าจีนี
คลิกไอคอนเพื่อดูรายละเอียดทางคณิตศาสตร์เกี่ยวกับความไม่บริสุทธิ์ของ Gini
H
บานพับขาด
ตระกูลฟังก์ชันการสูญเสียสําหรับการจัดประเภทที่ออกแบบมาเพื่อค้นหาขอบเขตการตัดสินให้อยู่ห่างจากตัวอย่างการฝึกแต่ละรายการมากที่สุด ด้วยเหตุนี้จึงเพิ่มระยะห่างระหว่างตัวอย่างกับขอบเขตให้มากที่สุด KSVM ใช้การสูญเสียแบบ hinge (หรือฟังก์ชันที่เกี่ยวข้อง เช่น การสูญเสียแบบ hinge ยกกำลัง 2) สําหรับการจัดประเภทแบบไบนารี ฟังก์ชันการสูญเสียแบบ hinge จะกําหนดดังนี้
โดยที่ y คือป้ายกำกับจริง ซึ่งอาจเป็น -1 หรือ +1 และ y' คือเอาต์พุตดิบของโมเดลการจัดประเภท
ดังนั้น ผังความสูญเสียของ hinge เทียบกับ (y * y') จะมีลักษณะดังนี้
I
ความไม่เข้ากันได้ของเมตริกความยุติธรรม
แนวคิดที่ว่าแนวคิดบางอย่างเกี่ยวกับความยุติธรรมนั้นใช้ร่วมกันไม่ได้และไม่สามารถบรรลุพร้อมกัน ด้วยเหตุนี้ จึงไม่มีเมตริกที่เป็นสากลเพียงเมตริกเดียวสำหรับวัดความเป็นธรรมซึ่งใช้ได้กับปัญหา ML ทั้งหมด
แม้ว่าเรื่องนี้อาจฟังดูท้อแท้ แต่การที่เมตริกความยุติธรรมใช้ร่วมกันไม่ได้ไม่ได้หมายความว่าความพยายามด้านความยุติธรรมจะไร้ผล แต่แนะนําว่าต้องกําหนดความยุติธรรมตามบริบทสําหรับปัญหา ML หนึ่งๆ โดยมีเป้าหมายเพื่อป้องกันอันตรายที่เฉพาะเจาะจงสําหรับ Use Case นั้นๆ
ดูการพูดคุยเรื่องความเข้ากันไม่ได้ของเมตริกความเป็นธรรมอย่างละเอียดได้ที่"On the (im)possibility of fairness"
ความยุติธรรมต่อบุคคล
เมตริกความยุติธรรมที่ตรวจสอบว่าระบบจัดประเภทบุคคลที่คล้ายกันคล้ายกันหรือไม่ ตัวอย่างเช่น Brobdingnagian Academy อาจต้องการสร้างความเป็นธรรมให้กับบุคคล โดยตรวจสอบว่านักเรียน 2 คนที่มีคะแนนเหมือนกันและคะแนนสอบมาตรฐานมีแนวโน้มที่จะได้รับการยอมรับเท่าๆ กัน
โปรดทราบว่าความยุติธรรมของแต่ละบุคคลขึ้นอยู่กับวิธีที่คุณกำหนด "ความคล้ายคลึง" ทั้งหมด (ในกรณีนี้คือคะแนนและคะแนนสอบ) และคุณอาจเสี่ยงที่จะทำให้เกิดปัญหาความยุติธรรมใหม่ๆ หากเมตริกความคล้ายคลึงของคุณขาดข้อมูลสำคัญ (เช่น ความยากของหลักสูตรของนักเรียน)
ดูการพูดคุยเรื่องความยุติธรรมของแต่ละบุคคลอย่างละเอียดได้ที่"ความยุติธรรมผ่านความรู้"
ข้อมูลที่ได้รับ
ในป่าการตัดสินใจ ความแตกต่างระหว่างเอนโทรปีของโหนดกับผลรวมของเอนโทรปีของโหนดย่อยที่มีน้ำหนัก (ตามจำนวนตัวอย่าง) เอนโทรปีของโหนดคือเอนโทรปีของตัวอย่างในโหนดนั้น
ตัวอย่างเช่น ลองพิจารณาค่าเอนโทรปีต่อไปนี้
- เอนโทรปีของโหนดหลัก = 0.6
- เอนโทรปีของโหนดย่อย 1 รายการที่มีตัวอย่างที่เกี่ยวข้อง 16 รายการ = 0.2
- เอนโทรปีของโหนดย่อยอีกโหนดหนึ่งซึ่งมีตัวอย่างที่เกี่ยวข้อง 24 รายการ = 0.1
ดังนั้น 40% ของตัวอย่างจะอยู่ในโหนดย่อยโหนดหนึ่ง และ 60% จะอยู่ในโหนดย่อยอีกโหนดหนึ่ง ดังนั้น
- ผลรวมของเอนโทรปีถ่วงน้ำหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
ดังนั้น ข้อมูลที่ได้รับคือ
- อัตราข้อมูลที่ได้รับ = เอนโทรปีของโหนดหลัก - ผลรวมของเอนโทรปีที่ถ่วงน้ำหนักของโหนดย่อย
- ข้อมูลที่ได้รับ = 0.6 - 0.14 = 0.46
ตัวแยกส่วนใหญ่พยายามสร้างเงื่อนไขเพื่อเพิ่มปริมาณข้อมูลที่ได้สูงสุด
ความสอดคล้องกันระหว่างผู้ประเมิน
การวัดความถี่ที่ผู้ประเมินที่เป็นมนุษย์เห็นด้วยเมื่อทำภารกิจ หากผู้ประเมินไม่เห็นด้วย คุณอาจต้องปรับปรุงวิธีการของงาน บางครั้งอาจเรียกว่าความสอดคล้องกันของผู้กำกับดูแลหรือความน่าเชื่อถือของผู้ประเมิน ดูข้อมูลเพิ่มเติมได้ที่ค่า Kappa ของ Cohen ซึ่งเป็นวิธีการวัดความสอดคล้องกันระหว่างผู้ประเมินที่ได้รับความนิยมมากที่สุดวิธีหนึ่ง
ดูข้อมูลเพิ่มเติมได้ที่ข้อมูลเชิงหมวดหมู่: ปัญหาที่พบได้ทั่วไปในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
L
แพ้ L1
ฟังก์ชันการสูญเสียที่คำนวณค่าสัมบูรณ์ของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น ต่อไปนี้คือการคํานวณการสูญเสีย L1 สําหรับกลุ่มตัวอย่าง 5 รายการ
ค่าจริงของตัวอย่าง | ค่าที่คาดการณ์ของโมเดล | ค่าสัมบูรณ์ของเดลต้า |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = แพ้ L1 |
ผลต่าง L1 ไวต่อค่าผิดปกติน้อยกว่าผลต่าง L2
ค่าเฉลี่ยความผิดพลาดสัมบูรณ์คือค่าเฉลี่ยของการสูญเสีย L1 ต่อตัวอย่าง
คลิกไอคอนเพื่อดูคณิตศาสตร์แบบเป็นทางการ
ดูข้อมูลเพิ่มเติมได้ในหัวข้อการหาค่าสัมประสิทธ์เชิงเส้น: ค่าการสูญเสียในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
อัตราสูญเสีย L2
ฟังก์ชันการสูญเสียที่คำนวณผลคูณของความแตกต่างระหว่างค่าป้ายกำกับจริงกับค่าที่โมเดลคาดการณ์ ตัวอย่างเช่น นี่คือการคำนวณความสูญเสีย L2 สําหรับกลุ่มตัวอย่าง 5 รายการ
ค่าจริงของตัวอย่าง | ค่าที่คาดการณ์ของโมเดล | ตารางของเดลต้า |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = แพ้ L2 |
เนื่องจากการยกกำลัง 2 จะทำให้ความสูญเสีย L2 ขยายอิทธิพลของค่าผิดปกติ กล่าวคือ ผลลัพธ์ L2 จะตอบสนองต่อการคาดการณ์ที่ไม่ดีมากกว่าผลลัพธ์ L1 เช่น อัตราสูญเสีย L1 ของกลุ่มก่อนหน้าจะเป็น 8 ไม่ใช่ 16 โปรดทราบว่าค่าที่ผิดปกติรายการเดียวคิดเป็น 9 จาก 16
โมเดลการหาค่าสัมพัทธ์มักใช้การสูญเสีย L2 เป็นฟังก์ชันการสูญเสีย
ความคลาดเคลื่อนกำลังสองเฉลี่ยคือค่าเฉลี่ยของการสูญเสีย L2 ต่อตัวอย่าง ความสูญเสียแบบยกกำลังสองเป็นชื่อเรียกอีกอย่างของความสูญเสีย L2
คลิกไอคอนเพื่อดูคณิตศาสตร์แบบเป็นทางการ
ดูข้อมูลเพิ่มเติมได้ที่การถดถอยเชิงเส้นโลจิสติก: การสูญเสียและการควบคุมในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
การประเมิน LLM (evals)
ชุดเมตริกและการเปรียบเทียบเพื่อประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) การประเมิน LLM ในระดับสูงมีดังนี้
- ช่วยให้นักวิจัยระบุด้านที่ LLM จำเป็นต้องปรับปรุง
- มีประโยชน์ในการเปรียบเทียบ LLM ต่างๆ และระบุ LLM ที่ดีที่สุดสําหรับงานหนึ่งๆ
- ช่วยให้มั่นใจว่า LLM นั้นปลอดภัยและใช้งานได้อย่างมีจริยธรรม
ดูข้อมูลเพิ่มเติมได้ที่โมเดลภาษาขนาดใหญ่ (LLM) ในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
แพ้
ในระหว่างการฝึกโมเดลที่มีการควบคุมดูแล เป็นการวัดระยะห่างระหว่างการคาดการณ์ของโมเดลกับป้ายกำกับ
ฟังก์ชันการสูญเสียจะคํานวณการสูญเสีย
ดูข้อมูลเพิ่มเติมได้ที่การหาค่าสัมประสิทธ์เชิงเส้น: ค่าการสูญเสียในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
ฟังก์ชันการสูญเสีย
ในระหว่างการฝึกหรือทดสอบ ฟังก์ชันทางคณิตศาสตร์ที่คำนวณการสูญเสียในกลุ่มตัวอย่าง ฟังก์ชันการสูญเสียจะแสดงผลลัพธ์การสูญเสียที่ต่ำลงสำหรับโมเดลที่ทําการคาดการณ์ได้ดี เมื่อเทียบกับโมเดลที่ทําการคาดการณ์ได้ไม่ดี
โดยทั่วไป เป้าหมายของการฝึกคือลดการสูญเสียที่ฟังก์ชันการสูญเสียแสดง
ฟังก์ชันการสูญเสียมีหลายประเภท เลือกฟังก์ชันการสูญเสียที่เหมาะสมสำหรับประเภทโมเดลที่คุณกําลังสร้าง เช่น
- การสูญเสีย L2 (หรือข้อผิดพลาดกำลังสองเฉลี่ย) คือฟังก์ชันการสูญเสียสําหรับการประมาณเชิงเส้น
- Log Loss คือฟังก์ชันการสูญเสียสําหรับการถดถอยเชิงเส้นโลจิสติก
M
ค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ (MAE)
การสูญเสียโดยเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย L1 คํานวณค่าเฉลี่ยความผิดพลาดสัมบูรณ์ดังนี้
- คำนวณการสูญเสีย L1 ของกลุ่ม
- หารความสูญเสีย L1 ด้วยจํานวนตัวอย่างในชุด
คลิกไอคอนเพื่อดูคณิตศาสตร์แบบเป็นทางการ
ตัวอย่างเช่น ลองพิจารณาการคำนวณการสูญเสีย L1 ในตัวอย่าง 5 รายการต่อไปนี้
ค่าจริงของตัวอย่าง | ค่าที่คาดการณ์ของโมเดล | การสูญเสีย (ความแตกต่างระหว่างค่าจริงกับค่าที่คาดการณ์) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = แพ้ L1 |
ดังนั้น ผลลัพธ์ของ L1 คือ 8 และจำนวนตัวอย่างคือ 5 ดังนั้น ค่าเฉลี่ยความผิดพลาดสัมบูรณ์คือ
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
เปรียบเทียบค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์กับความคลาดเคลื่อนเฉลี่ยกำลังสอง และค่าเฉลี่ยความคลาดเคลื่อนกำลังสองของราก
ความแม่นยำเฉลี่ยของค่าเฉลี่ยที่ k (mAP@k)
ค่าเฉลี่ยทางสถิติของคะแนนความแม่นยำเฉลี่ยที่ k ทั้งหมดในชุดข้อมูลที่ใช้ตรวจสอบ การใช้ความแม่นยำเฉลี่ยที่ k อย่างหนึ่งคือเพื่อตัดสินคุณภาพของคําแนะนําที่ระบบคําแนะนําสร้างขึ้น
แม้ว่าวลี "ค่าเฉลี่ยถ่วงน้ำหนัก" จะฟังดูซ้ำซ้อน แต่ชื่อเมตริกก็เหมาะสม ท้ายที่สุดแล้ว เมตริกนี้จะหาค่ามัธยฐานของความแม่นยําเฉลี่ยที่ k หลายค่า
คลิกไอคอนเพื่อดูตัวอย่าง
ความคลาดเคลื่อนเฉลี่ยกำลังสอง (MSE)
การสูญเสียโดยเฉลี่ยต่อตัวอย่างเมื่อใช้การสูญเสีย L2 คำนวณความคลาดเคลื่อนกำลังสองเฉลี่ยดังนี้
- คํานวณการสูญเสีย L2 สําหรับกลุ่ม
- หารความสูญเสีย L2 ด้วยจํานวนตัวอย่างในชุด
คลิกไอคอนเพื่อดูคณิตศาสตร์แบบเป็นทางการ
ตัวอย่างเช่น ลองพิจารณาการสูญเสียในตัวอย่าง 5 รายการต่อไปนี้
มูลค่าที่แท้จริง | การคาดการณ์ของโมเดล | แพ้ | ผลต่างของค่ากำลังสอง |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = แพ้ L2 |
ดังนั้น ความคลาดเคลื่อนเฉลี่ยกำลังสองคือ
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
ความคลาดเคลื่อนเฉลี่ยกำลังสองเป็นเครื่องมือเพิ่มประสิทธิภาพการฝึกอบรมที่ได้รับความนิยม โดยเฉพาะสําหรับการถดถอยเชิงเส้น
เปรียบเทียบความคลาดเคลื่อนกำลังสองเฉลี่ยกับค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ และค่าเฉลี่ยความคลาดเคลื่อนกำลังสองของราก
TensorFlow Playground ใช้ Mean Squared Error เพื่อคํานวณค่าการสูญเสีย
คลิกไอคอนเพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับค่าที่ผิดปกติ
เมตริก
สถิติที่คุณสนใจ
วัตถุประสงค์คือเมตริกที่ระบบแมชชีนเลิร์นนิงพยายามเพิ่มประสิทธิภาพ
Metrics API (tf.metrics)
TensorFlow API สําหรับการประเมินโมเดล เช่น tf.metrics.accuracy
จะกําหนดความถี่ที่การคาดการณ์ของโมเดลตรงกับป้ายกํากับ
ความเสียหายแบบ Minimax
ฟังก์ชันการสูญเสียสําหรับGenerative Adversarial Network ซึ่งอิงตาม Cross-Entropy ระหว่างการแจกแจงข้อมูลที่สร้างและข้อมูลจริง
มีการสูญเสียแบบ Minimax ในบทความแรกเพื่ออธิบาย Generative Adversarial Network
ดูข้อมูลเพิ่มเติมเกี่ยวกับฟังก์ชันการสูญเสียได้ในหลักสูตร Generative Adversarial Networks
ความจุของโมเดล
ความซับซ้อนของปัญหาที่โมเดลสามารถเรียนรู้ ยิ่งโมเดลเรียนรู้ปัญหาที่ซับซ้อนได้มากเท่าใด ความสามารถของโมเดลก็จะยิ่งสูงขึ้นเท่านั้น โดยปกติแล้ว ความสามารถของโมเดลจะเพิ่มขึ้นตามจำนวนพารามิเตอร์ของโมเดล ดูคำจำกัดความอย่างเป็นทางการของความสามารถในการจัดประเภทได้ที่มิติข้อมูล VC
N
คลาสเชิงลบ
ในการจัดประเภทแบบไบนารี คลาสหนึ่งจะเรียกว่าบวก และอีกคลาสหนึ่งจะเรียกว่าลบ คลาสที่เป็นบวกคือสิ่งหรือเหตุการณ์ที่โมเดลกำลังทดสอบ และคลาสที่เป็นลบคือความเป็นไปได้อื่นๆ เช่น
- คลาสเชิงลบในการทดสอบทางการแพทย์อาจเป็น "ไม่ใช่เนื้องอก"
- คลาสเชิงลบในตัวจัดประเภทอีเมลอาจเป็น "ไม่ใช่สแปม"
ตรงข้ามกับคลาสที่เป็นบวก
O
วัตถุประสงค์
เมตริกที่อัลกอริทึมพยายามเพิ่มประสิทธิภาพ
ฟังก์ชันวัตถุประสงค์
สูตรทางคณิตศาสตร์หรือเมตริกที่โมเดลมีเป้าหมายเพื่อเพิ่มประสิทธิภาพ เช่น ฟังก์ชันวัตถุประสงค์สําหรับการหาค่าสัมประสิทธ์เชิงเส้นมักจะเป็นความสูญเสียค่าเฉลี่ยสี่เหลี่ยม ดังนั้น เมื่อฝึกโมเดลการถดถอยเชิงเส้น การฝึกจะมีเป้าหมายเพื่อลดค่าเฉลี่ยของผลต่างของค่าที่คาดการณ์กับค่าจริงที่ยกกำลัง 2
ในบางกรณี เป้าหมายคือเพิ่มฟังก์ชันวัตถุประสงค์ให้มากที่สุด เช่น หากฟังก์ชันวัตถุประสงค์คือความถูกต้อง เป้าหมายคือเพื่อเพิ่มความแม่นยำสูงสุด
โปรดดูloss ด้วย
P
pass at k (pass@k)
เมตริกสำหรับพิจารณาคุณภาพของโค้ด (เช่น Python) ที่โมเดลภาษาขนาดใหญ่สร้างขึ้น กล่าวอย่างเจาะจงคือ ผ่านที่ k บอกความเป็นไปได้ที่บล็อกโค้ดที่สร้างขึ้นอย่างน้อย 1 บล็อกจากบล็อกโค้ดที่สร้างขึ้น k บล็อกจะผ่านการทดสอบ 1 หน่วยทั้งหมด
โมเดลภาษาขนาดใหญ่มักสร้างโค้ดที่ดีสำหรับปัญหาการเขียนโปรแกรมที่ซับซ้อนได้ยาก วิศวกรซอฟต์แวร์ปรับตัวให้เข้ากับปัญหานี้โดยกระตุ้นให้โมเดลภาษาขนาดใหญ่สร้างโซลูชันหลายรายการ (k) สำหรับปัญหาเดียวกัน จากนั้นวิศวกรซอฟต์แวร์จะทดสอบโซลูชันแต่ละรายการกับการทดสอบ 1 หน่วย การคํานวณการผ่านที่ k ขึ้นอยู่กับผลลัพธ์ของการทดสอบหน่วยดังนี้
- หากวิธีแก้ปัญหาเหล่านั้นอย่างน้อย 1 วิธีผ่านการทดสอบยูนิต LLM จะผ่านการทดสอบการสร้างโค้ด
- หากไม่มีโซลูชันใดผ่านการทดสอบยูนิต LLM จะไม่ผ่านภารกิจการสร้างโค้ด
สูตรสําหรับการผ่านที่ k มีดังนี้
pass at k=total number of passestotal number of challenges
โดยทั่วไป ค่า k ที่สูงขึ้นจะให้คะแนนผ่านที่สูงกว่าที่คะแนน k อย่างไรก็ตาม ค่า k ที่สูงขึ้นต้องใช้ทรัพยากรโมเดลภาษาขนาดใหญ่และการทดสอบหน่วยมากขึ้น
คลิกไอคอนเพื่อดูตัวอย่าง
การแสดง
คําที่มีความหมายหลายอย่างดังนี้
- ความหมายมาตรฐานในวิศวกรรมซอฟต์แวร์ กล่าวคือ ซอฟต์แวร์นี้ทำงานได้เร็ว (หรือมีประสิทธิภาพ) เพียงใด
- ความหมายในแมชชีนเลิร์นนิง ประสิทธิภาพจะตอบคำถามที่ว่าโมเดลนี้ถูกต้องเพียงใด กล่าวคือ การคาดการณ์ของโมเดลนั้นแม่นยำเพียงใด
ความสําคัญของตัวแปรการจัดเรียงสับเปลี่ยน
ความสำคัญของตัวแปรประเภทหนึ่งที่ประเมินการเพิ่มขึ้นของข้อผิดพลาดในการคาดการณ์ของโมเดลหลังจากการสับเปลี่ยนค่าของฟีเจอร์ ความสำคัญของตัวแปรการสับเปลี่ยนเป็นเมตริกที่ไม่ขึ้นอยู่กับรูปแบบ
ความงงงวย
หนึ่งในตัวชี้วัดว่าโมเดลทํางานได้ดีเพียงใด ตัวอย่างเช่น สมมติว่างานของคุณคืออ่านตัวอักษร 2-3 ตัวแรกของคำที่ผู้ใช้พิมพ์ในแป้นพิมพ์โทรศัพท์ และแสดงรายการคำที่เป็นไปได้ซึ่งเติมเต็มได้ ความสับสน P สําหรับงานนี้คือจํานวนการคาดเดาโดยประมาณที่คุณต้องเสนอเพื่อให้รายการของคุณมีคําที่ผู้ใช้พยายามพิมพ์
ความกำกวมเกี่ยวข้องกับCross-Entropy ดังนี้
คลาสที่เป็นบวก
ชั้นเรียนที่คุณทดสอบ
เช่น คลาสที่เป็นบวกในโมเดลโรคมะเร็งอาจเป็น "เนื้องอก" คลาสที่เป็นบวกในตัวจัดประเภทอีเมลอาจเป็น "จดหมายขยะ"
ตรงข้ามกับคลาสที่เป็นลบ
คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม
PR AUC (พื้นที่ใต้กราฟ PR)
พื้นที่ใต้กราฟที่หาค่าเฉลี่ยระหว่างค่าต่างๆ ของกราฟ Precision-Recall ซึ่งหาได้จากการวางจุด (ความแม่นยำ ความแม่นยำ) สำหรับค่าต่างๆ ของเกณฑ์การจัดประเภท
ความแม่นยำ
เมตริกสําหรับโมเดลการจัดหมวดหมู่ที่ตอบคำถามต่อไปนี้
เมื่อโมเดลคาดการณ์คลาสเชิงบวก การคาดการณ์ที่ถูกต้องมีเปอร์เซ็นต์เท่าใด
สูตรมีดังนี้
where:
- ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้ถูกต้อง
- ผลบวกลวงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกโดยไม่ได้ตั้งใจ
ตัวอย่างเช่น สมมติว่าโมเดลทำการคาดการณ์เชิงบวก 200 ครั้ง จากการคาดการณ์เชิงบวก 200 รายการนี้
- 150 รายการเป็นผลบวกจริง
- 50 รายการเป็นผลบวกลวง
ในกรณีนี้
ตรงข้ามกับความแม่นยำและการจดจำ
ดูข้อมูลเพิ่มเติมได้ในการจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้องในหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง
ความแม่นยำที่ k (precision@k)
เมตริกสําหรับประเมินรายการที่จัดอันดับ (เรียงลําดับ) ความแม่นยำที่ k จะระบุเศษส่วนของรายการ k รายการแรกในรายการนั้นซึ่ง "เกี่ยวข้อง" โดยการ
precision at k=relevant items in first k items of the listk
ค่าของ k ต้องน้อยกว่าหรือเท่ากับความยาวของลิสต์ที่แสดงผล โปรดทราบว่าความยาวของรายการที่แสดงผลไม่ได้เป็นส่วนหนึ่งของการคํานวณ
ความเกี่ยวข้องมักเป็นเรื่องส่วนตัว แม้แต่ผู้ประเมินที่เป็นมนุษย์ที่เชี่ยวชาญก็มักไม่เห็นด้วยว่ารายการใดมีความเกี่ยวข้อง
เปรียบเทียบกับ:
คลิกไอคอนเพื่อดูตัวอย่าง
เส้นโค้ง Precision-Recall
กราฟความแม่นยำเทียบกับความแม่นยำในการเรียกคืนที่เกณฑ์การจัดประเภทต่างๆ
อคติในการคาดการณ์
ค่าที่ระบุระยะห่างระหว่างค่าเฉลี่ยของการคาดการณ์กับค่าเฉลี่ยของป้ายกํากับในชุดข้อมูล
โปรดอย่าสับสนกับคำที่เป็นอคติในโมเดลแมชชีนเลิร์นนิง หรืออคติด้านจริยธรรมและความเป็นธรรม
ความเท่าเทียมตามการคาดการณ์
เมตริกความเป็นธรรมที่ตรวจสอบว่าอัตราความแม่นยำของโปรแกรมแยกประเภทหนึ่งๆ เทียบเท่ากันสำหรับกลุ่มย่อยที่พิจารณาหรือไม่
เช่น โมเดลที่คาดการณ์การยอมรับเข้าวิทยาลัยจะต้องเป็นไปตามความเท่าเทียมในการคาดการณ์สำหรับสัญชาติหากอัตราความแม่นยำของโมเดลนั้นเหมือนกันสำหรับชาวลิลลี่ปุตและชาวบราบิงแนก
บางครั้งเราจะเรียกความเท่าเทียมตามการคาดการณ์ว่าความเท่าเทียมตามอัตราที่คาดการณ์
ดูการอภิปรายเรื่องความเท่าเทียมตามการคาดการณ์โดยละเอียดได้ที่"คำอธิบายความเท่าเทียม" (ส่วนที่ 3.2.1)
อัตราที่เท่ากันตามการคาดการณ์
อีกชื่อของความเท่าเทียมตามการคาดการณ์
ฟังก์ชันความหนาแน่นของความน่าจะเป็น
ฟังก์ชันที่ระบุความถี่ของตัวอย่างข้อมูลที่มีค่าหนึ่งๆ ตรงกันทุกประการ เมื่อค่าของชุดข้อมูลเป็นตัวเลขทศนิยมต่อเนื่อง การจับคู่ที่ตรงกันทั้งหมดจะเกิดขึ้นน้อยมาก อย่างไรก็ตาม การผสานรวมฟังก์ชันความหนาแน่นความน่าจะเป็นจากค่า x
ถึงค่า y
จะให้ความถี่ที่คาดไว้ของตัวอย่างข้อมูลระหว่าง x
ถึง y
ตัวอย่างเช่น พิจารณาการแจกแจงแบบปกติที่มีค่าเฉลี่ย 200 และค่าเบี่ยงเบนมาตรฐาน 30 หากต้องการระบุความถี่ที่คาดไว้ของตัวอย่างข้อมูลซึ่งอยู่ในช่วง 211.4 ถึง 218.7 ให้ผสานฟังก์ชันความหนาแน่นความน่าจะเป็นของการแจกแจงแบบปกติจาก 211.4 ถึง 218.7
R
การเรียกคืน
เมตริกสําหรับโมเดลการจัดหมวดหมู่ที่ตอบคำถามต่อไปนี้
เมื่อข้อมูลจริงเป็นคลาสที่เป็นบวก เปอร์เซ็นต์การคาดการณ์ที่โมเดลระบุเป็นคลาสที่เป็นบวกอย่างถูกต้องคือเท่าใด
สูตรมีดังนี้
Recall=true positivestrue positives+false negatives
where:
- ผลบวกจริงหมายความว่าโมเดลคาดการณ์คลาสที่เป็นบวกได้ถูกต้อง
- ผลลบลวงหมายความว่าโมเดลคาดการณ์ผิดพลาดว่าคลาสเชิงลบ
ตัวอย่างเช่น สมมติว่าโมเดลของคุณทำการคาดการณ์ 200 ครั้งในตัวอย่างที่มีข้อมูลพื้นความจริงเป็นคลาสที่เป็นบวก จากการคาดการณ์ 200 รายการนี้
- 180 รายการเป็นผลบวกจริง
- 20 รายการเป็นผลลบลวง
ในกรณีนี้
Recall=180180+20=0.9
คลิกไอคอนเพื่อดูหมายเหตุเกี่ยวกับชุดข้อมูลที่คลาสไม่สมดุล
ดูข้อมูลเพิ่มเติมได้ที่การจัดประเภท: ความแม่นยำ การเรียกคืน ความแม่นยำ และเมตริกที่เกี่ยวข้อง
การจําที่ k (recall@k)
เมตริกสําหรับประเมินระบบที่แสดงรายการที่จัดอันดับ (เรียงลําดับ) การเรียกคืนที่ k จะระบุเศษส่วนของรายการที่เกี่ยวข้องในรายการ k รายการแรกในรายการนั้นจากจํานวนรายการที่เกี่ยวข้องทั้งหมดที่แสดง
recall at k=relevant items in first k items of the listtotal number of relevant items in the list
เปรียบเทียบกับความแม่นยำที่ k
คลิกไอคอนเพื่อดูตัวอย่าง
เส้นโค้ง ROC (Receiver Operating Characteristic)
กราฟของอัตราผลบวกจริงเทียบกับอัตราผลบวกลวงสําหรับเกณฑ์การจัดประเภทแบบต่างๆ ในการจัดประเภทแบบไบนารี
รูปร่างของเส้นโค้ง ROC บ่งบอกถึงความสามารถของโมเดลการจัดประเภทแบบไบนารีในการแยกคลาสที่เป็นบวกออกจากคลาสที่เป็นลบ ตัวอย่างเช่น สมมติว่าโมเดลการจัดประเภทแบบไบนารีแยกคลาสเชิงลบทั้งหมดออกจากคลาสเชิงบวกทั้งหมดได้อย่างสมบูรณ์
เส้นโค้ง ROC ของรูปแบบก่อนหน้ามีลักษณะดังนี้
ในทางตรงกันข้าม ภาพประกอบต่อไปนี้แสดงกราฟค่าการถดถอยเชิงลอจิสติกส์ดิบสําหรับโมเดลที่ทํางานได้แย่มากซึ่งแยกคลาสเชิงลบออกจากคลาสเชิงบวกไม่ได้เลย
เส้นโค้ง ROC ของรูปแบบนี้จะมีลักษณะดังนี้
ในทางกลับกัน โมเดลการจัดประเภทแบบไบนารีส่วนใหญ่จะแยกคลาสที่เป็นบวกและลบในระดับหนึ่ง แต่มักจะไม่แยกได้อย่างสมบูรณ์ ดังนั้น กราฟ ROC ทั่วไปจึงอยู่ตรงกลางระหว่าง 2 ค่าสุดขั้วนี้
จุดบนเส้นโค้ง ROC ที่ใกล้กับ (0.0,1.0) มากที่สุดจะระบุเกณฑ์การแยกประเภทที่เหมาะสมในทางทฤษฎี อย่างไรก็ตาม ปัญหาอื่นๆ ที่เกิดขึ้นจริงหลายประการส่งผลต่อการเลือกเกณฑ์การจัดประเภทที่เหมาะสม ตัวอย่างเช่น ผลลบเท็จอาจทำให้เกิดปัญหามากกว่าผลบวกเท็จ
เมตริกตัวเลขที่เรียกว่า AUC จะสรุปเส้นโค้ง ROC เป็นค่าทศนิยมเดียว
ค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (RMSE)
รากที่สองของความคลาดเคลื่อนเฉลี่ยกำลังสอง
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
กลุ่มเมตริกที่ประเมินการสรุปอัตโนมัติและรูปแบบการแปลด้วยคอมพิวเตอร์ เมตริก ROUGE จะระบุระดับที่ข้อความอ้างอิงซ้อนทับกับข้อความที่สร้างขึ้นของโมเดล ML แต่ละสมาชิกของครอบครัว ROUGE จะวัดผลการซ้อนทับกันด้วยวิธีที่แตกต่างกัน คะแนน ROUGE ที่สูงกว่าบ่งชี้ว่าข้อความอ้างอิงกับข้อความที่สร้างขึ้นมีความคล้ายคลึงกันมากกว่าคะแนน ROUGE ที่ต่ำกว่า
โดยปกติแล้วสมาชิกในครอบครัว ROUGE แต่ละคนจะสร้างเมตริกต่อไปนี้
- ความแม่นยำ
- การจดจำ
- F1
ดูรายละเอียดและตัวอย่างได้ที่
ROUGE-L
สมาชิกของตระกูล ROUGE ที่มุ่งเน้นที่ความยาวของอนุกรมย่อยที่พบร่วมกันยาวที่สุดในข้อความอ้างอิงและข้อความที่สร้างขึ้น สูตรต่อไปนี้จะคํานวณการเรียกคืนและความแม่นยําสําหรับ ROUGE-L
จากนั้นคุณสามารถใช้ F1 เพื่อรวมการเรียกคืน ROUGE-L และแม่นยำของ ROUGE-L ไว้ในเมตริกเดียว ดังนี้
คลิกไอคอนเพื่อดูตัวอย่างการคำนวณ ROUGE-L
ROUGE-L ไม่สนใจการขึ้นบรรทัดใหม่ในข้อความอ้างอิงและข้อความที่สร้างขึ้น ดังนั้นอนุกรมย่อยที่พบร่วมกันยาวที่สุดอาจข้ามหลายประโยค เมื่อข้อความอ้างอิงและข้อความที่สร้างขึ้นมีประโยคหลายประโยค โดยทั่วไปแล้ว รูปแบบของ ROUGE-L ที่ชื่อ ROUGE-Lsum จะถือเป็นเมตริกที่ดีกว่า ROUGE-Lsum จะระบุอนุกรมย่อยที่พบร่วมกันยาวที่สุดสำหรับประโยคแต่ละประโยคในย่อหน้า จากนั้นจะคํานวณค่าเฉลี่ยของอนุกรมย่อยที่พบร่วมกันยาวที่สุดเหล่านั้น
คลิกไอคอนเพื่อดูตัวอย่างการคำนวณ ROUGE-Lsum
ROUGE-N
ชุดเมตริกภายในตระกูล ROUGE ที่เปรียบเทียบ N-gram ที่ใช้ร่วมกันซึ่งมีขนาดที่แน่นอนในข้อความอ้างอิงและข้อความที่สร้างขึ้น เช่น
- ROUGE-1 จะวัดจํานวนโทเค็นที่ใช้ร่วมกันในข้อความอ้างอิงและข้อความที่สร้างขึ้น
- ROUGE-2 จะวัดจํานวน Bigram (2-gram) ที่แชร์ในข้อความอ้างอิงและข้อความที่สร้างขึ้น
- ROUGE-3 จะวัดจํานวน Trigram (3-gram) ที่แชร์ในข้อความอ้างอิงและข้อความที่สร้างขึ้น
คุณสามารถใช้สูตรต่อไปนี้เพื่อคํานวณการเรียกคืนและแม่นยําของ ROUGE-N สําหรับสมาชิกของตระกูล ROUGE-N
จากนั้นคุณสามารถใช้ F1 เพื่อรวมการเรียกคืน ROUGE-N และแม่นยำของ ROUGE-N ไว้ในเมตริกเดียว ดังนี้
คลิกไอคอนเพื่อดูตัวอย่าง
ROUGE-S
รูปแบบที่ยืดหยุ่นของ ROUGE-N ที่เปิดใช้การจับคู่ Skip-Gram กล่าวคือ ROUGE-N จะนับเฉพาะ N-gram ที่ตรงกันทุกประการ แต่ ROUGE-S จะนับ N-gram ที่แยกกันด้วยคำอย่างน้อย 1 คำด้วย เช่น โปรดคำนึงถึงสิ่งต่อไปนี้
- reference text: White clouds
- ข้อความที่สร้างขึ้น: เมฆสีขาวที่ลอยอยู่
เมื่อคํานวณ ROUGE-N 2-gram White clouds ไม่ตรงกับ White billowing clouds อย่างไรก็ตาม เมื่อคำนวณ ROUGE-S คำว่าเมฆสีขาวจะตรงกับเมฆสีขาวที่ลอยอยู่
R-squared
เมตริกการถดถอยที่ระบุความแปรปรวนของป้ายกํากับที่เกิดจากฟีเจอร์แต่ละรายการหรือชุดฟีเจอร์ ค่า R-squared คือค่าระหว่าง 0 ถึง 1 ซึ่งคุณตีความได้ดังนี้
- ค่า R-squared เท่ากับ 0 หมายความว่าความแปรปรวนของป้ายกำกับไม่ได้เกิดจากชุดฟีเจอร์
- ค่า R-squared เท่ากับ 1 หมายความว่าความแปรปรวนทั้งหมดของป้ายกํากับเกิดจากชุดฟีเจอร์
- ค่า R-squared ระหว่าง 0 ถึง 1 บ่งบอกถึงระดับที่ความหลากหลายของป้ายกำกับสามารถคาดการณ์ได้จากฟีเจอร์หนึ่งๆ หรือชุดฟีเจอร์ เช่น ค่า R ยกกำลังสอง 0.10 หมายความว่าความแปรปรวน 10 เปอร์เซ็นต์ในป้ายกำกับนั้นเกิดจากชุดฟีเจอร์ ค่า R ยกกำลังสอง 0.20 หมายความว่า 20 เปอร์เซ็นต์นั้นเกิดจากชุดฟีเจอร์ และอื่นๆ
ค่า R ยกกำลังสองคือค่ากำลังสองของสัมประสิทธิ์สหสัมพันธ์ของ Pearson ระหว่างค่าที่โมเดลคาดการณ์ไว้กับข้อมูลจากการสังเกตการณ์โดยตรง
S
การให้คะแนน
ส่วนหนึ่งของระบบการแนะนำที่ให้ค่าหรือการจัดอันดับสำหรับรายการแต่ละรายการที่สร้างขึ้นจากระยะการสร้างผู้สมัคร
การวัดความคล้ายคลึง
ในอัลกอริทึมการจัดกลุ่ม เมตริกที่ใช้เพื่อระบุความคล้ายคลึงกัน (ความคล้ายกัน) ของตัวอย่าง 2 รายการ
การขาดแคลนข้อมูล
จํานวนองค์ประกอบที่ตั้งค่าเป็น 0 (หรือ Null) ในเวกเตอร์หรือเมทริกซ์หารด้วยจํานวนรายการทั้งหมดในเวกเตอร์หรือเมทริกซ์นั้น ตัวอย่างเช่น ลองพิจารณาเมทริกซ์ที่มีองค์ประกอบ 100 รายการ ซึ่ง 98 เซลล์มีค่าเป็น 0 การคำนวณความถี่ต่ำมีดังนี้
ความถี่ต่ำของฟีเจอร์หมายถึงความถี่ต่ำของเวกเตอร์ฟีเจอร์ ส่วนความถี่ต่ำของโมเดลหมายถึงความถี่ต่ำของน้ำหนักโมเดล
ผลรวมของการสูญเสียบานพับกำลังสอง
ผลคูณของ การสูญเสียจากการเปิด/ปิด ผลรวมของการสูญเสียแบบสี่เหลี่ยมจัตุรัสจะลงโทษค่าที่ผิดปกติรุนแรงกว่าผลรวมของการสูญเสียแบบปกติ
ผลรวมของค่าสัมบูรณ์ของข้อผิดพลาด
คำพ้องความหมายของการสูญเสีย L2
T
การสูญเสียในการทดสอบ
เมตริกที่แสดงถึงการสูญเสียของโมเดลเทียบกับชุดทดสอบ เมื่อสร้างโมเดล คุณมักจะพยายามลดการสูญเสียในการทดสอบ เนื่องจากการสูญเสียในการทดสอบที่ต่ำเป็นสัญญาณคุณภาพที่ชัดเจนกว่าการสูญเสียในการฝึกที่ต่ำหรือการสูญเสียในการทดสอบที่ต่ำ
บางครั้งช่องว่างระหว่างการสูญเสียในชุดทดสอบกับการสูญเสียในชุดฝึกหรือชุดตรวจสอบที่มากอาจบ่งบอกว่าคุณต้องเพิ่มอัตราการปรับสมดุล
ความแม่นยำของ Top-K
เปอร์เซ็นต์ของเวลาที่ "ป้ายกำกับเป้าหมาย" ปรากฏในตำแหน่ง k แรกๆ ของรายการที่สร้างขึ้น รายการอาจเป็นคําแนะนําที่ปรับเปลี่ยนในแบบของคุณ หรือรายการสินค้าที่จัดเรียงตาม softmax
ความแม่นยำของ Top-k เรียกอีกอย่างว่าความแม่นยำที่ k
คลิกไอคอนเพื่อดูตัวอย่าง
ความเชื่อผิดๆ
ระดับที่เนื้อหาเป็นการละเมิด ข่มขู่ หรือทำให้เกิดความไม่พอใจ โมเดลแมชชีนเลิร์นนิงจำนวนมากสามารถระบุและวัดระดับความเป็นพิษได้ โมเดลส่วนใหญ่เหล่านี้จะระบุความเป็นพิษตามพารามิเตอร์หลายรายการ เช่น ระดับภาษาที่ไม่เหมาะสมและระดับภาษาที่เป็นภัย
การสูญเสียจากการฝึก
เมตริกที่แสดงถึงการสูญเสียของโมเดลระหว่างการทำซ้ำการฝึกหนึ่งๆ เช่น สมมติว่าฟังก์ชันการสูญเสียคือความคลาดเคลื่อนกำลังสองเฉลี่ย ตัวอย่างเช่น การสูญเสียในการฝึก (ข้อผิดพลาดค่าเฉลี่ยสี่เหลี่ยมจัตุรัส) ของการทำซ้ำครั้งที่ 10 คือ 2.2 และการสูญเสียในการฝึกของการทำซ้ำครั้งที่ 100 คือ 1.9
เส้นโค้งการสูญเสียจะแสดงการลดลงของการฝึกเทียบกับจํานวนการวนซ้ำ เส้นโค้งการสูญเสียจะให้คำแนะนำต่อไปนี้เกี่ยวกับการฝึก
- เส้นที่ลาดลงหมายความว่าโมเดลมีประสิทธิภาพดีขึ้น
- เส้นลาดขึ้นหมายความว่าโมเดลมีประสิทธิภาพแย่ลง
- เส้นลาดชันที่ราบเรียบหมายความว่าโมเดลบรรลุการบรรจบแล้ว
ตัวอย่างเช่น เส้นโค้งการสูญเสียต่อไปนี้ซึ่งค่อนข้างเป็นอุดมคติจะแสดงข้อมูลต่อไปนี้
- เส้นลาดลงชันในช่วงการทำซ้ำครั้งแรก ซึ่งหมายความว่าโมเดลได้รับการปรับปรุงอย่างรวดเร็ว
- เส้นลาดชันที่ค่อยๆ ราบลง (แต่ยังคงลดลง) จนใกล้ถึงช่วงสิ้นสุดการฝึก ซึ่งหมายความว่ามีการปรับปรุงโมเดลอย่างต่อเนื่องในอัตราที่ช้ากว่าช่วงการทำซ้ำครั้งแรก
- เส้นลาดชันที่ราบเรียบในช่วงท้ายของการฝึก ซึ่งบ่งบอกถึงการบรรจบ
แม้ว่าการสูญเสียระหว่างการฝึกจะมีความสำคัญ แต่โปรดดูการทั่วไปด้วย
ผลลบจริง (TN)
ตัวอย่างที่โมเดลคาดการณ์คลาสเชิงลบได้อย่างถูกต้อง ตัวอย่างเช่น โมเดลอนุมานว่าข้อความอีเมลหนึ่งๆ ไม่ใช่จดหมายขยะ และข้อความอีเมลนั้นไม่ใช่จดหมายขยะจริงๆ
ผลบวกจริง (TP)
ตัวอย่างที่โมเดลคาดการณ์คลาสที่เป็นบวกได้อย่างถูกต้อง เช่น โมเดลอนุมานว่าข้อความอีเมลหนึ่งๆ เป็นจดหมายขยะ และข้อความอีเมลนั้นจริงๆ แล้วเป็นจดหมายขยะ
อัตราผลบวกจริง (TPR)
คำพ้องความหมายของ recall โดยการ
อัตราผลบวกจริงคือแกน y ในกราฟ ROC
V
การสูญเสียการตรวจสอบ
เมตริกที่แสดงถึงความสูญเสียของโมเดลในชุดทดสอบระหว่างการทำซ้ำการฝึกหนึ่งๆ
โปรดดูเส้นโค้งทั่วไปด้วย
ความสำคัญของตัวแปร
ชุดคะแนนที่ระบุความสำคัญแบบสัมพัทธ์ของฟีเจอร์แต่ละรายการต่อโมเดล
เช่น ลองพิจารณาแผนภูมิการตัดสินใจซึ่งประเมินราคาบ้าน สมมติว่าแผนผังการตัดสินใจนี้ใช้ฟีเจอร์ 3 อย่าง ได้แก่ ขนาด อายุ และสไตล์ หากชุดความสำคัญของตัวแปรสำหรับฟีเจอร์ 3 รายการคำนวณออกมาเป็น {size=5.8, age=2.5, style=4.7} แสดงว่าขนาดมีความสําคัญต่อต้นไม้การตัดสินใจมากกว่าอายุหรือสไตล์
เมตริกความสำคัญของตัวแปรต่างๆ มีอยู่ ซึ่งสามารถให้ข้อมูลแก่ผู้เชี่ยวชาญด้าน ML เกี่ยวกับแง่มุมต่างๆ ของโมเดล
W
การสูญเสีย Wasserstein
ฟังก์ชันการสูญเสียอย่างหนึ่งที่ใช้กันโดยทั่วไปในเครือข่าย Generative Adversarial ซึ่งอิงตามระยะทาง Earth Mover's Distance ระหว่างการแจกแจงของข้อมูลที่สร้างขึ้นกับข้อมูลจริง