หน้านี้มีคำศัพท์ในอภิธานศัพท์ของ Decision Forest ดูคำศัพท์ทั้งหมดในอภิธานศัพท์ได้โดยการคลิกที่นี่
A
การสุ่มตัวอย่างแอตทริบิวต์
กลยุทธ์สำหรับการฝึกป่าการตัดสินใจ ซึ่งต้นไม้การตัดสินใจแต่ละต้นจะพิจารณาเฉพาะชุดย่อยแบบสุ่มของฟีเจอร์ที่เป็นไปได้เมื่อเรียนรู้เงื่อนไข โดยทั่วไป ระบบจะสุ่มตัวอย่างชุดย่อยของฟีเจอร์ที่แตกต่างกันสําหรับแต่ละโหนด ในทางตรงกันข้าม เมื่อฝึกต้นไม้การตัดสินใจโดยไม่มีการสุ่มตัวอย่างแอตทริบิวต์ ระบบจะพิจารณาฟีเจอร์ที่เป็นไปได้ทั้งหมดสำหรับแต่ละโหนด
เงื่อนไขที่สอดคล้องกับแกน
ในแผนภูมิการตัดสินใจ เงื่อนไขที่เกี่ยวข้องกับฟีเจอร์เพียงรายการเดียว ตัวอย่างเช่น หาก area
เป็นฟีเจอร์ เงื่อนไขที่สอดคล้องกับแกนจะเป็นดังนี้
area > 200
ตรงข้ามกับเงื่อนไขเอียง
B
ถุง
วิธีการฝึกชุดค่าผสม โดยโมเดลแต่ละรายการที่ประกอบกันจะฝึกจากชุดย่อยแบบสุ่มของตัวอย่างการฝึกที่ดึงตัวอย่างแบบสุ่มแทนที่ เช่น Random Forest คือชุดของDecision Tree ที่ผ่านการฝึกด้วย bagging
คําว่า bagging ย่อมาจาก bootstrap aggregating
ดูข้อมูลเพิ่มเติมเกี่ยวกับป่าแบบสุ่มในหลักสูตรป่าการตัดสินใจ
เงื่อนไขไบนารี
ในแผนภูมิการตัดสินใจ เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้เพียง 2 รายการ ซึ่งโดยทั่วไปคือใช่หรือไม่ ตัวอย่างเงื่อนไขแบบไบนารีมีดังนี้
temperature >= 100
ตรงข้ามกับเงื่อนไขแบบไม่ไบนารี
ดูข้อมูลเพิ่มเติมเกี่ยวกับประเภทเงื่อนไขในหลักสูตรป่าการตัดสินใจ
C
เงื่อนไข
ในแผนภูมิการตัดสินใจ โหนดใดก็ตามที่ประเมินนิพจน์ ตัวอย่างเช่น ส่วนต่อไปนี้ของแผนภูมิการตัดสินใจมี 2 เงื่อนไข
เงื่อนไขเรียกอีกอย่างว่าการแยกกลุ่มหรือการทดสอบ
เงื่อนไขคอนทราสต์กับ leaf
และดู:
ดูข้อมูลเพิ่มเติมเกี่ยวกับประเภทเงื่อนไขในหลักสูตรป่าการตัดสินใจ
D
ป่าการตัดสินใจ
โมเดลที่สร้างจากต้นไม้การตัดสินใจหลายรายการ ป่าการตัดสินใจจะทําการคาดการณ์โดยการรวบรวมการคาดการณ์ของต้นไม้การตัดสินใจ ป่าการตัดสินใจประเภทยอดนิยม ได้แก่ ป่าแบบสุ่มและต้นไม้ที่มีการเพิ่มประสิทธิภาพด้วย Gradient
ดูข้อมูลเพิ่มเติมได้ที่ส่วนป่าการตัดสินใจในหลักสูตรป่าการตัดสินใจ
แผนภูมิการตัดสินใจ
โมเดลการเรียนรู้ที่มีการควบคุมดูแลซึ่งประกอบด้วยชุดเงื่อนไขและใบที่จัดระเบียบเป็นลําดับชั้น ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้
E
เอนโทรปี
ใน ทฤษฎีสารสนเทศ หมายถึงคำอธิบายความคาดเดาไม่ได้ของรูปแบบความน่าจะเป็น หรืออาจหมายถึงปริมาณข้อมูลที่มีอยู่ในตัวอย่างแต่ละรายการ การแจกแจงข้อมูลจะมีเอนโทรปีสูงสุดเมื่อค่าทั้งหมดของตัวแปรแบบสุ่มมีแนวโน้มเท่าๆ กัน
เอนโทรปีของชุดที่มีค่าที่เป็นไปได้ 2 ค่า ได้แก่ "0" และ "1" (เช่น ป้ายกำกับในปัญหาการจัดประเภทแบบไบนารี) มีสูตรดังนี้
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
where:
- H คือเอนโทรปี
- p คือเศษส่วนของตัวอย่าง "1"
- q คือเศษส่วนของตัวอย่าง "0" โปรดทราบว่า q = (1 - p)
- log โดยทั่วไปคือ log2 ในกรณีนี้ หน่วยของข้อมูลเชิงซ้อนคือบิต
ตัวอย่างเช่น สมมติว่า
- ตัวอย่าง 100 รายการมีค่าเป็น "1"
- ตัวอย่าง 300 รายการมีค่าเป็น "0"
ดังนั้น ค่าเอนโทรปีคือ
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 บิตต่อตัวอย่าง
ชุดข้อมูลที่สมดุลกันโดยสมบูรณ์ (เช่น "0" 200 ตัวและ "1" 200 ตัว) จะมีเอนโทรปี 1.0 บิตต่อตัวอย่าง เมื่อชุดข้อมูลมีความไม่สมดุลมากขึ้น เอนโทรปีของชุดข้อมูลจะเข้าใกล้ 0.0
ในต้นไม้การตัดสินใจ เอนโทรปีช่วยสร้างการได้ข้อมูลเพื่อช่วยตัวแยกเลือกเงื่อนไขขณะที่ต้นไม้การตัดสินใจการจัดประเภทเติบโต
เปรียบเทียบเอนโทรปีกับข้อมูลต่อไปนี้
- ความไม่เป็นระเบียบของ Gini
- ฟังก์ชันการสูญเสียCross-Entropy
บางครั้งจะเรียกเอนโทรปีว่าเอนโทรปีของ Shannon
ดูข้อมูลเพิ่มเติมได้ในตัวแยกที่ตรงกันทั้งหมดสำหรับการแยกประเภทแบบ 2 กลุ่มด้วยฟีเจอร์ที่เป็นตัวเลขในหลักสูตรป่าการตัดสินใจ
F
ความสำคัญของฟีเจอร์
คำพ้องความหมายของความสำคัญของตัวแปร
G
ความไม่บริสุทธิ์ของจีนี
เมตริกที่คล้ายกับเอนโทรปี ตัวแยกใช้ค่าที่มาจากความไม่บริสุทธิ์ของ Gini หรือเอนโทรปีเพื่อสร้างเงื่อนไขสําหรับการจัดประเภทต้นไม้การตัดสินใจ การได้ข้อมูลมาจากเอนโทรปี ไม่มีคําที่เทียบเท่าซึ่งยอมรับกันทั่วโลกสําหรับเมตริกที่มาจากความไม่บริสุทธิ์ของ Gini แต่เมตริกที่ไม่มีชื่อนี้สําคัญพอๆ กับข้อมูลที่ได้รับ
ความไม่เป็นระเบียบของจีนีเรียกอีกอย่างว่าดัชนีจีนี หรือเรียกสั้นๆ ว่าจีนี
ต้นไม้ (การตัดสินใจ) ที่เพิ่มประสิทธิภาพด้วย Gradient (GBT)
ป่าการตัดสินใจประเภทหนึ่งซึ่งมีลักษณะดังนี้
- การฝึกอบรมใช้การเพิ่มประสิทธิภาพด้วย Gradient Boosting
- โมเดลที่มีประสิทธิภาพต่ำคือแผนภูมิการตัดสินใจ
ดูข้อมูลเพิ่มเติมเกี่ยวกับต้นไม้การตัดสินใจที่มีการเพิ่มประสิทธิภาพด้วย Gradient ในหลักสูตรป่าการตัดสินใจ
การบูสต์ด้วย Gradient
อัลกอริทึมการฝึกที่ฝึกโมเดลที่มีประสิทธิภาพต่ำเพื่อปรับปรุงคุณภาพ (ลดการสูญเสีย) ของโมเดลที่มีประสิทธิภาพสูงซ้ำๆ เช่น รูปแบบที่มีประสิทธิภาพต่ำอาจเป็นรูปแบบต้นไม้การตัดสินใจเชิงเส้นหรือขนาดเล็ก โมเดลที่มีประสิทธิภาพจะกลายเป็นผลรวมของโมเดลที่มีประสิทธิภาพต่ำทั้งหมดที่เคยฝึกไว้ก่อนหน้านี้
ในรูปแบบที่ง่ายที่สุดของการเพิ่มประสิทธิภาพด้วย Gradient Boosting จะมีการนําโมเดลที่มีประสิทธิภาพต่ำไปฝึกในแต่ละรอบเพื่อคาดการณ์ Gradient ของการสูญเสียของโมเดลที่มีประสิทธิภาพสูง จากนั้นระบบจะอัปเดตเอาต์พุตของโมเดลที่มีประสิทธิภาพสูงโดยการลบอนุพันธ์ที่คาดการณ์ไว้ ซึ่งคล้ายกับการลดอนุพันธ์
where:
- $F_{0}$ คือโมเดลเริ่มต้นที่มีประสิทธิภาพ
- $F_{i+1}$ คือโมเดลที่มีประสิทธิภาพสูงสุดถัดไป
- $F_{i}$ คือโมเดลที่มีประสิทธิภาพในปัจจุบัน
- $\xi$ คือค่าระหว่าง 0.0 ถึง 1.0 ที่เรียกว่าการหดตัว ซึ่งคล้ายกับอัตราการเรียนรู้ในการลดค่าของอนุพันธ์
- $f_{i}$ คือโมเดลที่มีประสิทธิภาพต่ำซึ่งได้รับการฝึกให้คาดการณ์อนุพันธ์ของ Loss ของ $F_{i}$
รูปแบบสมัยใหม่ของการเพิ่มประสิทธิภาพด้วย Gradient Boosting ยังรวมอนุพันธ์ที่ 2 (Hessian) ของการสูญเสียในการคำนวณด้วย
แผนผังการตัดสินใจมักใช้เป็นโมเดลที่มีประสิทธิภาพต่ำในการเพิ่มประสิทธิภาพด้วย Gradient ดูต้นไม้ (การตัดสินใจ) ที่เพิ่มประสิทธิภาพด้วย Gradient
I
เส้นทางการอนุมาน
ในแผนผังการตัดสินใจ ระหว่างการอนุมาน เส้นทางที่ตัวอย่างหนึ่งๆ ใช้ในการไปยังรูทไปยังเงื่อนไขอื่นๆ จะสิ้นสุดที่ใบ เช่น ในแผนผังการตัดสินใจต่อไปนี้ ศรที่หนาขึ้นแสดงเส้นทางการอนุมานสําหรับตัวอย่างที่มีค่าฟีเจอร์ดังต่อไปนี้
- x = 7
- y = 12
- z = -3
เส้นทางการอนุมานในภาพประกอบต่อไปนี้จะผ่านเงื่อนไข 3 รายการก่อนที่จะไปถึงใบไม้ (Zeta
)
ลูกศรหนา 3 เส้นแสดงเส้นทางการอนุมาน
ดูข้อมูลเพิ่มเติมเกี่ยวกับแผนผังการตัดสินใจในหลักสูตรป่าการตัดสินใจ
ข้อมูลที่ได้รับ
ในป่าการตัดสินใจ ความแตกต่างระหว่างเอนโทรปีของโหนดกับผลรวมของเอนโทรปีของโหนดย่อยที่มีน้ำหนัก (ตามจำนวนตัวอย่าง) เอนโทรปีของโหนดคือเอนโทรปีของตัวอย่างในโหนดนั้น
ตัวอย่างเช่น ลองพิจารณาค่าเอนโทรปีต่อไปนี้
- เอนโทรปีของโหนดหลัก = 0.6
- เอนโทรปีของโหนดย่อย 1 รายการที่มีตัวอย่างที่เกี่ยวข้อง 16 รายการ = 0.2
- เอนโทรปีของโหนดย่อยอีกโหนดหนึ่งซึ่งมีตัวอย่างที่เกี่ยวข้อง 24 รายการ = 0.1
ดังนั้น 40% ของตัวอย่างจะอยู่ในโหนดย่อยโหนดหนึ่ง และ 60% จะอยู่ในโหนดย่อยอีกโหนดหนึ่ง ดังนั้น
- ผลรวมของเอนโทรปีถ่วงน้ำหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
ดังนั้น ข้อมูลที่ได้รับคือ
- อัตราข้อมูลที่ได้รับ = เอนโทรปีของโหนดหลัก - ผลรวมของเอนโทรปีที่ถ่วงน้ำหนักของโหนดย่อย
- ข้อมูลที่ได้รับ = 0.6 - 0.14 = 0.46
ตัวแยกส่วนใหญ่พยายามสร้างเงื่อนไขเพื่อเพิ่มปริมาณข้อมูลที่ได้สูงสุด
เงื่อนไขในชุด
ในแผนภูมิการตัดสินใจ เงื่อนไขที่ทดสอบการมีอยู่ของรายการหนึ่งๆ ในชุดรายการ ตัวอย่างเช่น เงื่อนไขในชุดคำสั่งต่อไปนี้
house-style in [tudor, colonial, cape]
ในระหว่างการอนุมาน หากค่าของฟีเจอร์สไตล์บ้านคือ tudor
หรือ colonial
หรือ cape
เงื่อนไขนี้จะประเมินเป็น "ใช่" หากค่าของฟีเจอร์สไตล์บ้านเป็นค่าอื่น (เช่น ranch
) เงื่อนไขนี้จะประเมินผลเป็น "ไม่"
โดยทั่วไปแล้ว เงื่อนไขในชุดมักจะทําให้ต้นไม้การตัดสินใจมีประสิทธิภาพมากกว่าเงื่อนไขที่ทดสอบฟีเจอร์ที่เข้ารหัสแบบฮอตเวิร์ก
L
ใบไม้
จุดสิ้นสุดใดก็ได้ในแผนภูมิการตัดสินใจ ลีฟจะไม่ทําการทดสอบ ต่างจากเงื่อนไข แต่ใบไม้เป็นค่าคาดการณ์ที่เป็นไปได้ ใบไม้ยังเป็นโหนดสิ้นสุดของเส้นทางการอนุมานด้วย
ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้มีใบ 3 ใบ
N
โหนด (แผนภูมิการตัดสินใจ)
ในแผนภูมิการตัดสินใจ เงื่อนไขหรือใบ
เงื่อนไขที่ไม่ใช่ไบนารี
เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ ตัวอย่างเช่น เงื่อนไขที่ไม่ใช่แบบ 2 ค่าต่อไปนี้มีผลลัพธ์ที่เป็นไปได้ 3 รายการ
O
เงื่อนไขเอียง
ในแผนภูมิการตัดสินใจ เงื่อนไขที่เกี่ยวข้องกับฟีเจอร์มากกว่า 1 รายการ เช่น หากทั้งความสูงและความกว้างเป็นฟีเจอร์ เงื่อนไขต่อไปนี้จะเป็นเงื่อนไขเอียง
height > width
ตรงข้ามกับเงื่อนไขที่สอดคล้องกับแกน
การประเมินนอกกลุ่ม (การประเมิน OOB)
กลไกในการประเมินคุณภาพของป่าการตัดสินใจโดยทดสอบแผนผังการตัดสินใจแต่ละรายการกับตัวอย่าง ที่ไม่ได้ใช้ระหว่างการฝึกแผนผังการตัดสินใจนั้น ตัวอย่างเช่น ในแผนภาพต่อไปนี้ โปรดสังเกตว่าระบบจะฝึกต้นไม้การตัดสินใจแต่ละต้นโดยใช้ตัวอย่างประมาณ 2 ใน 3 รายการ จากนั้นจะประเมินกับตัวอย่างที่เหลืออีก 1 ใน 3
การประเมิน Out-of-bag เป็นการประมาณที่ประหยัดและอนุรักษ์นิยมในการประมวลผลกลไกการทดสอบไขว้ ในการทดสอบไขว้ ระบบจะฝึกโมเดล 1 โมเดลในแต่ละรอบการทดสอบไขว้ (เช่น ฝึกโมเดล 10 โมเดลในการทดสอบไขว้ 10 เท่า) เมื่อใช้การประเมิน OOB ระบบจะฝึกโมเดลเดียว เนื่องจาก bagging เก็บข้อมูลบางส่วนจากแต่ละต้นไม้ไว้ในระหว่างการฝึก การประเมิน OOB จึงใช้ข้อมูลดังกล่าวเพื่อประมาณการทดสอบไขว้ได้
P
ความสำคัญของตัวแปรการจัดเรียงสับเปลี่ยน
ความสำคัญของตัวแปรประเภทหนึ่งที่ประเมินการเพิ่มขึ้นของข้อผิดพลาดในการคาดการณ์ของโมเดลหลังจากการสับเปลี่ยนค่าของฟีเจอร์ ความสำคัญของตัวแปรการสับเปลี่ยนเป็นเมตริกที่ไม่ขึ้นอยู่กับรูปแบบ
R
Random Forest
ชุดค่าผสมของต้นไม้การตัดสินใจ ซึ่งแต่ละต้นได้รับการฝึกด้วยสัญญาณรบกวนแบบสุ่มที่เฉพาะเจาะจง เช่น การแบ่งกลุ่ม
ป่าแบบสุ่มเป็นป่าการตัดสินใจประเภทหนึ่ง
รูท
โหนดเริ่มต้น (เงื่อนไขแรก) ในแผนภูมิการตัดสินใจ ตามธรรมเนียมแล้ว แผนภาพจะวางรูทไว้ที่ด้านบนของแผนภูมิการตัดสินใจ เช่น
S
การสุ่มตัวอย่างแบบสุ่มตัวอย่างแทนที่
วิธีการเลือกรายการจากชุดรายการที่เป็นไปได้ ซึ่งสามารถเลือกรายการเดียวกันได้หลายครั้ง วลี "แบบสุ่มแทนที่" หมายความว่าหลังจากเลือกแต่ละรายการแล้ว ระบบจะส่งรายการที่เลือกกลับไปยังกลุ่มรายการที่เป็นไปได้ วิธีการแบบย้อนกลับคือการสุ่มตัวอย่างแบบไม่แทนที่ ซึ่งหมายความว่าจะเลือกรายการที่ตรงตามเกณฑ์ได้เพียงครั้งเดียว
ตัวอย่างเช่น ลองพิจารณาชุดผลไม้ต่อไปนี้
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
สมมติว่าระบบสุ่มเลือก fig
เป็นรายการแรก
หากใช้การสุ่มตัวอย่างแบบแทนที่ ระบบจะเลือกรายการที่ 2 จากชุดต่อไปนี้
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
ใช่ ชุดนั้นเหมือนกันกับก่อนหน้านี้ ระบบจึงอาจเลือก fig
อีกครั้ง
หากใช้การสุ่มตัวอย่างแบบไม่แทนที่ เมื่อเลือกตัวอย่างแล้ว คุณจะเลือกตัวอย่างนั้นไม่ได้อีก ตัวอย่างเช่น หากระบบสุ่มเลือก fig
เป็นตัวอย่างแรก ระบบจะไม่เลือก fig
อีกครั้ง ดังนั้น ระบบจะเลือกตัวอย่างที่ 2 จากชุด (ที่ลดลง) ต่อไปนี้
fruit = {kiwi, apple, pear, cherry, lime, mango}
การหดตัว
ไฮเปอร์พารามิเตอร์ในการเพิ่มประสิทธิภาพด้วยการเพิ่มการถดถอยที่ควบคุมการประมาณที่มากเกินไป การลดลงในการเพิ่มประสิทธิภาพด้วยการเพิ่มการลาดชันจะคล้ายกับอัตราการเรียนรู้ในการลดการลาดชัน การหดตัวคือค่าทศนิยมระหว่าง 0.0 ถึง 1.0 ค่าการหดตัวที่ต่ำลงจะช่วยลดการพอดีมากเกินไปได้มากกว่าค่าการหดตัวที่สูง
แยก
ในแผนภูมิการตัดสินใจ ชื่อเรียกอีกอย่างของเงื่อนไข
ตัวแยก
ขณะฝึกแผนผังการตัดสินใจ รูทีน (และอัลกอริทึม) จะมีหน้าที่ค้นหาเงื่อนไขที่ดีที่สุดในแต่ละโหนด
T
ทดสอบ
ในแผนภูมิการตัดสินใจ ชื่อเรียกอีกอย่างของเงื่อนไข
เกณฑ์ (สําหรับแผนภูมิการตัดสินใจ)
ในเงื่อนไขที่สอดคล้องกับแกน ค่าที่องค์ประกอบจะเปรียบเทียบด้วย ตัวอย่างเช่น 75 คือค่าเกณฑ์ในเงื่อนไขต่อไปนี้
grade >= 75
V
ความสำคัญของตัวแปร
ชุดคะแนนที่ระบุความสำคัญแบบสัมพัทธ์ของฟีเจอร์แต่ละรายการต่อโมเดล
เช่น ลองพิจารณาแผนภูมิการตัดสินใจซึ่งประเมินราคาบ้าน สมมติว่าแผนผังการตัดสินใจนี้ใช้ฟีเจอร์ 3 อย่าง ได้แก่ ขนาด อายุ และสไตล์ หากชุดความสำคัญของตัวแปรสำหรับฟีเจอร์ 3 รายการคำนวณออกมาเป็น {size=5.8, age=2.5, style=4.7} แสดงว่าขนาดมีความสําคัญต่อต้นไม้การตัดสินใจมากกว่าอายุหรือสไตล์
เมตริกความสำคัญของตัวแปรต่างๆ มีอยู่ ซึ่งสามารถให้ข้อมูลแก่ผู้เชี่ยวชาญด้าน ML เกี่ยวกับแง่มุมต่างๆ ของโมเดล
W
ภูมิปัญญาของมวลชน
แนวคิดที่ว่าค่าเฉลี่ยของความคิดเห็นหรือการประมาณของคนกลุ่มใหญ่ ("ฝูงชน") มักจะให้ผลลัพธ์ที่ดีมากจนน่าประหลาดใจ เช่น เกมที่ผู้คนต้องเดาจำนวนถั่วเยลลี่ที่บรรจุในโถขนาดใหญ่ แม้ว่าการคาดเดาของแต่ละคนส่วนใหญ่จะไม่ถูกต้อง แต่ค่าเฉลี่ยของการคาดเดาทั้งหมดได้รับการพิสูจน์แล้วว่าใกล้เคียงกับจำนวนเยลลี่บีนจริงในโถอย่างน่าประหลาดใจ
ชุดค่าผสมเป็นซอฟต์แวร์ที่ทำงานคล้ายกับภูมิปัญญาของมวลชน แม้ว่าโมเดลแต่ละรายการจะคาดการณ์อย่างไม่ถูกต้อง แต่การหาค่าเฉลี่ยของการคาดการณ์ของโมเดลหลายรายการมักจะให้ผลการคาดการณ์ที่แม่นยำอย่างน่าประหลาดใจ ตัวอย่างเช่น แม้ว่าต้นไม้การตัดสินใจแต่ละต้นอาจทําการคาดการณ์ได้ไม่ดี แต่ป่าการตัดสินใจมักจะทําการคาดการณ์ได้ดีมาก