หน้านี้มีคําในอภิธานศัพท์ของ Decision Forests สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่
A
การสุ่มตัวอย่างแอตทริบิวต์
กลยุทธ์สําหรับการฝึกอบรมป่าแห่งการตัดสินใจ ซึ่งโครงสร้างการตัดสินใจแต่ละรายการจะพิจารณาเพียงกลุ่มย่อยของฟีเจอร์ที่เป็นไปได้เมื่อเรียนรู้เงื่อนไข โดยทั่วไป ชุดย่อยของฟีเจอร์แต่ละชุดจะมีการสุ่มตัวอย่างโหนดแต่ละรายการ ในทางตรงกันข้าม เมื่อฝึกโครงสร้างการตัดสินใจโดยไม่นําแอตทริบิวต์ไปใช้ ระบบจะพิจารณาฟีเจอร์ที่เป็นไปได้ทั้งหมดสําหรับโหนดแต่ละรายการ
เงื่อนไขตามแกน
ในแผนผังการตัดสินใจ เงื่อนไขที่เกี่ยวข้องกับฟีเจอร์เพียงรายการเดียว ตัวอย่างเช่น หากพื้นที่เป็นจุดสนใจ เงื่อนไขต่อไปนี้จะเป็นเงื่อนไขที่สอดคล้องกับแกน
area > 200
คอนทราสต์กับเงื่อนไขทึบ
ข
กระเป๋า
วิธีฝึกกลุ่มตัวอย่างที่แต่ละโมเดลจะใช้ฝึกชุดย่อยของตัวอย่างการฝึกแบบสุ่มที่ยกตัวอย่างมาแทนที่ ตัวอย่างเช่น ป่าแบบสุ่มคือคอลเล็กชันของต้นไม้แห่งการตัดสินใจที่ฝึกให้กระเป๋าเดินทาง
คําว่ากระเป๋าย่อมาจากbootstrap aggregating
เงื่อนไขไบนารี
ในแผนผังการตัดสินใจ เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้เพียง 2 รายการ ซึ่งโดยทั่วไปจะเป็น yes หรือ no ดังตัวอย่างต่อไปนี้เป็นเงื่อนไขไบนารี
temperature >= 100
ตรงข้ามกับเงื่อนไขที่ไม่ใช่ไบนารี
ค
เงื่อนไข
ในแผนผังการตัดสินใจ โหนดใดๆ ที่ประเมินนิพจน์ ตัวอย่างเช่น ส่วนต่อไปนี้ของแผนผังการตัดสินใจจะมีเงื่อนไข 2 เงื่อนไข
เงื่อนไขเรียกอีกอย่างว่าการแยกหรือการทดสอบ
เงื่อนไขคอนทราสต์ด้วยใบไม้
และดู:
D
ป่าแห่งการตัดสินใจ
โมเดลที่สร้างจากต้นไม้แห่งการตัดสินใจหลายต้น ป่าแห่งการตัดสินใจช่วยคาดการณ์โดยการรวมการคาดการณ์ของต้นไม้การตัดสินใจ ป่าไม้ที่ได้รับความนิยมบางประเภท ได้แก่ ป่าแบบสุ่มและต้นไม้ที่เร่งการไล่ระดับสี
แผนผังการตัดสินใจ
แบบจําลองการเรียนรู้ที่มีการควบคุมดูแลประกอบด้วยชุดเงื่อนไขและใบไม้ที่จัดเรียงตามลําดับชั้น ตัวอย่างต่อไปนี้คือแผนผังการตัดสินใจ
จ.
เอนโทรปี
ในทฤษฎีสารสนเทศ คําอธิบายของคําอธิบายความไม่แน่นอนของการกระจายความน่าจะเป็น หรือนอกจากนี้ เอนโทรปียังกําหนดด้วยว่า ตัวอย่างแต่ละรายการมีข้อมูลมากน้อยเพียงใด การกระจายจะมีเอนโทรปีสูงสุดเท่าที่จะเป็นไปได้เมื่อค่าทั้งหมดของตัวแปรแบบสุ่มมีแนวโน้มเท่ากัน
เอนโทรปีของชุดที่มีค่าที่เป็นไปได้ 2 ค่า "0" และ "1" (เช่น ป้ายกํากับในปัญหาการแยกประเภทไบนารี) มีสูตรต่อไปนี้
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
ที่ไหน:
- H เป็นเอนโทรปี
- p คือส่วนของ "1" ตัวอย่าง
- q คือตัวอย่างของ "0" โปรดทราบว่า q = (1 - p)
- log โดยทั่วไปคือบันทึก2 ในกรณีนี้ หน่วยเอนโทรปีจะค่อนข้างช้า
ตัวอย่างเช่น สมมติว่า
- 100 ตัวอย่างมีค่า "1"
- ตัวอย่าง 300 รายการมีค่า "0"
ดังนั้น ค่าเอนโทรปีคือ
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 บิตต่อตัวอย่าง
ชุดที่สร้างสมดุลอย่างสมบูรณ์แบบ (เช่น 200 "0"s และ 200 "1"s) จะมีเอนโทรปี 1.0 บิตต่อตัวอย่าง เมื่อเปลี่ยนการตั้งค่าเป็นไม่สมดุล เอนโทรปีของพวกมันก็จะเลื่อนไปเป็น 0.0
ในต้นไม้แห่งการตัดสินใจ เอนโทรปีจะช่วยสร้างข้อมูลที่ได้รับเพื่อช่วยโปรแกรมแยกเลือกเงื่อนไขระหว่างการเติบโตของแผนผังการตัดสินใจเรื่องการแยกประเภท
เปรียบเทียบเอนโทรปีกับ:
- ความบกพร่องทางร่างกาย
- ฟังก์ชันการสูญเสียเอนโทรปี-เอ็นจิน
เอนโทรปีมักจะเรียกเอนโทรปีจาก Shannon'
ศ
ความสําคัญของฟีเจอร์
คําพ้องความหมายสําหรับความสําคัญของตัวแปร
G
ความบกพร่องของจินนี่
เมตริกที่คล้ายกับ entropy สปลิตเตอร์ ใช้ค่าที่ได้จากความบกพร่องของกีนีหรือเอนโทรปีเพื่อเขียน เงื่อนไขสําหรับการแยกประเภท ต้นไม้แห่งการตัดสินใจ การรับข้อมูลได้มาจากเอนโทรปี ไม่มีคําที่เทียบเท่าที่ยอมรับในระดับสากลสําหรับเมตริกที่ได้มาจากความไม่แน่นอนของจินนี แต่เมตริกที่ไม่มีชื่อนี้สําคัญพอๆ กับการเพิ่มข้อมูล
ผู้ที่มีความบกพร่องของ Gini เรียกอีกอย่างว่าดัชนี Gini หรือเรียกสั้นๆ ว่า Gini
การเพิ่มระดับการไล่ระดับสี
อัลกอริทึมการฝึกที่มีการฝึกโมเดลที่รัดกุมซึ่งจะช่วยปรับปรุงซ้ําๆ (ลดความสูญเสีย) ของโมเดลที่มีประสิทธิภาพ เช่น โมเดลที่รัดกุมอาจเป็นรูปแบบการตัดสินใจแบบเชิงเส้นหรือแผนผังต้นไม้ขนาดเล็ก โมเดลที่แข็งแกร่งนี้จะกลายเป็นผลรวมของโมเดลที่เราอ่อนก่อนหน้านี้ทั้งหมดที่ผ่านการฝึกแล้ว
ด้วยรูปแบบการเพิ่มระดับการไล่ระดับสีที่ง่ายที่สุด ในการทําซ้ําแต่ละครั้ง โมเดลที่แข็งแกร่งจะได้รับการฝึกให้คาดการณ์การไล่ระดับสีสูญเสียของโมเดลที่มีประสิทธิภาพ จากนั้น ระบบจะอัปเดตเอาต์พุตของโมเดลที่รุนแรงโดยการนําการไล่ระดับสีที่คาดออก ซึ่งคล้ายกับการไล่ระดับแบบไล่ระดับสี
ที่ไหน:
- $F_{0}$ เป็นรูปแบบที่แข็งแกร่งตั้งแต่ต้น
- $F_{i+1}$ คือต้นแบบที่แข็งแกร่งต่อไป
- $F_{i}$ เป็นโมเดลที่แข็งแกร่งในปัจจุบัน
- $\xi$ คือค่าระหว่าง 0.0 ถึง 1.0 ที่เรียกว่า shฉากage ซึ่งคล้ายกับอัตราการเรียนรู้ในไล่ระดับแบบไล่ระดับสี
- $f_{i}$ คือโมเดลที่คาดเดาง่ายซึ่งฝึกให้คาดการณ์การไล่ระดับสีของการสูญเสีย $F_{i}$
การเพิ่มประสิทธิภาพการไล่ระดับสีรูปแบบต่างๆ สมัยใหม่ยังรวมถึงอนุพันธ์ของอนุภาค (Hessian) ที่สูญเสียในการคํานวณ
ต้นไม้แห่งการตัดสินใจมักใช้เป็นรูปแบบที่อ่อนในการกระตุ้นการไล่ระดับสี ดูต้นไม้แบบไล่ระดับการไล่ระดับสี (การตัดสินใจ)
การไล่ระดับแบบไล่ระดับสี (การตัดสินใจ) (GBT)
ป่าแห่งการตัดสินใจประเภทหนึ่งซึ่งมีลักษณะดังนี้
- การฝึกอบรมต้องใช้การกระตุ้นการไล่ระดับสี
- โมเดลที่ไม่สมบูรณ์คือแผนผังการตัดสินใจ
I
เส้นทางการอนุมาน
ในตารางการตัดสินใจ ในระหว่างการอนุมาน เส้นทางที่ตัวอย่างใช้จากรากไปยังเงื่อนไขอื่นๆ สิ้นสุดด้วยใบ เช่น ในแผนผังการตัดสินใจต่อไปนี้ ลูกศรหนาจะแสดงเส้นทางการอนุมานสําหรับตัวอย่างที่มีค่าฟีเจอร์ดังต่อไปนี้
- x = 7
- y = 12
- z = -3
เส้นทางการอนุมานในภาพประกอบต่อไปนี้เดินทางผ่าน 3 เงื่อนไขก่อนที่จะไปถึงใบไม้ (Zeta
)
ลูกศรหนา 3 เส้นแสดงเส้นทางการอนุมาน
การรับข้อมูล
ในป่าการตัดสินใจ ความแตกต่างระหว่างเอนโทรปีและโหนดที่ถ่วงน้ําหนัก (ตามจํานวนตัวอย่าง) ของเอนโทรปีของโหนดย่อย เอนโทรปีของโหนดคือเอนโทรปีของตัวอย่างในโหนดนั้น
ตัวอย่างเช่น ให้คุณพิจารณาค่าเอนโทรปีดังนี้
- เอนโทรปีของโหนดหลัก = 0.6
- เอนโทรปีหนึ่งของโหนดย่อยที่มีตัวอย่างที่เกี่ยวข้อง 16 โหนด = 0.2
- เอนโทรปีของโหนดย่อยอื่นที่มีตัวอย่างที่เกี่ยวข้อง 24 รายการ = 0.1
ดังนั้น 40% ของตัวอย่างอยู่ในโหนดย่อยหนึ่ง และ 60% อยู่ในโหนดย่อยอื่นๆ ดังนั้น
- ผลรวมเอนโทรปีแบบถ่วงน้ําหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
ผลลัพธ์ที่ได้คือ
- การรับข้อมูล = เอนโทรปีของโหนดหลัก - ผลรวมของเอนโทรปีแบบถ่วงน้ําหนักของโหนดย่อย
- การรับข้อมูล = 0.6 - 0.14 = 0.46
โปรแกรมแยกข้อความส่วนใหญ่พยายามสร้างเงื่อนไขที่เพิ่มข้อมูลให้ได้มากที่สุด
เงื่อนไขที่ตั้งค่าไว้
ในแผนผังการตัดสินใจ เงื่อนไขที่ทดสอบรายการ 1 รายการในชุดรายการ ตัวอย่างเช่น เงื่อนไขเริ่มต้นมีดังต่อไปนี้
house-style in [tudor, colonial, cape]
ในระหว่างอนุมาน หากค่าของฟีเจอร์สไตล์บ้านเป็น tudor
หรือ colonial
หรือ cape
เงื่อนไขนี้จะประเมินเป็น "ใช่" หากค่าของฟีเจอร์สไตล์บ้านไม่ใช่สิ่งอื่น (เช่น ranch
)
เงื่อนไขนี้จะประเมินเป็น "ไม่"
เงื่อนไขในการตั้งค่ามักจะทําให้แผนผังการตัดสินใจมีประสิทธิภาพมากกว่าเงื่อนไขที่ทดสอบฟีเจอร์ที่เข้ารหัสแบบใช้ครั้งเดียว
L
ใบไม้
ปลายทางในแผนผังการตัดสินใจ ใบไม้ไม่เหมือนกับการทดสอบสภาพสินค้า ใบไม้เป็นการคาดคะเนที่อาจเป็นไปได้ ใบไม้ยังเป็นเทอร์มินัล โหนดของเส้นทางการอนุมานด้วย
เช่น แผนผังการตัดสินใจต่อไปนี้มี 3 ใบ
ไม่ใช่
โหนด (แผนผังการตัดสินใจ)
ในแผนผังการตัดสินใจ เงื่อนไขหรือใบไม้ทั้งหมด
นอนไบนารี
เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ ตัวอย่างเช่น เงื่อนไขที่ไม่ใช่ไบนารีมี 3 รายการต่อไปนี้
O
เงื่อนไขแบบเอียง
ในแผนผังการตัดสินใจ เงื่อนไขที่เกี่ยวข้องกับฟีเจอร์มากกว่า 1 รายการ เช่น หากทั้งความสูงและความกว้างเป็นฟีเจอร์ทั้ง 2 รายการ เงื่อนไขจะเป็นแบบเอียง
height > width
ตรงข้ามกับเงื่อนไขที่เป็นไปตามแกน
การประเมินปัญหาสัมภาระไม่เสร็จสิ้น (การประเมินจาก OOB)
กลไกในการประเมินคุณภาพของป่าแห่งการตัดสินใจโดยการทดสอบแต่ละโครงสร้างการตัดสินใจกับตัวอย่างไม่ใช่ที่ใช้ระหว่างการฝึกโครงสร้างการตัดสินใจนั้น ตัวอย่างเช่น ในแผนภาพต่อไปนี้ ให้สังเกตว่าระบบฝึกฝนโครงสร้างการตัดสินใจแต่ละรายการบนตัวอย่างประมาณ 2 ใน 3 และประเมินจากตัวอย่าง 1 ใน 3 ที่เหลืออยู่
การประเมินนอกระบบคือการประเมินกลไกการตรวจสอบความถูกต้องข้ามกันไปมาอย่างมีประสิทธิภาพและละเอียดถี่ถ้วน ในการตรวจสอบความถูกต้องข้ามกันจะมีการฝึกโมเดล 1 โมเดลสําหรับการตรวจสอบความถูกต้องแต่ละรอบ (เช่น 10 โมเดลได้รับการฝึกในการตรวจสอบความถูกต้องข้าม 10 เท่า) เมื่อใช้การประเมิน OOB ระบบจะฝึกโมเดลเดียว เนื่องจากกระเป๋าจะระงับข้อมูลบางอย่างจากแต่ละโครงสร้างระหว่างการฝึก การประเมิน OOB จะใช้ข้อมูลนั้นเพื่อประมาณการตรวจสอบความถูกต้องข้ามกัน
P
ความสําคัญของตัวแปรในการเปลี่ยนลําดับ
ประเภทของความสําคัญของตัวแปรที่ประเมินค่าที่เพิ่มขึ้นของข้อผิดพลาดการคาดการณ์ของโมเดลหลังจากที่ส่งต่อค่าของฟีเจอร์ ความสําคัญของตัวแปรการเปลี่ยนลําดับเป็นเมตริกที่เข้าใจง่าย
R
ป่าแบบสุ่ม
กลุ่มต้นไม้ตัดสินใจที่ต้นไม้ตัดสินใจแต่ละต้นฝึกด้วยเสียงรบกวนเฉพาะหนึ่งๆ เช่น กระเป๋าเดินทาง
ป่าแบบสุ่มเป็นป่าแห่งการตัดสินใจประเภทหนึ่ง
รูท
โหนดเริ่มต้น (เงื่อนไขแรก) ในแผนผังการตัดสินใจ ตามรูปแบบ แผนภาพจะวางรากไว้ที่ด้านบนสุดของแผนผังการตัดสินใจ เช่น
ส
การสุ่มตัวอย่างพร้อมการแทนที่
วิธีการเลือกรายการจากชุดตัวเลือกซึ่งเลือกรายการเดียวกันได้หลายครั้ง วลี "พร้อมการแทนที่&เครื่องหมายคําพูดหมายความว่า หลังจากเลือกแต่ละรายการแล้ว รายการที่ถูกเลือกจะถูกส่งคืนจากกลุ่มคําสั่งของผู้สมัคร วิธีการผกผันหรือการสุ่มตัวอย่างข้อมูลที่ไม่มีการแทนที่หมายความว่าสามารถเลือกได้เพียงรายการเดียวเท่านั้น
ลองพิจารณาชุดผลไม้ต่อไปนี้
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
สมมติว่าระบบสุ่มเลือก fig
เป็นรายการแรก
หากใช้การสุ่มตัวอย่างแทนการแทนที่ ระบบจะเลือกรายการที่ 2 จากชุดต่อไปนี้
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
ใช่ ชุดนั้นเหมือนเดิม ระบบจึงอาจเลือก fig
อีกครั้งได้
หากใช้การสุ่มตัวอย่างโดยไม่เปลี่ยน เมื่อเลือก ก็จะสุ่มเลือกตัวอย่างอีกครั้งได้ ตัวอย่างเช่น หากระบบสุ่มเลือก fig
เป็นตัวอย่างแรก fig
จะไม่สามารถเลือกอีกครั้งได้ ดังนั้น ระบบจะเลือกตัวอย่างที่สองจากชุด (ลดลง) ต่อไปนี้
fruit = {kiwi, apple, pear, cherry, lime, mango}
การย่อ
ไฮเปอร์พารามิเตอร์ในการเพิ่มการไล่ระดับสีที่ควบคุมการปรับให้เหมาะสม การย่อขนาดแบบไล่ระดับสี คล้ายกับอัตราการเรียนรู้ในการไล่ระดับแบบไล่ระดับสี การย่อเป็นค่าทศนิยม ระหว่าง 0.0 ถึง 1.0 ค่าการย่อขนาดลดลงช่วยลด ไม่ให้มากเกินไปเกินกว่าค่าการลดขนาดที่มากกว่า
ข้อมูลแบบแยกส่วน
ในแผนผังการตัดสินใจ อีกชื่อหนึ่งของเงื่อนไข
ตัวแยก
ขณะฝึกแผนผังการตัดสินใจ กิจวัตร (และอัลกอริทึม) ที่ทําหน้าที่ค้นหาเงื่อนไขที่ดีที่สุดที่โหนดแต่ละรายการ
อ
ทดสอบ
ในแผนผังการตัดสินใจ อีกชื่อหนึ่งของเงื่อนไข
เกณฑ์ (สําหรับแผนผังการตัดสินใจ)
ในเงื่อนไขที่สอดคล้องแกน ค่าที่มีการเปรียบเทียบฟีเจอร์ เช่น 75 คือค่าเกณฑ์ในเงื่อนไขต่อไปนี้
grade >= 75
V
ความสําคัญของตัวแปร
ชุดคะแนนที่แสดงถึงความสําคัญที่เกี่ยวข้องของฟีเจอร์แต่ละรายการที่มีต่อโมเดล
เช่น ลองพิจารณาแผนผังการตัดสินใจที่ประมาณราคาบ้าน สมมติว่าโครงสร้างการตัดสินใจนี้มีฟีเจอร์ 3 อย่าง ได้แก่ ขนาด อายุ และสไตล์ หากชุดของความสําคัญตัวแปรสําหรับฟีเจอร์ทั้ง 3 รายการมีการคํานวณเป็น {size=5.8, age=2.5, style=4.7} ขนาดก็มีความสําคัญมากกว่าแผนผังการตัดสินใจมากกว่าอายุหรือสไตล์
มีเมตริกความสําคัญของตัวแปรที่ต่างกันซึ่งช่วยให้ผู้เชี่ยวชาญ ML ทราบถึงแง่มุมต่างๆ ของรูปแบบได้
W
ภูมิปัญญาของฝูงชน
การคิดโดยเฉลี่ยเกี่ยวกับความคิดเห็นหรือค่าประมาณของคนหมู่มาก ("ฝูงชน") มักให้ผลลัพธ์ที่น่าประหลาดใจ เช่น ลองนึกถึงเกมที่ผู้เล่นเดาจํานวนเยลลี่ในถั่วที่อยู่ในขวดโหลขนาดใหญ่ ถึงแม้การคาดเดาจะไม่ถูกต้องแม่นยําที่สุด แต่โดยเฉลี่ยแล้วการคาดเดาทั้งหมดน่าจะใกล้เคียงกับจํานวนจริงของถั่วเยลลี่ถั่วในโอ่งอย่างมาก
Eemembles คือซอฟต์แวร์ที่คล้ายคลึงกันในภูมิปัญญาของฝูงชน แม้ว่าแต่ละโมเดลจะคาดการณ์ไม่ถูกต้องอย่างสิ้นเชิง แต่การคาดการณ์ของโมเดลจํานวนมากก็มักสร้างการคาดการณ์ที่ดีอย่างน่าประหลาดใจ ตัวอย่างเช่น แม้ว่าแผนผังการตัดสินใจแต่ละรายการอาจคาดการณ์ได้ไม่ดี แต่ป่าแห่งการตัดสินใจมักจะคาดการณ์ได้ดีมาก