หน้านี้ได้รับการแปลโดย Cloud Translation API

อภิธานศัพท์ของแมชชีนเลิร์นนิง: ป่าแห่งการตัดสินใจ

หน้านี้มีคำศัพท์ในอภิธานศัพท์ของ Decision Forests สำหรับคำศัพท์ในอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

การสุ่มตัวอย่างแอตทริบิวต์

#df

กลวิธีสำหรับการฝึกกลุ่มผู้ทำการตัดสินใจที่แต่ละฝ่าย แผนผังการตัดสินใจจะพิจารณาเฉพาะชุดย่อยแบบสุ่มของความเป็นไปได้ ฟีเจอร์ต่างๆ เมื่อดูข้อมูลเกี่ยวกับสภาพสินค้า โดยทั่วไปแล้ว ชุดย่อยของฟีเจอร์แต่ละชุดจะถูกสุ่มตัวอย่างสำหรับแต่ละฟีเจอร์ node ในทางตรงกันข้าม เมื่อฝึกแผนผังการตัดสินใจ โดยไม่มีการสุ่มตัวอย่างแอตทริบิวต์ ระบบจะพิจารณาฟีเจอร์ที่เป็นไปได้ทั้งหมดสำหรับแต่ละโหนด

เงื่อนไขตามแกน

#df

เงื่อนไขในแผนผังการตัดสินใจ ที่มีฟีเจอร์เดียวเท่านั้น ตัวอย่างเช่น หากพื้นที่ คือคุณลักษณะ ตามด้วยเงื่อนไขที่จัดตามแกน:

area > 200

ตัดกับเงื่อนไขแบบเอียง

B

การถุง

#df

วิธีการฝึกชุดรวมโดยที่แต่ละชุด โมเดลองค์ประกอบจะฝึกในชุดย่อยแบบสุ่มของการฝึก ตัวอย่าง สุ่มตัวอย่างพร้อมการแทนที่ ตัวอย่างเช่น random Forest คือคอลเล็กชันของ ต้นไม้การตัดสินใจฝึกโดยใช้การบรรจุสัมภาระ

คำว่า bagging เป็นคำสั้นๆ ของ bootstrap aggregat

เงื่อนไขไบนารี

#df

เงื่อนไขในแผนผังการตัดสินใจ ซึ่งมีผลลัพธ์ที่เป็นไปได้เพียง 2 รายการ โดยทั่วไปแล้วคือ ใช่หรือไม่ใช่ ตัวอย่างเช่น ต่อไปนี้คือเงื่อนไขแบบไบนารี

temperature >= 100

ตัดกับเงื่อนไขที่ไม่ใช่ไบนารี

C

เงื่อนไข

#df

ในแผนผังการตัดสินใจ โหนดที่ ประเมินนิพจน์ ตัวอย่างเช่น ส่วนต่างๆ ต่อไปนี้ของ แผนผังการตัดสินใจมี 2 เงื่อนไขดังนี้

แผนผังการตัดสินใจที่ประกอบด้วยเงื่อนไข 2 ข้อ คือ (x > 0) และ
(y > 0)

เงื่อนไขเรียกอีกอย่างว่าการแยกหรือการทดสอบ

เปรียบเทียบเงื่อนไขกับ leaf

และดู:

เงื่อนไขไบนารี
เงื่อนไขนอนไบนารี
สภาพสินค้าตามแกน
เงื่อนไขแบบเอียง

D

ศูนย์การตัดสินใจ

#df

โมเดลที่สร้างจากแผนผังการตัดสินใจหลายข้อ กลุ่มการตัดสินใจทำการคาดคะเนโดยการรวมการคาดคะเนของ ต้นไม้ที่ตัดสินใจได้ ประเภทที่นิยมของป่าการตัดสินใจได้แก่ ป่าไม้แบบสุ่มและต้นไม้ที่เพิ่มระดับแบบไล่ระดับสี

แผนผังการตัดสินใจ

#df

โมเดลการเรียนรู้ภายใต้การควบคุมดูแลซึ่งประกอบด้วยชุด เงื่อนไขและทิ้งตามลําดับชั้น ตัวอย่างเช่น ต่อไปนี้เป็นแผนผังการตัดสินใจ

แผนผังการตัดสินใจที่มีเงื่อนไข 4 ข้อจัดเรียง
ตามลำดับชั้น ซึ่งนำไปสู่ 5 ใบ

E

เอนโทรปี

#df

ใน ทฤษฎีสารสนเทศ คำอธิบายเกี่ยวกับความน่าจะเป็นที่คาดเดาไม่ได้ คืออะไร นอกจากนี้ เอนโทรปียังหมายถึงปริมาณ แต่ละรายการในตัวอย่าง การกระจายมี เอนโทรปีสูงสุดที่เป็นไปได้เมื่อค่าของตัวแปรสุ่มทั้งหมด พอๆ กัน

เอนโทรปีของเซตที่มีค่าที่เป็นไปได้ 2 ค่าเป็น "0" และ "1" (เช่น ป้ายกำกับในโจทย์การจัดประเภทแบบไบนารี) มีสูตรต่อไปนี้

H = -p log p - q log q = -p log p - (1-p) * บันทึก (1-p)

โดยมี

H คือเอนโทรปี
p คือเศษส่วนของ "1" ตัวอย่าง
q คือเศษส่วน "0" ตัวอย่าง โปรดทราบว่า q = (1 - p)
log โดยทั่วไปคือบันทึก₂ ในกรณีนี้เอนโทรปี หน่วยเล็กน้อย

ตัวอย่างเช่น สมมติว่า:

ตัวอย่าง 100 รายการมีค่า "1"
ตัวอย่าง 300 รายการมีค่า "0"

ดังนั้น ค่าเอนโทรปีคือ

p = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81 บิตต่อตัวอย่าง

ชุดที่สมดุลกันพอดี (เช่น 200 "0" และ 200 "1") จะมีเอนโทรปีขนาด 1.0 บิตต่อตัวอย่าง เมื่อฉากเริ่มมีมากขึ้น ไม่สมดุล เอนโทรปีจะเคลื่อนไปสู่ 0.0

ในแผนผังการตัดสินใจ เอนโทรปีช่วยในการสร้างสูตร ข้อมูลที่ได้เพื่อช่วย splitter เลือกเงื่อนไข ในช่วงการเติบโตของแผนผังการตัดสินใจ

เปรียบเทียบเอนโทรปีกับ

ความไม่บริสุทธิ์ของจิ๋ว
ฟังก์ชันการสูญเสียครอสเอนโทรปี

เอนโทรปีมักเรียกว่าเอนโทรปีของแชนนอน

F

ความสำคัญของฟีเจอร์

#df

คำพ้องความหมายของความสำคัญของตัวแปร

G

ความไม่บริสุทธิ์ของจีน

#df

เมตริกที่คล้ายกับเอนโทรปี สปลิตเตอร์ ใช้ค่าที่ได้จากความไม่บริสุทธิ์ของจีน (Gini) หรือเอนโทรปีในการเขียนข้อความ เงื่อนไขสำหรับการจัดประเภท แผนผังการตัดสินใจ ข้อมูลที่ได้รับมาจากเอนโทรปี ไม่มีคำศัพท์ที่เทียบเท่าซึ่งเป็นที่ยอมรับกันโดยทั่วไปสำหรับเมตริกที่ดึงมา จากความไม่บริสุทธิ์ของจีน แต่เมตริกที่ไม่มีชื่อนี้ก็มีความสำคัญพอๆ กับ ข้อมูลที่ได้รับ

ความไม่บริสุทธิ์ของจีน (Gini) เรียกอีกอย่างว่าดัชนีจินี หรือเรียกง่ายๆ ว่า จินี

คลิกไอคอนเพื่อดูรายละเอียดทางคณิตศาสตร์เกี่ยวกับความไม่บริสุทธิ์ของจินี

ข้อมูลที่ไม่ครบถ้วนสมบูรณ์ของจีน (Gini) คือความน่าจะเป็นของการจัดประเภทข้อมูลใหม่ที่ไม่ถูกต้อง มาจากการกระจายเดียวกัน ความไม่บริสุทธิ์ของชุดที่มี 2 ตัว ค่าที่เป็นไปได้ "0" และ "1" (ตัวอย่างเช่น ป้ายกำกับในส่วน ปัญหาการจัดประเภทแบบไบนารี) คำนวณจากสูตรต่อไปนี้

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

โดยมี

I คือความไม่บริสุทธิ์ของจินี
p คือเศษส่วนของ "1" ตัวอย่าง
q คือเศษส่วน "0" ตัวอย่าง โปรดทราบว่า q = 1-3 คน

ตัวอย่างเช่น ลองพิจารณาชุดข้อมูลต่อไปนี้

ป้ายกำกับ 100 รายการ (0.25 ของชุดข้อมูล) มีค่า "1"
ป้ายกำกับ 300 รายการ (0.75 ของชุดข้อมูล) มีค่า "0"

ดังนั้น ความไม่บริสุทธิ์ของจินีจึงเป็นดังนี้

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

ดังนั้น ป้ายกำกับแบบสุ่มจากชุดข้อมูลเดียวกันจะมีโอกาส 37.5% จะถูกจำแนกประเภทอย่างไม่ถูกต้อง และมีโอกาส 62.5% ที่จะถูกจำแนกประเภทอย่างเหมาะสม

ป้ายกำกับที่สมดุลกันสมบูรณ์ (เช่น 200 "0" และ 200 "1") จะมีแอตทริบิวต์ต่อไปนี้ ความไม่บริสุทธิ์ของจีน (Gini) ของ 0.5 ขั้นสูง ป้ายกำกับ ไม่สมดุล จะมีค่า ความไม่บริสุทธิ์ของจีนอยู่ใกล้ 0.0

ต้นไม้ที่เพิ่มระดับ (การตัดสินใจ) แบบไล่ระดับสี (GBT)

#df

ผลการตัดสินประเภทหนึ่งที่มีลักษณะดังนี้

การฝึกอบรมอาศัย การเพิ่มการไล่ระดับสี
โมเดลที่ไม่มีประสิทธิภาพคือแผนผังการตัดสินใจ

การเพิ่มพลังการไล่ระดับสี

#df

อัลกอริทึมการฝึกที่มีการฝึกโมเดลที่อ่อนแอให้ทำซ้ำ ปรับปรุงคุณภาพ (ลดการสูญเสีย) ของโมเดลที่มีประสิทธิภาพ ตัวอย่างเช่น โมเดลที่ไม่มีประสิทธิภาพอาจจะเป็นโมเดลแผนผังการตัดสินใจแบบเชิงเส้นหรือขนาดเล็กก็ได้ โมเดลที่มีประสิทธิภาพจะกลายเป็นผลรวมของโมเดลที่อ่อนแอซึ่งผ่านการฝึกก่อนหน้านี้ทั้งหมด

ในรูปแบบการเพิ่มการไล่ระดับสีที่ง่ายที่สุด โมเดลที่อ่อนแอลงในการทำซ้ำแต่ละครั้ง ได้รับการฝึกให้คาดการณ์การไล่ระดับสีการสูญเสียของโมเดลที่ดี จากนั้น เอาต์พุตของโมเดลที่มีประสิทธิภาพจะอัปเดตโดยการลบการไล่ระดับสีที่คาดการณ์ไว้ คล้ายกับการไล่ระดับสี

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

โดยมี

$F_{0}$ คือรูปแบบที่มีประสิทธิภาพในช่วงแรก
$F_{i+1}$ คือโมเดลถัดไปที่แข็งแกร่ง
$F_{i}$ เป็นโมเดลที่แข็งแกร่งในปัจจุบัน
$\xi$ คือค่าระหว่าง 0.0 ถึง 1.0 ที่เรียกว่า การหดตัว ซึ่งเปรียบได้กับ อัตราการเรียนรู้ใน การไล่ระดับสี
$f_{i}$ คือโมเดลแบบอ่อนที่ได้รับการฝึกให้คาดการณ์การไล่ระดับสีการสูญเสียของ $F_{i}$

รูปแบบใหม่ๆ ของการไล่ระดับสีแบบสมัยใหม่ยังรวมอนุพันธ์ลำดับที่ 2 ด้วย (Hessian) ของการสูญเสียในการคำนวณ

แผนผังการตัดสินใจมักใช้เป็นโมเดลที่ไม่มีประสิทธิภาพใน การเพิ่มการไล่ระดับสี โปรดดู ต้นไม้ที่เพิ่มระดับ (การตัดสินใจ) ในการไล่ระดับสี

I

เส้นทางการอนุมาน

#df

ในแผนผังการตัดสินใจ ระหว่างการอนุมาน เส้นทางที่ตัวอย่างหนึ่งๆ ใช้จาก root เป็น เงื่อนไข อื่นๆ โดยสิ้นสุดด้วย ใบไม้ ตัวอย่างเช่น ในแผนผังการตัดสินใจต่อไปนี้ ฟิลด์ ลูกศรที่หนาขึ้นจะแสดงเส้นทางการอนุมานสำหรับตัวอย่างดังต่อไปนี้ ค่าฟีเจอร์:

x = 7
ปี = 12
z = -3

เส้นทางอนุมานในภาพประกอบต่อไปนี้จะเคลื่อนผ่าน ก่อนที่จะถึงใบ (Zeta)

แผนผังการตัดสินใจที่มี 4 เงื่อนไขและ 5 ใบ
เงื่อนไขรูทคือ (x > 0) เนื่องจากคำตอบคือ ใช่
เส้นทางอนุมานจะเดินทางจากรากไปยังเงื่อนไขถัดไป (y > 0)
เนื่องจากคำตอบคือ ใช่ เส้นทางอนุมานจะเดินทางไปยัง
เงื่อนไขถัดไป (z > 0) เนื่องจากคำตอบคือ "ไม่" เส้นทางการอนุมาน
เดินทางไปที่โหนดเทอร์มินัล ซึ่งก็คือใบไม้ (Zeta)

ลูกศรหนา 3 อันแสดงเส้นทางการอนุมาน

ข้อมูลที่ได้รับ

#df

ในกลุ่มการตัดสินใจ ความแตกต่างระหว่าง เอนโทรปีของโหนดและการถ่วงน้ำหนัก (ตามจำนวนตัวอย่าง) ผลรวมของเอนโทรปีของโหนดย่อย เอนโทรปีของโหนดคือเอนโทรปี ของตัวอย่างในโหนดนั้น

เช่น ลองพิจารณาค่าเอนโทรปีต่อไปนี้

เอนโทรปีของโหนดหลัก = 0.6
เอนโทรปีของโหนดย่อยหนึ่งโหนดที่มีตัวอย่างที่เกี่ยวข้อง 16 ตัวอย่าง = 0.2
เอนโทรปีของโหนดย่อยอื่นที่มีตัวอย่างที่เกี่ยวข้อง 24 รายการ = 0.1

ดังนั้น 40% ของตัวอย่างอยู่ในโหนดย่อย 1 โหนดและ 60% อยู่ในโหนด โหนดย่อยอื่นๆ ดังนั้น

ผลรวมเอนโทรปีถ่วงน้ำหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

ดังนั้น ข้อมูลที่ได้รับมีดังนี้

ข้อมูลที่ได้รับ = เอนโทรปีของโหนดหลัก - ผลรวมเอนโทรปีแบบถ่วงน้ำหนักของโหนดย่อย
ข้อมูลที่ได้รับ = 0.6 - 0.14 = 0.46

ผู้ดูแลส่วนใหญ่พยายามสร้างเงื่อนไข ซึ่งช่วยเพิ่มประสิทธิภาพในการได้รับข้อมูลสูงสุด

เงื่อนไขในเซ็ต

#df

เงื่อนไขในแผนผังการตัดสินใจ ที่ทดสอบการมี 1 รายการในชุดรายการ ตัวอย่างเช่น ต่อไปนี้คือเงื่อนไขที่ตั้งไว้

  house-style in [tudor, colonial, cape]

ระหว่างการอนุมาน หากค่าของฟีเจอร์แบบบ้าน คือ tudor หรือ colonial หรือ cape เงื่อนไขนี้จะประเมินเป็น "ใช่" ถ้า ค่าของฟีเจอร์แบบบ้านคือสิ่งอื่นๆ (เช่น ranch) เงื่อนไขนี้จะประเมินเป็น "ไม่"

เงื่อนไขที่ตั้งไว้มักทำให้แผนผังการตัดสินใจมีประสิทธิภาพมากกว่า เงื่อนไขที่จะทดสอบฟีเจอร์เข้ารหัสแบบฮอตเดียว

L

ใบไม้

#df

ปลายทางใดก็ตามในแผนผังการตัดสินใจ เลิกชอบ condition ใบไม้ไม่ทำการทดสอบ แต่ใบไม้เป็นการคาดการณ์ที่เป็นไปได้ Leaf ก็เป็นเทอร์มินัลด้วย โหนดของเส้นทางการอนุมาน

ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้มีใบ 3 ใบ

แผนผังการตัดสินใจที่มี 2 เงื่อนไขซึ่งนำไปสู่ 3 ใบ

N

โหนด (แผนผังการตัดสินใจ)

#df

ในแผนผังการตัดสินใจกำหนดตัวแปรใดก็ได้ สภาพสินค้าหรือ leaf

แผนผังการตัดสินใจที่มี 2 เงื่อนไขและ 3 ใบ

เงื่อนไขนอนไบนารี

#df

เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ ตัวอย่างเช่น เงื่อนไขที่ไม่ใช่แบบไบนารีต่อไปนี้มีได้ 3 เงื่อนไข ผลลัพธ์:

เงื่อนไข (number_of_legs = ?) ซึ่งนำไปสู่ 3 รายการที่เป็นไปได้
ผลลัพธ์ ผลลัพธ์ 1 รายการ (number_of_legs = 8) นำไปสู่ใบไม้
สไปเดอร์ ผลลัพธ์ที่สอง (number_of_legs = 4) นำไปสู่
ใบไม้ชื่อสุนัข ผลลัพธ์ที่สาม (number_of_legs = 2) นำไปสู่
ใบไม้ที่ชื่อว่าเพนกวิน

O

เงื่อนไขเอียง

#df

ในแผนผังการตัดสินใจ สภาพสินค้าที่เกี่ยวข้องกับมากกว่า 1 ฟีเจอร์ เช่น ถ้าทั้งความสูงและความกว้างเป็นองค์ประกอบทั้ง 2 อย่าง ต่อไปนี้คือเงื่อนไขแบบเอียง

  height > width

ตัดกับเงื่อนไขที่อยู่ในแนวแกน

การประเมินก่อนหลัง (การประเมิน OOB)

#df

กลไกในการประเมินคุณภาพของ กลุ่มการตัดสินใจโดยทดสอบ แผนผังการตัดสินใจเทียบกับ ตัวอย่าง ไม่ใช้ระหว่าง การฝึกแผนผังการตัดสินใจนั้น ตัวอย่างเช่น ใน แผนภาพต่อไปนี้ สังเกตว่าระบบจะฝึกแผนผังการตัดสินใจแต่ละแบบ ประมาณ 2 ใน 3 ของตัวอย่าง จากนั้นจึงประเมินกับ ตัวอย่างซึ่งเหลืออีก 1 ใน 3 ตัวอย่าง

ป่าการตัดสินใจที่ประกอบด้วยต้นไม้การตัดสินใจ 3 ต้น
แผนผังการตัดสินใจหนึ่งจะฝึกกับ 2 ใน 3 ของตัวอย่าง
แล้วใช้ 1 ใน 3 ที่เหลือในการประเมิน OOB
แผนผังการตัดสินใจรายการที่ 2 ฝึกกับ 2 ใน 3 ที่ต่างกัน
ตัวอย่างมากกว่าแผนผังการตัดสินใจก่อนหน้านี้ จากนั้น
ใช้ 1 ใน 3 ของการประเมิน OOB ต่างจาก
แผนผังการตัดสินใจก่อนหน้า

การประเมินนอกกรอบคือการประเมินที่ประหยัดและประหยัดค่าใช้จ่าย ค่าประมาณของกลไกการตรวจสอบข้ามแพลตฟอร์ม ในการตรวจสอบข้ามแพลตฟอร์ม ระบบจะฝึกโมเดล 1 รายการสำหรับการตรวจสอบความถูกต้องแต่ละรอบแต่ละรอบ (เช่น จะมีการฝึกโมเดล 10 รายการในการตรวจสอบการตรวจสอบความถูกต้องแบบกากบาท 10 ครั้ง) เมื่อใช้การประเมิน OOB โมเดลเดียวจะได้รับการฝึก เพราะการแบ็กกิ้ง ระงับข้อมูลบางส่วนจากแต่ละแผนผังในระหว่างการฝึก การประเมิน OOB สามารถใช้ ข้อมูลดังกล่าวเพื่อประมาณการตรวจสอบความถูกต้อง

P

ความสำคัญของตัวแปรการเรียงสับเปลี่ยน

#df

ลำดับความสำคัญของตัวแปรประเภทหนึ่งที่ประเมิน ข้อผิดพลาดการคาดการณ์ที่เพิ่มขึ้นของโมเดลหลังจากเปลี่ยนค่า ของฟีเจอร์ ความสำคัญของตัวแปรการเรียงสับเปลี่ยนจะไม่อิงตามโมเดล เมตริก

R

สุ่มป่า

#df

ชุดต้นไม้การตัดสินใจใน ซึ่งแผนผังการตัดสินใจแต่ละรายการจะได้รับการฝึก ด้วยความผันผวนแบบสุ่มที่เฉพาะเจาะจง เช่น การแบ็กกิ้ง

ป่าสุ่มเป็นป่าการตัดสินใจประเภทหนึ่ง

รูท

#df

โหนดเริ่มต้น (โหนดแรก เงื่อนไข) ในแผนผังการตัดสินใจ โดยปกติ แผนภาพจะใส่รากไว้ที่ด้านบนสุดของแผนผังการตัดสินใจ เช่น

แผนผังการตัดสินใจที่มี 2 เงื่อนไขและ 3 ใบ
เงื่อนไขเริ่มต้น (x > 2) คือราก

S

การสุ่มตัวอย่างพร้อมการแทนที่

#df

วิธีเลือกรายการจากชุดของรายการที่แนะนำ สามารถเลือกได้หลายครั้ง วลี "มีการแทนที่" หมายความว่า ซึ่งหลังจากการเลือกแต่ละครั้ง รายการที่เลือกจะถูกกลับไปยังพูล จากรายการผู้สมัคร วิธีการผกผัน การสุ่มตัวอย่างโดยไม่แทนที่ หมายความว่าจะสามารถเลือกรายการหนึ่งๆ ได้เพียงครั้งเดียว

เช่น ลองพิจารณาชุดผลไม้ต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

สมมติว่าระบบสุ่มเลือก fig เป็นรายการแรก หากใช้การสุ่มตัวอย่างพร้อมการแทนที่ ระบบจะเลือก รายการที่ 2 จากชุดต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

ใช่ การตั้งค่าเหมือนเดิม ดังนั้นระบบอาจ เลือก fig อีกครั้ง

หากใช้การสุ่มตัวอย่างโดยไม่มีการแทนที่ เมื่อเลือกตัวอย่างแล้ว จะไม่สามารถเลือกตัวอย่างได้ เลือกอีกครั้ง ตัวอย่างเช่น ถ้าระบบสุ่มเลือก fig เป็น ตัวอย่างแรก แล้วจะเลือก fig ไม่ได้อีก ดังนั้นระบบ จะเลือกตัวอย่างที่สองจากชุดต่อไปนี้ (ลดลง)

fruit = {kiwi, apple, pear, cherry, lime, mango}

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

คำว่าการแทนที่ในการสุ่มตัวอย่างกับการแทนที่ทำให้เกิดความสับสน ผู้คนจำนวนมาก ในภาษาอังกฤษ replacement หมายถึง "การแทนที่" อย่างไรก็ตาม การสุ่มตัวอย่างพร้อมการแทนที่จะใช้คำจำกัดความของภาษาฝรั่งเศส การเปลี่ยนทดแทน ซึ่งหมายถึงการ "นำบางอย่างกลับคืนมา"

คำภาษาอังกฤษ replacement แปลเป็นภาษาฝรั่งเศส คำว่า remplacement

การหดตัว

#df

พารามิเตอร์ไฮเปอร์พารามิเตอร์ใน การเพิ่มการไล่ระดับสีที่ควบคุม มากเกินไป การหดตัวในการเพิ่มการไล่ระดับสี คล้ายกับอัตราการเรียนรู้ใน การไล่ระดับสี การหดตัวเป็นทศนิยม ค่าระหว่าง 0.0 ถึง 1.0 ค่าการหดตัวที่ต่ำลงจะช่วยลดการใช้มากเกินไป มากกว่าค่าการหดตัวที่มากกว่า

สปลิต

#df

ในแผนผังการตัดสินใจ จะเป็นอีกชื่อหนึ่งของ สภาพสินค้า

ตัวแยก

#df

ขณะฝึกแผนผังการตัดสินใจ กิจวัตร (และอัลกอริทึม) มีหน้าที่ในการค้นหาสิ่งที่ดีที่สุด เงื่อนไขในแต่ละโหนด

T

ทดสอบ

#df

ในแผนผังการตัดสินใจ จะเป็นอีกชื่อหนึ่งของ สภาพสินค้า

เกณฑ์ (สำหรับแผนผังการตัดสินใจ)

#df

ในเงื่อนไขที่สอดคล้องกับแกน ค่าที่ มีการเปรียบเทียบ feature เช่น 75 คือค่า ในเงื่อนไขต่อไปนี้

grade >= 75

V

ความสำคัญของตัวแปร

#df

ชุดคะแนนที่ระบุความสำคัญเชิงเปรียบเทียบของคะแนนแต่ละรายการ feature ของโมเดล

เช่น ลองพิจารณาแผนผังการตัดสินใจที่ ประเมินราคาบ้าน สมมติว่าแผนผังการตัดสินใจนี้ใช้ คุณลักษณะ: ขนาด อายุ และสไตล์ หากชุดความสำคัญของตัวแปร สำหรับคุณลักษณะทั้ง 3 แห่งให้คำนวณ {size=5.8, age=2.5, style=4.7} แล้ว ขนาดมีความสำคัญมากกว่าสำหรับ ต้นไม้การตัดสินใจมากกว่าอายุหรือสไตล์

มีเมตริกความสำคัญของตัวแปรที่แตกต่างกัน ซึ่งสามารถบอก ผู้เชี่ยวชาญด้าน ML เกี่ยวกับแง่มุมต่างๆ ของโมเดล

W

ภูมิปัญญาของฝูงชน

#df

แนวคิดที่ค่าเฉลี่ยความคิดเห็นหรือค่าประมาณของคนกลุ่มใหญ่ ของผู้คน ("ฝูงชน") มักให้ผลลัพธ์ที่ดีอย่างน่าประหลาดใจ ตัวอย่างเช่น ลองนึกถึงเกมที่ผู้คนจะเดาจำนวน ที่อัดแน่นอยู่ในโหลใหญ่ แม้ว่าบุคคลส่วนใหญ่ การเดาจะไม่แม่นยำ ค่าเฉลี่ยของการคาดเดาทั้งหมด ที่แสดงให้เห็นอย่างประหลาดใจว่า ใกล้เคียงกับจำนวนที่แท้จริง ลูกอมเยลลี่ในโหล

เครื่องมือประกอบเป็นซอฟต์แวร์เทียบเคียงกับภูมิปัญญาของคนจำนวนมาก ถึงแม้ว่าแต่ละโมเดลจะทำการคาดการณ์ที่ไม่ค่อยแม่นยำ ค่าเฉลี่ยการคาดการณ์ของโมเดลจำนวนมากมักจะให้ผลลัพธ์ที่น่าประหลาดใจ การคาดคะเนที่ดี ตัวอย่างเช่น แม้ว่าบุคคลหนึ่ง แผนผังการตัดสินใจอาจคาดการณ์ได้ไม่ดี ส่วนปัจจัยเสี่ยงมักจะคาดการณ์ได้ดี