อภิธานศัพท์ของแมชชีนเลิร์นนิง: ป่าแห่งการตัดสินใจ

หน้านี้มีคำศัพท์ในอภิธานศัพท์ของ Decision Forests สำหรับคำศัพท์ในอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

การสุ่มตัวอย่างแอตทริบิวต์

#df

กลวิธีสำหรับการฝึกกลุ่มผู้ทำการตัดสินใจที่แต่ละฝ่าย แผนผังการตัดสินใจจะพิจารณาเฉพาะชุดย่อยแบบสุ่มของความเป็นไปได้ ฟีเจอร์ต่างๆ เมื่อดูข้อมูลเกี่ยวกับสภาพสินค้า โดยทั่วไปแล้ว ชุดย่อยของฟีเจอร์แต่ละชุดจะถูกสุ่มตัวอย่างสำหรับแต่ละฟีเจอร์ node ในทางตรงกันข้าม เมื่อฝึกแผนผังการตัดสินใจ โดยไม่มีการสุ่มตัวอย่างแอตทริบิวต์ ระบบจะพิจารณาฟีเจอร์ที่เป็นไปได้ทั้งหมดสำหรับแต่ละโหนด

เงื่อนไขตามแกน

#df

เงื่อนไขในแผนผังการตัดสินใจ ที่มีฟีเจอร์เดียวเท่านั้น ตัวอย่างเช่น หากพื้นที่ คือคุณลักษณะ ตามด้วยเงื่อนไขที่จัดตามแกน:

area > 200

ตัดกับเงื่อนไขแบบเอียง

B

การถุง

#df

วิธีการฝึกชุดรวมโดยที่แต่ละชุด โมเดลองค์ประกอบจะฝึกในชุดย่อยแบบสุ่มของการฝึก ตัวอย่าง สุ่มตัวอย่างพร้อมการแทนที่ ตัวอย่างเช่น random Forest คือคอลเล็กชันของ ต้นไม้การตัดสินใจฝึกโดยใช้การบรรจุสัมภาระ

คำว่า bagging เป็นคำสั้นๆ ของ bootstrap aggregat

เงื่อนไขไบนารี

#df

เงื่อนไขในแผนผังการตัดสินใจ ซึ่งมีผลลัพธ์ที่เป็นไปได้เพียง 2 รายการ โดยทั่วไปแล้วคือ ใช่หรือไม่ใช่ ตัวอย่างเช่น ต่อไปนี้คือเงื่อนไขแบบไบนารี

temperature >= 100

ตัดกับเงื่อนไขที่ไม่ใช่ไบนารี

C

เงื่อนไข

#df

ในแผนผังการตัดสินใจ โหนดที่ ประเมินนิพจน์ ตัวอย่างเช่น ส่วนต่างๆ ต่อไปนี้ของ แผนผังการตัดสินใจมี 2 เงื่อนไขดังนี้

แผนผังการตัดสินใจที่ประกอบด้วยเงื่อนไข 2 ข้อ คือ (x > 0) และ
          (y > 0)

เงื่อนไขเรียกอีกอย่างว่าการแยกหรือการทดสอบ

เปรียบเทียบเงื่อนไขกับ leaf

และดู:

D

ศูนย์การตัดสินใจ

#df

โมเดลที่สร้างจากแผนผังการตัดสินใจหลายข้อ กลุ่มการตัดสินใจทำการคาดคะเนโดยการรวมการคาดคะเนของ ต้นไม้ที่ตัดสินใจได้ ประเภทที่นิยมของป่าการตัดสินใจได้แก่ ป่าไม้แบบสุ่มและต้นไม้ที่เพิ่มระดับแบบไล่ระดับสี

แผนผังการตัดสินใจ

#df

โมเดลการเรียนรู้ภายใต้การควบคุมดูแลซึ่งประกอบด้วยชุด เงื่อนไขและทิ้งตามลําดับชั้น ตัวอย่างเช่น ต่อไปนี้เป็นแผนผังการตัดสินใจ

แผนผังการตัดสินใจที่มีเงื่อนไข 4 ข้อจัดเรียง
          ตามลำดับชั้น ซึ่งนำไปสู่ 5 ใบ

E

เอนโทรปี

#df

ใน ทฤษฎีสารสนเทศ คำอธิบายเกี่ยวกับความน่าจะเป็นที่คาดเดาไม่ได้ คืออะไร นอกจากนี้ เอนโทรปียังหมายถึงปริมาณ แต่ละรายการในตัวอย่าง การกระจายมี เอนโทรปีสูงสุดที่เป็นไปได้เมื่อค่าของตัวแปรสุ่มทั้งหมด พอๆ กัน

เอนโทรปีของเซตที่มีค่าที่เป็นไปได้ 2 ค่าเป็น "0" และ "1" (เช่น ป้ายกำกับในโจทย์การจัดประเภทแบบไบนารี) มีสูตรต่อไปนี้

H = -p log p - q log q = -p log p - (1-p) * บันทึก (1-p)

โดยมี

  • H คือเอนโทรปี
  • p คือเศษส่วนของ "1" ตัวอย่าง
  • q คือเศษส่วน "0" ตัวอย่าง โปรดทราบว่า q = (1 - p)
  • log โดยทั่วไปคือบันทึก2 ในกรณีนี้เอนโทรปี หน่วยเล็กน้อย

ตัวอย่างเช่น สมมติว่า:

  • ตัวอย่าง 100 รายการมีค่า "1"
  • ตัวอย่าง 300 รายการมีค่า "0"

ดังนั้น ค่าเอนโทรปีคือ

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 บิตต่อตัวอย่าง

ชุดที่สมดุลกันพอดี (เช่น 200 "0" และ 200 "1") จะมีเอนโทรปีขนาด 1.0 บิตต่อตัวอย่าง เมื่อฉากเริ่มมีมากขึ้น ไม่สมดุล เอนโทรปีจะเคลื่อนไปสู่ 0.0

ในแผนผังการตัดสินใจ เอนโทรปีช่วยในการสร้างสูตร ข้อมูลที่ได้เพื่อช่วย splitter เลือกเงื่อนไข ในช่วงการเติบโตของแผนผังการตัดสินใจ

เปรียบเทียบเอนโทรปีกับ

เอนโทรปีมักเรียกว่าเอนโทรปีของแชนนอน

F

ความสำคัญของฟีเจอร์

#df

คำพ้องความหมายของความสำคัญของตัวแปร

G

ความไม่บริสุทธิ์ของจีน

#df

เมตริกที่คล้ายกับเอนโทรปี สปลิตเตอร์ ใช้ค่าที่ได้จากความไม่บริสุทธิ์ของจีน (Gini) หรือเอนโทรปีในการเขียนข้อความ เงื่อนไขสำหรับการจัดประเภท แผนผังการตัดสินใจ ข้อมูลที่ได้รับมาจากเอนโทรปี ไม่มีคำศัพท์ที่เทียบเท่าซึ่งเป็นที่ยอมรับกันโดยทั่วไปสำหรับเมตริกที่ดึงมา จากความไม่บริสุทธิ์ของจีน แต่เมตริกที่ไม่มีชื่อนี้ก็มีความสำคัญพอๆ กับ ข้อมูลที่ได้รับ

ความไม่บริสุทธิ์ของจีน (Gini) เรียกอีกอย่างว่าดัชนีจินี หรือเรียกง่ายๆ ว่า จินี

ต้นไม้ที่เพิ่มระดับ (การตัดสินใจ) แบบไล่ระดับสี (GBT)

#df

ผลการตัดสินประเภทหนึ่งที่มีลักษณะดังนี้

การเพิ่มพลังการไล่ระดับสี

#df

อัลกอริทึมการฝึกที่มีการฝึกโมเดลที่อ่อนแอให้ทำซ้ำ ปรับปรุงคุณภาพ (ลดการสูญเสีย) ของโมเดลที่มีประสิทธิภาพ ตัวอย่างเช่น โมเดลที่ไม่มีประสิทธิภาพอาจจะเป็นโมเดลแผนผังการตัดสินใจแบบเชิงเส้นหรือขนาดเล็กก็ได้ โมเดลที่มีประสิทธิภาพจะกลายเป็นผลรวมของโมเดลที่อ่อนแอซึ่งผ่านการฝึกก่อนหน้านี้ทั้งหมด

ในรูปแบบการเพิ่มการไล่ระดับสีที่ง่ายที่สุด โมเดลที่อ่อนแอลงในการทำซ้ำแต่ละครั้ง ได้รับการฝึกให้คาดการณ์การไล่ระดับสีการสูญเสียของโมเดลที่ดี จากนั้น เอาต์พุตของโมเดลที่มีประสิทธิภาพจะอัปเดตโดยการลบการไล่ระดับสีที่คาดการณ์ไว้ คล้ายกับการไล่ระดับสี

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

โดยมี

  • $F_{0}$ คือรูปแบบที่มีประสิทธิภาพในช่วงแรก
  • $F_{i+1}$ คือโมเดลถัดไปที่แข็งแกร่ง
  • $F_{i}$ เป็นโมเดลที่แข็งแกร่งในปัจจุบัน
  • $\xi$ คือค่าระหว่าง 0.0 ถึง 1.0 ที่เรียกว่า การหดตัว ซึ่งเปรียบได้กับ อัตราการเรียนรู้ใน การไล่ระดับสี
  • $f_{i}$ คือโมเดลแบบอ่อนที่ได้รับการฝึกให้คาดการณ์การไล่ระดับสีการสูญเสียของ $F_{i}$

รูปแบบใหม่ๆ ของการไล่ระดับสีแบบสมัยใหม่ยังรวมอนุพันธ์ลำดับที่ 2 ด้วย (Hessian) ของการสูญเสียในการคำนวณ

แผนผังการตัดสินใจมักใช้เป็นโมเดลที่ไม่มีประสิทธิภาพใน การเพิ่มการไล่ระดับสี โปรดดู ต้นไม้ที่เพิ่มระดับ (การตัดสินใจ) ในการไล่ระดับสี

I

เส้นทางการอนุมาน

#df

ในแผนผังการตัดสินใจ ระหว่างการอนุมาน เส้นทางที่ตัวอย่างหนึ่งๆ ใช้จาก root เป็น เงื่อนไข อื่นๆ โดยสิ้นสุดด้วย ใบไม้ ตัวอย่างเช่น ในแผนผังการตัดสินใจต่อไปนี้ ฟิลด์ ลูกศรที่หนาขึ้นจะแสดงเส้นทางการอนุมานสำหรับตัวอย่างดังต่อไปนี้ ค่าฟีเจอร์:

  • x = 7
  • ปี = 12
  • z = -3

เส้นทางอนุมานในภาพประกอบต่อไปนี้จะเคลื่อนผ่าน ก่อนที่จะถึงใบ (Zeta)

แผนผังการตัดสินใจที่มี 4 เงื่อนไขและ 5 ใบ
          เงื่อนไขรูทคือ (x > 0) เนื่องจากคำตอบคือ ใช่
          เส้นทางอนุมานจะเดินทางจากรากไปยังเงื่อนไขถัดไป (y > 0)
          เนื่องจากคำตอบคือ ใช่ เส้นทางอนุมานจะเดินทางไปยัง
          เงื่อนไขถัดไป (z > 0) เนื่องจากคำตอบคือ "ไม่" เส้นทางการอนุมาน
          เดินทางไปที่โหนดเทอร์มินัล ซึ่งก็คือใบไม้ (Zeta)

ลูกศรหนา 3 อันแสดงเส้นทางการอนุมาน

ข้อมูลที่ได้รับ

#df

ในกลุ่มการตัดสินใจ ความแตกต่างระหว่าง เอนโทรปีของโหนดและการถ่วงน้ำหนัก (ตามจำนวนตัวอย่าง) ผลรวมของเอนโทรปีของโหนดย่อย เอนโทรปีของโหนดคือเอนโทรปี ของตัวอย่างในโหนดนั้น

เช่น ลองพิจารณาค่าเอนโทรปีต่อไปนี้

  • เอนโทรปีของโหนดหลัก = 0.6
  • เอนโทรปีของโหนดย่อยหนึ่งโหนดที่มีตัวอย่างที่เกี่ยวข้อง 16 ตัวอย่าง = 0.2
  • เอนโทรปีของโหนดย่อยอื่นที่มีตัวอย่างที่เกี่ยวข้อง 24 รายการ = 0.1

ดังนั้น 40% ของตัวอย่างอยู่ในโหนดย่อย 1 โหนดและ 60% อยู่ในโหนด โหนดย่อยอื่นๆ ดังนั้น

  • ผลรวมเอนโทรปีถ่วงน้ำหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

ดังนั้น ข้อมูลที่ได้รับมีดังนี้

  • ข้อมูลที่ได้รับ = เอนโทรปีของโหนดหลัก - ผลรวมเอนโทรปีแบบถ่วงน้ำหนักของโหนดย่อย
  • ข้อมูลที่ได้รับ = 0.6 - 0.14 = 0.46

ผู้ดูแลส่วนใหญ่พยายามสร้างเงื่อนไข ซึ่งช่วยเพิ่มประสิทธิภาพในการได้รับข้อมูลสูงสุด

เงื่อนไขในเซ็ต

#df

เงื่อนไขในแผนผังการตัดสินใจ ที่ทดสอบการมี 1 รายการในชุดรายการ ตัวอย่างเช่น ต่อไปนี้คือเงื่อนไขที่ตั้งไว้

  house-style in [tudor, colonial, cape]

ระหว่างการอนุมาน หากค่าของฟีเจอร์แบบบ้าน คือ tudor หรือ colonial หรือ cape เงื่อนไขนี้จะประเมินเป็น "ใช่" ถ้า ค่าของฟีเจอร์แบบบ้านคือสิ่งอื่นๆ (เช่น ranch) เงื่อนไขนี้จะประเมินเป็น "ไม่"

เงื่อนไขที่ตั้งไว้มักทำให้แผนผังการตัดสินใจมีประสิทธิภาพมากกว่า เงื่อนไขที่จะทดสอบฟีเจอร์เข้ารหัสแบบฮอตเดียว

L

ใบไม้

#df

ปลายทางใดก็ตามในแผนผังการตัดสินใจ เลิกชอบ condition ใบไม้ไม่ทำการทดสอบ แต่ใบไม้เป็นการคาดการณ์ที่เป็นไปได้ Leaf ก็เป็นเทอร์มินัลด้วย โหนดของเส้นทางการอนุมาน

ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้มีใบ 3 ใบ

แผนผังการตัดสินใจที่มี 2 เงื่อนไขซึ่งนำไปสู่ 3 ใบ

N

โหนด (แผนผังการตัดสินใจ)

#df

ในแผนผังการตัดสินใจกำหนดตัวแปรใดก็ได้ สภาพสินค้าหรือ leaf

แผนผังการตัดสินใจที่มี 2 เงื่อนไขและ 3 ใบ

เงื่อนไขนอนไบนารี

#df

เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ ตัวอย่างเช่น เงื่อนไขที่ไม่ใช่แบบไบนารีต่อไปนี้มีได้ 3 เงื่อนไข ผลลัพธ์:

เงื่อนไข (number_of_legs = ?) ซึ่งนำไปสู่ 3 รายการที่เป็นไปได้
          ผลลัพธ์ ผลลัพธ์ 1 รายการ (number_of_legs = 8) นำไปสู่ใบไม้
          สไปเดอร์ ผลลัพธ์ที่สอง (number_of_legs = 4) นำไปสู่
          ใบไม้ชื่อสุนัข ผลลัพธ์ที่สาม (number_of_legs = 2) นำไปสู่
          ใบไม้ที่ชื่อว่าเพนกวิน

O

เงื่อนไขเอียง

#df

ในแผนผังการตัดสินใจ สภาพสินค้าที่เกี่ยวข้องกับมากกว่า 1 ฟีเจอร์ เช่น ถ้าทั้งความสูงและความกว้างเป็นองค์ประกอบทั้ง 2 อย่าง ต่อไปนี้คือเงื่อนไขแบบเอียง

  height > width

ตัดกับเงื่อนไขที่อยู่ในแนวแกน

การประเมินก่อนหลัง (การประเมิน OOB)

#df

กลไกในการประเมินคุณภาพของ กลุ่มการตัดสินใจโดยทดสอบ แผนผังการตัดสินใจเทียบกับ ตัวอย่าง ไม่ใช้ระหว่าง การฝึกแผนผังการตัดสินใจนั้น ตัวอย่างเช่น ใน แผนภาพต่อไปนี้ สังเกตว่าระบบจะฝึกแผนผังการตัดสินใจแต่ละแบบ ประมาณ 2 ใน 3 ของตัวอย่าง จากนั้นจึงประเมินกับ ตัวอย่างซึ่งเหลืออีก 1 ใน 3 ตัวอย่าง

ป่าการตัดสินใจที่ประกอบด้วยต้นไม้การตัดสินใจ 3 ต้น
          แผนผังการตัดสินใจหนึ่งจะฝึกกับ 2 ใน 3 ของตัวอย่าง
          แล้วใช้ 1 ใน 3 ที่เหลือในการประเมิน OOB
          แผนผังการตัดสินใจรายการที่ 2 ฝึกกับ 2 ใน 3 ที่ต่างกัน
          ตัวอย่างมากกว่าแผนผังการตัดสินใจก่อนหน้านี้ จากนั้น
          ใช้ 1 ใน 3 ของการประเมิน OOB ต่างจาก
          แผนผังการตัดสินใจก่อนหน้า

การประเมินนอกกรอบคือการประเมินที่ประหยัดและประหยัดค่าใช้จ่าย ค่าประมาณของกลไกการตรวจสอบข้ามแพลตฟอร์ม ในการตรวจสอบข้ามแพลตฟอร์ม ระบบจะฝึกโมเดล 1 รายการสำหรับการตรวจสอบความถูกต้องแต่ละรอบแต่ละรอบ (เช่น จะมีการฝึกโมเดล 10 รายการในการตรวจสอบการตรวจสอบความถูกต้องแบบกากบาท 10 ครั้ง) เมื่อใช้การประเมิน OOB โมเดลเดียวจะได้รับการฝึก เพราะการแบ็กกิ้ง ระงับข้อมูลบางส่วนจากแต่ละแผนผังในระหว่างการฝึก การประเมิน OOB สามารถใช้ ข้อมูลดังกล่าวเพื่อประมาณการตรวจสอบความถูกต้อง

P

ความสำคัญของตัวแปรการเรียงสับเปลี่ยน

#df

ลำดับความสำคัญของตัวแปรประเภทหนึ่งที่ประเมิน ข้อผิดพลาดการคาดการณ์ที่เพิ่มขึ้นของโมเดลหลังจากเปลี่ยนค่า ของฟีเจอร์ ความสำคัญของตัวแปรการเรียงสับเปลี่ยนจะไม่อิงตามโมเดล เมตริก

R

สุ่มป่า

#df

ชุดต้นไม้การตัดสินใจใน ซึ่งแผนผังการตัดสินใจแต่ละรายการจะได้รับการฝึก ด้วยความผันผวนแบบสุ่มที่เฉพาะเจาะจง เช่น การแบ็กกิ้ง

ป่าสุ่มเป็นป่าการตัดสินใจประเภทหนึ่ง

รูท

#df

โหนดเริ่มต้น (โหนดแรก เงื่อนไข) ในแผนผังการตัดสินใจ โดยปกติ แผนภาพจะใส่รากไว้ที่ด้านบนสุดของแผนผังการตัดสินใจ เช่น

แผนผังการตัดสินใจที่มี 2 เงื่อนไขและ 3 ใบ 
          เงื่อนไขเริ่มต้น (x > 2) คือราก

S

การสุ่มตัวอย่างพร้อมการแทนที่

#df

วิธีเลือกรายการจากชุดของรายการที่แนะนำ สามารถเลือกได้หลายครั้ง วลี "มีการแทนที่" หมายความว่า ซึ่งหลังจากการเลือกแต่ละครั้ง รายการที่เลือกจะถูกกลับไปยังพูล จากรายการผู้สมัคร วิธีการผกผัน การสุ่มตัวอย่างโดยไม่แทนที่ หมายความว่าจะสามารถเลือกรายการหนึ่งๆ ได้เพียงครั้งเดียว

เช่น ลองพิจารณาชุดผลไม้ต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

สมมติว่าระบบสุ่มเลือก fig เป็นรายการแรก หากใช้การสุ่มตัวอย่างพร้อมการแทนที่ ระบบจะเลือก รายการที่ 2 จากชุดต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

ใช่ การตั้งค่าเหมือนเดิม ดังนั้นระบบอาจ เลือก fig อีกครั้ง

หากใช้การสุ่มตัวอย่างโดยไม่มีการแทนที่ เมื่อเลือกตัวอย่างแล้ว จะไม่สามารถเลือกตัวอย่างได้ เลือกอีกครั้ง ตัวอย่างเช่น ถ้าระบบสุ่มเลือก fig เป็น ตัวอย่างแรก แล้วจะเลือก fig ไม่ได้อีก ดังนั้นระบบ จะเลือกตัวอย่างที่สองจากชุดต่อไปนี้ (ลดลง)

fruit = {kiwi, apple, pear, cherry, lime, mango}

การหดตัว

#df

พารามิเตอร์ไฮเปอร์พารามิเตอร์ใน การเพิ่มการไล่ระดับสีที่ควบคุม มากเกินไป การหดตัวในการเพิ่มการไล่ระดับสี คล้ายกับอัตราการเรียนรู้ใน การไล่ระดับสี การหดตัวเป็นทศนิยม ค่าระหว่าง 0.0 ถึง 1.0 ค่าการหดตัวที่ต่ำลงจะช่วยลดการใช้มากเกินไป มากกว่าค่าการหดตัวที่มากกว่า

สปลิต

#df

ในแผนผังการตัดสินใจ จะเป็นอีกชื่อหนึ่งของ สภาพสินค้า

ตัวแยก

#df

ขณะฝึกแผนผังการตัดสินใจ กิจวัตร (และอัลกอริทึม) มีหน้าที่ในการค้นหาสิ่งที่ดีที่สุด เงื่อนไขในแต่ละโหนด

T

ทดสอบ

#df

ในแผนผังการตัดสินใจ จะเป็นอีกชื่อหนึ่งของ สภาพสินค้า

เกณฑ์ (สำหรับแผนผังการตัดสินใจ)

#df

ในเงื่อนไขที่สอดคล้องกับแกน ค่าที่ มีการเปรียบเทียบ feature เช่น 75 คือค่า ในเงื่อนไขต่อไปนี้

grade >= 75

V

ความสำคัญของตัวแปร

#df

ชุดคะแนนที่ระบุความสำคัญเชิงเปรียบเทียบของคะแนนแต่ละรายการ feature ของโมเดล

เช่น ลองพิจารณาแผนผังการตัดสินใจที่ ประเมินราคาบ้าน สมมติว่าแผนผังการตัดสินใจนี้ใช้ คุณลักษณะ: ขนาด อายุ และสไตล์ หากชุดความสำคัญของตัวแปร สำหรับคุณลักษณะทั้ง 3 แห่งให้คำนวณ {size=5.8, age=2.5, style=4.7} แล้ว ขนาดมีความสำคัญมากกว่าสำหรับ ต้นไม้การตัดสินใจมากกว่าอายุหรือสไตล์

มีเมตริกความสำคัญของตัวแปรที่แตกต่างกัน ซึ่งสามารถบอก ผู้เชี่ยวชาญด้าน ML เกี่ยวกับแง่มุมต่างๆ ของโมเดล

W

ภูมิปัญญาของฝูงชน

#df

แนวคิดที่ค่าเฉลี่ยความคิดเห็นหรือค่าประมาณของคนกลุ่มใหญ่ ของผู้คน ("ฝูงชน") มักให้ผลลัพธ์ที่ดีอย่างน่าประหลาดใจ ตัวอย่างเช่น ลองนึกถึงเกมที่ผู้คนจะเดาจำนวน ที่อัดแน่นอยู่ในโหลใหญ่ แม้ว่าบุคคลส่วนใหญ่ การเดาจะไม่แม่นยำ ค่าเฉลี่ยของการคาดเดาทั้งหมด ที่แสดงให้เห็นอย่างประหลาดใจว่า ใกล้เคียงกับจำนวนที่แท้จริง ลูกอมเยลลี่ในโหล

เครื่องมือประกอบเป็นซอฟต์แวร์เทียบเคียงกับภูมิปัญญาของคนจำนวนมาก ถึงแม้ว่าแต่ละโมเดลจะทำการคาดการณ์ที่ไม่ค่อยแม่นยำ ค่าเฉลี่ยการคาดการณ์ของโมเดลจำนวนมากมักจะให้ผลลัพธ์ที่น่าประหลาดใจ การคาดคะเนที่ดี ตัวอย่างเช่น แม้ว่าบุคคลหนึ่ง แผนผังการตัดสินใจอาจคาดการณ์ได้ไม่ดี ส่วนปัจจัยเสี่ยงมักจะคาดการณ์ได้ดี