मशीन लर्निंग शब्दावली: फ़ैसले लेने के जंगल

इस पेज पर, डिसीज़न फ़ॉरेस्ट की ग्लॉसरी में शामिल शब्द दिए गए हैं. ग्लॉसरी में मौजूद सभी शब्दों के लिए, यहां क्लिक करें.

A

एट्रिब्यूट सैंपलिंग

#df

डिसिज़न फ़ॉरेस्ट को ट्रेनिंग देने का एक तरीका. इसमें हर डिसिज़न ट्री, शर्त को सीखते समय, संभावित सुविधाओं के सिर्फ़ एक रैंडम सबसेट को ध्यान में रखता है. आम तौर पर, हर नोड के लिए, सुविधाओं के अलग-अलग सबसेट का सैंपल लिया जाता है. इसके उलट, एट्रिब्यूट सैंपलिंग के बिना किसी डिसीज़न ट्री को ट्रेनिंग देते समय, हर नोड के लिए सभी संभावित सुविधाओं को ध्यान में रखा जाता है.

ऐक्सिस के साथ अलाइन की गई शर्त

#df

फ़ैसला लेने वाले ट्री में, ऐसी शर्त जिसमें सिर्फ़ एक फ़ीचर शामिल हो. उदाहरण के लिए, अगर area कोई सुविधा है, तो अक्ष के साथ अलाइन की गई शर्त यह है:

area > 200

तिरछी स्थिति के साथ कंट्रास्ट करें.

B

बैगिंग

#df

एंसेंबल को ट्रेन करने का एक तरीका, जिसमें हर कॉम्पोनेंट मॉडल, ट्रेनिंग के उदाहरणों के किसी रैंडम सबसेट पर ट्रेन करता है. यह सबसेट, रिप्लेसमेंट की मदद से सैंपल किया जाता है. उदाहरण के लिए, रैंडम फ़ॉरेस्ट, बैगिंग की मदद से ट्रेन किए गए डिसिज़न ट्री का कलेक्शन होता है.

bagging शब्द, bootstrap aggregating का छोटा रूप है.

ज़्यादा जानकारी के लिए, डिसीज़न फ़ॉरेस्ट कोर्स में रैंडम फ़ॉरेस्ट देखें.

बाइनरी शर्त

#df

फ़ैसला लेने वाले ट्री में, ऐसी शर्त जो सिर्फ़ दो संभावित नतीजे देती है. आम तौर पर, ये नतीजे हां या नहीं होते हैं. उदाहरण के लिए, नीचे दी गई शर्त बाइनरी है:

temperature >= 100

नॉन-बाइनरी स्थिति के साथ तुलना करें.

ज़्यादा जानकारी के लिए, डिसीज़न फ़ॉरेस्ट कोर्स में शर्तों के टाइप देखें.

C

शर्त

#df

फ़ैसला लेने वाले ट्री में, ऐसा कोई भी नोड जो किसी एक्सप्रेशन का आकलन करता है. उदाहरण के लिए, नीचे दिए गए फ़ैसले के पेड़ के हिस्से में दो शर्तें हैं:

दो शर्तों वाला डिसीज़न ट्री: (x > 0) और
          (y > 0).

कंडीशन को स्प्लिट या टेस्ट भी कहा जाता है.

पत्ते के साथ कंट्रास्ट की स्थिति.

यह भी देखें:

ज़्यादा जानकारी के लिए, डिसीज़न फ़ॉरेस्ट कोर्स में शर्तों के टाइप देखें.

D

डिसीज़न फ़ॉरेस्ट

#df

एक से ज़्यादा फ़ैसला लेने वाले ट्री से बनाया गया मॉडल. डिसीज़न फ़ॉरेस्ट, अपने डिसीज़न ट्री के अनुमान को इकट्ठा करके अनुमान लगाता है. डिसीज़न फ़ॉरेस्ट के लोकप्रिय टाइप में, रैंडम फ़ॉरेस्ट और ग्रेडिएंट बूस्ड ट्री शामिल हैं.

ज़्यादा जानकारी के लिए, डिसीज़न फ़ॉरेस्ट कोर्स में डिसीज़न फ़ॉरेस्ट सेक्शन देखें.

डिसीज़न ट्री

#df

सुपरवाइज़्ड लर्निंग मॉडल, शर्तों और लीफ के सेट से बना होता है. ये शर्तें और लीफ, हैरारकी के हिसाब से व्यवस्थित होते हैं. उदाहरण के लिए, यहां एक फ़ैसला ट्री दिया गया है:

यह एक डिसिज़न ट्री है, जिसमें चार शर्तें हैं. इन्हें क्रम से व्यवस्थित किया गया है. इन शर्तों के आधार पर, पांच नतीजे मिलते हैं.

E

एन्ट्रॉपी

#df

जानकारी के सिद्धांत में, एन्ट्रॉपी का मतलब है कि किसी संभावना के बंटवारे का अनुमान लगाना कितना मुश्किल है. इसके अलावा, एन्ट्रॉपी को इस तरह भी परिभाषित किया जा सकता है कि हर उदाहरण में कितनी जानकारी है. जब किसी रैंडम वैरिएबल की सभी वैल्यू एक जैसी होती हैं, तो डिस्ट्रिब्यूशन में सबसे ज़्यादा एन्ट्रापी होती है.

"0" और "1" जैसी दो संभावित वैल्यू वाले सेट का एन्ट्रापी (उदाहरण के लिए, बाइनरी क्लासिफ़िकेशन समस्या में लेबल) का यह फ़ॉर्मूला है:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

कहां:

  • H एन्ट्रॉपी है.
  • p, "1" उदाहरणों का अंश है.
  • q, "0" उदाहरणों का फ़्रैक्शन है. ध्यान दें कि q = (1 - p)
  • आम तौर पर, लॉग को लॉग2 कहा जाता है. इस मामले में, एन्ट्रापी की इकाई बिट होती है.

उदाहरण के लिए, मान लें कि:

  • 100 उदाहरणों में वैल्यू "1" है
  • 300 उदाहरणों में वैल्यू "0" है

इसलिए, एंट्रॉपी की वैल्यू यह है:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 बिट प्रति उदाहरण

पूरी तरह से बैलेंस किए गए सेट (उदाहरण के लिए, 200 "0" और 200 "1") के लिए, हर उदाहरण में 1.0 बिट का एन्ट्रापी होगा. किसी सेट के असंतुलित होने पर, उसका एन्ट्रापी 0.0 की ओर बढ़ता है.

फ़ैसला लेने वाले ट्री में, एन्ट्रापी से जानकारी हासिल करने में मदद मिलती है. इससे स्प्लिटर को, क्लासिफ़िकेशन के फ़ैसला लेने वाले ट्री के बढ़ने के दौरान शर्तें चुनने में मदद मिलती है.

एन्ट्रॉपी की तुलना इनसे करें:

एन्ट्रोपी को अक्सर शैनन का एन्ट्रोपी कहा जाता है.

ज़्यादा जानकारी के लिए, डिसीज़न फ़ॉरेस्ट कोर्स में संख्यात्मक सुविधाओं के साथ बाइनरी क्लासिफ़िकेशन के लिए एग्ज़ैक्ट स्प्लिटर देखें.

F

सुविधाओं की अहमियत

#df

वैरिएबल की अहमियत का दूसरा नाम.

G

gini impurity

#df

एन्ट्रापी जैसी मेट्रिक. स्प्लिटर, गिनी इंप्यूरिटी या एन्ट्रापी से मिली वैल्यू का इस्तेमाल करते हैं. इससे, फ़ैसला लेने वाले पेड़ों के लिए, अलग-अलग कैटगरी बनाने की शर्तें तय की जाती हैं. जानकारी हासिल करना, एन्ट्रापी से मिलता है. गिनिन इंप्यूरिटी से मिली मेट्रिक के लिए, दुनिया भर में स्वीकार किया गया कोई समान शब्द नहीं है. हालांकि, नाम न होने के बावजूद यह मेट्रिक, जानकारी हासिल करने के लिए उतनी ही ज़रूरी है.

Gini impurity को gini index या सिर्फ़ gini भी कहा जाता है.

ग्रेडिएंट बूस्ट किए गए (डिसीज़न) ट्री (जीबीटी)

#df

डिसीज़न फ़ॉरेस्ट का एक टाइप, जिसमें:

ज़्यादा जानकारी के लिए, डिसीज़न फ़ॉरेस्ट कोर्स में ग्रेडिएंट बूस्टेड डिसीज़न ट्री देखें.

ग्रेडिएंट बूस्टिंग

#df

एक ट्रेनिंग एल्गोरिदम, जिसमें खराब मॉडल को बार-बार बेहतर बनाने (लोस को कम करने) के लिए, बेहतर मॉडल को ट्रेन किया जाता है. उदाहरण के लिए, कमज़ोर मॉडल, लीनियर या छोटा डिसीज़न ट्री मॉडल हो सकता है. बेहतर मॉडल, पहले से ट्रेन किए गए सभी कमज़ोर मॉडल का योग होता है.

ग्रेडिएंट बूस्टिंग के सबसे आसान तरीके में, हर बार दोहराए जाने वाले एलिमेंट के लिए, कमज़ोर मॉडल को ट्रेन किया जाता है, ताकि बेहतर मॉडल के लॉस ग्रेडिएंट का अनुमान लगाया जा सके. इसके बाद, ग्रेडिएंट डिसेंट की तरह ही, अनुमानित ग्रेडिएंट को घटाकर, बेहतर मॉडल का आउटपुट अपडेट किया जाता है.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

कहां:

  • $F_{0}$, शुरुआती बेहतर मॉडल है.
  • $F_{i+1}$ अगला बेहतर मॉडल है.
  • $F_{i}$, मौजूदा बेहतर मॉडल है.
  • $\xi$, 0.0 से 1.0 के बीच की एक वैल्यू होती है, जिसे छोटा करना कहा जाता है. यह वैल्यू, ग्रेडिएंट डिसेंट में लर्निंग रेट के बराबर होती है.
  • $f_{i}$ एक ऐसा कमज़ोर मॉडल है जिसे $F_{i}$ के लॉस ग्रेडिएंट का अनुमान लगाने के लिए ट्रेन किया गया है.

ग्रेडिएंट बूसटिंग के आधुनिक वैरिएशन में, गणना के दौरान लॉस का दूसरा डेरिवेटिव (हेसियन) भी शामिल होता है.

आम तौर पर, फ़ैसला लेने वाले ट्री का इस्तेमाल, ग्रेडिएंट बूसटिंग में कमज़ोर मॉडल के तौर पर किया जाता है. ग्रेडिएंट बूस्टर (फ़ैसला) ट्री देखें.

I

अनुमान लगाने का पाथ

#df

फ़ैसला लेने वाले ट्री में, अनुमान के दौरान, किसी खास उदाहरण के लिए, रूट से लेकर दूसरी शर्तों तक का रास्ता तय किया जाता है. यह रास्ता लीफ़ पर खत्म होता है. उदाहरण के लिए, नीचे दिए गए डिसीज़न ट्री में, ज़्यादा मोटे ऐरो, किसी उदाहरण के लिए इन फ़ीचर वैल्यू के साथ, अनुमान लगाने का पाथ दिखाते हैं:

  • x = 7
  • y = 12
  • z = -3

नीचे दिए गए इलस्ट्रेशन में, लीफ़ (Zeta) तक पहुंचने से पहले, अनुमान लगाने का पाथ तीन स्थितियों से गुज़रता है.

चार शर्तों और पांच लीफ़ वाला डिसीज़न ट्री.
          रूट की शर्त (x > 0) है. जवाब हां होने पर, अनुमान लगाने वाला पाथ रूट से अगली शर्त (y > 0) पर जाता है.
          जवाब हां होने पर, अनुमान लगाने वाला पाथ अगली शर्त (z > 0) पर जाता है. जवाब 'नहीं' होने पर, अनुमान लगाने वाला पाथ अपने टर्मिनल नोड पर जाता है, जो लीफ़ (Zeta) होता है.

तीन मोटे ऐरो, अनुमान लगाने का पाथ दिखाते हैं.

ज़्यादा जानकारी के लिए, डिसीज़न फ़ॉरेस्ट कोर्स में डिसीज़न ट्री देखें.

जानकारी हासिल करना

#df

फ़ैसला फ़ॉरेस्ट में, किसी नोड के एन्ट्रापी और उसके चाइल्ड नोड के एन्ट्रापी के वज़ीदार (उदाहरणों की संख्या के हिसाब से) योग के बीच का अंतर. किसी नोड का एन्ट्रापी, उस नोड में मौजूद उदाहरणों का एन्ट्रापी होता है.

उदाहरण के लिए, इन एन्ट्रापी वैल्यू पर विचार करें:

  • पैरंट नोड की एन्ट्रॉपी = 0.6
  • काम के 16 उदाहरणों वाले एक चाइल्ड नोड का एन्ट्रापी = 0.2
  • काम के 24 उदाहरणों वाले किसी दूसरे चाइल्ड नोड का एन्ट्रापी = 0.1

इसलिए, 40% उदाहरण एक चाइल्ड नोड में और 60% उदाहरण दूसरे चाइल्ड नोड में हैं. इसलिए:

  • चाइल्ड नोड की वेटेड एन्ट्रॉपी का कुल योग = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

इसलिए, आपको यह जानकारी मिलेगी:

  • जानकारी का फ़ायदा = पैरंट नोड की एन्ट्रॉपी - चाइल्ड नोड की वेटेड एन्ट्रॉपी का योग
  • जानकारी का फ़ायदा = 0.6 - 0.14 = 0.46

ज़्यादातर स्प्लिटर, ऐसी शर्तें तय करते हैं जिनसे ज़्यादा से ज़्यादा जानकारी हासिल की जा सके.

इन-सेट स्थिति

#df

फ़ैसला लेने वाले ट्री में, आइटम के सेट में किसी एक आइटम की मौजूदगी की जांच करने वाली शर्त. उदाहरण के लिए, इन-सेट शर्त यह है:

  house-style in [tudor, colonial, cape]

अनुमान लगाने के दौरान, अगर घर की स्टाइल सुविधा की वैल्यू tudor या colonial या cape है, तो इस शर्त का आकलन 'हां' के तौर पर किया जाता है. अगर घर के स्टाइल की सुविधा की वैल्यू कुछ और है (उदाहरण के लिए, ranch), तो इस शर्त का आकलन 'नहीं' के तौर पर किया जाता है.

आम तौर पर, इन-सेट शर्तों से ज़्यादा बेहतर फ़ैसला लेने वाले ट्री बनते हैं. ये शर्तें, वन-हॉट कोड वाली सुविधाओं की जांच करने वाली शर्तों से बेहतर होती हैं.

L

पत्ती

#df

डिसीज़न ट्री में मौजूद कोई भी एंडपॉइंट. शर्त के उलट, लीफ कोई जांच नहीं करता. इसके बजाय, पत्ती एक संभावित अनुमान है. लीफ़, अनुमान के पाथ का टर्मिनल नोड भी होता है.

उदाहरण के लिए, नीचे दिए गए फ़ैसला ट्री में तीन लीफ़ हैं:

दो शर्तों वाला डिसीज़न ट्री, जिसमें तीन लीफ़ हैं.

नहीं

नोड (डिसीज़न ट्री)

#df

फ़ैसला लेने के लिए बने ट्री में, कोई भी शर्त या लीफ़.

दो शर्तों और तीन लीफ़ वाला डिसीज़न ट्री.

अन्य स्थिति

#df

ऐसी शर्त जिसमें दो से ज़्यादा संभावित नतीजे हों. उदाहरण के लिए, नॉन-बाइनरी शर्त में तीन संभावित नतीजे हो सकते हैं:

एक शर्त (number_of_legs = ?) जिससे तीन संभावित नतीजे मिलते हैं. एक नतीजे (number_of_legs = 8) से, पत्तियां
          नाम का स्पाइडर मिलता है. दूसरे नतीजे (number_of_legs = 4) से,
          कुत्ते के नाम वाला एक लीफ़ मिलता है. तीसरे नतीजे (number_of_legs = 2) से,
          पेंग्विन नाम का एक पत्ती मिलता है.

O

ऑब्लिक कंडीशन

#df

फ़ैसला लेने वाले ट्री में, एक ऐसी शर्त जिसमें एक से ज़्यादा सुविधाएं शामिल हों. उदाहरण के लिए, अगर ऊंचाई और चौड़ाई, दोनों एट्रिब्यूट हैं, तो यहां दी गई शर्त अस्पष्ट है:

  height > width

ऐक्सिस के साथ अलाइन की गई शर्त के साथ तुलना करें.

आउट-ऑफ़-बैग इवैल्यूएशन (ओओबी इवैल्यूएशन)

#df

डिसीज़न फ़ॉरेस्ट की क्वालिटी का आकलन करने का तरीका. इसमें हर डिसीज़न ट्री की जांच, उन उदाहरणों के आधार पर की जाती है जिनका इस्तेमाल, उस डिसीज़न ट्री के ट्रेनिंग के दौरान नहीं किया गया था. उदाहरण के लिए, यहां दिए गए डायग्राम में देखें कि सिस्टम, हर डिसीज़न ट्री को करीब दो-तिहाई उदाहरणों पर ट्रेन करता है. इसके बाद, बाकी एक-तिहाई उदाहरणों के आधार पर उसका आकलन करता है.

तीन डिसीज़न ट्री वाला डिसीज़न फ़ॉरेस्ट.
          एक डिसीज़न ट्री, दो-तिहाई उदाहरणों पर ट्रेनिंग लेता है और फिर बाकी एक-तिहाई उदाहरणों का इस्तेमाल, ओओबी (ऑउट ऑफ़ बैंड) आकलन के लिए करता है.
          दूसरा डिसिज़न ट्री, पिछले डिसिज़न ट्री के मुकाबले दो-तिहाई अलग-अलग उदाहरणों पर ट्रेनिंग करता है. इसके बाद, ओयूबी (ऑउट ऑफ़ बैंड) आकलन के लिए, पिछले डिसिज़न ट्री के मुकाबले एक-तिहाई अलग-अलग उदाहरणों का इस्तेमाल करता है.

आउट-ऑफ़-बैग आकलन, क्रॉस-पुष्टि के तरीके का एक बेहतर और कम अनुमानित तरीका है. क्रॉस-वैलिडेशन में, हर क्रॉस-वैलिडेशन राउंड के लिए एक मॉडल को ट्रेन किया जाता है (उदाहरण के लिए, 10-फ़ोल्ड क्रॉस-वैलिडेशन में 10 मॉडल को ट्रेन किया जाता है). ओओबी (ऑउट ऑफ़ बैंड) आकलन की मदद से, एक मॉडल को ट्रेन किया जाता है. बैगिंग, ट्रेनिंग के दौरान हर ट्री से कुछ डेटा को अलग रखती है. इसलिए, ओयूबी (ऑउट ऑफ़ बैंड) आकलन, क्रॉस-वैलिडेशन का अनुमान लगाने के लिए उस डेटा का इस्तेमाल कर सकती है.

P

पर्म्यूटेशन वैरिएबल की अहमियत

#df

वैरिएबल की अहमियत का एक टाइप, जो फ़ीचर की वैल्यू को बदलने के बाद, मॉडल के अनुमान में हुई गड़बड़ी का आकलन करता है. वैरिएशन के क्रम में बदलाव करने की अहमियत, मॉडल पर निर्भर नहीं करती.

R

रैंडम फ़ॉरेस्ट

#df

डिसिज़न ट्री का ग्रुप, जिसमें हर डिसिज़न ट्री को किसी खास तरह के रैंडम नॉइज़ के साथ ट्रेन किया जाता है. जैसे, बैगिंग.

रैंडम फ़ॉरेस्ट, फ़ैसला लेने वाले फ़ॉरेस्ट का एक टाइप है.

रूट

#df

डिसिज़न ट्री में, शुरुआती नोड (पहली शर्त). आम तौर पर, डायग्राम में रूट को डिसीज़न ट्री में सबसे ऊपर रखा जाता है. उदाहरण के लिए:

दो शर्तों और तीन लीफ़ वाला डिसीज़न ट्री. शुरू की गई शर्त (x > 2) रूट है.

S

रिप्लेसमेंट की मदद से सैंपलिंग

#df

संभावित आइटम के सेट से आइटम चुनने का एक तरीका, जिसमें एक ही आइटम को कई बार चुना जा सकता है. "बदले में" वाक्यांश का मतलब है कि हर चुने गए आइटम के बाद, चुना गया आइटम, संभावित आइटम के पूल में वापस आ जाता है. इसके उलट, रिप्लेसमेंट के बिना सैंपलिंग का मतलब है कि किसी आइटम को सिर्फ़ एक बार चुना जा सकता है.

उदाहरण के लिए, फलों के इस सेट पर ध्यान दें:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

मान लें कि सिस्टम, पहले आइटम के तौर पर fig को रैंडम तौर पर चुनता है. अगर सैंपलिंग के साथ बदलाव का इस्तेमाल किया जा रहा है, तो सिस्टम इस सेट से दूसरा आइटम चुनता है:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

हां, यह वही सेट है जो पहले था. इसलिए, सिस्टम fig को फिर से चुन सकता है.

अगर सैंपलिंग के लिए, रिप्लेसमेंट का इस्तेमाल नहीं किया जा रहा है, तो सैंपल चुनने के बाद, उसे फिर से नहीं चुना जा सकता. उदाहरण के लिए, अगर सिस्टम पहले सैंपल के तौर पर fig को रैंडम तौर पर चुनता है, तो fig को फिर से नहीं चुना जा सकता. इसलिए, सिस्टम यहां दिए गए (कम किए गए) सेट से दूसरा सैंपल चुनता है:

fruit = {kiwi, apple, pear, cherry, lime, mango}

शंकी

#df

ग्रेडिएंट बूसटिंग में ऐसा हाइपर पैरामीटर जो ओवरफ़िटिंग को कंट्रोल करता है. ग्रेडिएंट बूसटिंग में घटाव, ग्रेडिएंट डिसेंट में लर्निंग रेट जैसा ही है. सिकुड़ने की दर, दशमलव वाली वैल्यू होती है. यह 0.0 से 1.0 के बीच होती है. छोटी शंकुरण वैल्यू, बड़ी शंकुरण वैल्यू की तुलना में, ज़्यादा ओवरफ़िटिंग को कम करती है.

बांटें

#df

फ़ैसला लेने के लिए ट्री में, शर्त का दूसरा नाम.

स्प्लिटर

#df

फ़ैसला लेने वाले ट्री को ट्रेनिंग देते समय, हर नोड में सबसे अच्छी स्थिति ढूंढने के लिए, रूटीन (और एल्गोरिदम) ज़िम्मेदार होता है.

T

टेस्ट

#df

फ़ैसला लेने के लिए ट्री में, शर्त का दूसरा नाम.

थ्रेशोल्ड (डिसीज़न ट्री के लिए)

#df

ऐक्सिस के साथ अलाइन की गई शर्त में, वह वैल्यू जिसकी तुलना सुविधा से की जा रही है. उदाहरण के लिए, नीचे दी गई शर्त में 75 थ्रेशोल्ड वैल्यू है:

grade >= 75

V

वैरिएबल की अहमियत

#df

स्कोर का एक सेट, जो मॉडल के लिए हर फ़ीचर की अहमियत दिखाता है.

उदाहरण के लिए, एक फ़ैसला लेने वाले ट्री का इस्तेमाल करके, घर की कीमत का अनुमान लगाया जा सकता है. मान लें कि यह डिसीज़न ट्री, साइज़, उम्र, और स्टाइल जैसी तीन सुविधाओं का इस्तेमाल करता है. अगर तीन सुविधाओं के लिए वैरिएबल की अहमियत का सेट {size=5.8, age=2.5, style=4.7} के तौर पर कैलकुलेट किया जाता है, तो डिसीज़न ट्री के लिए साइज़, उम्र या स्टाइल से ज़्यादा अहम है.

वैरिएबल की अहमियत बताने वाली अलग-अलग मेट्रिक मौजूद हैं. इनसे एआई विशेषज्ञों को मॉडल के अलग-अलग पहलुओं के बारे में जानकारी मिल सकती है.

W

ज़्यादा लोगों की राय

#df

इस सिद्धांत के मुताबिक, लोगों के बड़े ग्रुप ("क्राउड") की राय या अनुमानों का औसत निकालने से, अक्सर बेहतर नतीजे मिलते हैं. उदाहरण के लिए, एक गेम में लोग यह अनुमान लगाते हैं कि एक बड़े जार में कितनी जेली बीन्स पैक की गई हैं. हालांकि, ज़्यादातर लोगों के अनुमान गलत होंगे, लेकिन सभी अनुमान का औसत, जार में मौजूद जेली बीन की असल संख्या के काफ़ी करीब होता है.

एनसेंबल, भीड़ की बुद्धि का सॉफ़्टवेयर ऐनलॉग है. भले ही, अलग-अलग मॉडल काफ़ी गलत अनुमान लगाते हों, लेकिन कई मॉडल के अनुमान का औसत निकालने से, अक्सर काफ़ी अच्छे अनुमान मिलते हैं. उदाहरण के लिए, हो सकता है कि कोई एक फ़ैसला लेने वाला ट्री खराब अनुमान लगाए, लेकिन फ़ैसला लेने वाला फ़ॉरेस्ट अक्सर बहुत अच्छे अनुमान लगाता है.