डिसीज़न फ़ॉरेस्ट सबसे ज़्यादा तब असरदार होते हैं, जब आपके पास टेबल वाला डेटासेट हो. इस डेटा को स्प्रेडशीट, CSV फ़ाइल या डेटाबेस टेबल में दिखाया जा सकता है. टेबल वाला डेटा, सबसे सामान्य डेटा फ़ॉर्मैट में से एक है. इसे मॉडल करने के लिए, आपके पास फ़ैसला फ़ॉरेस्ट का विकल्प है.
पहली टेबल. टेबल वाले डेटासेट का उदाहरण.
पैरों की संख्या | आँखों की संख्या | वज़न (पाउंड में) | प्रजाति (लेबल) |
---|---|---|---|
2 | 2 | 12 | पेंग्विन |
8 | 6 | 0.1 | मकड़ी |
4 | 2 | 44 | कुत्ता |
… | … | … | … |
न्यूरल नेटवर्क के उलट, डिसीज़न फ़ॉरेस्ट, मॉडल के टेबल वाले डेटा का इस्तेमाल करता है. फ़ैसला फ़ॉरेस्ट बनाते समय, आपको ये काम करने की ज़रूरत नहीं है:
- प्रीप्रोसेसिंग की सुविधा का इस्तेमाल करें. जैसे, फ़ीचर को सामान्य करना या वन-हॉट एन्कोडिंग.
- इंप्यूटेशन करें. उदाहरण के लिए, किसी वैल्यू को
-1
से बदलना.
हालांकि, फ़ैसला लेने वाले फ़ॉरेस्ट, टेबल के तौर पर नहीं दिखाए जाने वाले डेटा (इसे अनस्ट्रक्चर्ड डेटा भी कहा जाता है) का इस्तेमाल सीधे तौर पर नहीं कर सकते. जैसे, इमेज या टेक्स्ट. हां, इस सीमितता को हल करने के तरीके मौजूद हैं. हालांकि, आम तौर पर न्यूरल नेटवर्क, बिना स्ट्रक्चर वाले डेटा को बेहतर तरीके से मैनेज करते हैं.
परफ़ॉर्मेंस
डिसीज़न फ़ॉरेस्ट, सैंपल के हिसाब से बेहतर होते हैं. इसका मतलब है कि डिसिज़न फ़ॉरेस्ट, छोटे डेटासेट या ऐसे डेटासेट पर ट्रेनिंग के लिए सबसे सही होते हैं जिनमें एग्ज़ैंपल की संख्या / सुविधाओं की संख्या का अनुपात ज़्यादा (संभवतः 1 से ज़्यादा) होता है. हालांकि, सभी मशीन लर्निंग मॉडल की तरह ही, डिसीज़न फ़ॉरेस्ट भी सैंपल के हिसाब से बेहतर होते हैं. हालांकि, डिसीज़न फ़ॉरेस्ट तब सबसे अच्छा परफ़ॉर्म करते हैं, जब बहुत ज़्यादा डेटा उपलब्ध हो.
आम तौर पर, फ़ैसला लेने वाले फ़ॉरेस्ट, मिलते-जुलते न्यूरल नेटवर्क की तुलना में तेज़ी से अनुमान लगाते हैं. उदाहरण के लिए, मीडियम साइज़ का डिसीज़न फ़ॉरेस्ट, आधुनिक सीपीयू पर कुछ माइक्रोसेकंड में अनुमान लगाता है.