डिसीज़न फ़ॉरेस्ट के लिए सही डेटा

डिसीज़न फ़ॉरेस्ट सबसे ज़्यादा तब असरदार होते हैं, जब आपके पास टेबल वाला डेटासेट हो. इस डेटा को स्प्रेडशीट, CSV फ़ाइल या डेटाबेस टेबल में दिखाया जा सकता है. टेबल वाला डेटा, सबसे सामान्य डेटा फ़ॉर्मैट में से एक है. इसे मॉडल करने के लिए, आपके पास फ़ैसला फ़ॉरेस्ट का विकल्प है.

पहली टेबल. टेबल वाले डेटासेट का उदाहरण.

पैरों की संख्या आँखों की संख्या वज़न (पाउंड में) प्रजाति (लेबल)
2 2 12 पेंग्विन
8 6 0.1 मकड़ी
4 2 44 कुत्ता

न्यूरल नेटवर्क के उलट, डिसीज़न फ़ॉरेस्ट, मॉडल के टेबल वाले डेटा का इस्तेमाल करता है. फ़ैसला फ़ॉरेस्ट बनाते समय, आपको ये काम करने की ज़रूरत नहीं है:

  • प्रीप्रोसेसिंग की सुविधा का इस्तेमाल करें. जैसे, फ़ीचर को सामान्य करना या वन-हॉट एन्कोडिंग.
  • इंप्यूटेशन करें. उदाहरण के लिए, किसी वैल्यू को -1 से बदलना.

हालांकि, फ़ैसला लेने वाले फ़ॉरेस्ट, टेबल के तौर पर नहीं दिखाए जाने वाले डेटा (इसे अनस्ट्रक्चर्ड डेटा भी कहा जाता है) का इस्तेमाल सीधे तौर पर नहीं कर सकते. जैसे, इमेज या टेक्स्ट. हां, इस सीमितता को हल करने के तरीके मौजूद हैं. हालांकि, आम तौर पर न्यूरल नेटवर्क, बिना स्ट्रक्चर वाले डेटा को बेहतर तरीके से मैनेज करते हैं.

परफ़ॉर्मेंस

डिसीज़न फ़ॉरेस्ट, सैंपल के हिसाब से बेहतर होते हैं. इसका मतलब है कि डिसिज़न फ़ॉरेस्ट, छोटे डेटासेट या ऐसे डेटासेट पर ट्रेनिंग के लिए सबसे सही होते हैं जिनमें एग्ज़ैंपल की संख्या / सुविधाओं की संख्या का अनुपात ज़्यादा (संभवतः 1 से ज़्यादा) होता है. हालांकि, सभी मशीन लर्निंग मॉडल की तरह ही, डिसीज़न फ़ॉरेस्ट भी सैंपल के हिसाब से बेहतर होते हैं. हालांकि, डिसीज़न फ़ॉरेस्ट तब सबसे अच्छा परफ़ॉर्म करते हैं, जब बहुत ज़्यादा डेटा उपलब्ध हो.

आम तौर पर, फ़ैसला लेने वाले फ़ॉरेस्ट, मिलते-जुलते न्यूरल नेटवर्क की तुलना में तेज़ी से अनुमान लगाते हैं. उदाहरण के लिए, मीडियम साइज़ का डिसीज़न फ़ॉरेस्ट, आधुनिक सीपीयू पर कुछ माइक्रोसेकंड में अनुमान लगाता है.