डेटासेट बनाने की जानकारी

अपना डेटासेट बनाने का तरीका

अपना डेटासेट बनाने और डेटा बदलने से पहले, आपको ये काम करने चाहिए:

  1. रॉ डेटा इकट्ठा करें.
  2. सुविधा और लेबल स्रोतों की पहचान करें.
  3. नमूने का विश्लेषण करने का तरीका चुनें.
  4. डेटा को बांटें.

ये चरण इस बात पर निर्भर करते हैं कि आपने मशीन लर्निंग से जुड़ी समस्या को कैसे पूरा किया है. समस्या फ़्रेमिंग के लिए अपनी मेमोरी को रीफ़्रेश करने के लिए, नीचे दिए गए खुद किए जाने वाले जांच का इस्तेमाल करें. साथ ही, डेटा इकट्ठा करने से जुड़े अपने अनुमान देखें.

समस्या को ठीक करने और डेटा इकट्ठा करने के सिद्धांतों को खुद ही जांचना

नीचे दिए गए सवालों के लिए, अपने जवाब की जांच करने के लिए, अपनी पसंद के ऐरो पर क्लिक करें:

आप बिल्कुल नए मशीन लर्निंग प्रोजेक्ट पर हैं, ताकि आप अपनी पहली सुविधाएं चुन सकें. आपको कितनी सुविधाएं चुननी चाहिए?
ऐसी एक से तीन सुविधाएं चुनें जिनमें मज़बूत पावर का अनुमान हो.
सिर्फ़ एक या दो सुविधाओं का इस्तेमाल शुरू करना आपके डेटा कलेक्शन के लिए सबसे सही तरीका है. इससे आपको यह पुष्टि करने में मदद मिलेगी कि एमएल मॉडल उम्मीद के मुताबिक काम करता है. साथ ही, जब आप कुछ सुविधाओं का इस्तेमाल करके बेसलाइन बनाते हैं, तो आपको ऐसा लगता है कि आप भी काफ़ी बढ़ रहे हैं!
ऐसी 4-6 सुविधाएं चुनें जिनके लिए पावर का अनुमान लगाया गया हो.
हो सकता है कि आप बहुत सारी सुविधाओं का इस्तेमाल करना चाहें, लेकिन इसके बाद भी कम सुविधाओं के साथ शुरुआत करना बेहतर होगा. आम तौर पर, कम सुविधाओं का मतलब कम जटिल समस्याएं होती हैं.
ज़्यादा से ज़्यादा सुविधाएं चुनें, ताकि आप यह देख सकें कि किन सुविधाओं का अनुमान लगाया जा सकता है.
छोटी रकम से शुरू करें. हर नई सुविधा आपके ट्रेनिंग डेटा सेट में नया डाइमेंशन जोड़ती है. डाइमेंशन के बढ़ने पर, स्पेस का वॉल्यूम इतना तेज़ी से बढ़ जाता है कि उपलब्ध ट्रेनिंग डेटा कम हो जाता है. आपका डेटा जितना सटीक होगा उतना ही मॉडल के लिए उन सुविधाओं का पता लगाना उतना ही मुश्किल होगा जो वाकई मायने रखती हैं. इस घटना को &quot कहा जाता है कि ये डाइमेंशन का डाइमेंशन है."
आपके दोस्त सैम, आंकड़ों के विश्लेषण के शुरुआती नतीजों को लेकर उत्साहित हैं. उनका कहना है कि इस डेटा से, ऐप्लिकेशन के डाउनलोड की संख्या और ऐप्लिकेशन की समीक्षा के इंप्रेशन की संख्या के बीच संबंध का पता चलता है. हालांकि, उन्हें यह पक्का नहीं पता कि इस समीक्षा को देखे बिना भी उन्होंने इसे डाउनलोड किया है या नहीं. राम को किस चीज़ से सबसे ज़्यादा मदद मिलेगी?
आपके पास एक ऐसा प्रयोग करने का विकल्प होता है जिसकी मदद से, उन उपयोगकर्ताओं के व्यवहार की तुलना की जा सकती है जिन्होंने उसी तरह के उपयोगकर्ताओं की समीक्षा नहीं देखी है.
सही! अगर सैम को पता चलता है कि जिन लोगों ने सकारात्मक समीक्षा देखी है वे ऐप्लिकेशन की तुलना में ऐप्लिकेशन डाउनलोड करके ज़्यादा करेंगे, तो उनके पास यह बताने के लिए सही सबूत होंगे कि सकारात्मक समीक्षा से लोगों को ऐप्लिकेशन डाउनलोड करने के लिए बढ़ावा दिया जा रहा है.
डेटा पर भरोसा करें. यह साफ़ है कि उपयोगकर्ताओं ने ऐप्लिकेशन को क्यों डाउनलोड किया है, इसकी वजह यह है कि उनकी अच्छी समीक्षा ही इसकी वजह है.
गलत. यह जवाब श्याम को सही दिशा में नहीं ले जाएगा. आप सिर्फ़ निगरानी वाले डेटा की वजह से, यह तय नहीं कर सकते कि काम करना है या नहीं. सैम को संबंध (यानी कि संख्याओं के बीच एक आंकड़ों पर निर्भरता) दिख रहा है. इससे यह पता चलता है कि यह वजह है या नहीं. अपने विश्लेषण को नकली संबंध की रैंकिंग में शामिल न करने दें.