सैंपलिंग और स्प्लिटिंग: अपनी समझ की जांच करना

नीचे दिए गए सवालों के लिए, अपने जवाब की जांच करने के लिए, अपनी पसंद के ऐरो पर क्लिक करें:

मान लें कि आपके पास 1:1,000 पॉज़िटिव-नेगेटिव अनुपात वाला डेटासेट है. माफ़ करें, आपका मॉडल हमेशा सबसे ज़्यादा कक्षा का अनुमान लगाता है. इस समस्या को हल करने के लिए कौनसा तरीका आपके लिए सबसे सही रहेगा? ध्यान दें कि आप मॉडल को कैलिब्रेट की गई संभावना के बारे में रिपोर्ट करना चाहते हैं.
बस नेगेटिव उदाहरणों को डाउनग्रेड करें.
यह एक अच्छी शुरुआत है, लेकिन मॉडल की बुनियादी दर में बदलाव नहीं किया जाएगा. इसलिए, अब इसे कैलिब्रेट नहीं किया जाएगा.
नेगेटिव उदाहरणों (ज़्यादातर क्लास) को डाउनग्रेड करना. इसके बाद, उसी फ़ैक्टर के साथ, सैंपल के बिना तैयार की गई क्लास को वेट देकर देखें.
यह असंतुलित डेटा से निपटने का एक प्रभावी तरीका है और फिर भी लेबल का वास्तविक वितरण मिलता है. ध्यान दें कि क्या इस बात का ध्यान रखना ज़रूरी है कि मॉडल में कैलिब्रेट किए गए प्रॉबेबिलिटी की रिपोर्ट की गई है या नहीं. अगर इसे कैलिब्रेट करने की ज़रूरत नहीं है, तो आपको बुनियादी दर बदलने की ज़रूरत नहीं है.
किसी डेटासेट की पूंछ का डेटा किन तकनीकों से खो जाता है? लागू होने वाले सभी विकल्पों को सही का निशान लगाकर चुनें.
व्यक्तिगत पहचान से जुड़ी जानकारी को फ़िल्टर करने की सुविधा
अपने डेटा से व्यक्तिगत पहचान से जुड़ी जानकारी को फ़िल्टर करने से पिछले हिस्से से जानकारी हट सकती है. इससे आपके डिस्ट्रिब्यूशन की जानकारी पर असर पड़ सकता है.
महत्व
उदाहरण के तौर पर महत्व देने से, अलग-अलग उदाहरणों की अहमियत बदल जाती है, लेकिन इससे जानकारी बनी रहती है. असल में, पूंछ के उदाहरणों में वज़न जोड़ने से, आपके मॉडल को टेल के तौर पर व्यवहार समझने में मदद मिल सकती है.
डाउनसैंपलिंग
सुविधा के डिस्ट्रिब्यूशन की जानकारी वाला पेज, डाउनसैंपलिंग में जानकारी का इस्तेमाल नहीं कर पाएगा. हालांकि, हम आम तौर पर ज़्यादातर क्लास को डाउनग्रेड कर देते हैं, इसलिए आम तौर पर यह कमी बड़ी समस्या नहीं होती है.
सामान्य बनाना
नॉर्मलाइज़ेशन अलग-अलग उदाहरणों पर काम करता है, इसलिए इसमें सैंपलिंग बायस नहीं होता.
आप डेटा को अलग-अलग ग्रुप में बांटने की समस्या पर काम कर रहे हैं और आपने डेटा को बिना किसी तय क्रम के ट्रेनिंग, इवैलुएशन, और टेस्टिंग सेट में बांट दिया है. आपकी कैटगरी तय करने वाली सुविधा अच्छी तरह काम कर रही है! हालांकि, प्रोडक्शन में डेटा की कैटगरी तय करने वाला सिस्टम पूरी तरह से काम नहीं करता. आपको बाद में पता चलेगा कि यह समस्या रैंडम स्प्लिट की वजह से थी. इस समस्या के लिए किस तरह का डेटा उपलब्ध होता है?
टाइम सीरीज़ का डेटा
रैंडम तरीके से बांटने की सुविधा से, जांच/ट्रेन के स्प्लिट में हर क्लस्टर को बांटा जाता है. इससे, उस मॉडल का “स्नीक प्रीव्यू” मिलता है जो प्रोडक्शन में उपलब्ध नहीं होगा.
वह डेटा जो समय के साथ बहुत ज़्यादा नहीं बदलता है
अगर समय के साथ आपका डेटा बहुत ज़्यादा नहीं बदलता है, तो आपके पास बिना किसी तय क्रम के बांटने के बेहतर मौके होंगे. उदाहरण के लिए, हो सकता है कि आप फ़ोटो में कुत्तों की नस्ल की पहचान करना चाहें या बायोमेट्रिक्स के पिछले डेटा के आधार पर मरीज़ों को दिल की बीमारी का खतरा हो. दोनों मामलों में, आम तौर पर डेटा समय के साथ नहीं बदलता है. इसलिए, बिना किसी क्रम के बांटने से कोई समस्या नहीं होनी चाहिए.
डेटा का ग्रुपिंग
जांच सेट हमेशा ट्रेनिंग के सेट के जैसा ही होगा, क्योंकि एक जैसे डेटा के क्लस्टर दोनों सेट में होते हैं. ऐसा लग रहा है कि मॉडल में अनुमानित क्षमता से बेहतर पावर है.
बर्स्ट डेटा (लगातार स्ट्रीम के उलट, समय-समय पर होने वाले बर्स्ट में मिलने वाला डेटा)
एक जैसे डेटा (बर्स्ट) के क्लस्टर, ट्रेनिंग और टेस्टिंग, दोनों में दिखेंगे. यह मॉडल, नए डेटा की तुलना में टेस्ट में बेहतर अनुमान लगाएगा.