Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

डेटासेट: लेबल

इस सेक्शन में, लेबल के बारे में बताया गया है.

सीधे तौर पर लागू होने वाले लेबल बनाम प्रॉक्सी लेबल

दो अलग-अलग तरह के लेबल के बारे में जानें:

डायरेक्ट लेबल. ये ऐसे लेबल होते हैं जो आपके मॉडल की ओर से की गई भविष्यवाणी से पूरी तरह मेल खाते हैं. इसका मतलब है कि आपका मॉडल जिस कॉलम के लिए अनुमान लगाने की कोशिश कर रहा है वह आपके डेटासेट में मौजूद है. उदाहरण के लिए, bicycle owner नाम का कॉलम, बाइनरी क्लासिफ़िकेशन मॉडल के लिए डायरेक्ट लेबल होगा. यह मॉडल अनुमान लगाता है कि किसी व्यक्ति के पास साइकिल है या नहीं.
प्रॉक्सी लेबल. ये ऐसे लेबल होते हैं जो आपके मॉडल के अनुमान से मिलते-जुलते होते हैं, लेकिन पूरी तरह से एक जैसे नहीं होते. उदाहरण के लिए, Bicycle Bizarre मैगज़ीन की सदस्यता लेने वाले व्यक्ति के पास शायद साइकिल हो, लेकिन यह ज़रूरी नहीं है.

आम तौर पर, प्रॉक्सी लेबल के मुकाबले डायरेक्ट लेबल बेहतर होते हैं. अगर आपके डेटासेट में सीधे तौर पर लेबल उपलब्ध है, तो आपको इसका इस्तेमाल करना चाहिए. हालांकि, अक्सर डायरेक्ट लेबल उपलब्ध नहीं होते हैं.

प्रॉक्सी लेबल हमेशा एक समझौता होता है. यह डायरेक्ट लेबल का सटीक अनुमान नहीं होता. हालांकि, कुछ प्रॉक्सी लेबल, काम के होने के लिए काफ़ी हद तक सटीक होते हैं. प्रॉक्सी लेबल का इस्तेमाल करने वाले मॉडल, सिर्फ़ तब काम के होते हैं, जब प्रॉक्सी लेबल और अनुमान के बीच कनेक्शन हो.

याद रखें कि हर लेबल को फ़्लोटिंग-पॉइंट नंबर के तौर पर दिखाया जाना चाहिए. यह फ़ीचर वेक्टर की तरह होता है, क्योंकि मशीन लर्निंग मूल रूप से गणितीय ऑपरेशनों का कलेक्शन है. कभी-कभी, कोई डायरेक्ट लेबल मौजूद होता है, लेकिन उसे फ़्लोटिंग-पॉइंट नंबर के तौर पर आसानी से नहीं दिखाया जा सकता. इस मामले में, प्रॉक्सी लेबल का इस्तेमाल करें.

एक्सरसाइज़: देखें कि आपको कितना समझ आया

आपकी कंपनी को ये काम करने हैं:

साइकल के मालिकों को कूपन ("नई साइकल के हेलमेट पर 15% की छूट पाएं") भेजें.

इसलिए, आपके मॉडल को ये काम करने होंगे:

यह अनुमान लगाना कि किन लोगों के पास साइकल है.

माफ़ करें, डेटासेट में bike owner नाम का कोई कॉलम नहीं है. हालांकि, डेटासेट में recently bought a bicycle नाम का एक कॉलम मौजूद है.

क्या इस मॉडल के लिए recently bought a bicycle एक अच्छा प्रॉक्सी लेबल है या खराब प्रॉक्सी लेबल है?

अच्छा प्रॉक्सी लेबल

कॉलम recently bought a bicycle, प्रॉक्सी लेबल के तौर पर काफ़ी अच्छा है. आखिरकार, अब साइकल खरीदने वाले ज़्यादातर लोगों के पास साइकल है. हालांकि, सभी प्रॉक्सी लेबल की तरह, बहुत अच्छे लेबल भी � सटीक नहीं होते.

recently bought a
            bicycle

ऐसा इसलिए, क्योंकि किसी आइटम को खरीदने वाला व्यक्ति हमेशा वह व्यक्ति नहीं होता जो उस आइटम का इस्तेमाल करता है या उसका मालिक होता है. उदाहरण के लिए, कभी-कभी लोग साइकल को तोहफ़े के तौर पर खरीदते हैं.

खराब प्रॉक्सी लेबल

सभी प्रॉक्सी लेबल की तरह, recently bought a bicycle भी पूरी तरह सटीक नहीं है. ऐसा इसलिए, क्योंकि कुछ साइकल उपहार के तौर पर खरीदी जाती हैं और उन्हें दूसरों को दिया जाता है. हालांकि, recently bought a bicycle अब भी एक अच्छा संकेत है कि किसी व्यक्ति के पास साइकिल है.

मैन्युअल तरीके से जनरेट किया गया डेटा

कुछ डेटा मैन्युअल तरीके से जनरेट किया जाता है. इसका मतलब है कि एक या उससे ज़्यादा लोग कुछ जानकारी की जांच करते हैं और वैल्यू देते हैं. आम तौर पर, यह वैल्यू लेबल के लिए होती है. उदाहरण के लिए, एक या उससे ज़्यादा मौसम वैज्ञानिक, आसमान की तस्वीरों की जांच करके बादलों के टाइप की पहचान कर सकते हैं.

इसके अलावा, कुछ डेटा अपने-आप जनरेट होता है. इसका मतलब है कि सॉफ़्टवेयर (ऐसा हो सकता है कि यह कोई दूसरा मशीन लर्निंग मॉडल हो) वैल्यू तय करता है. उदाहरण के लिए, मशीन लर्निंग मॉडल आसमान की तस्वीरों की जांच कर सकता है. साथ ही, बादलों के टाइप की पहचान अपने-आप कर सकता है.

इस सेक्शन में, लोगों के बनाए गए डेटा के फ़ायदों और नुकसान के बारे में बताया गया है.

फ़ायदे

समीक्षा करने वाले लोग कई तरह के ऐसे काम कर सकते हैं जिन्हें बेहतर मशीन लर्निंग मॉडल भी मुश्किल मानते हैं.
इस प्रोसेस में, डेटासेट के मालिक को साफ़ तौर पर और लगातार एक जैसे मानदंड तय करने होते हैं.

नुकसान

आम तौर पर, मैन्युअल तरीके से रेटिंग देने वालों को पेमेंट किया जाता है. इसलिए, मैन्युअल तरीके से जनरेट किया गया डेटा महंगा हो सकता है.
गलती करना इंसान का स्वभाव है. इसलिए, एक ही डेटा का आकलन कई लोग कर सकते हैं.

अपनी ज़रूरतों का पता लगाने के लिए, इन सवालों के बारे में सोचें:

रेटिंग देने वालों के पास कौनसी ज़रूरी स्किल होनी चाहिए? (उदाहरण के लिए, क्या रेटिंग देने वालों को कोई खास भाषा आनी चाहिए? क्या आपको बातचीत या एनएलपी ऐप्लिकेशन के लिए भाषा विशेषज्ञों की ज़रूरत है?)
आपको लेबल किए गए कितने उदाहरण चाहिए? आपको ये कब तक चाहिए?
आपका बजट कितना है?

हमेशा अपने ह्यूमन रेटर की दो बार जांच करें. उदाहरण के लिए, खुद 1,000 उदाहरणों को लेबल करें और देखें कि आपके नतीजे, अन्य रेटिंग देने वालों के नतीजों से कितने मिलते-जुलते हैं. अगर आपको अंतर दिखता है, तो यह न मान लें कि आपकी रेटिंग सही हैं. ऐसा खास तौर पर तब होता है, जब वैल्यू का आकलन किया जाता है. अगर लोगों ने रेटिंग देते समय कोई गड़बड़ी की है, तो उन्हें निर्देश दें और फिर से कोशिश करें.

इंसानों के जनरेट किए गए डेटा के बारे में ज़्यादा जानने के लिए, प्लस आइकॉन पर क्लिक करें.

अपने डेटा को मैन्युअल तरीके से देखना एक अच्छी आदत है. इससे कोई फ़र्क़ नहीं पड़ता कि आपने डेटा कैसे इकट्ठा किया है. Andrej Karpathy ने ImageNet पर ऐसा किया था और इसके बारे में लिखा था.

मॉडल को, ऑटोमेटेड और मैन्युअल तरीके से बनाए गए लेबल, दोनों के आधार पर ट्रेन किया जा सकता है. हालांकि, ज़्यादातर मॉडल के लिए, इंसानों के बनाए गए लेबल का एक अतिरिक्त सेट (जो पुराना हो सकता है) आम तौर पर अतिरिक्त जटिलता और रखरखाव के लायक नहीं होता. हालांकि, कभी-कभी मैन्युअल तरीके से बनाए गए लेबल में ऐसी अतिरिक्त जानकारी मिल सकती है जो अपने-आप जनरेट होने वाले लेबल में उपलब्ध नहीं होती.

पीछे जाएं

डेटा की विशेषताएं (10 मिनट)

आगे बढ़ें

असंतुलित डेटासेट (10 मिनट)