इस सेक्शन में, लेबल के बारे में बताया गया है.
सीधे तौर पर लागू होने वाले लेबल बनाम प्रॉक्सी लेबल
दो अलग-अलग तरह के लेबल के बारे में जानें:
- डायरेक्ट लेबल, जो आपके मॉडल की ओर से की जा रही भविष्यवाणी से मिलते-जुलते लेबल होते हैं. इसका मतलब है कि आपका मॉडल जिस कॉलम के लिए अनुमान लगाने की कोशिश कर रहा है वह आपके डेटासेट में मौजूद है.
उदाहरण के लिए,
bicycle owner
नाम का कॉलम, बाइनरी क्लासिफ़िकेशन मॉडल के लिए डायरेक्ट लेबल होगा. यह मॉडल अनुमान लगाता है कि किसी व्यक्ति के पास साइकिल है या नहीं. - प्रॉक्सी लेबल. ये ऐसे लेबल होते हैं जो आपके मॉडल के अनुमान से मिलते-जुलते होते हैं, लेकिन पूरी तरह से एक जैसे नहीं होते. उदाहरण के लिए, Bicycle Bizarre मैगज़ीन की सदस्यता लेने वाले व्यक्ति के पास शायद साइकिल हो, लेकिन यह ज़रूरी नहीं है.
आम तौर पर, प्रॉक्सी लेबल के मुकाबले डायरेक्ट लेबल बेहतर होते हैं. अगर आपके डेटासेट में सीधे तौर पर लेबल उपलब्ध है, तो आपको इसका इस्तेमाल करना चाहिए. हालांकि, अक्सर डायरेक्ट लेबल उपलब्ध नहीं होते हैं.
प्रॉक्सी लेबल हमेशा एक समझौता होता है. यह डायरेक्ट लेबल का सटीक अनुमान नहीं होता. हालांकि, कुछ प्रॉक्सी लेबल, काम के होने के लिए काफ़ी हद तक सटीक होते हैं. प्रॉक्सी लेबल का इस्तेमाल करने वाले मॉडल, सिर्फ़ तब काम के होते हैं, जब प्रॉक्सी लेबल और अनुमान के बीच कनेक्शन हो.
याद रखें कि हर लेबल को फ़ीचर वेक्टर में फ़्लोटिंग-पॉइंट नंबर के तौर पर दिखाया जाना चाहिए. ऐसा इसलिए, क्योंकि मशीन लर्निंग मूल रूप से गणितीय ऑपरेशनों का एक बड़ा मिश्रण है. कभी-कभी, कोई डायरेक्ट लेबल मौजूद होता है, लेकिन उसे फ़ीचर वेक्टर में फ़्लोटिंग-पॉइंट नंबर के तौर पर आसानी से नहीं दिखाया जा सकता. इस मामले में, प्रॉक्सी लेबल का इस्तेमाल करें.
एक्सरसाइज़: देखें कि आपको कितना समझ आया
आपकी कंपनी को ये काम करने हैं:
साइकल के मालिकों को कूपन ("नई साइकल के हेलमेट पर 15% की छूट पाएं") भेजें.
इसलिए, आपके मॉडल को ये काम करने होंगे:
यह अनुमान लगाना कि किन लोगों के पास साइकल है.
माफ़ करें, डेटासेट में bike owner
नाम का कोई कॉलम नहीं है.
हालांकि, डेटासेट में recently bought a bicycle
नाम का एक कॉलम मौजूद है.
recently bought a bicycle
एक अच्छा प्रॉक्सी लेबल है या खराब प्रॉक्सी लेबल है?recently bought a bicycle
, एक
तुलनात्मक रूप से अच्छा प्रॉक्सी लेबल है. आखिरकार, अब साइकल खरीदने वाले ज़्यादातर लोगों के पास साइकल है. हालांकि, सभी प्रॉक्सी लेबल की तरह, बहुत अच्छे लेबल भी � सटीक नहीं होते.recently bought a
bicycle
ऐसा इसलिए, क्योंकि किसी आइटम को खरीदने वाला व्यक्ति हमेशा वह व्यक्ति नहीं होता जो उस आइटम का इस्तेमाल करता है या उसका मालिक होता है.
उदाहरण के लिए, कभी-कभी लोग साइकल को तोहफ़े के तौर पर खरीदते हैं.recently bought a bicycle
भी पूरी तरह सटीक नहीं है. ऐसा इसलिए, क्योंकि कुछ साइकल उपहार के तौर पर खरीदी जाती हैं और दूसरों को दी जाती हैं. हालांकि, recently bought a bicycle
अब भी एक अच्छा संकेत है कि किसी व्यक्ति के पास साइकिल है.मैन्युअल तरीके से जनरेट किया गया डेटा
कुछ डेटा मैन्युअल तरीके से जनरेट किया जाता है. इसका मतलब है कि एक या उससे ज़्यादा लोग कुछ जानकारी की जांच करते हैं और वैल्यू देते हैं. आम तौर पर, यह वैल्यू लेबल के लिए होती है. उदाहरण के लिए, एक या उससे ज़्यादा मौसम वैज्ञानिक, आसमान की तस्वीरों की जांच करके बादलों के टाइप की पहचान कर सकते हैं.
इसके अलावा, कुछ डेटा अपने-आप जनरेट होता है. इसका मतलब है कि सॉफ़्टवेयर (ऐसा हो सकता है कि यह कोई दूसरा मशीन लर्निंग मॉडल हो) वैल्यू तय करता है. उदाहरण के लिए, मशीन लर्निंग मॉडल आसमान की तस्वीरों की जांच कर सकता है और बादलों के टाइप की पहचान अपने-आप कर सकता है.
इस सेक्शन में, लोगों के बनाए गए डेटा के फ़ायदों और नुकसान के बारे में बताया गया है.
फ़ायदे
- समीक्षा करने वाले लोग कई तरह के ऐसे काम कर सकते हैं जिन्हें बेहतर मशीन लर्निंग मॉडल भी मुश्किल मानते हैं.
- इस प्रोसेस में, डेटासेट के मालिक को साफ़ तौर पर और लगातार एक जैसे मानदंड तय करने होते हैं.
नुकसान
- आम तौर पर, मैन्युअल तरीके से रेटिंग देने वालों को पेमेंट किया जाता है. इसलिए, मैन्युअल तरीके से जनरेट किया गया डेटा महंगा हो सकता है.
- गलती करना इंसान का स्वभाव है. इसलिए, एक ही डेटा का आकलन कई लोग कर सकते हैं.
अपनी ज़रूरतों का पता लगाने के लिए, इन सवालों के बारे में सोचें:
- रेटिंग देने वालों के पास कौनसी ज़रूरी स्किल होनी चाहिए? (उदाहरण के लिए, क्या रेटिंग देने वालों को कोई खास भाषा आनी चाहिए? क्या आपको बातचीत या एनएलपी ऐप्लिकेशन के लिए भाषा विशेषज्ञों की ज़रूरत है?)
- आपको लेबल किए गए कितने उदाहरण चाहिए? आपको ये कब तक चाहिए?
- आपका बजट कितना है?
हमेशा अपने ह्यूमन रेटर की दो बार जांच करें. उदाहरण के लिए, खुद 1,000 उदाहरणों को लेबल करें और देखें कि आपके नतीजे, रेटिंग देने वाले अन्य लोगों के नतीजों से कितने मिलते-जुलते हैं. अगर आपको अंतर दिखता है, तो यह न मान लें कि आपकी रेटिंग सही हैं. ऐसा खास तौर पर तब होता है, जब वैल्यू का आकलन किया जाता है. अगर लोगों ने रेटिंग देते समय कोई गड़बड़ी की है, तो उन्हें निर्देश दें और फिर से कोशिश करें.