इस सेक्शन में, लेबल के बारे में जानकारी दी गई है.
डायरेक्ट बनाम प्रॉक्सी लेबल
दो अलग-अलग तरह के लेबल का इस्तेमाल करें:
- डायरेक्ट लेबल, जो आपके मॉडल के अनुमान से मिलते-जुलते लेबल होते हैं
बनाने की कोशिश करता है. इसका मतलब है कि आपका मॉडल जो अनुमान लगाना चाहता है
आपके डेटासेट में कॉलम के रूप में मौजूद है.
उदाहरण के लिए,
bicycle owner
नाम वाला कॉलम बाइनरी क्लासिफ़िकेशन मॉडल, जो यह अनुमान लगाता है कि किसी व्यक्ति के पास मालिकाना हक है या नहीं एक साइकल. - प्रॉक्सी लेबल, जो मिलते-जुलते लेबल होते हैं—लेकिन समान नहीं है—उस अनुमान के जैसा जो आपका मॉडल बनाने की कोशिश कर रहा है. उदाहरण के लिए, कोई व्यक्ति 'साइकल बिज़ार' पत्रिका की सदस्यता लेता है शायद—लेकिन वह वाकई में एक साइकल का मालिक है.
आम तौर पर, डायरेक्ट लेबल, प्रॉक्सी लेबल से बेहतर होते हैं. अगर आपका डेटासेट एक संभावित डायरेक्ट लेबल प्रदान करता है, तो आपको संभवतः उसका उपयोग करना चाहिए. कई बार, सीधे तौर पर लेबल करने की सुविधा उपलब्ध नहीं होती.
प्रॉक्सी लेबल के साथ हमेशा एक समझौता होता है—जो लेबल लगाया जाता है. हालांकि, कुछ प्रॉक्सी लेबल अनुमान के हिसाब से बिलकुल सटीक होते हैं उपयोगी साबित होते हैं. प्रॉक्सी लेबल का इस्तेमाल करने वाले मॉडल प्रॉक्सी लेबल और सुझाव के बीच कनेक्शन.
याद रखें कि हर लेबल को फ़्लोटिंग-पॉइंट नंबर के तौर पर दिखाया जाना चाहिए फ़ीचर वेक्टर में (क्योंकि मशीन लर्निंग मूल रूप से गणित का एक बहुत बड़ा संग्रह है कार्रवाइयां). कभी-कभी, एक डायरेक्ट लेबल मौजूद होता है, लेकिन उसे इस तौर पर आसानी से नहीं दिखाया जा सकता फ़ीचर वेक्टर में फ़्लोटिंग-पॉइंट नंबर. इस स्थिति में, प्रॉक्सी लेबल का इस्तेमाल करें.
व्यायाम: अपनी समझ की जांच करें
आपकी कंपनी ये काम करना चाहती है:
मेल कूपन ("अपनी पुरानी साइकल में ट्रेड करें साइकल के मालिकों को दी जाएगी.
इसलिए, आपके मॉडल को ये काम करने होंगे:
अनुमान लगाएं कि किन लोगों के पास साइकल है.
माफ़ करें, डेटासेट में bike owner
नाम का कॉलम नहीं है.
हालांकि, डेटासेट में recently bought a bicycle
नाम का एक कॉलम होता है.
recently bought a bicycle
एक अच्छा प्रॉक्सी लेबल होगा
या इस मॉडल के लिए एक ख़राब प्रॉक्सी लेबल है?recently bought a bicycle
की तुलना में अच्छा प्रॉक्सी लेबल. आख़िरकार, ज़्यादातर लोग
जो साइकल खरीदते हैं. अब उनकी अपनी साइकल होगी. फिर भी, सभी की तरह
प्रॉक्सी लेबल, भले ही बहुत अच्छे हों, recently bought a
bicycle
सटीक नहीं है. आख़िरकार, वह व्यक्ति जो खरीदारी करता है
यह ज़रूरी नहीं है कि कोई आइटम हमेशा उस आइटम का इस्तेमाल करने वाला या उसका मालिक हो.
उदाहरण के लिए, कभी-कभी लोग उपहार के तौर पर साइकल खरीदते हैं.recently bought a bicycle
अधूरा है (कुछ साइकल उपहार के तौर पर खरीदकर,
अन्य). हालांकि, recently bought a bicycle
यह दिखाता है कि किसी के पास
साइकल.मैन्युअल तरीके से बनाया गया डेटा
कुछ डेटा मैन्युअल तरीके से जनरेट किया गया होता है; इसका मतलब है कि एक या उससे ज़्यादा लोग, लेबल के लिए जानकारी देनी होगी और एक वैल्यू देनी होगी. उदाहरण के लिए, एक या उससे ज़्यादा मौसम वैज्ञानिक, आसमान की तस्वीरों की जांच कर सकते हैं और क्लाउड टाइप के हिसाब से.
इसकी जगह, कुछ डेटा अपने-आप जनरेट हो सकता है. इसका मतलब है कि सॉफ़्टवेयर इस वैल्यू को किसी दूसरे मशीन लर्निंग मॉडल से जोड़ा जा सकता है. उदाहरण के लिए, मशीन लर्निंग मॉडल, आसमान की तस्वीरों की जांच कर सकता है और अपने-आप क्लाउड टाइप के हिसाब से.
इस सेक्शन में, लोगों के बनाए गए डेटा के फ़ायदों और नुकसानों के बारे में बताया गया है.
फ़ायदे
- रेटिंग देने वाले लोग कई तरह के काम कर सकते हैं जो मशीन लर्निंग मॉडल मुश्किल लग सकते हैं.
- यह प्रोसेस डेटासेट के मालिक को साफ़ तौर पर जानकारी इकट्ठा करने के लिए मजबूर करती है एक जैसे मानदंड.
नुकसान
- आम तौर पर, रेटिंग देने वाले लोगों को पैसे दिए जाते हैं. इसलिए, लोगों से जनरेट किया गया डेटा महंगा हो सकता है.
- गलती इंसानों ही होती है. इसलिए, रेटिंग देने वाले कई लोगों को एक ही डेटा है.
अपनी ज़रूरतें तय करने के लिए, इन सवालों के जवाब दें:
- यह ज़रूरी है कि आपके रेटिंग देने वाले लोग कितने कुशल हों? उदाहरण के लिए, रेटिंग देने वालों को कोई खास भाषा जानते हैं? आपको डायलॉग या एनएलपी के लिए भाषाविदों की ज़रूरत है ऐप्लिकेशन?)
- आपको लेबल किए गए कितने उदाहरणों की ज़रूरत है? आपको इनकी कितनी जल्दी ज़रूरत है?
- आपका बजट क्या है?
रेटिंग देने वाले लोगों की हमेशा अच्छी तरह जांच करें. उदाहरण के लिए, लेबल 1000 उदाहरण और देखें कि आपके नतीजे रेटिंग देने वाले दूसरे लोगों से कैसे मेल खाते हैं नतीजे. अगर गड़बड़ियां दिखती हैं, तो यह न मानें कि आपकी रेटिंग सही हैं, ख़ास तौर पर तब, जब किसी प्रॉडक्ट की कीमत को लेकर ज़्यादा फ़ैसले लिया जा रहा हो. अगर रेटिंग देने वाले लोगों ने गड़बड़ी ठीक करने के लिए, निर्देश जोड़ें. इसके बाद, फिर से कोशिश करें.