डेटासेट: लेबल

इस सेक्शन में, लेबल के बारे में जानकारी दी गई है.

डायरेक्ट बनाम प्रॉक्सी लेबल

दो अलग-अलग तरह के लेबल का इस्तेमाल करें:

  • डायरेक्ट लेबल, जो आपके मॉडल के अनुमान से मिलते-जुलते लेबल होते हैं बनाने की कोशिश करता है. इसका मतलब है कि आपका मॉडल जो अनुमान लगाना चाहता है आपके डेटासेट में कॉलम के रूप में मौजूद है. उदाहरण के लिए, bicycle owner नाम वाला कॉलम बाइनरी क्लासिफ़िकेशन मॉडल, जो यह अनुमान लगाता है कि किसी व्यक्ति के पास मालिकाना हक है या नहीं एक साइकल.
  • प्रॉक्सी लेबल, जो मिलते-जुलते लेबल होते हैं—लेकिन समान नहीं है—उस अनुमान के जैसा जो आपका मॉडल बनाने की कोशिश कर रहा है. उदाहरण के लिए, कोई व्यक्ति 'साइकल बिज़ार' पत्रिका की सदस्यता लेता है शायद—लेकिन वह वाकई में एक साइकल का मालिक है.

आम तौर पर, डायरेक्ट लेबल, प्रॉक्सी लेबल से बेहतर होते हैं. अगर आपका डेटासेट एक संभावित डायरेक्ट लेबल प्रदान करता है, तो आपको संभवतः उसका उपयोग करना चाहिए. कई बार, सीधे तौर पर लेबल करने की सुविधा उपलब्ध नहीं होती.

प्रॉक्सी लेबल के साथ हमेशा एक समझौता होता है—जो लेबल लगाया जाता है. हालांकि, कुछ प्रॉक्सी लेबल अनुमान के हिसाब से बिलकुल सटीक होते हैं उपयोगी साबित होते हैं. प्रॉक्सी लेबल का इस्तेमाल करने वाले मॉडल प्रॉक्सी लेबल और सुझाव के बीच कनेक्शन.

याद रखें कि हर लेबल को फ़्लोटिंग-पॉइंट नंबर के तौर पर दिखाया जाना चाहिए फ़ीचर वेक्टर में (ऐसा इसलिए, क्योंकि मशीन लर्निंग के ज़रिए हम गणित का सिर्फ़ एक बड़ा कलेक्शन देख सकते हैं कार्रवाइयां). कभी-कभी, एक डायरेक्ट लेबल मौजूद होता है, लेकिन उसे इस तौर पर आसानी से नहीं दिखाया जा सकता फ़ीचर वेक्टर में फ़्लोटिंग-पॉइंट नंबर. इस स्थिति में, प्रॉक्सी लेबल का इस्तेमाल करें.

व्यायाम: अपनी समझ की जांच करें

आपकी कंपनी ये काम करना चाहती है:

मेल कूपन ("अपनी पुरानी साइकल में ट्रेड करें साइकल के मालिकों को दी जाएगी.

इसलिए, आपके मॉडल को ये काम करने होंगे:

अनुमान लगाएं कि किन लोगों के पास साइकल है.

माफ़ करें, डेटासेट में bike owner नाम का कॉलम नहीं है. हालांकि, डेटासेट में recently bought a bicycle नाम का एक कॉलम होता है.

क्या recently bought a bicycle एक अच्छा प्रॉक्सी लेबल होगा या इस मॉडल के लिए एक ख़राब प्रॉक्सी लेबल है?
अच्छा प्रॉक्सी लेबल
यह कॉलम recently bought a bicycle की तुलना में अच्छा प्रॉक्सी लेबल. आख़िरकार, ज़्यादातर लोग जो साइकल खरीदते हैं. अब उनकी अपनी साइकल होगी. फिर भी, सभी की तरह प्रॉक्सी लेबल, भले ही बहुत अच्छे हों, recently bought a bicycle सटीक नहीं है. आख़िरकार, वह व्यक्ति जो खरीदारी करता है यह ज़रूरी नहीं है कि कोई आइटम हमेशा उस आइटम का इस्तेमाल करने वाला या उसका मालिक हो. उदाहरण के लिए, कभी-कभी लोग उपहार के तौर पर साइकल खरीदते हैं.
खराब प्रॉक्सी लेबल
सभी प्रॉक्सी लेबल की तरह, recently bought a bicycle अधूरा है (कुछ साइकल उपहार के तौर पर खरीदकर, अन्य). हालांकि, recently bought a bicycle यह दिखाता है कि किसी के पास साइकल.

मैन्युअल तरीके से बनाया गया डेटा

कुछ डेटा मैन्युअल तरीके से जनरेट किया गया होता है; इसका मतलब है कि एक या उससे ज़्यादा लोग, लेबल के लिए जानकारी देनी होगी और एक वैल्यू देनी होगी. उदाहरण के लिए, एक या उससे ज़्यादा मौसम वैज्ञानिक, आसमान की तस्वीरों की जांच कर सकते हैं और क्लाउड टाइप के हिसाब से.

इसकी जगह, कुछ डेटा अपने-आप जनरेट हो सकता है. इसका मतलब है कि सॉफ़्टवेयर इस वैल्यू को किसी दूसरे मशीन लर्निंग मॉडल से जोड़ा जा सकता है. उदाहरण के लिए, मशीन लर्निंग मॉडल, आसमान की तस्वीरों की जांच कर सकता है और अपने-आप क्लाउड टाइप के हिसाब से.

इस सेक्शन में, लोगों के बनाए गए डेटा के फ़ायदों और नुकसानों के बारे में बताया गया है.

फ़ायदे

  • रेटिंग देने वाले लोग कई तरह के काम कर सकते हैं जो मशीन लर्निंग मॉडल मुश्किल लग सकते हैं.
  • यह प्रोसेस डेटासेट के मालिक को साफ़ तौर पर जानकारी इकट्ठा करने के लिए मजबूर करती है एक जैसे मानदंड.

नुकसान

  • आम तौर पर, रेटिंग देने वाले लोगों को पैसे दिए जाते हैं. इसलिए, लोगों से जनरेट किया गया डेटा महंगा हो सकता है.
  • गलती इंसानों ही होती है. इसलिए, रेटिंग देने वाले कई लोगों को एक ही डेटा है.

अपनी ज़रूरतें तय करने के लिए, इन सवालों के जवाब दें:

  • यह ज़रूरी है कि आपके रेटिंग देने वाले लोग कितने कुशल हों? उदाहरण के लिए, रेटिंग देने वालों को कोई खास भाषा जानते हैं? आपको डायलॉग या एनएलपी के लिए भाषाविदों की ज़रूरत है ऐप्लिकेशन?)
  • आपको लेबल किए गए कितने उदाहरणों की ज़रूरत है? आपको इनकी कितनी जल्दी ज़रूरत है?
  • आपका बजट क्या है?

रेटिंग देने वाले लोगों की हमेशा अच्छी तरह जांच करें. उदाहरण के लिए, लेबल 1000 उदाहरण और देखें कि आपके नतीजे रेटिंग देने वाले दूसरे लोगों से कैसे मेल खाते हैं नतीजे. अगर गड़बड़ियां दिखती हैं, तो यह न मानें कि आपकी रेटिंग सही हैं, ख़ास तौर पर तब, जब किसी प्रॉडक्ट की कीमत को लेकर ज़्यादा फ़ैसले लिया जा रहा हो. अगर रेटिंग देने वाले लोगों ने गड़बड़ी ठीक करने के लिए, निर्देश जोड़ें. इसके बाद, फिर से कोशिश करें.