डेटासेट: लेबल

इस सेक्शन में लेबल के बारे में बताया गया है.

डायरेक्ट बनाम प्रॉक्सी लेबल

दो तरह के लेबल पर विचार करें:

  • डायरेक्ट लेबल, जो आपके मॉडल के अनुमान से मिलते-जुलते लेबल होते हैं. इसका मतलब है कि आपका मॉडल जो अनुमान लगाने की कोशिश कर रहा है वह आपके डेटासेट में कॉलम के तौर पर मौजूद है. उदाहरण के लिए, bicycle owner नाम का कॉलम, बिनेरी क्लासिफ़िकेशन मॉडल के लिए डायरेक्ट लेबल होगा. यह मॉडल यह अनुमान लगाता है कि किसी व्यक्ति के पास साइकल है या नहीं.
  • प्रॉक्सी लेबल, जो आपके मॉडल के अनुमान से मिलते-जुलते होते हैं, लेकिन एक जैसे नहीं होते. उदाहरण के लिए, Bicycle Bizarre मैगज़ीन की सदस्यता लेने वाले व्यक्ति के पास साइकल हो सकती है, लेकिन ऐसा ज़रूरी नहीं है.

आम तौर पर, डायरेक्ट लेबल, प्रॉक्सी लेबल से बेहतर होते हैं. अगर आपका डेटासेट, संभावित डायरेक्ट लेबल उपलब्ध कराता है, तो आपको इसका इस्तेमाल करना चाहिए. हालांकि, अक्सर डायरेक्ट लेबल उपलब्ध नहीं होते.

प्रॉक्सी लेबल हमेशा समझौते के आधार पर तय किए जाते हैं. ये डायरेक्ट लेबल के मुकाबले कम सटीक होते हैं. हालांकि, कुछ प्रॉक्सी लेबल काफ़ी हद तक सटीक होते हैं, ताकि वे काम के हों. प्रॉक्सी लेबल का इस्तेमाल करने वाले मॉडल उतने ही काम के होते हैं जितना कि प्रॉक्सी लेबल और अनुमान के बीच का संबंध.

याद रखें कि हर लेबल को फ़ीचर वेक्टर में फ़्लोटिंग-पॉइंट नंबर के तौर पर दिखाया जाना चाहिए. ऐसा इसलिए है, क्योंकि मशीन लर्निंग मूल रूप से, गणितीय ऑपरेशन का एक बड़ा अमालगम है. कभी-कभी, डायरेक्ट लेबल मौजूद होता है, लेकिन उसे फ़ीचर वेक्टर में फ़्लोटिंग-पॉइंट नंबर के तौर पर आसानी से नहीं दिखाया जा सकता. इस मामले में, प्रॉक्सी लेबल का इस्तेमाल करें.

एक्सरसाइज़: देखें कि आपको क्या समझ आया

आपकी कंपनी को ये काम करने हैं:

साइकल के मालिकों को कूपन भेजें ("अपनी पुरानी साइकल को नई साइकल पर 15% की छूट के लिए बदलें").

इसलिए, आपके मॉडल को ये काम करने होंगे:

यह अनुमान लगाना कि किन लोगों के पास साइकल है.

माफ़ करें, डेटासेट में bike owner नाम का कॉलम नहीं है. हालांकि, डेटासेट में recently bought a bicycle नाम का एक कॉलम मौजूद है.

क्या इस मॉडल के लिए, recently bought a bicycle एक अच्छा प्रॉक्सी लेबल होगा या बुरा प्रॉक्सी लेबल?
अच्छा प्रॉक्सी लेबल
खराब प्रॉक्सी लेबल

मैन्युअल तरीके से जनरेट किया गया डेटा

कुछ डेटा मैन्युअल तरीके से जनरेट किया जाता है. इसका मतलब है कि एक या उससे ज़्यादा लोग कुछ जानकारी की जांच करते हैं और आम तौर पर लेबल के लिए वैल्यू देते हैं. उदाहरण के लिए, एक या एक से ज़्यादा मौसम विशेषज्ञ, आसमान की तस्वीरों की जांच करके, बादलों के टाइप की पहचान कर सकते हैं.

इसके अलावा, कुछ डेटा अपने-आप जनरेट होता है. इसका मतलब है कि सॉफ़्टवेयर (संभवतः, कोई दूसरा मशीन लर्निंग मॉडल) वैल्यू तय करता है. उदाहरण के लिए, मशीन लर्निंग मॉडल आसमान की तस्वीरों की जांच करके, बादलों के टाइप की अपने-आप पहचान कर सकता है.

इस सेक्शन में, लोगों से मिले डेटा के फ़ायदों और नुकसानों के बारे में बताया गया है.

फ़ायदे

  • रेटिंग देने वाले लोग कई तरह के काम कर सकते हैं. ये ऐसे काम होते हैं जिन्हें मशीन लर्निंग के बेहतर मॉडल के लिए भी मुश्किल हो सकता है.
  • इस प्रोसेस से, डेटासेट के मालिक को साफ़ और एक जैसी शर्तें तय करने के लिए मजबूर किया जाता है.

नुकसान

  • आम तौर पर, रेटिंग देने वाले लोगों को पैसे दिए जाते हैं. इसलिए, लोगों से जनरेट किया गया डेटा महंगा हो सकता है.
  • गड़बड़ियां होना आम बात है. इसलिए, हो सकता है कि रेटिंग देने वाले कई लोगों को एक ही डेटा का आकलन करना पड़े.

अपनी ज़रूरतों को तय करने के लिए, इन सवालों पर विचार करें:

  • रेटिंग देने वाले लोगों के पास कितनी स्किल होनी चाहिए? (उदाहरण के लिए, क्या रेटिंग देने वाले लोगों को कोई खास भाषा आनी चाहिए? क्या आपको बातचीत या एनएलपी ऐप्लिकेशन के लिए भाषाविदों की ज़रूरत है?)
  • आपको लेबल किए गए कितने उदाहरण चाहिए? आपको ये आइटम कब चाहिए?
  • आपका बजट कितना है?

रेटिंग देने वाले लोगों की पहचान की हमेशा दोबारा जांच करें. उदाहरण के लिए, खुद ही 1,000 उदाहरणों को लेबल करें और देखें कि आपके नतीजे, रेटिंग देने वाले दूसरे लोगों के नतीजों से कैसे मेल खाते हैं. अगर अंतर दिखता है, तो यह न मानें कि आपकी रेटिंग सही हैं. ऐसा खास तौर पर तब करें, जब वैल्यू का आकलन किया जा रहा हो. अगर रेटिंग देने वाले लोगों की वजह से गड़बड़ियां हुई हैं, तो उन्हें मदद करने के लिए निर्देश जोड़ें और फिर से कोशिश करें.

अपने डेटा को मैन्युअल तरीके से देखना एक अच्छा तरीका है. भले ही, आपने डेटा को किसी भी तरीके से हासिल किया हो. आंद्रे करपाथी ने ImageNet पर ऐसा किया और इस अनुभव के बारे में लिखा.

मॉडल, अपने-आप जनरेट हुए लेबल और लोगों से मिले लेबल, दोनों पर ट्रेनिंग ले सकते हैं. हालांकि, ज़्यादातर मॉडल के लिए, इंसानों से जनरेट किए गए लेबल का अतिरिक्त सेट (जो पुराना हो सकता है) आम तौर पर ज़्यादा जटिल और रखरखाव के लायक नहीं होता. हालांकि, कभी-कभी मैन्युअल तरीके से जनरेट किए गए लेबल, अपने-आप जनरेट होने वाले लेबल से ज़्यादा जानकारी दे सकते हैं.