इस पेज का अनुवाद Cloud Translation API से किया गया है.

डेटासेट: लेबल

इस सेक्शन में लेबल के बारे में बताया गया है.

डायरेक्ट बनाम प्रॉक्सी लेबल

दो तरह के लेबल पर विचार करें:

डायरेक्ट लेबल, जो आपके मॉडल के अनुमान से मिलते-जुलते लेबल होते हैं. इसका मतलब है कि आपका मॉडल जो अनुमान लगाने की कोशिश कर रहा है वह आपके डेटासेट में कॉलम के तौर पर मौजूद है. उदाहरण के लिए, bicycle owner नाम का कॉलम, बिनेरी क्लासिफ़िकेशन मॉडल के लिए डायरेक्ट लेबल होगा. यह मॉडल यह अनुमान लगाता है कि किसी व्यक्ति के पास साइकल है या नहीं.
प्रॉक्सी लेबल, जो आपके मॉडल के अनुमान से मिलते-जुलते होते हैं, लेकिन एक जैसे नहीं होते. उदाहरण के लिए, Bicycle Bizarre मैगज़ीन की सदस्यता लेने वाले व्यक्ति के पास साइकल हो सकती है, लेकिन ऐसा ज़रूरी नहीं है.

आम तौर पर, डायरेक्ट लेबल, प्रॉक्सी लेबल से बेहतर होते हैं. अगर आपका डेटासेट, संभावित डायरेक्ट लेबल उपलब्ध कराता है, तो आपको इसका इस्तेमाल करना चाहिए. हालांकि, अक्सर डायरेक्ट लेबल उपलब्ध नहीं होते.

प्रॉक्सी लेबल हमेशा समझौते के आधार पर तय किए जाते हैं. ये डायरेक्ट लेबल के मुकाबले कम सटीक होते हैं. हालांकि, कुछ प्रॉक्सी लेबल काफ़ी हद तक सटीक होते हैं, ताकि वे काम के हों. प्रॉक्सी लेबल का इस्तेमाल करने वाले मॉडल उतने ही काम के होते हैं जितना कि प्रॉक्सी लेबल और अनुमान के बीच का संबंध.

याद रखें कि हर लेबल को फ़ीचर वेक्टर में फ़्लोटिंग-पॉइंट नंबर के तौर पर दिखाया जाना चाहिए. ऐसा इसलिए है, क्योंकि मशीन लर्निंग मूल रूप से, गणितीय ऑपरेशन का एक बड़ा अमालगम है. कभी-कभी, डायरेक्ट लेबल मौजूद होता है, लेकिन उसे फ़ीचर वेक्टर में फ़्लोटिंग-पॉइंट नंबर के तौर पर आसानी से नहीं दिखाया जा सकता. इस मामले में, प्रॉक्सी लेबल का इस्तेमाल करें.

एक्सरसाइज़: देखें कि आपको क्या समझ आया

आपकी कंपनी को ये काम करने हैं:

साइकल के मालिकों को कूपन भेजें ("अपनी पुरानी साइकल को नई साइकल पर 15% की छूट के लिए बदलें").

इसलिए, आपके मॉडल को ये काम करने होंगे:

यह अनुमान लगाना कि किन लोगों के पास साइकल है.

माफ़ करें, डेटासेट में bike owner नाम का कॉलम नहीं है. हालांकि, डेटासेट में recently bought a bicycle नाम का एक कॉलम मौजूद है.

क्या इस मॉडल के लिए, recently bought a bicycle एक अच्छा प्रॉक्सी लेबल होगा या बुरा प्रॉक्सी लेबल?

अच्छा प्रॉक्सी लेबल

कॉलम recently bought a bicycle, एक बेहतर प्रॉक्सी लेबल है. आखिरकार, साइकल खरीदने वाले ज़्यादातर लोगों के पास अब साइकल है. हालांकि, सभी प्रोक्सी लेबल की तरह ही

recently bought a
            bicycle

भी पूरी तरह से सही नहीं है. आखिरकार, किसी आइटम को खरीदने वाला व्यक्ति, हमेशा उस आइटम का इस्तेमाल करने वाला (या उसका मालिक) नहीं होता. उदाहरण के लिए, लोग कभी-कभी उपहार के तौर पर साइकल खरीदते हैं.

खराब प्रॉक्सी लेबल

सभी प्रॉक्सी लेबल की तरह, recently bought a bicycle भी पूरी तरह सटीक नहीं है. कुछ साइकल, उपहार के तौर पर खरीदी जाती हैं और दूसरों को दी जाती हैं. हालांकि, recently bought a bicycle अब भी इस बात का एक अच्छा संकेत है कि किसी व्यक्ति के पास साइकल है.

मैन्युअल तरीके से जनरेट किया गया डेटा

कुछ डेटा मैन्युअल तरीके से जनरेट किया जाता है. इसका मतलब है कि एक या उससे ज़्यादा लोग कुछ जानकारी की जांच करते हैं और आम तौर पर लेबल के लिए वैल्यू देते हैं. उदाहरण के लिए, एक या एक से ज़्यादा मौसम विशेषज्ञ, आसमान की तस्वीरों की जांच करके, बादलों के टाइप की पहचान कर सकते हैं.

इसके अलावा, कुछ डेटा अपने-आप जनरेट होता है. इसका मतलब है कि सॉफ़्टवेयर (संभवतः, कोई दूसरा मशीन लर्निंग मॉडल) वैल्यू तय करता है. उदाहरण के लिए, मशीन लर्निंग मॉडल आसमान की तस्वीरों की जांच करके, बादलों के टाइप की अपने-आप पहचान कर सकता है.

इस सेक्शन में, लोगों से मिले डेटा के फ़ायदों और नुकसानों के बारे में बताया गया है.

फ़ायदे

रेटिंग देने वाले लोग कई तरह के काम कर सकते हैं. ये ऐसे काम होते हैं जिन्हें मशीन लर्निंग के बेहतर मॉडल के लिए भी मुश्किल हो सकता है.
इस प्रोसेस से, डेटासेट के मालिक को साफ़ और एक जैसी शर्तें तय करने के लिए मजबूर किया जाता है.

नुकसान

आम तौर पर, रेटिंग देने वाले लोगों को पैसे दिए जाते हैं. इसलिए, लोगों से जनरेट किया गया डेटा महंगा हो सकता है.
गड़बड़ियां होना आम बात है. इसलिए, हो सकता है कि रेटिंग देने वाले कई लोगों को एक ही डेटा का आकलन करना पड़े.

अपनी ज़रूरतों को तय करने के लिए, इन सवालों पर विचार करें:

रेटिंग देने वाले लोगों के पास कितनी स्किल होनी चाहिए? (उदाहरण के लिए, क्या रेटिंग देने वाले लोगों को कोई खास भाषा आनी चाहिए? क्या आपको बातचीत या एनएलपी ऐप्लिकेशन के लिए भाषाविदों की ज़रूरत है?)
आपको लेबल किए गए कितने उदाहरण चाहिए? आपको ये आइटम कब चाहिए?
आपका बजट कितना है?

रेटिंग देने वाले लोगों की पहचान की हमेशा दोबारा जांच करें. उदाहरण के लिए, खुद ही 1,000 उदाहरणों को लेबल करें और देखें कि आपके नतीजे, रेटिंग देने वाले दूसरे लोगों के नतीजों से कैसे मेल खाते हैं. अगर अंतर दिखता है, तो यह न मानें कि आपकी रेटिंग सही हैं. ऐसा खास तौर पर तब करें, जब वैल्यू का आकलन किया जा रहा हो. अगर रेटिंग देने वाले लोगों की वजह से गड़बड़ियां हुई हैं, तो उन्हें मदद करने के लिए निर्देश जोड़ें और फिर से कोशिश करें.

लोगों से मिले डेटा के बारे में ज़्यादा जानने के लिए, प्लस आइकॉन पर क्लिक करें.

अपने डेटा को मैन्युअल तरीके से देखना एक अच्छा तरीका है. भले ही, आपने डेटा को किसी भी तरीके से हासिल किया हो. आंद्रे करपाथी ने ImageNet पर ऐसा किया और इस अनुभव के बारे में लिखा.

मॉडल, अपने-आप जनरेट हुए लेबल और लोगों से मिले लेबल, दोनों पर ट्रेनिंग ले सकते हैं. हालांकि, ज़्यादातर मॉडल के लिए, इंसानों से जनरेट किए गए लेबल का अतिरिक्त सेट (जो पुराना हो सकता है) आम तौर पर ज़्यादा जटिल और रखरखाव के लायक नहीं होता. हालांकि, कभी-कभी मैन्युअल तरीके से जनरेट किए गए लेबल, अपने-आप जनरेट होने वाले लेबल से ज़्यादा जानकारी दे सकते हैं.

पीछे जाएं

डेटा की विशेषताएं (10 मिनट)

आगे बढ़ें

असंतुलित डेटासेट (10 मिनट)