सुपरवाइज़्ड मशीन लर्निंग से जुड़ी किसी भी समस्या को हल करने के लिए, डेटा इकट्ठा करना सबसे ज़रूरी चरण होता है. टेक्स्ट की कैटगरी तय करने वाली सुविधा, सिर्फ़ उस डेटासेट से बढ़िया हो सकती है जिससे वह बनाया गया है.
अगर आपके पास कोई ऐसी समस्या नहीं है जिसे आपको हल करना है और टेक्स्ट की कैटगरी तय करने के बारे में सिर्फ़ जानना है, तो आपके लिए ओपन सोर्स डेटासेट उपलब्ध हैं. इनमें से कुछ के लिंक आपको हमारे GitHub रेपो में मिल सकते हैं. दूसरी ओर, अगर कोई खास समस्या हल की जा रही है, तो आपको ज़रूरी डेटा इकट्ठा करना होगा. कई संगठन अपना डेटा ऐक्सेस करने के लिए, सार्वजनिक एपीआई उपलब्ध कराते हैं. उदाहरण के लिए, X API या NY Times API. आपको जिस समस्या को हल करना है उसके लिए इन एपीआई का इस्तेमाल किया जा सकता है.
डेटा इकट्ठा करते समय ध्यान रखने वाली कुछ ज़रूरी बातें:
- अगर सार्वजनिक एपीआई का इस्तेमाल किया जा रहा है, तो उसका इस्तेमाल करने से पहले एपीआई की सीमाओं को समझ लें. उदाहरण के लिए, कुछ एपीआई क्वेरी करने की दर की एक सीमा तय करते हैं.
- आपके पास ट्रेनिंग के जितने ज़्यादा उदाहरण होंगे (जिन्हें इस गाइड में सैंपल कहा गया है), उतना ही बेहतर होगा. इससे आपके मॉडल को सामान्य बनाने में मदद मिलेगी.
- पक्का करें कि हर क्लास या विषय के लिए सैंपल की संख्या असंतुलित न हो. इसका मतलब है कि आपकी हर क्लास में ऐसे सैंपल होने चाहिए जिनकी तुलना की जा सके.
- पक्का कर लें कि आपके सैंपल, संभावित इनपुट के स्पेस को सही तरह से कवर करते हों, न कि सिर्फ़ सामान्य मामलों को.
इस पूरी गाइड में, हम वर्कफ़्लो को समझाने के लिए, इंटरनेट फ़िल्म डेटाबेस (IMDb) फ़िल्म की समीक्षाओं का डेटासेट इस्तेमाल करेंगे. इस डेटासेट में, आईएमडीबी की वेबसाइट पर लोगों की पोस्ट की गई फ़िल्मों की समीक्षाएं शामिल हैं. साथ ही, इनसे जुड़े लेबल ("सकारात्मक" या "नेगेटिव") जो बताते हैं कि समीक्षक को फ़िल्म पसंद आई या नहीं. यह भावनाओं के विश्लेषण से जुड़ी समस्या का क्लासिक उदाहरण है.