टेक्स्ट क्लासिफ़िकेशन एल्गोरिदम, कई तरह के सॉफ़्टवेयर सिस्टम के बीच में होते हैं, जो टेक्स्ट डेटा को बड़े पैमाने पर प्रोसेस करते हैं. ईमेल सॉफ़्टवेयर, टेक्स्ट की कैटगरी तय करके, यह तय करता है कि इनकमिंग मेल इनबॉक्स में भेजा जाए या स्पैम फ़ोल्डर में. चर्चा वाले फ़ोरम, यह तय करने के लिए टेक्स्ट की कैटगरी का इस्तेमाल करते हैं कि टिप्पणियां 'गलत' के तौर पर फ़्लैग की जानी चाहिए या नहीं.
ये टॉपिक क्लासिफ़िकेशन के दो उदाहरण हैं. किसी टेक्स्ट दस्तावेज़ को, विषयों के पहले से तय सेट में से किसी एक कैटगरी में रखा जाता है. कई कैटगरी की समस्याओं के हल में, यह कैटगरी मुख्य रूप से टेक्स्ट के कीवर्ड पर आधारित होती है.
चित्र 1: विषय वर्गीकरण का इस्तेमाल आने वाले स्पैम ईमेल को फ़्लैग करने के लिए किया जाता है, जो स्पैम फ़ोल्डर में फ़िल्टर किए जाते हैं.
टेक्स्ट की कैटगरी तय करने का एक और आम तरीका है, भावना से जुड़ा विश्लेषण. इसका मकसद, टेक्स्ट कॉन्टेंट के पोलर होने की पहचान करना है: वह किस तरह की राय दिखाता है. यह बाइनरी की तरह/नापसंद की रेटिंग या ज़्यादा विकल्प के सेट के रूप में हो सकता है, जैसे कि एक से लेकर पांच तक की स्टार रेटिंग. भावनाओं का विश्लेषण के उदाहरणों में Twitter पोस्ट का विश्लेषण करके यह तय करना शामिल है कि लोग ब्लैक पैंथर फ़िल्म को पसंद करते हैं या Walmart की समीक्षाओं के ज़रिए Nike के जूतों के नए ब्रैंड के बारे में आम लोगों की राय का अनुमान लगाना चाहते हैं.
इस गाइड में आपको, मशीन लर्निंग से जुड़े सबसे सही तरीके बताए जाएंगे. इन तरीकों से, टेक्स्ट की कैटगरी तय करने से जुड़ी समस्याओं को ठीक किया जा सकता है. यहां आपको इन चीज़ों के बारे में जानकारी मिलेगी:
- मशीन लर्निंग का इस्तेमाल करके, टेक्स्ट की कैटगरी तय करने से जुड़ी समस्याओं को हल करने के लिए, बेहतर तरीके से काम करने वाला वर्कफ़्लो
- टेक्स्ट क्लासिफ़िकेशन से जुड़ी समस्या के लिए सही मॉडल चुनने का तरीका
- TensorFlow का इस्तेमाल करके, अपने मॉडल को लागू करने का तरीका
टेक्स्ट क्लासिफ़िकेशन वर्कफ़्लो
यहां मशीन लर्निंग से जुड़ी समस्याओं को ठीक करने के लिए इस्तेमाल किए जाने वाले वर्कफ़्लो के बारे में बेहतर तरीके से खास जानकारी दी गई है:
- चरण 1: डेटा इकट्ठा करना
- दूसरा चरण: अपने डेटा के बारे में जानना
- कदम 2.5: कोई मॉडल चुनना*
- तीसरा चरण: अपना डेटा तैयार करें
- चौथा चरण: मॉडल बनाना, ट्रेनिंग देना, और उसका आकलन करना
- पांचवां चरण: हाइपरपैरामीटर को ट्यून करना
- छठा चरण: अपना मॉडल डिप्लॉय करना
दूसरी इमेज: मशीन लर्निंग से जुड़ी समस्याओं को हल करने के लिए वर्कफ़्लो
नीचे दिए गए सेक्शन में, हर चरण के बारे में पूरी जानकारी दी गई है. साथ ही, उन्हें टेक्स्ट डेटा के लिए लागू करने का तरीका भी बताया गया है.