परिचय

टेक्स्ट क्लासिफ़िकेशन एल्गोरिदम, कई तरह के सॉफ़्टवेयर सिस्टम के बीच में होते हैं, जो टेक्स्ट डेटा को बड़े पैमाने पर प्रोसेस करते हैं. ईमेल सॉफ़्टवेयर, टेक्स्ट की कैटगरी तय करके, यह तय करता है कि इनकमिंग मेल इनबॉक्स में भेजा जाए या स्पैम फ़ोल्डर में. चर्चा वाले फ़ोरम, यह तय करने के लिए टेक्स्ट की कैटगरी का इस्तेमाल करते हैं कि टिप्पणियां 'गलत' के तौर पर फ़्लैग की जानी चाहिए या नहीं.

ये टॉपिक क्लासिफ़िकेशन के दो उदाहरण हैं. किसी टेक्स्ट दस्तावेज़ को, विषयों के पहले से तय सेट में से किसी एक कैटगरी में रखा जाता है. कई कैटगरी की समस्याओं के हल में, यह कैटगरी मुख्य रूप से टेक्स्ट के कीवर्ड पर आधारित होती है.

विषय का वर्गीकरण

चित्र 1: विषय वर्गीकरण का इस्तेमाल आने वाले स्पैम ईमेल को फ़्लैग करने के लिए किया जाता है, जो स्पैम फ़ोल्डर में फ़िल्टर किए जाते हैं.

टेक्स्ट की कैटगरी तय करने का एक और आम तरीका है, भावना से जुड़ा विश्लेषण. इसका मकसद, टेक्स्ट कॉन्टेंट के पोलर होने की पहचान करना है: वह किस तरह की राय दिखाता है. यह बाइनरी की तरह/नापसंद की रेटिंग या ज़्यादा विकल्प के सेट के रूप में हो सकता है, जैसे कि एक से लेकर पांच तक की स्टार रेटिंग. भावनाओं का विश्लेषण के उदाहरणों में Twitter पोस्ट का विश्लेषण करके यह तय करना शामिल है कि लोग ब्लैक पैंथर फ़िल्म को पसंद करते हैं या Walmart की समीक्षाओं के ज़रिए Nike के जूतों के नए ब्रैंड के बारे में आम लोगों की राय का अनुमान लगाना चाहते हैं.

इस गाइड में आपको, मशीन लर्निंग से जुड़े सबसे सही तरीके बताए जाएंगे. इन तरीकों से, टेक्स्ट की कैटगरी तय करने से जुड़ी समस्याओं को ठीक किया जा सकता है. यहां आपको इन चीज़ों के बारे में जानकारी मिलेगी:

  • मशीन लर्निंग का इस्तेमाल करके, टेक्स्ट की कैटगरी तय करने से जुड़ी समस्याओं को हल करने के लिए, बेहतर तरीके से काम करने वाला वर्कफ़्लो
  • टेक्स्ट क्लासिफ़िकेशन से जुड़ी समस्या के लिए सही मॉडल चुनने का तरीका
  • TensorFlow का इस्तेमाल करके, अपने मॉडल को लागू करने का तरीका

टेक्स्ट क्लासिफ़िकेशन वर्कफ़्लो

यहां मशीन लर्निंग से जुड़ी समस्याओं को ठीक करने के लिए इस्तेमाल किए जाने वाले वर्कफ़्लो के बारे में बेहतर तरीके से खास जानकारी दी गई है:

विषय का वर्गीकरण

दूसरी इमेज: मशीन लर्निंग से जुड़ी समस्याओं को हल करने के लिए वर्कफ़्लो

नीचे दिए गए सेक्शन में, हर चरण के बारे में पूरी जानकारी दी गई है. साथ ही, उन्हें टेक्स्ट डेटा के लिए लागू करने का तरीका भी बताया गया है.