प्रोडक्शन एमएल सिस्टम: डेटा को कब बदलें?

रॉ डेटा को खास तौर पर डिज़ाइन किया गया (ट्रांसफ़ॉर्म किया गया) होना चाहिए. आपको कब पूरी तरह बदलना चाहिए डेटा है? आम तौर पर, इनमें से किसी एक चरण में फ़ीचर इंजीनियरिंग का इस्तेमाल किया जा सकता है ये दो अवधियां:

  • मॉडल को ट्रेनिंग देने से पहले.
  • मॉडल को ट्रेनिंग के दौरान.

ट्रेनिंग से पहले डेटा बदलना

इस तरीके में, आपको दो चरणों का पालन करना होगा:

  1. कोड लिखें या खास टूल का इस्तेमाल करें में बदलाव नहीं किया जा सकता.
  2. बदले गए डेटा को किसी ऐसी जगह पर सेव करें जिसे मॉडल डेटा डाल सकता है, जैसे होना चाहिए.

फ़ायदे

  • सिस्टम, रॉ डेटा को सिर्फ़ एक बार बदलता है.
  • यह तय करने के लिए कि सबसे सटीक है या नहीं, सिस्टम पूरे डेटासेट का विश्लेषण कर सकता है की रणनीति को बेहतर बनाने में मदद मिलेगी.

नुकसान

जब आपका सिस्टम डाइनैमिक तरीके से परफ़ॉर्म करता है, तो ट्रेनिंग दिखाने में गड़बड़ी हो सकती है (ऑनलाइन) अनुमान. डाइनैमिक अनुमान का इस्तेमाल करने वाले सिस्टम में, पूरी तरह बदलने वाला सॉफ़्टवेयर रॉ डेटासेट, आम तौर पर अनुमान लगाने वाले सॉफ़्टवेयर से अलग होता है, इससे ट्रेनिंग देने में समस्या आ सकती है. वहीं दूसरी ओर, स्टैटिक (ऑफ़लाइन) अनुमान का इस्तेमाल करने वाले सिस्टम कभी-कभी उसी सॉफ़्टवेयर का इस्तेमाल करते हैं.

ट्रेनिंग के दौरान डेटा बदलना

इस तरीके में, ट्रांसफ़ॉर्मेशन ऐक्शन मॉडल कोड का हिस्सा होता है. मॉडल रॉ डेटा अपनाता है और उसे पूरी तरह से बदल देता है.

फ़ायदे

  • ट्रांसफ़ॉर्मेशन में बदलाव करने के बाद भी, पहले वाली डेटा फ़ाइलों का इस्तेमाल किया जा सकता है.
  • आपको ट्रेनिंग और अनुमान के दौरान, एक जैसे बदलाव मिलेंगे.

नुकसान

  • जटिल रूपांतरणों से मॉडल की प्रतीक्षा अवधि बढ़ सकती है.
  • हर बैच में बदलाव किया जाता है.

हर बैच में डेटा को बदलना मुश्किल हो सकता है. उदाहरण के लिए, मान लें कि आपको Z-स्कोर नॉर्मलाइज़ेशन का इस्तेमाल करें रॉ संख्या वाले डेटा को बदला जा सकता है. Z-स्कोर नॉर्मलाइज़ेशन के लिए मीन और सुविधा का मानक विचलन. हालांकि, हर बैच में बदलाव का मतलब है कि आपके पास सिर्फ़ डेटा का एक बैच, पूरा डेटासेट नहीं. इसलिए, अगर बैच में बहुत वैरिएंट, जैसे कि एक बैच में -2.5 का Z-स्कोर नहीं होगा जैसे दूसरे बैच में -2.5. वर्कअराउंड के रूप में, आपका सिस्टम माध्य और मानक विचलन का पहले से अनुमान लगा सकता है और फिर उन्हें मॉडल में कॉन्सटेंट के तौर पर इस्तेमाल करें.