डेटा लॉग को जोड़ना

ट्रेनिंग सेट असेंबल करते समय, आपको कभी-कभी डेटा के एक से ज़्यादा सोर्स में शामिल होना होगा.

लॉग के प्रकार

आप इनमें से किसी भी तरह के इनपुट डेटा के साथ काम कर सकते हैं:

  • ट्रांज़ैक्शन लॉग
  • एट्रिब्यूट डेटा
  • एग्रीगेट किए गए आंकड़े

लेन-देन से जुड़े लॉग में किसी खास इवेंट को रिकॉर्ड किया जाता है. उदाहरण के लिए, लेन-देन से जुड़ा लॉग क्वेरी करने वाले आईपी पते को रिकॉर्ड कर सकता है. साथ ही, यह क्वेरी रिकॉर्ड करने की तारीख और समय भी रिकॉर्ड कर सकता है. लेन-देन से जुड़े इवेंट, किसी खास इवेंट से जुड़े होते हैं.

विशेषता डेटा में जानकारी के स्नैपशॉट होते हैं. उदाहरण के लिए:

  • उपयोगकर्ता जनसांख्यिकी
  • क्वेरी के समय खोज इतिहास

एट्रिब्यूट डेटा, किसी इवेंट या समय के हिसाब से नहीं होता है. हालांकि, यह अनुमान लगाने के लिए अब भी काम का हो सकता है. अनुमान लगाने के लिए, किसी खास इवेंट से जुड़े टास्क नहीं बन पाते हैं. उदाहरण के लिए, उपयोगकर्ता की सदस्यता छोड़ने का अनुमान लगाने के लिए, जिसमें किसी खास समय के बजाय कई अलग-अलग समय शामिल होते हैं, एट्रिब्यूट डेटा ही एक तरह का डेटा हो सकता है.

एट्रिब्यूट डेटा और लेन-देन वाले लॉग एक-दूसरे से जुड़े होते हैं. उदाहरण के लिए, आप लेन-देन के कई लॉग को इकट्ठा करके, अलग-अलग आंकड़े बनाकर, विशेषता का एक प्रकार बना सकते हैं. इस मामले में, आप उपयोगकर्ता के लिए सिंगल एट्रिब्यूट बनाने के लिए, कई लेन-देन लॉग देख सकते हैं.

एग्रीगेट किए गए आंकड़े, एक से ज़्यादा लेन-देन वाले लॉग से कोई एट्रिब्यूट बनाते हैं. उदाहरण के लिए:

  • उपयोगकर्ता क्वेरी की फ़्रीक्वेंसी
  • किसी खास विज्ञापन पर क्लिक की औसत दर

लॉग स्रोतों में शामिल होना

हर तरह का लॉग अक्सर किसी दूसरी जगह पर होता है. अपने मशीन लर्निंग मॉडल के लिए डेटा इकट्ठा करते समय, आपको अपना डेटा सेट बनाने के लिए अलग-अलग स्रोतों से जुड़ना होगा. कुछ उदाहरण:

  • इवेंट के समय उपयोगकर्ता के एट्रिब्यूट देखने के लिए, उपयोगकर्ता के आईडी और टाइमस्टैंप का इस्तेमाल लेन-देन वाले लॉग में करें.
  • क्वेरी के समय खोज इतिहास चुनने के लिए, लेन-देन टाइमस्टैंप का इस्तेमाल करें.

अनुमानित डेटा स्रोत — ऑनलाइन बनाम ऑफ़लाइन

मशीन लर्निंग क्रैश कोर्स में, आपने ऑनलाइन बनाम ऑफ़लाइन सर्विंग के बारे में जाना. ये विकल्प सिस्टम के डेटा इकट्ठा करने के तरीके पर असर डालते हैं:

  • ऑनलाइन—इंतज़ार का समय एक चिंता है, इसलिए आपके सिस्टम को तेज़ी से इनपुट जनरेट करना होगा.
  • ऑफ़लाइन—आपके पास कंप्यूट करने पर कोई पाबंदी नहीं है, इसलिए ट्रेनिंग डेटा जनरेट करने की तरह ही मुश्किल काम किए जा सकते हैं.

उदाहरण के लिए, एट्रिब्यूट डेटा को अक्सर किसी दूसरे सिस्टम से खोजा जाना चाहिए. इससे इंतज़ार के समय से जुड़ी समस्याएं आ सकती हैं. इसी तरह, एग्रीगेट किए गए आंकड़े तुरंत गणना के लिए महंगे हो सकते हैं. अगर इंतज़ार का समय ब्लॉकर है, तो इन आंकड़ों को पहले से तय किया जा सकता है.