कैटगरी के अनुसार डेटा: फ़ीचर क्रॉस

फ़ीचर क्रॉस, डेटासेट की दो या उससे ज़्यादा कैटगरी वाली या बकेट की गई फ़ीचर को क्रॉस करके (कार्टेशियन प्रॉडक्ट लेकर) बनाए जाते हैं. पॉलीनोमियल ट्रांसफ़ॉर्म की तरह, फ़ीचर क्रॉस की मदद से लीनियर मॉडल, नॉन-लीनियरिटी को हैंडल कर सकते हैं. फ़ीचर क्रॉस, सुविधाओं के बीच होने वाले इंटरैक्शन को भी कोड में बदलते हैं.

उदाहरण के लिए, कैटगरी वाली सुविधाओं वाले लीफ़ डेटासेट पर विचार करें:

  • edges, जिसमें smooth, toothed, और lobed वैल्यू शामिल हैं
  • arrangement, जिसमें opposite और alternate वैल्यू शामिल हैं

मान लें कि ऊपर दिया गया क्रम, वन-हॉट रेप्रज़ेंटेशन में फ़ीचर कॉलम का क्रम है, ताकि smooth किनारों और opposite व्यवस्था वाले पत्ते को {(1, 0, 0), (1, 0)} के तौर पर दिखाया जा सके.

इन दोनों सुविधाओं का क्रॉस या कार्टेशियन प्रॉडक्ट यह होगा:

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

यहां हर टर्म की वैल्यू, बुनियादी सुविधा की वैल्यू का प्रॉडक्ट होती है, जैसे कि:

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Smooth_Alternate = edges[0] * arrangement[1]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Toothed_Alternate = edges[1] * arrangement[1]
  • Lobed_Opposite = edges[2] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

उदाहरण के लिए, अगर किसी लीफ़ में lobed एज और alternate व्यवस्था है, तो Lobed_Alternate के लिए फ़ीचर-क्रॉस वेक्टर की वैल्यू 1 होगी और बाकी सभी शब्दों के लिए 0 होगी:

{0, 0, 0, 0, 0, 1}

इस डेटासेट का इस्तेमाल, पेड़ की प्रजाति के हिसाब से पत्तियों की कैटगरी तय करने के लिए किया जा सकता है. इसकी वजह यह है कि एक प्रजाति के पेड़ों की ये विशेषताएं अलग-अलग नहीं होतीं.

फ़ीचर क्रॉस का इस्तेमाल कब करना चाहिए

डोमेन के बारे में जानकारी होने पर, आपको अलग-अलग सुविधाओं के ऐसे कॉम्बिनेशन के सुझाव मिल सकते हैं जो आपके काम के हों. डोमेन की जानकारी के बिना, हाथ से बेहतर फ़ीचर क्रॉस या बहुपद ट्रांसफ़ॉर्म तय करना मुश्किल हो सकता है. अगर कंप्यूटिंग की लागत ज़्यादा है, तो अक्सर न्यूरल नेटवर्क का इस्तेमाल करके, ट्रेनिंग के दौरान अपने-आप काम की सुविधाओं के कॉम्बिनेशन ढूंढे और लागू किए जा सकते हैं.

ध्यान रखें—दो कम इस्तेमाल होने वाली सुविधाओं को क्रॉस करने पर, दो मूल सुविधाओं की तुलना में नई सुविधा का इस्तेमाल बहुत कम होता है. उदाहरण के लिए, अगर ए 100 एलिमेंट वाली स्पैर्स फ़ीचर है और बी 200 एलिमेंट वाली स्पैर्स फ़ीचर है, तो ए और बी की क्रॉस फ़ीचर से 20,000 एलिमेंट वाली स्पैर्स फ़ीचर मिलती है.