संख्यात्मक डेटा: बहुपद रूपांतरण

कभी-कभी, जब मशीन लर्निंग कारोबारी को डोमेन की जानकारी होती है कि एक चर, दूसरे के वर्ग, घन या अन्य घात के बारे में हो वैरिएबल बनाना है, तो एक सिंथेटिक फ़ीचर मौजूदा अंकों की सुविधाओं का इस्तेमाल करना होगा.

डेटा बिंदुओं के निम्न प्रसार पर विचार करें, जहां गुलाबी गोले निरूपित हैं एक क्लास या कैटगरी (उदाहरण के लिए, पेड़ की कोई प्रजाति) और हरे त्रिभुज कोई अन्य वर्ग (या पेड़ की प्रजातियां):

इमेज 17. y=x^2 में डेटा पॉइंट का फैलाव, जिसके नीचे त्रिभुज हैं
            वक्र और वृत्तों को उनमें से किसी एक के ऊपर रखा गया है.
17वीं इमेज. दो क्लास, जिन्हें एक लाइन से अलग नहीं किया जा सकता.

कोई ऐसी सीधी लाइन नहीं बनाई जा सकती जो दोनों को साफ़ तौर पर अलग करती हो क्लास हैं, लेकिन ऐसा कर्व (ऐसा कर्व) बनाना है जो ऐसा करता है:

इमेज 18. इमेज 17 की इमेज जैसी ही है. सिर्फ़ इस बार y=x^2 वाली इमेज इस्तेमाल करें
            त्रिभुजों के बीच एक स्पष्ट सीमा बनाने के लिए और
            सर्कल.
18वीं इमेज. क्लास को y = x2 से अलग किया जा रहा है.

जैसा कि लीनियर रिग्रेशन मॉड्यूल, $x_1$ वाले लीनियर मॉडल को लीनियर इक्वेशन की मदद से दिखाया गया है:

$$y = b + w_1x_1$$

अन्य सुविधाओं को मैनेज करने के लिए, अतिरिक्त शर्तें जोड़ी गई हैं \(w_2x_2\), \(w_3x_3\)वगैरह

ग्रेडिएंट डिसेंट weight $w_1$ (या वज़न \(w_1\), \(w_2\), \(w_3\), अतिरिक्त सुविधाओं के मामले में) जो मॉडल खो जाता है. हालांकि, दिखाए गए डेटा पॉइंट को लाइन से अलग नहीं किया जा सकता. मैं क्या करूं?

लीनियर इक्वेशन, और नॉनलीनियर, दोनों का इस्तेमाल किया जा सकता है एक नया शब्द परिभाषित किया है, \(x_2\), जो बस \(x_1\) वर्ग है:

$$x_2 = x_1^2$$

इस सिंथेटिक सुविधा को पॉलिनोमियल ट्रांसफ़ॉर्म कहा जाता है. इसलिए, इसे अन्य सुविधा. पिछला लीनियर फ़ॉर्मूला बन जाता है:

$$y = b + w_1x_1 + w_2x_2$$

इसे अब भी इस तरह माना जा सकता है लीनियर रिग्रेशन और ग्रेडिएंट ढलान के ज़रिए तय किए गए महत्व, इसमें एक छिपा हुआ वर्गाकार पद है, जो कि पॉलिनोमियल ट्रांसफ़ॉर्म है. बिना बदलाव किए रेखीय मॉडल कैसे ट्रेन करता है, बहुपद रूपांतरण जोड़ने से आपको के कर्व का इस्तेमाल करके डेटा पॉइंट को अलग करने के लिए मॉडल $y = b + w_1x + w_2x^2$ के रूप में.

आम तौर पर, रुचि वाली संख्यात्मक सुविधा को अपने-आप गुणा किया जाता है, यानी कुछ हद तक बढ़ाया जा सकता है. कभी-कभी मशीन लर्निंग का प्रोफ़ेशनल सोच-समझकर अनुमान लगा सकता है तय घातांक के बारे में बताएं. उदाहरण के लिए, भौतिक विज्ञान में कई दुनिया भर के लोग, स्क्वेयर टर्म से जुड़े होते हैं. इसमें गुरुत्वाकर्षण की वजह से होने वाला त्वरण शामिल है, दूरी पर रोशनी या आवाज़ का ध्यान, और इलास्टिक पोटेंशियल एनर्जी.

इस विषय से मिलते-जुलते कॉन्सेप्ट कैटगरिकल डेटा सुविधा क्रॉस, वगैरह अक्सर दो अलग-अलग सुविधाओं को शामिल करता है.