नीचे दिए गए तरीके से, आपको मिलता-जुलता तरीका तैयार करने में मैन्युअल तरीके से मदद मिलती है.
मान लें कि आपके पास घरों पर आधारित सामान्य डेटासेट है:
सुविधा | टाइप |
---|---|
कीमत | सकारात्मक पूर्णांक |
साइज़ | वर्ग मीटर में, फ़्लोटिंग फ़्लोटिंग पॉइंट की पॉज़िटिव वैल्यू |
पिन कोड | पूर्णांक |
कमरों की संख्या | पूर्णांक |
घर किस तरह का है | "सिंगल_फ़ैमिली", "एक से ज़्यादा परिवार", "अपार्टमेंट", "कॉन्डो" से मिली टेक्स्ट वैल्यू |
गैरेज | नहीं/हां के लिए 0/1 |
रंग | बहुआयामी श्रेणी: मानक रंगों में से एक या ज़्यादा मान “सफ़ेद”, “पीला”, “हरा” वगैरह. |
प्रीप्रोसेसिंग
सबसे पहले अंकों वाली सुविधा को प्रोसेस करें: कीमत, साइज़, बेडरूम की संख्या, और पिन कोड. इनमें से हर सुविधा के लिए, आपको एक अलग कार्रवाई करनी होगी. उदाहरण के लिए, मान लें कि कीमत तय करने वाला डेटा, बायमोडल डिस्ट्रिब्यूशन के बाद आता है. इसके बाद आपको क्या करना चाहिए?
नीचे दिए गए फ़ील्ड में, यह बताने की कोशिश करें कि आप साइज़ डेटा को कैसे प्रोसेस करेंगे.
नीचे दिए गए फ़ील्ड में, यह समझाएं कि आप बेडरूम की संख्या पर डेटा को कैसे प्रोसेस करेंगे.
आपको पिन कोड के बारे में क्या बताना चाहिए? पिन कोड को देशांतर और अक्षांश में बदलें. फिर उन मानों को वैसे ही प्रोसेस करें जैसे आप अन्य अंक वाले मान को प्रोसेस करते हैं.
हर सुविधा में समानता का हिसाब लगाना
अब हर सुविधा में समानता का हिसाब लगाने का समय आ गया है. संख्या वाली सुविधाओं के लिए, आपको बस अंतर पता करना है. बाइनरी सुविधाओं के लिए, जैसे कि अगर किसी घर में गैराज है, तो आपको 0 या 1 पाने का अंतर भी दिख सकता है. लेकिन, कैटगरी की सुविधाओं के बारे में क्या ख़याल है? ज़्यादा जानकारी के लिए, नीचे दिए गए सवालों के जवाब दें.
कुल मिलाकर समानता का हिसाब लगाना
आपने हर सुविधा के लिए, एक जैसे अंकों का हिसाब लगाया है. हालांकि, क्लस्टरिंग एल्गोरिदम को, क्लस्टर के घरों से पूरी तरह से मेल खाने की ज़रूरत है. रूट मीड स्क्वेयर गड़बड़ी (आरएमएसई) का इस्तेमाल करके, घरों में मौजूद सभी चीज़ों के बीच समानता का पता लगाएं. इसका मतलब है कि \(s_1,s_2,\ldots,s_N\) इन सुविधाओं में \(N\) एक जैसी सुविधाएं हैं:
\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]
मैन्युअल समानता माप की सीमाएं
जैसा कि यह अभ्यास दिखाया गया है, जब डेटा जटिल हो जाता है, तो इसे प्रोसेस करना बहुत मुश्किल हो जाता है. साथ ही, एक जैसा मतलब तय करने के लिए, डेटा को एक जैसा रखना मुश्किल होता है. कलर डेटा पर ध्यान दें. क्या रंग वाकई में सामान्य होना चाहिए? इसके अलावा, क्या हमें लाल और मरूनी जैसे रंग असाइन करने चाहिए कि उनमें काले और सफ़ेद रंग से ज़्यादा समानताएं हों? डेटा को जोड़ने के बारे में बात करते समय, हमने गैरेज की सुविधा को हाउस की कीमत के बराबर बराबर अहमियत दी. हालांकि, गैरेज होने के मुकाबले घर की कीमत बहुत ज़्यादा ज़रूरी होती है. क्या इन्हें बराबर अहमियत देना सही है?
अगर आप समानता का कोई ऐसा तरीका बनाते हैं जो उदाहरणों के बीच असल में एक जैसा नहीं दिखाता, तो आपके बनाए गए क्लस्टर काम के नहीं होंगे. ऐसा अक्सर कैटगरी वाले डेटा के साथ होता है और हमें निगरानी में रखा जाता है.