मैन्युअल रूप से समानता मेज़र करने का व्यायाम

नीचे दिए गए तरीके से, आपको मिलता-जुलता तरीका तैयार करने में मैन्युअल तरीके से मदद मिलती है.

मान लें कि आपके पास घरों पर आधारित सामान्य डेटासेट है:

सुविधाटाइप
कीमतसकारात्मक पूर्णांक
साइज़ वर्ग मीटर में, फ़्लोटिंग फ़्लोटिंग पॉइंट की पॉज़िटिव वैल्यू
पिन कोडपूर्णांक
कमरों की संख्यापूर्णांक
घर किस तरह का है"सिंगल_फ़ैमिली", "एक से ज़्यादा परिवार", "अपार्टमेंट", "कॉन्डो" से मिली टेक्स्ट वैल्यू
गैरेजनहीं/हां के लिए 0/1
रंगबहुआयामी श्रेणी: मानक रंगों में से एक या ज़्यादा मान “सफ़ेद”, “पीला”, “हरा” वगैरह.

प्रीप्रोसेसिंग

सबसे पहले अंकों वाली सुविधा को प्रोसेस करें: कीमत, साइज़, बेडरूम की संख्या, और पिन कोड. इनमें से हर सुविधा के लिए, आपको एक अलग कार्रवाई करनी होगी. उदाहरण के लिए, मान लें कि कीमत तय करने वाला डेटा, बायमोडल डिस्ट्रिब्यूशन के बाद आता है. इसके बाद आपको क्या करना चाहिए?

अगर आपका डेटा, दोनों के लिए उपलब्ध है, तो आपको क्या करना चाहिए?
डेटा और स्केल [0,1] से क्वांटाइल बनाएं.
डेटा के दो हिस्सों में बंटे होने के बाद, यह सही तरीका है.
बदलाव को स्केल करें और [0,1] तक स्केल करें.
असल में, ऐसा तब करना चाहिए, जब डेटा, पावर-लॉ के बंटवारे का पालन करता हो.
सामान्य करें और [0,1] तक स्केल करें.
गॉसियन डिस्ट्रिब्यूशन के बाद डेटा तैयार करना ज़रूरी है.

नीचे दिए गए फ़ील्ड में, यह बताने की कोशिश करें कि आप साइज़ डेटा को कैसे प्रोसेस करेंगे.

नीचे दिए गए फ़ील्ड में, यह समझाएं कि आप बेडरूम की संख्या पर डेटा को कैसे प्रोसेस करेंगे.

आपको पिन कोड के बारे में क्या बताना चाहिए? पिन कोड को देशांतर और अक्षांश में बदलें. फिर उन मानों को वैसे ही प्रोसेस करें जैसे आप अन्य अंक वाले मान को प्रोसेस करते हैं.

हर सुविधा में समानता का हिसाब लगाना

अब हर सुविधा में समानता का हिसाब लगाने का समय आ गया है. संख्या वाली सुविधाओं के लिए, आपको बस अंतर पता करना है. बाइनरी सुविधाओं के लिए, जैसे कि अगर किसी घर में गैराज है, तो आपको 0 या 1 पाने का अंतर भी दिख सकता है. लेकिन, कैटगरी की सुविधाओं के बारे में क्या ख़याल है? ज़्यादा जानकारी के लिए, नीचे दिए गए सवालों के जवाब दें.

इनमें से कौनसी सुविधा एक से ज़्यादा वैल्यू है (एक से ज़्यादा वैल्यू हो सकती है)?
रंग
किसी घर के लिए एक से ज़्यादा रंग हो सकते हैं, जैसे कि सफ़ेद ट्रिम के साथ नीला. इसलिए, रंग भी कई खूबियों वाला है.
पिन कोड
किसी भी ड्वेलिंग का सिर्फ़ एक पिन कोड हो सकता है. यह एक आसान सुविधा है.
टाइप
आपका घर सिर्फ़ एक ही तरह का हो सकता है, जैसे घर, अपार्टमेंट, कॉन्डो वगैरह. इसका मतलब है कि यह एक यूनीक सुविधा है.
एक से ज़्यादा वैल्यू वाली सुविधा के लिए, समानता का हिसाब लगाने के लिए, आपको किस तरह का मिलान करना चाहिए?
जैककार्ड से मिलती-जुलती
मान लीजिए कि घरों को रंगों के एक तय सेट के आधार पर रंग असाइन किए गए हैं. फिर, सामान्य मानों के अनुपात का इस्तेमाल करके समानता का हिसाब लगाएं (Jacard की समानता).
इयूक्लिडीन दूरी
“पिन कोड” और “टाइप” वाली सुविधाओं के लिए, जिनकी सिर्फ़ एक वैल्यू होती है (यूनीक सुविधाएं), अगर सुविधा मेल खाती है, तो समानता का माप 0 है. अगर अंतर का आकलन नहीं किया जाता है, तो समानता का मेज़रमेंट 1 होता है.

कुल मिलाकर समानता का हिसाब लगाना

आपने हर सुविधा के लिए, एक जैसे अंकों का हिसाब लगाया है. हालांकि, क्लस्टरिंग एल्गोरिदम को, क्लस्टर के घरों से पूरी तरह से मेल खाने की ज़रूरत है. रूट मीड स्क्वेयर गड़बड़ी (आरएमएसई) का इस्तेमाल करके, घरों में मौजूद सभी चीज़ों के बीच समानता का पता लगाएं. इसका मतलब है कि \(s_1,s_2,\ldots,s_N\) इन सुविधाओं में \(N\) एक जैसी सुविधाएं हैं:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

मैन्युअल समानता माप की सीमाएं

जैसा कि यह अभ्यास दिखाया गया है, जब डेटा जटिल हो जाता है, तो इसे प्रोसेस करना बहुत मुश्किल हो जाता है. साथ ही, एक जैसा मतलब तय करने के लिए, डेटा को एक जैसा रखना मुश्किल होता है. कलर डेटा पर ध्यान दें. क्या रंग वाकई में सामान्य होना चाहिए? इसके अलावा, क्या हमें लाल और मरूनी जैसे रंग असाइन करने चाहिए कि उनमें काले और सफ़ेद रंग से ज़्यादा समानताएं हों? डेटा को जोड़ने के बारे में बात करते समय, हमने गैरेज की सुविधा को हाउस की कीमत के बराबर बराबर अहमियत दी. हालांकि, गैरेज होने के मुकाबले घर की कीमत बहुत ज़्यादा ज़रूरी होती है. क्या इन्हें बराबर अहमियत देना सही है?

अगर आप समानता का कोई ऐसा तरीका बनाते हैं जो उदाहरणों के बीच असल में एक जैसा नहीं दिखाता, तो आपके बनाए गए क्लस्टर काम के नहीं होंगे. ऐसा अक्सर कैटगरी वाले डेटा के साथ होता है और हमें निगरानी में रखा जाता है.