इस पेज का अनुवाद Cloud Translation API से किया गया है.

मैन्युअल रूप से समानता मेज़र करने का व्यायाम

नीचे दिए गए तरीके से, आपको मिलता-जुलता तरीका तैयार करने में मैन्युअल तरीके से मदद मिलती है.

मान लें कि आपके पास घरों पर आधारित सामान्य डेटासेट है:

सुविधा	टाइप
कीमत	सकारात्मक पूर्णांक
साइज़	वर्ग मीटर में, फ़्लोटिंग फ़्लोटिंग पॉइंट की पॉज़िटिव वैल्यू
पिन कोड	पूर्णांक
कमरों की संख्या	पूर्णांक
घर किस तरह का है	"सिंगल_फ़ैमिली", "एक से ज़्यादा परिवार", "अपार्टमेंट", "कॉन्डो" से मिली टेक्स्ट वैल्यू
गैरेज	नहीं/हां के लिए 0/1
रंग	बहुआयामी श्रेणी: मानक रंगों में से एक या ज़्यादा मान “सफ़ेद”, “पीला”, “हरा” वगैरह.

प्रीप्रोसेसिंग

सबसे पहले अंकों वाली सुविधा को प्रोसेस करें: कीमत, साइज़, बेडरूम की संख्या, और पिन कोड. इनमें से हर सुविधा के लिए, आपको एक अलग कार्रवाई करनी होगी. उदाहरण के लिए, मान लें कि कीमत तय करने वाला डेटा, बायमोडल डिस्ट्रिब्यूशन के बाद आता है. इसके बाद आपको क्या करना चाहिए?

अगर आपका डेटा, दोनों के लिए उपलब्ध है, तो आपको क्या करना चाहिए?

डेटा और स्केल [0,1] से क्वांटाइल बनाएं.

डेटा के दो हिस्सों में बंटे होने के बाद, यह सही तरीका है.

बदलाव को स्केल करें और [0,1] तक स्केल करें.

असल में, ऐसा तब करना चाहिए, जब डेटा, पावर-लॉ के बंटवारे का पालन करता हो.

सामान्य करें और [0,1] तक स्केल करें.

गॉसियन डिस्ट्रिब्यूशन के बाद डेटा तैयार करना ज़रूरी है.

नीचे दिए गए फ़ील्ड में, यह बताने की कोशिश करें कि आप साइज़ डेटा को कैसे प्रोसेस करेंगे.

मैं साइज़ डेटा को पहले ही इस तरीके से प्रोसेस कर लूंगा:

अपना जवाब देखने के लिए, प्लस आइकॉन पर क्लिक करें

देखें कि साइज़, पावर लॉ, पॉइसन या गॉसियन डिस्ट्रिब्यूशन के हिसाब से है या नहीं.

पावर-लॉ: [0,1] में बदलाव करें और स्केल करें.
पॉइसन: क्वानटाइल बनाएं और [0,1] तक स्केल करें.
गॉसियन: सामान्य करें और [0,1] तक स्केल करें.

नीचे दिए गए फ़ील्ड में, यह समझाएं कि आप बेडरूम की संख्या पर डेटा को कैसे प्रोसेस करेंगे.

मैं इसके लिए बेडरूम की संख्या को पहले ही प्रोसेस कर दूंगा/दूंगी:

अपना जवाब देखने के लिए, प्लस आइकॉन पर क्लिक करें

देखें कि बेडरूम की संख्या कितनी है. हो सकता है कि आउटलायर को क्लिप के तौर पर बांटना और [0,1] स्केल करना काफ़ी होगा,लेकिन अगर आपको पावर-लॉ डिस्ट्रिब्यूशन पता चलता है, तो लॉग-ट्रांसफ़ॉर्म ज़रूरी हो सकता है.

आपको पिन कोड के बारे में क्या बताना चाहिए? पिन कोड को देशांतर और अक्षांश में बदलें. फिर उन मानों को वैसे ही प्रोसेस करें जैसे आप अन्य अंक वाले मान को प्रोसेस करते हैं.

हर सुविधा में समानता का हिसाब लगाना

अब हर सुविधा में समानता का हिसाब लगाने का समय आ गया है. संख्या वाली सुविधाओं के लिए, आपको बस अंतर पता करना है. बाइनरी सुविधाओं के लिए, जैसे कि अगर किसी घर में गैराज है, तो आपको 0 या 1 पाने का अंतर भी दिख सकता है. लेकिन, कैटगरी की सुविधाओं के बारे में क्या ख़याल है? ज़्यादा जानकारी के लिए, नीचे दिए गए सवालों के जवाब दें.

इनमें से कौनसी सुविधा एक से ज़्यादा वैल्यू है (एक से ज़्यादा वैल्यू हो सकती है)?

रंग

किसी घर के लिए एक से ज़्यादा रंग हो सकते हैं, जैसे कि सफ़ेद ट्रिम के साथ नीला. इसलिए, रंग भी कई खूबियों वाला है.

पिन कोड

किसी भी ड्वेलिंग का सिर्फ़ एक पिन कोड हो सकता है. यह एक आसान सुविधा है.

टाइप

आपका घर सिर्फ़ एक ही तरह का हो सकता है, जैसे घर, अपार्टमेंट, कॉन्डो वगैरह. इसका मतलब है कि यह एक यूनीक सुविधा है.

एक से ज़्यादा वैल्यू वाली सुविधा के लिए, समानता का हिसाब लगाने के लिए, आपको किस तरह का मिलान करना चाहिए?

जैककार्ड से मिलती-जुलती

मान लीजिए कि घरों को रंगों के एक तय सेट के आधार पर रंग असाइन किए गए हैं. फिर, सामान्य मानों के अनुपात का इस्तेमाल करके समानता का हिसाब लगाएं (Jacard की समानता).

इयूक्लिडीन दूरी

“पिन कोड” और “टाइप” वाली सुविधाओं के लिए, जिनकी सिर्फ़ एक वैल्यू होती है (यूनीक सुविधाएं), अगर सुविधा मेल खाती है, तो समानता का माप 0 है. अगर अंतर का आकलन नहीं किया जाता है, तो समानता का मेज़रमेंट 1 होता है.

कुल मिलाकर समानता का हिसाब लगाना

आपने हर सुविधा के लिए, एक जैसे अंकों का हिसाब लगाया है. हालांकि, क्लस्टरिंग एल्गोरिदम को, क्लस्टर के घरों से पूरी तरह से मेल खाने की ज़रूरत है. रूट मीड स्क्वेयर गड़बड़ी (आरएमएसई) का इस्तेमाल करके, घरों में मौजूद सभी चीज़ों के बीच समानता का पता लगाएं. इसका मतलब है कि \(s_1,s_2,\ldots,s_N\) इन सुविधाओं में \(N\) एक जैसी सुविधाएं हैं:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

मैन्युअल समानता माप की सीमाएं

जैसा कि यह अभ्यास दिखाया गया है, जब डेटा जटिल हो जाता है, तो इसे प्रोसेस करना बहुत मुश्किल हो जाता है. साथ ही, एक जैसा मतलब तय करने के लिए, डेटा को एक जैसा रखना मुश्किल होता है. कलर डेटा पर ध्यान दें. क्या रंग वाकई में सामान्य होना चाहिए? इसके अलावा, क्या हमें लाल और मरूनी जैसे रंग असाइन करने चाहिए कि उनमें काले और सफ़ेद रंग से ज़्यादा समानताएं हों? डेटा को जोड़ने के बारे में बात करते समय, हमने गैरेज की सुविधा को हाउस की कीमत के बराबर बराबर अहमियत दी. हालांकि, गैरेज होने के मुकाबले घर की कीमत बहुत ज़्यादा ज़रूरी होती है. क्या इन्हें बराबर अहमियत देना सही है?

अगर आप समानता का कोई ऐसा तरीका बनाते हैं जो उदाहरणों के बीच असल में एक जैसा नहीं दिखाता, तो आपके बनाए गए क्लस्टर काम के नहीं होंगे. ऐसा अक्सर कैटगरी वाले डेटा के साथ होता है और हमें निगरानी में रखा जाता है.

पीछे जाएं

मैन्युअल समानता माप

आगे बढ़ें

मैन्युअल समानता प्रोग्रामिंग व्यायाम