मिलते-जुलतेता को मापने का मैन्युअल तरीका

जैसा कि अभी दिखाया गया है, k-मीन अपने सबसे पास के सेंट्रोइड को पॉइंट असाइन करता है. हालांकि, इससे क्या होता है "सबसे नज़दीकी" मतलब?

सुविधा डेटा पर k-मीन लागू करने के लिए, आपको समानता, जिसमें सभी सुविधा डेटा को किसी एक न्यूमेरिक वैल्यू में जोड़ा जाता है, इसे मैन्युअल समानता माप कहा जाता है.

जूतों के डेटासेट का इस्तेमाल करें. अगर उस डेटासेट में जूते के साइज़ की ही सुविधा है, तो तो दो जूतों के बीच समानता को इस तरह से परिभाषित किया जा सकता है कि साइज़. साइज़ के बीच संख्यात्मक अंतर जितना कम होगा, जूतों में कितना अंतर है.

अगर जूते के उस डेटासेट में दो अंकों वाली सुविधाएं, साइज़, और कीमत है, तो एक साथ दो उन्हें एक संख्या में बदल दें, जो समानता का प्रतिनिधित्व करती हो. सबसे पहले डेटा को स्केल करें, ताकि दोनों सुविधाओं की तुलना की जा सकती है:

  • साइज़: जूते के साइज़ से शायद गॉसियन डिस्ट्रिब्यूशन का पता चलता है. इसकी पुष्टि करें. इसके बाद, डेटा को नॉर्मलाइज़ करें.
  • कीमत (p): शायद यह डेटा पॉइसन डिस्ट्रिब्यूशन का है. इसकी पुष्टि करें. अगर आपको काफ़ी डेटा है, तो डेटा को मात्राओं और स्केल को \([0,1]\)में बदलें.

इसके बाद, दोनों की गणना करने के लिए, रूट मीन स्क्वेयर एरर (RMSE). समानता की यह माप इसके द्वारा दी गई है \(\sqrt{\frac{(s_i - s_j)^2+(p_i - p_j)^2}{2}}\).

सरल उदाहरण के लिए, अमेरिकन साइज़ वाले दो जूतों के लिए, समानता की गणना करें 8 और 11, और कीमतें 120 और 150 हैं. क्योंकि हमारे पास समझने के लिए काफ़ी डेटा नहीं है डिस्ट्रिब्यूशन के दौरान, हम डेटा को नॉर्मलाइज़ या उसका इस्तेमाल किए बिना क्वांटाइल्स.

कार्रवाईतरीका
साइज़ को स्केल करें. मान लीजिए कि जूते का ज़्यादा से ज़्यादा साइज़ 20 हो सकता है. 8 और 11 को इससे भाग दें 0.4 और 0.55 पाने के लिए, साइज़ ज़्यादा से ज़्यादा 20 होना चाहिए.
कीमत बढ़ाएं. 0.8 और 1 पाने के लिए, 120 और 150 को ज़्यादा से ज़्यादा कीमत 150 से भाग दें.
साइज़ के अंतर का पता लगाएं. \(0.55 - 0.4 = 0.15\)
किराये के अंतर का पता लगाएं. \(1 - 0.8 = 0.2\)
आरएमएसई का हिसाब लगाएं. \(\sqrt{\frac{0.2^2+0.15^2}{2}} = 0.17\)

सहजता से, सुविधा का डेटा ज़्यादा होने पर, समानता का माप बढ़ जाना चाहिए एक जैसा. इसके बजाय, आपकी समानता का माप (RMSE) वाकई कम हो जाता है. अपने समानता को मापने की सुविधा से, आपकी इच्छा के बारे में जानने के लिए, इसे 1 से घटा दिया जाता है.

\[\text{Similarity} = 1 - 0.17 = 0.83\]

आम तौर पर, आंकड़ों वाला डेटा इस तरह तैयार किया जा सकता है डेटा तैयार करें, फिर उसे संयोजित करें डेटा के लिए इयूक्लिडीन दूरी का इस्तेमाल किया जाता है.

अगर उस डेटासेट में जूते का साइज़ और रंग, दोनों शामिल हों, तो क्या होगा? रंग है कैटगरी से जुड़ा डेटा होता है, इसमें मशीन लर्निंग क्रैश कोर्स में चर्चा की गई है कैटगरिकल डेटा के साथ काम करना. कैटगरी वाले डेटा को संख्या वाले साइज़ के डेटा के साथ जोड़ना मुश्किल होता है. यह खाता:

  • एक वैल्यू नहीं दी गई (एक वैल्यू). जैसे, कार का रंग ("सफ़ेद" या "नीला", लेकिन कभी नहीं दोनों)
  • एक से ज़्यादा वैल्यू वाला (कई फ़ायदे पाने वाला), जैसे कि फ़िल्म की शैली (फ़िल्म में दोनों तरह की वैल्यू हो सकती हैं "कार्रवाई" और "कॉमेडी" या सिर्फ़ "कार्रवाई")

अगर एक जैसा डेटा मैच करता है, जैसे कि नीले जूतों के दो जोड़े के मामले में, तो उदाहरणों में समानता 1 है. अगर ऐसा नहीं है, तो मिलती-जुलती वैल्यू शून्य है.

फ़िल्म की शैलियां जैसे बहुसंयोजक डेटा के साथ काम करना मुश्किल होता है. अगर कोई फ़िल्म की शैलियों का कोई तय सेट है, तो समानता का आकलन करने के लिए सामान्य मान, जिन्हें जैककार्ड से समानता. उदाहरण जैक्कार्ड समानता की गणना:

  • [“कॉमेडी”,” ऐक्शन”] और [“कॉमेडी”,” ऐक्शन”] = 1
  • [“कॉमेडी”,” ऐक्शन”] और [“ऐक्शन”] = 1⁄2
  • [“कॉमेडी”,”ऐक्शन”] और [“ऐक्शन”, "ड्रामा"] = 1⁄3
  • [“कॉमेडी”,” ऐक्शन”] और [“नॉन-फ़िक्शन”,” बायोग्राफ़िकल”] = 0

इसके लिए, जैककार्ड की समानता मैन्युअल तौर पर मापी जाने वाली इकलौती कार्रवाई नहीं है कैटगरी से जुड़ा डेटा होता है. दो अन्य उदाहरण:

  • पिन कोड को पहले अक्षांश और देशांतर में बदला जा सकता है उनके बीच यूक्लिडीन दूरी की गणना कर रहे हैं.
  • रंग को अंकों वाली आरजीबी वैल्यू में बदला जा सकता है. हालांकि, वैल्यू में ये अंतर होने चाहिए वैल्यू को यूक्लिडीन दूरी में जोड़ा जाता है.

कैटगरिकल डेटा के साथ काम करना सेक्शन देखें देखें.

आम तौर पर, समानता का माप सीधे तौर पर एक-दूसरे से मेल खाना चाहिए. मिलता-जुलता है. अगर आपकी चुनी गई मेट्रिक काम नहीं करती है, तो वह जिसे उसे एन्कोड करना है.

समानता का आकलन करने से पहले, अपने डेटा को ध्यान से प्रोसेस करें. कॉन्टेंट बनाने इस पेज पर दिए गए उदाहरणों को आसान बनाया गया है. असल दुनिया के ज़्यादातर डेटासेट बड़े होते हैं और जटिल. जैसा कि पहले बताया गया है, क्वांटाइल्स एक अच्छा डिफ़ॉल्ट विकल्प है का इस्तेमाल किया जा सकता है.

डेटा के जटिल होने की वजह से, मैन्युअल बनाना मुश्किल हो जाता है समानता का आकलन करें. ऐसी स्थिति में, सुपरवाइज़्ड समानता का माप, जहां निगरानी में रखी गई मशीन लर्निंग मॉडल, समानता का हिसाब लगाता है. इसके बारे में ज़्यादा जानकारी दी जाएगी बाद में.