मैन्युअल तरीके से मिले-जुले फ़ीचर डेटा की तुलना करने के बजाय, फ़ीचर को कम किया जा सकता है प्रतिनिधि के तौर पर, एम्बेड करना. इसके बाद, एम्बेड करना. एम्बेडिंग, निगरानी में रखे गए डीप न्यूरल सुविधा पर नेटवर्क (डीएनएन) शामिल हैं. एम्बेड करने की सुविधा, सुविधा के डेटा को एम्बेड करने वाले वेक्टर से मैप करती है जिनमें सुविधा डेटा की तुलना में आम तौर पर कम डाइमेंशन होते हैं. एम्बेडिंग हैं एम्बेड करने की सुविधा में बताई गई चर्चा मॉड्यूल का इस्तेमाल करें. साथ ही, न्यूरल नेट के बारे में न्यूरल नेट मॉड्यूल का इस्तेमाल नहीं किया जाएगा. मिलते-जुलते उदाहरणों के लिए वेक्टर जोड़ना, जैसे कि YouTube वीडियो अगर एक जैसे उपयोगकर्ताओं ने मिलते-जुलते विषयों को देखा हो, तो वे एम्बेड किए गए वीडियो में, एक-दूसरे के करीब से दिखते हैं स्पेस. निगरानी में रखा गया समानता माप इस "निकटता" का इस्तेमाल करता है के जोड़े की समानता को मापने के लिए उदाहरण.
याद रखें कि हम माता-पिता की निगरानी में YouTube का इस्तेमाल करने पर मापते हैं. इसके बाद, समानता के माप का इस्तेमाल मैन्युअल तरीके से किया जाता है या निगरानी में रखा गया बिना निगरानी वाली क्लस्टरिंग करने का एल्गोरिदम.
मैन्युअल और निगरानी में रखे गए तरीकों की तुलना
इस टेबल में बताया गया है कि मैन्युअल तरीके से समानता या निगरानी में रखी गई समानता का इस्तेमाल कब करना चाहिए अपनी ज़रूरत के हिसाब से आकलन करें.
आवश्यकता | मैन्युअल | निगरानी में है |
---|---|---|
क्या एक-दूसरे से जुड़ी सुविधाओं में मौजूद फ़ालतू जानकारी को नहीं हटाया जाता? | नहीं, आपको सुविधाओं के बीच के संबंध की जांच करनी होगी. | हां, DNN गैर-ज़रूरी जानकारी को हटा देता है. |
मिलती-जुलती मेट्रिक के बारे में अहम जानकारी देता है? | हां | नहीं, एम्बेड करने की प्रक्रिया को डिकोड नहीं किया जा सकता. |
क्या कम सुविधाओं वाले छोटे डेटासेट के लिए सही है? | हां. | नहीं, छोटे डेटासेट में डीएनएन के लिए ट्रेनिंग का ज़रूरत के मुताबिक डेटा नहीं होता. |
क्या यह ऐसे बड़े डेटासेट के लिए सही है जिनमें कई सुविधाएं हों? | नहीं, एक से ज़्यादा सुविधाओं से गैर-ज़रूरी जानकारी को मैन्युअल तरीके से हटाया जा रहा है और फिर उन्हें मिलाना बहुत मुश्किल है. | हां, डीएनएन गैर-ज़रूरी जानकारी को अपने-आप हटा देता है और सुविधाओं को एक साथ जोड़ती है. |
निगरानी में रखा गया समानता का माप बनाना
यहां निगरानी में रखे गए, समानता के माप को बनाने की प्रोसेस के बारे में खास जानकारी दी गई है:
इस पेज पर डीएनएन के बारे में बताया गया है, जबकि अगले पेजों में बाकी के चरण बताए गए हैं.
ट्रेनिंग लेबल के आधार पर डीएनएन चुनें
अपने सुविधा डेटा को कम-डाइमेंशन वाले एम्बेडिंग तक कम करें. इसके लिए उस DNN को ट्रेनिंग दें उसी सुविधा डेटा का इस्तेमाल करता है जो इनपुट और लेबल, दोनों में होता है. उदाहरण के लिए, अगर घर के डेटा के मामले में, डीएनएन इन सुविधाओं का इस्तेमाल करेगा, तो कीमत, साइज़, पिन कोड—इन सुविधाओं का अनुमान लगाने के लिए.
ऑटोएन्कोडर
ऐसा डीएनएन जो इनपुट डेटा का अनुमान लगाकर, इनपुट डेटा को एम्बेड करना सीखता है इसे ऑटोएन्कोडर कहा जाता है. क्योंकि ऑटोएन्कोडर की छिपी हुई लेयर छोटी होती हैं इनपुट और आउटपुट लेयर की तुलना में, ऑटोएन्कोडर को इनपुट सुविधा के डेटा का कंप्रेस किया हुआ वर्शन. डीएनएन की ट्रेनिंग हो जाने के बाद, समानता का पता लगाने के लिए, सबसे छोटी छिपी हुई लेयर से एम्बेडिंग को निकालें.
अनुमान लगाने वाला
ऑटोएन्कोडर से, एम्बेड करने की सुविधा आसानी से बनाई जा सकती है. हालांकि, जब कुछ सुविधाओं की वैल्यू तय सीमा से ज़्यादा हो सकती है, तो ऑटोएन्कोडर का इस्तेमाल करना सबसे सही नहीं होता है यह समानता तय करने में दूसरों की तुलना में अहम है. उदाहरण के लिए, हाउस डेटा में, मान लेते हैं कि कीमत पिन कोड से ज़्यादा ज़रूरी है. ऐसे मामलों में, DNN के लिए ट्रेनिंग लेबल के तौर पर सिर्फ़ ज़रूरी सुविधा हो. इस डीएनएन के बाद से यह सभी इनपुट सुविधाओं का अनुमान लगाने के बजाय, किसी खास इनपुट सुविधा का अनुमान लगाता है. को पूर्वानुमान DNN कहा जाता है. एम्बेडिंग को आम तौर पर आखिरी एम्बेडिंग लेयर.
लेबल के लिए कोई सुविधा चुनते समय:
कैटगरी से जुड़ी सुविधाओं के मुकाबले संख्या वाली सुविधाओं को प्राथमिकता दें, क्योंकि इस तरह की सुविधाओं को कम किया जा सकता है अंकों वाली सुविधाओं के लिए हिसाब करना और समझना आसान है.
इनपुट से डीएनएन के लेबल के तौर पर इस्तेमाल की जा रही सुविधा को हटाएं या ऐसा न होने पर डीएनएन उस सुविधा का इस्तेमाल करके आउटपुट का सटीक अनुमान लगाएगा. (यह लेबल लीक होने का गंभीर उदाहरण.)
लेबल की आपकी पसंद के आधार पर, नतीजे के तौर पर मिलने वाला DNN ऑटोएन्कोडर या अनुमान लगाने वाला टूल.