निगरानी में रखे गए डिवाइसों के मुताबिक, समानता का आकलन करने की सुविधा

मैन्युअल तरीके से मिले-जुले फ़ीचर डेटा की तुलना करने के बजाय, फ़ीचर को कम किया जा सकता है प्रतिनिधि के तौर पर, एम्बेड करना. इसके बाद, एम्बेड करना. एम्बेडिंग, निगरानी में रखे गए डीप न्यूरल सुविधा पर नेटवर्क (डीएनएन) शामिल हैं. एम्बेड करने की सुविधा, सुविधा के डेटा को एम्बेड करने वाले वेक्टर से मैप करती है जिनमें सुविधा डेटा की तुलना में आम तौर पर कम डाइमेंशन होते हैं. एम्बेडिंग हैं एम्बेड करने की सुविधा में बताई गई चर्चा मॉड्यूल का इस्तेमाल करें. साथ ही, न्यूरल नेट के बारे में न्यूरल नेट मॉड्यूल का इस्तेमाल नहीं किया जाएगा. मिलते-जुलते उदाहरणों के लिए वेक्टर जोड़ना, जैसे कि YouTube वीडियो अगर एक जैसे उपयोगकर्ताओं ने मिलते-जुलते विषयों को देखा हो, तो वे एम्बेड किए गए वीडियो में, एक-दूसरे के करीब से दिखते हैं स्पेस. निगरानी में रखा गया समानता माप इस "निकटता" का इस्तेमाल करता है के जोड़े की समानता को मापने के लिए उदाहरण.

याद रखें कि हम माता-पिता की निगरानी में YouTube का इस्तेमाल करने पर मापते हैं. इसके बाद, समानता के माप का इस्तेमाल मैन्युअल तरीके से किया जाता है या निगरानी में रखा गया बिना निगरानी वाली क्लस्टरिंग करने का एल्गोरिदम.

मैन्युअल और निगरानी में रखे गए तरीकों की तुलना

इस टेबल में बताया गया है कि मैन्युअल तरीके से समानता या निगरानी में रखी गई समानता का इस्तेमाल कब करना चाहिए अपनी ज़रूरत के हिसाब से आकलन करें.

आवश्यकतामैन्युअलनिगरानी में है
क्या एक-दूसरे से जुड़ी सुविधाओं में मौजूद फ़ालतू जानकारी को नहीं हटाया जाता? नहीं, आपको सुविधाओं के बीच के संबंध की जांच करनी होगी. हां, DNN गैर-ज़रूरी जानकारी को हटा देता है.
मिलती-जुलती मेट्रिक के बारे में अहम जानकारी देता है? हां नहीं, एम्बेड करने की प्रक्रिया को डिकोड नहीं किया जा सकता.
क्या कम सुविधाओं वाले छोटे डेटासेट के लिए सही है? हां. नहीं, छोटे डेटासेट में डीएनएन के लिए ट्रेनिंग का ज़रूरत के मुताबिक डेटा नहीं होता.
क्या यह ऐसे बड़े डेटासेट के लिए सही है जिनमें कई सुविधाएं हों? नहीं, एक से ज़्यादा सुविधाओं से गैर-ज़रूरी जानकारी को मैन्युअल तरीके से हटाया जा रहा है और फिर उन्हें मिलाना बहुत मुश्किल है. हां, डीएनएन गैर-ज़रूरी जानकारी को अपने-आप हटा देता है और सुविधाओं को एक साथ जोड़ती है.

निगरानी में रखा गया समानता का माप बनाना

यहां निगरानी में रखे गए, समानता के माप को बनाने की प्रोसेस के बारे में खास जानकारी दी गई है:

सुविधा का डेटा डालें. DNN चुनें: ऑटोएन्कोडर या अनुमान लगाने वाला.
      एम्बेडिंग एक्सट्रैक्ट करें. मेज़रमेंट चुनें: डॉट प्रॉडक्ट, कोसाइन या
      इयूक्लिडीन दूरी.
इमेज 1: निगरानी में रखी गई समानता को लागू करने का तरीका मापें.

इस पेज पर डीएनएन के बारे में बताया गया है, जबकि अगले पेजों में बाकी के चरण बताए गए हैं.

ट्रेनिंग लेबल के आधार पर डीएनएन चुनें

अपने सुविधा डेटा को कम-डाइमेंशन वाले एम्बेडिंग तक कम करें. इसके लिए उस DNN को ट्रेनिंग दें उसी सुविधा डेटा का इस्तेमाल करता है जो इनपुट और लेबल, दोनों में होता है. उदाहरण के लिए, अगर घर के डेटा के मामले में, डीएनएन इन सुविधाओं का इस्तेमाल करेगा, तो कीमत, साइज़, पिन कोड—इन सुविधाओं का अनुमान लगाने के लिए.

ऑटोएन्कोडर

ऐसा डीएनएन जो इनपुट डेटा का अनुमान लगाकर, इनपुट डेटा को एम्बेड करना सीखता है इसे ऑटोएन्कोडर कहा जाता है. क्योंकि ऑटोएन्कोडर की छिपी हुई लेयर छोटी होती हैं इनपुट और आउटपुट लेयर की तुलना में, ऑटोएन्कोडर को इनपुट सुविधा के डेटा का कंप्रेस किया हुआ वर्शन. डीएनएन की ट्रेनिंग हो जाने के बाद, समानता का पता लगाने के लिए, सबसे छोटी छिपी हुई लेयर से एम्बेडिंग को निकालें.

एक इमेज में, एक जैसी वैल्यू के लिए बड़ी संख्या में नोड दिखाए गए हैं
       इनपुट और आउटपुट डेटा, जिसे बीच में तीन नोड तक कंप्रेस किया जाता है.
       पांच छिपी हुई लेयर में से.
दूसरी इमेज: ऑटोएन्कोडर का आर्किटेक्चर.

अनुमान लगाने वाला

ऑटोएन्कोडर से, एम्बेड करने की सुविधा आसानी से बनाई जा सकती है. हालांकि, जब कुछ सुविधाओं की वैल्यू तय सीमा से ज़्यादा हो सकती है, तो ऑटोएन्कोडर का इस्तेमाल करना सबसे सही नहीं होता है यह समानता तय करने में दूसरों की तुलना में अहम है. उदाहरण के लिए, हाउस डेटा में, मान लेते हैं कि कीमत पिन कोड से ज़्यादा ज़रूरी है. ऐसे मामलों में, DNN के लिए ट्रेनिंग लेबल के तौर पर सिर्फ़ ज़रूरी सुविधा हो. इस डीएनएन के बाद से यह सभी इनपुट सुविधाओं का अनुमान लगाने के बजाय, किसी खास इनपुट सुविधा का अनुमान लगाता है. को पूर्वानुमान DNN कहा जाता है. एम्बेडिंग को आम तौर पर आखिरी एम्बेडिंग लेयर.

इनपुट वेक्टर में बड़ी संख्या में नोड दिखाने वाली इमेज
       इसका मतलब है, तीन छिपी हुई लेयर के डेटा को कम करके, तीन नोड वाली लेयर बनाना
       एम्बेड किए गए हिस्से निकाल दिए जाने चाहिए. आखिरी आउटपुट लेयर, अनुमानित डेटा है
       लेबल मान.
तीसरी इमेज: प्रेडिक्टर आर्किटेक्चर.

लेबल के लिए कोई सुविधा चुनते समय:

  • कैटगरी से जुड़ी सुविधाओं के मुकाबले संख्या वाली सुविधाओं को प्राथमिकता दें, क्योंकि इस तरह की सुविधाओं को कम किया जा सकता है अंकों वाली सुविधाओं के लिए हिसाब करना और समझना आसान है.

  • इनपुट से डीएनएन के लेबल के तौर पर इस्तेमाल की जा रही सुविधा को हटाएं या ऐसा न होने पर डीएनएन उस सुविधा का इस्तेमाल करके आउटपुट का सटीक अनुमान लगाएगा. (यह लेबल लीक होने का गंभीर उदाहरण.)

लेबल की आपकी पसंद के आधार पर, नतीजे के तौर पर मिलने वाला DNN ऑटोएन्कोडर या अनुमान लगाने वाला टूल.