नुकसान कम करना

किसी मॉडल को ट्रेनिंग देने के लिए, हमें उसे कम करने का कोई बेहतर तरीका चाहिए. नुकसान को कम करने के लिए, दोहराव वाला तरीका सबसे ज़्यादा इस्तेमाल किया जाने वाला तरीका है. यह पहाड़ी पर चलने जितना ही आसान और कुशल है.

नुकसान कम करना

  • हाइपर पैरामीटर वे कॉन्फ़िगरेशन सेटिंग होती हैं जिनका इस्तेमाल, मॉडल को ट्रेनिंग देने के तरीके को ट्यून करने के लिए किया जाता है.
  • वज़न और पक्षपात के हिसाब से (y - y')2 का डेरिवेटिव हमें यह बताता है कि दिए गए उदाहरण से होने वाले नुकसान में किस तरह बदलाव हुआ है
    • कंप्यूट करने और उत्तल बनाने में आसान
  • इसलिए, हम बार-बार उस दिशा में छोटे-छोटे कदम उठाते हैं जिससे नुकसान को कम किया जा सके
    • हम इन्हें ग्रेडिएंट कदम कहते हैं (हालांकि, ये असल में नेगेटिव ग्रेडिएंट कदम हैं)
    • इस रणनीति को ग्रेडिएंट डिसेंट कहा जाता है
सुविधाओं और लेबल से मॉडल और सुझावों पर स्विच करने का साइकल.
  • उत्तल समस्याओं के लिए, भार कहीं से भी शुरू हो सकते हैं (जैसे, सभी 0 से)
    • उत्तल: कटोरे के आकार के बारे में सोचें
    • सिर्फ़ एक कम से कम
उत्तल कटोरे के आकार का ग्राफ़
  • उत्तल समस्याओं के लिए, भार कहीं से भी शुरू हो सकते हैं (जैसे, सभी 0 से)
    • उत्तल: कटोरे के आकार के बारे में सोचें
    • सिर्फ़ एक कम से कम
  • पूर्वाग्रह: न्यूरल नेट के लिए सही नहीं
    • बिना उत्तल: अंडे की टोकरी के बारे में सोचें
    • कम से कम एक से ज़्यादा
    • शुरुआती वैल्यू पर ज़्यादा निर्भरता
कई स्थानीय मिनिमा के साथ, उत्तल बोल के आकार का ग्राफ़ और ग्राफ़
  • हर चरण पर पूरे डेटा सेट में ग्रेडिएंट का पता लगाया जा सकता है. हालांकि, ऐसा करना ज़रूरी नहीं है
  • छोटे डेटा सैंपल पर, ग्रेडिएंट का इस्तेमाल करके अच्छी तरह से काम किया जा सकता है
    • हर कदम पर, एक रैंडम सैंपल पाएं
  • स्टोकास्टिक ग्रेडिएंट वंश: एक बार में एक उदाहरण
  • मिनी-बैच ग्रेडिएंट डिसेंट: 10 से 1,000 बैच
    • ऐप्लिकेशन के नुकसान और ग्रेडिएंट का औसत, बैच के हिसाब से तय किया जाता है