این بخش موارد شکست پس انتشار و رایج ترین راه برای منظم کردن شبکه عصبی را توضیح می دهد.
موارد شکست
چند راه متداول وجود دارد که پس انتشار به اشتباه انجام می شود.
ناپدید شدن گرادیان ها
گرادیان برای لایه های پایین تر (نزدیک به ورودی) می تواند بسیار کوچک شود. در شبکههای عمیق، محاسبه این گرادیانها میتواند شامل گرفتن حاصل ضرب بسیاری از اصطلاحات کوچک باشد.
وقتی شیب ها به سمت 0 برای لایه های پایین ناپدید می شوند، این لایه ها بسیار آهسته یا اصلاً تمرین نمی کنند.
عملکرد فعال سازی ReLU می تواند به جلوگیری از ناپدید شدن گرادیان ها کمک کند.
گرادیان های انفجاری
اگر وزنها در یک شبکه بسیار بزرگ باشد، شیب لایههای پایینتر شامل محصولات بسیاری از اصطلاحات بزرگ است. در این حالت میتوانید گرادیانهای انفجاری داشته باشید: گرادیانهایی که برای همگرایی بیش از حد بزرگ میشوند.
نرمال سازی دسته ای می تواند به جلوگیری از انفجار شیب ها کمک کند، همانطور که می تواند نرخ یادگیری را کاهش دهد.
واحدهای مرده ReLU
هنگامی که مجموع وزن برای یک واحد ReLU به زیر 0 می رسد، واحد ReLU می تواند گیر کند. این خروجی 0 فعال سازی می کند، هیچ کمکی به خروجی شبکه نمی کند، و گرادیان ها دیگر نمی توانند در طول انتشار پس از آن در آن جریان داشته باشند. با قطع منبع گرادیان، ورودی ReLU ممکن است هرگز آنقدر تغییر نکند که مجموع وزنی را به بالای 0 برگرداند.
کاهش نرخ یادگیری می تواند به جلوگیری از مرگ واحدهای ReLU کمک کند.
تنظیم ترک تحصیل
شکل دیگری از منظمسازی به نام Dropout برای شبکههای عصبی مفید است. با حذف تصادفی فعالسازیهای واحد در شبکه برای یک مرحله گرادیان کار میکند. هرچه بیشتر ترک تحصیل کنید، منظمسازی قویتر است:
- 0.0 = بدون تنظیم ترک تحصیل.
- 1.0 = همه چیز را رها کنید. مدل چیزی یاد نمی گیرد.
- مقادیر بین 0.0 و 1.0 = مفیدتر است.