پس انتشار رایج ترین الگوریتم آموزشی برای شبکه های عصبی است. این نزول گرادیان را برای شبکه های عصبی چند لایه امکان پذیر می کند. بسیاری از کتابخانههای کد یادگیری ماشین (مانند Keras ) به طور خودکار انتشار پسزمینه را مدیریت میکنند، بنابراین نیازی نیست خودتان هیچ یک از محاسبات اساسی را انجام دهید. ویدئوی زیر را برای یک نمای کلی مفهومی از نحوه عملکرد پسپخش کردن ببینید:
شبکه های عصبی: آموزش با استفاده از پس انتشار
بهترین روش ها برای آموزش شبکه های عصبی
این بخش موارد شکست پس انتشار و رایج ترین راه برای منظم کردن شبکه عصبی را توضیح می دهد.
ناپدید شدن گرادیان ها
گرادیان لایههای شبکه عصبی پایین (آنهایی که به لایه ورودی نزدیکتر هستند) میتوانند بسیار کوچک شوند. در شبکههای عمیق (شبکههایی با بیش از یک لایه پنهان)، محاسبه این گرادیانها میتواند شامل گرفتن حاصل ضرب بسیاری از اصطلاحات کوچک باشد.
هنگامی که مقادیر گرادیان برای لایههای پایینتر به 0 نزدیک میشوند، گفته میشود که گرادیانها «ناپدید میشوند». لایههای با شیب محو شونده بسیار آهسته یا اصلاً تمرین نمیکنند.
عملکرد فعال سازی ReLU می تواند به جلوگیری از ناپدید شدن گرادیان ها کمک کند.
گرادیان های انفجاری
اگر وزنها در یک شبکه بسیار بزرگ باشد، شیب لایههای پایینتر شامل محصولات بسیاری از اصطلاحات بزرگ است. در این حالت میتوانید گرادیانهای انفجاری داشته باشید: گرادیانهایی که برای همگرایی بیش از حد بزرگ میشوند.
نرمال سازی دسته ای می تواند به جلوگیری از انفجار شیب ها کمک کند، همانطور که می تواند نرخ یادگیری را کاهش دهد.
واحدهای مرده ReLU
هنگامی که مجموع وزن برای یک واحد ReLU به زیر 0 می رسد، واحد ReLU می تواند گیر کند. 0 را خروجی میکند و هیچ کمکی به خروجی شبکه نمیکند و گرادیانها دیگر نمیتوانند در طول انتشار پس از آن از طریق آن جریان پیدا کنند. با قطع منبع گرادیان، ورودی ReLU ممکن است هرگز آنقدر تغییر نکند که مجموع وزنی را به بالای 0 برگرداند.
کاهش نرخ یادگیری می تواند به جلوگیری از مرگ واحدهای ReLU کمک کند.
تنظیم ترک تحصیل
با این حال، شکل دیگری از منظمسازی، به نام منظمسازی حذف ، برای شبکههای عصبی مفید است. با حذف تصادفی فعالسازیهای واحد در شبکه برای یک مرحله گرادیان کار میکند. هرچه بیشتر ترک تحصیل کنید، منظمسازی قویتر است:
- 0.0 = بدون تنظیم ترک تحصیل.
- 1.0 = تمام گره ها را کنار بگذارید. مدل چیزی یاد نمی گیرد.
- مقادیر بین 0.0 و 1.0 = مفیدتر است.