شبکه های عصبی: آموزش با استفاده از پس انتشار

پس انتشار رایج ترین الگوریتم آموزشی برای شبکه های عصبی است. این نزول گرادیان را برای شبکه های عصبی چند لایه امکان پذیر می کند. بسیاری از کتابخانه‌های کد یادگیری ماشین (مانند Keras ) به طور خودکار انتشار پس‌زمینه را مدیریت می‌کنند، بنابراین نیازی نیست خودتان هیچ یک از محاسبات اساسی را انجام دهید. ویدئوی زیر را برای یک نمای کلی مفهومی از نحوه عملکرد پس‌پخش کردن ببینید:

بهترین روش ها برای آموزش شبکه های عصبی

این بخش موارد شکست پس انتشار و رایج ترین راه برای منظم کردن شبکه عصبی را توضیح می دهد.

ناپدید شدن گرادیان ها

گرادیان لایه‌های شبکه عصبی پایین (آنهایی که به لایه ورودی نزدیک‌تر هستند) می‌توانند بسیار کوچک شوند. در شبکه‌های عمیق (شبکه‌هایی با بیش از یک لایه پنهان)، محاسبه این گرادیان‌ها می‌تواند شامل گرفتن حاصل ضرب بسیاری از اصطلاحات کوچک باشد.

هنگامی که مقادیر گرادیان برای لایه‌های پایین‌تر به 0 نزدیک می‌شوند، گفته می‌شود که گرادیان‌ها «ناپدید می‌شوند». لایه‌های با شیب محو شونده بسیار آهسته یا اصلاً تمرین نمی‌کنند.

عملکرد فعال سازی ReLU می تواند به جلوگیری از ناپدید شدن گرادیان ها کمک کند.

گرادیان های انفجاری

اگر وزن‌ها در یک شبکه بسیار بزرگ باشد، شیب لایه‌های پایین‌تر شامل محصولات بسیاری از اصطلاحات بزرگ است. در این حالت می‌توانید گرادیان‌های انفجاری داشته باشید: گرادیان‌هایی که برای هم‌گرایی بیش از حد بزرگ می‌شوند.

نرمال سازی دسته ای می تواند به جلوگیری از انفجار شیب ها کمک کند، همانطور که می تواند نرخ یادگیری را کاهش دهد.

واحدهای مرده ReLU

هنگامی که مجموع وزن برای یک واحد ReLU به زیر 0 می رسد، واحد ReLU می تواند گیر کند. 0 را خروجی می‌کند و هیچ کمکی به خروجی شبکه نمی‌کند و گرادیان‌ها دیگر نمی‌توانند در طول انتشار پس از آن از طریق آن جریان پیدا کنند. با قطع منبع گرادیان، ورودی ReLU ممکن است هرگز آنقدر تغییر نکند که مجموع وزنی را به بالای 0 برگرداند.

کاهش نرخ یادگیری می تواند به جلوگیری از مرگ واحدهای ReLU کمک کند.

تنظیم ترک تحصیل

با این حال، شکل دیگری از منظم‌سازی، به نام منظم‌سازی حذف ، برای شبکه‌های عصبی مفید است. با حذف تصادفی فعال‌سازی‌های واحد در شبکه برای یک مرحله گرادیان کار می‌کند. هرچه بیشتر ترک تحصیل کنید، منظم‌سازی قوی‌تر است:

  • 0.0 = بدون تنظیم ترک تحصیل.
  • 1.0 = تمام گره ها را کنار بگذارید. مدل چیزی یاد نمی گیرد.
  • مقادیر بین 0.0 و 1.0 = مفیدتر است.