گرادیان نزولی یک تکنیک ریاضی است که به صورت تکراری وزنها و بایاسهایی را پیدا میکند که مدلی با کمترین میزان خطا تولید میکنند. گرادیان نزولی با تکرار فرآیند زیر برای تعدادی تکرار تعریف شده توسط کاربر، بهترین وزن و بایاس را پیدا میکند.
مدل آموزش را با وزنها و بایاسهای تصادفی نزدیک به صفر آغاز میکند و سپس مراحل زیر را تکرار میکند:
ضرر را با وزن و بایاس فعلی محاسبه کنید.
جهت حرکت وزنها و بایاسهایی که تلفات را کاهش میدهند، تعیین کنید.
مقادیر وزن و بایاس را به مقدار کمی در جهتی که تلفات را کاهش میدهد، جابجا کنید.
به مرحله اول برگردید و این فرآیند را تا زمانی که مدل دیگر نتواند تلفات را بیشتر کاهش دهد، تکرار کنید.
نمودار زیر مراحل تکراری که گرادیان کاهشی برای یافتن وزنها و بایاسهایی که مدلی با کمترین میزان خطا تولید میکنند، انجام میدهد را نشان میدهد.

شکل ۱۱. گرادیان نزولی یک فرآیند تکراری است که وزنها و بایاسهایی را پیدا میکند که مدلی با کمترین میزان خطا تولید میکنند.
برای کسب اطلاعات بیشتر در مورد ریاضیات مربوط به گرادیان کاهشی، روی آیکون بعلاوه کلیک کنید.
در سطح ملموس، میتوانیم با استفاده از مجموعه دادههای کوچک بهرهوری سوخت زیر با هفت مثال و میانگین مربعات خطا (MSE) به عنوان معیار تلفات، مراحل گرادیان نزولی را طی کنیم:
| پوند در هزار (ویژه) | مایل بر گالن (برچسب) |
|---|---|
| ۳.۵ | ۱۸ |
| ۳.۶۹ | ۱۵ |
| ۳.۴۴ | ۱۸ |
| ۳.۴۳ | ۱۶ |
| ۴.۳۴ | ۱۵ |
| ۴.۴۲ | ۱۴ |
| ۲.۳۷ | ۲۴ |
- مدل با تنظیم وزن و بایاس روی صفر، آموزش را شروع میکند:
- محاسبهی زیان MSE با پارامترهای مدل فعلی:
- شیب مماس بر تابع زیان را در هر وزن و بایاس محاسبه کنید:
- مقدار کمی را در جهت شیب منفی حرکت دهید تا وزن و بایاس بعدی را بدست آورید. فعلاً، ما به طور دلخواه "مقدار کم" را 0.01 تعریف میکنیم:
برای یادگیری نحوه محاسبه شیب، روی نماد به علاوه کلیک کنید.
برای بدست آوردن شیب خطوط مماس بر وزن و بایاس، مشتق تابع زیان را نسبت به وزن و بایاس میگیریم و سپس معادلات را حل میکنیم.
معادله پیشبینی را به صورت زیر مینویسیم:
تابع f_{w,b}(x) = (w*x)+b است.
ما مقدار واقعی را به صورت زیر خواهیم نوشت: $y $.
ما MSE را با استفاده از موارد زیر محاسبه خواهیم کرد:
\frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $
که در آن $i$ نشان دهنده $iامین مثال آموزشی و $M$ نشان دهنده تعداد مثالها است.
مشتق تابع زیان نسبت به وزن به صورت زیر نوشته میشود:
\frac{\partial }{\partial w} \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $
و ارزیابی میکند تا:
\frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)}) * 2x_{(i)} $
ابتدا هر مقدار پیشبینیشده را منهای مقدار واقعی جمع میکنیم و سپس آن را در دو برابر مقدار ویژگی ضرب میکنیم. سپس حاصل جمع را بر تعداد مثالها تقسیم میکنیم. نتیجه، شیب خط مماس بر مقدار وزن است.
اگر این معادله را با وزن و بایاس برابر با صفر حل کنیم، به عدد -۱۱۹.۷ برای شیب خط میرسیم.
مشتق بایاس مشتق تابع زیان نسبت به بایاس به صورت زیر نوشته میشود:
\frac{\partial }{\partial b} \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $
و ارزیابی میکند تا:
\frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)}) * 2 $
ابتدا هر مقدار پیشبینیشده را منهای مقدار واقعی جمع میکنیم و سپس آن را در دو ضرب میکنیم. سپس حاصل جمع را بر تعداد مثالها تقسیم میکنیم. نتیجه، شیب خط مماس بر مقدار بایاس است.
اگر این معادله را با وزن و بایاس برابر با صفر حل کنیم، شیب خط ۳۴.۳- میشود.
از وزن و بایاس جدید برای محاسبهی ضرر و تکرار استفاده کنید. با تکمیل این فرآیند برای شش تکرار، وزنها، بایاسها و ضررهای زیر را خواهیم داشت:
| تکرار | وزن | تعصب | زیان (MSE) |
|---|---|---|---|
| ۱ | 0 | 0 | ۳۰۳.۷۱ |
| ۲ | ۱.۲۰ | ۰.۳۴ | ۱۷۰.۸۴ |
| ۳ | ۲.۰۵ | ۰.۵۹ | ۱۰۳.۱۷ |
| ۴ | ۲.۶۶ | ۰.۷۸ | ۶۸.۷۰ |
| ۵ | ۳.۰۹ | ۰.۹۱ | ۵۱.۱۳ |
| ۶ | ۳.۴۰ | ۱.۰۱ | ۴۲.۱۷ |
میتوانید ببینید که با هر بهروزرسانی وزن و بایاس، میزان خطا کمتر میشود. در این مثال، ما پس از شش تکرار متوقف شدیم. در عمل، یک مدل تا زمانی که همگرا شود، آموزش میبیند. وقتی یک مدل همگرا میشود، تکرارهای اضافی، خطای بیشتری را کاهش نمیدهند، زیرا روش گرادیان کاهشی، وزنها و بایاسی را پیدا کرده است که تقریباً خطای خطا را به حداقل میرسانند.
اگر مدل به آموزش پس از همگرایی ادامه دهد، زیان شروع به نوسان در مقادیر کم میکند، زیرا مدل به طور مداوم پارامترها را حول کمترین مقادیرشان بهروزرسانی میکند. این امر میتواند تأیید همگرایی واقعی مدل را دشوار کند. برای تأیید همگرایی مدل، باید آموزش را تا زمانی که زیان تثبیت شود، ادامه دهید.
منحنیهای همگرایی و تلفات مدل
هنگام آموزش یک مدل، اغلب به منحنی تلفات نگاه میکنید تا مشخص شود که آیا مدل همگرا شده است یا خیر. منحنی تلفات نشان میدهد که چگونه تلفات با آموزش مدل تغییر میکند. شکل یک منحنی تلفات معمولی به صورت زیر است. تلفات روی محور y و تکرارها روی محور x هستند:

شکل ۱۲. منحنی تلفات که همگرایی مدل را در حدود ۱۰۰۰مین تکرار نشان میدهد.
میتوانید ببینید که تلفات در طول چند تکرار اول به طور چشمگیری کاهش مییابد، سپس به تدریج کاهش مییابد و در حدود هزارمین تکرار به حالت ثابت میرسد. پس از ۱۰۰۰ تکرار، میتوانیم تقریباً مطمئن باشیم که مدل همگرا شده است.
در شکلهای زیر، مدل را در سه نقطه در طول فرآیند آموزش رسم میکنیم: ابتدا، میانه و انتها. تجسم وضعیت مدل در تصاویر لحظهای در طول فرآیند آموزش، ارتباط بین بهروزرسانی وزنها و بایاس، کاهش تلفات و همگرایی مدل را محکمتر میکند.
در شکلها، ما از وزنها و بایاس مشتقشده در یک تکرار خاص برای نمایش مدل استفاده میکنیم. در نموداری که شامل نقاط داده و تصویر لحظهای مدل است، خطوط آبی اتلاف از مدل تا نقاط داده، میزان اتلاف را نشان میدهند. هرچه خطوط بلندتر باشند، اتلاف بیشتری وجود دارد.
در شکل زیر، میتوانیم ببینیم که در حدود تکرار دوم، مدل به دلیل میزان بالای تلفات، در پیشبینی خوب عمل نمیکند.

شکل ۱۳. منحنی تلفات و تصویر لحظهای از مدل در ابتدای فرآیند آموزش.
در حدود تکرار ۴۰۰ام، میتوانیم ببینیم که روش گرادیان کاهشی، وزن و بایاس لازم برای تولید مدل بهتر را پیدا کرده است.

شکل ۱۴. منحنی تلفات و تصویر لحظهای مدل در اواسط آموزش.
و در حدود هزارمین تکرار، میتوانیم ببینیم که مدل همگرا شده و مدلی با کمترین تلفات ممکن تولید میکند.

شکل ۱۵. منحنی تلفات و تصویر لحظهای از مدل در نزدیکی پایان فرآیند آموزش.
تمرین: درک خود را بسنجید
توابع همگرایی و محدب
توابع زیان برای مدلهای خطی همیشه یک سطح محدب تولید میکنند. در نتیجه این ویژگی، وقتی یک مدل رگرسیون خطی همگرا میشود، میدانیم که مدل وزنها و بایاسهایی را پیدا کرده است که کمترین زیان را ایجاد میکنند.
اگر نمودار سطح اتلاف را برای مدلی با یک ویژگی رسم کنیم، میتوانیم شکل محدب آن را ببینیم. شکل زیر سطح اتلاف برای یک مجموعه داده فرضی مایل بر گالن را نشان میدهد. وزن روی محور x، بایاس روی محور y و اتلاف روی محور z است:

شکل ۱۶. سطح تلفات که شکل محدب آن را نشان میدهد.
در این مثال، وزن -5.44 و بایاس 35.94 کمترین میزان ضرر را در 5.54 ایجاد میکند:

شکل ۱۷. سطح تلفات که مقادیر وزن و بایاس را نشان میدهد که کمترین تلفات را ایجاد میکنند.
یک مدل خطی زمانی همگرا میشود که حداقل زیان را پیدا کند. بنابراین، تکرارهای اضافی فقط باعث میشوند که گرادیان نزولی مقادیر وزن و بایاس را در مقادیر بسیار کمی در اطراف حداقل جابجا کند. اگر وزنها و نقاط بایاس را در طول گرادیان نزولی رسم کنیم، نقاط مانند توپی به نظر میرسند که از تپه به پایین میغلتد و در نهایت در نقطهای که دیگر شیب نزولی وجود ندارد، متوقف میشود.

شکل ۱۸. نمودار تلفات که نقاط گرادیان نزولی را نشان میدهد که در پایینترین نقطه نمودار متوقف میشوند.
توجه داشته باشید که نقاط ضرر سیاه دقیقاً شکل منحنی ضرر را ایجاد میکنند: یک کاهش شدید قبل از اینکه به تدریج کاهش یابد تا زمانی که به پایینترین نقطه روی سطح ضرر برسند.
لازم به ذکر است که مدل تقریباً هرگز حداقل دقیق را برای هر وزن و بایاس پیدا نمیکند، بلکه مقداری بسیار نزدیک به آن را پیدا میکند. همچنین لازم به ذکر است که حداقل وزنها و بایاس به معنای زیان صفر نیست، بلکه فقط مقداری است که کمترین زیان را برای آن پارامتر ایجاد میکند.
با استفاده از مقادیر وزن و بایاس که کمترین میزان ضرر را ایجاد میکنند - در این مورد وزن -5.44 و بایاس 35.94 - میتوانیم نمودار مدل را رسم کنیم تا ببینیم چقدر با دادهها برازش دارد:

شکل ۱۹. مدل با استفاده از مقادیر وزن و بایاس که کمترین تلفات را ایجاد میکنند، رسم شده است.
این بهترین مدل برای این مجموعه داده خواهد بود، زیرا هیچ مقدار وزن و بایاس دیگری مدلی با تلفات کمتر تولید نمیکند.