مدتهاست که مشخص شده است که جیرجیرکها (یک گونه حشره) در روزهای گرمتر بیشتر از روزهای خنکتر جیرجیرکها جیرجیر میزنند. برای چندین دهه، دانشمندان حرفهای و آماتور دادههای مربوط به صدای جیر جیر در دقیقه و دما را فهرستبندی کردهاند. به عنوان یک هدیه تولد، خاله روث شما پایگاه داده کریکت خود را به شما می دهد و از شما می خواهد که مدلی برای پیش بینی این رابطه یاد بگیرید. با استفاده از این داده ها، می خواهید این رابطه را بررسی کنید.
ابتدا داده های خود را با ترسیم آن بررسی کنید:
شکل 1. صدای جیر جیر در دقیقه در مقابل دما بر حسب سانتیگراد.
همانطور که انتظار می رفت، نمودار افزایش دما را با تعداد صدای جیر جیر نشان می دهد. آیا این رابطه بین صدا و دما خطی است؟ بله، برای تقریب این رابطه می توانید یک خط مستقیم مانند زیر بکشید:
شکل 2. یک رابطه خطی.
درست است، خط از هر نقطه عبور نمی کند، اما این خط به وضوح رابطه بین صدای جیر جیر و دما را نشان می دهد. با استفاده از معادله یک خط، می توانید این رابطه را به صورت زیر بنویسید:
جایی که:
- \(y\) دما بر حسب سانتیگراد است—مقداری که ما سعی در پیش بینی آن داریم.
- \(m\) شیب خط است.
- \(x\) تعداد صدای جیک در دقیقه است—مقدار ویژگی ورودی ما.
- \(b\) نقطه ی y است.
طبق قرارداد در یادگیری ماشین، معادله یک مدل را کمی متفاوت می نویسید:
جایی که:
- \(y'\) برچسب پیش بینی شده (یک خروجی دلخواه) است.
- \(b\) سوگیری است (y-intercept)، که گاهی اوقات به عنوان \(w_0\)نامیده می شود.
- \(w_1\) وزن ویژگی 1 است. وزن همان مفهوم "شیب" \(m\) در معادله سنتی یک خط است.
- \(x_1\) یک ویژگی است (یک ورودی شناخته شده).
برای استنباط (پیشبینی) دمای \(y'\) برای یک مقدار جدید chirps-per-minute \(x_1\)، فقط مقدار \(x_1\) را در این مدل جایگزین کنید.
اگرچه این مدل تنها از یک ویژگی استفاده می کند، یک مدل پیچیده تر ممکن است به چندین ویژگی متکی باشد که هر کدام وزن جداگانه ای دارند (\(w_1\)، \(w_2\)، و غیره). به عنوان مثال، مدلی که بر سه ویژگی متکی است ممکن است به صورت زیر باشد: