ব্যাকপ্রপাগেশন অ্যালগরিদম
ব্যাকপ্রপাগেশন অ্যালগরিদম বড় নিউরাল নেটওয়ার্ককে দ্রুত প্রশিক্ষণের জন্য অপরিহার্য। এই নিবন্ধটি ব্যাখ্যা করে কিভাবে অ্যালগরিদম কাজ করে।
অনুগ্রহ করে নিচে স্ক্রোল করুন... সহজ নিউরাল নেটওয়ার্ক
ডানদিকে, আপনি একটি ইনপুট, একটি আউটপুট নোড এবং দুটি নোডের দুটি লুকানো স্তর সহ একটি নিউরাল নেটওয়ার্ক দেখতে পাচ্ছেন।
প্রতিবেশী স্তরের নোডগুলি wijওজনের সাথে সংযুক্ত থাকে, যা নেটওয়ার্ক পরামিতি। সক্রিয়করণ ফাংশন
প্রতিটি নোডের মোট ইনপুট রয়েছে x, একটি অ্যাক্টিভেশন ফাংশন f(x)এবং একটি আউটপুট y=f(x)। f(x) একটি নন-লিনিয়ার ফাংশন হতে হবে, অন্যথায় নিউরাল নেটওয়ার্ক শুধুমাত্র লিনিয়ার মডেল শিখতে সক্ষম হবে।
একটি সাধারণভাবে ব্যবহৃত অ্যাক্টিভেশন ফাংশন হল সিগময়েড ফাংশন : f(x)=11+e−x। ত্রুটি ফাংশন
লক্ষ্য হল ডেটা থেকে স্বয়ংক্রিয়ভাবে নেটওয়ার্কের ওজন শেখা যাতে ভবিষ্যদ্বাণী করা আউটপুট youtputসমস্ত ইনপুট xinputplaceholder10 এর জন্য লক্ষ্য ytarget এর কাছাকাছি থাকে।
আমরা লক্ষ্য থেকে কতটা দূরে তা পরিমাপ করতে, আমরা একটি ত্রুটি ফাংশন Eব্যবহার করি। একটি সাধারণভাবে ব্যবহৃত ত্রুটি ফাংশন হল E(youtput,ytarget)=12(youtput−ytarget)2। ফরোয়ার্ড প্রচার
আমরা একটি ইনপুট উদাহরণ (xinput,ytarget) গ্রহণ করে এবং নেটওয়ার্কের ইনপুট স্তর আপডেট করে শুরু করি।
সামঞ্জস্যের জন্য, আমরা ইনপুটটিকে অন্য যে কোনো নোডের মতো মনে করি কিন্তু কোনো অ্যাক্টিভেশন ফাংশন ছাড়াই তাই এর আউটপুট তার ইনপুটের সমান, যেমন y1=xinput। ফরোয়ার্ড প্রচার
এখন, আমরা প্রথম লুকানো স্তর আপডেট করি। আমরা পূর্ববর্তী স্তরের নোডগুলির আউটপুট y গ্রহণ করি এবং পরবর্তী স্তরে নোডগুলির x ইনপুট গণনা করতে ওজন ব্যবহার করি। ফরোয়ার্ড প্রচার
তারপরে আমরা প্রথম লুকানো স্তরে নোডগুলির আউটপুট আপডেট করি। এর জন্য আমরা অ্যাক্টিভেশন ফাংশন ব্যবহার করি, f(x)।ফরোয়ার্ড প্রচার
এই 2টি সূত্র ব্যবহার করে আমরা বাকি নেটওয়ার্কের জন্য প্রচার করি এবং নেটওয়ার্কের চূড়ান্ত আউটপুট পাই। ত্রুটি ডেরিভেটিভ
ব্যাকপ্রোপগেশন অ্যালগরিদম নির্দিষ্ট উদাহরণের জন্য পছন্দসই আউটপুটের সাথে পূর্বাভাসিত আউটপুট তুলনা করার পরে নেটওয়ার্কের প্রতিটি ওজন কতটা আপডেট করতে হবে তা নির্ধারণ করে। এর জন্য, প্রতিটি ওজন dEdwijএর ক্ষেত্রে ত্রুটি কীভাবে পরিবর্তিত হয় তা আমাদের গণনা করতে হবে।
একবার আমাদের ত্রুটি ডেরিভেটিভস হয়ে গেলে, আমরা একটি সহজ আপডেট নিয়ম ব্যবহার করে ওজন আপডেট করতে পারি: যেখানে α হল একটি ইতিবাচক ধ্রুবক, যা শেখার হার হিসাবে উল্লেখ করা হয়, যা আমাদের অভিজ্ঞতাগতভাবে সূক্ষ্ম-টিউন করতে হবে।
[দ্রষ্টব্য] আপডেটের নিয়মটি খুবই সহজ: ওজন বাড়লে যদি ত্রুটি কমে যায় (dEdwij<0), তাহলে ওজন বাড়ান, অন্যথায় ওজন বাড়লে ত্রুটি বেড়ে গেলে (dEdwij>0) ওজন কমিয়ে দিন .
অতিরিক্ত ডেরিভেটিভস
dEdwijগণনা করতে সাহায্য করার জন্য, আমরা অতিরিক্ত প্রতিটি নোডের জন্য আরও দুটি ডেরিভেটিভ সঞ্চয় করি: ত্রুটি কীভাবে পরিবর্তিত হয়:- নোডের মোট ইনপুট dEdx এবং
- নোড dEdyএর আউটপুট।
পিছনে প্রচার
এরর ডেরিভেটিভের ব্যাকপ্রোপগেটিং শুরু করা যাক। যেহেতু আমাদের কাছে এই নির্দিষ্ট ইনপুট উদাহরণের পূর্বাভাসিত আউটপুট রয়েছে, তাই আমরা গণনা করতে পারি যে আউটপুটের সাথে ত্রুটিটি কীভাবে পরিবর্তিত হয়। আমাদের ত্রুটি ফাংশন E=12(youtput−ytarget)2 দেওয়া আমাদের আছে: পিছনে প্রচার
এখন আমাদের কাছে dEdy আছে আমরা চেইন নিয়ম ব্যবহার করে dEdx পেতে পারি। যেখানে ddxf(x)=f(x)(1−f(x)) যখন f(x) হল সিগমায়েড অ্যাক্টিভেশন ফাংশন। পিছনে প্রচার
যত তাড়াতাড়ি আমরা একটি নোডের মোট ইনপুট সংক্রান্ত ত্রুটি ডেরিভেটিভ আছে, আমরা সেই নোডের মধ্যে আসা ওজনের সাপেক্ষে ত্রুটি ডেরিভেটিভ পেতে পারি। পিছনে প্রচার
এবং চেইন নিয়ম ব্যবহার করে, আমরা আগের লেয়ার থেকে dEdy ও পেতে পারি। আমরা একটি পূর্ণ বৃত্ত তৈরি করেছি। পিছনে প্রচার
যতক্ষণ না আমরা সমস্ত ত্রুটি ডেরিভেটিভ গণনা করি ততক্ষণ পূর্ববর্তী তিনটি সূত্রের পুনরাবৃত্তি করতে বাকি আছে।