লিনিয়ার রিগ্রেশন: হাইপারপ্যারামিটার

হাইপারপ্যারামিটার হল ভেরিয়েবল যা প্রশিক্ষণের বিভিন্ন দিক নিয়ন্ত্রণ করে। তিনটি সাধারণ হাইপারপ্যারামিটার হল:

বিপরীতে, প্যারামিটারগুলি হল ভেরিয়েবল, যেমন ওজন এবং পক্ষপাত, যা মডেলেরই অংশ। অন্য কথায়, হাইপারপ্যারামিটার হল এমন মান যা আপনি নিয়ন্ত্রণ করেন; প্যারামিটার হল সেই মান যা মডেল প্রশিক্ষণের সময় গণনা করে।

শেখার হার

শেখার হার হল আপনার সেট করা একটি ফ্লোটিং পয়েন্ট নম্বর যা মডেলটি কত দ্রুত একত্রিত হয় তা প্রভাবিত করে। শেখার হার খুব কম হলে, মডেলটি একত্রিত হতে দীর্ঘ সময় নিতে পারে। যাইহোক, যদি শেখার হার খুব বেশি হয়, মডেলটি কখনই একত্রিত হয় না, বরং ওজন এবং পক্ষপাতের চারপাশে বাউন্স করে যা ক্ষতি কমিয়ে দেয়। লক্ষ্য হল একটি শেখার হার বাছাই করা যা খুব বেশি বা খুব কম নয় যাতে মডেলটি দ্রুত একত্রিত হয়।

শেখার হার গ্রেডিয়েন্ট ডিসেন্ট প্রক্রিয়ার প্রতিটি ধাপে ওজন এবং পক্ষপাতের পরিবর্তনের মাত্রা নির্ধারণ করে। মডেলটি পরবর্তী পুনরাবৃত্তির জন্য মডেলের প্যারামিটার (ওজন এবং পক্ষপাতের মান) নির্ধারণ করতে শেখার হার দ্বারা গ্রেডিয়েন্টকে গুণ করে। গ্রেডিয়েন্ট ডিসেন্টের তৃতীয় ধাপে, নেতিবাচক ঢালের দিকে যাওয়ার জন্য "ছোট পরিমাণ" শেখার হারকে বোঝায়।

পুরানো মডেলের পরামিতি এবং নতুন মডেলের পরামিতিগুলির মধ্যে পার্থক্যটি ক্ষতি ফাংশনের ঢালের সমানুপাতিক। উদাহরণস্বরূপ, যদি ঢাল বড় হয়, মডেলটি একটি বড় পদক্ষেপ নেয়। ছোট হলে, এটি একটি ছোট পদক্ষেপ নেয়। উদাহরণস্বরূপ, যদি গ্রেডিয়েন্টের মাত্রা 2.5 হয় এবং শেখার হার 0.01 হয়, তাহলে মডেলটি 0.025 দ্বারা পরামিতি পরিবর্তন করবে।

আদর্শ শিক্ষার হার মডেলটিকে যুক্তিসঙ্গত সংখ্যক পুনরাবৃত্তির মধ্যে একত্রিত হতে সাহায্য করে। চিত্র 21-এ, ক্ষতির বক্ররেখা দেখায় যে মডেলটি একত্রিত হতে শুরু করার আগে প্রথম 20টি পুনরাবৃত্তির সময় উল্লেখযোগ্যভাবে উন্নতি করছে:

চিত্র 21. ক্ষতির বক্ররেখা যা সমতল হওয়ার আগে একটি খাড়া ঢাল দেখায়।

চিত্র 21 । ক্ষতির গ্রাফ একটি শেখার হার সহ প্রশিক্ষিত একটি মডেল দেখাচ্ছে যা দ্রুত একত্রিত হয়।

বিপরীতে, একটি শেখার হার যা খুব কম তা একত্রিত হতে অনেকগুলি পুনরাবৃত্তি নিতে পারে। চিত্র 22-এ, ক্ষতির বক্ররেখা দেখায় যে মডেলটি প্রতিটি পুনরাবৃত্তির পরে শুধুমাত্র ছোটখাটো উন্নতি করে:

চিত্র 22. ক্ষতির বক্ররেখা যা প্রায় 45-ডিগ্রি ঢাল দেখায়।

চিত্র 22 । একটি ছোট শেখার হার সহ প্রশিক্ষিত একটি মডেল দেখানো ক্ষতির গ্রাফ।

একটি শেখার হার যেটি খুব বেশি তা কখনই একত্রিত হয় না কারণ প্রতিটি পুনরাবৃত্তি হয় ক্ষতির চারপাশে বাউন্স করে বা ক্রমাগত বৃদ্ধি পায়। চিত্র 23-এ, ক্ষতির বক্ররেখা দেখায় যে মডেলটি হ্রাস পাচ্ছে এবং তারপরে প্রতিটি পুনরাবৃত্তির পরে ক্ষতি বাড়ছে, এবং চিত্র 24-এ পরবর্তী পুনরাবৃত্তিতে ক্ষতি বাড়ে:

চিত্র 23. ক্ষতির বক্ররেখা যা জ্যাগড আপ এবং ডাউন লাইন দেখায়।

চিত্র 23 । ক্ষতির গ্রাফটি খুব বড় একটি শেখার হার সহ প্রশিক্ষিত একটি মডেল দেখায়, যেখানে ক্ষতির বক্ররেখা অত্যধিকভাবে ওঠানামা করে, পুনরাবৃত্তি বৃদ্ধির সাথে সাথে উপরে এবং নিচে যায়।

চিত্র 24. ক্ষতির বক্ররেখা যা পরবর্তী পুনরাবৃত্তিতে ক্ষতি বৃদ্ধি দেখায়

চিত্র 24 । ক্ষতির গ্রাফ একটি শেখার হারের সাথে প্রশিক্ষিত একটি মডেল দেখাচ্ছে যা খুব বড়, যেখানে ক্ষতির বক্ররেখা পরবর্তী পুনরাবৃত্তিতে ব্যাপকভাবে বৃদ্ধি পায়।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

আদর্শ শেখার হার কি?
আদর্শ শেখার হার সমস্যা-নির্ভর।
প্রতিটি মডেল এবং ডেটাসেটের নিজস্ব আদর্শ শেখার হার থাকবে।
0.01
1.0

ব্যাচের আকার

ব্যাচের আকার হল একটি হাইপারপ্যারামিটার যা মডেলটি তার ওজন এবং পক্ষপাত আপডেট করার আগে প্রসেস করে এমন উদাহরণের সংখ্যা নির্দেশ করে। আপনি ভাবতে পারেন যে মডেলটির ওজন এবং পক্ষপাত আপডেট করার আগে ডেটাসেটের প্রতিটি উদাহরণের জন্য ক্ষতি গণনা করা উচিত। যাইহোক, যখন একটি ডেটাসেটে কয়েক হাজার বা এমনকি লক্ষ লক্ষ উদাহরণ থাকে, তখন সম্পূর্ণ ব্যাচ ব্যবহার করা ব্যবহারিক হয় না।

ওজন এবং পক্ষপাত আপডেট করার আগে ডেটাসেটের প্রতিটি উদাহরণ না দেখে গড়ে সঠিক গ্রেডিয়েন্ট পেতে দুটি সাধারণ কৌশল হল স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট এবং মিনি-ব্যাচ স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট :

  • স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট (SGD) : স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট প্রতি পুনরাবৃত্তিতে শুধুমাত্র একটি একক উদাহরণ (একটির ব্যাচের আকার) ব্যবহার করে। পর্যাপ্ত পুনরাবৃত্তি দেওয়া, SGD কাজ করে কিন্তু খুব কোলাহলপূর্ণ। "গোলমাল" বলতে প্রশিক্ষণের সময় পরিবর্তনগুলি বোঝায় যা পুনরাবৃত্তির সময় হ্রাসের পরিবর্তে ক্ষতি বৃদ্ধি করে। "স্টোকাস্টিক" শব্দটি নির্দেশ করে যে প্রতিটি ব্যাচ সমন্বিত একটি উদাহরণ এলোমেলোভাবে বেছে নেওয়া হয়েছে।

    নিম্নলিখিত চিত্রটিতে লক্ষ্য করুন যে মডেলটি SGD ব্যবহার করে তার ওজন এবং পক্ষপাত আপডেট করার সাথে সাথে ক্ষতি কিছুটা ওঠানামা করে, যা ক্ষতির গ্রাফে গোলমাল হতে পারে:

    চিত্র 25. খাড়া ক্ষতির বক্ররেখা যা চ্যাপ্টা হয়ে যায়, কিন্তু অনেক ছোট ওঠানামা সহ।

    চিত্র 25 । স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট (SGD) সহ প্রশিক্ষিত মডেল ক্ষতির বক্ররেখায় শব্দ দেখাচ্ছে।

    মনে রাখবেন যে স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট ব্যবহার করলে পুরো ক্ষতি বক্ররেখা জুড়ে শব্দ উৎপন্ন হতে পারে, শুধু অভিসারের কাছাকাছি নয়।

  • মিনি-ব্যাচ স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট (মিনি-ব্যাচ SGD) : মিনি-ব্যাচ স্টকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট হল ফুল-ব্যাচ এবং SGD এর মধ্যে একটি আপস। $N$ সংখ্যক ডেটা পয়েন্টের জন্য, ব্যাচের আকার 1-এর বেশি এবং $N$-এর চেয়ে কম যেকোনো সংখ্যা হতে পারে। মডেলটি এলোমেলোভাবে প্রতিটি ব্যাচে অন্তর্ভুক্ত উদাহরণগুলি বেছে নেয়, তাদের গ্রেডিয়েন্টের গড় করে এবং তারপর প্রতি পুনরাবৃত্তিতে একবার ওজন এবং পক্ষপাত আপডেট করে।

    প্রতিটি ব্যাচের উদাহরণের সংখ্যা নির্ধারণ করা ডেটাসেট এবং উপলব্ধ গণনা সংস্থানগুলির উপর নির্ভর করে। সাধারণভাবে, ছোট ব্যাচের আকারগুলি SGD-এর মতো আচরণ করে এবং বড় ব্যাচের আকারগুলি সম্পূর্ণ-ব্যাচ গ্রেডিয়েন্ট ডিসেন্টের মতো আচরণ করে।

    চিত্র 26. খাড়া ক্ষতির বক্ররেখা যা সমতল হতে শুরু করে, অভিসারের কাছাকাছি অনেক ছোট ওঠানামা।

    চিত্র 26 । মিনি-ব্যাচ SGD সহ প্রশিক্ষিত মডেল।

একটি মডেলকে প্রশিক্ষণ দেওয়ার সময়, আপনি মনে করতে পারেন যে গোলমাল একটি অবাঞ্ছিত বৈশিষ্ট্য যা বাদ দেওয়া উচিত। যাইহোক, একটি নির্দিষ্ট পরিমাণ শব্দ একটি ভাল জিনিস হতে পারে। পরবর্তী মডিউলগুলিতে, আপনি শিখবেন কীভাবে শব্দ একটি মডেলকে আরও ভালোভাবে সাধারণীকরণ করতে এবং একটি নিউরাল নেটওয়ার্কে সর্বোত্তম ওজন এবং পক্ষপাত খুঁজে পেতে সাহায্য করতে পারে।

যুগ

প্রশিক্ষণের সময়, একটি যুগ মানে যে মডেলটি প্রশিক্ষণ সেটের প্রতিটি উদাহরণ একবার প্রক্রিয়া করেছে। উদাহরণস্বরূপ, 1,000টি উদাহরণ সহ একটি প্রশিক্ষণ সেট এবং 100টি উদাহরণের একটি মিনি-ব্যাচ আকার দেওয়া হলে, এটি একটি যুগ সম্পূর্ণ করতে মডেলটি 10টি পুনরাবৃত্তি করবে৷

প্রশিক্ষণের জন্য সাধারণত অনেক যুগের প্রয়োজন হয়। অর্থাৎ, সিস্টেমটিকে প্রশিক্ষণের প্রতিটি উদাহরণ একাধিকবার প্রক্রিয়া করতে হবে।

যুগের সংখ্যা হল একটি হাইপারপ্যারামিটার যা আপনি মডেলটি প্রশিক্ষণ শুরু করার আগে সেট করেন। অনেক ক্ষেত্রে, মডেলটিকে একত্রিত হতে কতগুলি যুগ লাগে তা নিয়ে আপনাকে পরীক্ষা করতে হবে। সাধারণভাবে, আরও বেশি যুগ একটি ভাল মডেল তৈরি করে, তবে প্রশিক্ষণের জন্য আরও সময় নেয়।

চিত্র 27. একটি পূর্ণ ব্যাচ হল সমগ্র ডেটাসেট, একটি মিনি ব্যাচ হল ডেটাসেটের একটি উপসেট এবং একটি যুগ হল দশটি মিনি ব্যাচের মাধ্যমে একটি সম্পূর্ণ পাস৷

চিত্র 27 । সম্পূর্ণ ব্যাচ বনাম মিনি ব্যাচ।

নিম্নলিখিত সারণীটি বর্ণনা করে যে কিভাবে ব্যাচের আকার এবং যুগগুলি একটি মডেল তার পরামিতিগুলিকে কতবার আপডেট করে তার সাথে সম্পর্কিত।

ব্যাচ টাইপ যখন ওজন এবং পক্ষপাত আপডেট হয়
সম্পূর্ণ ব্যাচ মডেলটি ডেটাসেটের সমস্ত উদাহরণ দেখার পরে। উদাহরণস্বরূপ, যদি একটি ডেটাসেটে 1,000টি উদাহরণ থাকে এবং মডেলটি 20টি যুগের জন্য ট্রেন করে, মডেলটি প্রতি যুগে একবার ওজন এবং পক্ষপাত 20 বার আপডেট করে।
স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট মডেল ডেটাসেট থেকে একটি একক উদাহরণ দেখায় পরে. উদাহরণস্বরূপ, যদি একটি ডেটাসেটে 20টি যুগের জন্য 1,000টি উদাহরণ এবং ট্রেন থাকে, মডেলটি 20,000 বার ওজন এবং পক্ষপাত আপডেট করে।
মিনি-ব্যাচ স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট মডেল প্রতিটি ব্যাচে উদাহরণ দেখায় পরে. উদাহরণস্বরূপ, যদি একটি ডেটাসেটে 1,000টি উদাহরণ থাকে এবং ব্যাচের আকার 100টি হয় এবং মডেলটি 20টি যুগের জন্য ট্রেন করে, মডেলটি ওজন এবং পক্ষপাত 200 বার আপডেট করে।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

1. মিনি-ব্যাচ SGD ব্যবহার করার সময় সর্বোত্তম ব্যাচের আকার কী?
এটা নির্ভর করে
আদর্শ ব্যাচের আকার ডেটাসেট এবং উপলব্ধ গণনা সংস্থানগুলির উপর নির্ভর করে
প্রতি ব্যাচে 10টি উদাহরণ
প্রতি ব্যাচে 100টি উদাহরণ
2. নিচের কোন বিবৃতিটি সত্য?
বৃহত্তর ব্যাচ অনেক আউটলিয়ার সহ ডেটার জন্য অনুপযুক্ত।
এই বিবৃতি মিথ্যা. একসাথে আরও গ্রেডিয়েন্ট গড় করে, বৃহত্তর ব্যাচের আকার ডেটাতে আউটলায়ার থাকার নেতিবাচক প্রভাব কমাতে সাহায্য করতে পারে।
শেখার হার দ্বিগুণ করা প্রশিক্ষণকে ধীর করে দিতে পারে।
এই বিবৃতি সত্য. শেখার হার দ্বিগুণ করার ফলে একটি শেখার হার হতে পারে যা খুব বড়, এবং সেই কারণে ওজনগুলিকে "চারদিকে বাউন্স" করে, একত্রিত হওয়ার জন্য প্রয়োজনীয় সময়ের পরিমাণ বাড়িয়ে দেয়। সর্বদা হিসাবে, সেরা হাইপারপ্যারামিটারগুলি আপনার ডেটাসেট এবং উপলব্ধ গণনা সংস্থানগুলির উপর নির্ভর করে।