লজিস্টিক রিগ্রেশন মডেল দুটি মূল পার্থক্য সহ লিনিয়ার রিগ্রেশন মডেলের মতো একই প্রক্রিয়া ব্যবহার করে প্রশিক্ষিত হয়:
- লজিস্টিক রিগ্রেশন মডেল স্কয়ারড লসের পরিবর্তে লস ফাংশন হিসাবে লগ লস ব্যবহার করে।
- ওভারফিটিং প্রতিরোধ করার জন্য নিয়মিতকরণ প্রয়োগ করা গুরুত্বপূর্ণ।
নিম্নলিখিত বিভাগগুলি এই দুটি বিবেচনাকে আরও গভীরভাবে আলোচনা করে।
লগ ক্ষতি
লিনিয়ার রিগ্রেশন মডিউলে , আপনি ক্ষতি ফাংশন হিসাবে বর্গক্ষেত্র ক্ষতি (যাকে L 2 ক্ষতিও বলা হয়) ব্যবহার করেছেন। বর্গক্ষেত্র ক্ষতি একটি রৈখিক মডেলের জন্য ভাল কাজ করে যেখানে আউটপুট মান পরিবর্তনের হার স্থির থাকে। উদাহরণস্বরূপ, লিনিয়ার মডেল $y' = b + 3x_1$ দেওয়া হয়েছে, প্রতিবার যখন আপনি ইনপুট মান $x_1$ 1 দ্বারা বৃদ্ধি করবেন, আউটপুট মান $y'$ 3 দ্বারা বৃদ্ধি পাবে।
যাইহোক, লজিস্টিক রিগ্রেশন মডেলের পরিবর্তনের হার ধ্রুবক নয় । আপনি একটি সম্ভাব্যতা গণনা করতে দেখেছেন, সিগময়েড বক্ররেখাটি রৈখিক না হয়ে s-আকৃতির। যখন লগ-অডস ($z$) মান 0-এর কাছাকাছি হয়, তখন $z$-এ ছোট বৃদ্ধির ফলে $z$ একটি বড় ধনাত্মক বা ঋণাত্মক সংখ্যার তুলনায় $y$-এ অনেক বড় পরিবর্তন হয়। নিম্নলিখিত সারণীটি 5 থেকে 10 পর্যন্ত ইনপুট মানের জন্য সিগমায়েড ফাংশনের আউটপুট দেখায়, সেইসাথে ফলাফলের পার্থক্যগুলি ক্যাপচার করার জন্য প্রয়োজনীয় সংশ্লিষ্ট নির্ভুলতা দেখায়।
ইনপুট | লজিস্টিক আউটপুট | নির্ভুলতার প্রয়োজনীয় সংখ্যা |
---|---|---|
5 | 0.993 | 3 |
6 | 0.997 | 3 |
7 | 0.999 | 3 |
8 | 0.9997 | 4 |
9 | 0.9999 | 4 |
10 | 0.99998 | 5 |
আপনি যদি সিগমায়েড ফাংশনের ত্রুটিগুলি গণনা করতে বর্গক্ষেত্র ক্ষতি ব্যবহার করেন, যেহেতু আউটপুট 0
এবং 1
এর কাছাকাছি এবং কাছাকাছি এসেছে, তাহলে এই মানগুলি ট্র্যাক করার জন্য প্রয়োজনীয় নির্ভুলতা সংরক্ষণ করতে আপনার আরও মেমরির প্রয়োজন হবে।
পরিবর্তে, লজিস্টিক রিগ্রেশনের লস ফাংশন হল লগ লস । লগ লস সমীকরণ শুধুমাত্র ডেটা থেকে ভবিষ্যদ্বাণী পর্যন্ত দূরত্বের পরিবর্তে পরিবর্তনের মাত্রার লগারিদম প্রদান করে। লগ ক্ষতি নিম্নরূপ গণনা করা হয়:
\(\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')\)