বিনিং ( বাকেটিংও বলা হয়) হল একটি বৈশিষ্ট্য প্রকৌশল কৌশল যা বিভিন্ন সংখ্যাসূচক সাবরেঞ্জকে বিন বা বালতিতে গোষ্ঠীভুক্ত করে। অনেক ক্ষেত্রে, বিনিং সংখ্যাসূচক ডেটাকে শ্রেণীবদ্ধ ডেটাতে পরিণত করে। উদাহরণ স্বরূপ, X
নামের একটি বৈশিষ্ট্য বিবেচনা করুন যার সর্বনিম্ন মান হল 15 এবং সর্বোচ্চ মান হল 425৷ বিনিং ব্যবহার করে, আপনি নিম্নলিখিত পাঁচটি বিন দিয়ে X
উপস্থাপন করতে পারেন:
- বিন 1: 15 থেকে 34
- বিন 2: 35 থেকে 117
- বিন 3: 118 থেকে 279 পর্যন্ত
- বিন 4: 280 থেকে 392 পর্যন্ত
- বিন 5: 393 থেকে 425
বিন 1 15 থেকে 34 পর্যন্ত পরিসর বিস্তৃত করে, তাই 15 থেকে 34 এর মধ্যে X
এর প্রতিটি মান বিন 1-এ শেষ হয়৷ এই বিনগুলিতে প্রশিক্ষিত একটি মডেল 17 এবং 29-এর X
মানগুলির সাথে আলাদাভাবে প্রতিক্রিয়া দেখাবে না কারণ উভয় মানই বিন 1-এ রয়েছে৷
বৈশিষ্ট্য ভেক্টর নিম্নরূপ পাঁচটি বিন প্রতিনিধিত্ব করে:
বিন নম্বর | পরিসর | বৈশিষ্ট্য ভেক্টর |
---|---|---|
1 | 15-34 | [১.০, ০.০, ০.০, ০.০, ০.০] |
2 | 35-117 | [০.০, ১.০, ০.০, ০.০, ০.০] |
3 | 118-279 | [০.০, ০.০, ১.০, ০.০, ০.০] |
4 | 280-392 | [০.০, ০.০, ০.০, ১.০, ০.০] |
5 | 393-425 | [০.০, ০.০, ০.০, ০.০, ১.০] |
যদিও X
ডেটাসেটের একটি একক কলাম, বিনিং একটি মডেলকে X
পাঁচটি পৃথক বৈশিষ্ট্য হিসাবে বিবেচনা করে। অতএব, মডেল প্রতিটি বিন জন্য পৃথক ওজন শেখে.
নিম্নোক্ত শর্তগুলির যেকোন একটি পূরণ হলে বিনিং স্কেলিং বা ক্লিপিংয়ের একটি ভাল বিকল্প:
- বৈশিষ্ট্য এবং লেবেলের মধ্যে সামগ্রিক রৈখিক সম্পর্ক দুর্বল বা অস্তিত্বহীন।
- যখন বৈশিষ্ট্য মান ক্লাস্টার করা হয়.
বিনিং বিরোধী অনুভব করতে পারে, পূর্ববর্তী উদাহরণের মডেলটি 37 এবং 115 মানগুলিকে অভিন্নভাবে বিবেচনা করে। কিন্তু যখন কোনো ফিচার লিনিয়ারের চেয়ে বেশি ক্লাম্পি দেখায়, তখন ডাটা উপস্থাপন করার জন্য বিনিং অনেক ভালো উপায়।
বিনিং উদাহরণ: ক্রেতার সংখ্যা বনাম তাপমাত্রা
ধরুন আপনি এমন একটি মডেল তৈরি করছেন যা সেই দিনের জন্য বাইরের তাপমাত্রা দ্বারা ক্রেতাদের সংখ্যার পূর্বাভাস দেয়। এখানে ক্রেতাদের সংখ্যা বনাম তাপমাত্রার একটি প্লট রয়েছে:
প্লটটি দেখায়, আশ্চর্যজনক নয় যে, যখন তাপমাত্রা সবচেয়ে আরামদায়ক ছিল তখন ক্রেতার সংখ্যা সবচেয়ে বেশি ছিল।
আপনি বৈশিষ্ট্যটিকে কাঁচা মান হিসাবে উপস্থাপন করতে পারেন: ডেটাসেটে 35.0 এর তাপমাত্রা বৈশিষ্ট্য ভেক্টরে 35.0 হবে। যে সেরা ধারণা?
প্রশিক্ষণের সময়, একটি লিনিয়ার রিগ্রেশন মডেল প্রতিটি বৈশিষ্ট্যের জন্য একটি একক ওজন শেখে। অতএব, যদি তাপমাত্রাকে একটি একক বৈশিষ্ট্য হিসাবে উপস্থাপন করা হয়, তাহলে 7.0 তাপমাত্রা হিসাবে পূর্বাভাসে 35.0 তাপমাত্রার প্রভাবের পাঁচগুণ (বা এক-পঞ্চমাংশ প্রভাব) থাকবে। যাইহোক, প্লট সত্যিই লেবেল এবং বৈশিষ্ট্য মান মধ্যে কোন ধরণের রৈখিক সম্পর্ক দেখায় না।
গ্রাফটি নিম্নলিখিত সাবরেঞ্জে তিনটি ক্লাস্টারের পরামর্শ দেয়:
- বিন 1 হল তাপমাত্রা পরিসীমা 4-11।
- বিন 2 হল তাপমাত্রা পরিসীমা 12-26।
- বিন 3 হল তাপমাত্রা পরিসীমা 27-36।
মডেল প্রতিটি বিন জন্য পৃথক ওজন শেখে.
যদিও তিনটির বেশি বিন তৈরি করা সম্ভব, এমনকি প্রতিটি তাপমাত্রা পড়ার জন্য একটি পৃথক বিন, নিম্নলিখিত কারণে এটি প্রায়শই একটি খারাপ ধারণা:
- একটি মডেল শুধুমাত্র একটি বিন এবং একটি লেবেলের মধ্যে সংযোগ শিখতে পারে যদি সেই বিনটিতে যথেষ্ট উদাহরণ থাকে৷ প্রদত্ত উদাহরণে, 3টি বিনের প্রতিটিতে কমপক্ষে 10টি উদাহরণ রয়েছে, যা প্রশিক্ষণের জন্য যথেষ্ট হতে পারে । 33টি আলাদা বিনের সাথে, কোনটিই মডেলটিকে প্রশিক্ষণ দেওয়ার জন্য যথেষ্ট উদাহরণ ধারণ করবে না।
- প্রতিটি তাপমাত্রার জন্য একটি পৃথক বিনের ফলে 33টি পৃথক তাপমাত্রা বৈশিষ্ট্য রয়েছে। যাইহোক, আপনার সাধারণত একটি মডেলের বৈশিষ্ট্যের সংখ্যা কমিয়ে আনা উচিত।
অনুশীলন: আপনার বোঝার পরীক্ষা করুন
নিম্নোক্ত প্লটটি ফ্রিডোনিয়ার পৌরাণিক দেশটির জন্য প্রতিটি 0.2 ডিগ্রি অক্ষাংশের জন্য গড় বাড়ির মূল্য দেখায়:
গ্রাফিকটি বাড়ির মান এবং অক্ষাংশের মধ্যে একটি অরৈখিক প্যাটার্ন দেখায়, তাই অক্ষাংশকে এর ভাসমান-বিন্দু মান হিসাবে উপস্থাপন করা একটি মডেলকে ভাল ভবিষ্যদ্বাণী করতে সাহায্য করার সম্ভাবনা কম। সম্ভবত অক্ষাংশ bucketing একটি ভাল ধারণা হবে?
- 41.0 থেকে 41.8
- 42.0 থেকে 42.6
- 42.8 থেকে 43.4
- 43.6 থেকে 44.8
কোয়ান্টাইল বাকেটিং
কোয়ান্টাইল বাকেটিং বাকেটিংয়ের সীমানা তৈরি করে যাতে প্রতিটি বালতিতে উদাহরণের সংখ্যা ঠিক বা প্রায় সমান। কোয়ান্টাইল বাকেটিং বেশিরভাগ আউটলায়ারদের লুকিয়ে রাখে।
কোয়ান্টাইল বাকেটিং যে সমস্যাটি সমাধান করে তা ব্যাখ্যা করার জন্য, নিম্নলিখিত চিত্রে দেখানো সমান ব্যবধানের বালতিগুলি বিবেচনা করুন, যেখানে দশটি বালতির প্রতিটি ঠিক 10,000 ডলারের স্প্যানকে প্রতিনিধিত্ব করে। লক্ষ্য করুন যে 0 থেকে 10,000 পর্যন্ত বালতিতে ডজন ডজন উদাহরণ রয়েছে কিন্তু 50,000 থেকে 60,000 পর্যন্ত বালতিতে মাত্র 5টি উদাহরণ রয়েছে। ফলস্বরূপ, মডেলটিতে 0 থেকে 10,000 বালতিতে প্রশিক্ষণের জন্য যথেষ্ট উদাহরণ রয়েছে কিন্তু 50,000 থেকে 60,000 বালতিতে প্রশিক্ষণের জন্য যথেষ্ট উদাহরণ নেই।
বিপরীতে, নিম্নলিখিত চিত্রটি প্রতিটি বালতিতে প্রায় একই সংখ্যক উদাহরণ সহ গাড়ির দামকে বিনে ভাগ করতে কোয়ান্টাইল বাকেটিং ব্যবহার করে। লক্ষ্য করুন যে কিছু বিনগুলি একটি সংকীর্ণ মূল্যের স্প্যানকে অন্তর্ভুক্ত করে যখন অন্যগুলি একটি খুব বিস্তৃত মূল্যের স্প্যানকে অন্তর্ভুক্ত করে।