সংখ্যাসূচক তথ্য: বিনিং

বিনিং ( বাকেটিংও বলা হয়) হল একটি বৈশিষ্ট্য প্রকৌশল কৌশল যা বিভিন্ন সংখ্যাসূচক সাবরেঞ্জকে বিন বা বালতিতে গোষ্ঠীভুক্ত করে। অনেক ক্ষেত্রে, বিনিং সংখ্যাসূচক ডেটাকে শ্রেণীবদ্ধ ডেটাতে পরিণত করে। উদাহরণ স্বরূপ, X নামের একটি বৈশিষ্ট্য বিবেচনা করুন যার সর্বনিম্ন মান হল 15 এবং সর্বোচ্চ মান হল 425৷ বিনিং ব্যবহার করে, আপনি নিম্নলিখিত পাঁচটি বিন দিয়ে X উপস্থাপন করতে পারেন:

  • বিন 1: 15 থেকে 34
  • বিন 2: 35 থেকে 117
  • বিন 3: 118 থেকে 279 পর্যন্ত
  • বিন 4: 280 থেকে 392 পর্যন্ত
  • বিন 5: 393 থেকে 425

বিন 1 15 থেকে 34 পর্যন্ত পরিসর বিস্তৃত করে, তাই 15 থেকে 34 এর মধ্যে X এর প্রতিটি মান বিন 1-এ শেষ হয়৷ এই বিনগুলিতে প্রশিক্ষিত একটি মডেল 17 এবং 29-এর X মানগুলির সাথে আলাদাভাবে প্রতিক্রিয়া দেখাবে না কারণ উভয় মানই বিন 1-এ রয়েছে৷

বৈশিষ্ট্য ভেক্টর নিম্নরূপ পাঁচটি বিন প্রতিনিধিত্ব করে:

বিন নম্বর পরিসর বৈশিষ্ট্য ভেক্টর
1 15-34 [১.০, ০.০, ০.০, ০.০, ০.০]
2 35-117 [০.০, ১.০, ০.০, ০.০, ০.০]
3 118-279 [০.০, ০.০, ১.০, ০.০, ০.০]
4 280-392 [০.০, ০.০, ০.০, ১.০, ০.০]
5 393-425 [০.০, ০.০, ০.০, ০.০, ১.০]

যদিও X ডেটাসেটের একটি একক কলাম, বিনিং একটি মডেলকে X পাঁচটি পৃথক বৈশিষ্ট্য হিসাবে বিবেচনা করে। অতএব, মডেল প্রতিটি বিন জন্য পৃথক ওজন শেখে.

নিম্নোক্ত শর্তগুলির যেকোন একটি পূরণ হলে বিনিং স্কেলিং বা ক্লিপিংয়ের একটি ভাল বিকল্প:

  • বৈশিষ্ট্য এবং লেবেলের মধ্যে সামগ্রিক রৈখিক সম্পর্ক দুর্বল বা অস্তিত্বহীন।
  • যখন বৈশিষ্ট্য মান ক্লাস্টার করা হয়.

বিনিং বিরোধী অনুভব করতে পারে, পূর্ববর্তী উদাহরণের মডেলটি 37 এবং 115 মানগুলিকে অভিন্নভাবে বিবেচনা করে। কিন্তু যখন কোনো ফিচার লিনিয়ারের চেয়ে বেশি ক্লাম্পি দেখায়, তখন ডাটা উপস্থাপন করার জন্য বিনিং অনেক ভালো উপায়।

বিনিং উদাহরণ: ক্রেতার সংখ্যা বনাম তাপমাত্রা

ধরুন আপনি এমন একটি মডেল তৈরি করছেন যা সেই দিনের জন্য বাইরের তাপমাত্রা দ্বারা ক্রেতাদের সংখ্যার পূর্বাভাস দেয়। এখানে ক্রেতাদের সংখ্যা বনাম তাপমাত্রার একটি প্লট রয়েছে:

চিত্র 9. 45 পয়েন্টের একটি স্ক্যাটার প্লট। 45 পয়েন্ট স্বাভাবিকভাবেই তিনটি গ্রুপে বিভক্ত।
চিত্র 9. 45 পয়েন্টের একটি স্ক্যাটার প্লট।

প্লটটি দেখায়, আশ্চর্যজনক নয় যে, যখন তাপমাত্রা সবচেয়ে আরামদায়ক ছিল তখন ক্রেতার সংখ্যা সবচেয়ে বেশি ছিল।

আপনি বৈশিষ্ট্যটিকে কাঁচা মান হিসাবে উপস্থাপন করতে পারেন: ডেটাসেটে 35.0 এর তাপমাত্রা বৈশিষ্ট্য ভেক্টরে 35.0 হবে। যে সেরা ধারণা?

প্রশিক্ষণের সময়, একটি লিনিয়ার রিগ্রেশন মডেল প্রতিটি বৈশিষ্ট্যের জন্য একটি একক ওজন শেখে। অতএব, যদি তাপমাত্রাকে একটি একক বৈশিষ্ট্য হিসাবে উপস্থাপন করা হয়, তাহলে 7.0 তাপমাত্রা হিসাবে পূর্বাভাসে 35.0 তাপমাত্রার প্রভাবের পাঁচগুণ (বা এক-পঞ্চমাংশ প্রভাব) থাকবে। যাইহোক, প্লট সত্যিই লেবেল এবং বৈশিষ্ট্য মান মধ্যে কোন ধরণের রৈখিক সম্পর্ক দেখায় না।

গ্রাফটি নিম্নলিখিত সাবরেঞ্জে তিনটি ক্লাস্টারের পরামর্শ দেয়:

  • বিন 1 হল তাপমাত্রা পরিসীমা 4-11।
  • বিন 2 হল তাপমাত্রা পরিসীমা 12-26।
  • বিন 3 হল তাপমাত্রা পরিসীমা 27-36।
চিত্র 10. আগের চিত্রের মতো 45 পয়েন্টের একই স্ক্যাটার প্লট, কিন্তু বিনগুলিকে আরও সুস্পষ্ট করার জন্য উল্লম্ব রেখা সহ।
চিত্র 10. স্ক্যাটার প্লট তিনটি বিনে বিভক্ত।

মডেল প্রতিটি বিন জন্য পৃথক ওজন শেখে.

যদিও তিনটির বেশি বিন তৈরি করা সম্ভব, এমনকি প্রতিটি তাপমাত্রা পড়ার জন্য একটি পৃথক বিন, নিম্নলিখিত কারণে এটি প্রায়শই একটি খারাপ ধারণা:

  • একটি মডেল শুধুমাত্র একটি বিন এবং একটি লেবেলের মধ্যে সংযোগ শিখতে পারে যদি সেই বিনটিতে যথেষ্ট উদাহরণ থাকে৷ প্রদত্ত উদাহরণে, 3টি বিনের প্রতিটিতে কমপক্ষে 10টি উদাহরণ রয়েছে, যা প্রশিক্ষণের জন্য যথেষ্ট হতে পারে । 33টি আলাদা বিনের সাথে, কোনটিই মডেলটিকে প্রশিক্ষণ দেওয়ার জন্য যথেষ্ট উদাহরণ ধারণ করবে না।
  • প্রতিটি তাপমাত্রার জন্য একটি পৃথক বিনের ফলে 33টি পৃথক তাপমাত্রা বৈশিষ্ট্য রয়েছে। যাইহোক, আপনার সাধারণত একটি মডেলের বৈশিষ্ট্যের সংখ্যা কমিয়ে আনা উচিত।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

নিম্নোক্ত প্লটটি ফ্রিডোনিয়ার পৌরাণিক দেশটির জন্য প্রতিটি 0.2 ডিগ্রি অক্ষাংশের জন্য গড় বাড়ির মূল্য দেখায়:

চিত্র 11. প্রতি অক্ষাংশে বাড়ির মানগুলির একটি প্লট৷ সর্বনিম্ন বাড়ির মান হল প্রায় 327 এবং সর্বোচ্চ হল 712৷ অক্ষাংশগুলি 41.0 থেকে 44.8 পর্যন্ত বিস্তৃত, প্রতি 0.2 ডিগ্রী অক্ষাংশের জন্য একটি বিন্দু মধ্যম বাড়ির মানকে প্রতিনিধিত্ব করে৷ প্যাটার্নটি অত্যন্ত অনিয়মিত, তবে দুটি স্বতন্ত্র ক্লাস্টার সহ (একটি অক্ষাংশ 41.0 এবং 41.8 এর মধ্যে এবং আরেকটি ক্লাস্টার অক্ষাংশ 42.6 এবং 43.4 এর মধ্যে)।
চিত্র 11. প্রতি 0.2 ডিগ্রী অক্ষাংশে গড় বাড়ির মান।

গ্রাফিকটি বাড়ির মান এবং অক্ষাংশের মধ্যে একটি অরৈখিক প্যাটার্ন দেখায়, তাই অক্ষাংশকে এর ভাসমান-বিন্দু মান হিসাবে উপস্থাপন করা একটি মডেলকে ভাল ভবিষ্যদ্বাণী করতে সাহায্য করার সম্ভাবনা কম। সম্ভবত অক্ষাংশ bucketing একটি ভাল ধারণা হবে?

সেরা bucketing কৌশল কি হবে?
বালতি না.
বেশিরভাগ প্লটের এলোমেলোতার কারণে, এটি সম্ভবত সেরা কৌশল।
চারটি বালতি তৈরি করুন:
  • 41.0 থেকে 41.8
  • 42.0 থেকে 42.6
  • 42.8 থেকে 43.4
  • 43.6 থেকে 44.8
একটি মডেলের জন্য দ্বিতীয় বা চতুর্থ বিনের সমস্ত বাড়ির জন্য একটি একক ভবিষ্যদ্বাণীমূলক ওজন খুঁজে পাওয়া কঠিন হবে, যেখানে কয়েকটি উদাহরণ রয়েছে।
প্রতিটি ডেটা পয়েন্টের নিজস্ব বালতি করুন।
এটি শুধুমাত্র তখনই সহায়ক হবে যদি প্রশিক্ষণ সেটে প্রতিটি 0.2 ডিগ্রী অক্ষাংশের জন্য যথেষ্ট উদাহরণ থাকে। সাধারণভাবে, বাড়িগুলি শহরের কাছাকাছি ক্লাস্টার হয়ে থাকে এবং অন্যান্য জায়গায় তুলনামূলকভাবে দুষ্প্রাপ্য হয়।

কোয়ান্টাইল বাকেটিং

কোয়ান্টাইল বাকেটিং বাকেটিংয়ের সীমানা তৈরি করে যাতে প্রতিটি বালতিতে উদাহরণের সংখ্যা ঠিক বা প্রায় সমান। কোয়ান্টাইল বাকেটিং বেশিরভাগ আউটলায়ারদের লুকিয়ে রাখে।

কোয়ান্টাইল বাকেটিং যে সমস্যাটি সমাধান করে তা ব্যাখ্যা করার জন্য, নিম্নলিখিত চিত্রে দেখানো সমান ব্যবধানের বালতিগুলি বিবেচনা করুন, যেখানে দশটি বালতির প্রতিটি ঠিক 10,000 ডলারের স্প্যানকে প্রতিনিধিত্ব করে। লক্ষ্য করুন যে 0 থেকে 10,000 পর্যন্ত বালতিতে ডজন ডজন উদাহরণ রয়েছে কিন্তু 50,000 থেকে 60,000 পর্যন্ত বালতিতে মাত্র 5টি উদাহরণ রয়েছে। ফলস্বরূপ, মডেলটিতে 0 থেকে 10,000 বালতিতে প্রশিক্ষণের জন্য যথেষ্ট উদাহরণ রয়েছে কিন্তু 50,000 থেকে 60,000 বালতিতে প্রশিক্ষণের জন্য যথেষ্ট উদাহরণ নেই।

চিত্র 13. গাড়ির দামের একটি প্লট বনাম সেই দামে বিক্রি হওয়া গাড়ির সংখ্যা। গাড়ির সংখ্যা 6,000 মূল্যে সর্বোচ্চ বিক্রি হয়েছে।             6,000 মূল্যের উপরে, বিক্রি হওয়া গাড়ির সংখ্যা সাধারণত কমে যায়, খুব কম গাড়িই 40,000 থেকে 60,000 এর মধ্যে বিক্রি হয়। প্লটটি 6টি সমান আকারের বালতিতে বিভক্ত, প্রতিটির পরিসীমা 10,000। সুতরাং, প্রথম বালতিতে 0 থেকে 10,000 মূল্যের মধ্যে বিক্রি হওয়া সমস্ত গাড়ি রয়েছে, দ্বিতীয় বালতিটিতে 10,001 থেকে 20,000 মূল্যের মধ্যে বিক্রি হওয়া সমস্ত গাড়ি রয়েছে এবং আরও অনেক কিছু। প্রথম বালতিতে অনেক উদাহরণ রয়েছে; প্রতিটি পরবর্তী বালতিতে কম উদাহরণ রয়েছে।
চিত্র 13. কিছু বালতিতে প্রচুর গাড়ি থাকে; অন্যান্য বালতিতে খুব কম গাড়ি থাকে।

বিপরীতে, নিম্নলিখিত চিত্রটি প্রতিটি বালতিতে প্রায় একই সংখ্যক উদাহরণ সহ গাড়ির দামকে বিনে ভাগ করতে কোয়ান্টাইল বাকেটিং ব্যবহার করে। লক্ষ্য করুন যে কিছু বিনগুলি একটি সংকীর্ণ মূল্যের স্প্যানকে অন্তর্ভুক্ত করে যখন অন্যগুলি একটি খুব বিস্তৃত মূল্যের স্প্যানকে অন্তর্ভুক্ত করে।

চিত্র 14. পূর্ববর্তী চিত্রের মতোই, কোয়ান্টাইল বালতি ছাড়া।             যে, বালতি এখন বিভিন্ন আকার আছে। প্রথম বালতিতে 0 থেকে 4,000 পর্যন্ত বিক্রি হওয়া গাড়ি রয়েছে, দ্বিতীয় বালতিটিতে 4,001 থেকে 6,000 পর্যন্ত বিক্রি হওয়া গাড়ি রয়েছে। ষষ্ঠ বালতিতে 25,001 থেকে 60,000 পর্যন্ত বিক্রি হওয়া গাড়ি রয়েছে৷ প্রতিটি বালতিতে গাড়ির সংখ্যা এখন প্রায় একই।
চিত্র 14. কোয়ান্টাইল বাকেটিং প্রতিটি বালতিকে প্রায় একই সংখ্যক গাড়ি দেয়।