এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

সংখ্যাসূচক তথ্য: বিনিং

বিনিং ( বাকেটিংও বলা হয়) হল একটি বৈশিষ্ট্য প্রকৌশল কৌশল যা বিভিন্ন সংখ্যাসূচক সাবরেঞ্জকে বিন বা বালতিতে গোষ্ঠীভুক্ত করে। অনেক ক্ষেত্রে, বিনিং সংখ্যাসূচক ডেটাকে শ্রেণীবদ্ধ ডেটাতে পরিণত করে। উদাহরণ স্বরূপ, X নামের একটি বৈশিষ্ট্য বিবেচনা করুন যার সর্বনিম্ন মান হল 15 এবং সর্বোচ্চ মান হল 425৷ বিনিং ব্যবহার করে, আপনি নিম্নলিখিত পাঁচটি বিন দিয়ে X উপস্থাপন করতে পারেন:

বিন 1: 15 থেকে 34
বিন 2: 35 থেকে 117
বিন 3: 118 থেকে 279 পর্যন্ত
বিন 4: 280 থেকে 392 পর্যন্ত
বিন 5: 393 থেকে 425

বিন 1 15 থেকে 34 পর্যন্ত পরিসর বিস্তৃত করে, তাই 15 থেকে 34 এর মধ্যে X এর প্রতিটি মান বিন 1-এ শেষ হয়৷ এই বিনগুলিতে প্রশিক্ষিত একটি মডেল 17 এবং 29-এর X মানগুলির সাথে আলাদাভাবে প্রতিক্রিয়া দেখাবে না কারণ উভয় মানই বিন 1-এ রয়েছে৷

বৈশিষ্ট্য ভেক্টর নিম্নরূপ পাঁচটি বিন প্রতিনিধিত্ব করে:

বিন নম্বর	পরিসর	বৈশিষ্ট্য ভেক্টর
1	15-34	[১.০, ০.০, ০.০, ০.০, ০.০]
2	35-117	[০.০, ১.০, ০.০, ০.০, ০.০]
3	118-279	[০.০, ০.০, ১.০, ০.০, ০.০]
4	280-392	[০.০, ০.০, ০.০, ১.০, ০.০]
5	393-425	[০.০, ০.০, ০.০, ০.০, ১.০]

যদিও X ডেটাসেটের একটি একক কলাম, বিনিং একটি মডেলকে X পাঁচটি পৃথক বৈশিষ্ট্য হিসাবে বিবেচনা করে। অতএব, মডেল প্রতিটি বিন জন্য পৃথক ওজন শেখে.

নিম্নোক্ত শর্তগুলির যেকোন একটি পূরণ হলে বিনিং স্কেলিং বা ক্লিপিংয়ের একটি ভাল বিকল্প:

বৈশিষ্ট্য এবং লেবেলের মধ্যে সামগ্রিক রৈখিক সম্পর্ক দুর্বল বা অস্তিত্বহীন।
যখন বৈশিষ্ট্য মান ক্লাস্টার করা হয়.

বিনিং বিরোধী অনুভব করতে পারে, পূর্ববর্তী উদাহরণের মডেলটি 37 এবং 115 মানগুলিকে অভিন্নভাবে বিবেচনা করে। কিন্তু যখন কোনো ফিচার লিনিয়ারের চেয়ে বেশি ক্লাম্পি দেখায়, তখন ডাটা উপস্থাপন করার জন্য বিনিং অনেক ভালো উপায়।

বিনিং উদাহরণ: ক্রেতার সংখ্যা বনাম তাপমাত্রা

ধরুন আপনি এমন একটি মডেল তৈরি করছেন যা সেই দিনের জন্য বাইরের তাপমাত্রা দ্বারা ক্রেতাদের সংখ্যার পূর্বাভাস দেয়। এখানে ক্রেতাদের সংখ্যা বনাম তাপমাত্রার একটি প্লট রয়েছে:

চিত্র 9. 45 পয়েন্টের একটি স্ক্যাটার প্লট। 45 পয়েন্ট স্বাভাবিকভাবেই তিনটি গ্রুপে বিভক্ত। — **চিত্র 9.** 45 পয়েন্টের একটি স্ক্যাটার প্লট।

প্লটটি দেখায়, আশ্চর্যজনক নয় যে, যখন তাপমাত্রা সবচেয়ে আরামদায়ক ছিল তখন ক্রেতার সংখ্যা সবচেয়ে বেশি ছিল।

আপনি বৈশিষ্ট্যটিকে কাঁচা মান হিসাবে উপস্থাপন করতে পারেন: ডেটাসেটে 35.0 এর তাপমাত্রা বৈশিষ্ট্য ভেক্টরে 35.0 হবে। যে সেরা ধারণা?

প্রশিক্ষণের সময়, একটি লিনিয়ার রিগ্রেশন মডেল প্রতিটি বৈশিষ্ট্যের জন্য একটি একক ওজন শেখে। অতএব, যদি তাপমাত্রাকে একটি একক বৈশিষ্ট্য হিসাবে উপস্থাপন করা হয়, তাহলে 7.0 তাপমাত্রা হিসাবে পূর্বাভাসে 35.0 তাপমাত্রার প্রভাবের পাঁচগুণ (বা এক-পঞ্চমাংশ প্রভাব) থাকবে। যাইহোক, প্লট সত্যিই লেবেল এবং বৈশিষ্ট্য মান মধ্যে কোন ধরণের রৈখিক সম্পর্ক দেখায় না।

গ্রাফটি নিম্নলিখিত সাবরেঞ্জে তিনটি ক্লাস্টারের পরামর্শ দেয়:

বিন 1 হল তাপমাত্রা পরিসীমা 4-11।
বিন 2 হল তাপমাত্রা পরিসীমা 12-26।
বিন 3 হল তাপমাত্রা পরিসীমা 27-36।

চিত্র 10. আগের চিত্রের মতো 45 পয়েন্টের একই স্ক্যাটার প্লট, কিন্তু বিনগুলিকে আরও সুস্পষ্ট করার জন্য উল্লম্ব রেখা সহ। — **চিত্র 10.** স্ক্যাটার প্লট তিনটি বিনে বিভক্ত।

মডেল প্রতিটি বিন জন্য পৃথক ওজন শেখে.

যদিও তিনটির বেশি বিন তৈরি করা সম্ভব, এমনকি প্রতিটি তাপমাত্রা পড়ার জন্য একটি পৃথক বিন, নিম্নলিখিত কারণে এটি প্রায়শই একটি খারাপ ধারণা:

একটি মডেল শুধুমাত্র একটি বিন এবং একটি লেবেলের মধ্যে সংযোগ শিখতে পারে যদি সেই বিনটিতে যথেষ্ট উদাহরণ থাকে৷ প্রদত্ত উদাহরণে, 3টি বিনের প্রতিটিতে কমপক্ষে 10টি উদাহরণ রয়েছে, যা প্রশিক্ষণের জন্য যথেষ্ট হতে পারে । 33টি আলাদা বিনের সাথে, কোনটিই মডেলটিকে প্রশিক্ষণ দেওয়ার জন্য যথেষ্ট উদাহরণ ধারণ করবে না।
প্রতিটি তাপমাত্রার জন্য একটি পৃথক বিনের ফলে 33টি পৃথক তাপমাত্রা বৈশিষ্ট্য রয়েছে। যাইহোক, আপনার সাধারণত একটি মডেলের বৈশিষ্ট্যের সংখ্যা কমিয়ে আনা উচিত।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

নিম্নোক্ত প্লটটি ফ্রিডোনিয়ার পৌরাণিক দেশটির জন্য প্রতিটি 0.2 ডিগ্রি অক্ষাংশের জন্য গড় বাড়ির মূল্য দেখায়:

চিত্র 11. প্রতি অক্ষাংশে বাড়ির মানগুলির একটি প্লট৷ সর্বনিম্ন বাড়ির মান হল প্রায় 327 এবং সর্বোচ্চ হল 712৷ অক্ষাংশগুলি 41.0 থেকে 44.8 পর্যন্ত বিস্তৃত, প্রতি 0.2 ডিগ্রী অক্ষাংশের জন্য একটি বিন্দু মধ্যম বাড়ির মানকে প্রতিনিধিত্ব করে৷ প্যাটার্নটি অত্যন্ত অনিয়মিত, তবে দুটি স্বতন্ত্র ক্লাস্টার সহ (একটি অক্ষাংশ 41.0 এবং 41.8 এর মধ্যে এবং আরেকটি ক্লাস্টার অক্ষাংশ 42.6 এবং 43.4 এর মধ্যে)। — **চিত্র 11.** প্রতি 0.2 ডিগ্রী অক্ষাংশে গড় বাড়ির মান।

গ্রাফিকটি বাড়ির মান এবং অক্ষাংশের মধ্যে একটি অরৈখিক প্যাটার্ন দেখায়, তাই অক্ষাংশকে এর ভাসমান-বিন্দু মান হিসাবে উপস্থাপন করা একটি মডেলকে ভাল ভবিষ্যদ্বাণী করতে সাহায্য করার সম্ভাবনা কম। সম্ভবত অক্ষাংশ bucketing একটি ভাল ধারণা হবে?

সেরা bucketing কৌশল কি হবে?

বালতি না.

বেশিরভাগ প্লটের এলোমেলোতার কারণে, এটি সম্ভবত সেরা কৌশল।

চারটি বালতি তৈরি করুন:

41.0 থেকে 41.8
42.0 থেকে 42.6
42.8 থেকে 43.4
43.6 থেকে 44.8

একটি মডেলের জন্য দ্বিতীয় বা চতুর্থ বিনের সমস্ত বাড়ির জন্য একটি একক ভবিষ্যদ্বাণীমূলক ওজন খুঁজে পাওয়া কঠিন হবে, যেখানে কয়েকটি উদাহরণ রয়েছে।

প্রতিটি ডেটা পয়েন্টের নিজস্ব বালতি করুন।

এটি শুধুমাত্র তখনই সহায়ক হবে যদি প্রশিক্ষণ সেটে প্রতিটি 0.2 ডিগ্রী অক্ষাংশের জন্য যথেষ্ট উদাহরণ থাকে। সাধারণভাবে, বাড়িগুলি শহরের কাছাকাছি ক্লাস্টার হয়ে থাকে এবং অন্যান্য জায়গায় তুলনামূলকভাবে দুষ্প্রাপ্য হয়।

কোয়ান্টাইল বাকেটিং

কোয়ান্টাইল বাকেটিং বাকেটিংয়ের সীমানা তৈরি করে যাতে প্রতিটি বালতিতে উদাহরণের সংখ্যা ঠিক বা প্রায় সমান। কোয়ান্টাইল বাকেটিং বেশিরভাগ আউটলায়ারদের লুকিয়ে রাখে।

কোয়ান্টাইল বাকেটিং যে সমস্যাটি সমাধান করে তা ব্যাখ্যা করার জন্য, নিম্নলিখিত চিত্রে দেখানো সমান ব্যবধানের বালতিগুলি বিবেচনা করুন, যেখানে দশটি বালতির প্রতিটি ঠিক 10,000 ডলারের স্প্যানকে প্রতিনিধিত্ব করে। লক্ষ্য করুন যে 0 থেকে 10,000 পর্যন্ত বালতিতে ডজন ডজন উদাহরণ রয়েছে কিন্তু 50,000 থেকে 60,000 পর্যন্ত বালতিতে মাত্র 5টি উদাহরণ রয়েছে। ফলস্বরূপ, মডেলটিতে 0 থেকে 10,000 বালতিতে প্রশিক্ষণের জন্য যথেষ্ট উদাহরণ রয়েছে কিন্তু 50,000 থেকে 60,000 বালতিতে প্রশিক্ষণের জন্য যথেষ্ট উদাহরণ নেই।

চিত্র 13. গাড়ির দামের একটি প্লট বনাম সেই দামে বিক্রি হওয়া গাড়ির সংখ্যা। গাড়ির সংখ্যা 6,000 মূল্যে সর্বোচ্চ বিক্রি হয়েছে। 6,000 মূল্যের উপরে, বিক্রি হওয়া গাড়ির সংখ্যা সাধারণত কমে যায়, খুব কম গাড়িই 40,000 থেকে 60,000 এর মধ্যে বিক্রি হয়। প্লটটি 6টি সমান আকারের বালতিতে বিভক্ত, প্রতিটির পরিসীমা 10,000। সুতরাং, প্রথম বালতিতে 0 থেকে 10,000 মূল্যের মধ্যে বিক্রি হওয়া সমস্ত গাড়ি রয়েছে, দ্বিতীয় বালতিটিতে 10,001 থেকে 20,000 মূল্যের মধ্যে বিক্রি হওয়া সমস্ত গাড়ি রয়েছে এবং আরও অনেক কিছু। প্রথম বালতিতে অনেক উদাহরণ রয়েছে; প্রতিটি পরবর্তী বালতিতে কম উদাহরণ রয়েছে। — **চিত্র 13.** কিছু বালতিতে প্রচুর গাড়ি থাকে; অন্যান্য বালতিতে খুব কম গাড়ি থাকে।

বিপরীতে, নিম্নলিখিত চিত্রটি প্রতিটি বালতিতে প্রায় একই সংখ্যক উদাহরণ সহ গাড়ির দামকে বিনে ভাগ করতে কোয়ান্টাইল বাকেটিং ব্যবহার করে। লক্ষ্য করুন যে কিছু বিনগুলি একটি সংকীর্ণ মূল্যের স্প্যানকে অন্তর্ভুক্ত করে যখন অন্যগুলি একটি খুব বিস্তৃত মূল্যের স্প্যানকে অন্তর্ভুক্ত করে।

সমান ব্যবধানে বাকেটিং অনেক ডেটা বিতরণের জন্য কাজ করে। তির্যক ডেটার জন্য, যাইহোক, কোয়ান্টাইল বাকেটিং চেষ্টা করুন। সমান ব্যবধান দীর্ঘ লেজে অতিরিক্ত তথ্য স্থান দেয় যখন বড় ধড়কে একটি একক বালতিতে সংকুচিত করে। কোয়ান্টাইল বালতি লম্বা লেজটিকে একটি একক বালতিতে সংকুচিত করার সময় বড় ধড়কে অতিরিক্ত তথ্য স্থান দেয়।

পূর্ববর্তী

স্বাভাবিককরণ (20 মিনিট)

পরবর্তী

স্ক্রাবিং (5 মিনিট), স্ক্রাবিং (5 মিনিট), স্ক্রাবিং (5 মিনিট)