ডেটা প্রস্তুতি

এই বিভাগটি মেশিন লার্নিং ক্র্যাশ কোর্সে সংখ্যাসূচক ডেটা মডিউলের সাথে কাজ করা থেকে ক্লাস্টারিংয়ের জন্য সবচেয়ে প্রাসঙ্গিক ডেটা প্রস্তুতির পদক্ষেপগুলি পর্যালোচনা করে।

ক্লাস্টারিং-এ, আপনি একটি সংখ্যাসূচক মানের মধ্যে সেই উদাহরণগুলির জন্য সমস্ত বৈশিষ্ট্য ডেটা একত্রিত করে দুটি উদাহরণের মধ্যে সাদৃশ্য গণনা করেন। এর জন্য বৈশিষ্ট্যগুলির একই স্কেল থাকা প্রয়োজন, যা স্বাভাবিককরণ, রূপান্তর বা কোয়ান্টাইল তৈরি করে সম্পন্ন করা যেতে পারে। আপনি যদি এটির বিতরণ পরিদর্শন না করে আপনার ডেটা রূপান্তর করতে চান তবে আপনি কোয়ান্টাইলে ডিফল্ট করতে পারেন।

ডেটা স্বাভাবিককরণ

আপনি ডেটা স্বাভাবিক করে একই স্কেলে একাধিক বৈশিষ্ট্যের জন্য ডেটা রূপান্তর করতে পারেন।

জেড-স্কোর

যখনই আপনি গাউসিয়ান ডিস্ট্রিবিউশনের মতো মোটামুটি আকারের একটি ডেটাসেট দেখতে পান, তখন আপনার ডেটার জন্য z-স্কোর গণনা করা উচিত। Z-স্কোর হল মান থেকে একটি মান বিচ্যুতির সংখ্যা। ডেটাসেট কোয়ান্টাইলের জন্য যথেষ্ট বড় না হলে আপনি z-স্কোর ব্যবহার করতে পারেন।

ধাপগুলি পর্যালোচনা করতে Z-স্কোর স্কেলিং দেখুন।

এখানে জেড-স্কোর স্কেলিং করার আগে এবং পরে একটি ডেটাসেটের দুটি বৈশিষ্ট্যের একটি ভিজ্যুয়ালাইজেশন রয়েছে:

স্বাভাবিককরণের আগে এবং পরে বৈশিষ্ট্য ডেটা তুলনা করে দুটি গ্রাফ
চিত্র 1: স্বাভাবিককরণের আগে এবং পরে বৈশিষ্ট্য ডেটার তুলনা।

বাম দিকের অস্বাভাবিক ডেটাসেটে, বৈশিষ্ট্য 1 এবং বৈশিষ্ট্য 2, যথাক্রমে x এবং y অক্ষে গ্রাফ করা হয়েছে, একই স্কেল নেই। বাম দিকে, লাল উদাহরণটি হলুদের চেয়ে নীলের কাছাকাছি বা আরও বেশি অনুরূপ দেখা যাচ্ছে। ডানদিকে, z-স্কোর স্কেলিংয়ের পরে, বৈশিষ্ট্য 1 এবং বৈশিষ্ট্য 2-এর একই স্কেল রয়েছে এবং লাল উদাহরণটি হলুদ উদাহরণের কাছাকাছি দেখা যাচ্ছে। স্বাভাবিক করা ডেটাসেট পয়েন্টগুলির মধ্যে মিলের আরও সঠিক পরিমাপ দেয়।

লগ রূপান্তর

যখন একটি ডেটাসেট একটি পাওয়ার আইন বন্টনের সাথে পুরোপুরি সঙ্গতিপূর্ণ হয়, যেখানে ডেটা সর্বনিম্ন মানগুলিতে প্রচুর পরিমাণে জমা হয়, একটি লগ ট্রান্সফর্ম ব্যবহার করুন। ধাপগুলি পর্যালোচনা করতে লগ স্কেলিং দেখুন।

লগ ট্রান্সফর্মের আগে এবং পরে পাওয়ার-ল ডেটাসেটের একটি ভিজ্যুয়ালাইজেশন এখানে রয়েছে:

কম প্রান্তে বেশিরভাগ ডেটা সহ একটি বারচার্ট
চিত্র 2: একটি ক্ষমতা আইন বন্টন.
একটি গ্রাফ একটি স্বাভাবিক (গাউসিয়ান) বন্টন দেখাচ্ছে
চিত্র 3: চিত্র 2 এর একটি লগ রূপান্তর।

লগ স্কেলিং করার আগে (চিত্র 2), লাল উদাহরণটি হলুদের অনুরূপ দেখায়। লগ স্কেলিং করার পরে (চিত্র 3), লাল নীলের মতো আরও বেশি দেখায়।

কোয়ান্টাইল

ডেটাসেট যখন পরিচিত বন্টনের সাথে সামঞ্জস্যপূর্ণ না হয় তখন কোয়ান্টাইলে ডেটা বাইন করা ভাল কাজ করে। এই ডেটাসেট নিন, উদাহরণস্বরূপ:

কোনো প্রিপ্রসেসিংয়ের আগে ডেটা বিতরণ দেখানো একটি গ্রাফ
চিত্র 4: কোনো প্রিপ্রসেসিংয়ের আগে একটি অশ্রেণীবদ্ধ বিতরণ।

স্বজ্ঞাতভাবে, দুটি উদাহরণ আরও বেশি অনুরূপ যদি তাদের মধ্যে শুধুমাত্র কয়েকটি উদাহরণ পড়ে, তাদের মান নির্বিশেষে, এবং যদি অনেক উদাহরণ তাদের মধ্যে পড়ে তবে আরও ভিন্ন। উপরের ভিজ্যুয়ালাইজেশনটি লাল এবং হলুদ বা লাল এবং নীলের মধ্যে পড়ে এমন উদাহরণগুলির মোট সংখ্যা দেখা কঠিন করে তোলে।

সাদৃশ্যের এই বোঝাপড়াটি ডেটাসেটকে কোয়ান্টাইলে বিভক্ত করে, অথবা প্রতিটিতে সমান সংখ্যক উদাহরণ ধারণ করে এবং প্রতিটি উদাহরণে কোয়ান্টাইল সূচক নির্ধারণ করে বের করা যেতে পারে। ধাপগুলি পর্যালোচনা করতে কোয়ান্টাইল বাকেটিং দেখুন।

এখানে পূর্ববর্তী বন্টনটি কোয়ান্টাইলে বিভক্ত, দেখায় যে লাল হলুদ থেকে এক কোয়ান্টাইল দূরে এবং নীল থেকে তিন কোয়ান্টাইল দূরে:

কোয়ান্টাইলে রূপান্তরের পরে ডেটা দেখানো একটি গ্রাফ। লাইনটি 20টি ব্যবধান উপস্থাপন করে।]
চিত্র 5: 20 কোয়ান্টাইলে রূপান্তরের পরে চিত্র 4-এ বিতরণ।

আপনি কোয়ান্টাইলের যেকোনো সংখ্যা \(n\) বেছে নিতে পারেন। যাইহোক, কোয়ান্টাইলগুলি অন্তর্নিহিত ডেটাকে অর্থপূর্ণভাবে উপস্থাপন করতে, আপনার ডেটাসেটে কমপক্ষে\(10n\) উদাহরণ থাকতে হবে। আপনার কাছে পর্যাপ্ত ডেটা না থাকলে, পরিবর্তে স্বাভাবিক করুন।

আপনার উপলব্ধি পরীক্ষা করুন

নিম্নলিখিত প্রশ্নগুলির জন্য, ধরে নিন আপনার কাছে কোয়ান্টাইল তৈরি করার জন্য যথেষ্ট ডেটা আছে।

প্রশ্ন এক

একটি প্লট যা তিনটি ডেটা বিতরণ প্রদর্শন করে
পূর্ববর্তী গ্রাফে দেখানো ডেটা বিতরণ কীভাবে আপনার প্রক্রিয়া করা উচিত?
কোয়ান্টাইল তৈরি করুন।
সঠিক। ডিস্ট্রিবিউশনটি একটি স্ট্যান্ডার্ড ডেটা ডিস্ট্রিবিউশনের সাথে মেলে না, তাই আপনার ডিফল্ট কোয়ান্টাইল তৈরি করা উচিত।
স্বাভাবিক করা।
আপনি সাধারণত ডেটা স্বাভাবিক করেন যদি:
  • ডেটা বিতরণ গাউসিয়ান।
  • ডেটা বাস্তবে কী প্রতিনিধিত্ব করে সে সম্পর্কে আপনার কিছু অন্তর্দৃষ্টি রয়েছে যা পরামর্শ দেয় যে ডেটা অরৈখিকভাবে রূপান্তরিত করা উচিত নয়।
কোন ক্ষেত্রেই এখানে প্রযোজ্য নয়। ডেটা বিতরণ গাউসিয়ান নয় কারণ এটি প্রতিসম নয়। এবং আপনি জানেন না যে এই মানগুলি বাস্তব বিশ্বের প্রতিনিধিত্ব করে।
লগ রূপান্তর.
এটি একটি নিখুঁত পাওয়ার-আইন বিতরণ নয়, তাই লগ ট্রান্সফর্ম ব্যবহার করবেন না।

প্রশ্ন দুই

একটি প্লট যা তিনটি ডেটা বিতরণ প্রদর্শন করে
আপনি কিভাবে এই ডেটা বিতরণ প্রক্রিয়া করবেন?
স্বাভাবিক করা।
সঠিক। এটি একটি গাউসিয়ান বিতরণ।
কোয়ান্টাইল তৈরি করুন।
ত্রুটিপূর্ণ। যেহেতু এটি একটি গাউসিয়ান ডিস্ট্রিবিউশন, তাই পছন্দের রূপান্তর হল স্বাভাবিকীকরণ।
লগ রূপান্তর.
ত্রুটিপূর্ণ। পাওয়ার-ল ডিস্ট্রিবিউশনে শুধুমাত্র লগ ট্রান্সফর্ম প্রয়োগ করুন।

অনুপস্থিত তথ্য

যদি আপনার ডেটাসেটে একটি নির্দিষ্ট বৈশিষ্ট্যের জন্য অনুপস্থিত মান সহ উদাহরণ থাকে, কিন্তু সেই উদাহরণগুলি খুব কমই ঘটে, আপনি এই উদাহরণগুলি সরাতে পারেন। যদি এই উদাহরণগুলি ঘন ঘন ঘটতে থাকে, আপনি হয় সেই বৈশিষ্ট্যটি সম্পূর্ণভাবে মুছে ফেলতে পারেন, অথবা আপনি একটি মেশিন লার্নিং মডেল ব্যবহার করে অন্যান্য উদাহরণ থেকে অনুপস্থিত মানগুলির পূর্বাভাস দিতে পারেন। উদাহরণস্বরূপ, আপনি বিদ্যমান বৈশিষ্ট্য ডেটাতে প্রশিক্ষিত একটি রিগ্রেশন মডেল ব্যবহার করে অনুপস্থিত সংখ্যাসূচক ডেটা গণনা করতে পারেন।