যদিও মেশিন লার্নিং কোর্সের জন্য ডেটা প্রিপারেশন এবং ফিচার ইঞ্জিনিয়ারিং সাধারণ ডেটা প্রস্তুতি কভার করে, এই কোর্সটি ক্লাস্টারিংয়ের জন্য নির্দিষ্ট প্রস্তুতির দিকে নজর দেয়।
ক্লাস্টারিং-এ, আপনি একটি সংখ্যাসূচক মানের মধ্যে সেই উদাহরণগুলির জন্য সমস্ত বৈশিষ্ট্য ডেটা একত্রিত করে দুটি উদাহরণের মধ্যে সাদৃশ্য গণনা করেন। বৈশিষ্ট্য ডেটা একত্রিত করার জন্য ডেটার একই স্কেল থাকা প্রয়োজন। এই বিভাগটি কোয়ান্টাইলগুলিকে স্বাভাবিককরণ, রূপান্তর এবং তৈরির দিকে নজর দেয় এবং আলোচনা করে যে কেন কোয়ান্টাইলগুলি কোনও ডেটা বিতরণকে রূপান্তর করার জন্য সেরা ডিফল্ট পছন্দ। একটি ডিফল্ট পছন্দ থাকা আপনাকে ডেটার বিতরণ পরিদর্শন না করেই আপনার ডেটা রূপান্তর করতে দেয়৷
ডেটা স্বাভাবিককরণ
আপনি ডেটা স্বাভাবিক করে একই স্কেলে একাধিক বৈশিষ্ট্যের জন্য ডেটা রূপান্তর করতে পারেন। বিশেষ করে, সাধারণীকরণ সবচেয়ে সাধারণ ডেটা বন্টন, গাউসিয়ান ডিস্ট্রিবিউশন প্রক্রিয়াকরণের জন্য উপযুক্ত। কোয়ান্টাইলের তুলনায়, স্বাভাবিককরণের জন্য গণনা করার জন্য উল্লেখযোগ্যভাবে কম ডেটা প্রয়োজন। নিম্নরূপ তার z-স্কোর গণনা করে ডেটা স্বাভাবিক করুন:
\[x'=(x-\mu)/\sigma\\ \begin{align*} \text{where:}\quad \mu &= \text{mean}\\ \sigma &= \text{standard deviation}\\ \end{align*} \]
আসুন স্বাভাবিককরণ সহ এবং ছাড়া উদাহরণগুলির মধ্যে মিল দেখি। চিত্র 1-এ, আপনি দেখতে পাচ্ছেন যে লাল হলুদের চেয়ে নীলের সাথে বেশি মিল রয়েছে। যাইহোক, x- এবং y-অক্ষের বৈশিষ্ট্যগুলির একই স্কেল নেই। অতএব, পর্যবেক্ষিত সাদৃশ্যটি আনস্কেল করা ডেটার একটি নিদর্শন হতে পারে। জেড-স্কোর ব্যবহার করে স্বাভাবিককরণের পরে, সমস্ত বৈশিষ্ট্য একই স্কেল আছে। এখন, আপনি দেখতে পাচ্ছেন যে লাল আসলে হলুদের সাথে আরও বেশি মিল। এইভাবে, ডেটা স্বাভাবিক করার পরে, আপনি আরও সঠিকভাবে সাদৃশ্য গণনা করতে পারেন।
সংক্ষেপে, নিম্নোক্ত যেকোনো একটি সত্য হলে স্বাভাবিককরণ প্রয়োগ করুন:
- আপনার ডেটার একটি গাউসিয়ান ডিস্ট্রিবিউশন আছে।
- কোয়ান্টাইল তৈরি করার জন্য আপনার ডেটা সেটে যথেষ্ট ডেটা নেই।
লগ ট্রান্সফর্ম ব্যবহার করে
কখনও কখনও, একটি ডেটা সেট একটি পাওয়ার আইন বন্টনের সাথে সামঞ্জস্য করে যা নিম্ন প্রান্তে ডেটা জমা করে। চিত্র 2-এ, লাল নীলের চেয়ে হলুদের কাছাকাছি।
একটি লগ ট্রান্সফর্ম ব্যবহার করে একটি পাওয়ার-আইন বিতরণ প্রক্রিয়া করুন। চিত্র 3-এ, লগ ট্রান্সফর্ম একটি মসৃণ বিতরণ তৈরি করে এবং লাল হলুদের চেয়ে নীলের কাছাকাছি।
কোয়ান্টাইল ব্যবহার করে
সাধারণীকরণ এবং লগ রূপান্তর ঠিকানা নির্দিষ্ট তথ্য বিতরণ. ডাটা যদি গাউসিয়ান বা পাওয়ার-আইন ডিস্ট্রিবিউশনের সাথে সঙ্গতিপূর্ণ না হয়? কোন তথ্য বিতরণে প্রযোজ্য একটি সাধারণ পদ্ধতি আছে?
চলুন এই বন্টন প্রিপ্রসেস করার চেষ্টা করি।
স্বজ্ঞাতভাবে, যদি দুটি উদাহরণের মধ্যে শুধুমাত্র কয়েকটি উদাহরণ থাকে, তাহলে এই দুটি উদাহরণ তাদের মান নির্বিশেষে একই রকম। বিপরীতভাবে, যদি দুটি উদাহরণের মধ্যে অনেকগুলি উদাহরণ থাকে, তবে দুটি উদাহরণ কম মিল। সুতরাং, দুটি উদাহরণের মধ্যে সাদৃশ্য কমে যায় কারণ তাদের মধ্যে উদাহরণের সংখ্যা বাড়তে থাকে।
ডেটাকে সাধারণীকরণ করা কেবল ডেটা বিতরণকে পুনরুত্পাদন করে কারণ স্বাভাবিককরণ একটি রৈখিক রূপান্তর। লগ ট্রান্সফর্ম প্রয়োগ করা আপনার অন্তর্দৃষ্টিকে প্রতিফলিত করে না যে কীভাবে সাদৃশ্য কাজ করে, যেমনটি নীচের চিত্র 5 এ দেখানো হয়েছে।
পরিবর্তে, ডেটাকে ব্যবধানে ভাগ করুন যেখানে প্রতিটি ব্যবধানে সমান সংখ্যক উদাহরণ রয়েছে। এই ব্যবধানের সীমানাকে কোয়ান্টাইল বলা হয়।
নিম্নলিখিত পদক্ষেপগুলি সম্পাদন করে আপনার ডেটা কোয়ান্টাইলে রূপান্তর করুন:
- ব্যবধানের সংখ্যা নির্ধারণ করুন।
- ব্যবধান সংজ্ঞায়িত করুন যাতে প্রতিটি ব্যবধানে সমান সংখ্যক উদাহরণ থাকে।
- প্রতিটি উদাহরণের ব্যবধানের সূচী দ্বারা প্রতিস্থাপন করুন।
- ইনডেক্সের মানগুলিকে [0,1] এ স্কেল করে অন্যান্য বৈশিষ্ট্য ডেটার মতো একই পরিসরে আনুন।
ডেটাকে কোয়ান্টাইলে রূপান্তর করার পরে, দুটি উদাহরণের মধ্যে মিল সেই দুটি উদাহরণের মধ্যে উদাহরণের সংখ্যার বিপরীতভাবে সমানুপাতিক। অথবা, গাণিতিকভাবে, যেখানে "x" ডেটাসেটের যেকোনো উদাহরণ:
- \(sim(A,B) \approx 1 − | \text{prob}[x > A] − \text{prob}[x > B] |\)
- \(sim(A,B) \approx 1 − | \text{quantile}(A) − \text{quantile}(B) |\)
কোয়ান্টাইলগুলি ডেটা রূপান্তর করার জন্য আপনার সেরা ডিফল্ট পছন্দ। যাইহোক, কোয়ান্টাইল তৈরি করতে যা অন্তর্নিহিত ডেটা বিতরণের নির্ভরযোগ্য সূচক, আপনার প্রচুর ডেটা প্রয়োজন। একটি নিয়ম হিসাবে, \(n\) কোয়ান্টাইল তৈরি করতে, আপনার কমপক্ষে \(10n\) উদাহরণ থাকতে হবে। আপনার কাছে পর্যাপ্ত ডেটা না থাকলে, স্বাভাবিককরণে লেগে থাকুন।
আপনার বোঝার পরীক্ষা করুন
নিম্নলিখিত প্রশ্নগুলির জন্য, ধরে নিন আপনার কাছে কোয়ান্টাইল তৈরি করার জন্য যথেষ্ট ডেটা আছে।
প্রশ্ন এক
- ডেটা বিতরণ গাউসিয়ান।
- ডেটা কী প্রতিনিধিত্ব করে সে সম্পর্কে আপনার অন্তর্দৃষ্টি রয়েছে, যা আপনাকে বলে যে ডেটা অরৈখিকভাবে রূপান্তরিত করা উচিত নয়। ফলস্বরূপ, আপনি কোয়ান্টাইল এড়িয়ে যান এবং পরিবর্তে স্বাভাবিককরণ বেছে নিন।
প্রশ্ন দুই
অনুপস্থিত তথ্য
যদি আপনার ডেটাসেটে একটি নির্দিষ্ট বৈশিষ্ট্যের জন্য অনুপস্থিত মান সহ উদাহরণ থাকে কিন্তু এই ধরনের উদাহরণ খুব কমই ঘটে, তাহলে আপনি এই উদাহরণগুলি সরিয়ে দিতে পারেন। যদি এই ধরনের উদাহরণগুলি প্রায়শই ঘটে থাকে, তাহলে আমাদের কাছে এই বৈশিষ্ট্যটি সম্পূর্ণভাবে মুছে ফেলার বিকল্প রয়েছে, অথবা একটি মেশিন লার্নিং মডেল ব্যবহার করে অন্যান্য উদাহরণ থেকে অনুপস্থিত মানগুলির পূর্বাভাস দেওয়ার বিকল্প রয়েছে৷ উদাহরণস্বরূপ, আপনি বিদ্যমান বৈশিষ্ট্য ডেটাতে প্রশিক্ষিত একটি রিগ্রেশন মডেল ব্যবহার করে অনুপস্থিত সংখ্যাসূচক ডেটা অনুমান করতে পারেন।