সংখ্যাসূচক তথ্য: স্বাভাবিককরণ

পরিসংখ্যানগত এবং ভিজ্যুয়ালাইজেশন কৌশলগুলির মাধ্যমে আপনার ডেটা পরীক্ষা করার পরে, আপনার ডেটাকে এমনভাবে রূপান্তরিত করা উচিত যা আপনার মডেলকে আরও কার্যকরভাবে প্রশিক্ষণ দিতে সহায়তা করবে। স্বাভাবিককরণের লক্ষ্য হল বৈশিষ্ট্যগুলিকে একই স্কেলে রূপান্তর করা। উদাহরণস্বরূপ, নিম্নলিখিত দুটি বৈশিষ্ট্য বিবেচনা করুন:

  • ফিচার X 154 থেকে 24,917,482 পর্যন্ত বিস্তৃত।
  • বৈশিষ্ট্য Y 5 থেকে 22 পর্যন্ত বিস্তৃত।

এই দুটি বৈশিষ্ট্য খুব ভিন্ন পরিসীমা বিস্তৃত. সাধারণীকরণ X এবং Y ম্যানিপুলেট করতে পারে যাতে তারা একটি অনুরূপ পরিসর বিস্তৃত করে, সম্ভবত 0 থেকে 1।

স্বাভাবিককরণ নিম্নলিখিত সুবিধা প্রদান করে:

  • প্রশিক্ষণের সময় মডেলদের আরও দ্রুত একত্রিত হতে সাহায্য করে। যখন বিভিন্ন বৈশিষ্ট্যের বিভিন্ন রেঞ্জ থাকে, তখন গ্রেডিয়েন্ট ডিসেন্ট "বাউন্স" এবং ধীর অভিসারণ করতে পারে। এটি বলেছে, অ্যাডাগ্রাড এবং অ্যাডামের মতো আরও উন্নত অপ্টিমাইজাররা সময়ের সাথে কার্যকর শেখার হার পরিবর্তন করে এই সমস্যা থেকে রক্ষা করে।
  • মডেলগুলিকে আরও ভাল ভবিষ্যদ্বাণী করতে সাহায্য করে৷ যখন বিভিন্ন বৈশিষ্ট্যের বিভিন্ন ব্যাপ্তি থাকে, তখন ফলস্বরূপ মডেলটি কিছুটা কম দরকারী ভবিষ্যদ্বাণী করতে পারে।
  • বৈশিষ্ট্যের মান খুব বেশি হলে "NaN ফাঁদ" এড়াতে সাহায্য করে। NaN একটি সংখ্যার জন্য একটি সংক্ষিপ্ত রূপ। যখন একটি মডেলের একটি মান ফ্লোটিং-পয়েন্ট নির্ভুলতা সীমা অতিক্রম করে, সিস্টেমটি একটি সংখ্যার পরিবর্তে মানটিকে NaN এ সেট করে। মডেলের একটি নম্বর যখন NaN হয়ে যায়, মডেলের অন্যান্য সংখ্যাও শেষ পর্যন্ত NaN হয়ে যায়।
  • মডেলটিকে প্রতিটি বৈশিষ্ট্যের জন্য উপযুক্ত ওজন শিখতে সাহায্য করে। বৈশিষ্ট্য স্কেলিং ছাড়া, মডেলটি বিস্তৃত পরিসরের বৈশিষ্ট্যগুলিতে খুব বেশি মনোযোগ দেয় এবং সংকীর্ণ পরিসরের বৈশিষ্ট্যগুলিতে যথেষ্ট মনোযোগ দেয় না।

আমরা সাংখ্যিক বৈশিষ্ট্যগুলিকে স্বাভাবিক করার পরামর্শ দিই যা স্বতন্ত্রভাবে বিভিন্ন ব্যাপ্তি (উদাহরণস্বরূপ, বয়স এবং আয়) কভার করে। আমরা city population.

নিম্নলিখিত দুটি বৈশিষ্ট্য বিবেচনা করুন:

  • বৈশিষ্ট্য A এর সর্বনিম্ন মান হল -0.5 এবং সর্বোচ্চ হল +0.5৷
  • বৈশিষ্ট্য B এর সর্বনিম্ন মান হল -5.0 এবং সর্বোচ্চ হল +5.0৷

বৈশিষ্ট্য A এবং বৈশিষ্ট্য B এর তুলনামূলকভাবে সংকীর্ণ স্প্যান রয়েছে। যাইহোক, ফিচার B এর স্প্যান ফিচার A এর স্প্যানের চেয়ে 10 গুণ বেশি প্রশস্ত। অতএব:

  • প্রশিক্ষণের শুরুতে, মডেলটি অনুমান করে যে বৈশিষ্ট্য A বৈশিষ্ট্য B চেয়ে দশগুণ বেশি "গুরুত্বপূর্ণ"।
  • ট্রেনিং এর চেয়ে বেশি সময় লাগবে।
  • ফলস্বরূপ মডেল সাবঅপ্টিমাল হতে পারে।

স্বাভাবিক না করার কারণে সামগ্রিক ক্ষতি তুলনামূলকভাবে ছোট হবে; যাইহোক, আমরা এখনও ফিচার A এবং ফিচার Bকে একই স্কেলে স্বাভাবিক করার পরামর্শ দিই, সম্ভবত -1.0 থেকে +1.0৷

এখন ব্যাপ্তির বৃহত্তর বৈষম্য সহ দুটি বৈশিষ্ট্য বিবেচনা করুন:

  • বৈশিষ্ট্য C এর সর্বনিম্ন মান হল -1 এবং সর্বোচ্চ হল +1৷
  • বৈশিষ্ট্য D এর সর্বনিম্ন মান +5000 এবং সর্বোচ্চ +1,000,000,000।

আপনি যদি বৈশিষ্ট্য C এবং বৈশিষ্ট্য D কে স্বাভাবিক না করেন, আপনার মডেল সম্ভবত সাবঅপ্টিমাল হবে। অধিকন্তু, প্রশিক্ষণ একত্রিত হতে অনেক বেশি সময় নেবে বা এমনকি সম্পূর্ণরূপে একত্রিত হতে ব্যর্থ হবে!

এই বিভাগে তিনটি জনপ্রিয় স্বাভাবিককরণ পদ্ধতি কভার করে:

  • রৈখিক স্কেলিং
  • জেড-স্কোর স্কেলিং
  • লগ স্কেলিং

এই বিভাগটি অতিরিক্তভাবে ক্লিপিং কভার করে। যদিও একটি সত্যিকারের স্বাভাবিকীকরণ কৌশল নয়, ক্লিপিং অবাস্তব সংখ্যাগত বৈশিষ্ট্যগুলিকে এমন রেঞ্জে পরিণত করে যা আরও ভাল মডেল তৈরি করে।

রৈখিক স্কেলিং

রৈখিক স্কেলিং (সাধারণত সংক্ষিপ্ত করে শুধু স্কেলিং ) মানে ফ্লোটিং-পয়েন্ট মানগুলিকে তাদের প্রাকৃতিক পরিসর থেকে একটি আদর্শ পরিসরে রূপান্তর করা—সাধারণত 0 থেকে 1 বা -1 থেকে +1।

স্ট্যান্ডার্ড রেঞ্জ 0 থেকে 1 পর্যন্ত স্কেল করতে নিম্নলিখিত সূত্রটি ব্যবহার করুন, অন্তর্ভুক্ত:

x=(xxmin)/(xmaxxmin)

কোথায়:

  • x হল স্কেল করা মান।
  • x হল আসল মান।
  • এই বৈশিষ্ট্যের ডেটাসেটের সর্বনিম্ন মান হল xmin
  • এই বৈশিষ্ট্যের ডেটাসেটের সর্বোচ্চ মান হল xmax

উদাহরণস্বরূপ, quantity নামের একটি বৈশিষ্ট্য বিবেচনা করুন যার প্রাকৃতিক পরিসর 100 থেকে 900 পর্যন্ত বিস্তৃত। ধরুন একটি নির্দিষ্ট উদাহরণে quantity স্বাভাবিক মান হল 300। অতএব, আপনি নিম্নরূপ 300-এর স্বাভাবিক মান গণনা করতে পারেন:

  • x = 300
  • xিি = 100
  • xmax = 900
x' = (300 - 100) / (900 - 100)
x' = 200 / 800
x' = 0.25

লিনিয়ার স্কেলিং একটি ভাল পছন্দ যখন নিম্নলিখিত সমস্ত শর্ত পূরণ হয়:

  • আপনার ডেটার নিম্ন এবং উপরের সীমা সময়ের সাথে খুব বেশি পরিবর্তিত হয় না।
  • বৈশিষ্ট্যটিতে কয়েকটি বা কোন আউটলায়ার নেই এবং সেই বহিরাগতগুলি চরম নয়।
  • বৈশিষ্ট্যটি প্রায় অভিন্নভাবে এর পরিসীমা জুড়ে বিতরণ করা হয়। অর্থাৎ, একটি হিস্টোগ্রাম বেশিরভাগ বয়সের জন্য মোটামুটি এমনকি বার দেখায়।

ধরুন মানুষের age একটি বৈশিষ্ট্য। লিনিয়ার স্কেলিং age জন্য একটি ভাল স্বাভাবিককরণ কৌশল কারণ:

  • আনুমানিক নিম্ন এবং উপরের সীমানা 0 থেকে 100।
  • age অপেক্ষাকৃত ছোট শতাংশ বহিরাগতদের ধারণ করে। জনসংখ্যার মাত্র 0.3% 100-এর বেশি।
  • যদিও নির্দিষ্ট বয়সগুলি অন্যদের তুলনায় কিছুটা ভালভাবে উপস্থাপন করা হয়, একটি বড় ডেটাসেটে সমস্ত বয়সের জন্য যথেষ্ট উদাহরণ থাকা উচিত।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

ধরুন আপনার মডেলে net_worth নামে একটি বৈশিষ্ট্য রয়েছে যা বিভিন্ন ব্যক্তির নেট মূল্য ধরে রাখে। লিনিয়ার স্কেলিং কি net_worth জন্য একটি ভাল স্বাভাবিককরণ কৌশল হবে? কেনই বা হবে না?

উত্তর: net_worth স্বাভাবিক করার জন্য লিনিয়ার স্কেলিং একটি খারাপ পছন্দ হবে। এই বৈশিষ্ট্যটিতে অনেকগুলি বহিরাগত রয়েছে এবং মানগুলি এর প্রাথমিক পরিসরে সমানভাবে বিতরণ করা হয় না। বেশিরভাগ লোককে সামগ্রিক পরিসরের একটি খুব সংকীর্ণ ব্যান্ডের মধ্যে চাপা দেওয়া হবে।


জেড-স্কোর স্কেলিং

একটি Z-স্কোর হল মান থেকে একটি মান বিচ্যুতির সংখ্যা। উদাহরণ স্বরূপ, গড় থেকে 2 মানক বিচ্যুতি বেশি হলে তার Z-স্কোর +2.0 থাকে। গড় থেকে 1.5 মান বিচ্যুতি কম একটি মান -1.5 এর Z-স্কোর আছে।

Z-স্কোর স্কেলিং সহ একটি বৈশিষ্ট্যকে উপস্থাপন করার অর্থ হল বৈশিষ্ট্য ভেক্টরে সেই বৈশিষ্ট্যটির Z-স্কোর সংরক্ষণ করা। উদাহরণস্বরূপ, নিম্নলিখিত চিত্রটি দুটি হিস্টোগ্রাম দেখায়:

  • বাম দিকে, একটি ক্লাসিক স্বাভাবিক বিতরণ।
  • ডানদিকে, একই বন্টন জেড-স্কোর স্কেলিং দ্বারা স্বাভাবিক করা হয়েছে।
চিত্র 4. দুটি হিস্টোগ্রাম: উভয়ই অভিন্ন বন্টনের সাথে স্বাভাবিক বন্টন দেখায়। প্রথম হিস্টোগ্রামে, যা কাঁচা ডেটা রয়েছে, এর গড় 200 এবং একটি আদর্শ বিচ্যুতি 30। দ্বিতীয় হিস্টোগ্রাম, যেখানে প্রথম বিতরণের একটি Z-স্কোর সংস্করণ রয়েছে, এর গড় 0 এবং একটি আদর্শ বিচ্যুতি 1।
চিত্র 4. একটি স্বাভাবিক বিতরণের জন্য কাঁচা ডেটা (বাম) বনাম জেড-স্কোর (ডান)।

Z-স্কোর স্কেলিং নিম্নলিখিত চিত্রে দেখানো ডেটার জন্যও একটি ভাল পছন্দ, যার শুধুমাত্র একটি অস্পষ্টভাবে স্বাভাবিক বন্টন রয়েছে।

চিত্র 5. অভিন্ন আকৃতির দুটি হিস্টোগ্রাম, প্রতিটি একটি মালভূমিতে একটি খাড়া উত্থান এবং তারপরে ধীরে ধীরে ক্ষয় দ্বারা অপেক্ষাকৃত দ্রুত অবতরণ দেখায়। একটি হিস্টোগ্রাম অশোধিত তথ্যের বন্টন চিত্রিত করে; অন্য হিস্টোগ্রাম জেড-স্কোর স্কেলিং দ্বারা স্বাভাবিক করা হলে কাঁচা ডেটা বিতরণকে চিত্রিত করে।             দুটি হিস্টোগ্রামের X-অক্ষের মানগুলি খুব আলাদা।             কাঁচা ডেটা হিস্টোগ্রাম ডোমেন 0 থেকে 29,000 পর্যন্ত বিস্তৃত, যখন Z-স্কোর স্কেল করা হিস্টোগ্রাম -1 থেকে প্রায় +4.8 পর্যন্ত
চিত্র 5. একটি অ-ক্লাসিক স্বাভাবিক বিতরণের জন্য কাঁচা ডেটা (বাম) বনাম জেড-স্কোর স্কেলিং (ডান)।

একটি মান, x, তার Z-স্কোরে স্বাভাবিক করতে নিম্নলিখিত সূত্রটি ব্যবহার করুন:

x=(xμ)/σ

কোথায়:

  • x হল Z-স্কোর।
  • x হল কাঁচা মান; অর্থাৎ, x হল আপনি যে মানটিকে স্বাভাবিক করছেন।
  • μ হল গড়।
  • σ হল আদর্শ বিচ্যুতি।

উদাহরণস্বরূপ, ধরুন:

  • গড় = 100
  • আদর্শ বিচ্যুতি = 20
  • মূল মান = 130

অতএব:

  Z-score = (130 - 100) / 20
  Z-score = 30 / 20
  Z-score = +1.5

একটি ক্লাসিক স্বাভাবিক বিতরণে:

  • কমপক্ষে 68.27% ডেটার -1.0 এবং +1.0 এর মধ্যে একটি Z-স্কোর রয়েছে।
  • কমপক্ষে 95.45% ডেটার -2.0 এবং +2.0 এর মধ্যে একটি Z-স্কোর রয়েছে।
  • কমপক্ষে 99.73% ডেটার -3.0 এবং +3.0 এর মধ্যে একটি Z-স্কোর রয়েছে।
  • কমপক্ষে 99.994% ডেটার -4.0 এবং +4.0 এর মধ্যে একটি Z-স্কোর রয়েছে।
সুতরাং, -4.0-এর কম বা +4.0-এর বেশি Z-স্কোর সহ ডেটা পয়েন্টগুলি বিরল, কিন্তু সেগুলি কি সত্যিই বাইরের? যেহেতু outliers একটি কঠোর সংজ্ঞা ছাড়া একটি ধারণা, কেউ নিশ্চিতভাবে বলতে পারে না. মনে রাখবেন যে যথেষ্ট সংখ্যক উদাহরণ সহ একটি ডেটাসেটে এই "বিরল" উদাহরণগুলির মধ্যে অন্তত কয়েকটি অবশ্যই থাকবে। উদাহরণ স্বরূপ, ক্লাসিক স্বাভাবিক বন্টনের সাথে সামঞ্জস্যপূর্ণ এক বিলিয়ন উদাহরণ সহ একটি বৈশিষ্ট্য -4.0 থেকে +4.0 রেঞ্জের বাইরে স্কোর সহ 60,000টি উদাহরণ থাকতে পারে।

Z-স্কোর একটি ভাল পছন্দ যখন ডেটা একটি স্বাভাবিক বিতরণ বা বিতরণকে কিছুটা সাধারণ বিতরণের মতো অনুসরণ করে।

মনে রাখবেন যে কিছু বিতরণ তাদের পরিসরের বাল্কের মধ্যে স্বাভাবিক হতে পারে, কিন্তু এখনও চরম বহিরাগত ধারণ করে। উদাহরণস্বরূপ, একটি net_worth বৈশিষ্ট্যের প্রায় সমস্ত পয়েন্ট সুন্দরভাবে 3টি স্ট্যান্ডার্ড বিচ্যুতিতে ফিট হতে পারে, তবে এই বৈশিষ্ট্যের কয়েকটি উদাহরণ গড় থেকে শত শত স্ট্যান্ডার্ড বিচ্যুতি হতে পারে। এই পরিস্থিতিতে, আপনি এই পরিস্থিতি পরিচালনা করার জন্য স্বাভাবিককরণের (সাধারণত ক্লিপিং) অন্য ফর্মের সাথে জেড-স্কোর স্কেলিংকে একত্রিত করতে পারেন।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

ধরুন আপনার মডেল height নামের একটি বৈশিষ্ট্যের উপর ট্রেনিং করে যা দশ মিলিয়ন মহিলার প্রাপ্তবয়স্ক উচ্চতাকে ধরে রাখে। জেড-স্কোর স্কেলিং height জন্য একটি ভাল স্বাভাবিককরণ কৌশল হবে? কেনই বা হবে না?

উত্তর: জেড-স্কোর স্কেলিং height জন্য একটি ভাল স্বাভাবিকীকরণ কৌশল হবে কারণ এই বৈশিষ্ট্যটি একটি সাধারণ বিতরণের সাথে সামঞ্জস্যপূর্ণ। দশ মিলিয়ন উদাহরণ অনেক আউটলায়ারকে বোঝায়—সম্ভবত মডেলের জন্য খুব বেশি বা খুব কম Z-স্কোরের প্যাটার্ন শিখতে যথেষ্ট আউটলায়ার।


লগ স্কেলিং

লগ স্কেলিং কাঁচা মানের লগারিদম গণনা করে। তাত্ত্বিকভাবে, লগারিদম যেকোনো ভিত্তি হতে পারে; অনুশীলনে, লগ স্কেলিং সাধারণত প্রাকৃতিক লগারিদম (ln) গণনা করে।

একটি মান, x, তার লগে স্বাভাবিক করতে নিম্নলিখিত সূত্রটি ব্যবহার করুন:

x=ln(x)

কোথায়:

  • x হল x এর প্রাকৃতিক লগারিদম।
  • আসল মান = 54.598

অতএব, মূল মানের লগ প্রায় 4.0:

  4.0 = ln(54.598)

লগ স্কেলিং সহায়ক যখন ডেটা একটি পাওয়ার আইন বন্টনের সাথে সামঞ্জস্যপূর্ণ। সাধারণভাবে বলতে গেলে, একটি পাওয়ার আইন বন্টন নিম্নরূপ দেখায়:

  • X এর কম মানগুলির Y এর খুব বেশি মান রয়েছে।
  • X এর মান বাড়ার সাথে সাথে Y এর মান দ্রুত হ্রাস পায়। ফলস্বরূপ, X এর উচ্চ মানের Y এর মান খুবই কম।

মুভি রেটিং একটি ক্ষমতা আইন বন্টন একটি ভাল উদাহরণ. নিম্নলিখিত চিত্রে, লক্ষ্য করুন:

  • কয়েকটি সিনেমার প্রচুর ব্যবহারকারীর রেটিং রয়েছে। ( X এর নিম্ন মান Y এর উচ্চ মান রয়েছে।)
  • বেশিরভাগ সিনেমার ব্যবহারকারীর রেটিং খুবই কম। ( X এর উচ্চ মানের Y এর মান কম।)

লগ স্কেলিং বন্টন পরিবর্তন করে, যা একটি মডেলকে প্রশিক্ষণ দিতে সাহায্য করে যা আরও ভাল ভবিষ্যদ্বাণী করবে।

চিত্র 6. কাঁচা ডেটার লগ বনাম কাঁচা ডেটা তুলনা করে দুটি গ্রাফ।             কাঁচা ডেটা গ্রাফটি মাথায় অনেক ব্যবহারকারীর রেটিং দেখায়, তারপরে একটি দীর্ঘ লেজ দেখায়। লগ গ্রাফের আরও সমান ডিস্ট্রিবিউশন রয়েছে।
চিত্র 6. একটি কাঁচা বিতরণের লগের সাথে তুলনা করা হচ্ছে।

দ্বিতীয় উদাহরণ হিসাবে, বই বিক্রয় একটি পাওয়ার আইন বন্টনের সাথে সামঞ্জস্যপূর্ণ কারণ:

  • বেশিরভাগ প্রকাশিত বই অল্প সংখ্যক কপি বিক্রি করে, হয়তো এক বা দুইশত।
  • কিছু বই মাঝারি সংখ্যক কপি বিক্রি করে, হাজারে।
  • মাত্র কয়েকটি বেস্টসেলারই এক মিলিয়নের বেশি কপি বিক্রি করবে।

ধরুন আপনি বই বিক্রির সাথে বইয়ের কভারের সম্পর্ক খুঁজে পেতে একটি লিনিয়ার মডেলকে প্রশিক্ষণ দিচ্ছেন। কাঁচা মানগুলির উপর একটি রৈখিক মডেল প্রশিক্ষণ এমন বইগুলির বইয়ের কভার সম্পর্কে কিছু খুঁজে বের করতে হবে যা এক মিলিয়ন কপি বিক্রি করে যা শুধুমাত্র 100টি কপি বিক্রি করা বইয়ের কভারের চেয়ে 10,000 বেশি শক্তিশালী৷ যাইহোক, সমস্ত বিক্রয় পরিসংখ্যান লগ স্কেলিং কাজটিকে অনেক বেশি সম্ভাব্য করে তোলে। উদাহরণস্বরূপ, 100 এর লগ হল:

  ~4.6 = ln(100)

যখন 1,000,000 এর লগ হল:

  ~13.8 = ln(1,000,000)

সুতরাং, 1,000,000-এর লগটি 100-এর লগের চেয়ে প্রায় তিনগুণ বড়। আপনি সম্ভবত একটি বেস্টসেলার বইয়ের কভার একটি ছোট-বিক্রীত বইয়ের কভারের চেয়ে প্রায় তিনগুণ বেশি শক্তিশালী (কোনও উপায়ে) কল্পনা করতে পারেন

ক্লিপিং

ক্লিপিং চরম বহিরাগতদের প্রভাব কমানোর একটি কৌশল। সংক্ষেপে, ক্লিপিং সাধারণত আউটলারের মানকে একটি নির্দিষ্ট সর্বোচ্চ মান পর্যন্ত ক্যাপ করে (কমায়)। ক্লিপিং একটি অদ্ভুত ধারণা, এবং এখনও, এটি খুব কার্যকর হতে পারে।

উদাহরণস্বরূপ, একটি ডেটাসেট কল্পনা করুন যেখানে roomsPerPerson নামক একটি বৈশিষ্ট্য রয়েছে, যা বিভিন্ন বাড়ির জন্য কক্ষের সংখ্যা (অধিবাসীর সংখ্যা দ্বারা বিভক্ত মোট কক্ষ) প্রতিনিধিত্ব করে। নিম্নলিখিত প্লটটি দেখায় যে বৈশিষ্ট্যের মানগুলির 99% এরও বেশি একটি সাধারণ বিতরণের সাথে সামঞ্জস্যপূর্ণ (মোটামুটি, গড় 1.8 এবং 0.7 এর একটি আদর্শ বিচ্যুতি)। যাইহোক, বৈশিষ্ট্যটিতে কয়েকটি বহিরাগত রয়েছে, যার মধ্যে কিছু চরম:

চিত্র 7. রুম পারপারসনের একটি প্লট যেখানে প্রায় সমস্ত মান 0 এবং 4 এর মধ্যে ক্লাস্টার করা হয়েছে, কিন্তু একটি ভেরারি লম্বা লেজ রয়েছে যা প্রতি ব্যক্তি প্রতি 17টি ঘরে পৌঁছেছে
চিত্র 7. প্রধানত স্বাভাবিক, কিন্তু সম্পূর্ণ স্বাভাবিক নয়।

আপনি কিভাবে এই চরম বহিরাগতদের প্রভাব কমাতে পারেন? ঠিক আছে, হিস্টোগ্রাম একটি সমান বিতরণ, একটি সাধারণ বিতরণ, বা একটি শক্তি আইন বিতরণ নয়। আপনি যদি roomsPerPerson এর সর্বোচ্চ মান নির্বিচারে ক্যাপ বা ক্লিপ করেন , তাহলে 4.0 বলুন?

রুম পারপারসনের একটি প্লট যেখানে সমস্ত মান 0 এবং 4.0 এর মধ্যে থাকে৷ প্লটটি ঘণ্টার আকৃতির, কিন্তু 4.0-এ একটি অস্বাভাবিক পাহাড় রয়েছে
চিত্র 8. ক্লিপিং বৈশিষ্ট্য মান 4.0 এ।

বৈশিষ্ট্য মান 4.0 এ ক্লিপ করার অর্থ এই নয় যে আপনার মডেল 4.0-এর চেয়ে বড় সমস্ত মানকে উপেক্ষা করে৷ বরং, এর মানে হল যে সমস্ত মান 4.0-এর থেকে বড় ছিল এখন 4.0 হয়ে গেছে। এটি 4.0 এ অদ্ভুত পাহাড়কে ব্যাখ্যা করে। সেই পাহাড় সত্ত্বেও, স্কেল করা বৈশিষ্ট্য সেটটি এখন মূল ডেটার চেয়ে বেশি কার্যকর।

এক সেকেন্ড অপেক্ষা করুন! আপনি কি সত্যিই কিছু নির্বিচারে উপরের থ্রেশহোল্ডে প্রতিটি আউটলিয়ার মান কমাতে পারেন? একটি মডেল প্রশিক্ষণ যখন, হ্যাঁ.

আপনি স্বাভাবিককরণের অন্যান্য ফর্ম প্রয়োগ করার পরে মানগুলিও ক্লিপ করতে পারেন। উদাহরণস্বরূপ, ধরুন আপনি জেড-স্কোর স্কেলিং ব্যবহার করেন, কিন্তু কিছু আউটলারের পরম মান 3-এর থেকে অনেক বেশি। এই ক্ষেত্রে, আপনি করতে পারেন:

  • ঠিক 3 হতে 3-এর বেশি Z-স্কোর ক্লিপ করুন।
  • ক্লিপ Z-স্কোর -3 এর চেয়ে কম ঠিক -3 হতে.

ক্লিপিং আপনার মডেলকে গুরুত্বহীন ডেটাতে ওভারইনডেক্সিং থেকে বাধা দেয়। যাইহোক, কিছু outliers আসলে গুরুত্বপূর্ণ, তাই সাবধানে ক্লিপ মান.

স্বাভাবিকীকরণ কৌশলগুলির সংক্ষিপ্তসার

স্বাভাবিকীকরণ কৌশল সূত্র কখন ব্যবহার করতে হবে
রৈখিক স্কেলিংx=xxminxmaxxmin
যখন বৈশিষ্ট্যটি একটি নির্দিষ্ট পরিসরে সমানভাবে বিতরণ করা হয়।
জেড-স্কোর স্কেলিংx=xμσ
যখন বৈশিষ্ট্য বিতরণে চরম আউটলায়ার থাকে না।
লগ স্কেলিংx=log(x)
যখন বৈশিষ্ট্যটি শক্তি আইনের সাথে সামঞ্জস্যপূর্ণ হয়।
ক্লিপিং x>max হলে, x=max সেট করুন
যদি x<min হয়, x=min সেট করুন
যখন বৈশিষ্ট্যে চরম আউটলায়ার থাকে।

ব্যায়াম: আপনার জ্ঞান পরীক্ষা

নিম্নলিখিত বন্টন সহ একটি বৈশিষ্ট্য স্বাভাবিক করার জন্য কোন কৌশলটি সবচেয়ে উপযুক্ত হবে?

একটি হিস্টোগ্রাম 0 থেকে 200,000 রেঞ্জের মান সহ ডেটার একটি ক্লাস্টার দেখাচ্ছে৷ ডেটা পয়েন্টের সংখ্যা ধীরে ধীরে 0 থেকে 100,000 রেঞ্জের জন্য বৃদ্ধি পায় এবং তারপর ধীরে ধীরে 100,000 থেকে 200,000 পর্যন্ত হ্রাস পায়।

জেড-স্কোর স্কেলিং
ক্লিপিং
রৈখিক স্কেলিং
লগ স্কেলিং

ধরুন আপনি একটি মডেল তৈরি করছেন যা ডেটা সেন্টারের ভিতরে পরিমাপ করা তাপমাত্রার উপর ভিত্তি করে ডেটা সেন্টারের উত্পাদনশীলতার পূর্বাভাস দেয়। নিম্নলিখিত ব্যতিক্রমগুলি সহ আপনার ডেটাসেটের প্রায় সমস্ত temperature মান 15 এবং 30 (সেলসিয়াস) এর মধ্যে পড়ে:

  • বছরে একবার বা দুবার, অত্যন্ত গরম দিনে, temperature 31 থেকে 45 এর মধ্যে কয়েকটি মান রেকর্ড করা হয়।
  • temperature প্রতি 1,000 তম বিন্দু প্রকৃত তাপমাত্রার পরিবর্তে 1,000 এ সেট করা হয়।

কোনটি temperature জন্য একটি যুক্তিসঙ্গত স্বাভাবিকীকরণ কৌশল হবে?

31 এবং 45 এর মধ্যে আউটলিয়ার মানগুলি মুছুন, তবে 1,000 এর মান সহ আউটলায়ারগুলি ক্লিপ করুন।
31 এবং 45 এর মধ্যে আউটলিয়ার মানগুলি ক্লিপ করুন, তবে 1,000 এর মান সহ আউটলায়ারগুলি মুছুন
সমস্ত বহিরাগত ক্লিপ
সমস্ত বহিরাগত মুছুন
,

পরিসংখ্যানগত এবং ভিজ্যুয়ালাইজেশন কৌশলগুলির মাধ্যমে আপনার ডেটা পরীক্ষা করার পরে, আপনার ডেটাকে এমনভাবে রূপান্তরিত করা উচিত যা আপনার মডেলকে আরও কার্যকরভাবে প্রশিক্ষণ দিতে সহায়তা করবে। স্বাভাবিককরণের লক্ষ্য হল বৈশিষ্ট্যগুলিকে একই স্কেলে রূপান্তর করা। উদাহরণস্বরূপ, নিম্নলিখিত দুটি বৈশিষ্ট্য বিবেচনা করুন:

  • ফিচার X 154 থেকে 24,917,482 পর্যন্ত বিস্তৃত।
  • বৈশিষ্ট্য Y 5 থেকে 22 পর্যন্ত বিস্তৃত।

এই দুটি বৈশিষ্ট্য খুব ভিন্ন পরিসীমা বিস্তৃত. সাধারণীকরণ X এবং Y ম্যানিপুলেট করতে পারে যাতে তারা একটি অনুরূপ পরিসর বিস্তৃত করে, সম্ভবত 0 থেকে 1।

স্বাভাবিককরণ নিম্নলিখিত সুবিধা প্রদান করে:

  • প্রশিক্ষণের সময় মডেলদের আরও দ্রুত একত্রিত হতে সাহায্য করে। যখন বিভিন্ন বৈশিষ্ট্যের বিভিন্ন রেঞ্জ থাকে, তখন গ্রেডিয়েন্ট ডিসেন্ট "বাউন্স" এবং ধীর অভিসারণ করতে পারে। এটি বলেছে, অ্যাডাগ্রাড এবং অ্যাডামের মতো আরও উন্নত অপ্টিমাইজাররা সময়ের সাথে কার্যকর শেখার হার পরিবর্তন করে এই সমস্যা থেকে রক্ষা করে।
  • মডেলগুলিকে আরও ভাল ভবিষ্যদ্বাণী করতে সাহায্য করে৷ যখন বিভিন্ন বৈশিষ্ট্যের বিভিন্ন ব্যাপ্তি থাকে, তখন ফলস্বরূপ মডেলটি কিছুটা কম দরকারী ভবিষ্যদ্বাণী করতে পারে।
  • বৈশিষ্ট্যের মান খুব বেশি হলে "NaN ফাঁদ" এড়াতে সাহায্য করে। NaN একটি সংখ্যার জন্য একটি সংক্ষিপ্ত রূপ। যখন একটি মডেলের একটি মান ফ্লোটিং-পয়েন্ট নির্ভুলতা সীমা অতিক্রম করে, সিস্টেমটি একটি সংখ্যার পরিবর্তে মানটিকে NaN এ সেট করে। মডেলের একটি নম্বর যখন NaN হয়ে যায়, মডেলের অন্যান্য সংখ্যাও শেষ পর্যন্ত NaN হয়ে যায়।
  • মডেলটিকে প্রতিটি বৈশিষ্ট্যের জন্য উপযুক্ত ওজন শিখতে সাহায্য করে। বৈশিষ্ট্য স্কেলিং ছাড়া, মডেলটি বিস্তৃত পরিসরের বৈশিষ্ট্যগুলিতে খুব বেশি মনোযোগ দেয় এবং সংকীর্ণ পরিসরের বৈশিষ্ট্যগুলিতে যথেষ্ট মনোযোগ দেয় না।

আমরা সাংখ্যিক বৈশিষ্ট্যগুলিকে স্বাভাবিক করার পরামর্শ দিই যা স্বতন্ত্রভাবে বিভিন্ন ব্যাপ্তি (উদাহরণস্বরূপ, বয়স এবং আয়) কভার করে। আমরা city population.

নিম্নলিখিত দুটি বৈশিষ্ট্য বিবেচনা করুন:

  • বৈশিষ্ট্য A এর সর্বনিম্ন মান হল -0.5 এবং সর্বোচ্চ হল +0.5৷
  • বৈশিষ্ট্য B এর সর্বনিম্ন মান হল -5.0 এবং সর্বোচ্চ হল +5.0৷

বৈশিষ্ট্য A এবং বৈশিষ্ট্য B এর তুলনামূলকভাবে সংকীর্ণ স্প্যান রয়েছে। যাইহোক, ফিচার B এর স্প্যান ফিচার A এর স্প্যানের চেয়ে 10 গুণ বেশি প্রশস্ত। অতএব:

  • প্রশিক্ষণের শুরুতে, মডেলটি অনুমান করে যে বৈশিষ্ট্য A বৈশিষ্ট্য B চেয়ে দশগুণ বেশি "গুরুত্বপূর্ণ"।
  • ট্রেনিং এর চেয়ে বেশি সময় লাগবে।
  • ফলস্বরূপ মডেল সাবঅপ্টিমাল হতে পারে।

স্বাভাবিক না করার কারণে সামগ্রিক ক্ষতি তুলনামূলকভাবে ছোট হবে; যাইহোক, আমরা এখনও ফিচার A এবং ফিচার Bকে একই স্কেলে স্বাভাবিক করার পরামর্শ দিই, সম্ভবত -1.0 থেকে +1.0৷

এখন ব্যাপ্তির বৃহত্তর বৈষম্য সহ দুটি বৈশিষ্ট্য বিবেচনা করুন:

  • বৈশিষ্ট্য C এর সর্বনিম্ন মান হল -1 এবং সর্বোচ্চ হল +1৷
  • বৈশিষ্ট্য D এর সর্বনিম্ন মান +5000 এবং সর্বোচ্চ +1,000,000,000।

আপনি যদি বৈশিষ্ট্য C এবং বৈশিষ্ট্য D কে স্বাভাবিক না করেন, আপনার মডেল সম্ভবত সাবঅপ্টিমাল হবে। অধিকন্তু, প্রশিক্ষণ একত্রিত হতে অনেক বেশি সময় নেবে বা এমনকি সম্পূর্ণরূপে একত্রিত হতে ব্যর্থ হবে!

এই বিভাগে তিনটি জনপ্রিয় স্বাভাবিককরণ পদ্ধতি কভার করে:

  • রৈখিক স্কেলিং
  • জেড-স্কোর স্কেলিং
  • লগ স্কেলিং

এই বিভাগটি অতিরিক্তভাবে ক্লিপিং কভার করে। যদিও একটি সত্যিকারের স্বাভাবিকীকরণ কৌশল নয়, ক্লিপিং অবাস্তব সংখ্যাগত বৈশিষ্ট্যগুলিকে এমন রেঞ্জে পরিণত করে যা আরও ভাল মডেল তৈরি করে।

রৈখিক স্কেলিং

রৈখিক স্কেলিং (সাধারণত সংক্ষিপ্ত করে শুধু স্কেলিং ) মানে ফ্লোটিং-পয়েন্ট মানগুলিকে তাদের প্রাকৃতিক পরিসর থেকে একটি আদর্শ পরিসরে রূপান্তর করা—সাধারণত 0 থেকে 1 বা -1 থেকে +1।

স্ট্যান্ডার্ড রেঞ্জ 0 থেকে 1 পর্যন্ত স্কেল করতে নিম্নলিখিত সূত্রটি ব্যবহার করুন, অন্তর্ভুক্ত:

x=(xxmin)/(xmaxxmin)

কোথায়:

  • x হল স্কেল করা মান।
  • x হল আসল মান।
  • এই বৈশিষ্ট্যের ডেটাসেটের সর্বনিম্ন মান হল xmin
  • এই বৈশিষ্ট্যের ডেটাসেটের সর্বোচ্চ মান হল xmax

উদাহরণস্বরূপ, quantity নামের একটি বৈশিষ্ট্য বিবেচনা করুন যার প্রাকৃতিক পরিসর 100 থেকে 900 পর্যন্ত বিস্তৃত। ধরুন একটি নির্দিষ্ট উদাহরণে quantity স্বাভাবিক মান হল 300। অতএব, আপনি নিম্নরূপ 300-এর স্বাভাবিক মান গণনা করতে পারেন:

  • x = 300
  • xিি = 100
  • xmax = 900
x' = (300 - 100) / (900 - 100)
x' = 200 / 800
x' = 0.25

লিনিয়ার স্কেলিং একটি ভাল পছন্দ যখন নিম্নলিখিত সমস্ত শর্ত পূরণ হয়:

  • আপনার ডেটার নিম্ন এবং উপরের সীমা সময়ের সাথে খুব বেশি পরিবর্তিত হয় না।
  • বৈশিষ্ট্যটিতে কয়েকটি বা কোন আউটলায়ার নেই এবং সেই বহিরাগতগুলি চরম নয়।
  • বৈশিষ্ট্যটি প্রায় অভিন্নভাবে এর পরিসীমা জুড়ে বিতরণ করা হয়। অর্থাৎ, একটি হিস্টোগ্রাম বেশিরভাগ বয়সের জন্য মোটামুটি এমনকি বার দেখায়।

ধরুন মানুষের age একটি বৈশিষ্ট্য। লিনিয়ার স্কেলিং age জন্য একটি ভাল স্বাভাবিককরণ কৌশল কারণ:

  • আনুমানিক নিম্ন এবং উপরের সীমানা 0 থেকে 100।
  • age অপেক্ষাকৃত ছোট শতাংশ বহিরাগতদের ধারণ করে। জনসংখ্যার মাত্র 0.3% 100-এর বেশি।
  • যদিও নির্দিষ্ট বয়সগুলি অন্যদের তুলনায় কিছুটা ভালভাবে উপস্থাপন করা হয়, একটি বড় ডেটাসেটে সমস্ত বয়সের জন্য যথেষ্ট উদাহরণ থাকা উচিত।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

ধরুন আপনার মডেলে net_worth নামে একটি বৈশিষ্ট্য রয়েছে যা বিভিন্ন ব্যক্তির নেট মূল্য ধরে রাখে। লিনিয়ার স্কেলিং কি net_worth জন্য একটি ভাল স্বাভাবিককরণ কৌশল হবে? কেনই বা হবে না?

উত্তর: net_worth স্বাভাবিক করার জন্য লিনিয়ার স্কেলিং একটি খারাপ পছন্দ হবে। এই বৈশিষ্ট্যটিতে অনেকগুলি বহিরাগত রয়েছে এবং মানগুলি এর প্রাথমিক পরিসরে সমানভাবে বিতরণ করা হয় না। বেশিরভাগ লোককে সামগ্রিক পরিসরের একটি খুব সংকীর্ণ ব্যান্ডের মধ্যে চাপা দেওয়া হবে।


জেড-স্কোর স্কেলিং

একটি Z-স্কোর হল মান থেকে একটি মান বিচ্যুতির সংখ্যা। উদাহরণ স্বরূপ, গড় থেকে 2 মানক বিচ্যুতি বেশি হলে তার Z-স্কোর +2.0 থাকে। গড় থেকে 1.5 মান বিচ্যুতি কম একটি মান -1.5 এর Z-স্কোর আছে।

Z-স্কোর স্কেলিং সহ একটি বৈশিষ্ট্যকে উপস্থাপন করার অর্থ হল বৈশিষ্ট্য ভেক্টরে সেই বৈশিষ্ট্যটির Z-স্কোর সংরক্ষণ করা। উদাহরণস্বরূপ, নিম্নলিখিত চিত্রটি দুটি হিস্টোগ্রাম দেখায়:

  • বাম দিকে, একটি ক্লাসিক স্বাভাবিক বিতরণ।
  • ডানদিকে, একই বন্টন জেড-স্কোর স্কেলিং দ্বারা স্বাভাবিক করা হয়েছে।
চিত্র 4. দুটি হিস্টোগ্রাম: উভয়ই অভিন্ন বন্টনের সাথে স্বাভাবিক বন্টন দেখায়। প্রথম হিস্টোগ্রামে, যা কাঁচা ডেটা রয়েছে, এর গড় 200 এবং একটি আদর্শ বিচ্যুতি 30। দ্বিতীয় হিস্টোগ্রাম, যেখানে প্রথম বিতরণের একটি Z-স্কোর সংস্করণ রয়েছে, এর গড় 0 এবং একটি আদর্শ বিচ্যুতি 1।
চিত্র 4. একটি স্বাভাবিক বিতরণের জন্য কাঁচা ডেটা (বাম) বনাম জেড-স্কোর (ডান)।

Z-স্কোর স্কেলিং নিম্নলিখিত চিত্রে দেখানো ডেটার জন্যও একটি ভাল পছন্দ, যার শুধুমাত্র একটি অস্পষ্টভাবে স্বাভাবিক বন্টন রয়েছে।

চিত্র 5. অভিন্ন আকৃতির দুটি হিস্টোগ্রাম, প্রতিটি একটি মালভূমিতে একটি খাড়া উত্থান এবং তারপরে ধীরে ধীরে ক্ষয় দ্বারা অপেক্ষাকৃত দ্রুত অবতরণ দেখায়। একটি হিস্টোগ্রাম অশোধিত তথ্যের বন্টন চিত্রিত করে; অন্য হিস্টোগ্রাম জেড-স্কোর স্কেলিং দ্বারা স্বাভাবিক করা হলে কাঁচা ডেটা বিতরণকে চিত্রিত করে।             দুটি হিস্টোগ্রামের X-অক্ষের মানগুলি খুব আলাদা।             কাঁচা ডেটা হিস্টোগ্রাম ডোমেন 0 থেকে 29,000 পর্যন্ত বিস্তৃত, যখন Z-স্কোর স্কেল করা হিস্টোগ্রাম -1 থেকে প্রায় +4.8 পর্যন্ত
চিত্র 5. একটি অ-ক্লাসিক স্বাভাবিক বিতরণের জন্য কাঁচা ডেটা (বাম) বনাম জেড-স্কোর স্কেলিং (ডান)।

একটি মান, x, তার Z-স্কোরে স্বাভাবিক করতে নিম্নলিখিত সূত্রটি ব্যবহার করুন:

x=(xμ)/σ

কোথায়:

  • x হল Z-স্কোর।
  • x হল কাঁচা মান; অর্থাৎ, x হল আপনি যে মানটিকে স্বাভাবিক করছেন।
  • μ হল গড়।
  • σ হল আদর্শ বিচ্যুতি।

উদাহরণস্বরূপ, ধরুন:

  • গড় = 100
  • আদর্শ বিচ্যুতি = 20
  • মূল মান = 130

অতএব:

  Z-score = (130 - 100) / 20
  Z-score = 30 / 20
  Z-score = +1.5

একটি ক্লাসিক স্বাভাবিক বিতরণে:

  • কমপক্ষে 68.27% ডেটার -1.0 এবং +1.0 এর মধ্যে একটি Z-স্কোর রয়েছে।
  • কমপক্ষে 95.45% ডেটার -2.0 এবং +2.0 এর মধ্যে একটি Z-স্কোর রয়েছে।
  • কমপক্ষে 99.73% ডেটার -3.0 এবং +3.0 এর মধ্যে একটি Z-স্কোর রয়েছে।
  • কমপক্ষে 99.994% ডেটার -4.0 এবং +4.0 এর মধ্যে একটি Z-স্কোর রয়েছে।
সুতরাং, -4.0-এর কম বা +4.0-এর বেশি Z-স্কোর সহ ডেটা পয়েন্টগুলি বিরল, কিন্তু সেগুলি কি সত্যিই বাইরের? যেহেতু outliers একটি কঠোর সংজ্ঞা ছাড়া একটি ধারণা, কেউ নিশ্চিতভাবে বলতে পারে না. মনে রাখবেন যে যথেষ্ট সংখ্যক উদাহরণ সহ একটি ডেটাসেটে এই "বিরল" উদাহরণগুলির মধ্যে অন্তত কয়েকটি অবশ্যই থাকবে। উদাহরণ স্বরূপ, ক্লাসিক স্বাভাবিক বন্টনের সাথে সামঞ্জস্যপূর্ণ এক বিলিয়ন উদাহরণ সহ একটি বৈশিষ্ট্য -4.0 থেকে +4.0 রেঞ্জের বাইরে স্কোর সহ 60,000টি উদাহরণ থাকতে পারে।

Z-স্কোর একটি ভাল পছন্দ যখন ডেটা একটি স্বাভাবিক বিতরণ বা বিতরণকে কিছুটা সাধারণ বিতরণের মতো অনুসরণ করে।

মনে রাখবেন যে কিছু বিতরণ তাদের পরিসরের বাল্কের মধ্যে স্বাভাবিক হতে পারে, কিন্তু এখনও চরম বহিরাগত ধারণ করে। উদাহরণস্বরূপ, একটি net_worth বৈশিষ্ট্যের প্রায় সমস্ত পয়েন্ট সুন্দরভাবে 3টি স্ট্যান্ডার্ড বিচ্যুতিতে ফিট হতে পারে, তবে এই বৈশিষ্ট্যের কয়েকটি উদাহরণ গড় থেকে শত শত স্ট্যান্ডার্ড বিচ্যুতি হতে পারে। এই পরিস্থিতিতে, আপনি এই পরিস্থিতি পরিচালনা করার জন্য স্বাভাবিককরণের (সাধারণত ক্লিপিং) অন্য ফর্মের সাথে জেড-স্কোর স্কেলিংকে একত্রিত করতে পারেন।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

ধরুন আপনার মডেল height নামের একটি বৈশিষ্ট্যের উপর ট্রেনিং করে যা দশ মিলিয়ন মহিলার প্রাপ্তবয়স্ক উচ্চতাকে ধরে রাখে। জেড-স্কোর স্কেলিং height জন্য একটি ভাল স্বাভাবিককরণ কৌশল হবে? কেনই বা হবে না?

উত্তর: জেড-স্কোর স্কেলিং height জন্য একটি ভাল স্বাভাবিকীকরণ কৌশল হবে কারণ এই বৈশিষ্ট্যটি একটি সাধারণ বিতরণের সাথে সামঞ্জস্যপূর্ণ। দশ মিলিয়ন উদাহরণ অনেক আউটলায়ারকে বোঝায়—সম্ভবত মডেলের জন্য খুব বেশি বা খুব কম Z-স্কোরের প্যাটার্ন শিখতে যথেষ্ট আউটলায়ার।


লগ স্কেলিং

লগ স্কেলিং কাঁচা মানের লগারিদম গণনা করে। তাত্ত্বিকভাবে, লগারিদম যেকোনো ভিত্তি হতে পারে; অনুশীলনে, লগ স্কেলিং সাধারণত প্রাকৃতিক লগারিদম (ln) গণনা করে।

একটি মান, x, তার লগে স্বাভাবিক করতে নিম্নলিখিত সূত্রটি ব্যবহার করুন:

x=ln(x)

কোথায়:

  • x হল x এর প্রাকৃতিক লগারিদম।
  • আসল মান = 54.598

অতএব, মূল মানের লগ প্রায় 4.0:

  4.0 = ln(54.598)

লগ স্কেলিং সহায়ক যখন ডেটা একটি পাওয়ার আইন বন্টনের সাথে সামঞ্জস্যপূর্ণ। সাধারণভাবে বলতে গেলে, একটি পাওয়ার আইন বন্টন নিম্নরূপ দেখায়:

  • X এর কম মানগুলির Y এর খুব বেশি মান রয়েছে।
  • X এর মান বাড়ার সাথে সাথে Y এর মান দ্রুত হ্রাস পায়। ফলস্বরূপ, X এর উচ্চ মানের Y এর মান খুবই কম।

মুভি রেটিং একটি ক্ষমতা আইন বন্টন একটি ভাল উদাহরণ. নিম্নলিখিত চিত্রে, লক্ষ্য করুন:

  • কয়েকটি সিনেমার প্রচুর ব্যবহারকারীর রেটিং রয়েছে। ( X এর নিম্ন মান Y এর উচ্চ মান রয়েছে।)
  • বেশিরভাগ সিনেমার ব্যবহারকারীর রেটিং খুবই কম। ( X এর উচ্চ মানের Y এর মান কম।)

লগ স্কেলিং বন্টন পরিবর্তন করে, যা একটি মডেলকে প্রশিক্ষণ দিতে সাহায্য করে যা আরও ভাল ভবিষ্যদ্বাণী করবে।

চিত্র 6. কাঁচা ডেটার লগ বনাম কাঁচা ডেটা তুলনা করে দুটি গ্রাফ।             কাঁচা ডেটা গ্রাফটি মাথায় অনেক ব্যবহারকারীর রেটিং দেখায়, তারপরে একটি দীর্ঘ লেজ দেখায়। লগ গ্রাফের আরও সমান ডিস্ট্রিবিউশন রয়েছে।
চিত্র 6. একটি কাঁচা বিতরণের লগের সাথে তুলনা করা হচ্ছে।

দ্বিতীয় উদাহরণ হিসাবে, বই বিক্রয় একটি পাওয়ার আইন বন্টনের সাথে সামঞ্জস্যপূর্ণ কারণ:

  • বেশিরভাগ প্রকাশিত বই অল্প সংখ্যক কপি বিক্রি করে, হয়তো এক বা দুইশত।
  • কিছু বই মাঝারি সংখ্যক কপি বিক্রি করে, হাজারে।
  • মাত্র কয়েকটি বেস্টসেলারই এক মিলিয়নের বেশি কপি বিক্রি করবে।

ধরুন আপনি বই বিক্রির সাথে বইয়ের কভারের সম্পর্ক খুঁজে পেতে একটি লিনিয়ার মডেলকে প্রশিক্ষণ দিচ্ছেন। কাঁচা মানগুলির উপর একটি রৈখিক মডেল প্রশিক্ষণ এমন বইগুলির বইয়ের কভার সম্পর্কে কিছু খুঁজে বের করতে হবে যা এক মিলিয়ন কপি বিক্রি করে যা শুধুমাত্র 100টি কপি বিক্রি করা বইয়ের কভারের চেয়ে 10,000 বেশি শক্তিশালী৷ যাইহোক, সমস্ত বিক্রয় পরিসংখ্যান লগ স্কেলিং কাজটিকে অনেক বেশি সম্ভাব্য করে তোলে। উদাহরণস্বরূপ, 100 এর লগ হল:

  ~4.6 = ln(100)

যখন 1,000,000 এর লগ হল:

  ~13.8 = ln(1,000,000)

সুতরাং, 1,000,000-এর লগটি 100-এর লগের চেয়ে প্রায় তিনগুণ বড়। আপনি সম্ভবত একটি বেস্টসেলার বইয়ের কভার একটি ছোট-বিক্রীত বইয়ের কভারের চেয়ে প্রায় তিনগুণ বেশি শক্তিশালী (কোনও উপায়ে) কল্পনা করতে পারেন

ক্লিপিং

ক্লিপিং চরম বহিরাগতদের প্রভাব কমানোর একটি কৌশল। সংক্ষেপে, ক্লিপিং সাধারণত আউটলারের মানকে একটি নির্দিষ্ট সর্বোচ্চ মান পর্যন্ত ক্যাপ করে (কমায়)। ক্লিপিং একটি অদ্ভুত ধারণা, এবং এখনও, এটি খুব কার্যকর হতে পারে।

উদাহরণস্বরূপ, একটি ডেটাসেট কল্পনা করুন যেখানে roomsPerPerson নামক একটি বৈশিষ্ট্য রয়েছে, যা বিভিন্ন বাড়ির জন্য কক্ষের সংখ্যা (অধিবাসীর সংখ্যা দ্বারা বিভক্ত মোট কক্ষ) প্রতিনিধিত্ব করে। নিম্নলিখিত প্লটটি দেখায় যে বৈশিষ্ট্যের মানগুলির 99% এরও বেশি একটি সাধারণ বিতরণের সাথে সামঞ্জস্যপূর্ণ (মোটামুটি, গড় 1.8 এবং 0.7 এর একটি আদর্শ বিচ্যুতি)। যাইহোক, বৈশিষ্ট্যটিতে কয়েকটি বহিরাগত রয়েছে, যার মধ্যে কিছু চরম:

চিত্র 7. রুম পারপারসনের একটি প্লট যেখানে প্রায় সমস্ত মান 0 এবং 4 এর মধ্যে ক্লাস্টার করা হয়েছে, কিন্তু একটি ভেরারি লম্বা লেজ রয়েছে যা প্রতি ব্যক্তি প্রতি 17টি ঘরে পৌঁছেছে
চিত্র 7. প্রধানত স্বাভাবিক, কিন্তু সম্পূর্ণ স্বাভাবিক নয়।

আপনি কিভাবে এই চরম বহিরাগতদের প্রভাব কমাতে পারেন? ঠিক আছে, হিস্টোগ্রাম একটি সমান বিতরণ, একটি সাধারণ বিতরণ, বা একটি শক্তি আইন বিতরণ নয়। আপনি যদি roomsPerPerson এর সর্বোচ্চ মান নির্বিচারে ক্যাপ বা ক্লিপ করেন , তাহলে 4.0 বলুন?

রুম পারপারসনের একটি প্লট যেখানে সমস্ত মান 0 এবং 4.0 এর মধ্যে থাকে৷ প্লটটি ঘণ্টার আকৃতির, কিন্তু 4.0-এ একটি অস্বাভাবিক পাহাড় রয়েছে
চিত্র 8. ক্লিপিং বৈশিষ্ট্য মান 4.0 এ।

বৈশিষ্ট্য মান 4.0 এ ক্লিপ করার অর্থ এই নয় যে আপনার মডেল 4.0-এর চেয়ে বড় সমস্ত মানকে উপেক্ষা করে৷ বরং, এর মানে হল যে সমস্ত মান 4.0-এর থেকে বড় ছিল এখন 4.0 হয়ে গেছে। এটি 4.0 এ অদ্ভুত পাহাড়কে ব্যাখ্যা করে। সেই পাহাড় সত্ত্বেও, স্কেল করা বৈশিষ্ট্য সেটটি এখন মূল ডেটার চেয়ে বেশি কার্যকর।

এক সেকেন্ড অপেক্ষা করুন! আপনি কি সত্যিই কিছু নির্বিচারে উপরের থ্রেশহোল্ডে প্রতিটি আউটলিয়ার মান কমাতে পারেন? একটি মডেল প্রশিক্ষণ যখন, হ্যাঁ.

আপনি স্বাভাবিককরণের অন্যান্য ফর্ম প্রয়োগ করার পরে মানগুলিও ক্লিপ করতে পারেন। উদাহরণস্বরূপ, ধরুন আপনি জেড-স্কোর স্কেলিং ব্যবহার করেন, কিন্তু কিছু আউটলারের পরম মান 3-এর থেকে অনেক বেশি। এই ক্ষেত্রে, আপনি করতে পারেন:

  • ঠিক 3 হতে 3-এর বেশি Z-স্কোর ক্লিপ করুন।
  • ক্লিপ Z-স্কোর -3 এর চেয়ে কম ঠিক -3 হতে.

ক্লিপিং আপনার মডেলকে গুরুত্বহীন ডেটাতে ওভারইনডেক্সিং থেকে বাধা দেয়। যাইহোক, কিছু outliers আসলে গুরুত্বপূর্ণ, তাই সাবধানে ক্লিপ মান.

স্বাভাবিকীকরণ কৌশলগুলির সংক্ষিপ্তসার

স্বাভাবিকীকরণ কৌশল সূত্র কখন ব্যবহার করতে হবে
রৈখিক স্কেলিংx=xxminxmaxxmin
যখন বৈশিষ্ট্যটি একটি নির্দিষ্ট পরিসরে সমানভাবে বিতরণ করা হয়।
জেড-স্কোর স্কেলিংx=xμσ
যখন বৈশিষ্ট্য বিতরণে চরম আউটলায়ার থাকে না।
লগ স্কেলিংx=log(x)
যখন বৈশিষ্ট্যটি শক্তি আইনের সাথে সামঞ্জস্যপূর্ণ হয়।
ক্লিপিং x>max হলে, x=max সেট করুন
যদি x<min হয়, x=min সেট করুন
যখন বৈশিষ্ট্যে চরম আউটলায়ার থাকে।

ব্যায়াম: আপনার জ্ঞান পরীক্ষা

নিম্নলিখিত বন্টন সহ একটি বৈশিষ্ট্য স্বাভাবিক করার জন্য কোন কৌশলটি সবচেয়ে উপযুক্ত হবে?

একটি হিস্টোগ্রাম 0 থেকে 200,000 রেঞ্জের মান সহ ডেটার একটি ক্লাস্টার দেখাচ্ছে৷ ডেটা পয়েন্টের সংখ্যা ধীরে ধীরে 0 থেকে 100,000 রেঞ্জের জন্য বৃদ্ধি পায় এবং তারপর ধীরে ধীরে 100,000 থেকে 200,000 পর্যন্ত হ্রাস পায়।

লগ স্কেলিং
ক্লিপিং
জেড-স্কোর স্কেলিং
রৈখিক স্কেলিং

ধরুন আপনি এমন একটি মডেল বিকাশ করছেন যা ডেটা সেন্টারের অভ্যন্তরে পরিমাপ করা তাপমাত্রার উপর ভিত্তি করে ডেটা সেন্টারের উত্পাদনশীলতার পূর্বাভাস দেয়। আপনার ডেটাসেটের প্রায় সমস্ত temperature মান নিম্নলিখিত ব্যতিক্রম সহ 15 এবং 30 (সেলসিয়াস) এর মধ্যে পড়ে:

  • প্রতি বছর একবার বা দু'বার, অত্যন্ত গরম দিনগুলিতে, 31 থেকে 45 এর মধ্যে কয়েকটি মান temperature রেকর্ড করা হয়।
  • temperature প্রতি 1000 তম পয়েন্টটি প্রকৃত তাপমাত্রার চেয়ে 1000 এ সেট করা হয়।

temperature জন্য কোনটি যুক্তিসঙ্গত স্বাভাবিককরণ কৌশল হবে?

31 থেকে 45 এর মধ্যে আউটলেটর মানগুলি ক্লিপ করুন তবে 1000 এর মান সহ আউটলিয়ারগুলি মুছুন
সমস্ত বহিরাগতদের মুছুন
31 এবং 45 এর মধ্যে আউটলেটর মানগুলি মুছুন, তবে 1000 এর মান সহ আউটলিয়ারদের ক্লিপ করুন।
সমস্ত আউটলিয়ার ক্লিপ