সংখ্যাসূচক তথ্য: স্বাভাবিককরণ

পরিসংখ্যানগত এবং ভিজ্যুয়ালাইজেশন কৌশলগুলির মাধ্যমে আপনার ডেটা পরীক্ষা করার পরে, আপনার ডেটাকে এমনভাবে রূপান্তরিত করা উচিত যা আপনার মডেলকে আরও কার্যকরভাবে প্রশিক্ষণ দিতে সহায়তা করবে। স্বাভাবিককরণের লক্ষ্য হল বৈশিষ্ট্যগুলিকে একই স্কেলে রূপান্তর করা। উদাহরণস্বরূপ, নিম্নলিখিত দুটি বৈশিষ্ট্য বিবেচনা করুন:

  • ফিচার X 154 থেকে 24,917,482 পর্যন্ত বিস্তৃত।
  • বৈশিষ্ট্য Y 5 থেকে 22 পর্যন্ত বিস্তৃত।

এই দুটি বৈশিষ্ট্য খুব ভিন্ন পরিসীমা বিস্তৃত. সাধারণীকরণ X এবং Y ম্যানিপুলেট করতে পারে যাতে তারা একটি অনুরূপ পরিসর বিস্তৃত করে, সম্ভবত 0 থেকে 1।

স্বাভাবিককরণ নিম্নলিখিত সুবিধা প্রদান করে:

  • প্রশিক্ষণের সময় মডেলদের আরও দ্রুত একত্রিত হতে সাহায্য করে। যখন বিভিন্ন বৈশিষ্ট্যের বিভিন্ন রেঞ্জ থাকে, তখন গ্রেডিয়েন্ট ডিসেন্ট "বাউন্স" এবং ধীর অভিসারণ করতে পারে। এটি বলেছে, অ্যাডাগ্রাড এবং অ্যাডামের মতো আরও উন্নত অপ্টিমাইজাররা সময়ের সাথে কার্যকর শেখার হার পরিবর্তন করে এই সমস্যা থেকে রক্ষা করে।
  • মডেলগুলিকে আরও ভাল ভবিষ্যদ্বাণী করতে সাহায্য করে৷ যখন বিভিন্ন বৈশিষ্ট্যের বিভিন্ন ব্যাপ্তি থাকে, তখন ফলস্বরূপ মডেলটি কিছুটা কম দরকারী ভবিষ্যদ্বাণী করতে পারে।
  • বৈশিষ্ট্যের মান খুব বেশি হলে "NaN ফাঁদ" এড়াতে সাহায্য করে। NaN একটি সংখ্যার জন্য একটি সংক্ষিপ্ত রূপ। যখন একটি মডেলের একটি মান ফ্লোটিং-পয়েন্ট নির্ভুলতা সীমা অতিক্রম করে, সিস্টেমটি একটি সংখ্যার পরিবর্তে মানটিকে NaN এ সেট করে। মডেলের একটি নম্বর যখন NaN হয়ে যায়, মডেলের অন্যান্য সংখ্যাও শেষ পর্যন্ত NaN হয়ে যায়।
  • মডেলটিকে প্রতিটি বৈশিষ্ট্যের জন্য উপযুক্ত ওজন শিখতে সাহায্য করে। বৈশিষ্ট্য স্কেলিং ছাড়া, মডেলটি বিস্তৃত পরিসরের বৈশিষ্ট্যগুলিতে খুব বেশি মনোযোগ দেয় এবং সংকীর্ণ পরিসরের বৈশিষ্ট্যগুলিতে যথেষ্ট মনোযোগ দেয় না।

আমরা সাংখ্যিক বৈশিষ্ট্যগুলিকে স্বাভাবিক করার পরামর্শ দিই যা স্বতন্ত্রভাবে বিভিন্ন ব্যাপ্তি (উদাহরণস্বরূপ, বয়স এবং আয়) কভার করে। আমরা city population.

নিম্নলিখিত দুটি বৈশিষ্ট্য বিবেচনা করুন:

  • বৈশিষ্ট্য A এর সর্বনিম্ন মান হল -0.5 এবং সর্বোচ্চ হল +0.5৷
  • বৈশিষ্ট্য B এর সর্বনিম্ন মান হল -5.0 এবং সর্বোচ্চ হল +5.0৷

বৈশিষ্ট্য A এবং বৈশিষ্ট্য B এর তুলনামূলকভাবে সংকীর্ণ স্প্যান রয়েছে। যাইহোক, ফিচার B এর স্প্যান ফিচার A এর স্প্যানের চেয়ে 10 গুণ বেশি প্রশস্ত। অতএব:

  • প্রশিক্ষণের শুরুতে, মডেলটি অনুমান করে যে বৈশিষ্ট্য B বৈশিষ্ট্য A চেয়ে দশগুণ বেশি "গুরুত্বপূর্ণ"।
  • ট্রেনিং এর চেয়ে বেশি সময় লাগবে।
  • ফলস্বরূপ মডেল সাবঅপ্টিমাল হতে পারে।

স্বাভাবিক না করার কারণে সামগ্রিক ক্ষতি তুলনামূলকভাবে ছোট হবে; যাইহোক, আমরা এখনও ফিচার A এবং ফিচার Bকে একই স্কেলে স্বাভাবিক করার পরামর্শ দিই, সম্ভবত -1.0 থেকে +1.0৷

এখন ব্যাপ্তির বৃহত্তর বৈষম্য সহ দুটি বৈশিষ্ট্য বিবেচনা করুন:

  • বৈশিষ্ট্য C এর সর্বনিম্ন মান হল -1 এবং সর্বোচ্চ হল +1৷
  • বৈশিষ্ট্য D এর সর্বনিম্ন মান +5000 এবং সর্বোচ্চ +1,000,000,000।

আপনি যদি বৈশিষ্ট্য C এবং বৈশিষ্ট্য D কে স্বাভাবিক না করেন, আপনার মডেল সম্ভবত সাবঅপ্টিমাল হবে। অধিকন্তু, প্রশিক্ষণ একত্রিত হতে অনেক বেশি সময় নেবে বা এমনকি সম্পূর্ণরূপে একত্রিত হতে ব্যর্থ হবে!

এই বিভাগে তিনটি জনপ্রিয় স্বাভাবিককরণ পদ্ধতি কভার করে:

  • রৈখিক স্কেলিং
  • জেড-স্কোর স্কেলিং
  • লগ স্কেলিং

এই বিভাগটি অতিরিক্তভাবে ক্লিপিং কভার করে। যদিও একটি সত্যিকারের স্বাভাবিকীকরণ কৌশল নয়, ক্লিপিং অবাস্তব সংখ্যাগত বৈশিষ্ট্যগুলিকে এমন রেঞ্জে পরিণত করে যা আরও ভাল মডেল তৈরি করে।

রৈখিক স্কেলিং

রৈখিক স্কেলিং (সাধারণত সংক্ষিপ্ত করে শুধু স্কেলিং ) মানে ফ্লোটিং-পয়েন্ট মানগুলিকে তাদের প্রাকৃতিক পরিসর থেকে একটি আদর্শ পরিসরে রূপান্তর করা—সাধারণত 0 থেকে 1 বা -1 থেকে +1।

স্ট্যান্ডার্ড রেঞ্জ 0 থেকে 1 পর্যন্ত স্কেল করতে নিম্নলিখিত সূত্রটি ব্যবহার করুন, অন্তর্ভুক্ত:

x=(xxmin)/(xmaxxmin)

কোথায়:

  • x হল স্কেল করা মান।
  • x হল আসল মান।
  • এই বৈশিষ্ট্যের ডেটাসেটের সর্বনিম্ন মান হল xmin
  • এই বৈশিষ্ট্যের ডেটাসেটের সর্বোচ্চ মান হল xmax

উদাহরণস্বরূপ, quantity নামের একটি বৈশিষ্ট্য বিবেচনা করুন যার প্রাকৃতিক পরিসর 100 থেকে 900 পর্যন্ত বিস্তৃত। ধরুন একটি নির্দিষ্ট উদাহরণে quantity স্বাভাবিক মান হল 300। অতএব, আপনি নিম্নরূপ 300-এর স্বাভাবিক মান গণনা করতে পারেন:

  • x = 300
  • xি = 100
  • xmax = 900
x' = (300 - 100) / (900 - 100)
x' = 200 / 800
x' = 0.25

লিনিয়ার স্কেলিং একটি ভাল পছন্দ যখন নিম্নলিখিত সমস্ত শর্ত পূরণ হয়:

  • আপনার ডেটার নিম্ন এবং উপরের সীমা সময়ের সাথে খুব বেশি পরিবর্তিত হয় না।
  • বৈশিষ্ট্যটিতে কয়েকটি বা কোন আউটলায়ার নেই এবং সেই বহিরাগতগুলি চরম নয়।
  • বৈশিষ্ট্যটি প্রায় অভিন্নভাবে এর পরিসীমা জুড়ে বিতরণ করা হয়। অর্থাৎ, একটি হিস্টোগ্রাম বেশিরভাগ মানের জন্য মোটামুটি এমনকি বার দেখাবে।

ধরুন মানুষের age একটি বৈশিষ্ট্য। লিনিয়ার স্কেলিং age জন্য একটি ভাল স্বাভাবিককরণ কৌশল কারণ:

  • আনুমানিক নিম্ন এবং উপরের সীমানা 0 থেকে 100।
  • age অপেক্ষাকৃত ছোট শতাংশ বহিরাগতদের ধারণ করে। জনসংখ্যার মাত্র 0.3% 100-এর বেশি।
  • যদিও নির্দিষ্ট বয়সগুলি অন্যদের তুলনায় কিছুটা ভালভাবে উপস্থাপন করা হয়, একটি বড় ডেটাসেটে সমস্ত বয়সের জন্য যথেষ্ট উদাহরণ থাকা উচিত।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

ধরুন আপনার মডেলে net_worth নামে একটি বৈশিষ্ট্য রয়েছে যা বিভিন্ন ব্যক্তির নেট মূল্য ধরে রাখে। লিনিয়ার স্কেলিং কি net_worth জন্য একটি ভাল স্বাভাবিককরণ কৌশল হবে? কেনই বা হবে না?

উত্তর: net_worth স্বাভাবিক করার জন্য লিনিয়ার স্কেলিং একটি খারাপ পছন্দ হবে। এই বৈশিষ্ট্যটিতে অনেকগুলি বহিরাগত রয়েছে এবং মানগুলি এর প্রাথমিক পরিসরে সমানভাবে বিতরণ করা হয় না। বেশিরভাগ লোককে সামগ্রিক পরিসরের একটি খুব সংকীর্ণ ব্যান্ডের মধ্যে চাপা দেওয়া হবে।


জেড-স্কোর স্কেলিং

একটি Z-স্কোর হল মান থেকে একটি মান বিচ্যুতির সংখ্যা। উদাহরণ স্বরূপ, গড় থেকে 2 মানক বিচ্যুতি বেশি হলে তার Z-স্কোর +2.0 থাকে। গড় থেকে 1.5 মান বিচ্যুতি কম একটি মান -1.5 এর Z-স্কোর আছে।

Z-স্কোর স্কেলিং সহ একটি বৈশিষ্ট্যকে উপস্থাপন করার অর্থ হল বৈশিষ্ট্য ভেক্টরে সেই বৈশিষ্ট্যটির Z-স্কোর সংরক্ষণ করা। উদাহরণস্বরূপ, নিম্নলিখিত চিত্রটি দুটি হিস্টোগ্রাম দেখায়:

  • বাম দিকে, একটি ক্লাসিক স্বাভাবিক বিতরণ।
  • ডানদিকে, একই বন্টন জেড-স্কোর স্কেলিং দ্বারা স্বাভাবিক করা হয়েছে।
চিত্র 4. দুটি হিস্টোগ্রাম: উভয়ই এর সাথে স্বাভাবিক বিতরণ দেখাচ্ছে            অভিন্ন বন্টন। প্রথম হিস্টোগ্রাম, যা কাঁচা ধারণ করে            ডেটা, একটি গড় 200 এবং একটি আদর্শ বিচ্যুতি 30। দ্বিতীয়টি            হিস্টোগ্রাম, যা প্রথমটির একটি জেড-স্কোর সংস্করণ ধারণ করে            ডিস্ট্রিবিউশন, এর গড় 0 এবং একটি আদর্শ বিচ্যুতি 1।
চিত্র 4. একটি স্বাভাবিক বিতরণের জন্য কাঁচা ডেটা (বাম) বনাম জেড-স্কোর (ডান)।

Z-স্কোর স্কেলিং নিম্নলিখিত চিত্রে দেখানো ডেটার জন্যও একটি ভাল পছন্দ, যার শুধুমাত্র একটি অস্পষ্টভাবে স্বাভাবিক বন্টন রয়েছে।

চিত্র 5. অভিন্ন আকৃতির দুটি হিস্টোগ্রাম, প্রতিটি একটি খাড়া দেখাচ্ছে             একটি মালভূমিতে ওঠা এবং তারপরে একটি অপেক্ষাকৃত দ্রুত অবতরণ             ধীরে ধীরে ক্ষয় একটি হিস্টোগ্রাম চিত্রিত করে             কাঁচা তথ্য বিতরণ; অন্য হিস্টোগ্রাম চিত্রিত করে             Z-স্কোর স্কেলিং দ্বারা স্বাভাবিক করা হলে কাঁচা ডেটা বিতরণ।             দুটি হিস্টোগ্রামের X-অক্ষের মানগুলি খুব আলাদা।             কাঁচা ডেটা হিস্টোগ্রাম ডোমেন 0 থেকে 29,000 পর্যন্ত বিস্তৃত             Z-স্কোর স্কেল করা হিস্টোগ্রাম -1 থেকে প্রায় +4.8 পর্যন্ত
চিত্র 5. একটি অ-ক্লাসিক স্বাভাবিক বিতরণের জন্য কাঁচা ডেটা (বাম) বনাম জেড-স্কোর স্কেলিং (ডান)।

একটি মান, x, তার Z-স্কোরে স্বাভাবিক করতে নিম্নলিখিত সূত্রটি ব্যবহার করুন:

x=(xμ)/σ

কোথায়:

  • x হল Z-স্কোর।
  • x হল কাঁচা মান; অর্থাৎ, x হল আপনি যে মানটিকে স্বাভাবিক করছেন।
  • μ হল গড়।
  • σ হল আদর্শ বিচ্যুতি।

উদাহরণস্বরূপ, ধরুন:

  • গড় = 100
  • আদর্শ বিচ্যুতি = 20
  • মূল মান = 130

অতএব:

  Z-score = (130 - 100) / 20
  Z-score = 30 / 20
  Z-score = +1.5

একটি ক্লাসিক স্বাভাবিক বিতরণে:

  • কমপক্ষে 68.27% ডেটার -1.0 এবং +1.0 এর মধ্যে একটি Z-স্কোর রয়েছে।
  • কমপক্ষে 95.45% ডেটার -2.0 এবং +2.0 এর মধ্যে একটি Z-স্কোর রয়েছে।
  • কমপক্ষে 99.73% ডেটার -3.0 এবং +3.0 এর মধ্যে একটি Z-স্কোর রয়েছে।
  • কমপক্ষে 99.994% ডেটার -4.0 এবং +4.0 এর মধ্যে একটি Z-স্কোর রয়েছে।
সুতরাং, -4.0-এর কম বা +4.0-এর বেশি Z-স্কোর সহ ডেটা পয়েন্টগুলি বিরল, কিন্তু সেগুলি কি সত্যিই বাইরের? যেহেতু outliers একটি কঠোর সংজ্ঞা ছাড়া একটি ধারণা, কেউ নিশ্চিতভাবে বলতে পারে না. মনে রাখবেন যে যথেষ্ট সংখ্যক উদাহরণ সহ একটি ডেটাসেটে এই "বিরল" উদাহরণগুলির মধ্যে অন্তত কয়েকটি অবশ্যই থাকবে। উদাহরণ স্বরূপ, ক্লাসিক স্বাভাবিক বন্টনের সাথে সামঞ্জস্যপূর্ণ এক বিলিয়ন উদাহরণ সহ একটি বৈশিষ্ট্য -4.0 থেকে +4.0 রেঞ্জের বাইরে স্কোর সহ 60,000টি উদাহরণ থাকতে পারে।

Z-স্কোর একটি ভাল পছন্দ যখন ডেটা একটি স্বাভাবিক বিতরণ বা বিতরণকে কিছুটা সাধারণ বিতরণের মতো অনুসরণ করে।

মনে রাখবেন যে কিছু বিতরণ তাদের পরিসরের বাল্কের মধ্যে স্বাভাবিক হতে পারে, কিন্তু এখনও চরম বহিরাগত ধারণ করে। উদাহরণস্বরূপ, একটি net_worth বৈশিষ্ট্যের প্রায় সমস্ত পয়েন্ট সুন্দরভাবে 3টি স্ট্যান্ডার্ড বিচ্যুতিতে ফিট হতে পারে, তবে এই বৈশিষ্ট্যের কয়েকটি উদাহরণ গড় থেকে শত শত স্ট্যান্ডার্ড বিচ্যুতি হতে পারে। এই পরিস্থিতিতে, আপনি এই পরিস্থিতি পরিচালনা করার জন্য স্বাভাবিককরণের (সাধারণত ক্লিপিং) অন্য ফর্মের সাথে জেড-স্কোর স্কেলিংকে একত্রিত করতে পারেন।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

ধরুন আপনার মডেল height নামের একটি বৈশিষ্ট্যের উপর ট্রেনিং করে যা দশ মিলিয়ন মহিলার প্রাপ্তবয়স্ক উচ্চতাকে ধরে রাখে। জেড-স্কোর স্কেলিং height জন্য একটি ভাল স্বাভাবিককরণ কৌশল হবে? কেনই বা হবে না?

উত্তর: জেড-স্কোর স্কেলিং height জন্য একটি ভাল স্বাভাবিকীকরণ কৌশল হবে কারণ এই বৈশিষ্ট্যটি একটি সাধারণ বিতরণের সাথে সামঞ্জস্যপূর্ণ। দশ মিলিয়ন উদাহরণ অনেক আউটলায়ারকে বোঝায়—সম্ভবত মডেলের জন্য খুব বেশি বা খুব কম Z-স্কোরের প্যাটার্ন শিখতে যথেষ্ট আউটলায়ার।


লগ স্কেলিং

লগ স্কেলিং কাঁচা মানের লগারিদম গণনা করে। তাত্ত্বিকভাবে, লগারিদম যেকোনো ভিত্তি হতে পারে; অনুশীলনে, লগ স্কেলিং সাধারণত প্রাকৃতিক লগারিদম (ln) গণনা করে।

একটি মান, x, তার লগে স্বাভাবিক করতে নিম্নলিখিত সূত্রটি ব্যবহার করুন:

x=ln(x)

কোথায়:

  • x হল x এর প্রাকৃতিক লগারিদম।
  • আসল মান = 54.598

অতএব, মূল মানের লগ প্রায় 4.0:

  4.0 = ln(54.598)

লগ স্কেলিং সহায়ক যখন ডেটা একটি পাওয়ার আইন বন্টনের সাথে সামঞ্জস্যপূর্ণ। সাধারণভাবে বলতে গেলে, একটি পাওয়ার আইন বন্টন নিম্নরূপ দেখায়:

  • X এর কম মানগুলির Y এর খুব বেশি মান রয়েছে।
  • X এর মান বাড়ার সাথে সাথে Y এর মান দ্রুত হ্রাস পায়। ফলস্বরূপ, X এর উচ্চ মানের Y এর মান খুবই কম।

মুভি রেটিং একটি ক্ষমতা আইন বন্টন একটি ভাল উদাহরণ. নিম্নলিখিত চিত্রে, লক্ষ্য করুন:

  • কয়েকটি সিনেমার প্রচুর ব্যবহারকারীর রেটিং রয়েছে। ( X এর নিম্ন মান Y এর উচ্চ মান রয়েছে।)
  • বেশিরভাগ সিনেমার ব্যবহারকারীর রেটিং খুবই কম। ( X এর উচ্চ মানের Y এর মান কম।)

লগ স্কেলিং বন্টন পরিবর্তন করে, যা একটি মডেলকে প্রশিক্ষণ দিতে সাহায্য করে যা আরও ভাল ভবিষ্যদ্বাণী করবে।

চিত্র 6. কাঁচা ডেটার লগ বনাম কাঁচা ডেটা তুলনা করে দুটি গ্রাফ।             অপরিশোধিত ডেটা গ্রাফ মাথায় অনেক ব্যবহারকারীর রেটিং দেখায়, অনুসরণ করা হয়             একটি লম্বা লেজ দ্বারা। লগ গ্রাফের আরও সমান ডিস্ট্রিবিউশন রয়েছে।
চিত্র 6. একটি কাঁচা বিতরণের লগের সাথে তুলনা করা হচ্ছে।

দ্বিতীয় উদাহরণ হিসাবে, বই বিক্রয় একটি পাওয়ার আইন বন্টনের সাথে সামঞ্জস্যপূর্ণ কারণ:

  • বেশিরভাগ প্রকাশিত বই অল্প সংখ্যক কপি বিক্রি করে, হয়তো এক বা দুইশত।
  • কিছু বই মাঝারি সংখ্যক কপি বিক্রি করে, হাজারে।
  • মাত্র কয়েকটি বেস্টসেলারই এক মিলিয়নের বেশি কপি বিক্রি করবে।

ধরুন আপনি বই বিক্রির সাথে বইয়ের কভারের সম্পর্ক খুঁজে পেতে একটি লিনিয়ার মডেলকে প্রশিক্ষণ দিচ্ছেন। কাঁচা মানগুলির উপর একটি রৈখিক মডেল প্রশিক্ষণ এমন বইগুলির বইয়ের কভার সম্পর্কে কিছু খুঁজে বের করতে হবে যা এক মিলিয়ন কপি বিক্রি করে যা শুধুমাত্র 100টি কপি বিক্রি করা বইয়ের কভারের চেয়ে 10,000 বেশি শক্তিশালী৷ যাইহোক, সমস্ত বিক্রয় পরিসংখ্যান লগ স্কেলিং কাজটিকে অনেক বেশি সম্ভাব্য করে তোলে। উদাহরণস্বরূপ, 100 এর লগ হল:

  ~4.6 = ln(100)

যখন 1,000,000 এর লগ হল:

  ~13.8 = ln(1,000,000)

সুতরাং, 1,000,000-এর লগটি 100-এর লগের চেয়ে প্রায় তিনগুণ বড়। আপনি সম্ভবত একটি বেস্টসেলার বইয়ের কভার একটি ছোট-বিক্রীত বইয়ের কভারের চেয়ে প্রায় তিনগুণ বেশি শক্তিশালী (কোনও উপায়ে) কল্পনা করতে পারেন

ক্লিপিং

ক্লিপিং চরম বহিরাগতদের প্রভাব কমানোর একটি কৌশল। সংক্ষেপে, ক্লিপিং সাধারণত আউটলারের মানকে একটি নির্দিষ্ট সর্বোচ্চ মান পর্যন্ত ক্যাপ করে (কমায়)। ক্লিপিং একটি অদ্ভুত ধারণা, এবং এখনও, এটি খুব কার্যকর হতে পারে।

উদাহরণস্বরূপ, একটি ডেটাসেট কল্পনা করুন যেখানে roomsPerPerson নামক একটি বৈশিষ্ট্য রয়েছে, যা বিভিন্ন বাড়ির জন্য কক্ষের সংখ্যা (অধিবাসীর সংখ্যা দ্বারা বিভক্ত মোট কক্ষ) প্রতিনিধিত্ব করে। নিম্নলিখিত প্লটটি দেখায় যে বৈশিষ্ট্যের মানগুলির 99% এরও বেশি একটি সাধারণ বিতরণের সাথে সামঞ্জস্যপূর্ণ (মোটামুটি, গড় 1.8 এবং 0.7 এর একটি আদর্শ বিচ্যুতি)। যাইহোক, বৈশিষ্ট্যটিতে কয়েকটি বহিরাগত রয়েছে, যার মধ্যে কিছু চরম:

চিত্র 7. ব্যক্তি-ব্যক্তির রুমের একটি প্লট যেখানে প্রায় সমস্ত মান রয়েছে             0 এবং 4 এর মধ্যে ক্লাস্টার করা হয়, কিন্তু একটি verrrry লম্বা লেজ আছে             জনপ্রতি 17টি কক্ষে পৌঁছেছে
চিত্র 7. প্রধানত স্বাভাবিক, কিন্তু সম্পূর্ণ স্বাভাবিক নয়।

আপনি কিভাবে এই চরম বহিরাগতদের প্রভাব কমাতে পারেন? ঠিক আছে, হিস্টোগ্রাম একটি সমান বিতরণ, একটি সাধারণ বিতরণ, বা একটি শক্তি আইন বিতরণ নয়। আপনি যদি roomsPerPerson এর সর্বোচ্চ মান নির্বিচারে ক্যাপ বা ক্লিপ করেন , তাহলে 4.0 বলুন?

রুমের একটি প্লটPerPerson যাতে সমস্ত মান 0 এবং এর মধ্যে থাকে             4.0 প্লটটি ঘণ্টার আকৃতির, কিন্তু 4.0-এ একটি অস্বাভাবিক পাহাড় রয়েছে
চিত্র 8. ক্লিপিং বৈশিষ্ট্য মান 4.0 এ।

বৈশিষ্ট্য মান 4.0 এ ক্লিপ করার অর্থ এই নয় যে আপনার মডেল 4.0-এর চেয়ে বড় সমস্ত মানকে উপেক্ষা করে৷ বরং, এর মানে হল যে সমস্ত মান 4.0-এর থেকে বড় ছিল এখন 4.0 হয়ে গেছে। এটি 4.0 এ অদ্ভুত পাহাড়কে ব্যাখ্যা করে। সেই পাহাড় সত্ত্বেও, স্কেল করা বৈশিষ্ট্য সেটটি এখন মূল ডেটার চেয়ে বেশি কার্যকর।

এক সেকেন্ড অপেক্ষা করুন! আপনি কি সত্যিই কিছু নির্বিচারে উপরের থ্রেশহোল্ডে প্রতিটি আউটলিয়ার মান কমাতে পারেন? একটি মডেল প্রশিক্ষণ যখন, হ্যাঁ.

আপনি স্বাভাবিককরণের অন্যান্য ফর্ম প্রয়োগ করার পরে মানগুলিও ক্লিপ করতে পারেন। উদাহরণস্বরূপ, ধরুন আপনি জেড-স্কোর স্কেলিং ব্যবহার করেন, কিন্তু কিছু আউটলারের পরম মান 3-এর থেকে অনেক বেশি। এই ক্ষেত্রে, আপনি করতে পারেন:

  • ঠিক 3 হতে 3-এর বেশি Z-স্কোর ক্লিপ করুন।
  • ক্লিপ Z-স্কোর -3 এর চেয়ে কম ঠিক -3 হতে.

ক্লিপিং আপনার মডেলকে গুরুত্বহীন ডেটাতে ওভারইনডেক্সিং থেকে বাধা দেয়। যাইহোক, কিছু outliers আসলে গুরুত্বপূর্ণ, তাই সাবধানে ক্লিপ মান.

স্বাভাবিকীকরণ কৌশলগুলির সংক্ষিপ্তসার

স্বাভাবিকীকরণ কৌশল সূত্র কখন ব্যবহার করতে হবে
রৈখিক স্কেলিং
x=xxminxmaxxmin
যখন বৈশিষ্ট্যটি একটি নির্দিষ্ট পরিসরে সমানভাবে বিতরণ করা হয়।
জেড-স্কোর স্কেলিং
x=xμσ
যখন বৈশিষ্ট্য বিতরণে চরম আউটলায়ার থাকে না।
লগ স্কেলিং
x=log(x)
যখন বৈশিষ্ট্যটি শক্তি আইনের সাথে সামঞ্জস্যপূর্ণ হয়।
ক্লিপিং x>max হলে, x=max সেট করুন
যদি x<min হয়, x=min সেট করুন
যখন বৈশিষ্ট্যে চরম আউটলায়ার থাকে।

ব্যায়াম: আপনার জ্ঞান পরীক্ষা

নিম্নলিখিত বন্টন সহ একটি বৈশিষ্ট্য স্বাভাবিক করার জন্য কোন কৌশলটি সবচেয়ে উপযুক্ত হবে?

একটি হিস্টোগ্রাম 0 থেকে রেঞ্জের মান সহ ডেটার একটি ক্লাস্টার দেখাচ্ছে৷           200,000 পরিসরের জন্য ডেটা পয়েন্টের সংখ্যা ধীরে ধীরে বৃদ্ধি পায়           0 থেকে 100,000 পর্যন্ত এবং তারপর ধীরে ধীরে 100,000 থেকে কমে           200,000

ক্লিপিং
জেড-স্কোর স্কেলিং
লগ স্কেলিং
রৈখিক স্কেলিং

ধরুন আপনি একটি মডেল তৈরি করছেন যা ডেটা সেন্টারের ভিতরে পরিমাপ করা তাপমাত্রার উপর ভিত্তি করে ডেটা সেন্টারের উত্পাদনশীলতার পূর্বাভাস দেয়। নিম্নলিখিত ব্যতিক্রমগুলি সহ আপনার ডেটাসেটের প্রায় সমস্ত temperature মান 15 এবং 30 (সেলসিয়াস) এর মধ্যে পড়ে:

  • বছরে একবার বা দুবার, অত্যন্ত গরম দিনে, temperature 31 থেকে 45 এর মধ্যে কয়েকটি মান রেকর্ড করা হয়।
  • temperature প্রতি 1,000 তম বিন্দু প্রকৃত তাপমাত্রার পরিবর্তে 1,000 এ সেট করা হয়।

কোনটি temperature জন্য একটি যুক্তিসঙ্গত স্বাভাবিকীকরণ কৌশল হবে?

31 এবং 45 এর মধ্যে আউটলিয়ার মানগুলি মুছুন, তবে 1,000 এর মান সহ আউটলায়ারগুলি ক্লিপ করুন।
31 এবং 45 এর মধ্যে আউটলিয়ার মানগুলি ক্লিপ করুন, তবে 1,000 এর মান সহ আউটলায়ারগুলি মুছুন
সমস্ত বহিরাগত মুছুন
সমস্ত বহিরাগত ক্লিপ