ডেটা গুণমান এবং ব্যাখ্যা

"আবর্জনা আবর্জনা।"
- প্রারম্ভিক প্রোগ্রামিং প্রবাদ

প্রতিটি ML মডেলের নীচে, পারস্পরিক সম্পর্কের প্রতিটি গণনা এবং প্রতিটি ডেটা-ভিত্তিক নীতি সুপারিশ এক বা একাধিক কাঁচা ডেটাসেট রয়েছে৷ শেষ পণ্যগুলি যতই সুন্দর বা আকর্ষণীয় বা প্ররোচিত হোক না কেন, যদি অন্তর্নিহিত ডেটা ভুল, খারাপভাবে সংগ্রহ করা বা নিম্ন-মানের হয়, ফলাফল মডেল, ভবিষ্যদ্বাণী, ভিজ্যুয়ালাইজেশন বা উপসংহার একইভাবে নিম্নমানের হবে। যে কেউ ডেটাসেটের মডেলগুলিকে ভিজ্যুয়ালাইজ করে, বিশ্লেষণ করে এবং প্রশিক্ষণ দেয় তাদের ডেটার উত্স সম্পর্কে কঠিন প্রশ্ন জিজ্ঞাসা করা উচিত।

ডেটা-সংগ্রহকারী যন্ত্রগুলি ত্রুটিপূর্ণ হতে পারে বা খারাপভাবে ক্রমাঙ্কিত হতে পারে। ডেটা-সংগ্রহকারী মানুষ ক্লান্ত, দুষ্টু, অসংলগ্ন বা দুর্বল প্রশিক্ষিত হতে পারে। লোকেরা ভুল করে, এবং বিভিন্ন লোক অস্পষ্ট সংকেতের শ্রেণীবিভাগ নিয়ে যুক্তিসঙ্গতভাবে দ্বিমত পোষণ করতে পারে। ফলস্বরূপ, ডেটার গুণমান এবং বৈধতা ক্ষতিগ্রস্থ হতে পারে এবং ডেটা বাস্তবতা প্রতিফলিত করতে ব্যর্থ হতে পারে। বেন জোনস, এভয়েডিং ডেটা পিটফলস এর লেখক, এটিকে ডেটা-রিয়েলিটি গ্যাপ বলেছেন, পাঠককে মনে করিয়ে দিয়েছেন: "এটি অপরাধ নয়, এটি অপরাধের প্রতিবেদন করা হয়েছে । এটি উল্কা আঘাতের সংখ্যা নয়, এটি রেকর্ড করা উল্কা আঘাতের সংখ্যা।"

ডেটা-বাস্তবতার ব্যবধানের উদাহরণ:

  • জোন্স গ্রাফ 5-মিনিটের ব্যবধানে সময়ের পরিমাপ এবং 5-পাউন্ডের ব্যবধানে ওজন পরিমাপ করে, এই কারণে নয় যে এই ধরনের স্পাইক ডেটাতে বিদ্যমান, কিন্তু কারণ মানুষের ডেটা সংগ্রাহক, যন্ত্রগুলির বিপরীতে, তাদের সংখ্যাকে শূন্যের কাছাকাছি পূর্ণ করার প্রবণতা রয়েছে। অথবা 5. 1

  • 1985 সালে, জো ফরমান, ব্রায়ান গার্ডিনার এবং জোনাথন শ্যাঙ্কলিন, ব্রিটিশ অ্যান্টার্কটিক সার্ভে (BAS) এর জন্য কাজ করে দেখেন যে তাদের পরিমাপ দক্ষিণ গোলার্ধের ওজোন স্তরে একটি মৌসুমী গর্ত নির্দেশ করে। এটি NASA ডেটার বিরোধিতা করেছে, যা এমন কোনও গর্ত রেকর্ড করেনি। NASA পদার্থবিজ্ঞানী রিচার্ড স্টোলারস্কি তদন্ত করে দেখেছেন যে NASA-এর ডেটা-প্রসেসিং সফ্টওয়্যারটি এই ধারণার অধীনে ডিজাইন করা হয়েছিল যে ওজোনের মাত্রা কখনই একটি নির্দিষ্ট পরিমাণের নিচে নামতে পারে না এবং ওজোনের খুব কম রিডিং যেগুলি সনাক্ত করা হয়েছিল তা স্বয়ংক্রিয়ভাবে অযৌক্তিক বহিঃপ্রকাশকারী হিসাবে ফেলে দেওয়া হয়েছিল। 2

  • যন্ত্রগুলি ব্যর্থতার মোডের বৈচিত্র্য অনুভব করে, কখনও কখনও ডেটা সংগ্রহ করার সময়ও। অ্যাডাম রিংলার এবং অন্যান্য। 2021 কাগজ "কেন আমার স্কুইগলগুলি মজার দেখাচ্ছে?" যন্ত্রের ব্যর্থতার (এবং সংশ্লিষ্ট ব্যর্থতার) ফলে সিসমোগ্রাফ রিডিংয়ের একটি গ্যালারি সরবরাহ করুন। 3 উদাহরণ রিডআউটের কার্যকলাপ প্রকৃত ভূমিকম্পের কার্যকলাপের সাথে সঙ্গতিপূর্ণ নয়।

এমএল অনুশীলনকারীদের জন্য, এটি বোঝা গুরুত্বপূর্ণ:

  • যারা তথ্য সংগ্রহ করেছে
  • কিভাবে এবং কখন তথ্য সংগ্রহ করা হয়েছিল এবং কোন পরিস্থিতিতে
  • সংবেদনশীলতা এবং পরিমাপ যন্ত্রের অবস্থা
  • কোন বিশেষ প্রেক্ষাপটে যন্ত্রের ব্যর্থতা এবং মানুষের ত্রুটি কেমন হতে পারে
  • বৃত্তাকার সংখ্যার প্রতি মানুষের প্রবণতা এবং পছন্দসই উত্তর প্রদান করে

প্রায় সবসময়, ডেটা এবং বাস্তবতার মধ্যে অন্তত একটি ছোট পার্থক্য থাকে, যা স্থল সত্য নামেও পরিচিত। সেই পার্থক্যের জন্য অ্যাকাউন্টিং ভাল সিদ্ধান্তে আঁকতে এবং সঠিক সিদ্ধান্ত নেওয়ার চাবিকাঠি। এর মধ্যে রয়েছে সিদ্ধান্ত নেওয়া:

  • কোন সমস্যাগুলি এমএল দ্বারা সমাধান করা উচিত এবং করা উচিত।
  • কোন সমস্যা ML দ্বারা ভাল সমাধান করা হয় না.
  • যে সমস্যাগুলির এখনও ML দ্বারা সমাধান করার জন্য যথেষ্ট উচ্চ-মানের ডেটা নেই।

জিজ্ঞাসা করুন: কি, সবচেয়ে কঠোর এবং সবচেয়ে আক্ষরিক অর্থে, ডেটা দ্বারা যোগাযোগ করা হয়? ঠিক যেমন গুরুত্বপূর্ণ, ডেটা দ্বারা কী যোগাযোগ করা হয় না ?

ডেটাতে ময়লা

ডেটা সংগ্রহের শর্তগুলি তদন্ত করার পাশাপাশি, ডেটাসেটে নিজেই ভুল, ত্রুটি এবং শূন্য বা অবৈধ মান থাকতে পারে (যেমন ঘনত্বের নেতিবাচক পরিমাপ)। ক্রাউড-সোর্সড ডেটা বিশেষ করে অগোছালো হতে পারে। অজানা মানের ডেটাসেটের সাথে কাজ করলে ভুল ফলাফল হতে পারে।

সাধারণ সমস্যা অন্তর্ভুক্ত:

  • স্থান, প্রজাতি বা ব্র্যান্ডের নামগুলির মতো স্ট্রিং মানগুলির ভুল বানান৷
  • ভুল ইউনিট রূপান্তর, ইউনিট, বা বস্তুর ধরন
  • অনুপস্থিত মানের
  • ধারাবাহিক ভুল শ্রেণীবিভাগ বা ভুল লেবেলিং
  • গাণিতিক ক্রিয়াকলাপ থেকে অবশিষ্ট উল্লেখযোগ্য সংখ্যা যা একটি যন্ত্রের প্রকৃত সংবেদনশীলতা অতিক্রম করে

একটি ডেটাসেট পরিষ্কার করার ক্ষেত্রে প্রায়শই নাল এবং অনুপস্থিত মানগুলির পছন্দ অন্তর্ভুক্ত থাকে (সেগুলিকে শূন্য হিসাবে রাখতে হবে, সেগুলি বাদ দিতে হবে বা 0s প্রতিস্থাপন করতে হবে), একটি একক সংস্করণে বানান সংশোধন করা, ইউনিট এবং রূপান্তরগুলি ঠিক করা ইত্যাদি। একটি আরও উন্নত কৌশল হল অনুপস্থিত মানগুলিকে দায়ী করা, যা মেশিন লার্নিং ক্র্যাশ কোর্সের ডেটা বৈশিষ্ট্যগুলিতে বর্ণিত হয়েছে।

স্যাম্পলিং, সারভাইভারশিপ বায়াস এবং সারোগেট এন্ডপয়েন্ট সমস্যা

পরিসংখ্যান একটি বিশুদ্ধভাবে এলোমেলো নমুনা থেকে বৃহত্তর জনসংখ্যার ফলাফলের বৈধ এবং সঠিক এক্সট্রাপোলেশনের অনুমতি দেয়। ভারসাম্যহীন এবং অসম্পূর্ণ প্রশিক্ষণ ইনপুট সহ এই অনুমানের অপরীক্ষিত ভঙ্গুরতা অনেক ML অ্যাপ্লিকেশনগুলির উচ্চ-প্রোফাইল ব্যর্থতার দিকে পরিচালিত করেছে, যার মধ্যে রয়েছে পুনঃসূচনা পর্যালোচনা এবং পুলিশিং এর জন্য ব্যবহৃত মডেলগুলি। এটি জনসংখ্যাগত গোষ্ঠী সম্পর্কে পোলিং ব্যর্থতা এবং অন্যান্য ভুল সিদ্ধান্তের দিকে পরিচালিত করেছে। কৃত্রিম কম্পিউটার-উত্পাদিত ডেটার বাইরে বেশিরভাগ প্রসঙ্গে, বিশুদ্ধভাবে এলোমেলো নমুনাগুলি খুব ব্যয়বহুল এবং অর্জন করা খুব কঠিন। পরিবর্তে বিভিন্ন সমাধান এবং সাশ্রয়ী মূল্যের প্রক্সি ব্যবহার করা হয়, যা পক্ষপাতের বিভিন্ন উত্সের পরিচয় দেয়।

স্তরিত নমুনা পদ্ধতি ব্যবহার করার জন্য, উদাহরণস্বরূপ, আপনাকে বৃহত্তর জনসংখ্যার প্রতিটি নমুনাযুক্ত স্তরের ব্যাপকতা জানতে হবে। আপনি যদি এমন একটি প্রচলন অনুমান করেন যা আসলে ভুল, আপনার ফলাফলগুলি ভুল হবে। একইভাবে, অনলাইন পোলিং খুব কমই একটি জাতীয় জনসংখ্যার র্যান্ডম নমুনা, কিন্তু ইন্টারনেট-সংযুক্ত জনসংখ্যার একটি নমুনা (প্রায়শই একাধিক দেশ থেকে) যে জরিপটি দেখে এবং নিতে ইচ্ছুক। এই গোষ্ঠীটি সত্যিকারের র্যান্ডম নমুনা থেকে আলাদা হতে পারে। ভোটের প্রশ্নগুলি সম্ভাব্য প্রশ্নের একটি নমুনা। সেই পোল প্রশ্নের উত্তরগুলি আবার, উত্তরদাতাদের প্রকৃত মতামতের একটি এলোমেলো নমুনা নয়, কিন্তু মতামতের একটি নমুনা যা উত্তরদাতারা প্রদান করতে স্বাচ্ছন্দ্যবোধ করেন, যা তাদের প্রকৃত মতামত থেকে ভিন্ন হতে পারে।

ক্লিনিকাল স্বাস্থ্য গবেষকরা সারোগেট এন্ডপয়েন্ট সমস্যা নামে পরিচিত একটি অনুরূপ সমস্যার সম্মুখীন হন। যেহেতু রোগীর জীবনকালের উপর ওষুধের প্রভাব পরীক্ষা করতে অনেক বেশি সময় লাগে, তাই গবেষকরা প্রক্সি বায়োমার্কার ব্যবহার করেন যা জীবনকালের সাথে সম্পর্কিত বলে ধরে নেওয়া হয় কিন্তু নাও হতে পারে। কোলেস্টেরলের মাত্রাগুলি হার্ট অ্যাটাক এবং কার্ডিওভাসকুলার সমস্যাগুলির কারণে মৃত্যুর জন্য একটি সারোগেট এন্ডপয়েন্ট হিসাবে ব্যবহৃত হয়: যদি কোনও ওষুধ কোলেস্টেরলের মাত্রা কমিয়ে দেয় তবে এটি কার্ডিয়াক সমস্যাগুলির ঝুঁকিও কম বলে ধরে নেওয়া হয়। যাইহোক, পারস্পরিক সম্পর্কের সেই শৃঙ্খলটি বৈধ নাও হতে পারে, অন্যথায় কারণের ক্রম গবেষকের অনুমান ছাড়া অন্য হতে পারে। আরও উদাহরণ এবং বিশদ বিবরণের জন্য Weintraub et al., "সারোগেট এন্ডপয়েন্টের বিপদ" দেখুন। ML-এর সমতুল্য পরিস্থিতি হল প্রক্সি লেবেলগুলির

গণিতবিদ আব্রাহাম ওয়াল্ড বিখ্যাতভাবে একটি ডেটা স্যাম্পলিং সমস্যা চিহ্নিত করেছেন যা বর্তমানে সারভাইভারশিপ বায়াস নামে পরিচিত। যুদ্ধবিমানগুলি নির্দিষ্ট স্থানে বুলেটের ছিদ্র নিয়ে ফিরে আসছিল, অন্য জায়গায় নয়। মার্কিন সামরিক বাহিনী সবচেয়ে বেশি বুলেটের ছিদ্রযুক্ত অঞ্চলে প্লেনে আরও বর্ম যোগ করতে চেয়েছিল, কিন্তু ওয়াল্ডের গবেষণা গোষ্ঠী পরিবর্তে বুলেটের ছিদ্রবিহীন অঞ্চলে বর্ম যুক্ত করার সুপারিশ করেছে। তারা সঠিকভাবে অনুমান করেছে যে তাদের ডেটা নমুনা তির্যক ছিল কারণ সেই এলাকায় গুলি করা প্লেনগুলি এতটাই খারাপভাবে ক্ষতিগ্রস্ত হয়েছিল যে তারা বেসে ফিরে আসতে সক্ষম হয়নি।

বুলেটের গর্ত নির্দেশ করে লাল বিন্দু সহ সমতলের রূপরেখা
একটি বেঁচে থাকা WWII বোমারু বিমানের বুলেটের ক্ষতির অনুমানমূলক চিত্র

যদি একটি বর্ম-প্রস্তাবিত মডেলকে শুধুমাত্র ফিরে আসা যুদ্ধবিমানগুলির চিত্রের উপর প্রশিক্ষণ দেওয়া হত, ডেটাতে উপস্থিত বেঁচে থাকার পক্ষপাতের অন্তর্দৃষ্টি ছাড়াই, সেই মডেলটি আরও বুলেট ছিদ্রযুক্ত অঞ্চলগুলিকে শক্তিশালী করার সুপারিশ করত।

একটি গবেষণায় অংশগ্রহণের জন্য স্বেচ্ছাসেবী মানব বিষয় থেকে স্ব-নির্বাচনের পক্ষপাতিত্ব দেখা দিতে পারে। বন্দিরা একটি পুনর্বিবেচনা-হ্রাসকারী প্রোগ্রামের জন্য সাইন আপ করতে অনুপ্রাণিত, উদাহরণস্বরূপ, সাধারণ বন্দি জনসংখ্যার তুলনায় ভবিষ্যতে অপরাধ করার সম্ভাবনা কম জনসংখ্যার প্রতিনিধিত্ব করতে পারে। এই ফলাফল তির্যক হবে. 4

একটি আরও সূক্ষ্ম নমুনা সমস্যা হল প্রত্যাহার পক্ষপাত , মানুষের বিষয়ের স্মৃতির নমনীয়তা জড়িত। 1993 সালে, এডওয়ার্ড জিওভানুচি একটি বয়সের সাথে মিলে যাওয়া মহিলাদেরকে জিজ্ঞাসা করেছিলেন, যাদের মধ্যে কিছু ক্যান্সার ধরা পড়েছে, তাদের অতীতের খাদ্যাভ্যাস সম্পর্কে। একই মহিলারা তাদের ক্যান্সার নির্ণয়ের আগে খাদ্যাভ্যাসের উপর একটি সমীক্ষা করেছিলেন। জিওভানুচ্চি যা আবিষ্কার করেছিলেন তা হল যে ক্যান্সার নির্ণয়বিহীন মহিলারা তাদের ডায়েট সঠিকভাবে স্মরণ করে, কিন্তু স্তন ক্যান্সারে আক্রান্ত মহিলারা পূর্বে রিপোর্টের চেয়ে বেশি চর্বি খাওয়ার কথা জানিয়েছেন-অজ্ঞাতসারে তাদের ক্যান্সারের সম্ভাব্য (যদিও ভুল) ব্যাখ্যা প্রদান করে। 5

জিজ্ঞাসা করুন:

  • একটি ডেটাসেট আসলে নমুনা কি?
  • স্যাম্পলিং এর কয়টি স্তর রয়েছে?
  • নমুনার প্রতিটি স্তরে কি পক্ষপাত চালু করা যেতে পারে?
  • ব্যবহৃত প্রক্সি পরিমাপ (বায়োমার্কার বা অনলাইন পোল বা বুলেট হোল) কি প্রকৃত পারস্পরিক সম্পর্ক বা কার্যকারণ দেখাচ্ছে?
  • নমুনা এবং নমুনা পদ্ধতি থেকে কি অনুপস্থিত হতে পারে?

মেশিন লার্নিং ক্র্যাশ কোর্সের ফেয়ারনেস মডিউল জনসংখ্যাগত ডেটাসেটে পক্ষপাতের অতিরিক্ত উত্সগুলির জন্য মূল্যায়ন এবং প্রশমিত করার উপায়গুলি কভার করে৷

সংজ্ঞা এবং র‌্যাঙ্কিং

পরিভাষাগুলি স্পষ্টভাবে এবং সুনির্দিষ্টভাবে সংজ্ঞায়িত করুন, অথবা স্পষ্ট এবং সুনির্দিষ্ট সংজ্ঞা সম্পর্কে জিজ্ঞাসা করুন। কোন ডেটা বৈশিষ্ট্যগুলি বিবেচনাধীন রয়েছে এবং ঠিক কী ভবিষ্যদ্বাণী বা দাবি করা হচ্ছে তা বোঝার জন্য এটি প্রয়োজনীয়। চার্লস হুইলান, নেকেড স্ট্যাটিস্টিকসে , একটি অস্পষ্ট শব্দের উদাহরণ হিসেবে "ইউএস ম্যানুফ্যাকচারিং এর স্বাস্থ্য" প্রদান করেন। ইউএস ম্যানুফ্যাকচারিং "স্বাস্থ্যকর" কিনা তা সম্পূর্ণভাবে নির্ভর করে কিভাবে শব্দটি সংজ্ঞায়িত করা হয় তার উপর। দ্য ইকোনমিস্টে গ্রেগ আইপের মার্চ 2011 নিবন্ধটি এই অস্পষ্টতাকে চিত্রিত করে। যদি "স্বাস্থ্য" এর মেট্রিক হয় "উৎপাদন আউটপুট", তাহলে 2011 সালে, ইউএস ম্যানুফ্যাকচারিং ক্রমবর্ধমান স্বাস্থ্যকর ছিল। যদি "স্বাস্থ্য" মেট্রিককে "উৎপাদনমূলক কাজ" হিসাবে সংজ্ঞায়িত করা হয়, তবে, মার্কিন উত্পাদন পতনের দিকে ছিল। 6

র‌্যাঙ্কিং প্রায়শই একই ধরনের সমস্যায় ভোগে, যার মধ্যে রয়েছে র‌্যাঙ্কিংয়ের বিভিন্ন উপাদানে দেওয়া অস্পষ্ট বা অযৌক্তিক ওজন, র‌্যাঙ্কারের অসঙ্গতি এবং অবৈধ বিকল্প। ম্যালকম গ্ল্যাডওয়েল, দ্য নিউ ইয়র্কার -এ লিখেছেন, মিশিগান সুপ্রিম কোর্টের একজন প্রধান বিচারপতি টমাস ব্রেনানকে উল্লেখ করেছেন, যিনি একবার একশত আইনজীবীদের কাছে একটি সমীক্ষা পাঠিয়েছিলেন যাতে তারা গুণমানের ভিত্তিতে দশটি আইন স্কুলের র‍্যাঙ্কিং করতে বলে, কিছু বিখ্যাত, কিছু নয়। এই আইনজীবীরা পেন স্টেটের আইন স্কুলকে প্রায় পঞ্চম স্থানে স্থান দিয়েছেন, যদিও জরিপের সময়, পেন স্টেটের একটি আইন স্কুল ছিল না। 7 অনেক সুপরিচিত র‌্যাঙ্কিং-এ একইভাবে বিষয়গত খ্যাতিমূলক উপাদান অন্তর্ভুক্ত। জিজ্ঞাসা করুন কোন উপাদানগুলি একটি র্যাঙ্কিংয়ে যায় এবং কেন সেই উপাদানগুলিকে তাদের নির্দিষ্ট ওজন নির্ধারণ করা হয়েছিল।

ছোট সংখ্যা এবং বড় প্রভাব

আপনি যদি একটি মুদ্রা দুবার ফ্লিপ করেন তবে 100% মাথা বা 100% লেজ পাওয়া আশ্চর্যজনক নয়। একটি কয়েন চারবার ফ্লিপ করার পর 25% হেড পাওয়াও আশ্চর্যজনক নয়, তারপরে পরবর্তী চারটি ফ্লিপের জন্য 75% হেড পাওয়া যায়, যদিও এটি একটি আপাতদৃষ্টিতে প্রচুর বৃদ্ধি দেখায় (যা ভুলভাবে কয়েন ফ্লিপের সেটের মধ্যে খাওয়া একটি স্যান্ডউইচকে দায়ী করা যেতে পারে, বা অন্য কোন জাল ফ্যাক্টর)। কিন্তু মুদ্রা উল্টানোর সংখ্যা বাড়ার সাথে সাথে, 1,000 বা 2,000 বলুন, প্রত্যাশিত 50% থেকে বড় শতাংশ বিচ্যুতি অসম্ভাব্যভাবে অদৃশ্য হয়ে যায়।

একটি গবেষণায় পরিমাপ বা পরীক্ষামূলক বিষয়ের সংখ্যা প্রায়শই N হিসাবে উল্লেখ করা হয়। সম্ভাবনার কারণে বড় আনুপাতিক পরিবর্তনগুলি কম N সহ ডেটাসেট এবং নমুনাগুলিতে হওয়ার সম্ভাবনা অনেক বেশি।

একটি ডেটা কার্ডে একটি বিশ্লেষণ পরিচালনা বা একটি ডেটাসেট নথিভুক্ত করার সময়, N উল্লেখ করুন, যাতে অন্য লোকেরা গোলমাল এবং এলোমেলোতার প্রভাব বিবেচনা করতে পারে।

যেহেতু মডেলের গুণমান উদাহরণের সংখ্যার সাথে স্কেল করার প্রবণতা রাখে, কম এন সহ একটি ডেটাসেট নিম্নমানের মডেলে পরিণত হয়।

গড় প্রতি রিগ্রেশন

একইভাবে, সুযোগ থেকে কিছু প্রভাব ফেলে এমন কোনো পরিমাপ একটি প্রভাবের সাপেক্ষে যা গড়কে রিগ্রেশন বলে পরিচিত। এটি বর্ণনা করে যে কীভাবে একটি বিশেষভাবে চরম পরিমাপের পরে পরিমাপটি গড়ে, কম চরম বা গড়টির কাছাকাছি হওয়ার সম্ভাবনা রয়েছে, কারণ প্রথম স্থানে চরম পরিমাপ হওয়ার সম্ভাবনা কতটা অসম্ভব ছিল। প্রভাবটি আরও স্পষ্ট হয় যদি একটি বিশেষ করে গড়ের উপরে বা গড় থেকে নীচের গোষ্ঠীকে পর্যবেক্ষণের জন্য নির্বাচিত করা হয়, সেই দলটি জনসংখ্যার সবচেয়ে লম্বা লোক, একটি দলের সবচেয়ে খারাপ ক্রীড়াবিদ, বা যারা স্ট্রোকের ঝুঁকিতে সবচেয়ে বেশি। সবচেয়ে লম্বা মানুষদের বাচ্চারা তাদের বাবা-মায়ের থেকে গড়পড়তা খাটো হওয়ার সম্ভাবনা থাকে, সবচেয়ে খারাপ অ্যাথলিটরা ব্যতিক্রমীভাবে খারাপ মৌসুমের পরে আরও ভালো পারফর্ম করতে পারে, এবং যাদের স্ট্রোকের ঝুঁকি সবচেয়ে বেশি তারা কোনো হস্তক্ষেপ বা চিকিত্সার পরে ঝুঁকি কম দেখাতে পারে, কার্যকারক কারণের কারণে নয় বরং এলোমেলোতার বৈশিষ্ট্য এবং সম্ভাবনার কারণে।

গড় প্রতি রিগ্রেশনের প্রভাবগুলির জন্য একটি প্রশমন, যখন একটি উপরে-গড় বা কম-গড় গোষ্ঠীর জন্য হস্তক্ষেপ বা চিকিত্সা অন্বেষণ করা হয়, তখন কার্যকারক প্রভাবগুলিকে বিচ্ছিন্ন করার জন্য বিষয়গুলিকে একটি অধ্যয়ন গ্রুপ এবং একটি নিয়ন্ত্রণ গোষ্ঠীতে ভাগ করা হয়। এমএল প্রেক্ষাপটে, এই ঘটনাটি এমন কোনো মডেলের প্রতি অতিরিক্ত মনোযোগ দেওয়ার পরামর্শ দেয় যা ব্যতিক্রমী বা বাইরের মানগুলির পূর্বাভাস দেয়, যেমন:

  • চরম আবহাওয়া বা তাপমাত্রা
  • সেরা-পারফর্মিং স্টোর বা ক্রীড়াবিদ
  • একটি ওয়েবসাইটে সবচেয়ে জনপ্রিয় ভিডিও

যদি সময়ের সাথে সাথে এই ব্যতিক্রমী মানগুলির একটি মডেলের চলমান ভবিষ্যদ্বাণী বাস্তবতার সাথে মেলে না, উদাহরণস্বরূপ ভবিষ্যদ্বাণী করা যে একটি অত্যন্ত সফল স্টোর বা ভিডিও সফল হতে থাকবে যখন বাস্তবে তা না হয়, জিজ্ঞাসা করুন:

  • গড় রিগ্রেশন সমস্যা হতে পারে?
  • সবচেয়ে বেশি ওজনের বৈশিষ্ট্যগুলি কি প্রকৃতপক্ষে কম ওজনের বৈশিষ্ট্যগুলির চেয়ে বেশি ভবিষ্যদ্বাণীমূলক?
  • এই বৈশিষ্ট্যগুলির জন্য বেসলাইন মান আছে এমন ডেটা সংগ্রহ করা কি প্রায়শই শূন্য (কার্যকরভাবে একটি নিয়ন্ত্রণ গোষ্ঠী) মডেলের ভবিষ্যদ্বাণীগুলিকে পরিবর্তন করে?

তথ্যসূত্র

হাফ, ড্যারেল। পরিসংখ্যানের সাথে কীভাবে মিথ্যা বলা যায়। NY: WW Norton, 1954।

জোন্স, বেন। ডেটা পিটফল এড়ানো। হোবোকেন, এনজে: উইলি, 2020।

ও'কনর, কেলিন এবং জেমস ওয়েন ওয়েদারল। ভুল তথ্যের যুগ। নিউ হ্যাভেন: ইয়েল ইউপি, 2019।

রিংলার, অ্যাডাম, ডেভিড ম্যাসন, গাবি লাস্ক এবং মেরি টেম্পলটন। "কেন আমার স্কুইগলগুলি মজার দেখাচ্ছে? আপোসকৃত সিসমিক সিগন্যালের গ্যালারি।" সিসমোলজিক্যাল রিসার্চ লেটার 92 নং। 6 (জুলাই 2021)। DOI: 10.1785/0220210094

Weintraub, William S, Thomas F. Luscher, এবং Stuart Pocock. "সারোগেট এন্ডপয়েন্টের বিপদ।" ইউরোপীয় হার্ট জার্নাল 36 নং. 33 (সেপ্টেম্বর 2015): 2212–2218। DOI: 10.1093/eurheartj/ehv164

হুইলান, চার্লস। নগ্ন পরিসংখ্যান: ডেটা থেকে ভীতি দূর করা। NY: WW Norton, 2013

ইমেজ রেফারেন্স

"সারভাইভারশিপ পক্ষপাত।" মার্টিন গ্র্যান্ডজিন, ম্যাকগেডন এবং ক্যামেরন মোল 2021। CC BY-SA 4.0। উৎস


  1. জোন্স 25-29।

  2. O'Connor এবং Weatherall 22-3.

  3. রিংলিং এট আল।

  4. হুইলান 120.

  5. সিদ্ধার্থ মুখোপাধ্যায়, "সেলফোন কি ব্রেন ক্যান্সার সৃষ্টি করে?" নিউ ইয়র্ক টাইমস-এ, এপ্রিল 13, 2011। হুইলান 122-এ উদ্ধৃত । ↩

  6. হুইলান 39-40।

  7. ম্যালকম গ্ল্যাডওয়েল, "দ্য অর্ডার অফ থিংস" , দ্য নিউ ইয়র্কার ফেব্রুয়ারী 14, 2011-এ। হুইলান 56-এ উদ্ধৃত । ↩