এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

বিশ্লেষণ ফাঁদ

"সমস্ত মডেল ভুল কিন্তু কিছু দরকারী।" — জর্জ বক্স, 1978

যদিও শক্তিশালী, পরিসংখ্যানগত কৌশলগুলির সীমাবদ্ধতা রয়েছে। এই সীমাবদ্ধতাগুলি বোঝা একজন গবেষককে গাফেল এবং ভুল দাবিগুলি এড়াতে সাহায্য করতে পারে, যেমন বিএফ স্কিনারের দাবি যে শেক্সপিয়র এলোমেলোতার পূর্বাভাসের চেয়ে বেশি অনুপ্রেরণা ব্যবহার করেননি। (স্কিনারের অধ্যয়ন কম ক্ষমতাসম্পন্ন ছিল। ¹ )

অনিশ্চয়তা এবং ত্রুটি বার

আপনার বিশ্লেষণে অনিশ্চয়তা উল্লেখ করা গুরুত্বপূর্ণ। অন্যান্য ব্যক্তির বিশ্লেষণে অনিশ্চয়তা পরিমাপ করা সমানভাবে গুরুত্বপূর্ণ। ডেটা পয়েন্ট যা একটি গ্রাফে একটি প্রবণতা প্লট করে বলে মনে হয়, কিন্তু ওভারল্যাপিং ত্রুটি বার রয়েছে, কোনও প্যাটার্নকে নির্দেশ করতে পারে না। একটি নির্দিষ্ট অধ্যয়ন বা পরিসংখ্যানগত পরীক্ষা থেকে দরকারী সিদ্ধান্তগুলি আঁকতে অনিশ্চয়তাও খুব বেশি হতে পারে। যদি একটি গবেষণা অধ্যয়নের জন্য লট-লেভেল নির্ভুলতার প্রয়োজন হয়, তাহলে +/- 500 মিটার অনিশ্চয়তা সহ একটি ভূ-স্থানিক ডেটাসেট ব্যবহারযোগ্য হওয়ার জন্য খুব বেশি অনিশ্চয়তা থাকে।

বিকল্পভাবে, সিদ্ধান্ত গ্রহণের প্রক্রিয়ার সময় অনিশ্চয়তার মাত্রা কার্যকর হতে পারে। ফলাফলে 20% অনিশ্চয়তার সাথে একটি নির্দিষ্ট জল চিকিত্সার সমর্থনকারী ডেটা সেই অনিশ্চয়তা মোকাবেলায় প্রোগ্রামটির অব্যাহত পর্যবেক্ষণের সাথে সেই জল চিকিত্সার বাস্তবায়নের জন্য একটি সুপারিশের দিকে নিয়ে যেতে পারে।

বায়েসিয়ান নিউরাল নেটওয়ার্কগুলি একক মানের পরিবর্তে মানগুলির বন্টনের পূর্বাভাস দিয়ে অনিশ্চয়তার পরিমাণ নির্ধারণ করতে পারে।

অপ্রাসঙ্গিকতা

ভূমিকায় আলোচনা করা হয়েছে, ডেটা এবং বাস্তবতার মধ্যে সর্বদা অন্তত একটি ছোট ব্যবধান থাকে। বুদ্ধিমান এমএল অনুশীলনকারীকে জিজ্ঞাসা করা প্রশ্নটির সাথে ডেটাসেট প্রাসঙ্গিক কিনা তা নিশ্চিত করা উচিত।

হাফ একটি প্রারম্ভিক জনমত সমীক্ষার বর্ণনা করেছেন যেটিতে দেখা গেছে যে কালো আমেরিকানদের জন্য একটি ভাল জীবনযাপন করা কতটা সহজ ছিল এই প্রশ্নের শ্বেতাঙ্গ আমেরিকানদের উত্তর সরাসরি এবং বিপরীতভাবে কালো আমেরিকানদের প্রতি তাদের সহানুভূতির স্তরের সাথে সম্পর্কিত। জাতিগত বিদ্বেষ বৃদ্ধির সাথে সাথে প্রত্যাশিত অর্থনৈতিক সুযোগ সম্পর্কে প্রতিক্রিয়াগুলি আরও বেশি আশাবাদী হয়ে ওঠে। এটাকে অগ্রগতির লক্ষণ হিসেবে ভুল বোঝানো যেত। যাইহোক, সমীক্ষাটি সেই সময়ে কালো আমেরিকানদের জন্য উপলব্ধ প্রকৃত অর্থনৈতিক সুযোগগুলি সম্পর্কে কিছুই দেখাতে পারেনি, এবং চাকরির বাজারের বাস্তবতা সম্পর্কে সিদ্ধান্ত নেওয়ার জন্য উপযুক্ত ছিল না - শুধুমাত্র জরিপ উত্তরদাতাদের মতামত। সংগৃহীত তথ্য আসলে চাকরির বাজারের অবস্থার সাথে অপ্রাসঙ্গিক ছিল। ²

আপনি উপরে বর্ণিত সমীক্ষার ডেটার উপর একটি মডেলকে প্রশিক্ষণ দিতে পারেন, যেখানে আউটপুট আসলে সুযোগের পরিবর্তে আশাবাদ পরিমাপ করে। কিন্তু যেহেতু ভবিষ্যদ্বাণী করা সুযোগগুলি প্রকৃত সুযোগের সাথে অপ্রাসঙ্গিক, আপনি যদি দাবি করেন যে মডেলটি প্রকৃত সুযোগের ভবিষ্যদ্বাণী করছে, তাহলে আপনি মডেলটি যা ভবিষ্যদ্বাণী করে তা ভুলভাবে উপস্থাপন করবেন।

বিভ্রান্ত করে

একটি বিভ্রান্তিকর পরিবর্তনশীল , বিভ্রান্তিকর বা কোফ্যাক্টর হল একটি পরিবর্তনশীল যা অধ্যয়নের অধীনে নয় যা অধ্যয়নাধীন ভেরিয়েবলগুলিকে প্রভাবিত করে এবং ফলাফলগুলিকে বিকৃত করতে পারে। উদাহরণস্বরূপ, একটি এমএল মডেল বিবেচনা করুন যা জনস্বাস্থ্য নীতি বৈশিষ্ট্যগুলির উপর ভিত্তি করে একটি ইনপুট দেশের জন্য মৃত্যুর হারের পূর্বাভাস দেয়। ধরুন যে মধ্যম বয়স একটি বৈশিষ্ট্য নয়। আরও ধরুন যে কিছু দেশে অন্যদের তুলনায় বয়স্ক জনসংখ্যা রয়েছে। মধ্য বয়সের বিভ্রান্তিকর পরিবর্তনশীলকে উপেক্ষা করে, এই মডেলটি ত্রুটিপূর্ণ মৃত্যুর হারের পূর্বাভাস দিতে পারে।

মার্কিন যুক্তরাষ্ট্রে, জাতি প্রায়ই আর্থ-সামাজিক শ্রেণীর সাথে দৃঢ়ভাবে সম্পর্কযুক্ত, যদিও শুধুমাত্র জাতি, এবং শ্রেণী নয়, মৃত্যুর তথ্যের সাথে রেকর্ড করা হয়। শ্রেণী-সম্পর্কিত বিভ্রান্তি, যেমন স্বাস্থ্যসেবা, পুষ্টি, বিপজ্জনক কাজ এবং নিরাপদ আবাসনের অ্যাক্সেস, জাতি থেকে মৃত্যুর হারের উপর শক্তিশালী প্রভাব ফেলতে পারে, কিন্তু উপেক্ষিত হতে পারে কারণ সেগুলি ডেটাসেটে অন্তর্ভুক্ত নয়। ³ এই বিভ্রান্তিগুলি সনাক্ত করা এবং নিয়ন্ত্রণ করা দরকারী মডেলগুলি তৈরি করার জন্য এবং অর্থপূর্ণ এবং সঠিক সিদ্ধান্তগুলি আঁকার জন্য গুরুত্বপূর্ণ।

যদি একটি মডেল বিদ্যমান মৃত্যুর তথ্যের উপর প্রশিক্ষিত হয়, যার মধ্যে জাতি অন্তর্ভুক্ত থাকে কিন্তু শ্রেণী নয়, তবে এটি বর্ণের উপর ভিত্তি করে মৃত্যুর পূর্বাভাস দিতে পারে, এমনকি যদি শ্রেণীটি মৃত্যুহারের একটি শক্তিশালী ভবিষ্যদ্বাণী করে। এর ফলে কার্যকারণ সম্পর্কে ভুল অনুমান এবং রোগীর মৃত্যুহার সম্পর্কে ভুল ভবিষ্যদ্বাণী হতে পারে। এমএল অনুশীলনকারীদের জিজ্ঞাসা করা উচিত যে তাদের ডেটাতে বিভ্রান্তি বিদ্যমান কিনা, সেইসাথে তাদের ডেটাসেট থেকে কী অর্থপূর্ণ ভেরিয়েবল অনুপস্থিত হতে পারে।

1985 সালে, নার্সেস হেলথ স্টাডি, হার্ভার্ড মেডিকেল স্কুল এবং হার্ভার্ড স্কুল অফ পাবলিক হেলথের একটি পর্যবেক্ষণমূলক সমন্বিত সমীক্ষা, দেখা গেছে যে ইস্ট্রোজেন প্রতিস্থাপন থেরাপি গ্রহণকারী সমগোত্রীয় সদস্যদের হার্ট অ্যাটাকের ঘটনা কম ছিল সেই দলটির সদস্যদের তুলনায় যারা কখনও ইস্ট্রোজেন গ্রহণ করেননি। ফলস্বরূপ, 2002 সালে একটি ক্লিনিকাল গবেষণা দীর্ঘমেয়াদী ইস্ট্রোজেন থেরাপির দ্বারা সৃষ্ট স্বাস্থ্য ঝুঁকি চিহ্নিত না করা পর্যন্ত, ডাক্তাররা তাদের মেনোপজ এবং পোস্টমেনোপজাল রোগীদের জন্য কয়েক দশক ধরে ইস্ট্রোজেন নির্ধারণ করেছিলেন। মেনোপজ-পরবর্তী মহিলাদের জন্য ইস্ট্রোজেন নির্ধারণের অভ্যাস বন্ধ হয়ে যায়, তবে আনুমানিক কয়েক হাজার অকাল মৃত্যুর আগে নয়।

একাধিক বিভ্রান্তি সমিতির কারণ হতে পারে। এপিডেমিওলজিস্টরা দেখেছেন যে মহিলারা যারা হরমোন প্রতিস্থাপন থেরাপি গ্রহণ করেন না, তাদের তুলনায় তারা পাতলা, আরও শিক্ষিত, ধনী, তাদের স্বাস্থ্য সম্পর্কে আরও সচেতন এবং ব্যায়াম করার সম্ভাবনা বেশি। বিভিন্ন গবেষণায়, শিক্ষা এবং সম্পদ হৃদরোগের ঝুঁকি কমাতে দেখা গেছে। এই প্রভাবগুলি ইস্ট্রোজেন থেরাপি এবং হার্ট অ্যাটাকের মধ্যে স্পষ্ট সম্পর্ককে বিভ্রান্ত করবে। ⁴

ঋণাত্মক সংখ্যা সহ শতাংশ

নেতিবাচক সংখ্যা উপস্থিত হলে শতাংশ ব্যবহার এড়িয়ে চলুন, ⁵ কারণ সমস্ত ধরণের অর্থপূর্ণ লাভ এবং ক্ষতি অস্পষ্ট হতে পারে। অনুমান করুন, সহজ গণিতের খাতিরে, রেস্টুরেন্ট শিল্পে 2 মিলিয়ন চাকরি রয়েছে। যদি ইন্ডাস্ট্রি 2020 সালের মার্চের শেষের দিকে সেইগুলির মধ্যে 1 মিলিয়ন চাকরি হারায়, দশ মাসের জন্য কোনও নেট পরিবর্তনের অভিজ্ঞতা না পায় এবং 2021 সালের ফেব্রুয়ারির শুরুতে 900,000 চাকরি ফিরে পায়, তাহলে 2021 সালের মার্চের শুরুতে বছরের তুলনায় বছরের তুলনায় শুধুমাত্র 5% রেস্তোরাঁর চাকরি হারানোর পরামর্শ দেবে। অন্য কোনো পরিবর্তন নেই বলে ধরে নিলে, 2021 সালের এপ্রিলের শেষে বছরের পর বছর তুলনা করলে রেস্তোরাঁর চাকরিতে 90% বৃদ্ধির পরামর্শ দেওয়া হবে, যা বাস্তবতার একটি সম্পূর্ণ ভিন্ন চিত্র।

প্রকৃত সংখ্যা পছন্দ করুন, যথাযত স্বাভাবিক। আরও তথ্যের জন্য সংখ্যাসূচক ডেটা নিয়ে কাজ করা দেখুন।

পোস্ট-হক ফ্যালাসি এবং অব্যবহারযোগ্য পারস্পরিক সম্পর্ক

পোস্ট-হক ফ্যালাসি হল অনুমান যে, ঘটনা A এর পরে ইভেন্ট B, ইভেন্ট A এর ফলে B ঘটনা ঘটেছিল। আরও সহজ করে বললে, এটি একটি কারণ-এবং-প্রভাব সম্পর্ক ধরে নিচ্ছে যেখানে একটির অস্তিত্ব নেই। আরও সহজভাবে: পারস্পরিক সম্পর্ক কার্যকারণ প্রমাণ করে না।

একটি সুস্পষ্ট কারণ-ও-প্রভাব সম্পর্ক ছাড়াও, পারস্পরিক সম্পর্কও হতে পারে:

বিশুদ্ধ সুযোগ (মেইন এবং মার্জারিন সেবনের মধ্যে বিবাহবিচ্ছেদের হারের মধ্যে একটি শক্তিশালী পারস্পরিক সম্পর্ক সহ চিত্রের জন্য টাইলার ভিজেনের স্ফুরিয়াস পারস্পরিক সম্পর্ক দেখুন)।
দুটি ভেরিয়েবলের মধ্যে একটি বাস্তব সম্পর্ক, যদিও এটি অস্পষ্ট রয়ে গেছে কোন পরিবর্তনশীলটি কার্যকারক এবং কোনটি প্রভাবিত।
একটি তৃতীয়, পৃথক কারণ যা উভয় ভেরিয়েবলকে প্রভাবিত করে, যদিও পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবল একে অপরের সাথে সম্পর্কহীন। উদাহরণস্বরূপ, বৈশ্বিক মুদ্রাস্ফীতি ইয়ট এবং সেলারি উভয়ের দাম বাড়াতে পারে। ⁶

বিদ্যমান ডেটার অতীত পারস্পরিক সম্পর্ককে এক্সট্রাপোলেট করাও ঝুঁকিপূর্ণ। হাফ নির্দেশ করে যে কিছু বৃষ্টি ফসলের উন্নতি ঘটাবে, কিন্তু অত্যধিক বৃষ্টি তাদের ক্ষতি করবে; বৃষ্টি এবং ফসলের ফলাফলের মধ্যে সম্পর্ক অরৈখিক। ⁷ (অরৈখিক সম্পর্ক সম্পর্কে আরও জানার জন্য পরবর্তী দুটি বিভাগ দেখুন।) জোনস নোট করেছেন যে বিশ্ব যুদ্ধ এবং দুর্ভিক্ষের মতো অপ্রত্যাশিত ঘটনাতে পূর্ণ, যা ভবিষ্যতের পূর্বাভাস সময় সিরিজের ডেটাকে প্রচুর পরিমাণে অনিশ্চয়তার দিকে নিয়ে যায়। ⁸

উপরন্তু, এমনকি কারণ এবং প্রভাবের উপর ভিত্তি করে একটি প্রকৃত পারস্পরিক সম্পর্ক সিদ্ধান্ত নেওয়ার জন্য সহায়ক নাও হতে পারে। হাফ উদাহরণ হিসেবে 1950-এর দশকে বিবাহযোগ্যতা এবং কলেজ শিক্ষার মধ্যে পারস্পরিক সম্পর্ক দেয়। যে মহিলারা কলেজে গিয়েছিল তাদের বিয়ে করার সম্ভাবনা কম ছিল, তবে এমনও হতে পারে যে মহিলারা কলেজে গিয়েছিলেন তাদের বিয়ে করার প্রতি কম ঝোঁক ছিল। যদি তা হয়, কলেজ শিক্ষা তাদের বিয়ে করার সম্ভাবনা পরিবর্তন করেনি। ⁹

যদি একটি বিশ্লেষণ একটি ডেটাসেটে দুটি ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ক সনাক্ত করে, জিজ্ঞাসা করুন:

এটা কি ধরনের পারস্পরিক সম্পর্ক: কারণ-ও-প্রভাব, বানোয়াট, অজানা সম্পর্ক, বা তৃতীয় পরিবর্তনশীল দ্বারা সৃষ্ট?
ডেটা থেকে এক্সট্রাপোলেশন কতটা ঝুঁকিপূর্ণ? প্রশিক্ষণ ডেটাসেটে না থাকা ডেটার প্রতিটি মডেলের ভবিষ্যদ্বাণী, কার্যত, ডেটা থেকে ইন্টারপোলেশন বা এক্সট্রাপোলেশন।
পারস্পরিক সম্পর্ক দরকারী সিদ্ধান্ত নিতে ব্যবহার করা যেতে পারে? উদাহরণস্বরূপ, আশাবাদ ক্রমবর্ধমান মজুরির সাথে দৃঢ়ভাবে সম্পর্কযুক্ত হতে পারে, কিন্তু কিছু বৃহৎ টেক্সট ডেটার অনুভূতি বিশ্লেষণ, যেমন একটি নির্দিষ্ট দেশের ব্যবহারকারীদের সামাজিক মিডিয়া পোস্ট, সেই দেশে মজুরি বৃদ্ধির পূর্বাভাস দিতে উপযোগী হবে না।

একটি মডেলকে প্রশিক্ষণ দেওয়ার সময়, এমএল অনুশীলনকারীরা সাধারণত লেবেলের সাথে দৃঢ়ভাবে সম্পর্কযুক্ত বৈশিষ্ট্যগুলি সন্ধান করে। যদি বৈশিষ্ট্য এবং লেবেলের মধ্যে সম্পর্ক ভালভাবে বোঝা না যায়, তাহলে এটি এই বিভাগে বর্ণিত সমস্যাগুলির দিকে নিয়ে যেতে পারে, যার মধ্যে রয়েছে ভুয়া পারস্পরিক সম্পর্কের উপর ভিত্তি করে মডেলগুলি এবং এমন মডেলগুলি যা অনুমান করে যে ঐতিহাসিক প্রবণতাগুলি ভবিষ্যতে চলতে থাকবে, যখন বাস্তবে তারা তা করে না৷

রৈখিক পক্ষপাত

"লিনিয়ার থিংকিং ইন এ ননলাইনার ওয়ার্ল্ড" -এ বার্ট ডি ল্যাংহে, স্টেফানো পুন্টোনি এবং রিচার্ড ল্যারিক রৈখিক পক্ষপাতকে মানব মস্তিষ্কের রৈখিক সম্পর্কের আশা করার এবং খোঁজার প্রবণতা হিসাবে বর্ণনা করেছেন, যদিও অনেক ঘটনা অরৈখিক। মানুষের মনোভাব এবং আচরণের মধ্যে সম্পর্ক, উদাহরণস্বরূপ, একটি উত্তল বক্ররেখা নয়। 2007 সালের একটি জার্নাল অফ কনজিউমার পলিসি পেপারে ডি ল্যাংহে এট আল., জেনি ভ্যান ডোর্ন এট আল দ্বারা উদ্ধৃত। পরিবেশ সম্পর্কে জরিপ উত্তরদাতাদের উদ্বেগ এবং জৈব পণ্যের উত্তরদাতাদের ক্রয় মধ্যে সম্পর্ক মডেল. যারা পরিবেশ নিয়ে সবচেয়ে বেশি উদ্বিগ্ন তারা আরও জৈব পণ্য কিনেছিলেন, কিন্তু অন্য সমস্ত উত্তরদাতাদের মধ্যে খুব কম পার্থক্য ছিল।

জৈব পণ্যের ক্রয় বনাম পরিবেশগত উদ্বেগের স্কোর, একেবারে ডানদিকে উপরের দিকে একটি তীক্ষ্ণ উত্তল বক্ররেখা সহ বেশিরভাগ সমতল রেখা দেখাচ্ছে — জৈব কেনাকাটার গ্রাফ বনাম পরিবেশগত উদ্বেগের স্কোর সরলীকৃত এবং ভ্যান ডোর্ন এট আল থেকে অভিযোজিত। কাগজ

মডেল বা অধ্যয়ন ডিজাইন করার সময়, অরৈখিক সম্পর্কের সম্ভাবনা বিবেচনা করুন। যেহেতু A/B টেস্টিং অরৈখিক সম্পর্ক মিস করতে পারে, তৃতীয়, মধ্যবর্তী অবস্থা, C পরীক্ষা করার কথাও বিবেচনা করুন। এছাড়াও বিবেচনা করুন যে প্রাথমিক আচরণ যা রৈখিক বলে মনে হয় তা রৈখিক হতে থাকবে, বা ভবিষ্যতে ডেটা আরও লগারিদমিক বা অন্যান্য অরৈখিক আচরণ দেখাতে পারে কিনা।

লগারিদমিক ডেটার জন্য একটি রৈখিক ফিট প্রথমটির জন্য ভাল ফিট দেখাচ্ছে৷ ডেটার অর্ধেক এবং তার পরে ক্রমবর্ধমান খারাপ ফিট। — লগারিদমিক ডেটাতে দুর্বল লিনিয়ার ফিট হওয়ার উদাহরণ

এই অনুমানমূলক উদাহরণ লগারিদমিক ডেটার জন্য একটি ভুল লিনিয়ার ফিট দেখায়। যদি শুধুমাত্র প্রথম কয়েকটি ডেটা পয়েন্ট পাওয়া যায়, তাহলে ভেরিয়েবলের মধ্যে চলমান রৈখিক সম্পর্ক অনুমান করা লোভনীয় এবং ভুল উভয়ই হবে।

লিনিয়ার ইন্টারপোলেশন

ডেটা পয়েন্টের মধ্যে যে কোনো ইন্টারপোলেশন পরীক্ষা করুন, কারণ ইন্টারপোলেশন কাল্পনিক বিন্দুর পরিচয় দেয়, এবং বাস্তব পরিমাপের মধ্যে ব্যবধানে অর্থপূর্ণ ওঠানামা থাকতে পারে। উদাহরণ হিসাবে, রৈখিক ইন্টারপোলেশনের সাথে সংযুক্ত চারটি ডেটা পয়েন্টের নিম্নলিখিত ভিজ্যুয়ালাইজেশন বিবেচনা করুন:

সময়ের সাথে প্রশস্ততা একটি সরল রেখার সাথে সংযুক্ত চারটি বিন্দু দেখাচ্ছে। — লিনিয়ার ইন্টারপোলেশনের উদাহরণ।

তারপরে একটি লিনিয়ার ইন্টারপোলেশন দ্বারা মুছে ফেলা ডেটা পয়েন্টগুলির মধ্যে ওঠানামার এই উদাহরণটি বিবেচনা করুন:

আগের মতো একই পয়েন্ট, কিন্তু দ্বিতীয় এবং তৃতীয় পয়েন্টের মধ্যে বিশাল ওঠানামা সহ। — ডেটা পয়েন্টের মধ্যে অর্থপূর্ণ ওঠানামার (ভূমিকম্প) উদাহরণ।

উদাহরণটি তৈরি করা হয়েছে কারণ সিসমোগ্রাফগুলি ক্রমাগত ডেটা সংগ্রহ করে, এবং তাই এই ভূমিকম্পটি মিস করা হবে না। কিন্তু এটি ইন্টারপোলেশন দ্বারা তৈরি অনুমান এবং ডেটা অনুশীলনকারীরা যে বাস্তব ঘটনাগুলি মিস করতে পারে তা চিত্রিত করার জন্য দরকারী।

রুঞ্জের ঘটনা

রুঞ্জের ঘটনা , যা "পলিনমিয়াল উইগল" নামেও পরিচিত, রৈখিক ইন্টারপোলেশন এবং রৈখিক পক্ষপাত থেকে বর্ণালীর বিপরীত প্রান্তে একটি সমস্যা। ডেটাতে একটি বহুপদী ইন্টারপোলেশন ফিট করার সময়, খুব বেশি ডিগ্রী (ডিগ্রী, বা ক্রম, বহুপদী সমীকরণের সর্বোচ্চ সূচক) সহ একটি বহুপদ ব্যবহার করা সম্ভব। এটি প্রান্তে অদ্ভুত দোলন তৈরি করে। উদাহরণস্বরূপ, ডিগ্রী 11 এর একটি বহুপদী ইন্টারপোলেশন প্রয়োগ করা, যার অর্থ হল বহুপদী সমীকরণের সর্বোচ্চ-ক্রম শব্দটি $x^{11}$, মোটামুটি রৈখিক ডেটাতে, ডেটার পরিসরের শুরুতে এবং শেষে উল্লেখযোগ্যভাবে খারাপ ভবিষ্যদ্বাণীর ফলাফল:

মোটামুটি লিনিয়ার ডিগ্রী 11 এর বহুপদী ইন্টারপোলেশনের সাথে লাগানো ডেটা, একটি তীক্ষ্ণ দেখাচ্ছে প্রথম দুটি ডেটা পয়েন্টের মধ্যে ঊর্ধ্বগামী স্পাইক এবং একটি তীক্ষ্ণ নিম্নগামী স্পাইক শেষ দুটি ডেটা পয়েন্টের মধ্যে — বহুপদী ওয়াইগলের উদাহরণ

এমএল প্রেক্ষাপটে, একটি সাদৃশ্যপূর্ণ ঘটনাটি ওভারফিটিং ।

সনাক্ত করতে পরিসংখ্যানগত ব্যর্থতা

কখনও কখনও একটি পরিসংখ্যান পরীক্ষা একটি ছোট প্রভাব সনাক্ত করতে খুব কম শক্তি হতে পারে। পরিসংখ্যানগত বিশ্লেষণে কম শক্তি মানে সঠিকভাবে সত্য ঘটনা সনাক্ত করার একটি কম সুযোগ, এবং সেইজন্য মিথ্যা নেতিবাচক হওয়ার একটি উচ্চ সম্ভাবনা। ক্যাথরিন বোতাম এট আল। নেচারে লিখেছেন: "যখন একটি প্রদত্ত ক্ষেত্রের অধ্যয়নগুলি 20% শক্তির সাথে ডিজাইন করা হয়, এর মানে হল যে যদি সেই ক্ষেত্রে 100টি প্রকৃত অ-শূন্য প্রভাব আবিষ্কৃত হয়, এই গবেষণাগুলি তাদের মধ্যে শুধুমাত্র 20টি আবিষ্কার করবে বলে আশা করা হচ্ছে।" নমুনার আকার বৃদ্ধি কখনও কখনও সাহায্য করতে পারে, যেমন যত্নশীল অধ্যয়ন নকশা করতে পারে।

ML-এ একটি সাদৃশ্যপূর্ণ পরিস্থিতি হ'ল শ্রেণিবিন্যাসের সমস্যা এবং একটি শ্রেণিবিন্যাস প্রান্তিকের পছন্দ। উচ্চ থ্রেশহোল্ডের একটি পছন্দের ফলে কম মিথ্যা ইতিবাচক এবং আরও মিথ্যা নেতিবাচক ফলাফল হয়, যখন একটি নিম্ন প্রান্তিকের ফলাফল আরও মিথ্যা ইতিবাচক এবং কম মিথ্যা নেতিবাচক ফলাফল দেয়।

পরিসংখ্যানগত শক্তির সমস্যাগুলি ছাড়াও, যেহেতু পারস্পরিক সম্পর্ক রৈখিক সম্পর্ক সনাক্ত করার জন্য ডিজাইন করা হয়েছে, ভেরিয়েবলগুলির মধ্যে অরৈখিক সম্পর্কগুলি মিস করা যেতে পারে। একইভাবে, ভেরিয়েবল একে অপরের সাথে সম্পর্কিত হতে পারে কিন্তু পরিসংখ্যানগতভাবে সম্পর্কযুক্ত নয়। ভেরিয়েবলগুলিও নেতিবাচকভাবে পারস্পরিক সম্পর্কযুক্ত কিন্তু সম্পূর্ণ সম্পর্কহীন হতে পারে, যা বার্কসনের প্যারাডক্স বা বার্কসনের ফ্যালাসি নামে পরিচিত। বার্কসনের বিভ্রান্তির ক্লাসিক উদাহরণ হ'ল হাসপাতালে ভর্তি রোগীর জনসংখ্যার (সাধারণ জনসংখ্যার তুলনায়) দেখার সময় যে কোনও ঝুঁকির কারণ এবং গুরুতর রোগের মধ্যে মিথ্যা নেতিবাচক সম্পর্ক, যা বাছাই প্রক্রিয়া থেকে উদ্ভূত হয় (হাসপাতালে ভর্তির প্রয়োজনে যথেষ্ট গুরুতর অবস্থা)।

এই পরিস্থিতিতে কোন প্রযোজ্য কিনা বিবেচনা করুন.

পুরানো মডেল এবং অবৈধ অনুমান

এমনকি ভাল মডেলগুলি সময়ের সাথে সাথে অধঃপতন হতে পারে কারণ আচরণ (এবং বিশ্ব, সেই বিষয়ে) পরিবর্তিত হতে পারে। Netflix-এর প্রাথমিক ভবিষ্যদ্বাণীমূলক মডেলগুলিকে অবসর নিতে হয়েছিল কারণ তাদের গ্রাহক বেস তরুণ, প্রযুক্তি-বুদ্ধিমান ব্যবহারকারীদের থেকে সাধারণ জনগণের মধ্যে পরিবর্তিত হয়েছে। ¹⁰

মডেলগুলিতে নীরব এবং ভুল অনুমানও থাকতে পারে যা 2008 সালের বাজার বিপর্যয়ের মতো মডেলের বিপর্যয়মূলক ব্যর্থতা পর্যন্ত লুকিয়ে থাকতে পারে। আর্থিক শিল্পের ভ্যালু অ্যাট রিস্ক (VaR) মডেলগুলি যে কোনও ব্যবসায়ীর পোর্টফোলিওতে সর্বাধিক ক্ষতির সঠিকভাবে অনুমান করার দাবি করেছে, বলা হয়েছে সর্বাধিক $ 100,000 ক্ষতি প্রত্যাশিত সময়ের 99%। কিন্তু ক্র্যাশের অস্বাভাবিক পরিস্থিতিতে, $ 100,000 এর প্রত্যাশিত সর্বোচ্চ ক্ষতি সহ একটি পোর্টফোলিও কখনও কখনও $ 1,000,000 বা তার বেশি হারায়।

ভিএআর মডেলগুলি নিম্নোক্ত সহ ত্রুটিপূর্ণ অনুমানের উপর ভিত্তি করে ছিল:

অতীত বাজার পরিবর্তন ভবিষ্যতের বাজার পরিবর্তনের পূর্বাভাস দেয়।
একটি স্বাভাবিক (পাতলা-টেইলড, এবং সেইজন্য অনুমানযোগ্য) বন্টন পূর্বাভাসিত রিটার্নের অন্তর্নিহিত ছিল।

k=5 সহ ভন মিসেস ডিস্ট্রিবিউশন, একটি গাউসিয়ান ডিস্ট্রিবিউশনের অনুরূপ, এবং ফ্ল্যাটার k=1 এবং k=.2। — ভন মিসেস ডিস্ট্রিবিউশনের গ্রাফ, যা উচ্চ K-এ পাতলা-লেজ এবং নিম্ন K-তে চর্বি-টেইলড।

প্রকৃতপক্ষে, অন্তর্নিহিত বন্টনটি ফ্যাট-টেইলড, "ওয়াইল্ড" বা ফ্র্যাক্টাল ছিল, যার অর্থ একটি সাধারণ বিতরণের পূর্বাভাসের তুলনায় দীর্ঘ-টেইল, চরম, এবং অনুমিতভাবে বিরল ঘটনাগুলির অনেক বেশি ঝুঁকি ছিল। প্রকৃত বন্টনের ফ্যাট-লেজ প্রকৃতি সুপরিচিত ছিল, কিন্তু কাজ করা হয়নি। স্বয়ংক্রিয় বিক্রয়ের সাথে কম্পিউটার-ভিত্তিক ব্যবসা সহ বিভিন্ন ঘটনা কতটা জটিল এবং দৃঢ়ভাবে সংযুক্ত ছিল তা কম পরিচিত ছিল। ¹¹

সমষ্টিগত সমস্যা

একত্রিত করা ডেটা, যার মধ্যে বেশিরভাগ জনসংখ্যাগত এবং মহামারী সংক্রান্ত ডেটা রয়েছে, একটি নির্দিষ্ট সেট ফাঁদের বিষয়। সিম্পসনের প্যারাডক্স , বা একত্রীকরণ প্যারাডক্স , সমষ্টিগত ডেটাতে ঘটে যেখানে আপাত প্রবণতাগুলি অদৃশ্য হয়ে যায় বা বিপরীত স্তরে ডেটা একত্রিত হলে বিভ্রান্তিকর কারণ এবং ভুল বোঝাবুঝি কার্যকারণ সম্পর্কের কারণে।

পরিবেশগত বিভ্রান্তির মধ্যে একটি জনসংখ্যা সম্পর্কে ভুলভাবে তথ্য একত্রীকরণ স্তরে অন্য একত্রীকরণ স্তরে এক্সট্রাপোলেট করা জড়িত, যেখানে দাবিটি বৈধ নাও হতে পারে। একটি রোগ যা একটি প্রদেশের 40% কৃষি শ্রমিককে আক্রান্ত করে বৃহত্তর জনসংখ্যার মধ্যে একই প্রকোপ নাও থাকতে পারে। এটিও খুব সম্ভবত সেই প্রদেশে বিচ্ছিন্ন খামার বা কৃষি শহর থাকবে যেগুলি সেই রোগের একই রকম উচ্চ প্রকোপ অনুভব করছে না । সেইসব কম-আক্রান্ত জায়গাগুলিতে 40% প্রাদুর্ভাব অনুমান করাও ভুল হবে।

পরিবর্তনযোগ্য এরিয়াল ইউনিট সমস্যা (MAUP) হল ভূ-স্থানিক ডেটার একটি সুপরিচিত সমস্যা, যা 1984 সালে CATMOG 38- এ স্ট্যান ওপেনশো বর্ণনা করেছেন। ডেটা একত্রিত করতে ব্যবহৃত অঞ্চলগুলির আকার এবং আকারের উপর নির্ভর করে, একজন ভূ-স্থানিক ডেটা অনুশীলনকারী ডেটাতে ভেরিয়েবলগুলির মধ্যে প্রায় কোনও সম্পর্ক স্থাপন করতে পারেন। একটি বা অন্য দলকে সমর্থন করে এমন ভোটিং জেলাগুলি আঁকানো হল MAUP-এর উদাহরণ৷

এই সমস্ত পরিস্থিতিতে একটি সমষ্টি স্তর থেকে অন্য একত্রিতকরণের অনুপযুক্ত এক্সট্রাপোলেশন জড়িত। বিশ্লেষণের বিভিন্ন স্তরের জন্য বিভিন্ন সমষ্টি বা এমনকি সম্পূর্ণ ভিন্ন ডেটাসেটের প্রয়োজন হতে পারে। ¹²

উল্লেখ্য যে আদমশুমারি, জনসংখ্যাগত, এবং মহামারী সংক্রান্ত ডেটা সাধারণত গোপনীয়তার কারণে জোন দ্বারা একত্রিত হয় এবং এই অঞ্চলগুলি প্রায়ই নির্বিচারে হয়, যা বলতে হয়, অর্থপূর্ণ বাস্তব-বিশ্বের সীমানার উপর ভিত্তি করে নয়। এই ধরনের ডেটা নিয়ে কাজ করার সময়, এমএল অনুশীলনকারীদের পরীক্ষা করা উচিত যে মডেলের কর্মক্ষমতা এবং ভবিষ্যদ্বাণীগুলি নির্বাচিত অঞ্চলগুলির আকার এবং আকৃতি বা একত্রীকরণের স্তরের উপর নির্ভর করে পরিবর্তিত হয় কিনা এবং যদি তাই হয়, মডেল ভবিষ্যদ্বাণীগুলি এই সমষ্টিগত সমস্যাগুলির একটি দ্বারা প্রভাবিত হয় কিনা৷

তথ্যসূত্র

বোতাম, ক্যাথারিন এট আল। "বিদ্যুতের ব্যর্থতা: কেন ছোট নমুনার আকার স্নায়ুবিজ্ঞানের নির্ভরযোগ্যতা হ্রাস করে।" প্রকৃতি পর্যালোচনা নিউরোসায়েন্স ভলিউম 14 (2013), 365–376। DOI: https://doi.org/10.1038/nrn3475

কায়রো, আলবার্তো। চার্টগুলি কীভাবে মিথ্যা বলে: ভিজ্যুয়াল তথ্য সম্পর্কে আরও স্মার্ট হওয়া। NY: WW Norton, 2019।

ডেভেনপোর্ট, থমাস এইচ. "একটি ভবিষ্যদ্বাণীমূলক বিশ্লেষণ প্রাইমার।" পরিচালকদের জন্য ডেটা অ্যানালিটিক্স বেসিক্সের জন্য HBR গাইডে (বোস্টন: HBR প্রেস, 2018) 81-86।

ডি ল্যাংহে, বার্ট, স্টেফানো পুন্টোনি এবং রিচার্ড ল্যারিক। "একটি অরৈখিক বিশ্বে রৈখিক চিন্তাভাবনা।" পরিচালকদের জন্য ডেটা অ্যানালিটিক্স বেসিক্সের জন্য HBR গাইডে (বোস্টন: HBR প্রেস, 2018) 131-154।

এলেনবার্গ, জর্ডান। কিভাবে ভুল হবে না: গাণিতিক চিন্তার শক্তি। NY: পেঙ্গুইন, 2014।

হাফ, ড্যারেল। পরিসংখ্যানের সাথে কীভাবে মিথ্যা বলা যায়। NY: WW Norton, 1954।

জোন্স, বেন। ডেটা পিটফল এড়ানো। হোবোকেন, এনজে: উইলি, 2020।

ওপেনশ, স্ট্যান। "পরিবর্তনযোগ্য এরিয়াল ইউনিট সমস্যা," CATMOG 38 (নরউইচ, ইংল্যান্ড: জিও বুকস 1984) 37.

আর্থিক মডেলিংয়ের ঝুঁকি: ভিএআর অ্যান্ড দ্য ইকোনমিক মেল্টডাউন , 111 তম কংগ্রেস (2009) (নাসিম এন. তালেব এবং রিচার্ড বুকস্ট্যাবারের সাক্ষ্য)।

রিটার, ডেভিড। "কখন পারস্পরিক সম্পর্ক নিয়ে কাজ করতে হবে এবং কখন নয়।" পরিচালকদের জন্য ডেটা অ্যানালিটিক্স বেসিক্সের HBR গাইডে (বোস্টন: HBR প্রেস, 2018) 103-109।

তুলচিনস্কি, থিওডোর এইচ. এবং এলেনা এ ভারাভিকোভা। "অধ্যায় 3: একটি জনসংখ্যার স্বাস্থ্য পরিমাপ, পর্যবেক্ষণ এবং মূল্যায়ন" দ্য নিউ পাবলিক হেলথ , 3য় সংস্করণে। সান দিয়েগো: একাডেমিক প্রেস, 2014, পিপি 91-147। DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3।

ভ্যান ডোর্ন, জেনি, পিটার সি. ভারহোফ এবং ট্যামো এইচএ বিজমোল্ট। "নীতি গবেষণায় মনোভাব এবং আচরণের মধ্যে অ-রৈখিক সম্পর্কের গুরুত্ব।" জার্নাল অফ কনজিউমার পলিসি 30 (2007) 75-90। DOI: https://doi.org/10.1007/s10603-007-9028-3

ইমেজ রেফারেন্স

"ভন মিসেস ডিস্ট্রিবিউশন" এর উপর ভিত্তি করে। Rainald62, 2018. উৎস

এলেনবার্গ 125. ↩
হাফ 77-79। হাফ প্রিন্সটনের অফিস অফ পাবলিক ওপিনিয়ন রিসার্চের উদ্ধৃতি দিয়েছেন, কিন্তু তিনি হয়তো ডেনভার বিশ্ববিদ্যালয়ের জাতীয় মতামত গবেষণা কেন্দ্রের এপ্রিল 1944 সালের রিপোর্টের কথা ভাবছেন। ↩
তুলচিনস্কি এবং ভারাভিকোভা। ↩
গ্যারি টাউবস, আমরা কি সত্যিই জানি কি আমাদের সুস্থ করে তোলে?" নিউ ইয়র্ক টাইমস ম্যাগাজিনে, 16 সেপ্টেম্বর, 2007। ↩
এলেনবার্গ 78. ↩
হাফ 91-92। ↩
হাফ 93. ↩
জোন্স 157-167। ↩
হাফ 95. ↩
ডেভেনপোর্ট 84. ↩
দ্য রিস্কস অফ ফাইন্যান্সিয়াল মডেলিং: ভিএআর অ্যান্ড দ্য ইকোনমিক মেল্টডাউন , 111 তম কংগ্রেস (2009) 11-67-এ নাসিম এন. তালেব এবং রিচার্ড বুকস্ট্যাবারের কংগ্রেসনাল সাক্ষ্য দেখুন। ↩
কায়রো 155, 162। ↩

পূর্ববর্তী

চিন্তার ফাঁদ

পরবর্তী

ভিজ্যুয়ালাইজেশন ফাঁদ