"সমস্ত মডেল ভুল কিন্তু কিছু দরকারী।" — জর্জ বক্স, 1978
যদিও শক্তিশালী, পরিসংখ্যানগত কৌশলগুলির সীমাবদ্ধতা রয়েছে। এই সীমাবদ্ধতাগুলি বোঝা একজন গবেষককে গাফেল এবং ভুল দাবিগুলি এড়াতে সাহায্য করতে পারে, যেমন বিএফ স্কিনারের দাবি যে শেক্সপিয়র এলোমেলোতার পূর্বাভাসের চেয়ে বেশি অনুপ্রেরণা ব্যবহার করেননি। (স্কিনারের অধ্যয়ন কম ক্ষমতাসম্পন্ন ছিল। 1 )
অনিশ্চয়তা এবং ত্রুটি বার
আপনার বিশ্লেষণে অনিশ্চয়তা উল্লেখ করা গুরুত্বপূর্ণ। অন্যান্য ব্যক্তির বিশ্লেষণে অনিশ্চয়তা পরিমাপ করা সমানভাবে গুরুত্বপূর্ণ। ডেটা পয়েন্ট যা একটি গ্রাফে একটি প্রবণতা প্লট করে বলে মনে হয়, কিন্তু ওভারল্যাপিং ত্রুটি বার রয়েছে, কোনও প্যাটার্নকে নির্দেশ করতে পারে না। একটি নির্দিষ্ট অধ্যয়ন বা পরিসংখ্যানগত পরীক্ষা থেকে দরকারী সিদ্ধান্তগুলি আঁকতে অনিশ্চয়তাও খুব বেশি হতে পারে। যদি একটি গবেষণা অধ্যয়নের জন্য লট-লেভেল নির্ভুলতার প্রয়োজন হয়, তাহলে +/- 500 মিটার অনিশ্চয়তা সহ একটি ভূ-স্থানিক ডেটাসেট ব্যবহারযোগ্য হওয়ার জন্য খুব বেশি অনিশ্চয়তা থাকে।
বিকল্পভাবে, সিদ্ধান্ত গ্রহণের প্রক্রিয়ার সময় অনিশ্চয়তার মাত্রা কার্যকর হতে পারে। ফলাফলে 20% অনিশ্চয়তার সাথে একটি নির্দিষ্ট জল চিকিত্সার সমর্থনকারী ডেটা সেই অনিশ্চয়তা মোকাবেলায় প্রোগ্রামটির অব্যাহত পর্যবেক্ষণের সাথে সেই জল চিকিত্সার বাস্তবায়নের জন্য একটি সুপারিশের দিকে নিয়ে যেতে পারে।
বায়েসিয়ান নিউরাল নেটওয়ার্কগুলি একক মানের পরিবর্তে মানগুলির বন্টনের পূর্বাভাস দিয়ে অনিশ্চয়তার পরিমাণ নির্ধারণ করতে পারে।
অপ্রাসঙ্গিকতা
ভূমিকায় আলোচনা করা হয়েছে, ডেটা এবং বাস্তবতার মধ্যে সর্বদা অন্তত একটি ছোট ব্যবধান থাকে। বুদ্ধিমান এমএল অনুশীলনকারীকে জিজ্ঞাসা করা প্রশ্নটির সাথে ডেটাসেট প্রাসঙ্গিক কিনা তা নিশ্চিত করা উচিত।
হাফ একটি প্রারম্ভিক জনমত সমীক্ষার বর্ণনা করেছেন যেটিতে দেখা গেছে যে কালো আমেরিকানদের জন্য একটি ভাল জীবনযাপন করা কতটা সহজ ছিল এই প্রশ্নের শ্বেতাঙ্গ আমেরিকানদের উত্তর সরাসরি এবং বিপরীতভাবে কালো আমেরিকানদের প্রতি তাদের সহানুভূতির স্তরের সাথে সম্পর্কিত। জাতিগত বিদ্বেষ বৃদ্ধির সাথে সাথে প্রত্যাশিত অর্থনৈতিক সুযোগ সম্পর্কে প্রতিক্রিয়াগুলি আরও বেশি আশাবাদী হয়ে ওঠে। এটাকে অগ্রগতির লক্ষণ হিসেবে ভুল বোঝানো যেত। যাইহোক, সমীক্ষাটি সেই সময়ে কালো আমেরিকানদের জন্য উপলব্ধ প্রকৃত অর্থনৈতিক সুযোগগুলি সম্পর্কে কিছুই দেখাতে পারেনি, এবং চাকরির বাজারের বাস্তবতা সম্পর্কে সিদ্ধান্ত নেওয়ার জন্য উপযুক্ত ছিল না - শুধুমাত্র জরিপ উত্তরদাতাদের মতামত। সংগৃহীত তথ্য আসলে চাকরির বাজারের অবস্থার সাথে অপ্রাসঙ্গিক ছিল। 2
আপনি উপরে বর্ণিত সমীক্ষার ডেটার উপর একটি মডেলকে প্রশিক্ষণ দিতে পারেন, যেখানে আউটপুট আসলে সুযোগের পরিবর্তে আশাবাদ পরিমাপ করে। কিন্তু যেহেতু ভবিষ্যদ্বাণী করা সুযোগগুলি প্রকৃত সুযোগের সাথে অপ্রাসঙ্গিক, আপনি যদি দাবি করেন যে মডেলটি প্রকৃত সুযোগের ভবিষ্যদ্বাণী করছে, তাহলে আপনি মডেলটি যা ভবিষ্যদ্বাণী করে তা ভুলভাবে উপস্থাপন করবেন।
বিভ্রান্ত করে
একটি বিভ্রান্তিকর পরিবর্তনশীল , বিভ্রান্তিকর বা কোফ্যাক্টর হল একটি পরিবর্তনশীল যা অধ্যয়নের অধীনে নয় যা অধ্যয়নাধীন ভেরিয়েবলগুলিকে প্রভাবিত করে এবং ফলাফলগুলিকে বিকৃত করতে পারে। উদাহরণস্বরূপ, একটি এমএল মডেল বিবেচনা করুন যা জনস্বাস্থ্য নীতি বৈশিষ্ট্যগুলির উপর ভিত্তি করে একটি ইনপুট দেশের জন্য মৃত্যুর হারের পূর্বাভাস দেয়। ধরুন যে মধ্যম বয়স একটি বৈশিষ্ট্য নয়। আরও ধরুন যে কিছু দেশে অন্যদের তুলনায় বয়স্ক জনসংখ্যা রয়েছে। মধ্য বয়সের বিভ্রান্তিকর পরিবর্তনশীলকে উপেক্ষা করে, এই মডেলটি ত্রুটিপূর্ণ মৃত্যুর হারের পূর্বাভাস দিতে পারে।
মার্কিন যুক্তরাষ্ট্রে, জাতি প্রায়ই আর্থ-সামাজিক শ্রেণীর সাথে দৃঢ়ভাবে সম্পর্কযুক্ত, যদিও শুধুমাত্র জাতি, এবং শ্রেণী নয়, মৃত্যুর তথ্যের সাথে রেকর্ড করা হয়। শ্রেণী-সম্পর্কিত বিভ্রান্তি, যেমন স্বাস্থ্যসেবা, পুষ্টি, বিপজ্জনক কাজ এবং নিরাপদ আবাসনের অ্যাক্সেস, জাতি থেকে মৃত্যুর হারের উপর শক্তিশালী প্রভাব ফেলতে পারে, কিন্তু উপেক্ষিত হতে পারে কারণ সেগুলি ডেটাসেটে অন্তর্ভুক্ত নয়। 3 এই বিভ্রান্তিগুলি সনাক্ত করা এবং নিয়ন্ত্রণ করা দরকারী মডেলগুলি তৈরি করার জন্য এবং অর্থপূর্ণ এবং সঠিক সিদ্ধান্তগুলি আঁকার জন্য গুরুত্বপূর্ণ।
যদি একটি মডেল বিদ্যমান মৃত্যুর তথ্যের উপর প্রশিক্ষিত হয়, যার মধ্যে জাতি অন্তর্ভুক্ত থাকে কিন্তু শ্রেণী নয়, তবে এটি বর্ণের উপর ভিত্তি করে মৃত্যুর পূর্বাভাস দিতে পারে, এমনকি যদি শ্রেণীটি মৃত্যুহারের একটি শক্তিশালী ভবিষ্যদ্বাণী করে। এর ফলে কার্যকারণ সম্পর্কে ভুল অনুমান এবং রোগীর মৃত্যুহার সম্পর্কে ভুল ভবিষ্যদ্বাণী হতে পারে। এমএল অনুশীলনকারীদের জিজ্ঞাসা করা উচিত যে তাদের ডেটাতে বিভ্রান্তি বিদ্যমান কিনা, সেইসাথে তাদের ডেটাসেট থেকে কী অর্থপূর্ণ ভেরিয়েবল অনুপস্থিত হতে পারে।
1985 সালে, নার্সেস হেলথ স্টাডি, হার্ভার্ড মেডিকেল স্কুল এবং হার্ভার্ড স্কুল অফ পাবলিক হেলথের একটি পর্যবেক্ষণমূলক সমন্বিত সমীক্ষা, দেখা গেছে যে ইস্ট্রোজেন প্রতিস্থাপন থেরাপি গ্রহণকারী সমগোত্রীয় সদস্যদের হার্ট অ্যাটাকের ঘটনা কম ছিল সেই দলটির সদস্যদের তুলনায় যারা কখনও ইস্ট্রোজেন গ্রহণ করেননি। ফলস্বরূপ, 2002 সালে একটি ক্লিনিকাল গবেষণা দীর্ঘমেয়াদী ইস্ট্রোজেন থেরাপির দ্বারা সৃষ্ট স্বাস্থ্য ঝুঁকি চিহ্নিত না করা পর্যন্ত, ডাক্তাররা তাদের মেনোপজ এবং পোস্টমেনোপজাল রোগীদের জন্য কয়েক দশক ধরে ইস্ট্রোজেন নির্ধারণ করেছিলেন। মেনোপজ-পরবর্তী মহিলাদের জন্য ইস্ট্রোজেন নির্ধারণের অভ্যাস বন্ধ হয়ে যায়, তবে আনুমানিক কয়েক হাজার অকাল মৃত্যুর আগে নয়।
একাধিক বিভ্রান্তি সমিতির কারণ হতে পারে। এপিডেমিওলজিস্টরা দেখেছেন যে মহিলারা যারা হরমোন প্রতিস্থাপন থেরাপি গ্রহণ করেন না, তাদের তুলনায় তারা পাতলা, আরও শিক্ষিত, ধনী, তাদের স্বাস্থ্য সম্পর্কে আরও সচেতন এবং ব্যায়াম করার সম্ভাবনা বেশি। বিভিন্ন গবেষণায়, শিক্ষা এবং সম্পদ হৃদরোগের ঝুঁকি কমাতে দেখা গেছে। এই প্রভাবগুলি ইস্ট্রোজেন থেরাপি এবং হার্ট অ্যাটাকের মধ্যে স্পষ্ট সম্পর্ককে বিভ্রান্ত করবে। 4
ঋণাত্মক সংখ্যা সহ শতাংশ
নেতিবাচক সংখ্যা উপস্থিত হলে শতাংশ ব্যবহার এড়িয়ে চলুন, 5 কারণ সমস্ত ধরণের অর্থপূর্ণ লাভ এবং ক্ষতি অস্পষ্ট হতে পারে। অনুমান করুন, সহজ গণিতের খাতিরে, রেস্টুরেন্ট শিল্পে 2 মিলিয়ন চাকরি রয়েছে। যদি ইন্ডাস্ট্রি 2020 সালের মার্চের শেষের দিকে সেইগুলির মধ্যে 1 মিলিয়ন চাকরি হারায়, দশ মাসের জন্য কোনও নেট পরিবর্তনের অভিজ্ঞতা না পায় এবং 2021 সালের ফেব্রুয়ারির শুরুতে 900,000 চাকরি ফিরে পায়, তাহলে 2021 সালের মার্চের শুরুতে বছরের তুলনায় বছরের তুলনায় মাত্র 5% সুপারিশ করবে। রেস্টুরেন্টের চাকরি হারানো। অন্য কোনো পরিবর্তন নেই বলে ধরে নিলে, 2022 সালের ফেব্রুয়ারির শেষে বছরের পর বছর তুলনা করলে রেস্তোরাঁর চাকরিতে 90% বৃদ্ধির পরামর্শ দেওয়া হবে, যা বাস্তবতার একটি সম্পূর্ণ ভিন্ন চিত্র।
প্রকৃত সংখ্যা পছন্দ করুন, যথাযত স্বাভাবিক। আরও তথ্যের জন্য সংখ্যাসূচক ডেটা নিয়ে কাজ করা দেখুন।
পোস্ট-হক ফ্যালাসি এবং অব্যবহারযোগ্য পারস্পরিক সম্পর্ক
পোস্ট-হক ফ্যালাসি হল অনুমান যে, ঘটনা A এর পরে ইভেন্ট B, ইভেন্ট A এর ফলে B ঘটনা ঘটেছিল। আরও সহজ করে বললে, এটি একটি কারণ-এবং-প্রভাব সম্পর্ক ধরে নিচ্ছে যেখানে একটির অস্তিত্ব নেই। আরও সহজভাবে: পারস্পরিক সম্পর্ক কার্যকারণ প্রমাণ করে না।
একটি সুস্পষ্ট কারণ-ও-প্রভাব সম্পর্ক ছাড়াও, পারস্পরিক সম্পর্কও হতে পারে:
- বিশুদ্ধ সুযোগ (মেইন এবং মার্জারিন সেবনের মধ্যে বিবাহবিচ্ছেদের হারের মধ্যে একটি শক্তিশালী পারস্পরিক সম্পর্ক সহ চিত্রের জন্য টাইলার ভিজেনের স্ফুরিয়াস পারস্পরিক সম্পর্ক দেখুন)।
- দুটি ভেরিয়েবলের মধ্যে একটি বাস্তব সম্পর্ক, যদিও এটি অস্পষ্ট রয়ে গেছে কোন পরিবর্তনশীলটি কার্যকারক এবং কোনটি প্রভাবিত।
- একটি তৃতীয়, পৃথক কারণ যা উভয় ভেরিয়েবলকে প্রভাবিত করে, যদিও পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবল একে অপরের সাথে সম্পর্কহীন। উদাহরণস্বরূপ, বৈশ্বিক মুদ্রাস্ফীতি ইয়ট এবং সেলারি উভয়ের দাম বাড়াতে পারে। 6
বিদ্যমান ডেটার অতীত পারস্পরিক সম্পর্ককে এক্সট্রাপোলেট করাও ঝুঁকিপূর্ণ। হাফ নির্দেশ করে যে কিছু বৃষ্টি ফসলের উন্নতি ঘটাবে, কিন্তু অত্যধিক বৃষ্টি তাদের ক্ষতি করবে; বৃষ্টি এবং ফসলের ফলাফলের মধ্যে সম্পর্ক অরৈখিক। 7 (অরৈখিক সম্পর্ক সম্পর্কে আরও জানার জন্য পরবর্তী দুটি বিভাগ দেখুন।) জোনস নোট করেছেন যে বিশ্ব যুদ্ধ এবং দুর্ভিক্ষের মতো অপ্রত্যাশিত ঘটনাতে পূর্ণ, যা ভবিষ্যতের পূর্বাভাস সময় সিরিজের ডেটাকে প্রচুর পরিমাণে অনিশ্চয়তার দিকে নিয়ে যায়। 8
উপরন্তু, এমনকি কারণ এবং প্রভাবের উপর ভিত্তি করে একটি প্রকৃত পারস্পরিক সম্পর্ক সিদ্ধান্ত নেওয়ার জন্য সহায়ক নাও হতে পারে। হাফ উদাহরণ হিসেবে 1950-এর দশকে বিবাহযোগ্যতা এবং কলেজ শিক্ষার মধ্যে পারস্পরিক সম্পর্ক দেয়। যে মহিলারা কলেজে গিয়েছিল তাদের বিয়ে করার সম্ভাবনা কম ছিল, তবে এমনও হতে পারে যে মহিলারা কলেজে গিয়েছিলেন তাদের বিয়ে করার প্রতি কম ঝোঁক ছিল। যদি তা হয়, কলেজ শিক্ষা তাদের বিয়ে করার সম্ভাবনা পরিবর্তন করেনি। 9
যদি একটি বিশ্লেষণ একটি ডেটাসেটে দুটি ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ক সনাক্ত করে, জিজ্ঞাসা করুন:
- এটা কি ধরনের পারস্পরিক সম্পর্ক: কারণ-ও-প্রভাব, বানোয়াট, অজানা সম্পর্ক, বা তৃতীয় পরিবর্তনশীল দ্বারা সৃষ্ট?
- ডেটা থেকে এক্সট্রাপোলেশন কতটা ঝুঁকিপূর্ণ? প্রশিক্ষণ ডেটাসেটে না থাকা ডেটার প্রতিটি মডেলের ভবিষ্যদ্বাণী, কার্যত, ডেটা থেকে ইন্টারপোলেশন বা এক্সট্রাপোলেশন।
- পারস্পরিক সম্পর্ক দরকারী সিদ্ধান্ত নিতে ব্যবহার করা যেতে পারে? উদাহরণস্বরূপ, আশাবাদ ক্রমবর্ধমান মজুরির সাথে দৃঢ়ভাবে সম্পর্কযুক্ত হতে পারে, কিন্তু কিছু বৃহৎ টেক্সট ডেটার অনুভূতি বিশ্লেষণ, যেমন একটি নির্দিষ্ট দেশের ব্যবহারকারীদের সামাজিক মিডিয়া পোস্ট, সেই দেশে মজুরি বৃদ্ধির পূর্বাভাস দিতে উপযোগী হবে না।
একটি মডেলকে প্রশিক্ষণ দেওয়ার সময়, এমএল অনুশীলনকারীরা সাধারণত লেবেলের সাথে দৃঢ়ভাবে সম্পর্কযুক্ত বৈশিষ্ট্যগুলি সন্ধান করে। যদি বৈশিষ্ট্য এবং লেবেলের মধ্যে সম্পর্ক ভালভাবে বোঝা না যায়, তাহলে এটি এই বিভাগে বর্ণিত সমস্যাগুলির দিকে নিয়ে যেতে পারে, যার মধ্যে রয়েছে বানোয়াট পারস্পরিক সম্পর্কের উপর ভিত্তি করে মডেলগুলি এবং মডেলগুলি যা অনুমান করে যে ঐতিহাসিক প্রবণতাগুলি ভবিষ্যতে চলতে থাকবে, যখন বাস্তবে তারা তা করবে না। .
রৈখিক পক্ষপাত
"লিনিয়ার থিংকিং ইন এ ননলাইনার ওয়ার্ল্ড" -এ বার্ট ডি ল্যাংহে, স্টেফানো পুন্টোনি এবং রিচার্ড ল্যারিক রৈখিক পক্ষপাতকে মানব মস্তিষ্কের রৈখিক সম্পর্কের আশা করার এবং খোঁজার প্রবণতা হিসাবে বর্ণনা করেছেন, যদিও অনেক ঘটনা অরৈখিক। মানুষের মনোভাব এবং আচরণের মধ্যে সম্পর্ক, উদাহরণস্বরূপ, একটি উত্তল বক্ররেখা নয়। 2007 সালের একটি জার্নাল অফ কনজিউমার পলিসি পেপারে ডি ল্যাংহে এট আল., জেনি ভ্যান ডোর্ন এট আল দ্বারা উদ্ধৃত। পরিবেশ সম্পর্কে জরিপ উত্তরদাতাদের উদ্বেগ এবং জৈব পণ্যের উত্তরদাতাদের ক্রয় মধ্যে সম্পর্ক মডেল. যারা পরিবেশ নিয়ে সবচেয়ে বেশি উদ্বিগ্ন তারা আরও জৈব পণ্য কিনেছিলেন, কিন্তু অন্য সমস্ত উত্তরদাতাদের মধ্যে খুব কম পার্থক্য ছিল।
মডেল বা অধ্যয়ন ডিজাইন করার সময়, অরৈখিক সম্পর্কের সম্ভাবনা বিবেচনা করুন। যেহেতু A/B টেস্টিং অরৈখিক সম্পর্ক মিস করতে পারে, তৃতীয়, মধ্যবর্তী অবস্থা, C পরীক্ষা করার কথাও বিবেচনা করুন। এছাড়াও বিবেচনা করুন যে প্রাথমিক আচরণ যা রৈখিক বলে মনে হয় তা রৈখিক হতে থাকবে, বা ভবিষ্যতে ডেটা আরও লগারিদমিক বা অন্যান্য অরৈখিক আচরণ দেখাতে পারে কিনা।
এই অনুমানমূলক উদাহরণ লগারিদমিক ডেটার জন্য একটি ভুল লিনিয়ার ফিট দেখায়। যদি শুধুমাত্র প্রথম কয়েকটি ডেটা পয়েন্ট পাওয়া যায়, তাহলে ভেরিয়েবলের মধ্যে চলমান রৈখিক সম্পর্ক অনুমান করা লোভনীয় এবং ভুল উভয়ই হবে।
লিনিয়ার ইন্টারপোলেশন
ডেটা পয়েন্টের মধ্যে যে কোনো ইন্টারপোলেশন পরীক্ষা করুন, কারণ ইন্টারপোলেশন কাল্পনিক বিন্দুর পরিচয় দেয়, এবং বাস্তব পরিমাপের মধ্যে ব্যবধানে অর্থপূর্ণ ওঠানামা থাকতে পারে। উদাহরণ হিসাবে, রৈখিক ইন্টারপোলেশনের সাথে সংযুক্ত চারটি ডেটা পয়েন্টের নিম্নলিখিত ভিজ্যুয়ালাইজেশন বিবেচনা করুন:
তারপরে একটি লিনিয়ার ইন্টারপোলেশন দ্বারা মুছে ফেলা ডেটা পয়েন্টগুলির মধ্যে ওঠানামার এই উদাহরণটি বিবেচনা করুন:
উদাহরণটি তৈরি করা হয়েছে কারণ সিসমোগ্রাফগুলি ক্রমাগত ডেটা সংগ্রহ করে, এবং তাই এই ভূমিকম্পটি মিস করা হবে না। কিন্তু এটি ইন্টারপোলেশন দ্বারা তৈরি অনুমান এবং ডেটা অনুশীলনকারীরা যে বাস্তব ঘটনাগুলি মিস করতে পারে তা চিত্রিত করার জন্য দরকারী।
রুঞ্জের ঘটনা
রুঞ্জের ঘটনা , যা "পলিনমিয়াল উইগল" নামেও পরিচিত, রৈখিক ইন্টারপোলেশন এবং রৈখিক পক্ষপাত থেকে বর্ণালীর বিপরীত প্রান্তে একটি সমস্যা। ডেটাতে একটি বহুপদী ইন্টারপোলেশন ফিট করার সময়, খুব বেশি ডিগ্রী (ডিগ্রী, বা ক্রম, বহুপদী সমীকরণের সর্বোচ্চ সূচক) সহ একটি বহুপদ ব্যবহার করা সম্ভব। এটি প্রান্তে অদ্ভুত দোলন তৈরি করে। উদাহরণস্বরূপ, ডিগ্রী 11 এর একটি বহুপদী ইন্টারপোলেশন প্রয়োগ করা, যার অর্থ হল বহুপদী সমীকরণের সর্বোচ্চ-ক্রম শব্দটি \(x^{11}\), মোটামুটি রৈখিক ডেটাতে, ডেটার পরিসরের শুরুতে এবং শেষে উল্লেখযোগ্যভাবে খারাপ ভবিষ্যদ্বাণীর ফলাফল:
এমএল প্রেক্ষাপটে, একটি সাদৃশ্যপূর্ণ ঘটনাটি ওভারফিটিং ।
সনাক্ত করতে পরিসংখ্যানগত ব্যর্থতা
কখনও কখনও একটি পরিসংখ্যান পরীক্ষা একটি ছোট প্রভাব সনাক্ত করতে খুব কম শক্তি হতে পারে। পরিসংখ্যানগত বিশ্লেষণে কম শক্তি মানে সঠিকভাবে সত্য ঘটনা সনাক্ত করার একটি কম সুযোগ, এবং সেইজন্য মিথ্যা নেতিবাচক হওয়ার একটি উচ্চ সম্ভাবনা। ক্যাথরিন বোতাম এট আল। নেচারে লিখেছেন: "যখন একটি প্রদত্ত ক্ষেত্রের অধ্যয়নগুলি 20% শক্তির সাথে ডিজাইন করা হয়, এর মানে হল যে যদি সেই ক্ষেত্রে 100টি প্রকৃত অ-শূন্য প্রভাব আবিষ্কৃত হয়, এই গবেষণাগুলি তাদের মধ্যে শুধুমাত্র 20টি আবিষ্কার করবে বলে আশা করা হচ্ছে৷ " নমুনার আকার বৃদ্ধি কখনও কখনও সাহায্য করতে পারে, যেমন যত্নশীল অধ্যয়ন নকশা করতে পারে।
ML-এ একটি সাদৃশ্যপূর্ণ পরিস্থিতি হ'ল শ্রেণিবিন্যাসের সমস্যা এবং একটি শ্রেণিবিন্যাস প্রান্তিকের পছন্দ। উচ্চ থ্রেশহোল্ডের একটি পছন্দের ফলে কম মিথ্যা ইতিবাচক এবং আরও মিথ্যা নেতিবাচক ফলাফল হয়, যখন একটি নিম্ন প্রান্তিকের ফলাফল আরও মিথ্যা ইতিবাচক এবং কম মিথ্যা নেতিবাচক ফলাফল দেয়।
পরিসংখ্যানগত শক্তির সমস্যাগুলি ছাড়াও, যেহেতু পারস্পরিক সম্পর্ক রৈখিক সম্পর্ক সনাক্ত করার জন্য ডিজাইন করা হয়েছে, ভেরিয়েবলগুলির মধ্যে অরৈখিক সম্পর্কগুলি মিস করা যেতে পারে। একইভাবে, ভেরিয়েবল একে অপরের সাথে সম্পর্কিত হতে পারে কিন্তু পরিসংখ্যানগতভাবে সম্পর্কযুক্ত নয়। ভেরিয়েবলগুলিও নেতিবাচকভাবে পারস্পরিক সম্পর্কযুক্ত কিন্তু সম্পূর্ণ সম্পর্কহীন হতে পারে, যা বার্কসনের প্যারাডক্স বা বার্কসনের ফ্যালাসি নামে পরিচিত। বার্কসনের ভ্রান্ততার ক্লাসিক উদাহরণ হল হাসপাতালে ভর্তি রোগীর জনসংখ্যা (সাধারণ জনসংখ্যার তুলনায়) দেখার সময় যে কোনও ঝুঁকির কারণ এবং গুরুতর রোগের মধ্যে প্রতারণামূলক নেতিবাচক সম্পর্ক, যা নির্বাচন প্রক্রিয়া থেকে উদ্ভূত হয় (হাসপাতালে ভর্তির প্রয়োজনে যথেষ্ট গুরুতর অবস্থা) .
এই পরিস্থিতিতে কোন প্রযোজ্য কিনা বিবেচনা করুন.
পুরানো মডেল এবং অবৈধ অনুমান
এমনকি ভাল মডেলগুলি সময়ের সাথে সাথে অধঃপতন হতে পারে কারণ আচরণ (এবং বিশ্ব, সেই বিষয়ে) পরিবর্তিত হতে পারে। Netflix-এর প্রাথমিক ভবিষ্যদ্বাণীমূলক মডেলগুলিকে অবসর নিতে হয়েছিল কারণ তাদের গ্রাহক বেস তরুণ, প্রযুক্তি-বুদ্ধিমান ব্যবহারকারীদের থেকে সাধারণ জনগণের মধ্যে পরিবর্তিত হয়েছে। 10
মডেলগুলিতে নীরব এবং ভুল অনুমানও থাকতে পারে যা 2008 সালের বাজার বিপর্যয়ের মতো মডেলের বিপর্যয়মূলক ব্যর্থতা পর্যন্ত লুকিয়ে থাকতে পারে। আর্থিক শিল্পের ভ্যালু অ্যাট রিস্ক (VaR) মডেলগুলি যে কোনও ব্যবসায়ীর পোর্টফোলিওতে সর্বাধিক ক্ষতির সঠিকভাবে অনুমান করার দাবি করেছে, বলা হয়েছে সর্বাধিক $ 100,000 ক্ষতি প্রত্যাশিত সময়ের 99%। কিন্তু ক্র্যাশের অস্বাভাবিক পরিস্থিতিতে, $ 100,000 এর প্রত্যাশিত সর্বোচ্চ ক্ষতি সহ একটি পোর্টফোলিও কখনও কখনও $ 1,000,000 বা তার বেশি হারায়।
ভিএআর মডেলগুলি নিম্নোক্ত সহ ত্রুটিপূর্ণ অনুমানের উপর ভিত্তি করে ছিল:
- অতীত বাজার পরিবর্তন ভবিষ্যতের বাজার পরিবর্তনের পূর্বাভাস দেয়।
- একটি স্বাভাবিক (পাতলা-টেইলড, এবং সেইজন্য অনুমানযোগ্য) বন্টন পূর্বাভাসিত রিটার্নের অন্তর্নিহিত ছিল।
প্রকৃতপক্ষে, অন্তর্নিহিত বন্টনটি ফ্যাট-টেইলড, "ওয়াইল্ড" বা ফ্র্যাক্টাল ছিল, যার অর্থ একটি সাধারণ বিতরণের পূর্বাভাসের তুলনায় দীর্ঘ-টেইল, চরম, এবং অনুমিতভাবে বিরল ঘটনাগুলির অনেক বেশি ঝুঁকি ছিল। প্রকৃত বন্টনের ফ্যাট-লেজ প্রকৃতি সুপরিচিত ছিল, কিন্তু কাজ করা হয়নি। স্বয়ংক্রিয় বিক্রয়ের সাথে কম্পিউটার-ভিত্তিক ব্যবসা সহ বিভিন্ন ঘটনা কতটা জটিল এবং দৃঢ়ভাবে সংযুক্ত ছিল তা কম পরিচিত ছিল। 11
সমষ্টিগত সমস্যা
একত্রিত করা ডেটা, যার মধ্যে বেশিরভাগ জনসংখ্যাগত এবং মহামারী সংক্রান্ত ডেটা রয়েছে, একটি নির্দিষ্ট সেট ফাঁদের বিষয়। সিম্পসনের প্যারাডক্স , বা একত্রীকরণ প্যারাডক্স , সমষ্টিগত ডেটাতে ঘটে যেখানে আপাত প্রবণতাগুলি অদৃশ্য হয়ে যায় বা বিপরীত স্তরে ডেটা একত্রিত হলে বিভ্রান্তিকর কারণ এবং ভুল বোঝাবুঝি কার্যকারণ সম্পর্কের কারণে।
পরিবেশগত বিভ্রান্তির মধ্যে একটি জনসংখ্যা সম্পর্কে ভুলভাবে তথ্য একত্রীকরণ স্তরে অন্য একত্রীকরণ স্তরে এক্সট্রাপোলেট করা জড়িত, যেখানে দাবিটি বৈধ নাও হতে পারে। একটি রোগ যা একটি প্রদেশের 40% কৃষি শ্রমিককে আক্রান্ত করে বৃহত্তর জনসংখ্যার মধ্যে একই প্রকোপ নাও থাকতে পারে। এটিও খুব সম্ভবত সেই প্রদেশে বিচ্ছিন্ন খামার বা কৃষি শহর থাকবে যেগুলি সেই রোগের একই রকম উচ্চ প্রকোপ অনুভব করছে না । সেইসব কম-আক্রান্ত জায়গাগুলিতে 40% প্রাদুর্ভাব অনুমান করাও ভুল হবে।
পরিবর্তনযোগ্য এরিয়াল ইউনিট সমস্যা (MAUP) হল ভূ-স্থানিক ডেটার একটি সুপরিচিত সমস্যা, যা 1984 সালে CATMOG 38 -এ স্ট্যান ওপেনশো বর্ণনা করেছেন। ডেটা একত্রিত করতে ব্যবহৃত অঞ্চলগুলির আকার এবং আকারের উপর নির্ভর করে, একজন ভূ-স্থানিক ডেটা অনুশীলনকারী ডেটাতে ভেরিয়েবলগুলির মধ্যে প্রায় কোনও সম্পর্ক স্থাপন করতে পারেন। একটি বা অন্য দলকে সমর্থন করে এমন ভোটিং জেলাগুলি আঁকানো হল MAUP-এর উদাহরণ৷
এই সমস্ত পরিস্থিতিতে একটি সমষ্টির স্তর থেকে অন্য স্তরে অনুপযুক্ত এক্সট্রাপোলেশন জড়িত। বিশ্লেষণের বিভিন্ন স্তরের জন্য বিভিন্ন সমষ্টি বা এমনকি সম্পূর্ণ ভিন্ন ডেটাসেটের প্রয়োজন হতে পারে। 12
উল্লেখ্য যে আদমশুমারি, জনসংখ্যাগত, এবং মহামারী সংক্রান্ত ডেটা সাধারণত গোপনীয়তার কারণে জোন দ্বারা একত্রিত হয় এবং এই অঞ্চলগুলি প্রায়ই নির্বিচারে হয়, যা বলতে হয়, অর্থপূর্ণ বাস্তব-বিশ্বের সীমানার উপর ভিত্তি করে নয়। এই ধরনের ডেটা নিয়ে কাজ করার সময়, এমএল অনুশীলনকারীদের পরীক্ষা করা উচিত যে মডেলের কর্মক্ষমতা এবং ভবিষ্যদ্বাণীগুলি নির্বাচিত অঞ্চলগুলির আকার এবং আকৃতি বা একত্রীকরণের স্তরের উপর নির্ভর করে পরিবর্তিত হয় কিনা এবং যদি তাই হয়, মডেল ভবিষ্যদ্বাণীগুলি এই সমষ্টিগত সমস্যাগুলির একটি দ্বারা প্রভাবিত হয় কিনা৷
তথ্যসূত্র
বোতাম, ক্যাথারিন এট আল। "বিদ্যুতের ব্যর্থতা: কেন ছোট নমুনার আকার স্নায়ুবিজ্ঞানের নির্ভরযোগ্যতা হ্রাস করে।" প্রকৃতি পর্যালোচনা নিউরোসায়েন্স ভলিউম 14 (2013), 365–376। DOI: https://doi.org/10.1038/nrn3475
কায়রো, আলবার্তো। চার্টগুলি কীভাবে মিথ্যা বলে: ভিজ্যুয়াল তথ্য সম্পর্কে আরও স্মার্ট হওয়া। NY: WW Norton, 2019।
ডেভেনপোর্ট, থমাস এইচ. "একটি ভবিষ্যদ্বাণীমূলক বিশ্লেষণ প্রাইমার।" পরিচালকদের জন্য ডেটা অ্যানালিটিক্স বেসিক্সের জন্য HBR গাইডে (বোস্টন: HBR প্রেস, 2018) 81-86।
ডি ল্যাংহে, বার্ট, স্টেফানো পুন্টোনি এবং রিচার্ড ল্যারিক। "একটি অরৈখিক বিশ্বে রৈখিক চিন্তাভাবনা।" পরিচালকদের জন্য ডেটা অ্যানালিটিক্স বেসিক্সের জন্য HBR গাইডে (বোস্টন: HBR প্রেস, 2018) 131-154।
এলেনবার্গ, জর্ডান। কিভাবে ভুল হবে না: গাণিতিক চিন্তার শক্তি। NY: পেঙ্গুইন, 2014।
হাফ, ড্যারেল। পরিসংখ্যানের সাথে কীভাবে মিথ্যা বলা যায়। NY: WW Norton, 1954।
জোন্স, বেন। ডেটা পিটফল এড়ানো। হোবোকেন, এনজে: উইলি, 2020।
ওপেনশ, স্ট্যান। "পরিবর্তনযোগ্য এরিয়াল ইউনিট সমস্যা," CATMOG 38 (নরউইচ, ইংল্যান্ড: জিও বুকস 1984) 37.
আর্থিক মডেলিংয়ের ঝুঁকি: ভিএআর অ্যান্ড দ্য ইকোনমিক মেল্টডাউন , 111 তম কংগ্রেস (2009) (নাসিম এন. তালেব এবং রিচার্ড বুকস্ট্যাবারের সাক্ষ্য)।
রিটার, ডেভিড। "কখন পারস্পরিক সম্পর্ক নিয়ে কাজ করতে হবে এবং কখন নয়।" পরিচালকদের জন্য ডেটা অ্যানালিটিক্স বেসিক্সের HBR গাইডে (বোস্টন: HBR প্রেস, 2018) 103-109।
তুলচিনস্কি, থিওডোর এইচ. এবং এলেনা এ ভারাভিকোভা। "অধ্যায় 3: একটি জনসংখ্যার স্বাস্থ্য পরিমাপ, পর্যবেক্ষণ এবং মূল্যায়ন" দ্য নিউ পাবলিক হেলথ , 3য় সংস্করণে। সান দিয়েগো: একাডেমিক প্রেস, 2014, পিপি 91-147। DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3।
ভ্যান ডোর্ন, জেনি, পিটার সি. ভারহোফ এবং ট্যামো এইচএ বিজমোল্ট। "নীতি গবেষণায় মনোভাব এবং আচরণের মধ্যে অ-রৈখিক সম্পর্কের গুরুত্ব।" জার্নাল অফ কনজিউমার পলিসি 30 (2007) 75-90। DOI: https://doi.org/10.1007/s10603-007-9028-3
ইমেজ রেফারেন্স
"ভন মিসেস ডিস্ট্রিবিউশন" এর উপর ভিত্তি করে। Rainald62, 2018. উৎস
এলেনবার্গ 125. ↩
হাফ 77-79। হাফ প্রিন্সটনের অফিস অফ পাবলিক ওপিনিয়ন রিসার্চের উদ্ধৃতি দিয়েছেন, কিন্তু তিনি হয়তো ডেনভার বিশ্ববিদ্যালয়ের জাতীয় মতামত গবেষণা কেন্দ্রের এপ্রিল 1944 সালের রিপোর্টের কথা ভাবছেন। ↩
তুলচিনস্কি এবং ভারাভিকোভা। ↩
গ্যারি টাউবস, আমরা কি সত্যিই জানি কি আমাদের সুস্থ করে তোলে?" নিউ ইয়র্ক টাইমস ম্যাগাজিনে, 16 সেপ্টেম্বর, 2007। ↩
এলেনবার্গ 78. ↩
হাফ 91-92। ↩
হাফ 93. ↩
জোন্স 157-167। ↩
হাফ 95. ↩
ডেভেনপোর্ট 84. ↩
দ্য রিস্কস অফ ফাইন্যান্সিয়াল মডেলিং: ভিএআর অ্যান্ড দ্য ইকোনমিক মেল্টডাউন , 111 তম কংগ্রেস (2009) 11-67-এ নাসিম এন. তালেব এবং রিচার্ড বুকস্ট্যাবারের কংগ্রেসনাল সাক্ষ্য দেখুন। ↩
কায়রো 155, 162। ↩
"সমস্ত মডেল ভুল কিন্তু কিছু দরকারী।" — জর্জ বক্স, 1978
যদিও শক্তিশালী, পরিসংখ্যানগত কৌশলগুলির সীমাবদ্ধতা রয়েছে। এই সীমাবদ্ধতাগুলি বোঝা একজন গবেষককে গাফেল এবং ভুল দাবিগুলি এড়াতে সাহায্য করতে পারে, যেমন বিএফ স্কিনারের দাবি যে শেক্সপিয়র এলোমেলোতার পূর্বাভাসের চেয়ে বেশি অনুপ্রেরণা ব্যবহার করেননি। (স্কিনারের অধ্যয়ন কম ক্ষমতাসম্পন্ন ছিল। 1 )
অনিশ্চয়তা এবং ত্রুটি বার
আপনার বিশ্লেষণে অনিশ্চয়তা উল্লেখ করা গুরুত্বপূর্ণ। অন্যান্য ব্যক্তির বিশ্লেষণে অনিশ্চয়তা পরিমাপ করা সমানভাবে গুরুত্বপূর্ণ। ডেটা পয়েন্ট যা একটি গ্রাফে একটি প্রবণতা প্লট করে বলে মনে হয়, কিন্তু ওভারল্যাপিং ত্রুটি বার রয়েছে, কোনও প্যাটার্নকে নির্দেশ করতে পারে না। একটি নির্দিষ্ট অধ্যয়ন বা পরিসংখ্যানগত পরীক্ষা থেকে দরকারী সিদ্ধান্তগুলি আঁকতে অনিশ্চয়তাও খুব বেশি হতে পারে। যদি একটি গবেষণা অধ্যয়নের জন্য লট-লেভেল নির্ভুলতার প্রয়োজন হয়, তাহলে +/- 500 মিটার অনিশ্চয়তা সহ একটি ভূ-স্থানিক ডেটাসেট ব্যবহারযোগ্য হওয়ার জন্য খুব বেশি অনিশ্চয়তা থাকে।
বিকল্পভাবে, সিদ্ধান্ত গ্রহণের প্রক্রিয়ার সময় অনিশ্চয়তার মাত্রা কার্যকর হতে পারে। ফলাফলে 20% অনিশ্চয়তার সাথে একটি নির্দিষ্ট জল চিকিত্সার সমর্থনকারী ডেটা সেই অনিশ্চয়তা মোকাবেলায় প্রোগ্রামটির অব্যাহত পর্যবেক্ষণের সাথে সেই জল চিকিত্সার বাস্তবায়নের জন্য একটি সুপারিশের দিকে নিয়ে যেতে পারে।
বায়েসিয়ান নিউরাল নেটওয়ার্কগুলি একক মানের পরিবর্তে মানগুলির বন্টনের পূর্বাভাস দিয়ে অনিশ্চয়তার পরিমাণ নির্ধারণ করতে পারে।
অপ্রাসঙ্গিকতা
ভূমিকায় আলোচনা করা হয়েছে, ডেটা এবং বাস্তবতার মধ্যে সর্বদা অন্তত একটি ছোট ব্যবধান থাকে। বুদ্ধিমান এমএল অনুশীলনকারীকে জিজ্ঞাসা করা প্রশ্নটির সাথে ডেটাসেট প্রাসঙ্গিক কিনা তা নিশ্চিত করা উচিত।
হাফ একটি প্রারম্ভিক জনমত সমীক্ষার বর্ণনা করেছেন যেটিতে দেখা গেছে যে কালো আমেরিকানদের জন্য একটি ভাল জীবনযাপন করা কতটা সহজ ছিল এই প্রশ্নের শ্বেতাঙ্গ আমেরিকানদের উত্তর সরাসরি এবং বিপরীতভাবে কালো আমেরিকানদের প্রতি তাদের সহানুভূতির স্তরের সাথে সম্পর্কিত। জাতিগত বিদ্বেষ বৃদ্ধির সাথে সাথে প্রত্যাশিত অর্থনৈতিক সুযোগ সম্পর্কে প্রতিক্রিয়াগুলি আরও বেশি আশাবাদী হয়ে ওঠে। এটাকে অগ্রগতির লক্ষণ হিসেবে ভুল বোঝানো যেত। যাইহোক, সমীক্ষাটি সেই সময়ে কালো আমেরিকানদের জন্য উপলব্ধ প্রকৃত অর্থনৈতিক সুযোগগুলি সম্পর্কে কিছুই দেখাতে পারেনি, এবং চাকরির বাজারের বাস্তবতা সম্পর্কে সিদ্ধান্ত নেওয়ার জন্য উপযুক্ত ছিল না - শুধুমাত্র জরিপ উত্তরদাতাদের মতামত। সংগৃহীত তথ্য আসলে চাকরির বাজারের অবস্থার সাথে অপ্রাসঙ্গিক ছিল। 2
আপনি উপরে বর্ণিত সমীক্ষার ডেটার উপর একটি মডেলকে প্রশিক্ষণ দিতে পারেন, যেখানে আউটপুট আসলে সুযোগের পরিবর্তে আশাবাদ পরিমাপ করে। কিন্তু যেহেতু ভবিষ্যদ্বাণী করা সুযোগগুলি প্রকৃত সুযোগের সাথে অপ্রাসঙ্গিক, আপনি যদি দাবি করেন যে মডেলটি প্রকৃত সুযোগের ভবিষ্যদ্বাণী করছে, তাহলে আপনি মডেলটি যা ভবিষ্যদ্বাণী করে তা ভুলভাবে উপস্থাপন করবেন।
বিভ্রান্ত করে
একটি বিভ্রান্তিকর পরিবর্তনশীল , বিভ্রান্তিকর বা কোফ্যাক্টর হল একটি পরিবর্তনশীল যা অধ্যয়নের অধীনে নয় যা অধ্যয়নাধীন ভেরিয়েবলগুলিকে প্রভাবিত করে এবং ফলাফলগুলিকে বিকৃত করতে পারে। উদাহরণস্বরূপ, একটি এমএল মডেল বিবেচনা করুন যা জনস্বাস্থ্য নীতি বৈশিষ্ট্যগুলির উপর ভিত্তি করে একটি ইনপুট দেশের জন্য মৃত্যুর হারের পূর্বাভাস দেয়। ধরুন যে মধ্যম বয়স একটি বৈশিষ্ট্য নয়। আরও ধরুন যে কিছু দেশে অন্যদের তুলনায় বয়স্ক জনসংখ্যা রয়েছে। মধ্য বয়সের বিভ্রান্তিকর পরিবর্তনশীলকে উপেক্ষা করে, এই মডেলটি ত্রুটিপূর্ণ মৃত্যুর হারের পূর্বাভাস দিতে পারে।
মার্কিন যুক্তরাষ্ট্রে, জাতি প্রায়ই আর্থ-সামাজিক শ্রেণীর সাথে দৃঢ়ভাবে সম্পর্কযুক্ত, যদিও শুধুমাত্র জাতি, এবং শ্রেণী নয়, মৃত্যুর তথ্যের সাথে রেকর্ড করা হয়। শ্রেণী-সম্পর্কিত বিভ্রান্তি, যেমন স্বাস্থ্যসেবা, পুষ্টি, বিপজ্জনক কাজ এবং নিরাপদ আবাসনের অ্যাক্সেস, জাতি থেকে মৃত্যুর হারের উপর শক্তিশালী প্রভাব ফেলতে পারে, কিন্তু উপেক্ষিত হতে পারে কারণ সেগুলি ডেটাসেটে অন্তর্ভুক্ত নয়। 3 এই বিভ্রান্তিগুলি সনাক্ত করা এবং নিয়ন্ত্রণ করা দরকারী মডেলগুলি তৈরি করার জন্য এবং অর্থপূর্ণ এবং সঠিক সিদ্ধান্তগুলি আঁকার জন্য গুরুত্বপূর্ণ।
যদি একটি মডেল বিদ্যমান মৃত্যুর তথ্যের উপর প্রশিক্ষিত হয়, যার মধ্যে জাতি অন্তর্ভুক্ত থাকে কিন্তু শ্রেণী নয়, তবে এটি বর্ণের উপর ভিত্তি করে মৃত্যুর পূর্বাভাস দিতে পারে, এমনকি যদি শ্রেণীটি মৃত্যুহারের একটি শক্তিশালী ভবিষ্যদ্বাণী করে। এর ফলে কার্যকারণ সম্পর্কে ভুল অনুমান এবং রোগীর মৃত্যুহার সম্পর্কে ভুল ভবিষ্যদ্বাণী হতে পারে। এমএল অনুশীলনকারীদের জিজ্ঞাসা করা উচিত যে তাদের ডেটাতে বিভ্রান্তি বিদ্যমান কিনা, সেইসাথে তাদের ডেটাসেট থেকে কী অর্থপূর্ণ ভেরিয়েবল অনুপস্থিত হতে পারে।
1985 সালে, নার্সেস হেলথ স্টাডি, হার্ভার্ড মেডিকেল স্কুল এবং হার্ভার্ড স্কুল অফ পাবলিক হেলথের একটি পর্যবেক্ষণমূলক সমন্বিত সমীক্ষা, দেখা গেছে যে ইস্ট্রোজেন প্রতিস্থাপন থেরাপি গ্রহণকারী সমগোত্রীয় সদস্যদের হার্ট অ্যাটাকের ঘটনা কম ছিল সেই দলটির সদস্যদের তুলনায় যারা কখনও ইস্ট্রোজেন গ্রহণ করেননি। ফলস্বরূপ, 2002 সালে একটি ক্লিনিকাল গবেষণা দীর্ঘমেয়াদী ইস্ট্রোজেন থেরাপির দ্বারা সৃষ্ট স্বাস্থ্য ঝুঁকি চিহ্নিত না করা পর্যন্ত, ডাক্তাররা তাদের মেনোপজ এবং পোস্টমেনোপজাল রোগীদের জন্য কয়েক দশক ধরে ইস্ট্রোজেন নির্ধারণ করেছিলেন। মেনোপজ-পরবর্তী মহিলাদের জন্য ইস্ট্রোজেন নির্ধারণের অভ্যাস বন্ধ হয়ে যায়, তবে আনুমানিক কয়েক হাজার অকাল মৃত্যুর আগে নয়।
একাধিক বিভ্রান্তি সমিতির কারণ হতে পারে। এপিডেমিওলজিস্টরা দেখেছেন যে মহিলারা যারা হরমোন প্রতিস্থাপন থেরাপি গ্রহণ করেন না, তাদের তুলনায় তারা পাতলা, আরও শিক্ষিত, ধনী, তাদের স্বাস্থ্য সম্পর্কে আরও সচেতন এবং ব্যায়াম করার সম্ভাবনা বেশি। বিভিন্ন গবেষণায়, শিক্ষা এবং সম্পদ হৃদরোগের ঝুঁকি কমাতে দেখা গেছে। এই প্রভাবগুলি ইস্ট্রোজেন থেরাপি এবং হার্ট অ্যাটাকের মধ্যে স্পষ্ট সম্পর্ককে বিভ্রান্ত করবে। 4
ঋণাত্মক সংখ্যা সহ শতাংশ
নেতিবাচক সংখ্যা উপস্থিত হলে শতাংশ ব্যবহার এড়িয়ে চলুন, 5 কারণ সমস্ত ধরণের অর্থপূর্ণ লাভ এবং ক্ষতি অস্পষ্ট হতে পারে। অনুমান করুন, সহজ গণিতের খাতিরে, রেস্টুরেন্ট শিল্পে 2 মিলিয়ন চাকরি রয়েছে। যদি ইন্ডাস্ট্রি 2020 সালের মার্চের শেষের দিকে সেইগুলির মধ্যে 1 মিলিয়ন চাকরি হারায়, দশ মাসের জন্য কোনও নেট পরিবর্তনের অভিজ্ঞতা না পায় এবং 2021 সালের ফেব্রুয়ারির শুরুতে 900,000 চাকরি ফিরে পায়, তাহলে 2021 সালের মার্চের শুরুতে বছরের তুলনায় বছরের তুলনায় মাত্র 5% সুপারিশ করবে। রেস্টুরেন্টের চাকরি হারানো। অন্য কোনো পরিবর্তন নেই বলে ধরে নিলে, 2022 সালের ফেব্রুয়ারির শেষে বছরের পর বছর তুলনা করলে রেস্তোরাঁর চাকরিতে 90% বৃদ্ধির পরামর্শ দেওয়া হবে, যা বাস্তবতার একটি সম্পূর্ণ ভিন্ন চিত্র।
প্রকৃত সংখ্যা পছন্দ করুন, যথাযত স্বাভাবিক। আরও তথ্যের জন্য সংখ্যাসূচক ডেটা নিয়ে কাজ করা দেখুন।
পোস্ট-হক ফ্যালাসি এবং অব্যবহারযোগ্য পারস্পরিক সম্পর্ক
পোস্ট-হক ফ্যালাসি হল অনুমান যে, ঘটনা A এর পরে ইভেন্ট B, ইভেন্ট A এর ফলে B ঘটনা ঘটেছিল। আরও সহজ করে বললে, এটি একটি কারণ-এবং-প্রভাব সম্পর্ক ধরে নিচ্ছে যেখানে একটির অস্তিত্ব নেই। আরও সহজভাবে: পারস্পরিক সম্পর্ক কার্যকারণ প্রমাণ করে না।
একটি সুস্পষ্ট কারণ-ও-প্রভাব সম্পর্ক ছাড়াও, পারস্পরিক সম্পর্কও হতে পারে:
- বিশুদ্ধ সুযোগ (মেইন এবং মার্জারিন সেবনের মধ্যে বিবাহবিচ্ছেদের হারের মধ্যে একটি শক্তিশালী পারস্পরিক সম্পর্ক সহ চিত্রের জন্য টাইলার ভিজেনের স্ফুরিয়াস পারস্পরিক সম্পর্ক দেখুন)।
- দুটি ভেরিয়েবলের মধ্যে একটি বাস্তব সম্পর্ক, যদিও এটি অস্পষ্ট রয়ে গেছে কোন পরিবর্তনশীলটি কার্যকারক এবং কোনটি প্রভাবিত।
- একটি তৃতীয়, পৃথক কারণ যা উভয় ভেরিয়েবলকে প্রভাবিত করে, যদিও পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবল একে অপরের সাথে সম্পর্কহীন। উদাহরণস্বরূপ, বৈশ্বিক মুদ্রাস্ফীতি ইয়ট এবং সেলারি উভয়ের দাম বাড়াতে পারে। 6
বিদ্যমান ডেটার অতীত পারস্পরিক সম্পর্ককে এক্সট্রাপোলেট করাও ঝুঁকিপূর্ণ। হাফ নির্দেশ করে যে কিছু বৃষ্টি ফসলের উন্নতি ঘটাবে, কিন্তু অত্যধিক বৃষ্টি তাদের ক্ষতি করবে; বৃষ্টি এবং ফসলের ফলাফলের মধ্যে সম্পর্ক অরৈখিক। 7 (অরৈখিক সম্পর্ক সম্পর্কে আরও জানার জন্য পরবর্তী দুটি বিভাগ দেখুন।) জোনস নোট করেছেন যে বিশ্ব যুদ্ধ এবং দুর্ভিক্ষের মতো অপ্রত্যাশিত ঘটনাতে পূর্ণ, যা ভবিষ্যতের পূর্বাভাস সময় সিরিজের ডেটাকে প্রচুর পরিমাণে অনিশ্চয়তার দিকে নিয়ে যায়। 8
উপরন্তু, এমনকি কারণ এবং প্রভাবের উপর ভিত্তি করে একটি প্রকৃত পারস্পরিক সম্পর্ক সিদ্ধান্ত নেওয়ার জন্য সহায়ক নাও হতে পারে। হাফ উদাহরণ হিসেবে 1950-এর দশকে বিবাহযোগ্যতা এবং কলেজ শিক্ষার মধ্যে পারস্পরিক সম্পর্ক দেয়। যে মহিলারা কলেজে গিয়েছিল তাদের বিয়ে করার সম্ভাবনা কম ছিল, তবে এমনও হতে পারে যে মহিলারা কলেজে গিয়েছিলেন তাদের বিয়ে করার প্রতি কম ঝোঁক ছিল। যদি তা হয়, কলেজ শিক্ষা তাদের বিয়ে করার সম্ভাবনা পরিবর্তন করেনি। 9
যদি একটি বিশ্লেষণ একটি ডেটাসেটে দুটি ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ক সনাক্ত করে, জিজ্ঞাসা করুন:
- এটা কি ধরনের পারস্পরিক সম্পর্ক: কারণ-ও-প্রভাব, বানোয়াট, অজানা সম্পর্ক, বা তৃতীয় পরিবর্তনশীল দ্বারা সৃষ্ট?
- ডেটা থেকে এক্সট্রাপোলেশন কতটা ঝুঁকিপূর্ণ? প্রশিক্ষণ ডেটাসেটে না থাকা ডেটার প্রতিটি মডেলের ভবিষ্যদ্বাণী, কার্যত, ডেটা থেকে ইন্টারপোলেশন বা এক্সট্রাপোলেশন।
- পারস্পরিক সম্পর্ক দরকারী সিদ্ধান্ত নিতে ব্যবহার করা যেতে পারে? উদাহরণস্বরূপ, আশাবাদ ক্রমবর্ধমান মজুরির সাথে দৃঢ়ভাবে সম্পর্কযুক্ত হতে পারে, কিন্তু কিছু বৃহৎ টেক্সট ডেটার অনুভূতি বিশ্লেষণ, যেমন একটি নির্দিষ্ট দেশের ব্যবহারকারীদের সামাজিক মিডিয়া পোস্ট, সেই দেশে মজুরি বৃদ্ধির পূর্বাভাস দিতে উপযোগী হবে না।
একটি মডেলকে প্রশিক্ষণ দেওয়ার সময়, এমএল অনুশীলনকারীরা সাধারণত লেবেলের সাথে দৃঢ়ভাবে সম্পর্কযুক্ত বৈশিষ্ট্যগুলি সন্ধান করে। যদি বৈশিষ্ট্য এবং লেবেলের মধ্যে সম্পর্ক ভালভাবে বোঝা না যায়, তাহলে এটি এই বিভাগে বর্ণিত সমস্যাগুলির দিকে নিয়ে যেতে পারে, যার মধ্যে রয়েছে বানোয়াট পারস্পরিক সম্পর্কের উপর ভিত্তি করে মডেলগুলি এবং মডেলগুলি যা অনুমান করে যে ঐতিহাসিক প্রবণতাগুলি ভবিষ্যতে চলতে থাকবে, যখন বাস্তবে তারা তা করবে না। .
রৈখিক পক্ষপাত
"লিনিয়ার থিংকিং ইন এ ননলাইনার ওয়ার্ল্ড" -এ বার্ট ডি ল্যাংহে, স্টেফানো পুন্টোনি এবং রিচার্ড ল্যারিক রৈখিক পক্ষপাতকে মানব মস্তিষ্কের রৈখিক সম্পর্কের আশা করার এবং খোঁজার প্রবণতা হিসাবে বর্ণনা করেছেন, যদিও অনেক ঘটনা অরৈখিক। মানুষের মনোভাব এবং আচরণের মধ্যে সম্পর্ক, উদাহরণস্বরূপ, একটি উত্তল বক্ররেখা নয়। 2007 সালের একটি জার্নাল অফ কনজিউমার পলিসি পেপারে ডি ল্যাংহে এট আল., জেনি ভ্যান ডোর্ন এট আল দ্বারা উদ্ধৃত। পরিবেশ সম্পর্কে জরিপ উত্তরদাতাদের উদ্বেগ এবং জৈব পণ্যের উত্তরদাতাদের ক্রয় মধ্যে সম্পর্ক মডেল. যারা পরিবেশ নিয়ে সবচেয়ে বেশি উদ্বিগ্ন তারা আরও জৈব পণ্য কিনেছিলেন, কিন্তু অন্য সমস্ত উত্তরদাতাদের মধ্যে খুব কম পার্থক্য ছিল।
মডেল বা অধ্যয়ন ডিজাইন করার সময়, অরৈখিক সম্পর্কের সম্ভাবনা বিবেচনা করুন। যেহেতু A/B টেস্টিং অরৈখিক সম্পর্ক মিস করতে পারে, তৃতীয়, মধ্যবর্তী অবস্থা, C পরীক্ষা করার কথাও বিবেচনা করুন। এছাড়াও বিবেচনা করুন যে প্রাথমিক আচরণ যা রৈখিক বলে মনে হয় তা রৈখিক হতে থাকবে, বা ভবিষ্যতে ডেটা আরও লগারিদমিক বা অন্যান্য অরৈখিক আচরণ দেখাতে পারে কিনা।
এই অনুমানমূলক উদাহরণ লগারিদমিক ডেটার জন্য একটি ভুল লিনিয়ার ফিট দেখায়। যদি শুধুমাত্র প্রথম কয়েকটি ডেটা পয়েন্ট পাওয়া যায়, তাহলে ভেরিয়েবলের মধ্যে চলমান রৈখিক সম্পর্ক অনুমান করা লোভনীয় এবং ভুল উভয়ই হবে।
লিনিয়ার ইন্টারপোলেশন
ডেটা পয়েন্টের মধ্যে যে কোনো ইন্টারপোলেশন পরীক্ষা করুন, কারণ ইন্টারপোলেশন কাল্পনিক বিন্দুর পরিচয় দেয়, এবং বাস্তব পরিমাপের মধ্যে ব্যবধানে অর্থপূর্ণ ওঠানামা থাকতে পারে। উদাহরণ হিসাবে, রৈখিক ইন্টারপোলেশনের সাথে সংযুক্ত চারটি ডেটা পয়েন্টের নিম্নলিখিত ভিজ্যুয়ালাইজেশন বিবেচনা করুন:
তারপরে একটি লিনিয়ার ইন্টারপোলেশন দ্বারা মুছে ফেলা ডেটা পয়েন্টগুলির মধ্যে ওঠানামার এই উদাহরণটি বিবেচনা করুন:
উদাহরণটি সংঘবদ্ধ কারণ সিসমোগ্রাফগুলি অবিচ্ছিন্ন ডেটা সংগ্রহ করে এবং তাই এই ভূমিকম্পটি মিস করা হবে না। তবে এটি ইন্টারপোলেশনগুলির দ্বারা তৈরি অনুমানগুলি এবং ডেটা অনুশীলনকারীরা যে আসল ঘটনাটি মিস করতে পারে তা চিত্রিত করার জন্য দরকারী।
রুঞ্জের ঘটনা
রঞ্জের ঘটনা , যা "পলিনোমিয়াল উইগল" নামেও পরিচিত, এটি লিনিয়ার ইন্টারপোলেশন এবং লিনিয়ার পক্ষপাত থেকে বর্ণালীটির বিপরীত প্রান্তে একটি সমস্যা। যখন ডেটাতে একটি বহুবর্ষীয় ইন্টারপোলেশন ফিট করার সময়, খুব বেশি ডিগ্রি (ডিগ্রি বা ক্রম, বহুবর্ষীয় সমীকরণের সর্বোচ্চ এক্সপোনেন্ট) সহ একটি বহুবর্ষ ব্যবহার করা সম্ভব। এটি প্রান্তগুলিতে বিজোড় দোলন তৈরি করে। উদাহরণস্বরূপ, ডিগ্রি 11 এর একটি বহুবর্ষীয় ইন্টারপোলেশন প্রয়োগ করা, যার অর্থ বহুবর্ষ সমীকরণের সর্বোচ্চ-আদেশের শব্দটি রয়েছে \(x^{11}\), মোটামুটি লিনিয়ার ডেটাতে, ডেটার পরিসীমাটির শুরু এবং শেষের দিকে উল্লেখযোগ্যভাবে খারাপ ভবিষ্যদ্বাণী করে:
এমএল প্রসঙ্গে, একটি সাদৃশ্যপূর্ণ ঘটনাটি অতিরিক্ত ফিচার হয়।
পরিসংখ্যানগত ব্যর্থতা সনাক্ত করতে
কখনও কখনও একটি পরিসংখ্যান পরীক্ষা একটি ছোট প্রভাব সনাক্ত করতে খুব কম শক্তিযুক্ত হতে পারে। পরিসংখ্যানগত বিশ্লেষণে কম শক্তি মানে সত্য ঘটনাগুলি সঠিকভাবে সনাক্ত করার একটি কম সুযোগ এবং তাই মিথ্যা নেতিবাচক একটি উচ্চ সম্ভাবনা। ক্যাথরিন বোতাম এবং অন্যান্য। প্রকৃতিতে লিখেছেন: "যখন কোনও প্রদত্ত ক্ষেত্রের অধ্যয়নগুলি 20%পাওয়ারের সাথে ডিজাইন করা হয়, এর অর্থ হ'ল যদি সেই ক্ষেত্রে 100 টি সত্যিকারের অ-নাল প্রভাবগুলি আবিষ্কার করা যায় তবে এই গবেষণাগুলি তাদের মধ্যে কেবল 20 টি আবিষ্কার করবে বলে আশা করা হচ্ছে। " নমুনার আকার বাড়ানো কখনও কখনও সহায়তা করতে পারে, যেমন যত্ন সহকারে অধ্যয়ন নকশা করতে পারে।
এমএল -এর একটি সাদৃশ্য পরিস্থিতি হ'ল শ্রেণিবিন্যাসের সমস্যা এবং শ্রেণিবিন্যাসের প্রান্তিকের পছন্দ। উচ্চতর থ্রেশহোল্ডের একটি পছন্দ কম মিথ্যা ইতিবাচক এবং আরও মিথ্যা নেতিবাচক ফলাফল করে, যখন একটি নিম্ন প্রান্তিকের ফলে আরও মিথ্যা ইতিবাচক এবং কম মিথ্যা নেতিবাচক ফলাফল হয়।
পরিসংখ্যানগত শক্তির সাথে সম্পর্কিত বিষয়গুলি ছাড়াও, যেহেতু লিনিয়ার সম্পর্কগুলি সনাক্ত করার জন্য পারস্পরিক সম্পর্ক তৈরি করা হয়েছে, তাই ভেরিয়েবলের মধ্যে অরৈখিক সম্পর্কগুলি মিস করা যায়। একইভাবে, ভেরিয়েবলগুলি একে অপরের সাথে সম্পর্কিত হতে পারে তবে পরিসংখ্যানগতভাবে সম্পর্কিত নয়। বার্কসনের প্যারাডক্স বা বার্কসনের মিথ্যাচার হিসাবে পরিচিত, ভেরিয়েবলগুলিও নেতিবাচকভাবে সম্পর্কযুক্ত তবে সম্পূর্ণ সম্পর্কযুক্ত হতে পারে। বার্কসনের মিথ্যাচারের সর্বোত্তম উদাহরণ হ'ল হাসপাতালের রোগীদের জনসংখ্যার (সাধারণ জনগণের তুলনায়) দেখার সময় যে কোনও ঝুঁকিপূর্ণ কারণ এবং গুরুতর রোগের মধ্যে উত্সাহী নেতিবাচক সম্পর্ক রয়েছে, যা নির্বাচন প্রক্রিয়া থেকে উদ্ভূত হয় (হাসপাতালের ভর্তির প্রয়োজনের পক্ষে যথেষ্ট তীব্র শর্ত) .
এই পরিস্থিতিগুলির কোনও প্রযোজ্য কিনা তা বিবেচনা করুন।
পুরানো মডেল এবং অবৈধ অনুমান
এমনকি ভাল মডেলগুলিও সময়ের সাথে সাথে হ্রাস করতে পারে কারণ আচরণ (এবং বিশ্ব, এই বিষয়টির জন্য) পরিবর্তিত হতে পারে। তরুণ, প্রযুক্তি-বুদ্ধিমান ব্যবহারকারীদের থেকে সাধারণ জনগোষ্ঠীতে পরিবর্তিত হওয়ায় নেটফ্লিক্সের প্রাথমিক ভবিষ্যদ্বাণীমূলক মডেলগুলি অবসর নিতে হয়েছিল। 10
মডেলগুলির মধ্যে নীরব এবং ভুল অনুমানগুলিও থাকতে পারে যা ২০০৮ সালের বাজার ক্র্যাশের মতো মডেলের বিপর্যয়কর ব্যর্থতা না হওয়া পর্যন্ত লুকানো থাকতে পারে। আর্থিক শিল্পের মূল্য ঝুঁকিপূর্ণ (ভিআর) মডেলগুলি যে কোনও ব্যবসায়ীের পোর্টফোলিওতে সর্বাধিক ক্ষতির সুনির্দিষ্টভাবে অনুমান করার দাবি করেছে, 99% সময় প্রত্যাশিত $ 100,000 এর সর্বাধিক ক্ষতি বলে। তবে ক্র্যাশের অস্বাভাবিক পরিস্থিতিতে, প্রত্যাশিত সর্বোচ্চ $ 100,000 এর একটি পোর্টফোলিও কখনও কখনও $ 1,000,000 বা তারও বেশি ক্ষতিগ্রস্থ হয়।
ভিএআর মডেলগুলি নিম্নলিখিতগুলি সহ ত্রুটিযুক্ত অনুমানের উপর ভিত্তি করে ছিল:
- অতীতের বাজারের পরিবর্তনগুলি ভবিষ্যতের বাজারের পরিবর্তনের পূর্বাভাস।
- একটি সাধারণ (পাতলা লেজযুক্ত, এবং তাই পূর্বাভাসযোগ্য) বিতরণ পূর্বাভাসিত রিটার্নগুলির অন্তর্নিহিত ছিল।
প্রকৃতপক্ষে, অন্তর্নিহিত বিতরণটি ফ্যাট-লেজযুক্ত ছিল, "বন্য," বা ফ্র্যাক্টাল, যার অর্থ একটি সাধারণ বিতরণের চেয়ে দীর্ঘ-লেজ, চরম এবং অনুমিত বিরল ঘটনাগুলির অনেক বেশি ঝুঁকি ছিল। আসল বিতরণের ফ্যাট-লেজযুক্ত প্রকৃতিটি সুপরিচিত ছিল, তবে তার উপর অভিনয় করা হয়নি। যা কম পরিচিত ছিল তা হ'ল স্বয়ংক্রিয় বিক্রয় অফ সহ কম্পিউটার-ভিত্তিক ট্রেডিং সহ বিভিন্ন ঘটনাটি কতটা জটিল এবং দৃ ly ়ভাবে মিলিত হয়েছিল। 11
সমষ্টি সমস্যা
একত্রিত করা ডেটা, যার মধ্যে বেশিরভাগ ডেমোগ্রাফিক এবং এপিডেমিওলজিকাল ডেটা অন্তর্ভুক্ত থাকে, এটি একটি নির্দিষ্ট ফাঁদগুলির সাপেক্ষে। সিম্পসনের প্যারাডক্স , বা সংমিশ্রণ প্যারাডক্স , একত্রিত ডেটাতে ঘটে যেখানে বিভ্রান্তিকর কারণগুলির কারণে এবং কার্যকারণ সম্পর্কের ভুল বোঝাবুঝির কারণে ডেটা আলাদা স্তরে একত্রিত হয়ে গেলে আপাত প্রবণতাগুলি অদৃশ্য হয়ে যায় বা বিপরীত হয়।
বাস্তুসংস্থানীয় মিথ্যাচারের মধ্যে একটি সমষ্টিগত স্তরে একটি জনসংখ্যা সম্পর্কে অন্য সমষ্টি স্তরে ভ্রান্তভাবে এক্সট্রাপোলেটিং তথ্য জড়িত, যেখানে দাবিটি বৈধ নাও হতে পারে। একটি রোগ যা একটি প্রদেশে 40% কৃষি শ্রমিককে ক্ষতিগ্রস্থ করে তোলে তা বৃহত্তর জনগোষ্ঠীতে একই প্রসারণে উপস্থিত নাও থাকতে পারে। এটিও খুব সম্ভবত যে সেই প্রদেশের বিচ্ছিন্ন খামার বা কৃষি শহরগুলি থাকবে যা এই রোগের একইভাবে উচ্চতর প্রসার অনুভব করছে না । সেই কম-ক্ষতিগ্রস্থ স্থানে 40% প্রবণতাও ধরে নেওয়া মিথ্যা হবে।
সংশোধনযোগ্য আরিয়াল ইউনিট সমস্যা (এমএইউপি) জিওস্প্যাটিয়াল ডেটাতে একটি সুপরিচিত সমস্যা, 1984 সালে ক্যাটমোগ 38 -এ স্ট্যান ওপেনশো দ্বারা বর্ণিত। উপাত্তগুলিকে একত্রিত করতে ব্যবহৃত অঞ্চলগুলির আকার এবং আকারের উপর নির্ভর করে একটি জিওপ্যাসিয়াল ডেটা প্র্যাকটিশনার ডেটাতে ভেরিয়েবলের মধ্যে প্রায় কোনও সম্পর্ক স্থাপন করতে পারে। একটি পক্ষ বা অন্য পক্ষের পক্ষে ভোটদানের জেলাগুলি অঙ্কন করা এমএপি -র উদাহরণ।
এই সমস্ত পরিস্থিতিতে একটি সমষ্টি স্তর থেকে অন্য সমষ্টিতে অনুপযুক্ত এক্সট্রাপোলেশন জড়িত। বিভিন্ন স্তরের বিশ্লেষণের জন্য বিভিন্ন সমষ্টি বা এমনকি সম্পূর্ণ ভিন্ন ডেটাসেটগুলির প্রয়োজন হতে পারে। 12
নোট করুন যে আদমশুমারি, ডেমোগ্রাফিক এবং এপিডেমিওলজিকাল ডেটা সাধারণত গোপনীয়তার কারণে অঞ্চলগুলি দ্বারা একত্রিত হয় এবং এই অঞ্চলগুলি প্রায়শই স্বেচ্ছাচারিত হয়, যা বলা হয়, অর্থবহ বাস্তব-বিশ্বের সীমানার উপর ভিত্তি করে নয়। এই ধরণের ডেটা নিয়ে কাজ করার সময়, এমএল অনুশীলনকারীদের নির্বাচিত অঞ্চলগুলির আকার এবং আকৃতির উপর নির্ভর করে বা একত্রিতকরণের স্তরের উপর নির্ভর করে মডেল কর্মক্ষমতা এবং ভবিষ্যদ্বাণীগুলি পরিবর্তিত হয় কিনা তা পরীক্ষা করা উচিত এবং যদি তাই হয় তবে মডেল ভবিষ্যদ্বাণীগুলি এই সংহতকরণ সমস্যাগুলির মধ্যে একটি দ্বারা প্রভাবিত হয় কিনা।
তথ্যসূত্র
বোতাম, ক্যাথারিন এট আল। "পাওয়ার ব্যর্থতা: কেন ছোট নমুনার আকার নিউরোসায়েন্সের নির্ভরযোগ্যতা হ্রাস করে।" প্রকৃতি পর্যালোচনা নিউরোসায়েন্স খণ্ড 14 (2013), 365–376। Doi: https://doi.org/10.1038/nrn3475
কায়রো, আলবার্তো। চার্টগুলি কীভাবে মিথ্যা: ভিজ্যুয়াল তথ্য সম্পর্কে আরও স্মার্ট হওয়া। এনওয়াই: ডাব্লুডাব্লু নরটন, 2019।
ডেভেনপোর্ট, টমাস এইচ। "একটি ভবিষ্যদ্বাণীমূলক বিশ্লেষণ প্রাইমার।" পরিচালকদের জন্য ডেটা অ্যানালিটিক্স বেসিকগুলিতে এইচবিআর গাইডে (বোস্টন: এইচবিআর প্রেস, 2018) 81-86।
ডি ল্যাংহে, বার্ট, স্টেফানো পাউন্টনি এবং রিচার্ড লারিক। "একটি অরৈখিক বিশ্বে লিনিয়ার চিন্তাভাবনা।" পরিচালকদের জন্য ডেটা অ্যানালিটিক্স বেসিকগুলিতে এইচবিআর গাইডে (বোস্টন: এইচবিআর প্রেস, 2018) 131-154।
এলেনবার্গ, জর্দান। কীভাবে ভুল হতে হবে না: গাণিতিক চিন্তার শক্তি। এনওয়াই: পেঙ্গুইন, 2014।
হাফ, ড্যারেল পরিসংখ্যানের সাথে কীভাবে মিথ্যা বলা যায়। এনওয়াই: ডাব্লুডাব্লু নরটন, 1954।
জোন্স, বেন। ডেটা সমস্যাগুলি এড়ানো। হোবোকেন, এনজে: উইলি, 2020।
ওপেনশো, স্ট্যান। "সংশোধনযোগ্য আরিয়াল ইউনিট সমস্যা," ক্যাটমোগ 38 (নরউইচ, ইংল্যান্ড: জিও বুকস 1984) 37।
আর্থিক মডেলিংয়ের ঝুঁকি: ভিআর এবং অর্থনৈতিক মেল্টডাউন , 111 তম কংগ্রেস (২০০৯) (নাসিম এন। তালেব এবং রিচার্ড বুকস্টাবার এর সাক্ষ্য)।
রিটার, ডেভিড। "কখন কোনও পারস্পরিক সম্পর্কের সাথে কাজ করবেন এবং কখন করবেন না।" পরিচালকদের জন্য ডেটা অ্যানালিটিক্স বেসিকগুলিতে এইচবিআর গাইডে (বোস্টন: এইচবিআর প্রেস, 2018) 103-109।
তুলচিনস্কি, থিওডোর এইচ। এবং এলেনা এ। ভারভিকোভা। "অধ্যায় 3: জনসংখ্যার স্বাস্থ্য পরিমাপ, পর্যবেক্ষণ এবং মূল্যায়ন করা" নতুন জনস্বাস্থ্যে , তৃতীয় সংস্করণ। সান দিয়েগো: একাডেমিক প্রেস, 2014, পিপি 91-147। Doi: https://doi.org/10.1016/b978-0-12-415766-8.00003-3।
ভ্যান ডুর্ন, জেনি, পিটার সি। ভারহোফ এবং তামমো হা বিজমোল্ট। "নীতি গবেষণায় মনোভাব এবং আচরণের মধ্যে অ-রৈখিক সম্পর্কের গুরুত্ব" " গ্রাহক নীতি জার্নাল 30 (2007) 75-90। Doi: https://doi.org/10.1007/s10603-007-9028-3
ইমেজ রেফারেন্স
"ভন মাইস বিতরণ" এর উপর ভিত্তি করে। রেইনাল্ড 62, 2018. উত্স
এলেনবার্গ 125. ↩
হাফ 77-79। হাফ প্রিন্সটনের জনগণের মতামত গবেষণা অফিসকে উদ্ধৃত করেছেন, তবে তিনি ডেনভার বিশ্ববিদ্যালয়ের জাতীয় মতামত গবেষণা কেন্দ্রের এপ্রিল 1944 এর প্রতিবেদনের কথা ভাবছেন। ↩
তুলচিনস্কি এবং বারাভিকোভা। ↩
গ্যারি তৌবস, আমরা কি সত্যিই জানি যে আমাদের কী স্বাস্থ্যকর করে তোলে? " নিউইয়র্ক টাইমস ম্যাগাজিনে, সেপ্টেম্বর 16, 2007. ↩
এলেনবার্গ 78. ↩
হাফ 91-92। ↩
হাফ 93. ↩
জোন্স 157-167। ↩
হাফ 95. ↩
ডেভেনপোর্ট 84. ↩
আর্থিক মডেলিংয়ের ঝুঁকিতে নাসিম এন। তালেব এবং রিচার্ড বুকস্টাবার কংগ্রেসনাল সাক্ষ্য দেখুন: ভিএআর এবং অর্থনৈতিক মেল্টডাউন , ১১১ তম কংগ্রেস (২০০৯) ১১-67। ↩
কায়রো 155, 162. ↩