চিন্তার ফাঁদ

মানুষ মানুষ হওয়ার কারণে জ্ঞানীয় পক্ষপাতের শিকার হয়, যার মধ্যে যুক্তিসংগতকরণ এবং নিশ্চিতকরণ পক্ষপাতিত্ব রয়েছে। আলবার্তো কায়রো লিখেছেন, "যুক্তিকরণ মানব মস্তিষ্কের ডিফল্ট মোড।" 1 খুব প্রায়ই, লোকেরা একটি নির্দিষ্ট ফলাফল আশা করে বা চায়, তারপর সেই ফলাফলটিকে সমর্থন করার জন্য ডেটা বা প্রমাণ সন্ধান করে।

ডেটা এবং মডেলগুলির সাথে কাজ করার বা মূল্যায়ন করার সময়, যা বিভিন্ন উত্স থেকে আসতে পারে, পক্ষপাতের সম্ভাব্য উত্সগুলি সম্পর্কে জিজ্ঞাসা করুন৷ উদাহরণ স্বরূপ:

  • কে এই মডেল বা অধ্যয়ন অর্থায়ন করছে? বাজার বা বাণিজ্যিক প্রয়োগ কি?
  • তথ্য সংগ্রহের সাথে জড়িত ব্যক্তিদের জন্য কি ধরনের প্রণোদনা বিদ্যমান?
  • প্রকাশনা এবং মেয়াদ সহ মডেলের প্রশিক্ষণ বা অধ্যয়ন পরিচালনা করার জন্য গবেষকদের জন্য কী ধরনের প্রণোদনা বিদ্যমান?
  • কে মডেল লাইসেন্স করছে বা অধ্যয়ন প্রকাশ করছে এবং তাদের প্রণোদনা কি?

বর্ণনামূলক পরিসংখ্যান

গড় (গণনা দ্বারা বিভক্ত মানের সমষ্টি), মধ্যমা (মাঝারি মান, যখন মানগুলি অর্ডার করা হয়), এবং মোড (সবচেয়ে ঘন ঘন মান) প্রায়শই একজনের ডেটাসেটের আকৃতি বোঝার জন্য সহায়ক। যদি মধ্যমা এবং গড় অনেক দূরে থাকে, উদাহরণস্বরূপ, সেটটিতে মোটামুটি চরম এবং অপ্রতিসম মান থাকতে পারে।

ব্যাপ্তি , যা সর্বোচ্চ এবং সর্বনিম্ন মানের মধ্যে পার্থক্য, এবং প্রকরণ , যা প্রতিটি মান এবং সেটের গড়ের মধ্যে গড় বর্গ পার্থক্য, এছাড়াও ডেটাসেটের বিস্তার এবং আকৃতি সম্পর্কে দরকারী তথ্য প্রদান করে৷

আপনার ডেটার উপর একটি মডেলকে প্রশিক্ষণ দেওয়ার আগে, ডেটাসেটটি ভারসাম্যহীন কিনা এবং যদি তাই হয়, সেই ভারসাম্যহীনতার সমাধান করা উচিত কিনা তাও জিজ্ঞাসা করুন।

সম্ভাব্য অসম্ভাব্যতা এবং p-মান

পর্যাপ্ত সময় এবং পর্যাপ্ত সুযোগ দেওয়া হলে, একটি অসম্ভাব্য ঘটনার সংঘটন খুব সম্ভাব্য হয়ে ওঠে। একটি সম্ভাব্য উদাহরণের জন্য তাত্ত্বিক বাল্টিমোর স্টক ব্রোকার কেলেঙ্কারী দেখুন।

বৈজ্ঞানিক সম্মতি অনুসারে, p-মান .05-এর কম হলে একটি ফলাফলকে পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ (এবং তাই প্রকাশযোগ্য) বলে মনে করা হয়। তার মানে <5% সম্ভাবনা রয়েছে যে একই ফলাফল, বা আরও একটি চরম, শূন্য অনুমানের অধীনে ঘটবে — অর্থাৎ সুযোগের ফলাফল হিসাবে। আরও কথোপকথনে, গবেষকরা কেবল তখনই প্রকাশ করতে সক্ষম হন যদি 1-এর-20 বা তার কম সম্ভাবনা থাকে যে তাদের ফলাফলগুলি এলোমেলোতার ফলাফল। বিকল্পভাবে, এবং আরও উদ্বেগজনকভাবে, প্রায় বিশটি পরীক্ষায় একবার, একটি জাল ফলাফল তাৎপর্যপূর্ণ বলে মনে হবে, যদিও তা নয়, এবং অন্য উনিশটি ফলাফল প্রকাশ করা হবে না। 2005 সালের একটি গবেষণাপত্রে, "কেন বেশির ভাগ গবেষণার ফলাফল মিথ্যা," জন আইওনিডিস পরিসংখ্যান থেকে আর্থিক পর্যন্ত একাধিক কারণ তুলে ধরেছেন, যা মিথ্যা ফলাফল প্রকাশে অবদান রাখে।

উদাহরণস্বরূপ, প্রকাশের জন্য শক্তিশালী প্রণোদনা দেওয়া, গবেষকরা কখনও কখনও .05-এর কাছাকাছি p-মানগুলিকে সেই প্রান্তিকের নীচে নেমে যাওয়ার জন্য ফাঁকি দেন৷ অন্য সময়ে, প্রকাশিত অধ্যয়নের ফলাফল, যা স্বাভাবিকভাবেই অপ্রত্যাশিত এবং অস্বাভাবিক ফলাফলের জন্য নির্বাচন করে, প্রতিলিপিযোগ্য নয় (এবং সম্ভবত সুযোগের ফলাফল) যা একাধিক ক্ষেত্রে আত্মবিশ্বাসের সংকটের দিকে নিয়ে গেছে। এটি প্রজননযোগ্যতা পরীক্ষা করার জন্য নিবেদিত সংস্থা তৈরির দিকেও নেতৃত্ব দিয়েছে।

ML-এর ক্ষেত্রে, মডেলগুলিকে কেবলমাত্র অত্যাধুনিক হিসাবে বিবেচনা করা হয় যদি তারা বেশিরভাগ অন্যান্য প্রতিযোগিতামূলক মডেলের মূল্যায়নের মানদণ্ড পূরণ করে বা অতিক্রম করে। এটা সম্ভব যে মডেল মূল্যায়ন স্কোরগুলির চারপাশে অনুরূপ চাপ তৈরি হয়, যা বেঞ্চমার্ক ফুটো দ্বারা কৃত্রিমভাবে বাড়ানো যেতে পারে। 2

পি-মানগুলি রিগ্রেশন মডেলগুলির জন্য বৈশিষ্ট্য নির্বাচনের ক্ষেত্রে কার্যকর হতে পারে। ANOVA (ভ্যারিয়েন্সের বিশ্লেষণ) হল একটি পরিসংখ্যানগত পদ্ধতি যা গোষ্ঠীর মধ্যে পার্থক্যের সাথে গোষ্ঠীর মধ্যে পার্থক্যের সাথে তুলনা করে, প্রতিটি বৈশিষ্ট্যের জন্য একটি F-পরিসংখ্যান এবং p-মান প্রদান করে। সবচেয়ে তাৎপর্যপূর্ণ বৈশিষ্ট্যগুলি বেছে নেওয়া, সর্বনিম্ন পি-মূল্য সহ, একটি মডেলের বিবেচনা করার মতো বৈশিষ্ট্যগুলির সংখ্যা কমাতে পারে, খুব বেশি ভবিষ্যদ্বাণী করার ক্ষমতা না হারিয়ে৷ এটি উভয়ই গণনা সংরক্ষণ করে এবং অনেকগুলি বৈশিষ্ট্যের সমস্যা এড়ায়, পরবর্তী বিভাগে আলোচনা করা হয়েছে। বিস্তারিত জানার জন্য scikit এর বৈশিষ্ট্য নির্বাচন নির্দেশিকা দেখুন।

একাধিক তুলনা সমস্যা

তাত্পর্য-থ্রেশহোল্ড সমস্যাটি এমন পরিস্থিতিতে বিশেষভাবে গুরুতর যেখানে একই সময়ে শূন্য অনুমানের সাথে একাধিক তুলনা পরিচালিত হচ্ছে। এটি fMRI অধ্যয়নের জন্য একটি বিশেষ সমস্যা।

একটি fMRI-তে, মস্তিষ্কের প্রতিটি ভক্সেল (ভলিউম ইউনিট) পরিসংখ্যানগতভাবে উল্লেখযোগ্য কার্যকলাপের জন্য স্বাধীনভাবে পরীক্ষা করা হয়, এবং যদি তাই হয় হাইলাইট করা হয়। এটি একবারে পরিচালিত 100,000 স্বাধীন তাত্পর্য পরীক্ষার আদেশে কিছু বাড়ে। ap=.05 তাৎপর্য থ্রেশহোল্ডে, পরিসংখ্যান তত্ত্ব একটি একক fMRI-তে আনুমানিক 5,000 মিথ্যা ইতিবাচক উপস্থিতি আশা করে। 3

সমস্যাটি সম্ভবত 2009 Bennett et al দ্বারা সবচেয়ে ভালভাবে চিত্রিত হয়েছে। পোস্টার, " পোস্টমর্টেম আটলান্টিক সালমন গ্রহণে আন্তঃপ্রজাতির দৃষ্টিভঙ্গির নিউরাল কোরিলেটস ," যা আইজি নোবেল পুরস্কার জিতেছে। গবেষকরা একটি এফএমআরআই মেশিনে একটি মৃত স্যামনকে অত্যন্ত সংবেদনশীল পরিস্থিতিতে মানুষের 15টি ফটোগ্রাফ দেখিয়েছেন, মৃত স্যামনকে চিত্রিত মানুষটি কী আবেগ অনুভব করছেন তা নির্ধারণ করতে বলেছেন। তারা স্যামনের মস্তিষ্কের গহ্বরে সক্রিয় ভক্সেলের একটি পরিসংখ্যানগতভাবে উল্লেখযোগ্য ক্লাস্টার খুঁজে পেয়েছে এবং উপসংহারে এসেছে, গালে জিভ, মৃত স্যামন প্রকৃতপক্ষে দৃষ্টিভঙ্গি গ্রহণে জড়িত ছিল। আরও গুরুত্ব সহকারে, গবেষকরা fMRI এবং অনুরূপ ইমেজিং পরিস্থিতিতে একাধিক তুলনা সমস্যা এবং প্রশমনের প্রয়োজনীয়তার দিকে মনোযোগ আকর্ষণ করছিলেন।

একটি সুস্পষ্ট, মোটা-দানাযুক্ত সমাধান হল থ্রেশহোল্ড পি-মান কম করা যা তাত্পর্য নির্দেশ করে। অন্তর্নিহিত ট্রেডঅফ হল সংবেদনশীলতা (সমস্ত সত্য ইতিবাচক ক্যাপচার) এবং নির্দিষ্টতা (সমস্ত সত্য নেতিবাচক সনাক্তকরণ) এর মধ্যে। সংবেদনশীলতার একটি আলোচনা, যাকে সত্যিকারের ইতিবাচক হারও বলা হয়, মেশিন লার্নিং ক্র্যাশ কোর্সের শ্রেণীবিভাগ মডিউলে পাওয়া যাবে।

আরেকটি প্রশমন হল পরিবার-ভিত্তিক ত্রুটির হার (FWER), যা অন্তত একটি মিথ্যা পজিটিভ হওয়ার সম্ভাবনা। আরেকটি হল মিথ্যা আবিষ্কারের হার (FDR), বা সমস্ত ইতিবাচকের মিথ্যা ইতিবাচকের প্রত্যাশিত অনুপাত নিয়ন্ত্রণ করা। এভিডেন্স ইন গভর্ন্যান্স অ্যান্ড পলিটিক্সের একাধিক তুলনা সমস্যার নির্দেশিকা দেখুন, সেইসাথে লিন্ডকুইস্ট এবং মেজিয়ার "জেন এবং একাধিক তুলনার শিল্প," এই পদ্ধতিগুলির ব্যাখ্যা এবং কয়েকটি ওয়াকথ্রুস দেখুন। মৃত স্যামনের পরিস্থিতিতে, এফডিআর এবং এফডব্লিউইআর-এর নিয়ন্ত্রণে দেখা গেছে যে কোনও ভক্সেল আসলে পরিসংখ্যানগতভাবে উল্লেখযোগ্য ছিল না।

এফএমআরআই এবং অন্যান্য ইমেজিং পদ্ধতি থেকে স্ক্যানের উপর এমএল মডেলের প্রশিক্ষণ দেওয়া মেডিকেল ডায়াগনসিস 4 এবং মস্তিষ্কের কার্যকলাপ থেকে চিত্র পুনর্গঠন উভয় ক্ষেত্রেই ক্রমবর্ধমান জনপ্রিয়। 5 যদি এই মডেলগুলিকে যথেষ্ট বড় ডেটাসেটে প্রশিক্ষণ দেওয়া হয়, তাহলে এটি একাধিক তুলনা সমস্যা থেকে সমস্যার সম্ভাবনা কমাতে পারে । যাইহোক, বিশেষত রোগ নির্ণয়ের ক্ষেত্রে, মডেলটি নতুন পৃথক স্ক্যানে ভুল অনুমান করতে পারে যদি "সক্রিয়" ভক্সেলের 20% সত্যই মিথ্যা ইতিবাচক হয়। উল্লেখ্য যে লি এবং ঝাও-তে বর্ণিত ডায়াগনস্টিক এফএমআরআই শ্রেণীবিভাগের মডেলগুলির ~70-85% নির্ভুলতা রয়েছে।

রিগ্রেশন বিশ্লেষণে অনেকগুলি ভেরিয়েবল

একাধিক তুলনা সমস্যা একাধিক রিগ্রেশন বিশ্লেষণ পর্যন্ত প্রসারিত। রিগ্রেশন বিশ্লেষণ, বা রৈখিক রিগ্রেশন , অনেক সংখ্যাসূচক ভবিষ্যদ্বাণীমূলক মডেলের মেরুদণ্ড। রিগ্রেশন বিশ্লেষণ বিভিন্ন পদ্ধতির একটি ব্যবহার করে, যেমন সাধারণ ন্যূনতম বর্গক্ষেত্র, রিগ্রেশন সহগ খুঁজে বের করতে যা একটি পরিবর্তনশীল কীভাবে অন্যটিকে প্রভাবিত করে তা সর্বোত্তমভাবে বর্ণনা করে। গবেষকরা জিজ্ঞাসা করতে পারেন কিভাবে বয়স এবং ধূমপান ফুসফুসের ক্যান্সারের হারকে প্রভাবিত করে বিভিন্ন বয়সের ধূমপায়ী এবং অধূমপায়ীদের মধ্যে ক্যান্সারের ঘটনাগুলির রিগ্রেশন বিশ্লেষণে প্রতিটি ফ্যাক্টরকে একটি পরিবর্তনশীল হিসাবে উপস্থাপন করে। একটি রৈখিক রিগ্রেশন মডেল অনেকটা একইভাবে কাজ করে এবং তাই অন্যান্য ধরনের এমএল মডেলের তুলনায় অত্যন্ত ব্যাখ্যাযোগ্য । এই ভেরিয়েবলগুলির রিগ্রেশন সহগগুলি সন্ধান করা এই ভেরিয়েবল এবং ফুসফুসের ক্যান্সারের হারের মধ্যে রৈখিক সম্পর্ক বর্ণনা করবে।

এটি একটি রিগ্রেশন বিশ্লেষণে সমস্ত সম্ভাব্য ভেরিয়েবল অন্তর্ভুক্ত করার জন্য লোভনীয় হতে পারে, অন্তত এই কারণে নয় যে একটি সমালোচনামূলক ফ্যাক্টর অন্তর্ভুক্ত না করলে এটির অবদান উপেক্ষা করা যেতে পারে। যাইহোক, একটি রিগ্রেশন বিশ্লেষণে অনেকগুলি ভেরিয়েবল যোগ করার ফলে একটি অপ্রাসঙ্গিক ভেরিয়েবল পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ দেখাবে এমন সম্ভাবনা বাড়িয়ে দেয়। যদি আমরা আমাদের বিশ্লেষণে আরও আঠারোটি অপ্রাসঙ্গিক ভেরিয়েবল যোগ করি, যেমন "মুভি দেখা" এবং "কুকুরের মালিকানাধীন", এটি সম্ভবত সেই অপ্রাসঙ্গিক ভেরিয়েবলগুলির মধ্যে একটি, খাঁটি সুযোগে, উচ্চ ফুসফুসের ক্যান্সারের হারের সাথে যুক্ত বলে মনে হবে। 6

এমএল প্রেক্ষাপটে, সাদৃশ্যপূর্ণ পরিস্থিতি মডেলটিকে অনেক বেশি বৈশিষ্ট্য দিচ্ছে, যার ফলে অন্যান্য সমস্যার মধ্যে ওভারফিটিং হতে পারে।

অনুমান এবং সিদ্ধান্ত গ্রহণ

এই চিন্তার ফাঁদগুলির মধ্যে কিছু এড়িয়ে যাওয়ার একটি উপায় হল পরিসংখ্যান এবং এমএল মডেলগুলি, যা পরিসংখ্যান থেকে উদ্ভূত, প্রশ্নের উত্তর দেওয়ার পরিবর্তে সিদ্ধান্ত নেওয়ার সরঞ্জাম হিসাবে। এই অবস্থান ছিল জার্জি নেইম্যান এবং এগন শার্প পিয়ারসন। 7

এই কাঠামোতে, ডেটা, ডেটা পরিসংখ্যান, এবং ডেরিভেটিভস, যার মধ্যে ML মডেলগুলি রয়েছে, সম্ভাব্য ভবিষ্যদ্বাণী করা, সর্বজনীন বিবৃতিগুলিকে অস্বীকার করা, গবেষণার প্রশ্নগুলির উন্নতি এবং ফোকাস করা এবং সিদ্ধান্ত গ্রহণে সহায়তা করার জন্য সবচেয়ে উপযুক্ত। তারা সত্য সম্পর্কে ইতিবাচক দাবি করার জন্য উপযুক্ত নয়।

ডেভিড রিটারের মতে, এমনকি বিপুল পরিমাণ ডেটা থেকে পারস্পরিক সম্পর্কের ভিত্তিতে সিদ্ধান্ত দুটি বিষয়ের উপর ভিত্তি করে হওয়া উচিত:

  • "আত্মবিশ্বাস যে পারস্পরিক সম্পর্ক ভবিষ্যতে নির্ভরযোগ্যভাবে পুনরাবৃত্তি হবে," যা অতীতে সেই সম্পর্কটি কত ঘন ঘন ঘটেছে এবং সেই পারস্পরিক সম্পর্কের কারণ কী তা সঠিক বোঝার উপর ভিত্তি করে হওয়া উচিত।
  • অভিনয়ের ঝুঁকি এবং পুরস্কার। 8

একইভাবে, সমস্ত গবেষণা প্রশ্ন AI এর জন্য উপযুক্ত নাও হতে পারে। Anastasia Fedyk একটি এআই-উপযুক্ত সমস্যার জন্য দুটি মানদণ্ড অফার করে:

  • সমস্যাটির পূর্বাভাস প্রয়োজন, কার্যকারণ সম্পর্ক বোঝার নয়।
  • AI-তে যে ডেটা দেওয়া হচ্ছে তাতে সমস্যা সম্পর্কে যা জানা দরকার তার সবই রয়েছে; অর্থাৎ, সমস্যাটি স্বয়ংসম্পূর্ণ। 9

তথ্যসূত্র

বেনেট, ক্রেগ এম., অ্যাবিগেল এ. বেয়ার্ড, মাইকেল বি. মিলার এবং জর্জ এল. ওলফোর্ড। " পোস্টমর্টেম আটলান্টিক সালমন গ্রহণ করে আন্তঃপ্রজাতির দৃষ্টিভঙ্গির নিউরাল সম্পর্ক: একাধিক তুলনা সংশোধনের জন্য একটি যুক্তি। " নিউরোইমেজ (2009)।

কায়রো, আলবার্তো। চার্টগুলি কীভাবে মিথ্যা বলে: ভিজ্যুয়াল তথ্য সম্পর্কে আরও স্মার্ট হওয়া। NY: WW Norton, 2019।

ডেভেনপোর্ট, থমাস এইচ. "একটি ভবিষ্যদ্বাণীমূলক বিশ্লেষণ প্রাইমার।" পরিচালকদের জন্য ডেটা অ্যানালিটিক্স বেসিক্সের জন্য HBR গাইডে (বোস্টন: HBR প্রেস, 2018) 81-86।

এলেনবার্গ, জর্ডান। কিভাবে ভুল হবে না: গাণিতিক চিন্তার শক্তি। NY: পেঙ্গুইন, 2014।

ফেডিক, আনাস্তাসিয়া। "মেশিন লার্নিং কি আপনার ব্যবসায়িক সমস্যার সমাধান করতে পারে?" পরিচালকদের জন্য ডেটা অ্যানালিটিক্স বেসিক্সের জন্য HBR গাইডে (বোস্টন: HBR প্রেস, 2018) 111-119।

গ্যালো, অ্যামি। "পরিসংখ্যানগত তাত্পর্যের উপর একটি রিফ্রেশার।" পরিচালকদের জন্য ডেটা অ্যানালিটিক্স বেসিক্সের জন্য HBR গাইডে (বোস্টন: HBR প্রেস, 2018) 121-129।

হাফ, ড্যারেল। পরিসংখ্যানের সাথে কীভাবে মিথ্যা বলা যায়। NY: WW Norton, 1954।

Ioannidis, John PA "কেন সর্বাধিক প্রকাশিত গবেষণার ফলাফলগুলি মিথ্যা।" . PLoS Med 2 নং-এ। 8: e124।

জোন্স, বেন। ডেটা পিটফল এড়ানো। হোবোকেন, এনজে: উইলি, 2020।

লি, জিয়াংজু এবং পেইজ ঝাও। "এফএমআরআই-এ গভীর শিক্ষার অ্যাপ্লিকেশন - একটি পর্যালোচনা কাজ" আইসিবিবিবি 2023 (টোকিও, জাপান, 13-16 জানুয়ারি, 2023): 75-80। https://doi.org/10.1145/3586139.3586150

লিন্ডকুইস্ট, মার্টিন এ. এবং আমান্ডা মেজিয়া। "জেন এবং একাধিক তুলনার শিল্প।" সাইকোসোমাটিক মেডিসিন 77 নং। 2 (ফেব্রুয়ারি-মার্চ 2015): 114–125। doi: 10.1097/PSY.0000000000000148.

রিটার, ডেভিড। "কখন পারস্পরিক সম্পর্ক নিয়ে কাজ করতে হবে এবং কখন নয়।" পরিচালকদের জন্য ডেটা অ্যানালিটিক্স বেসিক্সের HBR গাইডে (বোস্টন: HBR প্রেস, 2018) 103-109।

তাগাকি, ইউ এবং শিনজি নিশিমোতো। "মানুষের মস্তিষ্কের কার্যকলাপ থেকে সুপ্ত প্রসারিত মডেলগুলির সাথে উচ্চ-রেজোলিউশনের চিত্র পুনর্গঠন।" 2023 IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশন (ভ্যাঙ্কুভার, বিসি, কানাডা, 2023): 14453-14463। doi: 10.1109/CVPR52729.2023.01389।

হুইলান, চার্লস। নগ্ন পরিসংখ্যান: ডেটা থেকে ভীতি দূর করা। NY: WW Norton, 2013

ঝোউ, কুন, ইউটাও ঝু, ঝিপেং চেন, ওয়েনটং চেন, ওয়েন জিন ঝাও, জু চেন, ইয়াঙ্কাই লিন, জি-রং ওয়েন এবং জিয়াওয়ে হান। "আপনার এলএলএমকে একটি মূল্যায়ন বেঞ্চমার্ক চিটার করবেন না।" arXiv:2311.01964 cs.CL


  1. কায়রো 182.

  2. ঝু এট আল।

  3. লিন্ডকুইস্ট এবং মেজিয়া।

  4. লি এবং ঝাও 77-78।

  5. তাগাকি এবং নিশিমোতো।

  6. হুইলান 221.

  7. এলেনবার্গ 159.

  8. রিটার 104.

  9. ফেডিক 113.