এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

অন্যান্য বিষয়

এই ইউনিট নিম্নলিখিত বিষয়গুলি পরীক্ষা করে:

এলোমেলো বন ব্যাখ্যা করা
এলোমেলো বন প্রশিক্ষণ
এলোমেলো বনের ভালো-মন্দ

এলোমেলো বন ব্যাখ্যা করা

সিদ্ধান্ত গাছের চেয়ে এলোমেলো বন ব্যাখ্যা করা আরও জটিল। এলোমেলো বনে এলোমেলো শব্দের সাথে প্রশিক্ষিত সিদ্ধান্ত গাছ রয়েছে। অতএব, সিদ্ধান্ত গাছের কাঠামোর উপর বিচার করা কঠিন। যাইহোক, আমরা এলোমেলো বন মডেলগুলিকে কয়েকটি উপায়ে ব্যাখ্যা করতে পারি।

একটি এলোমেলো বন ব্যাখ্যা করার একটি পদ্ধতি হল CART অ্যালগরিদম সহ একটি সিদ্ধান্ত গাছকে প্রশিক্ষণ দেওয়া এবং ব্যাখ্যা করা। কারণ র্যান্ডম ফরেস্ট এবং CART উভয়ই একই কোর অ্যালগরিদম দিয়ে প্রশিক্ষিত, তারা ডেটাসেটের "একই গ্লোবাল ভিউ শেয়ার করে"। এই বিকল্পটি সাধারণ ডেটাসেটের জন্য এবং মডেলের সামগ্রিক ব্যাখ্যা বোঝার জন্য ভাল কাজ করে।

পরিবর্তনশীল গুরুত্ব আরেকটি ভালো ব্যাখ্যাযোগ্য পদ্ধতি। উদাহরণ স্বরূপ, নিম্নলিখিত সারণীটি আদমশুমারির ডেটাসেটে প্রশিক্ষিত একটি এলোমেলো বন মডেলের জন্য বিভিন্ন বৈশিষ্ট্যের পরিবর্তনশীল গুরুত্ব নির্ধারণ করে (এছাড়াও প্রাপ্তবয়স্ক হিসাবে পরিচিত)।

সারণী 8. 14টি ভিন্ন বৈশিষ্ট্যের পরিবর্তনশীল গুরুত্ব।

বৈশিষ্ট্য	সমষ্টি স্কোর	নির্ভুলতা হ্রাস মানে	AUC এর গড় হ্রাস	গড় মিনিট গভীরতা	নোড সংখ্যা	PR-AUC এর গড় হ্রাস	রুট হিসাবে সংখ্যা
সম্পর্ক	4203592.6	0.0045	0.0172	4.970	57040	0.0093	1095
মূলধন_লাভ	3363045.1	0.0199	0.0194	2.852	56468	0.0655	457
বৈবাহিক_স্থিতি	3128996.3	0.0018	0.0230	৬.৬৩৩	52391	0.0107	750
বয়স	2520658.8	0.0065	0.0074	4.969	356784	0.0033	200
শিক্ষা	2015905.4	0.0018	-0.0080	5.266	115751	-0.0129	205
পেশা	1939409.3	0.0063	-0.0040	5.017	221935	-0.0060	62
শিক্ষা_সংখ্যা	1673648.4	0.0023	-0.0066	৬.০০৯	58303	-0.0080	197
fnlwgt	1564189.0	-0.0002	-0.0038	৯.৯৬৯	431987	-0.0049	0
ঘন্টা_প্রতি_সপ্তাহ	1333976.3	0.0030	0.0007	৬.৩৯৩	206526	-0.0031	20
মূলধন_ক্ষতি	866863.8	0.0060	0.0020	8.076	58531	0.0118	1
কর্মশ্রেণী	644208.4	0.0025	-০.০০১৯	৯.৮৯৮	132196	-0.0023	0
আদি_দেশ	538841.2	0.0001	-0.0016	৯.৪৩৪	67211	-0.0058	0
যৌনতা	226049.3	0.0002	0.0002	10.911	37754	-0.0011	13
জাতি	168180.9	-0.0006	-0.0004	11.571	42262	-0.0031	0

আপনি দেখতে পাচ্ছেন, পরিবর্তনশীল গুরুত্বের বিভিন্ন সংজ্ঞার বিভিন্ন স্কেল রয়েছে এবং বৈশিষ্ট্যগুলির র‌্যাঙ্কিংয়ে পার্থক্য হতে পারে।

পরিবর্তনশীল গুরুত্ব যা মডেল কাঠামো থেকে আসে (উদাহরণস্বরূপ, সমষ্টি স্কোর, গড় ন্যূনতম গভীরতা, সংখ্যা নোড এবং উপরের সারণীতে মূল হিসাবে সংখ্যা) সিদ্ধান্ত গাছের জন্য একইভাবে গণনা করা হয় (বিভাগ "কার্ট | পরিবর্তনশীল গুরুত্ব" দেখুন) এবং এলোমেলো বন।

পারমুটেশন পরিবর্তনশীল গুরুত্ব (উদাহরণস্বরূপ, উপরের সারণীতে {নির্ভুলতা, auc, pr-auc}-এর গড় হ্রাস) হল মডেল অজ্ঞেয়বাদী পরিমাপ যা একটি বৈধতা ডেটাসেট সহ যেকোনো মেশিন লার্নিং মডেলে গণনা করা যেতে পারে। র্যান্ডম ফরেস্টের সাথে, যাইহোক, একটি বৈধতা ডেটাসেট ব্যবহার করার পরিবর্তে, আপনি ব্যাগ-এর বাইরে মূল্যায়নের সাথে স্থানান্তর পরিবর্তনশীল গুরুত্ব গণনা করতে পারেন।

SHAP ( SHAPley Additive Explanations ) হল পৃথক ভবিষ্যদ্বাণী বা মডেল-ভিত্তিক ব্যাখ্যা ব্যাখ্যা করার জন্য একটি মডেল অজ্ঞেয়বাদী পদ্ধতি। (মডেল অজ্ঞেয়বাদী ব্যাখ্যার একটি ভূমিকার জন্য মোলনার দ্বারা ব্যাখ্যাযোগ্য মেশিন লার্নিং দেখুন।) SHAP সাধারণত গণনা করা ব্যয়বহুল তবে সিদ্ধান্ত বনের জন্য উল্লেখযোগ্যভাবে গতি বাড়ানো যেতে পারে, তাই এটি সিদ্ধান্ত বন ব্যাখ্যা করার একটি ভাল উপায়।

ব্যবহারের উদাহরণ

পূর্ববর্তী পাঠে, আমরা tfdf.keras.CartModel কল করে একটি ছোট ডেটাসেটে একটি CART ডিসিশন ট্রি প্রশিক্ষণ দিয়েছি। একটি র্যান্ডম ফরেস্ট মডেল প্রশিক্ষণের জন্য, tfdf.keras.CartModel এর পরিবর্তে tfdf.keras.RandomForestModel :

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

সুবিধা এবং অসুবিধা

এই বিভাগে এলোমেলো বনের সুবিধা এবং অসুবিধাগুলির একটি দ্রুত সারাংশ রয়েছে৷

সুবিধা:

সিদ্ধান্ত গাছের মতো, এলোমেলো বনগুলি স্থানীয়ভাবে সংখ্যাসূচক এবং শ্রেণীবদ্ধ বৈশিষ্ট্যগুলিকে সমর্থন করে এবং প্রায়শই বৈশিষ্ট্য প্রাক-প্রক্রিয়াকরণের প্রয়োজন হয় না।
কারণ সিদ্ধান্ত গাছ স্বাধীন, এলোমেলো বন সমান্তরালভাবে প্রশিক্ষিত হতে পারে। ফলস্বরূপ, আপনি এলোমেলো বনগুলিকে দ্রুত প্রশিক্ষণ দিতে পারেন।
এলোমেলো বনের ডিফল্ট পরামিতি রয়েছে যা প্রায়শই দুর্দান্ত ফলাফল দেয়। এই প্যারামিটারগুলি টিউন করা প্রায়শই মডেলের উপর সামান্য প্রভাব ফেলে।

অসুবিধা:

কারণ সিদ্ধান্ত গাছ ছাঁটাই করা হয় না, তারা বড় হতে পারে। 1M এর বেশি নোড সহ মডেলগুলি সাধারণ। এলোমেলো বনের আকার (এবং তাই অনুমান গতি) কখনও কখনও একটি সমস্যা হতে পারে।
এলোমেলো বন অভ্যন্তরীণ উপস্থাপনা শিখতে এবং পুনরায় ব্যবহার করতে পারে না। প্রতিটি সিদ্ধান্ত গাছ (এবং প্রতিটি সিদ্ধান্ত গাছের প্রতিটি শাখা) অবশ্যই ডেটাসেট প্যাটার্ন পুনরায় শিখতে হবে। কিছু ডেটাসেটে, বিশেষ করে নন-টেবুলার ডেটাসেট (যেমন ইমেজ, টেক্সট), এটি এলোমেলো বনকে অন্যান্য পদ্ধতির চেয়ে খারাপ ফলাফলের দিকে নিয়ে যায়।

পূর্ববর্তী

আউট অফ ব্যাগ মূল্যায়ন

পরবর্তী

ভূমিকা