এই ইউনিট নিম্নলিখিত বিষয়গুলি পরীক্ষা করে:
- এলোমেলো বন ব্যাখ্যা করা
- এলোমেলো বন প্রশিক্ষণ
- এলোমেলো বনের ভালো-মন্দ
এলোমেলো বন ব্যাখ্যা করা
সিদ্ধান্ত গাছের চেয়ে এলোমেলো বন ব্যাখ্যা করা আরও জটিল। এলোমেলো বনে এলোমেলো শব্দের সাথে প্রশিক্ষিত সিদ্ধান্ত গাছ রয়েছে। অতএব, সিদ্ধান্ত গাছের কাঠামোর উপর বিচার করা কঠিন। যাইহোক, আমরা এলোমেলো বন মডেলগুলিকে কয়েকটি উপায়ে ব্যাখ্যা করতে পারি।
একটি এলোমেলো বন ব্যাখ্যা করার একটি পদ্ধতি হল CART অ্যালগরিদম সহ একটি সিদ্ধান্ত গাছকে প্রশিক্ষণ দেওয়া এবং ব্যাখ্যা করা। কারণ র্যান্ডম ফরেস্ট এবং CART উভয়ই একই কোর অ্যালগরিদম দিয়ে প্রশিক্ষিত, তারা ডেটাসেটের "একই গ্লোবাল ভিউ শেয়ার করে"। এই বিকল্পটি সাধারণ ডেটাসেটের জন্য এবং মডেলের সামগ্রিক ব্যাখ্যা বোঝার জন্য ভাল কাজ করে।
পরিবর্তনশীল গুরুত্ব আরেকটি ভালো ব্যাখ্যাযোগ্য পদ্ধতি। উদাহরণ স্বরূপ, নিম্নলিখিত সারণীটি আদমশুমারির ডেটাসেটে প্রশিক্ষিত একটি এলোমেলো বন মডেলের জন্য বিভিন্ন বৈশিষ্ট্যের পরিবর্তনশীল গুরুত্ব নির্ধারণ করে (এছাড়াও প্রাপ্তবয়স্ক হিসাবে পরিচিত)।
সারণী 8. 14টি ভিন্ন বৈশিষ্ট্যের পরিবর্তনশীল গুরুত্ব।
বৈশিষ্ট্য | সমষ্টি স্কোর | নির্ভুলতা হ্রাস মানে | AUC এর গড় হ্রাস | গড় মিনিট গভীরতা | নোড সংখ্যা | PR-AUC এর গড় হ্রাস | রুট হিসাবে সংখ্যা |
---|---|---|---|---|---|---|---|
সম্পর্ক | 4203592.6 | 0.0045 | 0.0172 | 4.970 | 57040 | 0.0093 | 1095 |
মূলধন_লাভ | 3363045.1 | 0.0199 | 0.0194 | 2.852 | 56468 | 0.0655 | 457 |
বৈবাহিক_স্থিতি | 3128996.3 | 0.0018 | 0.0230 | ৬.৬৩৩ | 52391 | 0.0107 | 750 |
বয়স | 2520658.8 | 0.0065 | 0.0074 | 4.969 | 356784 | 0.0033 | 200 |
শিক্ষা | 2015905.4 | 0.0018 | -0.0080 | 5.266 | 115751 | -0.0129 | 205 |
পেশা | 1939409.3 | 0.0063 | -0.0040 | 5.017 | 221935 | -0.0060 | 62 |
শিক্ষা_সংখ্যা | 1673648.4 | 0.0023 | -0.0066 | ৬.০০৯ | 58303 | -0.0080 | 197 |
fnlwgt | 1564189.0 | -0.0002 | -0.0038 | ৯.৯৬৯ | 431987 | -0.0049 | 0 |
ঘন্টা_প্রতি_সপ্তাহ | 1333976.3 | 0.0030 | 0.0007 | ৬.৩৯৩ | 206526 | -0.0031 | 20 |
মূলধন_ক্ষতি | 866863.8 | 0.0060 | 0.0020 | 8.076 | 58531 | 0.0118 | 1 |
কর্মশ্রেণী | 644208.4 | 0.0025 | -০.০০১৯ | ৯.৮৯৮ | 132196 | -0.0023 | 0 |
আদি_দেশ | 538841.2 | 0.0001 | -0.0016 | ৯.৪৩৪ | 67211 | -0.0058 | 0 |
যৌনতা | 226049.3 | 0.0002 | 0.0002 | 10.911 | 37754 | -0.0011 | 13 |
জাতি | 168180.9 | -0.0006 | -0.0004 | 11.571 | 42262 | -0.0031 | 0 |
আপনি দেখতে পাচ্ছেন, পরিবর্তনশীল গুরুত্বের বিভিন্ন সংজ্ঞার বিভিন্ন স্কেল রয়েছে এবং বৈশিষ্ট্যগুলির র্যাঙ্কিংয়ে পার্থক্য হতে পারে।
পরিবর্তনশীল গুরুত্ব যা মডেল কাঠামো থেকে আসে (উদাহরণস্বরূপ, সমষ্টি স্কোর, গড় ন্যূনতম গভীরতা, সংখ্যা নোড এবং উপরের সারণীতে মূল হিসাবে সংখ্যা) সিদ্ধান্ত গাছের জন্য একইভাবে গণনা করা হয় (বিভাগ "কার্ট | পরিবর্তনশীল গুরুত্ব" দেখুন) এবং এলোমেলো বন।
পারমুটেশন পরিবর্তনশীল গুরুত্ব (উদাহরণস্বরূপ, উপরের সারণীতে {নির্ভুলতা, auc, pr-auc}-এর গড় হ্রাস) হল মডেল অজ্ঞেয়বাদী পরিমাপ যা একটি বৈধতা ডেটাসেট সহ যেকোনো মেশিন লার্নিং মডেলে গণনা করা যেতে পারে। র্যান্ডম ফরেস্টের সাথে, যাইহোক, একটি বৈধতা ডেটাসেট ব্যবহার করার পরিবর্তে, আপনি ব্যাগ-এর বাইরে মূল্যায়নের সাথে স্থানান্তর পরিবর্তনশীল গুরুত্ব গণনা করতে পারেন।
SHAP ( SHAPley Additive Explanations ) হল পৃথক ভবিষ্যদ্বাণী বা মডেল-ভিত্তিক ব্যাখ্যা ব্যাখ্যা করার জন্য একটি মডেল অজ্ঞেয়বাদী পদ্ধতি। (মডেল অজ্ঞেয়বাদী ব্যাখ্যার একটি ভূমিকার জন্য মোলনার দ্বারা ব্যাখ্যাযোগ্য মেশিন লার্নিং দেখুন।) SHAP সাধারণত গণনা করা ব্যয়বহুল তবে সিদ্ধান্ত বনের জন্য উল্লেখযোগ্যভাবে গতি বাড়ানো যেতে পারে, তাই এটি সিদ্ধান্ত বন ব্যাখ্যা করার একটি ভাল উপায়।
ব্যবহারের উদাহরণ
পূর্ববর্তী পাঠে, আমরা tfdf.keras.CartModel
কল করে একটি ছোট ডেটাসেটে একটি CART ডিসিশন ট্রি প্রশিক্ষণ দিয়েছি। একটি র্যান্ডম ফরেস্ট মডেল প্রশিক্ষণের জন্য, tfdf.keras.CartModel
এর পরিবর্তে tfdf.keras.RandomForestModel
:
model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)
সুবিধা এবং অসুবিধা
এই বিভাগে এলোমেলো বনের সুবিধা এবং অসুবিধাগুলির একটি দ্রুত সারাংশ রয়েছে৷
সুবিধা:
- সিদ্ধান্ত গাছের মতো, এলোমেলো বনগুলি স্থানীয়ভাবে সংখ্যাসূচক এবং শ্রেণীবদ্ধ বৈশিষ্ট্যগুলিকে সমর্থন করে এবং প্রায়শই বৈশিষ্ট্য প্রাক-প্রক্রিয়াকরণের প্রয়োজন হয় না।
- কারণ সিদ্ধান্ত গাছ স্বাধীন, এলোমেলো বন সমান্তরালভাবে প্রশিক্ষিত হতে পারে। ফলস্বরূপ, আপনি এলোমেলো বনগুলিকে দ্রুত প্রশিক্ষণ দিতে পারেন।
- এলোমেলো বনের ডিফল্ট পরামিতি রয়েছে যা প্রায়শই দুর্দান্ত ফলাফল দেয়। এই প্যারামিটারগুলি টিউন করা প্রায়শই মডেলের উপর সামান্য প্রভাব ফেলে।
অসুবিধা:
- কারণ সিদ্ধান্ত গাছ ছাঁটাই করা হয় না, তারা বড় হতে পারে। 1M এর বেশি নোড সহ মডেলগুলি সাধারণ। এলোমেলো বনের আকার (এবং তাই অনুমান গতি) কখনও কখনও একটি সমস্যা হতে পারে।
- এলোমেলো বন অভ্যন্তরীণ উপস্থাপনা শিখতে এবং পুনরায় ব্যবহার করতে পারে না। প্রতিটি সিদ্ধান্ত গাছ (এবং প্রতিটি সিদ্ধান্ত গাছের প্রতিটি শাখা) অবশ্যই ডেটাসেট প্যাটার্ন পুনরায় শিখতে হবে। কিছু ডেটাসেটে, বিশেষ করে নন-টেবুলার ডেটাসেট (যেমন ইমেজ, টেক্সট), এটি এলোমেলো বনকে অন্যান্য পদ্ধতির চেয়ে খারাপ ফলাফলের দিকে নিয়ে যায়।