অন্যান্য বিষয়

এই ইউনিট নিম্নলিখিত বিষয়গুলি পরীক্ষা করে:

  • এলোমেলো বন ব্যাখ্যা করা
  • এলোমেলো বন প্রশিক্ষণ
  • এলোমেলো বনের ভালো-মন্দ

এলোমেলো বন ব্যাখ্যা করা

সিদ্ধান্ত গাছের চেয়ে এলোমেলো বন ব্যাখ্যা করা আরও জটিল। এলোমেলো বনে এলোমেলো শব্দের সাথে প্রশিক্ষিত সিদ্ধান্ত গাছ রয়েছে। অতএব, সিদ্ধান্ত গাছের কাঠামোর উপর বিচার করা কঠিন। যাইহোক, আমরা এলোমেলো বন মডেলগুলিকে কয়েকটি উপায়ে ব্যাখ্যা করতে পারি।

একটি এলোমেলো বন ব্যাখ্যা করার একটি পদ্ধতি হল CART অ্যালগরিদম সহ একটি সিদ্ধান্ত গাছকে প্রশিক্ষণ দেওয়া এবং ব্যাখ্যা করা। কারণ র্যান্ডম ফরেস্ট এবং CART উভয়ই একই কোর অ্যালগরিদম দিয়ে প্রশিক্ষিত, তারা ডেটাসেটের "একই গ্লোবাল ভিউ শেয়ার করে"। এই বিকল্পটি সাধারণ ডেটাসেটের জন্য এবং মডেলের সামগ্রিক ব্যাখ্যা বোঝার জন্য ভাল কাজ করে।

পরিবর্তনশীল গুরুত্ব আরেকটি ভালো ব্যাখ্যাযোগ্য পদ্ধতি। উদাহরণ স্বরূপ, নিম্নলিখিত সারণীটি আদমশুমারির ডেটাসেটে প্রশিক্ষিত একটি এলোমেলো বন মডেলের জন্য বিভিন্ন বৈশিষ্ট্যের পরিবর্তনশীল গুরুত্ব নির্ধারণ করে (এছাড়াও প্রাপ্তবয়স্ক হিসাবে পরিচিত)।

সারণী 8. 14টি ভিন্ন বৈশিষ্ট্যের পরিবর্তনশীল গুরুত্ব।

বৈশিষ্ট্য সমষ্টি স্কোর নির্ভুলতা হ্রাস মানে AUC এর গড় হ্রাস গড় মিনিট গভীরতা নোড সংখ্যা PR-AUC এর গড় হ্রাস রুট হিসাবে সংখ্যা
সম্পর্ক

4203592.6

0.0045

0.0172

4.970

57040

0.0093

1095

মূলধন_লাভ

3363045.1

0.0199

0.0194

2.852

56468

0.0655

457

বৈবাহিক_স্থিতি

3128996.3

0.0018

0.0230

৬.৬৩৩

52391

0.0107

750

বয়স

2520658.8

0.0065

0.0074

4.969

356784

0.0033

200

শিক্ষা

2015905.4

0.0018

-0.0080

5.266

115751

-0.0129

205

পেশা

1939409.3

0.0063

-0.0040

5.017

221935

-0.0060

62

শিক্ষা_সংখ্যা

1673648.4

0.0023

-0.0066

৬.০০৯

58303

-0.0080

197

fnlwgt

1564189.0

-0.0002

-0.0038

৯.৯৬৯

431987

-0.0049

0

ঘন্টা_প্রতি_সপ্তাহ

1333976.3

0.0030

0.0007

৬.৩৯৩

206526

-0.0031

20

মূলধন_ক্ষতি

866863.8

0.0060

0.0020

8.076

58531

0.0118

1

কর্মশ্রেণী

644208.4

0.0025

-০.০০১৯

৯.৮৯৮

132196

-0.0023

0

আদি_দেশ

538841.2

0.0001

-0.0016

৯.৪৩৪

67211

-0.0058

0

যৌনতা

226049.3

0.0002

0.0002

10.911

37754

-0.0011

13

জাতি

168180.9

-0.0006

-0.0004

11.571

42262

-0.0031

0

আপনি দেখতে পাচ্ছেন, পরিবর্তনশীল গুরুত্বের বিভিন্ন সংজ্ঞার বিভিন্ন স্কেল রয়েছে এবং বৈশিষ্ট্যগুলির র‌্যাঙ্কিংয়ে পার্থক্য হতে পারে।

পরিবর্তনশীল গুরুত্ব যা মডেল কাঠামো থেকে আসে (উদাহরণস্বরূপ, সমষ্টি স্কোর, গড় ন্যূনতম গভীরতা, সংখ্যা নোড এবং উপরের সারণীতে মূল হিসাবে সংখ্যা) সিদ্ধান্ত গাছের জন্য একইভাবে গণনা করা হয় (বিভাগ "কার্ট | পরিবর্তনশীল গুরুত্ব" দেখুন) এবং এলোমেলো বন।

পারমুটেশন পরিবর্তনশীল গুরুত্ব (উদাহরণস্বরূপ, উপরের সারণীতে {নির্ভুলতা, auc, pr-auc}-এর গড় হ্রাস) হল মডেল অজ্ঞেয়বাদী পরিমাপ যা একটি বৈধতা ডেটাসেট সহ যেকোনো মেশিন লার্নিং মডেলে গণনা করা যেতে পারে। র্যান্ডম ফরেস্টের সাথে, যাইহোক, একটি বৈধতা ডেটাসেট ব্যবহার করার পরিবর্তে, আপনি ব্যাগ-এর বাইরে মূল্যায়নের সাথে স্থানান্তর পরিবর্তনশীল গুরুত্ব গণনা করতে পারেন।

SHAP ( SHAPley Additive Explanations ) হল পৃথক ভবিষ্যদ্বাণী বা মডেল-ভিত্তিক ব্যাখ্যা ব্যাখ্যা করার জন্য একটি মডেল অজ্ঞেয়বাদী পদ্ধতি। (মডেল অজ্ঞেয়বাদী ব্যাখ্যার একটি ভূমিকার জন্য মোলনার দ্বারা ব্যাখ্যাযোগ্য মেশিন লার্নিং দেখুন।) SHAP সাধারণত গণনা করা ব্যয়বহুল তবে সিদ্ধান্ত বনের জন্য উল্লেখযোগ্যভাবে গতি বাড়ানো যেতে পারে, তাই এটি সিদ্ধান্ত বন ব্যাখ্যা করার একটি ভাল উপায়।

ব্যবহারের উদাহরণ

পূর্ববর্তী পাঠে, আমরা tfdf.keras.CartModel কল করে একটি ছোট ডেটাসেটে একটি CART ডিসিশন ট্রি প্রশিক্ষণ দিয়েছি। একটি র্যান্ডম ফরেস্ট মডেল প্রশিক্ষণের জন্য, tfdf.keras.CartModel এর পরিবর্তে tfdf.keras.RandomForestModel :

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

সুবিধা এবং অসুবিধা

এই বিভাগে এলোমেলো বনের সুবিধা এবং অসুবিধাগুলির একটি দ্রুত সারাংশ রয়েছে৷

সুবিধা:

  • সিদ্ধান্ত গাছের মতো, এলোমেলো বনগুলি স্থানীয়ভাবে সংখ্যাসূচক এবং শ্রেণীবদ্ধ বৈশিষ্ট্যগুলিকে সমর্থন করে এবং প্রায়শই বৈশিষ্ট্য প্রাক-প্রক্রিয়াকরণের প্রয়োজন হয় না।
  • কারণ সিদ্ধান্ত গাছ স্বাধীন, এলোমেলো বন সমান্তরালভাবে প্রশিক্ষিত হতে পারে। ফলস্বরূপ, আপনি এলোমেলো বনগুলিকে দ্রুত প্রশিক্ষণ দিতে পারেন।
  • এলোমেলো বনের ডিফল্ট পরামিতি রয়েছে যা প্রায়শই দুর্দান্ত ফলাফল দেয়। এই প্যারামিটারগুলি টিউন করা প্রায়শই মডেলের উপর সামান্য প্রভাব ফেলে।

অসুবিধা:

  • কারণ সিদ্ধান্ত গাছ ছাঁটাই করা হয় না, তারা বড় হতে পারে। 1M এর বেশি নোড সহ মডেলগুলি সাধারণ। এলোমেলো বনের আকার (এবং তাই অনুমান গতি) কখনও কখনও একটি সমস্যা হতে পারে।
  • এলোমেলো বন অভ্যন্তরীণ উপস্থাপনা শিখতে এবং পুনরায় ব্যবহার করতে পারে না। প্রতিটি সিদ্ধান্ত গাছ (এবং প্রতিটি সিদ্ধান্ত গাছের প্রতিটি শাখা) অবশ্যই ডেটাসেট প্যাটার্ন পুনরায় শিখতে হবে। কিছু ডেটাসেটে, বিশেষ করে নন-টেবুলার ডেটাসেট (যেমন ইমেজ, টেক্সট), এটি এলোমেলো বনকে অন্যান্য পদ্ধতির চেয়ে খারাপ ফলাফলের দিকে নিয়ে যায়।