جنگلهای تصمیمگیری زمانی مؤثرتر هستند که یک مجموعه داده جدولی داشته باشید (دادههایی که ممکن است در صفحهگسترده، فایل csv یا جدول پایگاه داده ارائه کنید). دادههای جدولی یکی از رایجترین قالبهای داده است و جنگلهای تصمیم باید راهحل اصلی شما برای مدلسازی آن باشند.
جدول 1. نمونه ای از مجموعه داده های جدولی.
تعداد پاها | تعداد چشم | وزن (پوند) | گونه (برچسب) |
---|---|---|---|
2 | 2 | 12 | پنگوئن |
8 | 6 | 0.1 | عنکبوت |
4 | 2 | 44 | سگ |
… | … | … | … |
برخلاف شبکههای عصبی، جنگلهای تصمیم بهطور بومی دادههای جدولی مدل را مصرف میکنند. هنگام توسعه جنگل های تصمیم گیری، نیازی نیست کارهایی مانند موارد زیر را انجام دهید:
- انجام پیش پردازش مانند عادی سازی ویژگی یا رمزگذاری یکباره.
- Imputation را انجام دهید (به عنوان مثال، جایگزینی یک مقدار از دست رفته با
-1
).
با این حال، جنگلهای تصمیم برای مصرف مستقیم دادههای غیرجدولی (که دادههای بدون ساختار نیز نامیده میشوند)، مانند تصاویر یا متن، مناسب نیستند. بله، راهحلهایی برای این محدودیت وجود دارد، اما شبکههای عصبی عموماً دادههای بدون ساختار را بهتر مدیریت میکنند.
عملکرد
جنگل های تصمیم گیری نمونه کارآمد هستند. به این معنا که جنگلهای تصمیم برای آموزش در مجموعه دادههای کوچک یا در مجموعه دادههایی که نسبت تعداد ویژگیها / تعداد نمونهها زیاد است (احتمالاً بیشتر از 1) مناسب هستند. حتی اگر جنگلهای تصمیمگیری نمونه کارآمد هستند، مانند همه مدلهای یادگیری ماشینی، جنگلهای تصمیمگیری بهترین عملکرد را زمانی دارند که دادههای زیادی در دسترس باشد.
جنگلهای تصمیمگیری معمولاً سریعتر از شبکههای عصبی قابل مقایسه استنباط میکنند. به عنوان مثال، یک جنگل تصمیم گیری با اندازه متوسط استنتاج را در چند میکروثانیه بر روی یک CPU مدرن اجرا می کند.
،جنگلهای تصمیمگیری زمانی مؤثرتر هستند که یک مجموعه داده جدولی داشته باشید (دادههایی که ممکن است در صفحهگسترده، فایل csv یا جدول پایگاه داده ارائه کنید). دادههای جدولی یکی از رایجترین قالبهای داده است و جنگلهای تصمیم باید راهحل اصلی شما برای مدلسازی آن باشند.
جدول 1. نمونه ای از مجموعه داده های جدولی.
تعداد پاها | تعداد چشم | وزن (پوند) | گونه (برچسب) |
---|---|---|---|
2 | 2 | 12 | پنگوئن |
8 | 6 | 0.1 | عنکبوت |
4 | 2 | 44 | سگ |
… | … | … | … |
برخلاف شبکههای عصبی، جنگلهای تصمیم بهطور بومی دادههای جدولی مدل را مصرف میکنند. هنگام توسعه جنگل های تصمیم گیری، نیازی نیست کارهایی مانند موارد زیر را انجام دهید:
- انجام پیش پردازش مانند عادی سازی ویژگی یا رمزگذاری یکباره.
- Imputation را انجام دهید (به عنوان مثال، جایگزینی یک مقدار از دست رفته با
-1
).
با این حال، جنگلهای تصمیم برای مصرف مستقیم دادههای غیرجدولی (که دادههای بدون ساختار نیز نامیده میشوند)، مانند تصاویر یا متن، مناسب نیستند. بله، راهحلهایی برای این محدودیت وجود دارد، اما شبکههای عصبی عموماً دادههای بدون ساختار را بهتر مدیریت میکنند.
عملکرد
جنگل های تصمیم گیری نمونه کارآمد هستند. به این معنا که جنگلهای تصمیم برای آموزش در مجموعه دادههای کوچک یا در مجموعه دادههایی که نسبت تعداد ویژگیها / تعداد نمونهها زیاد است (احتمالاً بیشتر از 1) مناسب هستند. حتی اگر جنگلهای تصمیمگیری نمونه کارآمد هستند، مانند همه مدلهای یادگیری ماشینی، جنگلهای تصمیمگیری بهترین عملکرد را زمانی دارند که دادههای زیادی در دسترس باشد.
جنگلهای تصمیمگیری معمولاً سریعتر از شبکههای عصبی قابل مقایسه استنباط میکنند. به عنوان مثال، یک جنگل تصمیم گیری با اندازه متوسط استنتاج را در چند میکروثانیه بر روی یک CPU مدرن اجرا می کند.