داده های دسته بندی: تلاقی ویژگی ها

تلاقی ویژگی ها با تلاقی (با گرفتن حاصل ضرب دکارتی از) دو یا چند ویژگی طبقه بندی شده یا سطلی از مجموعه داده ایجاد می شود. مانند تبدیل های چند جمله ای ، تلاقی ویژگی ها به مدل های خطی اجازه می دهد تا غیرخطی ها را مدیریت کنند. تلاقی ویژگی ها همچنین تعامل بین ویژگی ها را رمزگذاری می کند.

به عنوان مثال، یک مجموعه داده برگ را با ویژگی های دسته بندی در نظر بگیرید:

  • edges ، حاوی مقادیر smooth ، toothed و lobed
  • arrangement ، حاوی مقادیر opposite و alternate

فرض کنید ترتیب بالا ترتیب ستون‌های ویژگی در یک نمایش تک داغ است، به طوری که یک برگ با لبه‌های smooth و آرایش opposite به صورت {(1, 0, 0), (1, 0)} نشان داده می‌شود.

متقاطع ویژگی، یا محصول دکارتی، از این دو ویژگی خواهد بود:

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

که در آن مقدار هر عبارت حاصل ضرب مقادیر ویژگی پایه است، به این صورت که:

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

برای هر مثال داده شده در مجموعه داده، تلاقی ویژگی تنها در صورتی برابر با 1 خواهد بود که بردار اصلی هر دو ویژگی پایه برای دسته های متقاطع 1 باشد. یعنی یک برگ بلوط با لبه لوبی و آرایش متناوب فقط برای Lobed_Alternate مقدار 1 خواهد داشت و علامت متقاطع بالا به صورت زیر خواهد بود:

{0, 0, 0, 0, 0, 1}

این مجموعه داده می تواند برای طبقه بندی برگ ها بر اساس گونه های درختی استفاده شود، زیرا این ویژگی ها در یک گونه متفاوت نیست.

زمان استفاده از صلیب های ویژگی

دانش دامنه می تواند ترکیب مفیدی از ویژگی ها را برای عبور پیشنهاد دهد. بدون آن دانش دامنه، تعیین تلاقی ویژگی های موثر یا تبدیل های چند جمله ای با دست می تواند دشوار باشد. اغلب ممکن است، اگر از نظر محاسباتی گران باشد، از شبکه های عصبی برای یافتن و به کارگیری ترکیبات ویژگی های مفید در طول آموزش به طور خودکار استفاده شود.

مراقب باشید- عبور از دو ویژگی پراکنده یک ویژگی جدید حتی کم‌تر از دو ویژگی اصلی ایجاد می‌کند. به عنوان مثال، اگر ویژگی A یک ویژگی پراکنده 100 عنصری و ویژگی B یک ویژگی پراکنده 200 عنصری باشد، تلاقی ویژگی A و B یک ویژگی پراکنده 20000 عنصری را به دست می‌دهد.