به جای مقایسه داده های ویژگی ترکیب شده دستی، می توانید داده های ویژگی را به نمایش هایی به نام embeddings کاهش دهید، سپس جاسازی ها را مقایسه کنید. جاسازی ها با آموزش یک شبکه عصبی عمیق نظارت شده ( DNN ) بر روی خود داده های ویژگی ایجاد می شوند. جاسازی ها داده های ویژگی را به یک بردار در یک فضای جاسازی با ابعاد معمولاً کمتر از داده های ویژگی نگاشت می کنند. Embedding ها در ماژول Embeddings در دوره تصادف یادگیری ماشین مورد بحث قرار می گیرند، در حالی که شبکه های عصبی در ماژول شبکه های عصبی مورد بحث قرار می گیرند. بردارهای جاسازی برای نمونههای مشابه، مانند ویدیوهای YouTube با موضوعات مشابه که توسط همان کاربران تماشا میشوند، در نهایت در فضای جاسازی به هم نزدیک میشوند. یک معیار شباهت نظارت شده از این "نزدیک" برای کمی کردن شباهت برای جفت مثال استفاده می کند.
به یاد داشته باشید، ما در مورد یادگیری نظارت شده فقط برای ایجاد معیار تشابه خود بحث می کنیم. معیار تشابه، چه دستی و چه تحت نظارت، سپس توسط یک الگوریتم برای انجام خوشهبندی بدون نظارت استفاده میشود.
مقایسه اقدامات دستی و نظارت شده
این جدول زمان استفاده از معیار تشابه دستی یا نظارت شده را بسته به نیاز شما شرح می دهد.
مورد نیاز | کتابچه راهنمای | تحت نظارت |
---|---|---|
اطلاعات اضافی را در ویژگی های مرتبط حذف می کند؟ | نه، شما باید هر گونه همبستگی بین ویژگی ها را بررسی کنید. | بله، DNN اطلاعات اضافی را حذف می کند. |
به شباهت های محاسبه شده بینشی می دهد؟ | آره | نه، تعبیهها را نمیتوان رمزگشایی کرد. |
برای مجموعه داده های کوچک با ویژگی های کم مناسب است؟ | آره. | خیر، مجموعه داده های کوچک داده های آموزشی کافی برای یک DNN ارائه نمی دهند. |
برای مجموعه داده های بزرگ با ویژگی های زیاد مناسب است؟ | خیر، حذف دستی اطلاعات اضافی از چندین ویژگی و سپس ترکیب آنها بسیار دشوار است. | بله، DNN به طور خودکار اطلاعات اضافی را حذف می کند و ویژگی ها را ترکیب می کند. |
ایجاد یک معیار تشابه نظارت شده
در اینجا یک نمای کلی از فرآیند ایجاد یک معیار شباهت نظارت شده است:
این صفحه DNN ها را مورد بحث قرار می دهد، در حالی که صفحات بعدی مراحل باقی مانده را پوشش می دهند.
DNN را بر اساس برچسب های آموزشی انتخاب کنید
با آموزش یک DNN که از همان داده های ویژگی هم به عنوان ورودی و هم به عنوان برچسب استفاده می کند، داده های ویژگی خود را به جاسازی های با ابعاد پایین تر کاهش دهید. برای مثال، در مورد دادههای خانه، DNN از ویژگیهایی مانند قیمت، اندازه و کد پستی برای پیشبینی این ویژگیها استفاده میکند.
رمزگذار خودکار
DNN که جاسازی داده های ورودی را با پیش بینی خود داده های ورودی یاد می گیرد، رمزگذار خودکار نامیده می شود. از آنجایی که لایههای مخفی رمزگذار خودکار کوچکتر از لایههای ورودی و خروجی هستند، رمزگذار خودکار مجبور است یک نمایش فشرده از دادههای ویژگی ورودی را بیاموزد. هنگامی که DNN آموزش داده شد، جاسازی ها را از کوچکترین لایه پنهان استخراج کنید تا شباهت را محاسبه کنید.
پیشگو
رمزگذار خودکار ساده ترین انتخاب برای ایجاد جاسازی است. با این حال، زمانی که ویژگیهای خاصی میتوانند در تعیین شباهت مهمتر از سایرین باشند، یک رمزگذار خودکار انتخاب بهینه نیست. به عنوان مثال، در داده های خانه، قیمت را مهم تر از کد پستی فرض کنید. در چنین مواردی، فقط از ویژگی مهم به عنوان برچسب آموزشی برای DNN استفاده کنید. از آنجایی که این DNN به جای پیش بینی همه ویژگی های ورودی، یک ویژگی ورودی خاص را پیش بینی می کند، DNN پیش بینی کننده نامیده می شود. جاسازی ها معمولاً باید از آخرین لایه جاسازی استخراج شوند.
هنگام انتخاب یک ویژگی به عنوان برچسب:
ویژگیهای عددی را به ویژگیهای طبقهای ترجیح دهید زیرا محاسبه و تفسیر تلفات برای ویژگیهای عددی آسانتر است.
ویژگی را که به عنوان برچسب استفاده می کنید از ورودی DNN حذف کنید، در غیر این صورت DNN از آن ویژگی برای پیش بینی کامل خروجی استفاده می کند. (این یک مثال شدید از نشت برچسب است.)
بسته به انتخاب شما از برچسب ها، DNN حاصله یا رمزگذار خودکار یا پیش بینی کننده است.