سنجش شباهت تحت نظارت

به جای مقایسه داده های ویژگی ترکیب شده دستی، می توانید داده های ویژگی را به نمایش هایی به نام embeddings کاهش دهید، سپس جاسازی ها را مقایسه کنید. جاسازی ها با آموزش یک شبکه عصبی عمیق نظارت شده ( DNN ) بر روی خود داده های ویژگی ایجاد می شوند. جاسازی ها داده های ویژگی را به یک بردار در یک فضای جاسازی با ابعاد معمولاً کمتر از داده های ویژگی نگاشت می کنند. Embedding ها در ماژول Embeddings در دوره تصادف یادگیری ماشین مورد بحث قرار می گیرند، در حالی که شبکه های عصبی در ماژول شبکه های عصبی مورد بحث قرار می گیرند. بردارهای جاسازی برای نمونه‌های مشابه، مانند ویدیوهای YouTube با موضوعات مشابه که توسط همان کاربران تماشا می‌شوند، در نهایت در فضای جاسازی به هم نزدیک می‌شوند. یک معیار شباهت نظارت شده از این "نزدیک" برای کمی کردن شباهت برای جفت مثال استفاده می کند.

به یاد داشته باشید، ما در مورد یادگیری نظارت شده فقط برای ایجاد معیار تشابه خود بحث می کنیم. معیار تشابه، چه دستی و چه تحت نظارت، سپس توسط یک الگوریتم برای انجام خوشه‌بندی بدون نظارت استفاده می‌شود.

مقایسه اقدامات دستی و نظارت شده

این جدول زمان استفاده از معیار تشابه دستی یا نظارت شده را بسته به نیاز شما شرح می دهد.

مورد نیاز کتابچه راهنمای تحت نظارت
اطلاعات اضافی را در ویژگی های مرتبط حذف می کند؟ نه، شما باید هر گونه همبستگی بین ویژگی ها را بررسی کنید. بله، DNN اطلاعات اضافی را حذف می کند.
به شباهت های محاسبه شده بینشی می دهد؟ آره نه، تعبیه‌ها را نمی‌توان رمزگشایی کرد.
برای مجموعه داده های کوچک با ویژگی های کم مناسب است؟ آره. خیر، مجموعه داده های کوچک داده های آموزشی کافی برای یک DNN ارائه نمی دهند.
برای مجموعه داده های بزرگ با ویژگی های زیاد مناسب است؟ خیر، حذف دستی اطلاعات اضافی از چندین ویژگی و سپس ترکیب آنها بسیار دشوار است. بله، DNN به طور خودکار اطلاعات اضافی را حذف می کند و ویژگی ها را ترکیب می کند.

ایجاد یک معیار تشابه نظارت شده

در اینجا یک نمای کلی از فرآیند ایجاد یک معیار شباهت نظارت شده است:

داده های ویژگی ورودی DNN: Autoencoder یا Predictor را انتخاب کنید.       تعبیه ها را استخراج کنید. اندازه گیری را انتخاب کنید: حاصل ضرب نقطه، کسینوس یا فاصله اقلیدسی.
شکل 1: مراحل ایجاد یک معیار شباهت نظارت شده.

این صفحه DNN ها را مورد بحث قرار می دهد، در حالی که صفحات بعدی مراحل باقی مانده را پوشش می دهند.

DNN را بر اساس برچسب های آموزشی انتخاب کنید

با آموزش یک DNN که از همان داده های ویژگی هم به عنوان ورودی و هم به عنوان برچسب استفاده می کند، داده های ویژگی خود را به جاسازی های با ابعاد پایین تر کاهش دهید. برای مثال، در مورد داده‌های خانه، DNN از ویژگی‌هایی مانند قیمت، اندازه و کد پستی برای پیش‌بینی این ویژگی‌ها استفاده می‌کند.

رمزگذار خودکار

DNN که جاسازی داده های ورودی را با پیش بینی خود داده های ورودی یاد می گیرد، رمزگذار خودکار نامیده می شود. از آنجایی که لایه‌های مخفی رمزگذار خودکار کوچک‌تر از لایه‌های ورودی و خروجی هستند، رمزگذار خودکار مجبور است یک نمایش فشرده از داده‌های ویژگی ورودی را بیاموزد. هنگامی که DNN آموزش داده شد، جاسازی ها را از کوچکترین لایه پنهان استخراج کنید تا شباهت را محاسبه کنید.

شکلی که تعداد زیادی گره را برای داده های ورودی و خروجی یکسان نشان می دهد که به سه گره در وسط فشرده شده است.        از پنج لایه پنهان
شکل 2: معماری رمزگذار خودکار.

پیشگو

رمزگذار خودکار ساده ترین انتخاب برای ایجاد جاسازی است. با این حال، زمانی که ویژگی‌های خاصی می‌توانند در تعیین شباهت مهم‌تر از سایرین باشند، یک رمزگذار خودکار انتخاب بهینه نیست. به عنوان مثال، در داده های خانه، قیمت را مهم تر از کد پستی فرض کنید. در چنین مواردی، فقط از ویژگی مهم به عنوان برچسب آموزشی برای DNN استفاده کنید. از آنجایی که این DNN به جای پیش بینی همه ویژگی های ورودی، یک ویژگی ورودی خاص را پیش بینی می کند، DNN پیش بینی کننده نامیده می شود. جاسازی ها معمولاً باید از آخرین لایه جاسازی استخراج شوند.

شکلی که تعداد زیادی گره در بردار ورودی را نشان می‌دهد که در سه لایه پنهان به یک لایه سه گره کاهش می‌یابد که جاسازی‌ها باید از آن استخراج شوند. آخرین لایه خروجی مقدار برچسب پیش بینی شده است.
شکل 3: معماری پیش بینی کننده.

هنگام انتخاب یک ویژگی به عنوان برچسب:

  • ویژگی‌های عددی را به ویژگی‌های طبقه‌ای ترجیح دهید زیرا محاسبه و تفسیر تلفات برای ویژگی‌های عددی آسان‌تر است.

  • ویژگی را که به عنوان برچسب استفاده می کنید از ورودی DNN حذف کنید، در غیر این صورت DNN از آن ویژگی برای پیش بینی کامل خروجی استفاده می کند. (این یک مثال شدید از نشت برچسب است.)

بسته به انتخاب شما از برچسب ها، DNN حاصله یا رمزگذار خودکار یا پیش بینی کننده است.