این صفحه شامل اصطلاحات واژه نامه خوشه بندی است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .
آ
خوشه بندی تجمعی
به خوشه بندی سلسله مراتبی مراجعه کنید.
سی
نقطه مرکزی
مرکز یک خوشه که توسط یک الگوریتم k-means یا k-median تعیین می شود. به عنوان مثال، اگر k 3 باشد، الگوریتم k-means یا k-median 3 مرکز پیدا می کند.
خوشه بندی مبتنی بر مرکز
دسته ای از الگوریتم های خوشه بندی که داده ها را در خوشه های غیر سلسله مراتبی سازماندهی می کند. k-means پرکاربردترین الگوریتم خوشهبندی مبتنی بر مرکز است.
در تضاد با الگوریتم های خوشه بندی سلسله مراتبی .
خوشه بندی
گروه بندی نمونه های مرتبط، به ویژه در طول یادگیری بدون نظارت . هنگامی که تمام مثال ها گروه بندی شدند، یک انسان می تواند به صورت اختیاری به هر خوشه معنا بدهد.
بسیاری از الگوریتم های خوشه بندی وجود دارد. به عنوان مثال، الگوریتم k-means نمونه هایی را بر اساس نزدیکی آنها به مرکز ، مانند نمودار زیر خوشه بندی می کند:
سپس یک محقق انسانی میتواند خوشهها را بررسی کند و برای مثال، خوشه 1 را به عنوان "درختان کوتوله" و خوشه 2 را به عنوان "درختان با اندازه کامل" برچسبگذاری کند.
به عنوان مثالی دیگر، یک الگوریتم خوشه بندی را بر اساس فاصله یک مثال از نقطه مرکزی در نظر بگیرید که به صورت زیر نشان داده شده است:
D
خوشه بندی تفرقه انگیز
به خوشه بندی سلسله مراتبی مراجعه کنید.
اچ
خوشه بندی سلسله مراتبی
دسته ای از الگوریتم های خوشه بندی که درختی از خوشه ها را ایجاد می کند. خوشه بندی سلسله مراتبی برای داده های سلسله مراتبی، مانند طبقه بندی های گیاه شناسی، مناسب است. دو نوع الگوریتم خوشه بندی سلسله مراتبی وجود دارد:
- خوشهبندی تجمعی ابتدا هر نمونه را به خوشه خودش اختصاص میدهد و به طور مکرر نزدیکترین خوشهها را برای ایجاد یک درخت سلسله مراتبی ادغام میکند.
- خوشه بندی تقسیمی ابتدا همه نمونه ها را در یک خوشه گروه بندی می کند و سپس به طور مکرر خوشه را به یک درخت سلسله مراتبی تقسیم می کند.
در تقابل با خوشهبندی مبتنی بر مرکز .
ک
k-به معنی
یک الگوریتم خوشهبندی محبوب که نمونههایی را در یادگیری بدون نظارت گروهبندی میکند. الگوریتم k-means اساساً موارد زیر را انجام می دهد:
- به صورت مکرر بهترین K نقطه مرکزی (معروف به مرکز ) را تعیین می کند.
- هر مثال را به نزدیکترین مرکز مرکزی اختصاص می دهد. نزدیکترین نمونه ها به مرکز مشابه به همان گروه تعلق دارند.
الگوریتم k-means مکان های مرکز را انتخاب می کند تا مجذور تجمعی فواصل هر مثال تا نزدیکترین مرکز آن را به حداقل برساند.
به عنوان مثال، نمودار زیر را از ارتفاع سگ به عرض سگ در نظر بگیرید:
اگر k=3 باشد، الگوریتم k-means سه مرکز را تعیین می کند. هر مثال به نزدیکترین مرکز خود اختصاص داده می شود و سه گروه را به دست می دهد:
تصور کنید که یک سازنده می خواهد اندازه های ایده آل ژاکت های کوچک، متوسط و بزرگ را برای سگ ها تعیین کند. سه مرکز، میانگین قد و عرض هر سگ در آن خوشه را مشخص می کنند. بنابراین، سازنده احتمالاً باید اندازه ژاکت را بر اساس آن سه مرکز قرار دهد. توجه داشته باشید که مرکز یک خوشه معمولاً یک نمونه در خوشه نیست .
تصاویر قبلی میانگین k را برای نمونه هایی با تنها دو ویژگی (ارتفاع و عرض) نشان می دهد. توجه داشته باشید که k-means می تواند نمونه ها را در بسیاری از ویژگی ها گروه بندی کند.
k-median
یک الگوریتم خوشه بندی که ارتباط نزدیکی با k-means دارد. تفاوت عملی این دو به شرح زیر است:
- در k-means، مرکزها با به حداقل رساندن مجموع مجذورات فاصله بین یک نامزد مرکز و هر یک از نمونه های آن تعیین می شوند.
- در k-median، مرکزها با به حداقل رساندن مجموع فاصله بین یک نامزد مرکز و هر یک از نمونه های آن تعیین می شوند.
توجه داشته باشید که تعاریف فاصله نیز متفاوت است:
- k-means به فاصله اقلیدسی از مرکز تا یک مثال متکی است. (در دو بعد، فاصله اقلیدسی به معنای استفاده از قضیه فیثاغورث برای محاسبه فرضیه است.) برای مثال، فاصله k-means بین (2،2) و (5،-2) خواهد بود:
- k-median به فاصله منهتن از مرکز تا یک مثال متکی است. این فاصله مجموع دلتاهای مطلق در هر بعد است. به عنوان مثال، فاصله k-میانگین بین (2،2) و (5،-2) خواهد بود:
اس
اندازه گیری شباهت
در الگوریتمهای خوشهبندی ، از معیار برای تعیین شباهت (مشابه بودن) هر دو مثال استفاده میشود.
طراحی
در یادگیری ماشینی بدون نظارت ، دستهای از الگوریتمها که یک تحلیل شباهت اولیه را روی نمونهها انجام میدهند. الگوریتم های ترسیم از یک تابع هش حساس به محلی برای شناسایی نقاطی که احتمالاً مشابه هستند استفاده می کنند و سپس آنها را در سطل ها گروه بندی می کنند.
طراحی، محاسبات مورد نیاز برای محاسبات شباهت در مجموعه داده های بزرگ را کاهش می دهد. به جای محاسبه شباهت برای هر جفت مثال در مجموعه داده، شباهت را فقط برای هر جفت نقطه در هر سطل محاسبه می کنیم.
تی
تجزیه و تحلیل سری های زمانی
زیرشاخه ای از یادگیری ماشین و آمار که داده های زمانی را تجزیه و تحلیل می کند. بسیاری از انواع مشکلات یادگیری ماشین نیاز به تجزیه و تحلیل سری های زمانی، از جمله طبقه بندی، خوشه بندی، پیش بینی، و تشخیص ناهنجاری دارند. برای مثال، میتوانید از تحلیل سریهای زمانی برای پیشبینی فروش آتی مانتوهای زمستانی بر اساس دادههای تاریخی فروش ماهانه استفاده کنید.
U
یادگیری ماشینی بدون نظارت
آموزش یک مدل برای یافتن الگوها در یک مجموعه داده، معمولاً یک مجموعه داده بدون برچسب.
رایج ترین استفاده از یادگیری ماشینی بدون نظارت، خوشه بندی داده ها در گروه هایی از نمونه های مشابه است. به عنوان مثال، یک الگوریتم یادگیری ماشینی بدون نظارت می تواند آهنگ ها را بر اساس ویژگی های مختلف موسیقی دسته بندی کند. خوشههای بهدستآمده میتوانند ورودی برای سایر الگوریتمهای یادگیری ماشین (مثلاً برای یک سرویس توصیه موسیقی) باشند. وقتی برچسب های مفید کمیاب هستند یا وجود ندارند، خوشه بندی می تواند کمک کند. به عنوان مثال، در حوزه هایی مانند ضد سوء استفاده و تقلب، خوشه ها می توانند به انسان در درک بهتر داده ها کمک کنند.
در تضاد با یادگیری ماشینی نظارت شده .