ee.Clusterer.wekaKMeans

ביצוע אשכול נתונים באמצעות אלגוריתם k-means. אפשר להשתמש במרחק האוקלידי (ברירת מחדל) או במרחק מנהטן. אם משתמשים במרחק מנהטן, מרכזי המסה מחושבים כממוצע החציונים של הרכיבים ולא כממוצע. למידע נוסף:

ד. ארתור, ס. Vassilvitskii: k-means++: the advantages of careful seeding. ‫In: Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 1027-1035, 2007.

שימושהחזרות
ee.Clusterer.wekaKMeans(nClusters, init, canopies, maxCandidates, periodicPruning, minDensity, t1, t2, distanceFunction, maxIterations, preserveOrder, fast, seed)Clusterer
ארגומנטסוגפרטים
nClustersמספר שלםמספר הצבירים.
initמספר שלם, ברירת מחדל: 0שיטת האתחול שבה רוצים להשתמש. ‫0 = אקראי, 1 = k-means++, ‏ 2 = canopy, ‏ 3 = farthest first.
canopiesבוליאני, ברירת מחדל: falseאפשר להשתמש בחופות כדי לצמצם את מספר חישובי המרחק.
maxCandidatesמספר שלם, ברירת מחדל: 100המספר המקסימלי של חופות מועמדות שיישארו בזיכרון בכל זמן נתון כשמשתמשים באשכול חופות. המרחק T2 בתוספת מאפייני הנתונים יקבעו כמה חופות מועמדות ייווצרו לפני שיתבצעו גיזום תקופתי וגיזום סופי, מה שעלול לגרום לצריכת זיכרון מוגזמת. ההגדרה הזו מונעת מצבים שבהם מספר גדול של חופות מועמדות צורך זיכרון.
periodicPruningמספר שלם, ברירת מחדל: 10,000תדירות הגיזום של חופות עם צפיפות נמוכה כשמשתמשים באשכולות חופות.
minDensityמספר שלם, ברירת מחדל: 2צפיפות מינימלית של חופת העצים, כשמשתמשים באשכולות של חופות עצים, שמתחתיה חופת העצים תיגזם במהלך גיזום תקופתי.
t1מספר ממשי (float), ברירת מחדל: ‎-1.5המרחק T1 שמשמש כשמשתמשים בשיטת האשכולות canopy. ערך קטן מ-0 נחשב כמכפיל חיובי ל-T2.
t2מספר ממשי (float), ברירת מחדל: ‎-1המרחק T2 שמשמש כשמשתמשים בשיטת האשכולות canopy. ערכים קטנים מ-0 גורמים לשימוש בהיוריסטיקה שמבוססת על סטיית התקן של המאפיין.
distanceFunctionמחרוזת, ברירת מחדל: Euclideanפונקציית המרחק שבה רוצים להשתמש. האפשרויות הן: Euclidean ו-Manhattan.
maxIterationsמספר שלם, ברירת מחדל: nullהמספר המקסימלי של איטרציות.
preserveOrderבוליאני, ברירת מחדל: falseשמירה על סדר המכונות.
fastבוליאני, ברירת מחדל: falseמאפשרת חישובים מהירים יותר של מרחקים, באמצעות ערכי סף. משביתה את החישוב או הפלט של שגיאות או מרחקים בריבוע.
seedמספר שלם, ברירת מחדל: 10ערך הבסיס לארגון בסדר אקראי.