ee.Clusterer.wekaKMeans

จัดกลุ่มข้อมูลโดยใช้อัลกอริทึม K-means ใช้ได้ทั้งระยะทางแบบยุคลิด (ค่าเริ่มต้น) หรือระยะทางแบบแมนฮัตตัน หากใช้ระยะทางแมนฮัตตัน ระบบจะคำนวณจุดศูนย์กลางเป็นค่ามัธยฐานแบบคอมโพเนนต์แทนค่าเฉลี่ย ดูข้อมูลเพิ่มเติมได้ที่

ง. Arthur, S. Vassilvitskii: k-means++: the advantages of careful seeding. ใน: Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 1027-1035, 2007.

การใช้งานการคืนสินค้า
ee.Clusterer.wekaKMeans(nClusters, init, canopies, maxCandidates, periodicPruning, minDensity, t1, t2, distanceFunction, maxIterations, preserveOrder, fast, seed)Clusterer
อาร์กิวเมนต์ประเภทรายละเอียด
nClustersจำนวนเต็มจำนวนคลัสเตอร์
initจำนวนเต็ม ค่าเริ่มต้น: 0วิธีการเริ่มต้นที่จะใช้ 0 = สุ่ม, 1 = k-means++, 2 = canopy, 3 = farthest first
canopiesบูลีน ค่าเริ่มต้น: falseใช้แผงกันแดดเพื่อลดจำนวนการคำนวณระยะทาง
maxCandidatesจำนวนเต็ม ค่าเริ่มต้น: 100จำนวนแคนโนปีผู้สมัครสูงสุดที่จะเก็บไว้ในหน่วยความจำในครั้งเดียวเมื่อใช้การจัดกลุ่มแคนโนปี ระยะทาง T2 รวมถึงลักษณะข้อมูลจะเป็นตัวกำหนดจำนวนเรือนยอดที่เป็นไปได้ก่อนที่จะมีการตัดแต่งเป็นระยะๆ และขั้นสุดท้าย ซึ่งอาจส่งผลให้มีการใช้หน่วยความจำมากเกินไป การตั้งค่านี้จะช่วยหลีกเลี่ยงไม่ให้จำนวนโดมผู้สมัครจำนวนมากใช้หน่วยความจำ
periodicPruningจำนวนเต็ม ค่าเริ่มต้น: 10000ความถี่ในการตัดแต่งพุ่มไม้ที่มีความหนาแน่นต่ำเมื่อใช้การจัดกลุ่มพุ่มไม้
minDensityจำนวนเต็ม ค่าเริ่มต้น: 2ความหนาแน่นของพุ่มไม้ขั้นต่ำเมื่อใช้การจัดกลุ่มพุ่มไม้ ซึ่งจะมีการตัดแต่งพุ่มไม้ด้านล่างระหว่างการตัดแต่งเป็นระยะ
t1ลอย ค่าเริ่มต้น: -1.5ระยะทาง T1 ที่จะใช้เมื่อใช้การจัดกลุ่ม Canopy ระบบจะถือว่าค่าที่น้อยกว่า 0 เป็นตัวคูณบวกสำหรับ T2
t2Float, ค่าเริ่มต้น: -1ระยะทาง T2 ที่จะใช้เมื่อใช้การจัดกลุ่ม Canopy ค่า < 0 จะทำให้ระบบใช้ฮิวริสติกตามค่าเบี่ยงเบนมาตรฐานของแอตทริบิวต์
distanceFunctionString, ค่าเริ่มต้น: "Euclidean"ฟังก์ชันระยะทางที่จะใช้ ตัวเลือกคือ "ยุคลิด" และ "แมนฮัตตัน"
maxIterationsจำนวนเต็ม ค่าเริ่มต้น: nullจำนวนการวนซ้ำสูงสุด
preserveOrderบูลีน ค่าเริ่มต้น: falseรักษลําดับของอินสแตนซ์
fastบูลีน ค่าเริ่มต้น: falseช่วยให้คำนวณระยะทางได้เร็วขึ้นโดยใช้ค่าตัด ปิดใช้การคำนวณ/เอาต์พุตของข้อผิดพลาด/ระยะทางยกกำลังสอง
seedจำนวนเต็ม ค่าเริ่มต้น: 10ค่าเริ่มต้นของการสุ่ม