Data Mining

การวัดประสิทธิภาพการจัดกลุ่ม K-Means Clustering ใน RapidMiner

การวัดประสิทธิภาพการจัดกลุ่ม K-Means Clustering ใน RapidMiner

 

เทคนิคการจัดกลุ่มข้อมูล (Clustering) ในการทำ data mining มีเทคนิคที่น่าสนใจดังนี้

1 .   K-means Clustering

2.   Hierarchical Clustering

เทคนิคที่แตกต่างกันอาจจะให้ผลลัพธ์ที่แตกต่างกัน   อะไรที่จะบอกว่า เทคนิคไหนสามารถแบ่งกลุ่มข้อมูลได้ดีกว่ากัน

การแบ่งกลุ่มที่ดี ?

1.    ระยะห่างของข้อมูลภายในกลุ่มกันกันมากที่สุด

2.   ระยะห่างระหว่างกลุ่มมีความห่างกันอย่างชัดเจน

สิ่งที่จะบอกได้ไม่ใช่จะมองด้วยตาเปล่าได้  เพราะฉะนั้นจะต้องอาศัยเครื่องมือสำหรับวัดประสิทธิภาพของแต่ละเทคนิค ซึ่งใน rapidminer สามารถทำได้ดังนี้  โดยใช้ operation ดังนี้

   –  Loop parameter

   –  Performance (Cluster Distance Performance)

   –  Log (สำหรับเก็บค่าเพื่อนำมา plot กราฟ)

  ดังภาพ

 

ภายใน loop parameter

ผลของการเปรียบเทียบประสิทธิภาพของการแบ่งกลุ่มแต่ละ ค่า k

 

แกน x คือ ค่า k (จำนวนกลุ่ม) ส่วน แกน y แสดงค่าประสิทธิภาพ ส่วนการนำไปใช้งานว่าจะใช้กี่กลุ่มก็ขึ้นอยู่กับผู้ใช้และบริบทของแต่ละองค์กร หรือ งานที่จะนำไปใช้นั่นเอง