งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

1 322 756 Data Mining Dr. Wararat Rungworawut 322475 การทำเหมืองข้อมูล (Data Mining) สอนโดย อาจารย์ วรารัตน์ รุ่งวรวุฒิ ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์

งานนำเสนอที่คล้ายกัน


งานนำเสนอเรื่อง: "1 322 756 Data Mining Dr. Wararat Rungworawut 322475 การทำเหมืองข้อมูล (Data Mining) สอนโดย อาจารย์ วรารัตน์ รุ่งวรวุฒิ ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์"— ใบสำเนางานนำเสนอ:

1 1 322 756 Data Mining Dr. Wararat Rungworawut 322475 การทำเหมืองข้อมูล (Data Mining) สอนโดย อาจารย์ วรารัตน์ รุ่งวรวุฒิ ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น บทที่ 9: การวิเคราะห์การจัดกลุ่ม (Clustering Analysis)

2 2 322 756 Data Mining การจัดกลุ่มในการทำเหมืองข้อมูลคือ อะไร  Cluster : เป็นกลุ่มหรือคอเลคชัน (collection) ของวัตถุ  สามารถนำมาจัดกลุ่มกันตามความเหมือน (Similarity)  สามารถนำมาจัดกลุ่มกันตามความแตกต่าง (Dissimilarity or Distance)  Cluster Analysis  เป็นกระบวนการจัดวัตถุต่างๆ ให้อยู่กลุ่มที่เหมาะสม ซึ่งมี คุณสมบัติที่วัตถุที่อยู่ในกลุ่มเดียวกันจะคล้ายกัน แต่มีความ แตกต่างจากวัตถุในกลุ่มอื่น  Clustering  การจัดกลุ่มจะแตกต่างจากการแบ่งประเภทข้อมูล (Classification) โดยจะแบ่งกลุ่มข้อมูลจากความคล้าย โดยไม่มี การกำหนดฉลากประเภทข้อมูลไว้ก่อนหรือเราไม่ทราบจำนวน กลุ่มล่วงหน้า เป็นการเรียนรู้แบบไม่มีผู้สอน (unsupervised classification)

3 3 322 756 Data Mining การวิเคราะห์การจัดกลุ่ม (Clustering Analysis) จำนวนกลุ่มเท่าไหร่ถึงจะ ดี ? 4 กลุ่ม (Four Clusters)2 กลุ่ม (Two Clusters) 6 กลุ่ม (Six Clusters)

4 4 322 756 Data Mining What is Good Clustering?  จัดกลุ่มโดยพยายามให้สิ่งที่อยู่ในกลุ่มเดียวกันมี ความคล้ายคลึงกันมากที่สุด (Minimize Intra- Cluster Distances) และพยายามให้แต่ละกลุ่มมี ความแตกต่างกันมากที่สุด (Maximize Inter-Cluster Distances) Inter-cluster distances are maximized Intra-cluster distances are minimized

5 5 322 756 Data Mining ประเภทของ Clustering  Partitional Clustering คือการแบ่งกลุ่มอย่างชัดเจน โดยไม่มีกลุ่มไหนซ้อนทับกันอยู่ Original Points A Partitional Clustering

6 6 322 756 Data Mining  Hierarchical clustering แบบที่มีความสัมพันธ์แบบลำดับ ชั้น Hierarchical Clustering#1 Hierarchical Clustering#2 Traditional Dendrogram 1 Traditional Dendrogram 2

7 7 322 756 Data Mining Clustering Algorithms  K-means clustering **  Hierarchical clustering

8 8 322 756 Data Mining K-means Clustering  ใช้หลักการการตัดแบ่ง (Partition) แบ่งวัตถุ n ตัวใน ฐานข้อมูล D ออกเป็นจำนวน k กลุ่ม ( สมมติว่าเรา ทราบค่า k)  อัลกอริทึม k-Means จะตัดแบ่งวัตถุออกเป็น k กลุ่ม โดยการแทนแต่ละกลุ่มด้วยค่าเฉลี่ยของกลุ่ม ซึ่งใช้ เป็นจุดศูนย์กลางของกลุ่มในการวัดระยะห่างของ ตัวอย่างในกลุ่มเดียวกัน

9 9 322 756 Data Mining K-means Clustering Algorithm Method 1) สุ่มค่าเริ่มต้น จำนวน k ค่า เรียกว่า cluster centers (centroid); 2) ทำการหาค่าระยะห่างระหว่างข้อมูลกับจุดศูนย กลางมากที่สุด หากข้อมูลไหนใกล้ค่าจุดศูนย์กลาง ตัวไหนมากที่สุดอยู่กลุ่มนั้น 3) หาค่าเฉลี่ย (Mean) แต่ละกลุ่ม ให้เป็น ค่าจุดกลาง (centroid) ใหม่ 4) กลับไปยังข้อ 2 จนกระทั้ง ค่าเฉลี่ยนในแต่ละกลุ่ม จะไม่เปลี่ยนแปลง

10 10 322 756 Data Mining Example: K-Mean Clustering IDXY A1210 A225 A384 A458 A575 A664 A712 A849

11 11 322 756 Data Mining Example: K-Mean Clustering  สุ่มค่าเริ่มต้น จำนวน k ค่า เรียกว่า cluster centers (centroid);  สมมติ k =3 แสดงว่า c1, c2 และ c3 เป็น centroid ที่เราสุ่ม ขึ้นมา c1(2, 10), c2(5, 8) and c3(1, 2). + + + c1 c2 c3

12 12 322 756 Data Mining Example: K-Mean Clustering  หาความห่างกันระหว่างข้อมูล 2 ข้อมูล คือ หาความห่างจาก ข้อมูล A =(x1, y1) และ centroid =(x2, y2) (2, 10) (5, 8)(1, 2) PointDist Mean 1Dist Mean 2Dist Mean 3Cluster A1(2, 10) A2(2, 5) A3(8, 4) A4(5, 8) A5(7, 5) A6(6, 4) A7(1, 2) A8(4, 9) Solution: Iteration 1 distance(a, b) = |x2 – x1| + |y2 – y1|

13 13 322 756 Data Mining Example: K-Mean Clustering  ขั้นตอนที่ 2 หาระยะห่างระหว่างข้อมูล กับจุดศูนย์กลาง pointmean1 x1, y1x2, y2 (2, 10) distance(point, mean1) = |x2 – x1| + |y2 – y1| = |2 – 2| + |10 – 10| = 0 + 0 = 0 pointmean2 x1, y1x2, y2 (2, 10) (5, 8) distance(point, mean2) = |x2 – x1| + |y2 – y1| = |5 – 2| + |8 – 10| = 3 + 2 = 5 pointmean3 x1, y1x2, y2 (2, 10) (1, 2) distance(point, mean3) = |x2 – x1| + |y2 – y1| = |1 – 2| + |2 – 10| = 1 + 8 = 9

14 14 322 756 Data Mining Example: K-Mean Clustering (2, 10) (5, 8)(1, 2) PointDist Mean 1Dist Mean 2Dist Mean 3Cluster A1(2, 10)0591 A2(2, 5) A3(8, 4) A4(5, 8) A5(7, 5) A6(6, 4) A7(1, 2) A8(4, 9)

15 15 322 756 Data Mining Example: K-Mean Clustering  คำนวณหาค่าระยะห่างทุกข้อมูล pointmean1 x1, y1x2, y2 (2, 5) (2, 10) distance(point, mean1) = |x2 – x1| + |y2 – y1| = |2 – 2| + |10 – 5| = 0 + 5 = 5 pointmean2 x1, y1x2, y2 (2, 5) (5, 8) distance(point, mean2) = |x2 – x1| + |y2 – y1| = |5 – 2| + |8 – 5| = 3 + 3 = 6 pointmean3 x1, y1x2, y2 (2, 5) (1, 2) distance(point, mean3) = |x2 – x1| + |y2 – y1| = |1 – 2| + |2 – 5| = 1 + 3 = 4

16 16 322 756 Data Mining Example: K-Mean Clustering (2, 10) (5, 8)(1, 2) PointDist Mean 1Dist Mean 2Dist Mean 3Cluster A1(2, 10)0591 A2(2, 5)5643 A3(8, 4) A4(5, 8) A5(7, 5) A6(6, 4) A7(1, 2) A8(4, 9)

17 17 322 756 Data Mining Example: K-Mean Clustering  รอบที่ 1 ได้การจัดกลุ่มข้อมูลดังต่อไปนี้ (2, 10) (5, 8) (1, 2) PointDist Mean 1Dist Mean 2Dist Mean 3Cluster A1(2, 10)0591 A2(2, 5)5643 A3(8, 4)12792 A4(5, 8)50102 A5(7, 5)10592 A6(6, 4)10572 A7(1, 2)91003 A8(4, 9)32102

18 18 322 756 Data Mining Example: K-Mean Clustering Cluster 1Cluster 2Cluster 3 A1(2, 10)A3(8, 4)A2(2, 5) A4(5, 8)A7(1, 2) A5(7, 5) A6(6, 4) A8(4, 9) + + c1 c2 c3 +

19 19 322 756 Data Mining Example: K-Mean Clustering  ขั้นตอนที่ 3 หาค่าเฉลี่ยแต่ละกลุ่ม ให้เป็น ค่าจุดกลางใหม่  สำหรับ Cluster 1 มีจุดเดียวคือ A1(2, 10) แสดงว่า C1(2,10) ยังคงเดิม  สำหรับ Cluster 2 มี 5 จุดอยู่กลุ่มเดียวกัน เพราะฉะนั้นหา C2 ใหม่ ( (8+5+7+6+4)/5, (4+8+5+4+9)/5 ) = C2(6, 6)  สำหรับ Cluster 3 มี 2 จุดอยู่กลุ่มเดียวกัน  ( (2+1)/2, (5+2)/2 ) = C3(1.5, 3.5) Cluster 1Cluster 2Cluster 3 A1(2, 10)A3(8, 4)A2(2, 5) A4(5, 8)A7(1, 2) A5(7, 5) A6(6, 4) A8(4, 9)

20 20 322 756 Data Mining Example: K-Mean Clustering + + c1 c2 c3 +  รอบที่ 2

21 21 322 756 Data Mining Example: K-Mean Clustering  รอบที่ 2 (2, 10) (6, 6) (1.5, 3.5) PointDist Mean 1Dist Mean 2Dist Mean 3Cluster A1(2, 10)0871 A2(2, 5)5523 A3(8, 4)12472 A4(5, 8)5382 A5(7, 5)10172 A6(6, 4)10252 A7(1, 2)9923 A8(4, 9)3581

22 22 322 756 Data Mining Example: K-Mean Clustering Cluster 1 Cluster 2Cluster 3 A1(2, 10)A3(8, 4)A2(2, 5) A8(4, 9) A4(5, 8)A7(1, 2) A5(7, 5) A6(6, 4) + + c1 c2 c3 + คำนวณจุดศูนย์กลาง ใหม่ C1 = (2+4/2, 10+9/2) = (3, 9.5) C2 = (6.5, 5.25) C3 = (1.5, 3.5)

23 23 322 756 Data Mining Example: K-Mean Clustering  รอบที่ 3 Cluster 1 Cluster 2Cluster 3 A1(2, 10)A3(8, 4)A2(2, 5) A8(4, 9) A5(7, 5) A7(1, 2) A4(5, 8) A6(6, 4) + + c1 c2 c3 + คำนวณจุดศูนย์กลาง ใหม่ C1 = (3.66, 9) C2 = (7, 4.33) C3 = (1.5, 3.5)


ดาวน์โหลด ppt 1 322 756 Data Mining Dr. Wararat Rungworawut 322475 การทำเหมืองข้อมูล (Data Mining) สอนโดย อาจารย์ วรารัตน์ รุ่งวรวุฒิ ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์

งานนำเสนอที่คล้ายกัน


Ads by Google