งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

1 322 756 Data Mining Dr. Wararat Rungworawut 322475 การทำเหมืองข้อมูล (Data Mining) สอนโดย อาจารย์ วรารัตน์ รุ่งวรวุฒิ ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์

งานนำเสนอที่คล้ายกัน


งานนำเสนอเรื่อง: "1 322 756 Data Mining Dr. Wararat Rungworawut 322475 การทำเหมืองข้อมูล (Data Mining) สอนโดย อาจารย์ วรารัตน์ รุ่งวรวุฒิ ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์"— ใบสำเนางานนำเสนอ:

1 Data Mining Dr. Wararat Rungworawut การทำเหมืองข้อมูล (Data Mining) สอนโดย อาจารย์ วรารัตน์ รุ่งวรวุฒิ ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น บทที่ 9: การวิเคราะห์การจัดกลุ่ม (Clustering Analysis)

2 Data Mining การจัดกลุ่มในการทำเหมืองข้อมูลคือ อะไร  Cluster : เป็นกลุ่มหรือคอเลคชัน (collection) ของวัตถุ  สามารถนำมาจัดกลุ่มกันตามความเหมือน (Similarity)  สามารถนำมาจัดกลุ่มกันตามความแตกต่าง (Dissimilarity or Distance)  Cluster Analysis  เป็นกระบวนการจัดวัตถุต่างๆ ให้อยู่กลุ่มที่เหมาะสม ซึ่งมี คุณสมบัติที่วัตถุที่อยู่ในกลุ่มเดียวกันจะคล้ายกัน แต่มีความ แตกต่างจากวัตถุในกลุ่มอื่น  Clustering  การจัดกลุ่มจะแตกต่างจากการแบ่งประเภทข้อมูล (Classification) โดยจะแบ่งกลุ่มข้อมูลจากความคล้าย โดยไม่มี การกำหนดฉลากประเภทข้อมูลไว้ก่อนหรือเราไม่ทราบจำนวน กลุ่มล่วงหน้า เป็นการเรียนรู้แบบไม่มีผู้สอน (unsupervised classification)

3 Data Mining การวิเคราะห์การจัดกลุ่ม (Clustering Analysis) จำนวนกลุ่มเท่าไหร่ถึงจะ ดี ? 4 กลุ่ม (Four Clusters)2 กลุ่ม (Two Clusters) 6 กลุ่ม (Six Clusters)

4 Data Mining What is Good Clustering?  จัดกลุ่มโดยพยายามให้สิ่งที่อยู่ในกลุ่มเดียวกันมี ความคล้ายคลึงกันมากที่สุด (Minimize Intra- Cluster Distances) และพยายามให้แต่ละกลุ่มมี ความแตกต่างกันมากที่สุด (Maximize Inter-Cluster Distances) Inter-cluster distances are maximized Intra-cluster distances are minimized

5 Data Mining ประเภทของ Clustering  Partitional Clustering คือการแบ่งกลุ่มอย่างชัดเจน โดยไม่มีกลุ่มไหนซ้อนทับกันอยู่ Original Points A Partitional Clustering

6 Data Mining  Hierarchical clustering แบบที่มีความสัมพันธ์แบบลำดับ ชั้น Hierarchical Clustering#1 Hierarchical Clustering#2 Traditional Dendrogram 1 Traditional Dendrogram 2

7 Data Mining Clustering Algorithms  K-means clustering **  Hierarchical clustering

8 Data Mining K-means Clustering  ใช้หลักการการตัดแบ่ง (Partition) แบ่งวัตถุ n ตัวใน ฐานข้อมูล D ออกเป็นจำนวน k กลุ่ม ( สมมติว่าเรา ทราบค่า k)  อัลกอริทึม k-Means จะตัดแบ่งวัตถุออกเป็น k กลุ่ม โดยการแทนแต่ละกลุ่มด้วยค่าเฉลี่ยของกลุ่ม ซึ่งใช้ เป็นจุดศูนย์กลางของกลุ่มในการวัดระยะห่างของ ตัวอย่างในกลุ่มเดียวกัน

9 Data Mining K-means Clustering Algorithm Method 1) สุ่มค่าเริ่มต้น จำนวน k ค่า เรียกว่า cluster centers (centroid); 2) ทำการหาค่าระยะห่างระหว่างข้อมูลกับจุดศูนย กลางมากที่สุด หากข้อมูลไหนใกล้ค่าจุดศูนย์กลาง ตัวไหนมากที่สุดอยู่กลุ่มนั้น 3) หาค่าเฉลี่ย (Mean) แต่ละกลุ่ม ให้เป็น ค่าจุดกลาง (centroid) ใหม่ 4) กลับไปยังข้อ 2 จนกระทั้ง ค่าเฉลี่ยนในแต่ละกลุ่ม จะไม่เปลี่ยนแปลง

10 Data Mining Example: K-Mean Clustering IDXY A1210 A225 A384 A458 A575 A664 A712 A849

11 Data Mining Example: K-Mean Clustering  สุ่มค่าเริ่มต้น จำนวน k ค่า เรียกว่า cluster centers (centroid);  สมมติ k =3 แสดงว่า c1, c2 และ c3 เป็น centroid ที่เราสุ่ม ขึ้นมา c1(2, 10), c2(5, 8) and c3(1, 2) c1 c2 c3

12 Data Mining Example: K-Mean Clustering  หาความห่างกันระหว่างข้อมูล 2 ข้อมูล คือ หาความห่างจาก ข้อมูล A =(x1, y1) และ centroid =(x2, y2) (2, 10) (5, 8)(1, 2) PointDist Mean 1Dist Mean 2Dist Mean 3Cluster A1(2, 10) A2(2, 5) A3(8, 4) A4(5, 8) A5(7, 5) A6(6, 4) A7(1, 2) A8(4, 9) Solution: Iteration 1 distance(a, b) = |x2 – x1| + |y2 – y1|

13 Data Mining Example: K-Mean Clustering  ขั้นตอนที่ 2 หาระยะห่างระหว่างข้อมูล กับจุดศูนย์กลาง pointmean1 x1, y1x2, y2 (2, 10) distance(point, mean1) = |x2 – x1| + |y2 – y1| = |2 – 2| + |10 – 10| = = 0 pointmean2 x1, y1x2, y2 (2, 10) (5, 8) distance(point, mean2) = |x2 – x1| + |y2 – y1| = |5 – 2| + |8 – 10| = = 5 pointmean3 x1, y1x2, y2 (2, 10) (1, 2) distance(point, mean3) = |x2 – x1| + |y2 – y1| = |1 – 2| + |2 – 10| = = 9

14 Data Mining Example: K-Mean Clustering (2, 10) (5, 8)(1, 2) PointDist Mean 1Dist Mean 2Dist Mean 3Cluster A1(2, 10)0591 A2(2, 5) A3(8, 4) A4(5, 8) A5(7, 5) A6(6, 4) A7(1, 2) A8(4, 9)

15 Data Mining Example: K-Mean Clustering  คำนวณหาค่าระยะห่างทุกข้อมูล pointmean1 x1, y1x2, y2 (2, 5) (2, 10) distance(point, mean1) = |x2 – x1| + |y2 – y1| = |2 – 2| + |10 – 5| = = 5 pointmean2 x1, y1x2, y2 (2, 5) (5, 8) distance(point, mean2) = |x2 – x1| + |y2 – y1| = |5 – 2| + |8 – 5| = = 6 pointmean3 x1, y1x2, y2 (2, 5) (1, 2) distance(point, mean3) = |x2 – x1| + |y2 – y1| = |1 – 2| + |2 – 5| = = 4

16 Data Mining Example: K-Mean Clustering (2, 10) (5, 8)(1, 2) PointDist Mean 1Dist Mean 2Dist Mean 3Cluster A1(2, 10)0591 A2(2, 5)5643 A3(8, 4) A4(5, 8) A5(7, 5) A6(6, 4) A7(1, 2) A8(4, 9)

17 Data Mining Example: K-Mean Clustering  รอบที่ 1 ได้การจัดกลุ่มข้อมูลดังต่อไปนี้ (2, 10) (5, 8) (1, 2) PointDist Mean 1Dist Mean 2Dist Mean 3Cluster A1(2, 10)0591 A2(2, 5)5643 A3(8, 4)12792 A4(5, 8)50102 A5(7, 5)10592 A6(6, 4)10572 A7(1, 2)91003 A8(4, 9)32102

18 Data Mining Example: K-Mean Clustering Cluster 1Cluster 2Cluster 3 A1(2, 10)A3(8, 4)A2(2, 5) A4(5, 8)A7(1, 2) A5(7, 5) A6(6, 4) A8(4, 9) + + c1 c2 c3 +

19 Data Mining Example: K-Mean Clustering  ขั้นตอนที่ 3 หาค่าเฉลี่ยแต่ละกลุ่ม ให้เป็น ค่าจุดกลางใหม่  สำหรับ Cluster 1 มีจุดเดียวคือ A1(2, 10) แสดงว่า C1(2,10) ยังคงเดิม  สำหรับ Cluster 2 มี 5 จุดอยู่กลุ่มเดียวกัน เพราะฉะนั้นหา C2 ใหม่ ( ( )/5, ( )/5 ) = C2(6, 6)  สำหรับ Cluster 3 มี 2 จุดอยู่กลุ่มเดียวกัน  ( (2+1)/2, (5+2)/2 ) = C3(1.5, 3.5) Cluster 1Cluster 2Cluster 3 A1(2, 10)A3(8, 4)A2(2, 5) A4(5, 8)A7(1, 2) A5(7, 5) A6(6, 4) A8(4, 9)

20 Data Mining Example: K-Mean Clustering + + c1 c2 c3 +  รอบที่ 2

21 Data Mining Example: K-Mean Clustering  รอบที่ 2 (2, 10) (6, 6) (1.5, 3.5) PointDist Mean 1Dist Mean 2Dist Mean 3Cluster A1(2, 10)0871 A2(2, 5)5523 A3(8, 4)12472 A4(5, 8)5382 A5(7, 5)10172 A6(6, 4)10252 A7(1, 2)9923 A8(4, 9)3581

22 Data Mining Example: K-Mean Clustering Cluster 1 Cluster 2Cluster 3 A1(2, 10)A3(8, 4)A2(2, 5) A8(4, 9) A4(5, 8)A7(1, 2) A5(7, 5) A6(6, 4) + + c1 c2 c3 + คำนวณจุดศูนย์กลาง ใหม่ C1 = (2+4/2, 10+9/2) = (3, 9.5) C2 = (6.5, 5.25) C3 = (1.5, 3.5)

23 Data Mining Example: K-Mean Clustering  รอบที่ 3 Cluster 1 Cluster 2Cluster 3 A1(2, 10)A3(8, 4)A2(2, 5) A8(4, 9) A5(7, 5) A7(1, 2) A4(5, 8) A6(6, 4) + + c1 c2 c3 + คำนวณจุดศูนย์กลาง ใหม่ C1 = (3.66, 9) C2 = (7, 4.33) C3 = (1.5, 3.5)


ดาวน์โหลด ppt 1 322 756 Data Mining Dr. Wararat Rungworawut 322475 การทำเหมืองข้อมูล (Data Mining) สอนโดย อาจารย์ วรารัตน์ รุ่งวรวุฒิ ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์

งานนำเสนอที่คล้ายกัน


Ads by Google