การทำเหมืองข้อมูล (Data Mining)

การทำเหมืองข้อมูล (Data Mining)
322475 การทำเหมืองข้อมูล (Data Mining) บทที่ 9: การวิเคราะห์การจัดกลุ่ม (Clustering Analysis) สอนโดย อาจารย์ วรารัตน์ รุ่งวรวุฒิ ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์มหาวิทยาลัยขอนแก่น

การจัดกลุ่มในการทำเหมืองข้อมูลคืออะไร
Cluster : เป็นกลุ่มหรือคอเลคชัน (collection) ของวัตถุ สามารถนำมาจัดกลุ่มกันตามความเหมือน (Similarity) สามารถนำมาจัดกลุ่มกันตามความแตกต่าง (Dissimilarity or Distance) Cluster Analysis เป็นกระบวนการจัดวัตถุต่างๆ ให้อยู่กลุ่มที่เหมาะสม ซึ่งมีคุณสมบัติที่วัตถุที่อยู่ในกลุ่มเดียวกัน จะคล้ายกัน แต่มีความแตกต่างจากวัตถุในกลุ่มอื่น Clustering การจัดกลุ่มจะแตกต่างจากการแบ่งประเภทข้อมูล (Classification) โดยจะแบ่งกลุ่ม ข้อมูลจากความคล้าย โดยไม่มีการกำหนดฉลากประเภทข้อมูลไว้ก่อนหรือเราไม่ทราบจำนวน กลุ่มล่วงหน้า เป็นการเรียนรู้แบบไม่มีผู้สอน (unsupervised classification)

การวิเคราะห์การจัดกลุ่ม (Clustering Analysis)
จำนวนกลุ่มเท่าไหร่ถึงจะดี? 6 กลุ่ม (Six Clusters) 2 กลุ่ม (Two Clusters) 4 กลุ่ม (Four Clusters)

What is Good Clustering?
จัดกลุ่มโดยพยายามให้สิ่งที่อยู่ในกลุ่มเดียวกันมีความคล้ายคลึงกันมากที่สุด (Minimize Intra-Cluster Distances) และพยายามให้แต่ละ กลุ่มมีความแตกต่างกันมากที่สุด (Maximize Inter-Cluster Distances) Inter-cluster distances are maximized Intra-cluster distances are minimized

ประเภทของ Clustering Partitional Clustering คือการแบ่งกลุ่มอย่างชัดเจนโดยไม่มีกลุ่ม ไหนซ้อนทับกันอยู่ A Partitional Clustering Original Points

Hierarchical clustering แบบที่มีความสัมพันธ์แบบลำดับชั้น
Traditional Dendrogram 1 Hierarchical Clustering#2 Traditional Dendrogram 2

Clustering Algorithms
K-means clustering ** Hierarchical clustering

K-means Clustering ใช้หลักการการตัดแบ่ง (Partition) แบ่งวัตถุ n ตัวในฐานข้อมูล D ออกเป็นจำนวน k กลุ่ม (สมมติว่าเราทราบค่า k) อัลกอริทึม k-Means จะตัดแบ่งวัตถุออกเป็น k กลุ่ม โดยการแทนแต่ละ กลุ่มด้วยค่าเฉลี่ยของกลุ่ม ซึ่งใช้เป็นจุดศูนย์กลางของกลุ่มในการวัดระยะห่าง ของตัวอย่างในกลุ่มเดียวกัน

K-means Clustering Algorithm
Method 1) สุ่มค่าเริ่มต้น จำนวน k ค่า เรียกว่า cluster centers (centroid); 2) ทำการหาค่าระยะห่างระหว่างข้อมูลกับจุดศูนยกลางมากที่สุด หากข้อมูล ไหนใกล้ค่าจุดศูนย์กลางตัวไหนมากที่สุดอยู่กลุ่มนั้น 3) หาค่าเฉลี่ย (Mean) แต่ละกลุ่ม ให้เป็น ค่าจุดกลาง (centroid) ใหม่ 4) กลับไปยังข้อ 2 จนกระทั้ง ค่าเฉลี่ยนในแต่ละกลุ่มจะไม่เปลี่ยนแปลง

Example: K-Mean Clustering
ID X Y A1 2 10 A2 5 A3 8 4 A4 A5 7 A6 6 A7 1 A8 9

สุ่มค่าเริ่มต้น จำนวน k ค่า เรียกว่า cluster centers (centroid); สมมติ k =3 แสดงว่า c1, c2 และ c3 เป็น centroid ที่เราสุ่มขึ้นมา c1(2, 10), c2(5, 8) and c3(1, 2). c1 + c2 + c3 +

Solution: Iteration 1 Example: K-Mean Clustering หาความห่างกันระหว่างข้อมูล 2 ข้อมูล คือ หาความห่างจากข้อมูล A =(x1, y1) และ centroid =(x2, y2) distance(a, b) = |x2 – x1| + |y2 – y1| (2, 10) (5, 8) (1, 2) Point Dist Mean 1 Dist Mean 2 Dist Mean 3 Cluster A1 A2 (2, 5) A3 (8, 4) A4 A5 (7, 5) A6 (6, 4) A7 A8 (4, 9)

ขั้นตอนที่ 2 หาระยะห่างระหว่างข้อมูล กับจุดศูนย์กลาง point mean1 x1, y1 x2, y2 (2, 10) (2, 10) distance(point, mean1) = |x2 – x1| + |y2 – y1| = |2 – 2| + |10 – 10| = = 0 point mean2 x1, y1 x2, y2 (2, 10) (5, 8) distance(point, mean2) = |x2 – x1| + |y2 – y1| = |5 – 2| + |8 – 10| = = 5 point mean3 x1, y1 x2, y2 (2, 10) (1, 2) distance(point, mean3) = |x2 – x1| + |y2 – y1| = |1 – 2| + |2 – 10| = = 9

(2, 10) (5, 8) (1, 2) Point Dist Mean 1 Dist Mean 2 Dist Mean 3 Cluster A1 5 9 1 A2 (2, 5) A3 (8, 4) A4 A5 (7, 5) A6 (6, 4) A7 A8 (4, 9)

คำนวณหาค่าระยะห่างทุกข้อมูล point mean1 x1, y1 x2, y2 (2, 5) (2, 10) distance(point, mean1) = |x2 – x1| + |y2 – y1| = |2 – 2| + |10 – 5| = = 5 point mean2 x1, y1 x2, y2 (2, 5) (5, 8) distance(point, mean2) = |x2 – x1| + |y2 – y1| = |5 – 2| + |8 – 5| = = 6 point mean3 x1, y1 x2, y2 (2, 5) (1, 2) distance(point, mean3) = |x2 – x1| + |y2 – y1| = |1 – 2| + |2 – 5| = = 4

(2, 10) (5, 8) (1, 2) Point Dist Mean 1 Dist Mean 2 Dist Mean 3 Cluster A1 5 9 1 A2 (2, 5) 6 4 3 A3 (8, 4) A4 A5 (7, 5) A6 (6, 4) A7 A8 (4, 9)

รอบที่ 1 ได้การจัดกลุ่มข้อมูลดังต่อไปนี้ (2, 10) (5, 8) (1, 2) Point Dist Mean 1 Dist Mean 2 Dist Mean 3 Cluster A1 5 9 1 A2 (2, 5) 6 4 3 A3 (8, 4) 12 7 2 A4 10 A5 (7, 5) A6 (6, 4) A7 A8 (4, 9)

Cluster 1 Cluster 2 Cluster 3 A1(2, 10) A3(8, 4) A2(2, 5) A4(5, 8) A7(1, 2) A5(7, 5) A6(6, 4) A8(4, 9) c1 + c2 + c3 +

ขั้นตอนที่ 3 หาค่าเฉลี่ยแต่ละกลุ่ม ให้เป็น ค่าจุดกลางใหม่ สำหรับ Cluster 1 มีจุดเดียวคือ A1(2, 10) แสดงว่า C1(2,10) ยังคงเดิม สำหรับ Cluster 2 มี 5 จุดอยู่กลุ่มเดียวกัน เพราะฉะนั้นหา C2 ใหม่ ( ( )/5, ( )/5 ) = C2(6, 6) สำหรับ Cluster 3 มี 2 จุดอยู่กลุ่มเดียวกัน ( (2+1)/2, (5+2)/2 ) = C3(1.5, 3.5) Cluster 1 Cluster 2 Cluster 3 A1(2, 10) A3(8, 4) A2(2, 5) A4(5, 8) A7(1, 2) A5(7, 5) A6(6, 4) A8(4, 9)

รอบที่ 2 c1 + c2 + + c3

รอบที่ 2 (2, 10) (6, 6) (1.5, 3.5) Point Dist Mean 1 Dist Mean 2 Dist Mean 3 Cluster A1 8 7 1 A2 (2, 5) 5 2 3 A3 (8, 4) 12 4 A4 (5, 8) A5 (7, 5) 10 A6 (6, 4) A7 (1, 2) 9 A8 (4, 9)

Cluster Cluster 2 Cluster 3 A1(2, 10) A3(8, 4) A2(2, 5) A8(4, 9) A4(5, 8) A7(1, 2) A5(7, 5) A6(6, 4) คำนวณจุดศูนย์กลางใหม่ C1 = (2+4/2, 10+9/2) = (3, 9.5) C2 = (6.5, 5.25) C3 = (1.5, 3.5) c1 + c2 + + c3

รอบที่ 3 Cluster Cluster 2 Cluster 3 A1(2, 10) A3(8, 4) A2(2, 5) A8(4, 9) A5(7, 5) A7(1, 2) A4(5, 8) A6(6, 4) คำนวณจุดศูนย์กลางใหม่ C1 = (3.66, 9) C2 = (7, 4.33) C3 = (1.5, 3.5) c1 + + c2 + c3

การทำเหมืองข้อมูล (Data Mining)

งานนำเสนอที่คล้ายกัน

งานนำเสนอเรื่อง: "การทำเหมืองข้อมูล (Data Mining)"— ใบสำเนางานนำเสนอ:

งานนำเสนอที่คล้ายกัน

เรื่องโครงการ

การติดต่อกลับ

เข้าสู่ระบบ

ลงทะเบียนผ่านเครือข่ายสังคม:

การทำเหมืองข้อมูล (Data Mining)

งานนำเสนอที่คล้ายกัน

งานนำเสนอเรื่อง: "การทำเหมืองข้อมูล (Data Mining)"— ใบสำเนางานนำเสนอ:

งานนำเสนอที่คล้ายกัน

เรื่องโครงการ

การติดต่อกลับ