การทำเหมืองข้อมูล (Data Mining)

Slides:



Advertisements
งานนำเสนอที่คล้ายกัน
พิชิตโครงงานวิทยาศาสตร์ คณะวิทยาศาสตร์ มหาวิทยาลัยมหิดล
Advertisements

Analyze → Compare Means → Paired-Sample T test…
วิชา องค์ประกอบศิลป์สำหรับคอมพิวเตอร์ รหัส
การศึกษาและประยุกต์ใช้ขั้นตอนวิธีเชิง วิวัฒน์แบบหลายจุดประสงค์บนคลังข้อมูล เจเมทัล Study of Evolutionary Algorithm in Multi- objective on Library jMetal.

การซ้อนทับกัน และคลื่นนิ่ง
Chapter 2 Root of Nonlinear Functions
E-R Model บรรยายโดย สุรางคนา ธรรมลิขิต.
ดร. พีระพล ยุวภูษิตานนท์ ภาควิชา วิศวกรรมอิเล็กทรอนิกส์
DSP 4 The z-transform การแปลงแซด
3.4 ประโยชน์จากการค้าภายใต้ข้อสมมติต้นทุนเพิ่มขึ้น
1.7 ระเบียบวิธีทางสถิติ 1. การเก็บรวบรวมข้อมูล (Data Collection)
Chapter 1 โครงสร้างข้อมูลและอัลกอริธึมส์
ตัวอย่าง วัตถุก้อนหนึ่ง เคลื่อนที่แนวตรงจาก A ไป B และ C ตามลำดับ ดังรูป 4 m A B 3 m 1 อัตราเร็วเฉลี่ยช่วง A ไป B เป็นเท่าใด.
EEET0770 Digital Filter Design Centre of Electronic Systems and Digital Signal Processing การออกแบบตัวกรองดิจิตอล Digital Filters Design Chapter 2 z-Transform.
ผศ.ดร. พีระพล ยุวภูษิตานนท์ ภาควิชา วิศวกรรมอิเล็กทรอนิกส์
ผังงานโปรแกรม (Program Flowchart)
เนื้อหา ประเภทของโปรแกรมภาษา ขั้นตอนการพัฒนาโปรแกรม
คณิตศาสตร์และสถิติธุรกิจ
Object-Oriented Analysis and Design
ไกรฤกษ์ เชยชื่น, M.Eng. Electrical
Use Case Diagram.
ระบบอนุภาค.
ภาควิชาวิทยาการคอมพิวเตอร์
การออกแบบโปรแกรมอย่างมีโครงสร้าง Structured Design
Data Mining นำเสนอโดย อาจารย์นงเยาว์ สอนจะโปะ คณะสารสนเทศศาสตร์
MAT 231: คณิตศาสตร์ไม่ต่อเนื่อง (4) ความสัมพันธ์ (Relations)
การแปลงภาพสีเทาให้เป็นภาพขาวดำ
การจำแนกตัวอักษรออกจากบรรทัดข้อความ
การเขียนรายงานการใช้เอกสารประกอบการสอน
การทดสอบสมมติฐาน
Module 2 : จัดทำแผนผังการวิเคราะห์องค์กร
1 การสัมมนาผู้ตรวจ ประเมินคุณภาพภายใน ปีการศึกษา 2552 วันพฤหัสบดีที่ 21 ตุลาคม 2553 ณ ห้องประชุม 3222 อาคารสิริคุณากร.
ความสัมพันธ์เวียนบังเกิด
ค31212 คณิตศาสตร์สำหรับ คอมพิวเตอร์ 2
ความสัมพันธ์ดีกรี n และการประยุกต์ใช้งาน
ค21201 คณิตศาสตร์เพิ่มเติม 1
การวิเคราะห์ข้อมูล.
บทที่ 3 การวิเคราะห์ Analysis.
Computer Graphics เรขาคณิต 2 มิติ 1.
การแจกแจงปกติ.
Artificial Intelligence (AI)
สำนักวิชาเทคโนโลยีสารสนเทศและการสื่อสาร มหาวิทยาลัยนเรศวร พะเยา
การวิเคราะห์กลุ่ม (Cluster Analysis)
สวัสดี...ครับ.
CHAPTER 4 Control Statements
นางสาวอารมณ์ อินทร์ภูเมศร์
ค21201 คณิตศาสตร์เพิ่มเติม 1
การทำผลงานวิชาการ สงวนลิขสิทธิ์.....โดย ดร.สุรชาติ สังข์รุ่ง.
การสร้างแบบเสื้อและแขน
ความหมายของวิทยาศาสตร์
เรื่องการประยุกต์ของสมการเชิงเส้นตัวแปรเดียว
การทำเหมืองข้อมูล (Data Mining)
บทเรียนคอมพิวเตอร์ ช่วยสอน ชั้นมัธยมศึกษาปีที่ 4 เรื่อง ฟังก์ชัน นางสาวอรชุมา บุญไกร โรงเรียนสิชลคุณาธาร วิทยา.
School of Information Communication Technology,
เรื่องการประยุกต์ของสมการเชิงเส้นตัวแปรเดียว
ระบบเลขฐาน.
การวิเคราะห์เชิงพื้นที่
แบบฝึกหัด จงหาคำตอบที่ดีที่สุด หรือหาค่ากำไรสูงสุด จาก
การทำเหมืองข้อมูล (Data Mining)
สื่อการสอนด้วยโปรมแกรม “Microsoft Multipoint”
การจัดเรียงข้อมูล (sorting)
โครงสร้างข้อมูลแบบ สแตก (stack)
การแบ่งแยกและเอาชนะ Divide & Conquer
L/O/G/O อาร์เรย์ และฟังก์ชั่นจัดการ สตริง. วัตถุประสงค์ เข้าใจหลักการของอาร์เรย์ และประยุกต์ใช้ งานได้ เปรียบเทียบความแตกต่างของอาเรย์แบบต่าง.
การแบ่งแยกและเอาชนะ Divide & Conquer
การทำเหมืองข้อมูล (Data Mining)
Chapter 7 Clustering อาจารย์อนุพงศ์ สุขประเสริฐ
Chapter 7 Clustering อาจารย์อนุพงศ์ สุขประเสริฐ
ใบสำเนางานนำเสนอ:

การทำเหมืองข้อมูล (Data Mining) 322475 การทำเหมืองข้อมูล (Data Mining) บทที่ 9: การวิเคราะห์การจัดกลุ่ม (Clustering Analysis) สอนโดย อาจารย์ วรารัตน์ รุ่งวรวุฒิ ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์มหาวิทยาลัยขอนแก่น

การจัดกลุ่มในการทำเหมืองข้อมูลคืออะไร Cluster : เป็นกลุ่มหรือคอเลคชัน (collection) ของวัตถุ สามารถนำมาจัดกลุ่มกันตามความเหมือน (Similarity) สามารถนำมาจัดกลุ่มกันตามความแตกต่าง (Dissimilarity or Distance) Cluster Analysis เป็นกระบวนการจัดวัตถุต่างๆ ให้อยู่กลุ่มที่เหมาะสม ซึ่งมีคุณสมบัติที่วัตถุที่อยู่ในกลุ่มเดียวกัน จะคล้ายกัน แต่มีความแตกต่างจากวัตถุในกลุ่มอื่น Clustering การจัดกลุ่มจะแตกต่างจากการแบ่งประเภทข้อมูล (Classification) โดยจะแบ่งกลุ่ม ข้อมูลจากความคล้าย โดยไม่มีการกำหนดฉลากประเภทข้อมูลไว้ก่อนหรือเราไม่ทราบจำนวน กลุ่มล่วงหน้า เป็นการเรียนรู้แบบไม่มีผู้สอน (unsupervised classification)

การวิเคราะห์การจัดกลุ่ม (Clustering Analysis) จำนวนกลุ่มเท่าไหร่ถึงจะดี? 6 กลุ่ม (Six Clusters) 2 กลุ่ม (Two Clusters) 4 กลุ่ม (Four Clusters)

What is Good Clustering? จัดกลุ่มโดยพยายามให้สิ่งที่อยู่ในกลุ่มเดียวกันมีความคล้ายคลึงกันมากที่สุด (Minimize Intra-Cluster Distances) และพยายามให้แต่ละ กลุ่มมีความแตกต่างกันมากที่สุด (Maximize Inter-Cluster Distances) Inter-cluster distances are maximized Intra-cluster distances are minimized

ประเภทของ Clustering Partitional Clustering คือการแบ่งกลุ่มอย่างชัดเจนโดยไม่มีกลุ่ม ไหนซ้อนทับกันอยู่ A Partitional Clustering Original Points

Hierarchical clustering แบบที่มีความสัมพันธ์แบบลำดับชั้น Traditional Dendrogram 1 Hierarchical Clustering#2 Traditional Dendrogram 2

Clustering Algorithms K-means clustering ** Hierarchical clustering

K-means Clustering ใช้หลักการการตัดแบ่ง (Partition) แบ่งวัตถุ n ตัวในฐานข้อมูล D ออกเป็นจำนวน k กลุ่ม (สมมติว่าเราทราบค่า k) อัลกอริทึม k-Means จะตัดแบ่งวัตถุออกเป็น k กลุ่ม โดยการแทนแต่ละ กลุ่มด้วยค่าเฉลี่ยของกลุ่ม ซึ่งใช้เป็นจุดศูนย์กลางของกลุ่มในการวัดระยะห่าง ของตัวอย่างในกลุ่มเดียวกัน

K-means Clustering Algorithm Method 1) สุ่มค่าเริ่มต้น จำนวน k ค่า เรียกว่า cluster centers (centroid); 2) ทำการหาค่าระยะห่างระหว่างข้อมูลกับจุดศูนยกลางมากที่สุด หากข้อมูล ไหนใกล้ค่าจุดศูนย์กลางตัวไหนมากที่สุดอยู่กลุ่มนั้น 3) หาค่าเฉลี่ย (Mean) แต่ละกลุ่ม ให้เป็น ค่าจุดกลาง (centroid) ใหม่ 4) กลับไปยังข้อ 2 จนกระทั้ง ค่าเฉลี่ยนในแต่ละกลุ่มจะไม่เปลี่ยนแปลง

Example: K-Mean Clustering ID X Y A1 2 10 A2 5 A3 8 4 A4 A5 7 A6 6 A7 1 A8 9

Example: K-Mean Clustering สุ่มค่าเริ่มต้น จำนวน k ค่า เรียกว่า cluster centers (centroid); สมมติ k =3 แสดงว่า c1, c2 และ c3 เป็น centroid ที่เราสุ่มขึ้นมา c1(2, 10), c2(5, 8) and c3(1, 2). c1 + c2 + c3 +

Example: K-Mean Clustering Solution: Iteration 1 Example: K-Mean Clustering หาความห่างกันระหว่างข้อมูล 2 ข้อมูล คือ หาความห่างจากข้อมูล A =(x1, y1) และ centroid =(x2, y2) distance(a, b) = |x2 – x1| + |y2 – y1| (2, 10) (5, 8) (1, 2) Point Dist Mean 1 Dist Mean 2 Dist Mean 3 Cluster A1 A2 (2, 5) A3 (8, 4) A4 A5 (7, 5) A6 (6, 4) A7 A8 (4, 9)

Example: K-Mean Clustering ขั้นตอนที่ 2 หาระยะห่างระหว่างข้อมูล กับจุดศูนย์กลาง point mean1 x1, y1 x2, y2 (2, 10) (2, 10)  distance(point, mean1) = |x2 – x1| + |y2 – y1| = |2 – 2| + |10 – 10| = 0 + 0 = 0 point mean2 x1, y1 x2, y2 (2, 10) (5, 8) distance(point, mean2) = |x2 – x1| + |y2 – y1| = |5 – 2| + |8 – 10| = 3 + 2 = 5 point mean3 x1, y1 x2, y2 (2, 10) (1, 2) distance(point, mean3) = |x2 – x1| + |y2 – y1| = |1 – 2| + |2 – 10| = 1 + 8 = 9

Example: K-Mean Clustering (2, 10) (5, 8) (1, 2) Point Dist Mean 1 Dist Mean 2 Dist Mean 3 Cluster A1 5 9 1 A2 (2, 5) A3 (8, 4) A4 A5 (7, 5) A6 (6, 4) A7 A8 (4, 9)

Example: K-Mean Clustering คำนวณหาค่าระยะห่างทุกข้อมูล point mean1 x1, y1 x2, y2 (2, 5) (2, 10)  distance(point, mean1) = |x2 – x1| + |y2 – y1| = |2 – 2| + |10 – 5| = 0 + 5 = 5 point mean2 x1, y1 x2, y2 (2, 5) (5, 8)  distance(point, mean2) = |x2 – x1| + |y2 – y1| = |5 – 2| + |8 – 5| = 3 + 3 = 6 point mean3 x1, y1 x2, y2 (2, 5) (1, 2)  distance(point, mean3) = |x2 – x1| + |y2 – y1| = |1 – 2| + |2 – 5| = 1 + 3 = 4

Example: K-Mean Clustering (2, 10) (5, 8) (1, 2) Point Dist Mean 1 Dist Mean 2 Dist Mean 3 Cluster A1 5 9 1 A2 (2, 5) 6 4 3 A3 (8, 4) A4 A5 (7, 5) A6 (6, 4) A7 A8 (4, 9)

Example: K-Mean Clustering รอบที่ 1 ได้การจัดกลุ่มข้อมูลดังต่อไปนี้ (2, 10) (5, 8) (1, 2) Point Dist Mean 1 Dist Mean 2 Dist Mean 3 Cluster A1 5 9 1 A2 (2, 5) 6 4 3 A3 (8, 4) 12 7 2 A4 10 A5 (7, 5) A6 (6, 4) A7 A8 (4, 9)

Example: K-Mean Clustering Cluster 1 Cluster 2 Cluster 3 A1(2, 10) A3(8, 4) A2(2, 5) A4(5, 8) A7(1, 2) A5(7, 5) A6(6, 4) A8(4, 9) c1 + c2 + c3 +

Example: K-Mean Clustering ขั้นตอนที่ 3 หาค่าเฉลี่ยแต่ละกลุ่ม ให้เป็น ค่าจุดกลางใหม่ สำหรับ Cluster 1 มีจุดเดียวคือ A1(2, 10) แสดงว่า C1(2,10) ยังคงเดิม สำหรับ Cluster 2 มี 5 จุดอยู่กลุ่มเดียวกัน เพราะฉะนั้นหา C2 ใหม่ ( (8+5+7+6+4)/5, (4+8+5+4+9)/5 ) = C2(6, 6) สำหรับ Cluster 3 มี 2 จุดอยู่กลุ่มเดียวกัน ( (2+1)/2, (5+2)/2 ) = C3(1.5, 3.5) Cluster 1 Cluster 2 Cluster 3 A1(2, 10) A3(8, 4) A2(2, 5) A4(5, 8) A7(1, 2) A5(7, 5) A6(6, 4) A8(4, 9)

Example: K-Mean Clustering รอบที่ 2 c1 + c2 + + c3

Example: K-Mean Clustering รอบที่ 2 (2, 10) (6, 6) (1.5, 3.5) Point Dist Mean 1 Dist Mean 2 Dist Mean 3 Cluster A1 8 7 1 A2 (2, 5) 5 2 3 A3 (8, 4) 12 4 A4 (5, 8) A5 (7, 5) 10 A6 (6, 4) A7 (1, 2) 9 A8 (4, 9)

Example: K-Mean Clustering Cluster 1 Cluster 2 Cluster 3 A1(2, 10) A3(8, 4) A2(2, 5) A8(4, 9) A4(5, 8) A7(1, 2) A5(7, 5) A6(6, 4) คำนวณจุดศูนย์กลางใหม่ C1 = (2+4/2, 10+9/2) = (3, 9.5) C2 = (6.5, 5.25) C3 = (1.5, 3.5) c1 + c2 + + c3

Example: K-Mean Clustering รอบที่ 3 Cluster 1 Cluster 2 Cluster 3 A1(2, 10) A3(8, 4) A2(2, 5) A8(4, 9) A5(7, 5) A7(1, 2) A4(5, 8) A6(6, 4) คำนวณจุดศูนย์กลางใหม่ C1 = (3.66, 9) C2 = (7, 4.33) C3 = (1.5, 3.5) c1 + + c2 + c3