งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

1 การวิเคราะห์กลุ่ม (Cluster Analysis ) โดย นางสาวจิตรลดา ทองอันตัง นายสุขสมพรอโนไท.

งานนำเสนอที่คล้ายกัน


งานนำเสนอเรื่อง: "1 การวิเคราะห์กลุ่ม (Cluster Analysis ) โดย นางสาวจิตรลดา ทองอันตัง นายสุขสมพรอโนไท."— ใบสำเนางานนำเสนอ:

1 1 การวิเคราะห์กลุ่ม (Cluster Analysis ) โดย นางสาวจิตรลดา ทองอันตัง นายสุขสมพรอโนไท

2 2 1.ความหมายของ Cluster Analysis - เป็นเทคนิคที่ใช้จำแนกหรือจัด Case (หมายถึง คน สัตว์ สิ่งของ หรือ องค์กร ฯลฯ) หรือจัดตัวแปรออกเป็นกลุ่มย่อย ๆ ตั้งแต่ 2 กลุ่มขึ้นไป Case ที่อยู่ในกลุ่มเดียวกันจะมีลักษณะที่ เหมือนกันหรือคล้ายกัน ส่วน Case ที่อยู่ต่างกลุ่มกันจะมี ลักษณะที่แตกต่างกัน - ตัวแปรอยู่ในกลุ่มเดียวกันมีความสัมพันธ์กันมากกว่าตัวแปรที่ อยู่ต่างกลุ่มกัน ตัวแปรที่อยู่ต่างกลุ่มกันมีความสัมพันธ์กันน้อย หรือไม่มีความสัมพันธ์กันเลย

3 3 Cluster Analysis จัดกลุ่มโดยพยายามให้สิ่งที่อยู่ในกลุ่มเดียวกันมีความคล้ายคลึงกัน มากที่สุด (Minimize Intra-Cluster Distances) และพยายามให้แต่ละ กลุ่มมีความแตกต่างกันมากที่สุด (Maximize Inter-Cluster Distances) Inter-cluster distances are maximized Intra-cluster distances are minimized

4 4 Cluster Analysis การวิเคราะห์เพื่อศึกษาว่าบุคคล (Cases) หรือสิ่งต่างๆ (Objects) จะ สามารถนำมาจัดกลุ่มกันตามความเหมือน (Similarity) หรือ ความแตกต่าง (Dissimilarity or Distance) ของตัวแปร (Variables) ได้กี่กลุ่ม อย่างไรบ้าง บุคคลหรือสิ่งที่มีความคล้ายคลึงกันในตัวแปรที่นำมาวิเคราะห์จะ ถูกจัดอยู่ในกลุ่ม (Cluster) เดียวกัน ส่วนบุคคลหรือสิ่งที่แตกต่างกัน ในตัวแปรจะถูกจัดอยู่คนละกลุ่มกัน

5 5 2.ข้อสมมติหรือเงื่อนไขเทคนิดการวิเคราะห์กลุ่ม 1. ไม่ทราบจำนวนกลุ่มมาก่อนว่ามีกี่กลุ่ม 2. ไม่ทราบมาก่อนว่าหน่วยไหนหรือคนใดจะอยู่กลุ่มใด 3. หน่วยหรือคนใดคนหนึ่งจะต้องอยู่กลุ่มใดกลุ่มหนึ่งเพียงกลุ่มเดียว 4. ตัวแปรที่ใช้ในการแบ่งกลุ่มมีมากกว่า 1 ตัว และตัวแปรอาจเป็นตัว แปรตัวแปรที่มีค่าได้เพียง 2 ค่า หรือเป็นตัวแปรเชิงคุณภาพ หรือตัว แปรเป็นปริมาณ

6 6 3. วัตถุประสงค์ของ Cluster Analysis เพื่อจัดกลุ่ม Case ซึ่งจะเป็นประโยชน์ในงานด้าน ต่าง ๆ เช่นการตลาด การแพทย์ การปกครอง ฯลฯ ดัง ตัวอย่างต่อไปนี้

7 7 10/7/2014 ตัวอย่างที่ 1 ใช้ศึกษาพฤติกรรมการบริโภคของกลุ่มผู้บริโภค ที่อยู่ต่างกลุ่มกัน ซึ่งจะทำให้สามารถวางกลยุทธ์ทาง การตลาดได้อย่างมีประสิทธิภาพมากขื้น การที่จะสามารถ แยกกลุ่มผู้บริโภคเป็นกลุ่มย่อยได้ จะต้องพิจารณาถึงตัวแปร ที่ใช้ในการแบ่งกลุ่มผู้บิริโภค ที่จะทำให้ผู้ที่อยู่ต่างกลุ่มกันมี พฤติกรรมการบริโภคที่แตกต่างกัน ตัวแปรดั่งกล่าวอาจ ประกอบด้วย อาชีพ อายุ รายได้ เป็นต้น

8 8 ตัวอย่างที่ 2 การเปรียบเทียบรถยนต์ยี่ห้อต่างๆ โดยที่ 1 Case คือรถยนต์ 1 ยี่ห้อซึ่งพิจารณาจากตัวแปร เช่น ความถี่ในการ ซ่อม ลูกสูบ ระบบแบรก ค่าใช้จ่ายต่อกิโลเมตรราคาเป็นต้น

9 9 ข้อสังเกต จากตัวอย่างที่ 1 ข้างต้น จะพบว่าการเลือกตัวแปรเพื่อนำมาใช้ จัดกลุ่ม Case มีความสำคัญมาก เพราะถ้าผู้วิจัยเลือกตัวแปรที่ ไม่ได้ทำ Case แตกต่างกันแล้ว จะทำให้ไม่สามารถจัดกลุ่มได้ ถูกต้อง การเลือกจะต้องพิจารณาว่าตัวแปรใดบ้างที่มีอิทธิพลทำ ให้เกิดความแตกต่าง นอกจากนั้น การจัดกลุ่มตัวแปรทำให้ทราบ ว่าตัวแปรใดบ้างที่มีความสัมพันธ์กัน การเปลี่ยนแปลงของตัว แปรบางตัวย่อมมีผลกระทบต่อตัวแปรอื่น ๆ ที่มีความสัมพันธ์กับ ตัวแปรดังกล่าว

10 10 4.การวัดความคล้าย (Similarity Measure) ดังที่ได้กล่าวมาแล้วถึงหลักเกณฑ์ของเทคนิค Cluster ว่าจะใช้ ในการจัด Case ที่คล้ายกันไว้ในกลุ่มเดียวกัน หรือจัดกลุ่มตัวแปรที่ สัมพันธ์กันไว้ในกลุ่มเดียวกัน นั่นคือ จะมีความวัดคล้ายกันของ Case ที่ ละคู่ ในกรณีที่เป็นการจัดกลุ่ม Case ส่วนการจัดกลุ่มตัวแปร การวัด ความคล้ายจะเป็นการวัดความคล้ายของตัวแปรแต่ละคู่ คือการหาค่า สัมประสิทธิ์สหสัมพันธ์ เมื่อต้องการจัดกลุ่ม Case

11 11 10/7/ การวัดค่าความต่าง ของหน่วย 2 หน่วย เช่น คน 2 คน หรือ 2 องค์กร เป็นการหาระยะห่าง ระหว่าง 2 หน่วย เช่นการศึกษา ความต่าง ของคน 2 คน (นาย ก และ นาย ข) ในด้านรายได้รายจ่าย ถ้านาย ก และ นาย ข มีความต่างกันน้อย หรือระยะห่างต่างกันน้อย หรือถ้าระยะห่าง ก และ ข มีรายได้ไกล้ศูนย์ แสดงว่า ก และ ข อยู่ใกล้กัน หรือค้ายกัน จึ่ง ควรให้นาย ก และ นาย ข อยู่ในกลุ่มเดียวกัน แต่ถ้านาย ก และ นาย จ มีความต่างกันมากหรืออยู่ห่างกันมากจึ่งมีรยะห่างมาก ก็จะจัดให้นาย ก และนาย จ อยู่คนละลุ่ม

12 12 10/7/2014 ระยะห่างยุดลิดกำลังสอง (Euclidean Distance)

13 13 ตัวอย่าง 3 การศึกษาความแตกต่างของอายุและรายได้ของนายสาวจอย และนางสาวพลอยได้ข้อมูลดังนี้ อายุ ( ปี ) รายได้ ( บาท ) จอย 207,200 พลอย 407,500 ค่าเฉลี่ย30 7,350 ค่าเบี่ยงเบนมาตรฐาน ข้อมูลดิบ การวัดความต่างของนางสาวจอย และนางสาวพลอย ในที่นี้จะใช้ระยะห่าง ยุคลิดกำลังสอง ระยะห่าง= =400+90,000=90,400

14 14 ค่าเบี่ยงเบนมาตรฐาน

15 15 อายุรายได้ จอย พลอย ค่ามาตฐานของข้อมูล

16 16 10/7/2014

17 17 10/7/2014 ระยะห่างของจอย และพลอย = ซึ่งเป็นผลจากอายุและรายได้เท่ากัน คือร้อย ละ 50 ดังนั้นก่อนใช้เทคนิคการวิเคราะกลุ่มควร ปรับหรือจำกัดหน่วยของตัวแปรที่แตกต่างกัน ออกไป ดังในตัวอย่างนี้ปรับให้เป็นค่า มาตรฐานที่ไม่มีหน่วย

18 18 10/7/ การคำนวณระยะห่างและความคล้ายของข้อมูลที่มีค่าได้เพียงสองค่า (Binary data) การวัดความคล้ายและความต่างของ 2 หน่วย หรือ 2 คน จะต้องสร้างตารางขนาด 2  2 เพื่อศึกษาความคล้าย หรือความ ต่าง การสร้างความคล้ายหรือความต่างของนาย วิน และ กัน พิ จรณาดังนี้ ตัวอย่าง 4 การวัดความสามารถด้านภาษา ถ้าพูด ภาษาอังกฤได้จะได้หมายเลข 1 ถ้าพูดไม่ได้หมายเลข 0 ตัวอย่าง เช่นถ้ามีตัวแปร 4 ตัว (X 1, X 2, X 3, X 4 )

19 19 10/7/2014 X1X1 X2X2 X3X3 X4X4 วิน 0101 กัน 1100 จากตารางจะพบว่า วิน และ กัน คล้ายกันใน X 2 และ X 3 แต่ต่างกัน X 1 และ X 4

20 20 10/7/2014 นายกันรวม 10 นาย วิน รวม 224 เช่น X A1 =

21 21 10/7/2014 ในรูปทั่วไปกรณีที่มีตัวแปร p (X 1, X 2, … X p ) ตารางความถี่ เพื่อเปรียบเทียบความคล้าย และความต่างของที่ i และ j จะเป็น หน่วยที jรวม 10 หน่วยที i 1 aba+b 0 cdC+d รวมa+cb+da+b+c+d

22 22 10/7/ ระยะห่างยุคลิดกำลังสอง (Square Euclidean Distance) 2. ระยะห่างยุคลิด (Euclidean Distance ) 4.4 การวัดความต่าง

23 การวัดความคล้าย Simple Matching เป็นการให้หนักเท่ากันกับลักษณะที่เหมือนกัน

24 24 ตัวอย่าง 5 จากการตอบถามความคิดเห็นด้วยคำถาม 6 คำถามต่อสามีภรรยา 1 คู่ โดยคำถามเป็นดั่งนี้ x1 x2x3x4x5x6 สามี ภรรยา

25 25 ภรรยา สามี รวม 1 ( เห็นด้วย )0 ( ไม่เห็นด้วย ) 1 ( เห็นด้วย ) ( ไม่เห็นด้วย )123 รวม 42 P=6 นำข้อมูลมาสร้างตารางความถี่จำแนก 2 ทาง

26 26 5. ประเภทของเทคนิค Cluster Analysis เทคนิค Cluster Analysis แบ่งเป็นหลายประเภทหรือเทคนิค ย่อย โดยเทคนิดที่ใช้กันมากมี 2 เทคนิค คือ  Hierarchical Cluster Analysis  K-Means Cluster Analysis

27 27 10/7/ เทคนิค Hierarchical Cluster Analysis เป็นเทคนิคที่ใช้กันมากในการแบ่งกลุ่ม Case หรือแบ่งกลุ่มตัวแปร โดยมีเงื่อนไขดังต่อไปนี้ 1. ในกรณีที่ใช้การแบ่ง Case นั้น จำนวน Case ไม่ต้องมากนัก (จำนวน Case ควรต่ำกว่า 200 ถ้าตั้ง 200 ขื้นไปใช้ K-Means Cluster ) และจำนวนตัวแปรไม่ต้องมากเช่นกัน 2. ไม่จำเป้นต้องทราบจำนวนกลุ่มาก่อน 3. ไม่จำเป็นต้องทราบว่าตัวแปรใด หรือ Case ใดอยู่กลุ่มใดมาก่อน

28 28 10/7/ การวิเคราะห์กลุ่มแบบขั้นตอน (Hierarchical Cluster Aalysis) การวิเคราะห์กลุ่มแบบขั้นตอน (Hierarchical Cluster Aalysis) เป็นการ ทำการแบ่งกลุ่มแบบเป็นขั้นตอน และเมื่อนำหน่วยหนึ่งไว้ในกลุ่มใด หนึ่งแล้ว จะไม่มีการย้ายหน่วยนั้นไปไว้กลุ่มอื่น ๆ อีก เช่น จัดให้นาย วิชัย อยู่กลุ่มที่ 3 ก็จะไม่มีการย้ายนายวิชัยไปอยู่กลุ่มอื่น ๆ ในขณะที่ วิธีการวิเคราะห์กลุ่มแบบไม่เป็นขั้นตอน ถ้าจัดแล้วอาจมีการย้ายกลุ่ม ได้ เช่น เดิมในตอนแรก จัดนายวิชัยในกลุ่มที่ 3 ภายหลังอาจจะย้าย นายวชัยไปกลุ่มที่ 1 หรือ 2 ( กรณีที่มี 3 กลุ่ม )

29 เทคนิค Hierarchical Cluster Analysis แบ่งเป็น 2 เทคนิคย่อยคือ 1. Agglomerative Hierarchical Cluster Analysis 2. Divisive Hierarchical Cluster Analysis สำหรับโปรแกรมสำเร็จรูปทั่วไป จะใช้เทคนิค Agglomerative Hierarchical Cluster Analysis

30 Agglomerative HierarchicalCluster Analysis เริ่มต้นจะสมมติว่ามี n กลุ่มย่อย สิ่งของ หรือ item ที่ มีระยะสั้นที่สุด หรือคล้ายกันมากที่สุดจะรวมเข้าด้วยกันเป็น กลุ่มก่อน จึงเหลือ n-1 กลุ่มย่อย จากนั้นหาระยะทางหรือ ความคล้ายจาก n – 1 กลุ่มย่อยใหม่ แล้วดูว่ากลุ่มย่อยใดมี ระยะทางสั้นที่สุด หรือคล้ายกันมากที่สุดก็รวมกลุ่มย่อยนั้นเข้า ด้วยกัน ทำเช่นนี้ต่อ ๆ ไป ในท้ายที่สุดแล้วจะมีเพียง 1 กลุ่มซึ่ง ประกอบด้วยสิ่งของ n สิ่ง

31 31 ข้อจำกัดของวิธี Agglomerative Hierarchical Cluster Analysis เนื่องจากวิธี Agglomerative Hierarchical Cluster Analysis จะ เริ่มต้นให้จำนวน case = จำนวน cluster เช่น มี n case = มี n cluster แล้วค่อย ๆ ลดจำนวน cluster ทีละ 1 โดยรวมกลุ่ม 2 cluster ที่คล้ายกันมากที่สุด หรือต่างกันน้อยที่สุดเข้าด้วยกัน จึงค่อยๆ ลดจำนวน cluster ครั้งละ 1 ดังนั้น ถ้ามี n มาก เช่น n = 1,000 คน จะต้องทำการรวมกลุ่ม 999 ครั้งโดยเริ่มจากมี 1,000 cluster แล้วลดเหลือ 999 cluster, 998 cluster เป็นเช่นนี้ไปเรื่อย ๆ จน เหลือ 1 cluster ซึ่งจะทำให้เสียเวลามาก ดังนั้นโดยทั่วไปถ้ามี จำนวน case มากว่า 200 case จึงไม่นิยมใช้เทคนิค Hierarchical Cluster

32 32 ใน Agglomerative Hierarchical Cluster Analysis จะมีวิธีที่เรียกว่า Linkage method ที่ เป็นที่รู้จักกันโดยทั่วไปมี 3 วิธีคือ 1. single linkage (หรือเรียกว่า nearest neighbor) 2. complete linkage (หรือ furthest neighbor) 3. average linkage (หรือ average distance) แนวคิดทั้ง 3 วิธีอธิบายด้วยรูปดังนี้

33 33

34 34 ชนิดของข้อมูลหรือตัวแปรที่สามารถใช้ เทคนิค Hierarchical Cluster ได้ มี 3 ประเภท คือ 1. ข้อมูลเป็นสเกลอันตรภาค (Interval scale) หรือสเกล อัตราส่วน (Ratio scale) 2. ข้อมูลที่อยู่ในรูปความถี่ (Count Data) 3. ข้อมูลอยู่ในรูป Binary นั่นคือ มีได้ 2 ค่า คือ 0 กับ 1 หรือ คุณภาพ

35 35 กรณีที่วัดความคล้ายด้วยระยะห่าง ถ้าระยะห่างระหว่าง Case คู่ใดต่ำ แสดงว่า Case คู่นั้นอยู่ใกล้กัน หรือมีความคล้ายกัน ควรจะจัดให้อยู่ในกลุ่ม หรือ Cluster เดียวกัน สำหรับวิธีการคำนวณจะขึ้นอยู่กับชนิดของ ข้อมูลทั้ง 3 ชนิดข้างต้น (Interval scale, Count Data, Binary )

36 36 กรณีที่วัดความคล้ายด้วยของ Case ถ้าค่าความคล้ายของ Case คู่ใดมีค่ามาก แสดงว่า Case คู่นั้นคล้ายกันมาก จึงควรจัด ให้อยู่ในกลุ่มเดียวกัน การคำนวณค่าความ คล้ายจะแตกต่างกัน ถ้าชนิดของข้อมูล แตกต่างกัน

37 37 กรณีที่วัดความคล้ายของตัวแปรด้วยค่า สัมประสิทธิ์สหสัมพันธ์ ถ้าตัวแปรคู่ใด มีค่าสัมประสิทธิ์สหสัมพันธ์ มาก แสดงว่าคู่นั้นสัมพันธ์กันมากควรจัดไว้ ในกลุ่มเดียวกัน

38 38 หลักเกณฑ์ในการรวมกลุ่ม 1. Between – groups Linkage หรือเรียกว่าวิธี Average Linkage Between Groups หรือเรียกกว่า UPGMA (Unweightede Pair-Group Method Using Arithmetic Average)

39 39 วิธีนี้จะคำนวณหาระยะห่างเฉลี่ยของทุก คู่ของ Case โดยที่ Case หนึ่งอยู่ใน Cluster ที่ i ส่วนอีก Case หนึ่งอยู่ใน Cluster ที่ j ถ้า Cluster ที่ i มีระยะห่างเฉลี่ยจาก Cluster ที่ j สั้นกว่าระยะห่างจากCluster อื่นจะนำ Cluster ที่ i และ j รวมกันเป็น Cluster เดียวกัน

40 40 2. Within-group Linkage Technique วิธีนี้จะรวม Cluster เข้าด้วยกัน ถ้าระยะห่าง เฉลี่ยระหว่างทุก Case ใน Cluster นั้น ๆ มีค่า น้อยที่สุด

41 41 วิธีนี้จะรวม Cluster 2 Cluster เข้าด้วยกันโดยพิจารณาจากระยะห่างที่ สั้นที่สุด โดยที่ dik เป็นระยะห่างที่สั้นที่สุดระหว่าง Cluster i และ k ในรูปจะรวม Cluster i และ j เข้าด้วยกันเพราะ dij < dik 3. Nearest Neighbor หรือเรียกว่า Single Linkage

42 42 4. Furthest Neighbor Technique หรือเรียกว่า Complete Linkage วิธีนี้จะรวม Cluster 2 Cluster เข้าด้วยกันโดยพิจารณาจากระยะห่างที่ยาวที่สุด dik = ระยะห่างที่ยาวที่สุดของ Cluster ที่ i และ k dij = ระยะห่างที่ยาวที่สุดของ Cluste ที่ i และ j ในที่นี้ dij < dik จึงรวม Cluster ที่ i และ j เข้าเป็น Cluster เดียวกัน

43 43 5. Centroid Clustering วิธีการนี้จะคำนวณหาระยะห่างระหว่าง Centroid ของ Cluster ทีละคู่ ในที่นี้ จะเรียกค่าเฉลี่ย หรือค่ากลางของแต่ละ Cluster ว่า Centroid ของ Cluster เนื่องจากการจัดกลุ่มCase จะพิจารณาจากตัวแปรหลาย ๆ ตัวพร้อม ๆ กัน จึง เรียกค่ากลางหรือค่าเฉลี่ยว่า Centroid ถ้าระยะห่างระหว่าง Centroid ของ Cluster คู่ใดต่ำจะรวม Cluster คู่นั้นเข้าเป็น Cluster เดียวกัน

44 44 6. Median Clustering วิธีนี้จะรวม Cluster 2 Cluster เข้าด้วยกัน โดยให้แต่ละ Cluster สำคัญเท่ากัน (ให้น้ำหนักเท่ากัน) ในขณะที่วิธีของ Centroid Clustering จะให้ความสำคัญแก่ Cluster มีขนาด ใหญ่มากกว่า Cluster ที่มีขนาดเล็ก (ให้น้ำหนักไม่เท่ากัน) Median Clustering จะใช้ค่า Median เป็นค่ากลางของ Centroid ถ้าระยะห่าง ระหว่างค่า Median ของ Clustering จะใช้ค่า Median เป็นค่ากลางของ Centroid ถ้าระยะห่าง ระหว่างค่า Median ของ Cluster คู่ใดต่ำจะรวม Cluster คู่นั้น เข้าด้วยกัน

45 45 7. Ward’s Method วิธีนี้จะพิจารณาจากค่า Sum of the squared within- cluster distance โดยจะรวม Cluster ที่ทำให้ค่า Sum of square within-cluster distance เพิ่มขึ้นน้อยที่สุด โดยค่า Square within-cluster distance คือค่า Square Euclidean distance ของแต่ละ Case กับ Cluster Mean

46 46 8. การพิจารณาเลือกจำนวนกลุ่มที่เหมาะสม ผลลัพธ์ของเทคนิค Cluster ไม่ได้ให้ค่าสถิติ หรือผลการ ทดสอบ สมมติฐานเพื่อให้ตัดสินใจหาจำนวนกลุ่มที่เหมาะสม ต้องพิจารณา ความเหมาะสมเอง โดยอาจใช้ระยะห่างหรือความคล้ายโดยใช้ 1) การใช้ Dendogram สำหรับ Dendogram ถ้ากำหนดระยะห่าง ระหว่างกลุ่ม เป็นหน่วยที่แตกต่างกันไปก็จะได้จำนวน Cluster ที่ แตกต่างกันไป คือยิ่งระห่างยิ่งมาก จำนวน Cluster ก็จะเพิ่มขึ้น 2) Multidimension Scaling 3) Discriminant

47 Divisive Hierarchical Cluster Analysis คือ กลุ่มที่ประกอบด้วยสิ่งของ หรือ item จำนวน n สิ่ง แบ่งออกเป็น 2 กลุ่มชนิดที่สิ่งของในกลุ่มมี ระยะทางไกลที่สุด ขั้นต่อไปก็จะมี 3 กลุ่มย่อย ทำ เช่นนี้ต่อ ๆ ไป จะเห็นว่าในท้ายที่สุดแล้วจะมี n กลุ่มย่อยซึ่งแต่ละกลุ่มย่อยประกอบด้วยสิ่งของ 1 สิ่ง

48 48 9. การวิเคราะห์กลุ่มแบบไม่เป็นขั้นตอน (Nonhierarchical Cluster Analysis หรือบางครั้ง เรียกว่า K – Means Cluster Analysis ) คือ ต้องกำหนดเองว่าจะต้องแบ่งเป็นกี่กลุ่ม เช่น k กลุ่ม จึงเรียกวิธีนี้ว่า K-Means Clustering สรุปได้ดังนี้

49 49 ขั้นตอนการจัดกลุ่มดังนี้ 1. จัดสิ่งของออกเป็น K กลุ่ม คร่าว ๆ ก่อน 2. หา Centroid (ในที่นี้คือค่าเฉลี่ย) ของแต่ละกลุ่ม เราจะจัดสิ่งของลงในกลุ่มที่อยู่ใกล้ Centroid มาก ที่สุด ในกรณีที่กลุ่มที่จัดได้ในข้อ 1. ไม่เป็นไปตาม นี้ เราต้องกลับไปเริ่มที่ข้อ 1. ใหม่ 3. กลับไปทำข้อ 2.

50 หลักการของเทคนิค K-Means Clustering เป็นเทคนิคการจำแนก Case ออกเป็นกลุ่มย่อย จะใช้เมื่อมี จำนวน Case มาก โดยจะต้องกำหนดจำนวนกลุ่ม หรือจำนวน Cluster ที่ต้องการ เช่นกำหนดให้มี k กลุ่ม เทคนิค K-Means จะ มีการทำงานหลาย ๆ รอบ (Iteration) โดยในแต่ละรอบจะมีการ รวม Cases ให้ไปอยู่ในกลุ่มใดกลุ่มหนึ่ง โดยเลือกกลุ่มที่ Case นั้นมีระยะห่างจากค่ากลางของกลุ่มน้อยที่สุด แล้วคำนวณค่า กลางของกลุ่มใหม่ จะทำเช่นนี้จนกระทั่งค่ากลางของกลุ่มไม่ เปลี่ยนแปลง หรือครบจำนวนรอบที่กำหนดไว้

51 ชนิดของตัวแปรที่ใช้ในเทคนิค K-Means Clustering ตัวแปรที่ใช้ในเทคนิค K-Means Clustering จะต้องเป็นตัวแปรเชิงปริมาณ คือ เป็นสเกล อันตรภาค (Interval Scale) หรือสเกลอัตราส่วน (Ratio Scale) โดยไม่สามารถใช้กับข้อมูลที่อยู่ใน รูปความถี่ หรือ Binary เหมือนเทคนิค Hierarchical

52 ขั้นตอนการวิเคราะห์ของวิธี K-Means มี 4 ขั้นตอนดังนี้ ขั้นที่ 1 จัดกลุ่มข้อมูลเป็น k กลุ่ม ซึ่งมีการแบ่งได้หลายวิธีดังนี้ - แบ่งอย่างสุ่ม - แบ่งด้วยผู้ศึกษาเอง ขั้นที่ 2 คำนวณหาจุดกึ่งกลางกลุ่มของแต่ละกลุ่ม เช่น จุดกลาง กลุ่มของกลุ่มที่ C คือ ขั้นที่ 3 มีวิธีการพิจารณา 2 แบบ โดยจะคำนวณ

53 53 แบบที่ 1 คำนวณหาระยะห่างจากแต่ละหน่วยไปยังจุด กลางกลุ่มของทุกกลุ่มและจะพิจารณาย้ายหน่วยไปยัง กลุ่มที่มีระยะห่างต่ำสุด แบบที่ 2 คำนวณระยะห่างกำลังสองของแต่ละหน่วยไป ยังจุดกลางกลุ่มที่หน่วยนั้นอยู่ โดยให้ ESSZ(Error Sum Square) เท่ากับระยะห่างกำลังสองของแต่ละหน่วยไปยัง จุดกลางกลุ่ม สูตรที่ใช้

54 54 ขั้นที่ 4 การพิจารณาย้ายกลุ่ม จะใช้เกณฑ์การย้ายตามค่าที่ คำนวณได้ในขั้นที่ 3 ถ้าขั้นที่ 4 ไม่มีการย้ายกลุ่มอีกแล้ว แสดงว่ากลุ่มที่ แบ่งได้นั้นเหมาะสมแล้ว แต่ถ้าในขั้นที่ 4 มีการย้ายกลุ่ม กลุ่มที่มีหน่วยย้ายเข้าหรือย้ายออกจะต้องทำการ คำนวณหาจุดกลางกลุ่มใหม่นั้นคือต้องกลับไปทำขั้นที่ 2

55 ข้อแตกต่างระหว่างเทคนิค Hierarchical กับวิธี K-Means 1. เทคนิค K-Means ใช้เมื่อมีจำนวน Case หรือจำนวน ข้อมูลมาก โดยทั่วไปนิยมใช้เมื่อ n ≥ 200 เพราะเมื่อ n มาก เทคนิค K-Means จะง่ายกว่า และใช้ระยะเวลาในการ คำนวณน้อยกว่าการใช้เทคนิค Hierarchical หรือกล่าวได้ ว่าเมื่อมีจำนวน Case ไม่มากควรใช้เทคนิค Hierarchical

56 56 2. เทคนิค K-Means นั้น ผู้ใช้จะต้องกำหนดจำนวนกลุ่มที่แน่นอนไว้ ล่วงหน้า กรณีที่ผู้วิเคราะห์ยังไม่แน่ใจว่าควรมีกี่กลุ่มจึงจะเหมาะสม ผู้ วิเคราะห์อาจจะใช้วิธีใดวิธีหนึ่งดังต่อไปนี้ - ทำการวิเคราะห์ด้วยวิธี K-Means หลาย ๆ ครั้ง แต่ละครั้งกำหนด จำนวนกลุ่ม แตกต่างกันไป เช่น เป็น 3, 4 หรือ 5 กลุ่ม แล้วพิจารณา หาจำนวนกลุ่มที่เหมาะสม แต่เมื่อมีข้อมูลมากวิธีนี้จะทำให้เสียเวลา มาก - ใช้ข้อมูลบางส่วนทำการวิเคราะห์โดยวิธี Hierarchical เพื่อหาจำนวน กลุ่มที่ควรจะเป็นจากนั้นจึงใช้เทคนิค K-Means กับข้อมูลทั้งหมดที่มี

57 57 3. เทคนิค Hierarchical นั้น ผู้วิเคราะห์จะ Standardized ข้อมูลหรือไม่ก็ได้ แต่โดยวิธี K-Means จะต้องทำการ Standardized ข้อมูลก่อนเสมอ 4. วิธี K-Means จะหาระยะห่างโดยวิธี Euclidean Distance โดยอัตโนมัติ ขณะที่ Hierarchical ผู้วิเคราะห์มีสิทธิ์ที่จะเลือกวิธีการ คำนวณระยะห่าง หรือความคล้ายได้

58 58 ข้อแตกต่างระหว่างการจำแนกกลุ่มด้วยเทคนิค Cluster Analysis และเทคนิค Discriminant Analysis Cluster Analysis 1. ไม่จำเป็นต้องทราบก่อนว่ามีกี่กลุ่ม 2. ไม่ทราบมาก่อนว่า Case ใดอยู่กลุ่มไหน 3. ไม่มีสมการแสดงความสัมพันธ์ Discriminant Analysis 1. ต้องทราบมาก่อนว่ามีกี่กลุ่ม โดยผู้วิจัยเป็นผู้จัดกลุ่มเอง และกำหนดเอง จะ มีกี่กลุ่ม 2. ทราบมาก่อนว่า Case ใดอยู่กลุ่มไหนเนื่องจากผู้วิจัยเป็นผู้จัดกลุ่มมาก่อน. 3. มีสมการแสดงความสัมพันธ์

59 59 ตัวอย่างการใช้เทคนิคต่าง ๆ ตัวอย่างการใช้เทคนิค Hierarchical Cluster ในการจัดกลุ่ม การจัดกลุ่มจังหวัด ตัวแปรที่ใช้มี 5 ตัวแปร และข้อมูลที่ใช้เป็นข้อมูลปี ผลผลิตมวลรวมของจังหวัด ปี รายได้เฉลี่ยต่อครัวเรือน ปี รายจ่ายเฉลี่ยต่อครัวเรือน ปี จำนวนเด็กเกิดใหม่ ปี จำนวนผู้เสียชีวิต ปี 2550

60 60

61 61 ตัวอย่าง ข้อมูลเกี่ยวกับเบียร์ 20 ยี่ห้อผู้วิจัยต้องการ ทราบว่าเบียร์ทัง 20 ยี่ห้อนี้จะจัดรวมกันได้อย่างไร โดยพิจารณาจากตัวแปรต่างๆต่อไปนี้ calories, sodium, alcohol, cost 10/7/2014

62 62


ดาวน์โหลด ppt 1 การวิเคราะห์กลุ่ม (Cluster Analysis ) โดย นางสาวจิตรลดา ทองอันตัง นายสุขสมพรอโนไท.

งานนำเสนอที่คล้ายกัน


Ads by Google