สถิติเบื้องต้นสำหรับการวิเคราะห์ข้อมูล ศจีมาจ ณ วิเชียร
สถิติสำหรับการวิเคราะห์ข้อมูล มาตราการวัด (measurement scales) สถิติเชิงบรรยาย (descriptive statistics) การแจกแจงความถี่ การวัดแนวโน้มสู่ส่วนกลาง การกระจายของข้อมูล การหาค่าสหสัมพันธ์
มาตราการวัด มาตรานามบัญญัติ (nominal scale) มาตราเรียงอันดับ (ordinal scale) มาตราอันตรภาค (interval scale) มาตราอัตราส่วน (ratio scale)
มาตรานามบัญญัติ (nominal scale) เป็นการวัดขั้นพื้นฐานที่ใช้สำหรับจัดประเภท เป็นการกำหนดชื่อให้กับวัตถุสิ่งของต่าง ๆ ที่แบ่งกันด้วยลักษณะ/คุณภาพ ตัวอย่าง การนับถือศาสนา โดยกำหนดให้ พุทธ = 1 คริสต์ = 2 อิสลาม = 3 สถิติที่ใช้ ความถี่ ร้อยละ ฐานนิยม การทดสอบไคสแควร์
มาตราเรียงอันดับ (ordinal scale) เป็นการวัดที่แสดงความเกี่ยวพันของสิ่งต่าง ๆ ที่คำนึงถึงการจัดประเภท จัดลำดับหรือตำแหน่งของสิ่งต่าง ๆ การจัดลำดับบอกทิศทางของความมากกว่าน้อยกว่าแต่ไม่สามารถบอกความละเอียดของการแตกต่างกันได้อย่างแท้จริง ตัวอย่าง อันดับเพลงยอดนิยมประจำสัปดาห์ การจัดอันดับการประกวดนางงาม สถิติที่ใช้ ความถี่ ร้อยละ ฐานนิยม มัธยฐาน เปอร์เซ็นต์ไทล์ การทดสอบไคสแควร์
มาตราอันตรภาค (interval scale) เป็นมาตราการวัดที่มีคุณสมบัติเชิงตัวเลขที่มีระยะห่างของหน่วยที่ใช้ในการวัดเท่ากัน ค่าที่ได้สามารถนำมาบวก ลบกันได้ ไม่มีศูนย์ (0) แท้ จึงนำมาเปรียบเทียบเชิงสัดส่วนไม่ได้ ตัวอย่าง อุณหภูมิ คะแนนจากการสอบ ระดับความพึงพอใจ ปี พ.ศ. สถิติที่ใช้ ค่าเฉลี่ยเลขคณิต ส่วนเบี่ยงเบนมาตรฐาน การวิเคราะห์ความแปรปรวน สหสัมพันธ์
มาตราอัตราส่วน (ratio scale) เป็นมาตรการวัดที่มีคุณสมบัติเหมือนมาตราอันตรภาค และมีจุดเริ่มต้นที่ศูนย์แท้ ซึ่งหมายความว่าที่จุดศูนย์นั้นไม่มีค่าของสิ่งนั้น ๆ อยู่เลย สามารถเปรียบเทียบเชิงสัดส่วนได้ ตัวอย่าง น้ำหนัก ส่วนสูง ระยะทาง ความเร่ง ความเร็ว สถิติที่ใช้ สถิติบรรยาย สถิติเชิงอ้างอิง
สถิติบรรยาย การแจกแจงความถี่ หมายถึงการจัดระเบียบข้อมูลหรือคะแนนดิบใหม่ แบ่งได้ 2 แบบ คือ 1. แบบเรียงคะแนนแต่ละจำนวน 58 33 33 30 29 26 29 41 40 32 59 22 32 52 46 35 25 28 33 23 20 25 42 34 29 43 41 31 30 36 คะแนน tally ความถี่ 20 / 1 22 25 // 2 ... 59
สถิติบรรยาย การแจกแจงความถี่ 2. แบบเรียงคะแนนเป็นกลุ่ม 58 33 33 30 29 26 29 41 40 32 59 22 32 52 46 35 25 28 33 23 20 25 42 34 29 43 41 31 30 36 หาพิสัย 59-20 = 39 กำหนดให้มี 5 ชั้น ความกว้างของแต่ละชั้น = 39/5=7.8 ≈ 8 คะแนน tally ความถี่ 20-27 ////// 6 28-35 ////////////// 14 36-43 ///// 5 44-51 // 2 52-59 /// 3
สถิติบรรยาย ค่าเฉลี่ยเลขคณิต (arithmetic mean: X ) ค่าที่เกิดจากการรวมกันของข้อมูลทุกตัวแล้วหารด้วยจำนวนข้อมูล 58 33 33 30 29 26 29 41 40 32 59 22 32 52 46 35 25 28 33 23 20 25 42 34 29 43 41 31 30 36 X = 34.56 สูตร Mean = 5 0 1 2 3 4 5 6 7 8 9 10
สถิติบรรยาย มัธยฐาน (median: Mdn) ค่าที่อยู่กึ่งกลางหรือตรงกลางของตัวเลขที่เรียงลำดับ 20 22 23 25 25 26 28 29 29 29 30 30 31 32 32 33 33 33 34 35 36 40 41 41 42 43 46 52 58 59 สูตร 0 1 2 3 4 5 6 7 8 9 10 Median = 5
สถิติบรรยาย ฐานนิยม (mode: Mo) ค่าที่มีความถี่สูงสุดหรือค่าที่เกิดบ่อยครั้งที่สุด ข้อมูลบางชุดอาจมีฐานนิยมมากกว่า 1 ค่า หรือไม่มีฐานนิยมก็ได้ ตัวอย่าง 58 33 33 30 29 26 29 41 40 32 59 22 32 52 46 35 25 28 33 23 20 25 42 34 29 43 41 31 30 36 Mo = 33 สูตร 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Mode = 8 No Mode
Trimmed Mean กรณีที่ข้อมูลที่ผิดปกติมาก เช่น : 30 50 65 90 120 125 1500 Mean : 282.85 Median : 90 Trimmed Mean : 50+65+90+120+125/5 = 90
การวัดการกระจายของข้อมูล พิสัย (range) ผลต่างระหว่างข้อมูลที่มีค่าสูงสุดกับข้อมูลที่มีค่าต่ำสุดของข้อมูลชุดนั้น ตัวอย่าง 10 13 14 17 20 สูตร 7 8 9 10 11 12 Range = 12 - 7 = 5
คุณสมบัติของพิสัย พิสัยเป็นมาตราการวัดที่คำนวณง่าย แต่ไม่ละเอียด คำนวณจากข้อมูลเพียง 2 ตัว คือค่าสูงสุดและค่าต่ำ สุด ดังนั้นข้อมูลของสมาชิกจึงไม่เกี่ยวข้อง ชุด A : 20 30 90 75 120 80 55 120 11 14 21 17 20 15 ชุด B :
การวัดการกระจายของข้อมูล ส่วนเบี่ยงเบนมาตรฐาน (standard deviation) รากที่สองของกำลังสองเฉลี่ยของส่วนเบี่ยงเบนระหว่างค่าของข้อมูลแต่ละตัวกับค่าเฉลี่ยเลขคณิตของข้อมูลชุดนั้น สัญลักษณ์ SD, S.D., S, sd, สูตร
SD
Standard Deviations s = 3.338 s = .9258 s = 4.57 Data A Mean = 15.5 11 12 13 14 15 16 17 18 19 20 21 Data B Mean = 15.5 s = .9258 11 12 13 14 15 16 17 18 19 20 21 Data C Mean = 15.5 s = 4.57 11 12 13 14 15 16 17 18 19 20 21
การวัดการกระจายของข้อมูล ความแปรปรวน (variance) ค่ากำลังสองของส่วนเบี่ยงเบนมาตรฐาน สัญลักษณ์ SD2, S.D.2, S2, sd2, 2 สูตร
การหาความสัมพันธ์ (Correlation) เป็นการศึกษาความสัมพันธ์ระหว่างข้อมูลตั้งแต่ 2 ชุดขึ้น ไปว่ามีความสัมพันธ์กันหรือไม่ หลักความสัมพันธ์ : ถ้าข้อมูลอยู่ในมาตรนามบัญญัติ หรือมาตราเรียงลำดับ ซึ่งเป็น ข้อมูล Discrete Data ถ้าข้อมูลอยู่ในมาตราอันตรภาค หรือมาตรการวัดอัตราส่วน ซึ่งเป็น ข้อมูล Continuous Data Crosstab Chi-square Correlation
with Various Correlation Coefficients Scatter Plots of Data with Various Correlation Coefficients Y X X r = -1 r = -.6 r = 0 Y Y X X r = .6 r = 1
ค่าสหสัมพันธ์