Chapter 3: Measures of Central Tendency and Measure of Dispersion การวัดแนวโน้มเข้าสู่ ส่วนกลางและการวัด การกระจาย
เนื้อหา: การวิเคราะห์ข้อมูล การวัดแนวโน้มเข้าสู่ส่วนกลาง การวัดตำแหน่งข้อมูล การวัดการกระจายข้อมูล ความเบ้และความโด่ง
กรณีข้อมูลเชิงปริมาณ (Quantitative data or Numerical data) Analysis of Data กรณีข้อมูลเชิงปริมาณ (Quantitative data or Numerical data)
การวัดแนวโน้มเข้าสู่ส่วนกลาง (Measures of Central Tendency) Analysis of Data - ค่าเฉลี่ย หรือ ค่ากลางเลขคณิต หรือ ค่ามัชฌิม เลขคณิต (Mean or Arithmetic Mean or Average) - มัธยฐาน (Median) - ฐานนิยม (Mode) - กึ่งพิสัย (Midrange) การวัดแนวโน้มเข้าสู่ส่วนกลาง (Measures of Central Tendency)
(Measures of Position) Analysis of Data - เปอร์เซ็นต์ไทล์(Percentile) - เดไซล์(Decile) - ควอไทล์(Qurtile) การวัดตำแหน่งข้อมูล (Measures of Position)
(Measures of Dispersion) Analysis of Data - พิสัย (Range) - ส่วนเบี่ยงเบนเฉลี่ย (Mean Deviation) - ส่วนเบี่ยงเบนควอไทล์(Quartile Deviation) - ความแปรปรวน (Variance) - ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) - สัมประสิทธิ์ของการแปรผัน (Coefficient of Variation) การวัดการกระจาย (Measures of Dispersion)
Analysis of Data Measures of Shape - ความเบ้(Skewness) - ความโด่ง (Kurtosis) Measures of Shape
การวัดแนวโน้มเข้าสู่ส่วนกลาง (Measures of Central Tendency)
Mean (Arithmetic Mean) - เป็นค่ากลางที่สำคัญ นิยมใช้มาก และนำไป ประยุกต์ในการคำนวณค่าต่าง ๆ มาก - ค่ามัชฌิมเลขคณิตเหมาะที่จะใช้กับข้อมูลที่มีการ กระจายสม่ำเสมอ - ถ้ามีข้อมูลบางตัวมีค่าสูงหรือต่ำผิดปกติไป (Extreme values) ไม่ควร วัดค่ากลางของข้อมูลด้วยค่ามัชฌิมเลขคณิต เพราะ การคำนวณค่ากลาง โดยวิธีนี้ใช้ ข้อมูลทุกตัว ซึ่งจะรวมเอาค่าที่ผิดปกติไปคำนวณด้วย
Mean (Arithmetic Mean) •ค่าเฉลี่ยประชากร (Population mean) •ค่าเฉลี่ยตัวอย่าง (Sample mean)
Mean (Arithmetic Mean) ตัวอย่าง 3.1 สุ่มข้อมูลสำหรับการหาค่าเฉลี่ยมา 2 ชุดข้อมูล ชุดที่ 1 ข้อมูลเป็นดังนี้ 1, 3, 5, 7, 9 ชุดที่ 2 ข้อมูลเป็นดังนี้ 1, 3, 5, 7, 14 •มีผลกระทบกรณีที่มีข้อมูลบางตัวผิดปกติไป Affected by extreme values (outliers)
Grouped Data ค่าเฉลี่ยประชากร (Population mean)
Grouped Data ค่าเฉลี่ยตัวอย่าง (Sample mean)
ตัวอย่าง 3.2 ข้อมูลความสูงของหญิงจำนวน 50 คน เป็นดังนี้ Range = 178 - 152 = 26 จำนวนชั้น = 6 อันตรภาคชั้น = 26/6 = 4.3 ~ 5
ตาราง 3.1 ตารางแจกแจงความถี่ Cm.
ตัวอย่าง 3.3 ข้อมูลค่าใช้จ่ายรายวันของคนงานจำนวน 80 คน เป็นดังนี้
ค่าเฉลี่ยแบบถ่วงน้ำหนัก (Weighted mean)
ตัวอย่าง 3.4 ภาคเรียนที่ 2/2561 สมศักดิ์ลงทะเบียน 5 วิชา ได้เกรด ดังนี้ วิชาสถิติ จำนวน 3 นก. ได้เกรด A วิชาภาษาอังกฤษ จำนวน 3 นก. ได้เกรด C วิชาฟิสิกส์ จำนวน 4 นก. ได้เกรด C+ วิชาคอมพิวเตอร์ จำนวน 3 นก. ได้เกรด B วิชาพลศึกษา จำนวน 1 นก. ได้เกรด A ภาคเรียนนี้ สมศักดิ์ ได้เกรดเฉลี่ยเท่าใด
ค่าเฉลี่ยรวม (Combined mean)
ตัวอย่าง 3.5 สมมติน้ำหนักเฉลี่ยของผู้ป่วยเด็กอายุต่ำกว่า 10 ปีที่เข้า รับการรักษาที่สถานีอนามัย 3 แห่ง ของ จ.มหาสารคาม ในช่วงเดือนเมษายน เป็นดังนี้ จงหาน้ำหนักเฉลี่ยของผู้ป่วยเด็กทั้งหมด
มัธยฐาน (Median) คือ ค่าของข้อมูลที่มีตำแหน่งอยู่ตรงกลางของ ข้อมูลชุดนั้น เมื่อนำข้อมูลนั้นมาจัดเรียงลำดับแล้ว ดังนั้น จะมีจำนวนข้อมูลอยู่ครึ่งหนึ่งที่น้อยกว่าค่ามัธย ฐาน และอีกครึ่งหนึ่งมากกว่ามัธยฐานนั้น
Median เป็นค่ากลางที่มีความแกร่ง (Robust measure of central tendency) ไม่ถูกกระทบกรณีที่ข้อมูลบางตัวมีค่าสูงหรือต่ำผิดปกติ ไป (Not affected by extreme values)
Ungrouped data ถ้ามีข้อมูล n ตัว และเรียงลำดับค่าข้อมูลจากน้อยไป มากแล้ว ได้ข้อมูลดังนี้ X1, X2 ,....., Xn
Grouped Data ถ้ามีข้อมูล n ตัว คือ X1, X2 ,....., Xn มัธยฐาน คือ ข้อมูลที่อยู่ในตำแหน่งที่ โดยพิจารณา จากช่องความถี่สะสม จะสามารถหาค่ามัธยฐานได้โดย ใช้ 3. วิธีการเทียบบัญญัติไตรยางศ์ หรือ 2. ใช้สูตร สูตร
ตัวอย่าง 3.6 จากตัวอย่าง 3.2 จงหาค่ามัธยฐาน ของข้อมูลดังนี้
ตัวอย่าง 3.7 จากตัวอย่าง 3.3 จงหาค่ามัธยฐาน ของข้อมูลดังนี้
ฐานนิยม (Mode) ค่าฐานนิยมเป็นข้อมูลตัวที่มีความถี่มากที่สุดหรือเกิดขึ้น บ่อยที่สุด (Value that occurs most often) ไม่ถูกกระทบกรณีที่ข้อมูลบางตัวมีค่าสูงหรือต่ำผิดปกติ ไป (Not affected by extreme values) ใช้ได้ทั้งในกรณีที่เป็นข้อมูลเชิงคุณภาพและข้อมูลเชิง ปริมาณ (Used for either numerical or categorical data) ข้อมูลบางชุดอาจไม่มีฐานนิยม หรือ บางชุดอาจมีค่า ฐานนิยมได้หลายค่า (May be no mode or several modes)
ฐานนิยม (Mode)
Ungrouped Data ข้อมูลที่มีความถี่มากที่สุด สูตร Grouped Data
ตัวอย่าง 3.8 จากตัวอย่าง 3.2 จงหาค่าฐานนิยาม ของข้อมูลดังนี้
ตารางแจกแจงความถี่เป็นดังนี้
ตัวอย่าง 3.9 จากตัวอย่าง 3.3 จงหาค่าฐานนิยม ของข้อมูลดังนี้
กึ่งพิสัย (Midrange) กึ่งพิสัย คือ ค่ากลางระหว่างข้อมูลที่มีค่าสูงสุดและค่าต่ำสุด มีผลกระทบกรณีที่มีข้อมูลบางตัวมีค่าสูงหรือต่ำผิดปกติไป Affected by extreme values (outliers)
ความสัมพันธ์ระหว่างค่าเฉลี่ยเลขคณิต มัธยฐาน และ ฐานนิยม สามารถอธิบายการแจกแจงหรือรูปร่างของข้อมูลได้ว่ามี ลักษณะเป็นอย่างไร -สมมาตรหรือเบ้ (Symmetric or skewed)
(Measures of Position) การวัดตำแหน่งข้อมูล (Measures of Position)
เปอร์เซ็นต์ไทล์ (Percentile) จุดหรือตำแหน่งที่แบ่งความถี่ทั้งหมดของข้อมูลออกเป็น 100 ส่วน เท่า ๆ กัน โดยที่ ข้อมูลชุดนั้นต้องได้รับการเรียงลำดับแล้ว เดไซล์ (Decile) จุดหรือตำแหน่งที่แบ่งความถี่ทั้งหมดของข้อมูลออกเป็น 10 ส่วน เท่า ๆ กัน โดยที่ข้อมูลชุดนั้นต้องได้รับการเรียงลำดับแล้ว ควอไทล์(Quartile) จุดหรือตำแหน่งที่แบ่งความถี่ทั้งหมดของข้อมูลออกเป็น 4 ส่วน เท่า ๆ กัน โดยที่ข้อมูลชุดนั้นต้องได้รับการเรียงลำดับแล้ว
Percentile Ungrouped Data Grouped Data
ตัวอย่าง 3.10 จากตัวอย่าง 3.2 สามารถสร้างตารางแจกแจงความถี่ได้ดังนี้
Decile Ungrouped Data Grouped Data
ตัวอย่าง 3.11 จากตัวอย่าง 3.2 สามารถสร้างตารางแจกแจงความถี่ได้ดังนี้ จงหา D2 จงหา D5, D8 (แบบฝึกหัด)
Quartile Ungrouped Data Grouped Data
ตัวอย่าง 3.12 จากตัวอย่าง 3.2 สามารถสร้างตารางแจกแจงความถี่ได้ดังนี้ จงหา Q1 จงหา Q2, Q3 (แบบฝึกหัด)
(Measures of Dispersion) การวัดการกระจาย (Measures of Dispersion)
Ungrouped Data พิสัย (Range) เป็นค่าที่พิจารณาจากความแตกต่างระหว่างค่าสูงสุดและ ค่าต่ำสุดของข้อมูล Ungrouped Data
Grouped Data พิสัย = ขีดจำกัดบนที่แท้จริงของชั้นที่มีค่าสูงสุด - ขีดจำกัดล่างที่แท้จริงของชั้นที่มีค่าต่ำสุด
พิสัย (Range) เนื่องจากพิสัยคำนวณโดยอาศัยค่าข้อมูลเพียงสองค่า คือ ค่าสูงสุดและค่าต่ำสุดของ ข้อมูลเท่านั้น และเป็นค่าวัดการผันแปร ของข้อมูลที่ ไม่สนใจการแจกแจงของข้อมูล จึงไม่นิยมใช้พิสัยวัดการกระจายของข้อมูล
พิสัยควอไทล์ (Interquartile Range) เป็นค่าวัดการกระจายของข้อมูล 50% ตรงช่วงกลาง ข้อมูลเมื่อข้อมูลนั้นได้มี การเรียงลำดับแล้ว (Spread in the middle 50%) พิจารณาจากความแตกต่างระหว่างควอไทล์ที่ 1 และควอไทล์ที่ 3 ไม่ถูกกระทบกรณีที่ข้อมูลบางตัวมีค่าสูงหรือต่ำผิดปกติ (Not affected by extreme values) Data in Ordered Array: 11 12 13 16 16 17 17 18 21 Interquartile Range = Q3 –Q1 =17.5 -12.5 = 5
ส่วนเบี่ยงเบนควอไทล์หรือ กึ่งพิสัยควอไทล์ (Quartile Deviation or Semi-Interquartile Range)
ในกรณีที่ข้อมูลมีการแจกแจงสมมาตร
Grouped Data
ความแปรปรวน (Variance) เป็นค่าวัดการกระจายที่สำคัญ เป็นค่าที่แสดงการกระจายของข้อมูลรอบค่าเฉลี่ย (mean) Ungrouped Data ความแปรปรวนของประชากร (Population variance) ความแปรปรวนของตัวอย่าง (Sample variance)
สามารถกระจายสูตรให้อยู่ในรูปที่ง่ายได้ดังนี้
Grouped Data ความแปรปรวนของประชากร (Population variance) : ความแปรปรวนของตัวอย่าง (Sample variance):
ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) เป็นค่าบวกของรากที่สองของความแปรปรวน และมีหน่วยเหมือนกับหน่วยของข้อมูล Population standard deviation: Sample standard deviation:
ตัวอย่าง 3.13 จากตัวอย่างที่ 3.2 มีข้อมูลเป็นดังนี้
สามารถสร้างตารางแจกแจงความถี่ได้ดังนี้
คำนวณหาค่าความแปรปรวน ดังนั้นค่าส่วนเบี่ยงเบนมาตรฐานจะมีค่าเป็น
สัมประสิทธิ์ของการแปรผัน (Coefficient of Variation) Measures relative variation ส่วนใหญ่จะอธิบายในรูปของเปอร์เซ็นต์ (%) แสดง ความผันแปรเทียบกับค่าเฉลี่ย (Shows variation relative to mean) เพราะว่า CV ไม่มีหน่วย จึง สามารถใช้เปรียบเทียบการกระจายของข้อมูลสองชุด หรือมากกว่าที่มีหน่วยข้อมูลต่างกันหรือข้อมูลมีขนาด ต่างกันได้
ตัวอย่าง 3.14 จงคำนวณหาค่า Comparing Coefficient of Variation จากข้อมูลดังต่อไปนี้
ตัวอย่าง 3.15 จงคำนวณหาค่า Comparing Coefficient of Variation จากตัวอย่างดังต่อไปนี้ หุ้น A: ราคาเฉลี่ยปีที่แล้ว = $50 ส่วนเบี่ยงเบนมาตรฐาน = $5 หุ้น B: ราคาเฉลี่ยปีที่แล้ว = $100 Coefficient of variation:
บางครั้ง เราอาจต้องการเปรียบเทียบค่าข้อมูลจากชุด ตัวอย่างต่าง ๆ กัน ซึ่งอาจมี หน่วยข้อมูลต่างกัน หรือ มีค่าเฉลี่ยและส่วนเบี่ยงเบน มาตรฐานต่างกัน เราสามารถ เปรียบเทียบค่าของข้อมูลต่าง ๆ ได้โดยแปลงข้อมูล นั้นให้เป็นค่ามาตรฐาน (Standardized Scores) ก่อน ดังนี้
คุณสมบัติ 3. ค่า เป็นค่าที่ไม่มีหน่วย เพราะเป็นอัตราส่วนของค่า สองค่าที่มีหน่วยเดียวกัน 2. ถ้าข้อมูลชุดหนึ่งแปลงเป็นข้อมูลค่ามาตรฐานแล้ว จะ มีค่าเฉลี่ยเท่ากับ 0 ค่า ความแปรปรวนเท่ากับ 1 เสมอ
ตัวอย่าง 3.16 นักศึกษาคนหนึ่งสอบปลายภาค วิชา คณิตศาสตร์และ ภาษาอังกฤษได้คะแนน 84 และ 90 คะแนน ตามลำดับทราบว่า คะแนนวิชาคณิตศาสตร์มีค่าเฉลี่ย 76 คะแนนและมีค่าส่วนเบี่ยงเบนมาตรฐาน 10 คะแนน คะแนนวิชาภาษาอังกฤษ มีค่าเฉลี่ย 82 คะแนนและมี ค่าส่วนเบี่ยงเบนมาตรฐาน 16 คะแนนจงพิจารณาว่า นักศึกษาคนนี้ได้คะแนนสอบวิชาใดดีกว่ากัน
Measures of Shape
Shape of a Distribution สามารถอธิบายการแจกแจงหรือรูปร่างของข้อมูลได้ว่า มีลักษณะเป็นอย่างไร - สมมาตรหรือเบ้ (Symmetric or skewed)
Exploratory Data Analysis Box-and-whisker plot เป็นกราฟแสดงลักษณะที่เกี่ยวข้องกับค่า 5 ค่า ของ ข้อมูลคือ
Distribution Shape and Box-and-Whisker Plot
ความโด่ง (Kurtosis) เป็นลักษณะความสูงของโค้งความถี่ ซึ่งส่วนมากจะ สัมพันธ์กับการแจกแจงปกติ หรือกรณีที่โค้งความถี่มีลักษณะสมมาตร