ดร.นพ.วรสิทธิ์ ศรศรีวิชัย มูลนิธิสุขภาพภาคใต้ แผนงานระบบข้อมูลข่าวสารเพื่อความปลอดภัยทางถนน Road Safety Information System (RSIS) www.RSISthai.net การวิเคราะห์ข้อมูล ดร.นพ.วรสิทธิ์ ศรศรีวิชัย มูลนิธิสุขภาพภาคใต้
Reference: รศ.ดร.บัณฑิต ถิ่นคำรพ Workbook of Statistics
การวิเคราะห์ข้อมูลทางสถิติ สถิติเชิงพรรณนา Descriptive statistics สถิติเชิงเปรียบเทียบ Comparative statistics สถิติเชิงความสัมพันธ์ Associative statistics
สถิติเชิงพรรณนา Descriptive Statistics
ค่ากลาง สถิติที่นิยมใช้อธิบายค่ากลาง เช่น ค่าเฉลี่ย (Mean) ค่ามัธยฐาน (Median) ค่าฐานนิยม (Mode)
ค่าเฉลี่ย (Mean) ค่าเฉลี่ย (Mean) ใช้กับข้อมูลต่อเนื่อง (Continuous variable) ที่มีการกระจายแบบปกติ (Normal distribution) โดยการนำเอาค่าของข้อมูลแต่ละตัวมารวมกันแล้วหารด้วยจำนวนข้อมูลทั้งหมด
ค่ามัธยฐาน (Median) ค่ามัธยฐาน (Median) ใช้กับข้อมูลที่มีการกระจายแบบไม่ปกติ (Not normal distribution) เป็นค่าของข้อมูลที่อยู่กึ่งกลางของข้อมูลทั้งหมดหลังจากเรียงลำดับข้อมูลจากน้อยไปมากหรือจากมากไปน้อย ตัวอย่าง จงหาค่ามัธยฐานของข้อมูล 3, 7, 19, 25, 12, 18, 10 วิธีทำ เรียงข้อมูลจากน้อยไปมากได้ 3, 7, 10, 12, 18, 19, 25 ข้อมูลมีทั้งหมด 7 ตัว เมื่อเรียงลำดับข้อมูลแล้วตัวเลขที่อยู่ตำแหน่งตรงกลาง คือ ตัวเลขตำแหน่งที่ 4 = (จำนวนข้อมูลทั้งหมด + 1)/2) ดังนั้นมัธยฐานจึงมีค่าเท่ากับ 12
ค่าฐานนิยม (Mode) ค่าฐานนิยม (Mode) เป็นค่าของข้อมูลที่มีความถี่สูงสุดในชุดข้อมูลนั้น ค่าฐานนิยมใช้เป็นค่ากลางได้กับข้อมูลทุกประเภท ตัวอย่าง จงหาฐานนิยมของข้อมูลชุดนี้ 3, 2, 5, 3, 3, 3, 3, 3, 3, 5 วิธีทำ ข้อมูลมี 2 จำนวน 1 ค่า มี 3 จำนวน 7 ค่า มี 5 จำนวน 2 ค่า ดังนั้น ฐานนิยมของข้อมูล คือ 3
การกระจาย สถิติที่นิยมใช้อธิบายการกระจายของข้อมูล เช่น ค่าเบี่ยงเบนมาตรฐาน (Standard deviation, SD) พิสัย (range) ค่าพิสัยระหว่างควอไทล์ (interquartile range, IQR)
ค่าเบี่ยงเบนมาตรฐาน ค่าเบี่ยงเบนมาตรฐาน (Standard deviation, SD) เป็นการอธิบายดูการกระจายของข้อมูลต่อเนื่อง
พิสัย (range) พิสัย (range) เป็นการอธิบายการกระจายที่ง่ายที่สุด ใช้แสดงลักษณะการกระจายของข้อมูลอย่างหยาบๆ โดยหาความแตกต่างของข้อมูลสูงสุดและต่ำสุดของกลุ่ม ตัวอย่าง ข้อมูลคือ 10, 12, 15, 18 และ 20 วิธีทำ พิสัย = 20 - 10 = 10
พิสัย (range) ข้อมูลที่มีพิสัยกว้าง แสดงว่ามีการกระจายของข้อมูลมาก แต่ค่าพิสัยที่คำนวณจากข้อมูลที่มีค่าสูงหรือต่ำผิดปกติอยู่ในชุดข้อมูลจะทำให้พิสัยไม่สามารถสะท้อนการกระจายที่แท้จริง พิสัยใช้ได้กับทั้งข้อมูลลำดับและข้อมูลต่อเนื่อง และเหมาะสมสำหรับการวัดการกระจายของข้อมูลจำนวนน้อยๆ เพราะง่ายต่อการคำนวณ
เปอร์เซ็นไทล์ (percentile) เปอร์เซ็นไทล์ (percentile) เป็นการแบ่งข้อมูลออกเป็น 100 ส่วนเท่าๆ กัน โดยตำแหน่งที่แบ่งมี 99 ค่า คือ P1 P2 P3 ... P99 โดยมัธยฐาน = P50 Pi =i = ตำแหน่งของเปอร์เซ็นไทล์ n = จำนวนข้อมูลทั้งหมด
ควอไทล์ (Quartile) ควอไทล์ (Quartile) เป็นการแบ่งข้อมูลออกเป็น 4 ส่วนเท่าๆ กัน โดยตำแหน่งที่แบ่งมี 3 ค่าคือ Q1 Q2 Q3 ควอไทล์ที่ 1 (Q1) คือ จำนวนที่แบ่งข้อมูลออกเป็น 25% ที่มีค่าน้อยกว่าและ 75% ที่มีค่ามากกว่า (P25) ควอไทล์ที่ 2 (Q2) คือ ค่ามัธยฐาน ควอไทล์ที่ 3 (Q3) คือ จำนวนที่แบ่งข้อมูลเป็น 75% ที่มีค่าน้อยกว่า และ 25% ที่มีค่ามากกว่า (P75) i = ตำแหน่งของควอไทล์ n = จำนวนข้อมูลทั้งหมด
ค่าพิสัยระหว่างควอไทล์ ค่าพิสัยระหว่างควอไทล์ (interquartile range, IQR) เป็นวัดการกระจายของข้อมูลด้วยผลต่างระหว่างควอไทล์ที่ 3 และควอไทล์ที่ 1 ตัวอย่าง ข้อมูลอายุ 10 คน = 6 17 25 31 41 48 48 70 88 92 วิธีทำ ค่าพิสัยระหว่างควอไทล์ (IQR) = Q3-Q1 = 70-25 = 45 (25, 70) ค่าพิสัยระหว่างควอไทล์ใช้อธิบายขอมูลลำดับและข้อมูลต่อเนื่อง ซึ่งจะแสดงให้เห็นว่า ร้อยละ 50 ของข้อมูลที่อยู่ตรงกลางมีช่วงห่างเท่าใด
สถิติเชิงเปรียบเทียบ Comparative Statistics
การเปรียบเทียบข้อมูล การเปรียบเทียบข้อมูลแบ่งเป็น 2 ประเภท การเปรียบเทียบข้อมูลชนิดตัวแปรต่อเนื่อง การเปรียบเทียบข้อมูลชนิดตัวแปรกลุ่ม
Reference: รศ.ดร.บัณฑิต ถิ่นคำรพ Workbook of Statistics
Reference: รศ.ดร.บัณฑิต ถิ่นคำรพ Workbook of Statistics
การเลือกใช้สถิติ (ต่อ) ตัวอย่าง 1: การเปรียบเทียบ ความเร็ว ในการขับรถของคนขับรถ เพศชาย และ เพศหญิง ใช้สถิติ 2 sample t-test เพื่อทดสอบว่าความแตกต่างของ ความเร็ว เกิดขึ้นเพราะโอกาส (chance) จากการสุ่มหรือไม่
การเลือกใช้สถิติ (ต่อ) 100 หญิง VS ชาย ใครขับ เร็ว กว่ากัน? N = 10,000 nญ1 = 100 Mean ญ1 = 40 nช1 = 100 100 nญ2 = 100 Mean ช1 = 100 100 Mean ญ2 = 130
การเลือกใช้สถิติ (ต่อ) ตัวอย่าง 2: การประเมินผลโครงการรณรงค์ส่งเสริมการไม่ขับรถเร็วเกินกำหนด ประกอบด้วยตัวแปร กลุ่มการรณรงค์ (Group) คือ การรณรงค์ด้วยสื่อมวลชน (Group = 1) การรณรงค์ด้วยมาตรการองค์กร (Group = 2) ความเร็ว ที่วัดในช่วง: ก่อนดำเนินการรณรงค์ 1 เดือน (PreSpeed) หลังดำเนินการรณรงค์ 1 เดือน (PostSpeed)
การเลือกใช้สถิติ (ต่อ) คำถามย่อย 1: หลังจากรณรงค์ไปแล้ว 1 เดือน ความเร็ว ของกลุ่มตัวอย่างที่ได้รับการรณรงค์ด้วยสื่อมวลชน จะแตกต่างไปจากกลุ่มที่ได้รับการรณรงค์ด้วยมาตรการองค์กร หรือไม่? ใช้สถิติ 2 sample t-test for independent samples เพื่อทดสอบว่าความแตกต่างของ ความเร็ว ใน 2 กลุ่มที่การรณรงค์ต่างกัน เกิดขึ้นเพราะโอกาส (chance) จากการสุ่มหรือไม่
การเลือกใช้สถิติ (ต่อ) คำถามย่อย 2: ความเร็วของกลุ่มตัวอย่างหลังจากผ่านการรณรงค์ไปแล้ว 1 เดือน จะแตกต่างไปจาก ความเร็วก่อนการรณรงค์ หรือไม่? ใช้สถิติ paired t-test for dependent samples เพื่อทดสอบว่าความแตกต่างของ ความเร็ว ในกลุ่มเดียวกันก่อนและหลังการรณรงค์ เกิดขึ้นเพราะโอกาส (chance) จากการสุ่มหรือไม่
การเลือกใช้สถิติ (ต่อ) ตัวอย่าง 3 การศึกษาผลของ ลักษณะงาน (Group) ของพนักงานโรงงาน 3 กลุ่มที่มีสภาพการทำงานแตกต่างกัน ว่าจะมี ความรู้ในการขับรถ (Knowledge) แตกต่างกันหรือไม่ ใช้สถิติ ANOVA เพื่อทดสอบว่า ความรู้ในการขับรถ ในพนักงานที่มี สภาพการทำงานแตกต่างกัน 3 กลุ่ม เกิดขึ้นเพราะโอกาส (chance) จากการสุ่มหรือไม่
การเลือกใช้สถิติ (ต่อ) ตัวอย่าง 4 การประเมินประสิทธิผลในการรณรงค์การไม่ขับรถเร็วเกินกำหนด โดยดูจาก ความเร็วที่วัดในช่วงหลังดำเนินการรณรงค์ 1 เดือน (PostSpeed) กับ คะแนนความรู้ในการขับรถ (Knowledge) ว่าตัวแปรทั้งสองนี้มีความสัมพันธ์กันหรือไม่ อย่างไร ใช้สถิติ Pearson Correlation เพื่อทดสอบและหาระดับความสัมพันธ์ของ ความเร็ว (PostSpeed) กับ ความรู้ (Knowledge)
สถิติเชิงความสัมพันธ์ Associative Statistics
สถิติเชิงความสัมพันธ์ ใช้ในการหาความสัมพันธ์ระหว่างตัวแปร 2 ตัวหรือมากกว่า ช่วยให้สามารถทำนายค่าของตัวแปรหนึ่งจากอีกตัวแปรหนึ่งได้ เช่น ความสัมพันธ์ระหว่าง การบังคับใช้กฎหมายการสวมหมวกนิรภัย กับ การบาดเจ็บที่ศีรษะ โดยความสัมพันธ์ระหว่างตัวแปรที่ควรพิจารณา คือ การทดสอบความสัมพันธ์ระหว่างตัวแปร การหาขนาดความสัมพันธ์ระหว่างตัวแปร
การทดสอบความสัมพันธ์ระหว่างตัวแปร วิเคราะห์โดยใช้ตารางไขว้ (Cross tabulation) ในการสรุปความสัมพันธ์ระหว่าง 2 ตัวแปรที่เป็นตัวแปรกลุ่ม ตารางแสดงความสัมพันธ์ระหว่างตัวแปรอาจมีขนาดต่างๆ ขึ้นอยู่กับจำนวนกลุ่มของตัวแปรแต่ละตัว ในด้านวิทยาศาสตร์สุขภาพส่วนใหญ่เป็นความสัมพันธ์ระหว่าง การเกิดโรค กับปัจจัยการเกิดโรค ตัวแปรผล/ตัวแปรตาม มักแบ่งเป็น 2 กลุ่ม คือ เป็นโรค หรือ ไม่เป็นโรค ตัวแปรปัจจัย/ตัวแปรต้น มักแบ่งเป็น 2 กลุ่ม คือ มีปัจจัยเสี่ยง หรือ ไม่มีปัจจัยเสี่ยง ผลการศึกษาจึงแสดงอยู่ในรูปตาราง 2 x 2 แล้วทดสอบความสัมพันธ์ด้วยสถิติ Chi square (X2) หรือ Fisher’s exact test
การหาขนาดความสัมพันธ์ระหว่างตัวแปร Risk ratio (RR) เป็นสถิติที่ใช้บอกขนาดความแตกต่างของอัตราการเกิดโรคใน กลุ่มที่ได้รับปัจจัยเสี่ยง ว่ามีจำนวนเป็นกี่เท่าของ กลุ่มที่ไม่ได้รับปัจจัยเสี่ยง Odds ratio (OR) เป็นการเปรียบเทียบอัตราส่วนของการเป็นโรคและไม่เป็นโรคใน กลุ่มที่ได้รับปัจจัยเสี่ยง และ ไม่ได้รับปัจจัยเสี่ยง
Risk Ratio (RR) เป็นสถิติที่ใช้บอกขนาดความแตกต่างของอัตราการเกิดโรคใน กลุ่มที่ได้รับปัจจัยเสี่ยง ว่าเป็นกี่เท่าของ กลุ่มที่ไม่ได้รับปัจจัยเสี่ยง RR = อัตราการเกิดโรคในกลุ่มที่ได้รับปัจจัยเสี่ยง อัตราการเกิดโรคในกลุ่มที่ไม่ได้รับปัจจัยเสี่ยง การแปลผล คือ RR > 1 กลุ่มได้รับปัจจัยเสี่ยงเสี่ยงกว่า RR < 1 กลุ่มไม่ได้รับปัจจัยเสี่ยงเสี่ยงกว่า RR = 1 ทั้งกลุ่มได้หรือไม่ได้รับปัจจัยเสี่ยงเสี่ยงเท่ากัน
Risk Ratio (RR) (ต่อ) การคำนวณค่า RR จากสัดส่วนของการเกิดโรคจะต้องทราบจำนวนคนที่ได้รับหรือไม่ได้รับปัจจัยเสี่ยง แล้วติดตามคน 2 กลุ่มดังกล่าวเพื่อคำนวณอัตราการเกิดโรคที่แท้จริง ทำให้ RR ใช้ได้กับข้อมูลจากการศึกษาแบบมีกลุ่มติดตามผล (cohort study) หรือการทดลองเท่านั้น ส่วนข้อมูลที่ไม่สามารถหาอัตราการเกิดโรคที่แท้จริงได้ จะหาขนาดความสัมพันธ์ด้วย Odds ratio
Risk Ratio (RR) (ต่อ) ตัวอย่าง หาค่า RR จากตารางด้านล่าง เพื่อดูขนาดของความสัมพันธ์ จากผลการคำนวณได้ค่า RR = [10/(10+40)] / [2/(2+48)] = 5 แสดงว่า คนที่ทำงานซ่อมเครื่องยนต์ จะมีโอกาสเกิดอุบัติเหตุทางถนนเป็น 5 เท่า ของ คนที่ทำงานสำนักงาน ลักษณะงาน อุบัติเหตุทางถนน เกิด ไม่เกิด รวม ทำงานซ่อมเครื่องยนต์ 10 40 50 ทำงานสำนักงาน 2 48 12 88 100 อัตรา คือ สัดส่วน คือ ตัวหารคือทั้งหมด , อัตราส่วน ก็คือ : ต่อ กลุ่ม1/กลุ่ม2
Odds Ratio (OR) เป็นการเปรียบเทียบอัตราส่วนของการเป็นโรคและไม่เป็นโรคใน กลุ่มที่ได้รับปัจจัยเสี่ยง และ ไม่ได้รับปัจจัยเสี่ยง OR = อัตราส่วนการเป็นโรคและไม่เป็นโรคในกลุ่มที่ได้รับปัจจัยเสี่ยง อัตราส่วนการเป็นโรคและไม่เป็นโรคในกลุ่มที่ไม่ได้รับปัจจัยเสี่ยง การแปลผล OR > 1 โอกาสเป็นโรคในกลุ่มที่ได้รับปัจจัยเสี่ยงสูงกว่า OR < 1 โอกาสเป็นโรคในกลุ่มที่ไม่ได้รับปัจจัยเสี่ยงสูงกว่า OR = 1 ได้หรือไม่ได้รับปัจจัยเสี่ยงโอกาสเป็นโรคเท่ากัน อัตรา คือ สัดส่วน คือ ตัวหารคือทั้งหมด , อัตราส่วน ก็คือ : ต่อ กลุ่ม1/กลุ่ม2
Odds Ratio (OR) (ต่อ) ตัวอย่างเมื่อ 2 กลุ่มเป็นอิสระต่อกัน การศึกษาการวิจัยเชิงวิเคราะห์แบบภาคตัดขวาง (cross-sectional analytical study) เพื่อดูว่าการเกิด อุบัติเหตุทางถนน ของผู้ชายวัยทำงานมีความสัมพันธ์กับ อายุ หรือไม่ กลุ่มอายุ (ปี) อุบัติเหตุทางถนน เกิด ไม่เกิด รวม 20-40 15 65 80 41-60 5 115 120 20 180 200
Odds Ratio (OR) (ต่อ) กลุ่มอายุ (ปี) อุบัติเหตุทางถนน เกิด ไม่เกิด รวม 20-40 15 65 80 41-60 5 115 120 20 180 200 คำนวณค่า OR ในกรณีที่ประชากรทั้ง 2 กลุ่มเป็นอิสระต่อกัน OR = (15/65)/(5/115) = 5.3 จากค่า OR ได้แสดงว่าค่าโอกาสของการเกิด อุบัติเหตุทางถนน ของผู้ชาย กลุ่มอายุ 20-40 ปี สูงเป็น 5.3 เท่าของ กลุ่มอายุ 41–60 ปี
Odds Ratio (OR) (ต่อ) ตัวอย่างเมื่อ 2 กลุ่มไม่เป็นอิสระต่อกัน การศึกษาว่าผู้ชายที่ ดื่มเหล้า มีโอกาสเกิด อุบัติเหตุทางถนนมากกว่าผู้ชายที่ ไม่ดื่มเหล้า หรือไม่ ออกแบบงานวิจัยเป็นแบบกลุ่มผู้ป่วย–ไม่ป่วยที่ถูกจับคู่ด้วยอายุและเพศ (Matched case-control study) มีผลการศึกษาดังนี้ กลุ่มเกิดอุบัติเหตุทางถนน ดื่ม ไม่ดื่ม รวม กลุ่มไม่เกิดอุบัติเหตุทางถนน (กลุ่มควบคุม/Control) ดี่ม 2 3 5 ไม่ดี่ม 10 25 35 12 28 40
Odds Ratio (OR) (ต่อ) กลุ่มเกิดอุบัติเหตุทางถนน ดื่ม ไม่ดื่ม รวม กลุ่มไม่เกิดอุบัติเหตุทางถนน (กลุ่มควบคุม/Control) ดี่ม 2 3 5 ไม่ดี่ม 10 25 35 12 28 40 คำนวณค่า OR ในกรณีที่ประชากรทั้ง 2 กลุ่มไม่เป็นอิสระต่อกัน OR = 10/3 = 3.3 ไม่เข้าใจ
ความสัมพันธ์ระหว่าง RR กับ OR ในกรณีที่มีอัตราการเกิดโรคต่ำๆ เช่น < ร้อยละ 5 ค่า a จะเล็กมากเมื่อเทียบกับค่า b และค่า c จะเล็กมากเมื่อเทียบกับค่า d จึงทำให้สัดส่วนการเป็นโรค (RR) มีค่าใกล้เคียงกับค่าอัตราส่วนของการเป็นโรค (OR) ดังนั้นจึงสามารถแปรผล OR ได้เหมือนกัน RR RR = (2/100) / (8/900) = 2.25 VS OR = (2/98) / (8/892) = 2.28 ปัจจัย อุบัติเหตุทางถนน เกิด ไม่เกิด รวม มี 2 (a) 98 (b) 100 (a+b) ไม่มี 8 (c) 892 (d) 900 (c+d) 10 (a+c) 990 (b+d) 1,000 (a+b+c+d)