รายวิชาชีวสถิติ (Biostatistics) 403-31-15 ผศ.ดร.จุมพต พุ่มศรีภานนท์ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยเทคโนโลยีราชมงคลสุวรรณภูมิ
คำอธิบายรายวิชาชีวสถิติ (Biostatistics) 403-31-15 ศึกษาเกี่ยวกับข้อมูลและตัวอย่างข้อมูลทางชีววิทยา การประยุกต์วิชาสถิติ เพื่อนำมาใช้ในการวิเคราะห์ข้อมูลทางชีววิทยา การหาสถิติมูลฐานเกี่ยวกับข้อมูล การวิเคราะห์ข้อมูลด้วยวิธีการทางสถิติ การทดสอบไคสแคว์ สหสัมพันธ์ การ ถดถอยเชิงเส้นและการวิเคราะห์ความแปรปรวน การวัดการกระจาย สถิติที่ไม่ใช้พารามิเตอร์ และการใช้โปรแกรมสำเร็จรูป
บทนำ ความหมายของวิชาชีวสถิติ เป็นสาขาวิชาที่ประยุกต์วิธีการของสถิติมาใช้ในทางวิทยาศาสตร์ชีวภาพ และยังมีการประยุกต์เฉพาะในทางการแพทย์และเกษตรกรรม
บทนำ ความหมายของสถิติ คำว่า สถิติ (Statistics) มาจากภาษาเยอรมันว่า Statistik มีรากศัพท์มาจาก Stat หมายถึง ข้อมูล หรือ สารสนเทศ ซึ่งจะอำนวยประโยชน์ต่อการบริหารประเทศในด้านต่างๆ เช่น การทำสำมะโนครัว เพื่อทราบพลเมืองในประเทศทั้งหมด ต่อมา สถิติ หมายถึงตัวเลขหรือข้อมูลที่ได้จากการเก็บรวบรวม เช่น จำนวนผู้ประสบอุบัติเหตุ บนท้องถนน อัตราการเกิดของ เด็กทารก ปริมาณน้ำฝนในแต่ละปี สถิติในความหมายนี้ เรียกว่าข้อมูลทางสถิติ (Statistical data) อีกความหมายหนึ่ง สถิติ หมายถึงวิธีการที่ว่าด้วยการเก็บรวบรวมข้อมูล การนำเสนอข้อมูล การวิเคราะห์ข้อมูล และการตีความหมายข้อมูล
ประเภทของสถิติ 1.สถิติพรรณนา (Descriptive Statistics)เป็นสถิติที่ที่ว่าด้วยการเก็บรวบรวมและการแจกแจงข้อมูล สถิติที่อยู่ในประเภทนี้ เช่น ค่าเฉลี่ย ค่ามัธยฐาน ค่าฐานนิยม ส่วนเบี่ยงเบนมาตรฐาน พิสัย ฯลฯ และอาจแสดงผลด้วย แผนภูมิ กราฟ ตาราง ฯลฯ 2. สถิติอ้างอิง (Inferential Statistics)หรือสถิติอ้างอิงเป็นสถิติที่ใช้อธิบายคุณลักษณะของสิ่งที่ต้องการศึกษากลุ่มใดกลุ่มหนึ่งหรือ หลายกลุ่มแล้วสามารถอ้างอิงไปยังกลุ่มประชากรได้ โดยกลุ่มที่นำมาศึกษาจะต้องเป็นตัวแทนที่ดีของประชากร ตัวแทนที่ดีของประชากรได้มาโดยวิธีการสุ่มตัวอย่าง และตัวแทนที่ดีของประชากรเรียกว่ากลุ่มตัวอย่าง (sample) สำหรับกลุ่มข้อมูลที่เราสนใจทั้งหมดเรียกว่า กลุ่มประชากร (population)
นิยามศัพท์พื้นฐาน กลุ่มประชากร และ กลุ่ม ตัวอย่าง - กลุ่มประชากร หมายถึงกลุ่มของทุกสิ่งที่นักวิจัยสนใจ อาจเป็นสิ่งมีชีวิต หรือ สิ่งไม่มีชีวิตก็ได้ ในทางสถิติประชากรไม่ได้หมายถึงประชาชนทุกคนหรือทุกหน่วยของกลุ่ม แต่หมายถึง กลุ่มของทุกอย่างที่นักวิจัยสนใจ เช่น ถ้านักวิจัยสนใจ “โอกาสเน่าเสียของอาหารทะเลกระป๋องจากแบคทีเรีย” ในที่นี้ กลุ่มประชากรจะหมายถึง “อาหารทะเลกระป๋องทุกประเภท” เป็นต้น
นิยามศัพท์พื้นฐาน (ต่อ) กลุ่มตัวอย่าง (sample) คือบางส่วนของกลุ่มประชากรที่สามารถใช้เป็นตัวแทนของกลุ่มประชากรได้ เช่น นักวิจัยต้องการสำรวจหาสายพันธุ์ของจุลินทรีย์ที่ย่อยสลายพลาสติกได้ในประเทศไทย เพื่อนำไปใช้ประโยชน์ และเก็บตัวอย่างจุลินทรีย์จากบริเวณที่พลาสติกมีการย่อยสลายจากที่ต่างๆ เป็นระยะเวลา 1 ปี จุลินทรีย์ที่อยู่ในที่ต่างๆ ที่นักวิจัยเก็บมาเหล่านี้ เรียกว่า “ กลุ่มตัวอย่าง” ซึ่งเป็นกลุ่มย่อยของจุลินทรีย์ทุกสายพันธุ์จากทุกที่ในประเทศไทย ซึ่ง เป็นกลุ่มประชากร (population)
แผนภาพเปรียบเทียบกลุ่มประชากร และ กลุ่มตัวอย่าง ค่าที่ได้จากกลุ่มประชากร เรียกว่า พารามิเตอร์ (parameter) ค่าที่ได้จากกลุ่มตัวอย่างเรียกว่า ค่าสถิติ (statistics)
นิยามศัพท์พื้นฐาน (ต่อ) ข้อมูล (data) หมายถึง ค่าต่างๆที่ได้จากการสำรวจ หรือ ทดลอง อาจ เป็นค่าเชิงตัวเลข (numerical หรือ quantitative data) เช่น น้ำหนัก ส่วนสูง อายุ ความกว้าง ความยาว ความดันโลหิต ฯลฯ หรือ 2. เป็นค่าเชิงคุณภาพ (non-numerical หรือ qualitative data) เช่น กลิ่น รส รูปร่าง ฯลฯ ก็ได้
จำแนกประเภทของข้อมูลตามพื้นฐานของเวลา ในการเก็บข้อมูล ข้อมูลภาคตัดขวาง (cross-section data) เช่น ชนิดของหอยน้ำจืด จำนวน (ตัว) หอยโข่ง 36 หอยขม 346 หอยทราย 69 หอยกาบ 58
จำแนกประเภทของข้อมูลตามพื้นฐานของเวลา ในการเก็บข้อมูล 2. ข้อมูลอนุกรมเวลา (time-series data) เช่น ตารางแสดงมูลค่าการส่งออกข้าวของประเทศไทย ปี พ.ศ. 2544-2548 พ.ศ. 2544 2545 2546 2547 2548 มูลค่า (ล้านบาท) 2,162 19,038 31,304 35,555 34,904
แหล่งที่มาของข้อมูล (source of data) แหล่งข้อมูลทางอ้อม (indirect source) เป็นแหล่งข้อมูลที่ผู้วิจัยไม่ได้เก็บข้อมูลด้วยตนเอง แต่เป็นการค้นคว้าจากแหล่งข้อมูลที่มีผู้อื่นเก็บรวบรวมไว้ แหล่งข้อมูลทางตรง (direct source) เป็นข้อมูลที่ผู้วิจัยได้จากการสำรวจ (survey) หรือ ทดลอง (experiment) ด้วยตนเอง
ระดับของข้อมูล ระดับนามบัญญัติ (Nominal Scale) เป็นระดับที่ใช้จำแนกความแตกต่างของสิ่งที่ต้องการวัดออกเป็นกลุ่ม ๆ โดยใช้ตัวเลข เช่น ตัวแปรเพศ แบ่งออกเป็นกลุ่มเพศชายและกลุ่มเพศหญิง ในการกำหนดตัวเลขอาจจะใช้เลข 1 แทนเพศชาย และเลข 2 แทนเพศหญิง เป็นต้น ตัวเลข 1 หรือ 2 หรือ 3 ที่ใช้แทนกลุ่มต่าง ๆ นั้น ถือเป็นตัวเลขในระดับนามบัญญัติไม่สามารถนำมาบวก ลบ คูณ หาร หรือหาสัดส่วนได้
ระดับของข้อมูล (ต่อ) 2. ระดับเรียงอันดับ (Ordinal Scales) เป็นระดับที่ใช้สำหรับจัดอันดับที่หรือตำแหน่งของสิ่งที่ต้องการวัด ตัวเลขในมาตรา การวัดระดับนี้เป็นตัวเลขที่บอกความหมายในลักษณะมาก-น้อย สูง-ต่ำ เก่ง-อ่อน กว่ากัน เช่น ด.ช.ดำสอบได้ที่ 1 ด.ช.แดงสอบได้ที่ 2 ด.ญ.เขียวสอบได้ที่ 3 หรือ การประกวดร้องเพลง นางสาวเขียวได้รางวัลที่ 1 นางสาวชมพูได้รางวัลที่ 2 นางสาวเหลืองได้รางวัลที่ 3 เป็นต้น ตัวเลขอันดับที่แตกต่างกันไม่สามารถบ่งบอกถึงปริมาณความแตกต่างได้ เช่น ไม่สามารถบอกได้ว่าผู้ที่ประกวดร้องเพลงได้รางวัลที่ 1 มีความเก่งมากกว่าผู้ที่ได้รางวัลที่ 2 ในปริมาณเท่าใด ตัวเลขในระดับนี้สามารถนำมาบวกหรือลบ กันได้
ระดับของข้อมูล (ต่อ) 3. ระดับช่วง (Interval Scale) เป็นระดับที่สามารถกำหนดค่าตัวเลขโดยมีช่วงห่างระหว่างตัวเลขเท่า ๆ กัน สามารถนำตัวเลขมาเปรียบเทียบกันได้ว่าว่ามีปริมาณมากน้อยเท่าใด แต่ไม่สามารถบอกได้ว่าเป็นกี่เท่าของกันและกัน เพราะมาตรา การวัดระดับนี้ไม่มี 0 (ศูนย์) แท้ มีแต่ 0 (ศูนย์) สมมติ เช่น นายวิชัยสอบได้ 0 คะแนน มิได้หมายความว่าเขาไม่มีความรู้ เพียงแต่เขาไม่สามารถทำข้อสอบซึ่งเป็นตัวแทนของความรู้ทั้งหมดได้ หรือ อุณหภูมิ 0 องศา มิได้หมายความว่าจะไม่มีความร้อน เพียงแต่มีความร้อนเป็น 0 องศาเท่านั้น จุดที่ไม่มีความร้อนอยู่เลยก็คือที่ -273 องศา ดังนั้นอุณหภูมิ 40 องศาจึงไม่สามารถบอกได้ว่ามีความร้อนเป็น 2 เท่าของอุณหภูมิ 20 องศา เป็นต้น ตัวเลขในระดับนี้สามารถนำมาบวก ลบ คูณ หรือหารกันได้
ระดับของข้อมูล (ต่อ) 4. ระดับอัตราส่วน (Ratio Scale) เป็นระดับที่สามารถกำหนด ค่าตัวเลขให้กับสิ่งที่ต้องการวัด มี 0 (ศูนย์) แท้ เช่น น้ำหนัก ความสูง อายุ เป็นต้น ระดับนี้สามารถนำตัวเลขมาบวก ลบ คูณ หาร หรือหาอัตราส่วนกันได้ คือสามารถบอกได้ว่า ถนนสายหนึ่งยาว 50 กิโลเมตร ยาวเป็น 2 เท่าของถนนอีกสายหนึ่งที่ยาวเพียง 25 กิโลเมตร ดังนั้น ผู้วิจัยจึงต้องมีความรู้ในเรื่องของมาตรา การวัดระดับ ต่าง ๆ เป็นอย่างดี เพื่อใช้ในการวินิจฉัยตัวแปรในงานวิจัยว่าอยู่ในมาตรา การวัดระดับใด เพื่อประโยชน์ในการเลือกใช้วิธีการทางสถิติให้มีความถูกต้องเหมาะสม
นิยามศัพท์พื้นฐาน (ต่อ) ตัวคงที่และตัวแปร (constant and variable) ตัวคงที่ (constant ) คือ ปริมาณหรือลักษณะที่ไม่เปลี่ยนแปลง เช่น ค่า ¶ ที่เท่ากับ 3.1416 หรือ ถ้าต้องการศึกษาเปรียบเทียบความเข้มข้นของสารกันบูดที่มีผลต่อการยับยั้งการเจริญของราขนมปัง ในการทดลองนี้ต้องใช้สารกันบูดชนิดเดียวกันตลอดการทดลอง ดังนั้น ชนิดของสารกันบูดคือ ตัวคงที่ (บางทีเรียกว่า ตัวแปรควบคุม)
นิยามศัพท์พื้นฐาน (ต่อ) ตัวแปร (variable) คือ ปริมาณ หรือ ลักษณะที่มีค่าเปลี่ยนแปลงไม่คงที่ภายใต้ภาวะที่กำลังศึกษา แบ่งเป็น - ตัวแปรเชิงคุณภาพ (qualitative variable) - ตัวแปรเชิงปริมาณ (quantitative variable)
นิยามศัพท์พื้นฐาน (ต่อ) ค่าสังเกต คือ ค่าของตัวแปรแต่ละค่าที่ได้จากการ ทดลอง สังเกต รวบรวม ตัวอย่าง ค่าสังเกต สมาชิก
นิยามศัพท์พื้นฐาน (ต่อ) การชักตัวอย่าง (sampling) คือการเลือกบางส่วนของกลุ่มประชากร ออกมาเป็นกลุ่มตัวอย่าง เพื่อใช้เป็นตัวแทน ของกลุ่มประชากร การชักตัวอย่าง แบ่งเป็น การชักตัวอย่างแบบอ้างอิงความน่าจะเป็น (probability sampling) แบ่งเป็น 1.1 การชักตัวอย่างแบบกลุ่มเชิงเดี่ยว (simple random sampling-SRS) เป็นการชักตัวอย่างที่เปิดโอกาสให้สมาชิกทุกตัวในกลุ่มประชากร มีโอกาสได้รับเลือกมาเป็นกลุ่มตัวอย่าง เท่าๆกัน เช่น การจับฉลาก (lottery method) การใช้ตารางเลขสุ่ม (random number table)
ตัวอย่างการใช้ตารางเลขสุ่มแบบง่าย
ใช้โปรแกรมสุ่ม ดังตัวอย่างข้างล่าง Supersoom Super random number generator Free random number generator
นิยามศัพท์พื้นฐาน (ต่อ) 1.2 การชักตัวอย่างอย่างมีระบบ (systemic sampling) เช่น ต้องการศึกษาอัตราการอยู่รอดของกระต่าย 300 ตัว โดยเขียนหมายเลขด้วยสีทนน้ำลงบนกระต่ายทุกตัว แล้ว สุ่มจับกระต่ายมาตรวจสอบการอยู่รอด ครั้งละ 20 ตัว ทุก 3 เดือน - หาค่าความกว้างของช่วงชักตัวอย่างจาก 300÷20 = 15 - สุ่มหาหมายเลขจากตารางเลขสุ่ม ระหว่าง 0 ถึง 15 สมมติว่า ได้หมายเลข 10 - คำนวณหน่วยตัวอย่าง โดยเริ่มจาก 0 หน่วยตัวอย่างที่ 1 = หมายเลข 10 + 0 (15) = 10 หน่วยตัวอย่างที่ 2 = หมายเลข 10 + 1 (15) = 25 ทำแบบเดียวกันจนครบจำนวน 20 หน่วยตัวอย่าง
นิยามศัพท์พื้นฐาน (ต่อ) 1.3 การชักตัวอย่างแบบเป็นชั้น (stratified random sampling) เหมาะกับการชักตัวอย่าง กลุ่มประชากรที่มีลักษณะแตกต่างกัน ในกลุ่มประชากรนั้น โดยแบ่งประชากรออกเป็นกลุ่มย่อย (stratum) โดยให้กลุ่มประชากรย่อยกลุ่มเดียวกันมีความคล้ายคลึงกันมากที่สุด และ กลุ่มประชากรย่อยต่างกลุ่มกันมีความแตกต่างกันมากที่สุด เช่น - การชักตัวอย่างผลพริกที่มีขนาดแตกต่างกัน 3 ขนาดคือ ใหญ่ กลาง และ เล็ก เพื่อทดสอบสารกำจัดราก่อโรคแอนแทรกโนส จากนั้นชักตัวอย่างจากพริกกลุ่มต่างๆ ตามที่จัดแบ่งไว้
นิยามศัพท์พื้นฐาน (ต่อ) 1.4 การชักตัวอย่างแบบเกาะกลุ่ม (cluster sampling) เป็นการชักตัวอย่างที่ต่างจาก stratified sampling คือ มีการแบ่งกลุ่มย่อย (cluster) ที่ให้กลุ่มประชากรย่อยในกลุ่มเดียวกันมีความแตกต่างกันมากที่สุด แต่ให้กลุ่มประชากรย่อยต่างกลุ่มกันมีความคล้ายคลึงกันมากที่สุด เช่น - นักวิจัยต้องการศึกษาพันธุกรรมของผึ้งชนิดต่างๆ ในประเทศไทย โดยเก็บตัวอย่างผึ้งในทุกจังหวัด ทำได้โดย 1) กำหนดผึ้งพันธุ์ต่างๆในประเทศไทยมาเป็นหน่วยตัวอย่าง 2) เลือกผึ้งพันธุ์ต่างๆในแต่ละจังหวัดมาเป็นหน่วยตัวอย่าง จากนั้นศึกษาพันธุกรรมของผึ้งทุกพันธ์ในข้อ 2
นิยามศัพท์พื้นฐาน (ต่อ) 2. การชักตัวอย่างแบบไม่อิงความน่าจะเป็น (non-probability sampling) เป็นการชักตัวอย่างที่ง่ายต่อการอธิบาย เสียค่าใช้จ่ายน้อย แต่ ไม่อาจสรุป หรือ อ้างกลับไปยังประชากรทั้งหมดได้ แบ่งเป็น 1) การชักตัวอย่างแบบเจาะจง (purposive sampling) 2) การชักตัวอย่างแบบโควตา (quota sampling) 3) การชักตัวอย่างแบบสะดวก (convenience sampling) 4) การชักตัวอย่างแบบลูกโซ่ (chain sampling)
คณิตศาสตร์พื้นฐานที่ควรทราบ พื้นฐานทักษะคณิตศาสตร์ที่ต้องมี คือ การบวก ลบ คูณ หาร เศษส่วน ทศนิยม ระบบจำนวน สมการ อสมการ ทักษะคณิตศาสตร์ที่ต้องเพิ่มเติม - การปัดเศษ - การใช้เครื่องหมายผลรวม ( Σ )
การปัดเศษ
การใช้เครื่องหมายผลรวม ( Σ ) การใช้เครื่องหมายผลรวม ( Σ )
การใช้เครื่องหมายผลรวม ( Σ ) การใช้เครื่องหมายผลรวม ( Σ )