การทดสอบสมมติฐาน (Hypothesis Testing) การใช้โปรแกรมคอมพิวเตอร์ทางสถิติในด้านสังคมศาสตร์ (The Application of Statistical Package in Social Sciences) การทดสอบสมมติฐาน (Hypothesis Testing) ผู้ช่วยศาสตราจารย์ ดร. เรวัต แสงสุริยงค์ URL: http://www.huso.buu.ac.th/rewat e-mail: rewat@buu.ac.th
พื้นฐานวิธีการหาความรู้ด้วยการทดสอบสมมติฐาน (Epistemological Foundations of Hypothesis Testing) 1. เป็นวิธีการหนึ่งและโดยเฉพาะกระบวนการสรุป (generates) การกระทำ (actions) ของประชากรที่ได้รับอิทธิพลมาจากตัวแปรบางตัว 2. มีตัวอย่างของทฤษฎีจำนวนมากที่ได้รับการยอมรับมาอย่างยาวนาน แต่ต่อมาขาดความน่าเชื่อถือ เพราะความจริง (truths) ที่อยู่บนฐานของความเป็นจริงถูกปฎิเสธ 3. ถ้าเราไม่มั่นใจว่า ทฤษฎี (theory) นั้น ถูกต้อง (true) ดังนั้น วิธีที่ดีที่สุดคือ เราต้องตัดสินด้วย ความน่าจะเป็น (probability) ว่า ทฤษฎี นั้น ถูกต้อง
การทดสอบสมมติฐาน (Hypothesis Testing) การทดสอบสมมติฐาน คือ กระบวนการที่นักวิจัยใช้ในการตัดสินใจ (determine) ประเมินข้อมูลเชิงประจักษ์ (empirical value) ในการทดสอบ/ยืนยันทฤษฎี (theory) การทดสอบสมมติฐาน พัฒนามาจากวิธีการตรวจสอบ (proof) ความขัดแย้งทางสถิติ (statistical contradiction) หลักฐาน (evidence) ที่รวบรวมมาจากข้อสนับสนุนทางทฤษฎี (theory) โดยการอธิบายว่า (demonstrating) ข้อมูล (data) มีความแตกต่าง (unlikely) จากการสังเกต (observed) ถ้าตัวแบบทางทฤษฎีที่สร้างมาจากสมมติฐานเป็นเท็จ (false)
ประเภทของสมมติฐาน สมมติฐานทางวิจัย (Research Hypothesis) หมายถึง สมมติฐานที่ผู้วิจัย เขียนไว้ในตอนแรกเริ่มการวิจัย เป็นการคาดเดาผลไว้ล่วงหน้าว่าจะเป็นไปตามนั้น เป็นลักษณะของการใช้คำบรรยายหรือพรรณนาลักษณะความ สัมพันธ์ของตัวแปร มักอยู่ในลักษณะการคาดคะเนผลว่าแตกต่างกัน มากกว่า หรือไม่แตกต่างกัน สมมติฐานทางสถิติ (Statistical Hypothesis) หมายถึง สมมติฐานทางวิจัยที่ถูกแทนที่ด้วยการใช้สัญลักษณ์ในทางคณิตศาสตร์ หรือสถิติที่บ่งบอกความสัมพันธ์ของตัวแปร ในรูปของเครื่องหมายแทนคุณลักษณะของตัวแปร นั้นๆ เป็นสมมติฐานที่ใช้ในการวิเคราะห์ข้อมูลเพื่อการทดสอบสมมติฐานการวิจัย
สมมติฐานทางสถิติ สมมติฐานทางวิจัยจะถูกแปลงให้เป็นสมมติฐานทางสถิติใน 2 ลักษณะ สมมติฐานศูนย์หรือสมมติฐานหลักหรือสมมติฐานที่เป็นกลางหรือสมมติฐานไร้นัยสำคัญ (Null Hypothesis : Ho หรือ H0) หมายถึง สมมติฐานที่มิได้บ่งชี้ความแตกต่างหรือความสัมพันธ์ของตัวแปร สมมติฐานทางเลือกหรือสมมติฐานรอง หรือสมมติฐานที่เหลือ (Alternative Hypothesis : Ha หรือ H1) หมายถึง สมมติฐานที่ระบุความสัมพันธ์ของตัวแปร ทั้งในลักษณะกำหนดทิศทางบวก หรือลบ และไม่กำหนดทิศทาง
สมมติฐานศูนย์และสมมติฐานทางเลือก (Null and Alternative Hypotheses) Chapter 9 11/15/2018 สมมติฐานศูนย์และสมมติฐานทางเลือก (Null and Alternative Hypotheses) เปลี่ยนคำถามการวิจัย (research question) ให้เป็นสมมติฐานหลัก (null hypotheses) และสมมติฐานทางเลือก (alternative hypotheses) สมมติฐานหลัก (null hypothesis: H0) เป็นประโยคที่กล่าวถึง ไม่มีความแตกต่างของประชากร (no difference in the population) สมมติฐานทางเลือก (alternative hypothesis: Ha) เป็นประโยคที่กล่าวถึง ความแตกต่างของประชากร (difference) We seek evidence against H0 as a way of bolstering Ha The first step in the procedure is to state the hypotheses null and alternative forms. The null hypothesis (abbreviate “H naught”) is a statement of no difference. The alternative hypothesis (“H sub a”) is a statement of difference. Seek evidence against the claim of H0 as a way of bolstering Ha. The next slide offers an illustrative example on setting up the hypotheses. Basic Biostat
ประเภทของการทดสอบสมมติฐาน การตัดสินใจเกี่ยวกับสมมติฐานโดยอาศัยเกณฑ์บางอย่างเข้าช่วย โดยทั่วไปจะใช้วิธีการทางสถิติกับข้อมูลที่ได้มาจากตัวอย่าง แล้วพิจารณาความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้น มี 2 แบบ การทดสอบแบบหางเดียว (One tailed Test) คือการทดสอบว่าค่าพารามิเตอร์มีค่ามากกว่า หรือน้อยกว่าค่าที่กำหนด โดยสังเกตได้จากใน H1 หรือ Ha จะมีเครื่องหมาย > หรือ < (ถ้าเป็น > จะเรียกว่าทดสอบแบบหางเดียวด้านขวา แต่ถ้าเป็น < จะเรียกว่า ทดสอบแบบหางเดียวด้านซ้าย) การทดสอบแบบ 2 หาง (Two tailed Test) คือการทดสอบว่าค่าพารามิเตอร์มีค่าเท่ากับค่าที่กำหนดหรือไม่ (สังเกตจากใน H1 หรือ Ha จะมีเครื่องหมาย =)
Figure 16.6 A General Procedure for Hypothesis Testing ขั้นที่ 1 สร้างสมมติฐาน H0 และ H1 (Formulate H0 and H1) ขั้นที่ 2 เลือกการทดสอบที่เหมาะสม (Select Appropriate Test) ขั้นที่ 3 เลือกระดับนัยสำคัญทางสถิติ (Choose Level of Significance, α) ขั้นที่ 4 รวบรวมข้อมูลและประมวลสถิติ (Collect Data and Calculate Test Statistic) ขั้นที่ 5 ก) กำหนดความน่าจะเป็นให้สอดคล้องกับสถิติทดสอบ (Determine Probability Associated with Test Statistic: TSCAL) ข) กำหนดค่าวิกฤตในการทดสอบสถิติ (Determine Critical Value of Test Statistic: TSCR ) ก) เปรียบเทียบระดับนัยสำคัญ (Compare with Level of Significance, α) ข) ตัดสินใจถ้าค่าวิกฤตไม่ตกอยู่ในพื้นที่การปฏิเสธ (Determine if TSCR falls into (Non) Rejection Region) ขั้นที่ 6 ขั้นที่ 7 ปฏิเสธหรือยอมรับ H0 และ H1 (Reject or Do Not Reject H0 ) ขั้นที่ 8 เขียนข้อสรุปการวิจัย (Draw Research Conclusion)
ขั้นตอนการทดสอบสมมติฐาน #1 (A General Procedure for Hypothesis Testing) กำหนด H0 และ H1 กำหนดระดับนัยสำคัญ หาเขตวิกฤต คำนวณหาค่าสถิติสำหรับทดสอบ สรุปผลการทดสอบ
Figure 16.9 A Broad Classification of Hypothesis Testing Procedures ทดสอบความสัมพันธ์ (Test of Association) ทดสอบความแตกต่าง (Test of Difference) ค่าเฉลี่ย (Means) สัดส่วน (Proportions)
วิธีการทดสอบสมมติฐาน (Hypothesis Testing Procedures) มีพารามิเตอร์ (Parametric) ไร้พารามิเตอร์(Nonparametric) Wilcoxon Rank Sum Test Kruskal Wallis H-Test t Test <30 ตัวอย่าง ไม่ทราบค่าความแปรวน ประชากร Z Test >30 ตัวอย่าง ทราบค่าความแปรวน กลุ่มตัวอย่าง One Way ANOVA Many More Tests Exist! 12
การทดสอบแบบมีพารามิเตอร์ (Parametric Test Procedures) 1. เกี่ยวกับพารามิเตอร์ของประชากร (Population Parameters) ตัวอย่าง: ค่าเฉลี่ยประชากร (Population Mean) 2. ต้องเป็นระดับการวัดแบบช่วงมาตรา (Interval Scale) หรือสัดส่วนมาตรา (Ratio Scale) ตัวอย่าง: ความสูงเป็นนิ้ว (72, 60.5, 54.7) 3. มีข้อตกลงเบื้องต้นที่เข้มงวด (Stringent Assumptions) ตัวอย่าง: มีการกระจายปกติ (Normal Distribution) 4. ตัวอย่างสถิติ: t Test, Z Test, F test, 2 Test
การทดสอบแบบไร้พารามิเตอร์ (Nonparametric Test Procedures) 1. ไม่เกี่ยวกับพารามิเตอร์ของประชากร ตัวอย่าง: การแจกแจงความน่าจะเป็น (Probability Distributions) ความเป็นอิสระ (Independence) 2. สามารถใช้ได้กับข้อมูลทุกมาตรวัด สัดส่วนหรือช่วงมาตรา (Ratio or Interval) จัดอันดับ (Ordinal) ตัวอย่าง: ดี-ดีมาก-ดีที่สุด นามมาตรา (Nominal) ตัวอย่าง: ชาย-หญิง 3. ตัวอย่างสถิติ: Wilcoxon Rank Sum Test
ข้อดีของการทดสอบแบบไร้พารามิเตอร์ (Advantages of Nonparametric Tests) 1. ใช้ได้กับทุกมาตราการวัด 2. ง่ายในการคำนวณ (มีการพัฒนามาก่อนการใช้คอมพิวเตอร์อย่างแพร่หลาย) 3. มีข้อตกลงเบื้องต้นเล็กน้อย 4. ไม่ต้องเกี่ยวข้องกับพารามิเตอร์ของประชากร 5. อาจได้ผลการคำนวณถูกต้องเช่นเดียวกับวิธีการแบบมีพารามิเตอร์
ข้อเสียของการทดสอบแบบไร้พารามิเตอร์ (Disadvantages of Nonparametric Tests) 1. อาจทำให้ข้อมูลเสียหาย ถ้าข้อมูลอนุญาตให้ใช้การทดสอบแบบมีพารามิเตอร์ ตัวอย่าง: การแปลงข้อมูลจากการวัดด้วยสัดส่วนมาตราไปเป็นอันดับมาตรา 2. คำนวณด้วยมือยากสำหรับกลุ่มตัวอย่างที่มีขนาดใหญ่ 3. ตารางคำนวณไม่สามารถสร้างได้อย่างแพร่หลาย
การตั้งสมมติฐานทางสถิติ สมมติฐานมี 2 ชนิด สมมติฐานหลัก (Null Hypothesis) ใช้สัญลักษณ์ H0 หรือ Ho หมายถึง ข้อสมมติหรือข้อความที่เกี่ยวกับค่าพารามิเตอร์ที่ต้องการทดสอบ สมมติฐานทางเลือก (Alternative Hypothesis) ใช้สัญลักษณ์ H1 หรือ Ha หมายถึง ข้อสมมติหรือข้อความอย่างอื่นที่เป็นไปได้ทั้งหมดซึ่งไม่อยู่ในสมมติฐานหลัก
ความสัมพันธ์ระหว่างการแจกแจงข้อมูลและความน่าจะเป็น (Distribution & Probability) ถ้าเรารู้อันดับที่ของค่าเบี่ยงเบนมาตรฐาน (s.th.) ในการแจกแจงข้อมูล (distribution) ของเหตุการณ์ (events) เราก็จะรู้อันดับที่ของค่าเบี่ยงเบียนมาตรฐาน (s.th.) ของความน่าจะเป็น (probability) ของเหตุการณ์นั้น a/2 If we know s.th. about the distribution of events, we know s.th. about the probability of these events Many common attributes (such as for example feet size) roughly follow the normal distribution, as it is depicted in this graph The normal distribution is sufficiently characterised by its mean (mu) and its standard deviation (sigma) mean/mu = average of the data Standard deviation/sigma = measure for the variability of the data That means that if you are given the mean and standard deviation of a normal distribution, you know what it looks like, i.e. you can in theory draw it As you can see, the area that covers the distance from mu – sigma to mu + sigma covers approximately 68% of all the values in the normal distribution; from mu – 2*sigma to mu + 2*sigma covers roughly 95%, and 99% if you consider the interval of 3*sigma around mu This distribution basically represents your distribution under the assumption that the H0 is correct this is important, because if you now discover that, say, Will Penny has size 14, then this is a rather unlikely event
การแจกแจงปกติแบบมาตรฐาน #1 (Standardized normal distribution) ประชากร (Population) กลุ่มตัวอย่าง (Sample) ค่า z (z-score) เป็นค่าที่แสดงอยู่บนแก่น x (x-axis) ที่เราเรียกกันว่า ค่าความน่าจะเป็น (p-value) สมมติฐาน 2 หาง (2-tailed): z = +/- 1.96 คือ 2SD ที่มีค่าเฉลี่ย (mean) โดยประมาณ = 95% -> ‚ค่านัยสำคัญ (significant) สมมติฐาน 1 หาง (1-tailed): z = +/-1.65 คือ 95% บวกหรือลบเป็นต้นไปจนถึงอินฟินิตี้ (infinity) There are infinitely many normal distribution with infinitely many mu‘s and sigma‘s. Here then the problem of comparability arises i.e. whether an IQ score of 115 in one test (ranging from 0-200) is comparable to an IQ score of 115 in another (ranging from 50-150); (or whether a 5° difference in Celsius is the same as a 5° difference in Fahrenheit) One way to make distributions directly comparable, is to standardise them by computing a linear transformation The standardised normal distribution does exactly that and is defined as that normal distribution with mu=0 and sigma=1 This can be thought of as expressing your data in the same ‘units’. Therefore, if you remember from the previous slide, the range of 2 standard deviations around the mean covers approximatley 95%; because the standard deviation of a standardised normal distribution is 1, a z-score of +2 or –2, i.e. 2 std, gives the boundary for our confidence interval Only for 2-tailed tests! See distr. around mean versus area from –infinity to z=2.0
การแจกแจงปกติแบบมาตรฐาน #/2 (Standardized normal distribution) -1.96 +1.96 95%
การกำหนดขอบเขตที่จะปฏิเสธสมมติฐาน (Critical Region) การตัดสินใจที่จะปฏิเสธหรือยอมรับ H0 ขึ้นอยู่กับค่าสถิติที่เราคำนวณได้จากตัวอย่าง (เช่นค่าของ X2, Z, t) โดยนำค่าสถิติที่คำนวณได้ไปเทียบกับ ค่าวิกฤต (Critical Value) เพื่อดูว่าค่าสถิตินั้นตกอยู่ใน เขตวิกฤต (Critical Region) หรือไม่ (ค่าวิกฤตมักหาโดยการเปิดตารางสถิติ) ถ้าค่าสถิติที่คำนวณได้จากข้อมูลตัวอย่างมีค่าตกอยู่ใน เขตวิกฤต (Critical Region) เราจะปฏิเสธ H0 แต่ถ้ามีค่าตกอยู่ในเขตการยอมรับ (Acceptance Region) เราจะยอมรับ H0
ค่าวิกฤต (Critical Value) เป็นค่าที่แบ่งพื้นที่ใต้โค้งความน่าจะเป็นออกเป็น 2 ส่วน ส่วนแรกเรียกว่าเขตวิกฤต (Critical Region) ซึ่งเป็นบริเวณที่ทำให้เราปฏิเสธ H0 ส่วนที่สองเรียกว่าเขตการยอมรับ (Acceptance Region) ซึ่งเป็นบริเวณที่ทำให้ยอมรับ H0 Critical Region Acceptance Region C1 C2
การทดสอบสมมติฐานแบบหางเดียวด้านขวา H0 ≤ 0 H1 0 จะปฏิเสธ H0 ถ้า Z* > C Critical Region Acceptance Region C (Critical Value)
การทดสอบสมมติฐานแบบหางเดียวด้านซ้าย H0 0 H1 0 จะปฏิเสธ H0 ถ้า Z* < C Critical Region Acceptance Region C (Critical Value)
การทดสอบสมมติฐานแบบ 2 หาง H0 0 H1 0 จะปฏิเสธ H0 ถ้า Z* < C1 หรือ Z* > C2 Critical Region Critical Region Acceptance Region C1 C2
ค่าความน่าจะเป็น (P-value) เป็นพื้นที่ใต้โค้งความน่าจะเป็นที่หาได้จากค่าสถิติสำหรับการทดสอบสมมติฐานถ้าเป็นการทดสอบหางเดียวขวามือจะเป็นพื้นที่ด้านขวาของค่าสถิติ และถ้าเป็นการทดสอบหางเดียวทางซ้ายจะเป็นพื้นที่ด้านซ้าย
ค่า P-value ในการทดสอบแบบหางเดียวทางขวา = 0.05 P-value = 0.1314 Z* = 1.12 ยอมรับ H0 เพราะ P-value >
ค่า P-value ในการทดสอบแบบหางเดียวทางซ้าย = 0.05 P-value = 0.1314 Z* = -1.12 ยอมรับ H0 เพราะ P-value >
ค่า P-value ในการทดสอบ 2 ทาง Z*1 = 1.51 P-value / 2 = 0.0655 Z*2 = -1.51 = 0.05 /2 /2 ยอมรับ H0 เพราะ P-value >
เปรียบเทียบการปฏิเสธหรือยอมรับสมมติฐานหลัก
ระดับนัยสำคัญกับการยอมรับสมมติฐาน ประเภทของสมมติฐาน สมมติฐาน ระดับนัยสำคัญ () หางเดียว (One Tail) H1 : 1 2 0.05 H0 : 1 2 H1 : 1 2 สองหาง (Two Tails) 0.025 H1 : 1 2
ตารางค่าวิกฤตของที (Table of critical values of t)
ความคลาดเคลื่อนในการตัดสินใจยอมรับสมมติฐาน ข้อเท็จจริงของ H0 H0 เป็นจริง H0 ไม่เป็นจริง ปฏิเสธ H0 ความคาดเคลื่อนชนิดที่ 1 (Type I error) 1- ตัดสินใจถูกต้อง ยอมรับ H0 1- ความคาดเคลื่อนชนิดที่ 2 (Type II error)
แนวทางการทดสอบสมมติฐาน (Hypothesis Testing Roadmap) ตัวแปรแบ่งกลุ่ม ตัวแปรต่อเนื่อง c2 Contingency Tables Non-Normal, Ordinal Scaled Normal, Interval Scaled Correlation Medians Variance Means Variance Same tests as Non-Normal Medians Correlation Levene’s Z-tests c2 Sign Test t-tests F-test Wilcoxon ANOVA Bartlett’s Kruskal Wallis Correlation Mood’s Regression Friedman’s ที่มา: http://www.nargund.com/gsu/mba7025/Week6/Hypothesis%20Testing.ppt