การตรวจสอบคุณภาพเครื่องมือ หน่วยที่ 6 การตรวจสอบคุณภาพเครื่องมือ สำนักทดสอบทางการศึกษา สำนักงานคณะกรรมการการศึกษาขั้นพื้นฐาน
การตรวจสอบคุณภาพของเครื่องมือ การตรวจสอบคุณภาพของเครื่องมือ เป็นสิ่งสำคัญในการพัฒนาเครื่องมือให้มีประสิทธิภาพก่อนนำไปใช้จริงในการประเมินผู้เรียน ซึ่งผู้สอนต้องคำนึงถึงเนื้อหาสาระของสิ่งที่จะประเมินว่า มีความครอบคลุมมาตรฐาน ตัวชี้วัด และพฤติกรรมที่ต้องการให้เกิดกับผู้เรียนหรือไม่ เพียงใด รวมทั้งการใช้ภาษาในการสื่อความของเครื่องมือประเมินเหมาะสมตามวัยของผู้เรียนหรือไม่
คุณภาพของเครื่องมือ ความเที่ยงตรง, ความตรง (Validity) ความเชื่อมั่น, ความเที่ยง (Reliability)
ความเที่ยงตรง (Validity) เป็นคุณลักษณะของเครื่องมือที่แสดงถึงความสามารถในการวัดในสิ่งที่ต้องการวัดได้อย่างถูกต้อง แม่นยำ ตรงตามสิ่งที่ต้องการวัด คุณสมบัติด้านความเที่ยงตรงถือเป็นหัวใจของการวัดและประเมินผล เครื่องมือที่มีความเที่ยงตรงสูงจะทำให้ผลการวัดมีความหมาย ถูกต้อง แม่นยำ
ความเที่ยงตรง (Validity) ความเที่ยงตรงของเครื่องมือมีหลายประเภท ความเที่ยงตรงเชิงเนื้อหา (content validity) *** ความเที่ยงตรงเชิงสภาพ (concurrent validity) ความเที่ยงตรงเชิงพยากรณ์ (predictive validity) ความเที่ยงตรงเชิงโครงสร้าง (construct validity)
ความเที่ยงตรงเชิงเนื้อหา (content validity) เป็นความเที่ยงตรงที่ต้องตรวจสอบเป็นอับดับแรก วิธีที่นิยมใช้คือวิธีของโรวิแนลลี่และแฮมเบิลตัน (Rovinelli & Hambleton) หรือที่เรียกว่า ดัชนีความสอดคล้องระหว่างข้อสอบกับจุดประสงค์ (Index of Item Objective Congruence : IOC)
วิธีการหาค่าความเที่ยงตรงเชิงเนื้อหา (IOC) R N เมื่อ R แทน ผลรวมของคะแนนจากผู้เชี่ยวชาญ N แทน จำนวนผู้เชี่ยวชาญ
การแปลความหมายค่า IOC - ควรพิจารณาแก้ไขปรับปรุงหรือตัดข้อสอบหรือ ประเด็นการประเมินข้อนั้นทิ้ง
ตัวอย่าง การคำนวณหาค่า IOC ข้อคำถาม คนที่ 1 คนที่ 2 คนที่ 3 คนที่ 4 คนที่ 5 IOC ข้อ 1 1 4/5 = 0.8 ข้อ 2 -1 -1/5 = -0.2 เกณฑ์การพิจารณา ข้อสอบที่ใช้ได้ คือ ข้อสอบที่มีค่า IOC ตั้งแต่ 0.5 ขึ้นไป สรุป... ข้อสอบข้อ 1 มีความสอดคล้องกับจุดประสงค์ สามารถนำไปใช้สอบได้ ข้อสอบข้อ 2 ไม่สอดคล้องกับจุดประสงค์ ไม่ควรนำไปใช้ ต้องตัดทิ้งหรือปรับปรุงใหม่
ความเชื่อมั่น (Reliability) เป็นคุณลักษณะของเครื่องมือที่แสดงว่าเครื่องมือนั้นให้ผลการวัดคงที่ ไม่ว่าจะวัดกี่ครั้งหรือวัดในสภาพการณ์ที่แตกต่างกัน ก็ยังคงได้ผลการวัดคงเดิมหรือใกล้เคียงกับค่าเดิม เครื่องมือสำคัญของการวัดภาคปฏิบัติ คือ ผู้วัด ถ้าเครื่องมือมีคุณภาพ มีคุณลักษณะที่วัดชัดเจน เป็นรูปธรรม มีหลักเกณฑ์ให้คะแนนที่ดี ผลของผู้วัดคนเดียวกัน แม้จะประเมินต่างเวลาหรือผู้วัดคนละคนก็ควรให้ผลสอดคล้องกัน
การหาค่าความเชื่อมั่น การตรวจสอบความเชื่อมั่นของเครื่องมือประเมินภาคปฏิบัติค่อนข้างแตกต่างจากการหาความเชื่อมั่นของเครื่องมือวัดผลสัมฤทธิ์ทางการเรียน ความเชื่อมั่นของเครื่องมือที่ควรให้ความสนใจ คือ ความเชื่อมั่นระหว่างผู้ประเมิน และความเชื่อมั่นแบบการวัดซ้ำ
วิธีการหาค่าความเชื่อมั่นระหว่างผู้ประเมิน โดยการหาความสัมพันธ์ระหว่างคะแนนการประเมินของผู้ประเมิน - กรณีผู้ประเมิน 2 คน ใช้สัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน หรือใช้ความสัมพันธ์แบบอื่นๆ ตามระดับการวัดตัวแปร โดยหาจากสูตร - กรณีมีผู้ประเมินมากกว่า 2 คน สามารถใช้ ANOVA ช่วยในการทดสอบความแตกต่างระหว่างผู้ประเมิน ข้อมูลที่ได้จากการวิเคราะห์ความแปรปรวนสามารถกำหนดค่าความสัมพันธ์ได้ โดยใช้สูตรการหาความสัมพันธ์แบบ intra-class correlation
วิธีการหาค่าความเชื่อมั่นแบบการวัดซ้ำ เป็นการหาค่าความเชื่อมั่นของเครื่องมือโดยนำเครื่องมือชุดเดียวกันไปทดสอบกับคนกลุ่มเดียวกันสองครั้งในเวลาต่างกัน แล้วนำค่าการวัดสองชุดที่ได้มาหาความสัมพันธ์กัน สัมประสิทธิ์แห่งความเชื่อมั่นในกรณีนี้คือสัมประสิทธิ์สหสัมพันธ์ระหว่างคะแนนสองชุดที่ได้จากการวัดกับคนกลุ่มเดียวกัน ด้วยเครื่องมือชุดเดิมสองครั้ง ใช้วิธีการคำนวณแบบเพียร์สันเช่นเดียวกับการหาความเชื่อมั่นระหว่างผู้ประเมิน ข้อตกลงเบื้องต้นของการหาค่าความเชื่อมั่นแบบนี้ คือ สมมุติให้ความสามารถของผู้ถูกวัดคงที่ในช่วงของการสอบครั้งแรกและการสอบครั้งหลัง
เกณฑ์พิจารณาค่าความเชื่อมั่นของเครื่องมือ ค่าความเชื่อมั่นที่คำนวณได้จะมีค่าตั้งแต่ -1 ถึง +1 โดยมีเกณฑ์สำหรับพิจารณาค่าความเชื่อมั่นในการนำเครื่องมือนั้นๆไปใช้มีดังนี้ เครื่องมือที่ใช้วัดการทำหน้าที่ของอวัยวะต่างๆ ในร่างกายของมนุษย์ ควรมีความเชื่อมั่น ตั้งแต่ 0.95 ขึ้นไป เครื่องมือที่มีมาตรฐานทั่วๆ ไป ควรมีความเชื่อมั่นตั้งแต่ 0.80 ขึ้นไป เครื่องมือที่สร้างและพัฒนาขึ้นเอง ควรมีความเชื่อมั่นอย่างน้อย 0.70 ขึ้นไป เครื่องมือที่ใช้วัดเจตคติความรู้สึก ควรมีความเชื่อมั่นตั้งแต่ 0.70 ขึ้นไป เครื่องมือที่ใช้ในการสังเกต ควรมีค่าความเชื่อมั่นตั้งแต่ 0.80 ขึ้นไป
3. ความยากง่าย (Difficulty) ความยากง่ายของเครื่องมือมีความเหมาะสมกับความสามารถของผู้สอบ ซึ่งพิจารณาจาก สัดส่วน หรือเปอร์เซ็นต์ของจำนวนคนที่ตอบข้อสอบข้อนั้นถูกจากคนที่สอบทั้งหมด
ค่าความยากง่าย (Difficulty Index) มีค่าตั้งแต่ 0.00 จนถึง 1.00 เกณฑ์ในการแปลความหมายค่าความยากง่าย ค่า p = 0.00-0.19 หมายความว่า ข้อสอบข้อนั้นยากเกินไป ค่า p = 0.20-0.39 หมายความว่า ข้อสอบข้อนั้นค่อนข้างยาก ค่า p = 0.40-0.59 หมายความว่า ข้อสอบข้อนั้นยากง่ายปานกลาง ค่า p = 0.60-0.79 หมายความว่า ข้อสอบข้อนั้นค่อนข้างง่าย ค่า p = 0.80-1.00 หมายความว่า ข้อสอบข้อนั้นง่ายเกินไป เกณฑ์: ข้อสอบที่มีค่าความยากง่ายพอเหมาะ หรือมีคุณภาพดี ค่า p ใกล้เคียง .50 หรือ อยู่ระหว่าง 0.20 – 0.80
ค่าระดับความยากง่าย (Difficulty Index) ข้อสอบอัตนัย 2. แบ่งกลุ่มสูง (H) และกลุ่มต่ำ (L) 3. คำนวณสัดส่วนของคะแนนรวมรายตัวชี้วัดที่ได้จำแนกตามกลุ่ม • p = ———— PH + PL 2 1. ตรวจและเรียงคะแนนรวมจากสูงสุดถึงต่ำสุด 4. วิเคราะห์ค่าความยาก (p) PH = —— PL = —— L TL H TH H รวมคะแนนกลุ่มสูง L รวมคะแนนกลุ่มต่ำ TH รวมคะแนนเต็มกลุ่มสูง TL รวมคะแนนเต็มกลุ่มต่ำ
ตชว. คะแนนเต็ม กลุ่มสูง (H) (4 คน) กลุ่มต่ำ (L) (4 คน) 1 2 3 4 5 6 7 8 10 9 20 15 17 30 25 24 16 13 11 รวม 100 80 70 68 61 60 48 43
ข้อ 1 ง่ายเกินไป อำนาจจำแนกต่ำ ข้อ 2 – ข้อ 4 เป็นข้อสอบที่ใช้ได้ ตชว. คะแนน เต็ม กลุ่มสูง (4 คน) กลุ่มต่ำ PH PL Pi 1 10 37 40 28 .93 .70 .81 2 36 24 .90 .60 .75 3 20 67 80 42 .84 .53 .68 4 30 94 120 56 .78 .47 .62 5 43 26 .36 .22 .29 ข้อ 1 ง่ายเกินไป อำนาจจำแนกต่ำ ข้อ 2 – ข้อ 4 เป็นข้อสอบที่ใช้ได้ ข้อ 5 ค่อนข้างยาก อำนาจำแนกต่ำ
4. อำนาจจำแนก (Discrimination) ความสามารถของเครื่องมือในการจำแนกคนที่อยู่ในกลุ่มเก่งออกจากคนที่อยู่ในกลุ่มอ่อนได้ ซึ่งพิจารณาจากผลต่างของสัดส่วนของกลุ่มเก่งที่ตอบถูกกับกลุ่มอ่อนที่ตอบถูก
ค่าอำนาจจำแนก (Discrimination power) มีค่าตั้งแต่ -1.00 จนถึง 1.00 เกณฑ์ในการแปลความหมายค่าอำนาจจำแนก ค่า r = -1.00-0.19 หมายความว่า ข้อสอบข้อนั้นจำแนกไม่ได้เลย ค่า r = 0.20-0.39 หมายความว่า ข้อสอบข้อนั้นจำแนกได้เล็กน้อย ค่า r = 0.40-0.59 หมายความว่า ข้อสอบข้อนั้นจำแนกได้ปานกลาง ค่า r = 0.60-0.79 หมายความว่า ข้อสอบข้อนั้นจำแนกได้ดี ค่า r = 0.80-1.00 หมายความว่า ข้อสอบข้อนั้นจำแนกได้ดีมาก เกณฑ์: ข้อสอบที่มีคุณภาพดี ค่า r ตั้งแต่ +0.20 ขึ้นไป
ค่าอำนาจจำแนก(Discrimination power) ข้อสอบอัตนัย 1. ตรวจและเรียงคะแนนรวมจากสูงสุดถึงต่ำสุด 2. แบ่งกลุ่มสูง (H) และกลุ่มต่ำ (L) 3. คำนวณสัดส่วนของคะแนนรวมของตัวชี้วัดที่ได้จำแนกตามกลุ่ม H TH L TL PH = —— PL = —— H รวมคะแนนกลุ่มสูง L รวมคะแนนกลุ่มต่ำ TH รวมคะแนนเต็มกลุ่มสูง TL รวมคะแนนเต็มกลุ่มต่ำ 4. วิเคราะห์ค่าอำนาจจำแนก (r) • r = PH – PL
ข้อ 1 ง่ายเกินไป อำนาจจำแนกต่ำ ข้อ 2 – ข้อ 4 เป็นข้อสอบที่ใช้ได้ ตชว. คะแนน เต็ม กลุ่มสูง (4 คน) กลุ่มต่ำ PH PL ri 1 10 37 40 28 .93 .70 .23 2 36 24 .90 .60 .30 3 20 67 80 42 .84 .53 .31 4 30 94 120 56 .78 .47 5 43 26 .36 .22 .14 ข้อ 1 ง่ายเกินไป อำนาจจำแนกต่ำ ข้อ 2 – ข้อ 4 เป็นข้อสอบที่ใช้ได้ ข้อ 5 ค่อนข้างยาก อำนาจำแนกต่ำ
การตรวจสอบคุณภาพเกณฑ์การให้คะแนน ก่อนทำการประเมินการปฏิบัติงานครูต้องตรวจสอบเกณฑ์การให้คะแนน เพื่อตัดสินใจว่าจำเป็นต้องมีการประเมินการปฏิบัติงานหรือไม่ หรือมีความเป็นไปได้หรือไม่ที่จะประเมินการปฏิบัติงาน ลักษณะของการประเมินการปฏิบัติงานที่สำคัญมีดังนี้ สิ่งที่จะประเมินต้องมีการปฏิบัติอย่างแท้จริง สิ่งที่ประเมินเป็นผลมาจากการเรียนรู้ทักษะ สิ่งที่ประเมินเป็นการประเมินความเข้าใจในการประยุกต์ใช้ความรู้ ผลงานที่ได้รับต้องอยู่ในรูปที่สามารถประเมินได้
การตรวจสอบคุณภาพของเกณฑ์การประเมิน (rubric) 1 Objective testing Rater1 Rater2 Rater3 ผลการตอบของนักเรียน ปรับปรุง พอใช้ ดี Concurrent Validity testing Rater1 2